Реферат: Научные проблемы Интернета

Теперь, приняв Lkk =0 и Lij = Lji =1 (для всех i , j , i ¹ j ), получим окончательно

(1.34)

Формула (1.34) служит основой для принятия решений.

Введя соотношение

, (1.35)

можно утверждать, что наименьшему значению b i будет соответствовать документ с наименьшей оценкой возможности быть владельцем Х .

Применение формулы (1.34) потребует упрощающего допущения, а именно - предельные распределения значений частот встречаемости термов в тексте должны подчиняться многомерному нормальному закону.

Априорную вероятность того, что владельцем документа является шаблон Ii , можно определить на основе теории выбора многокритериальных решений с использованием функции полезности.

Для оценки вероятности необходимо определить, вероятность фактического наблюдения вектора х , значимо не отличающегося от результатов расчета частот встречаемости термов, порождаемых доменом w m ,что повлечет за собой необходимость спланировать специальный вычислительный эксперимент с построением информационной сети через проективные геометрии и поля Галуа.

Таким образом, методика расчетов сводится к определению членов формулы (1.34). Для определения множителей P ( w i ) используется техника многокритериальной оценки на основе процедуры Саати, где в качестве альтернатив рассматриваются домены w i , а критериями являются факторы, обусловливающие априорные значения P ( w i ) . Для оценки значений P ( x| w i ) проводится серия вычислительных экспериментов, целью которых является получение математического ожидания и среднеквадратического отклонения частот встречаемости термов в домене w i .

Последующее изложение раскрывает существо указанной методики и ее теоретико-практическое наполнение.

Оценка - априорной вероятности того, что владельцем документа является домен w i

Значение искомой вероятности можно получить путем математической обработки экспертных оценок специалистов с привлечением теории многокритериальных решений и функции полезности.

Значения dij частных функций полезности, присваиваемые экспертами каждому домену, могут располагаться в диапазоне [0, 1]. Чем dij ближе к единице, тем, по мнению эксперта, вероятнее соответствие факта принадлежности j -го ключевого слова i - му домену.

Для выявления возможного домена - владельца выбраны следующие критерии:

Т1 - степень соответствия входной спецификации тематике i -го шаблона-документа,

Т2 – распространенность тематики;

Т3 – цитируемость документов по тематике за последний месяц;

Т4 – степень общности тематики (широта тематики).

Для получения обобщенной, комплексной оценки вероятности по p критериям одновременно необходимо определить коэффициенты d j , характеризующие значимость, приоритеты (статистические веса) каждого критерия. Для этой цели используется алгоритм Саати, по которому строится матрица приоритетов D :

Т1 Т2 Т3 Т4
Т1 1 d12 d13 d14
Т2 d21 1 d22 d24
Т3 d31 d32 1 d34
Т4 d41 d42 d43 1

Для каждой строки находим

( 1.36 )

Откуда

( 1.37 )

Найденные значения статистических весов считаются согласованными, если выполняется условие Саати:

( 1.38 )

где

Размер матрицы 1 2 3 4 5 6 7 8 9 10
x 0 0 0,58 0,90 1,12 1,24 1,32 1,41 1,45 1,49

Обобщенную оценку вероятности владельца документа Ii можно вычислить по формуле:

К-во Просмотров: 453
Бесплатно скачать Реферат: Научные проблемы Интернета