Реферат: Научные проблемы Интернета
Теперь, приняв Lkk =0 и Lij = Lji =1 (для всех i , j , i ¹ j ), получим окончательно
(1.34)
Формула (1.34) служит основой для принятия решений.
Введя соотношение
, (1.35)
можно утверждать, что наименьшему значению b i будет соответствовать документ с наименьшей оценкой возможности быть владельцем Х .
Применение формулы (1.34) потребует упрощающего допущения, а именно - предельные распределения значений частот встречаемости термов в тексте должны подчиняться многомерному нормальному закону.
Априорную вероятность того, что владельцем документа является шаблон Ii , можно определить на основе теории выбора многокритериальных решений с использованием функции полезности.
Для оценки вероятности необходимо определить
, вероятность фактического наблюдения вектора х , значимо не отличающегося от результатов расчета частот встречаемости термов, порождаемых доменом w m ,что повлечет за собой необходимость спланировать специальный вычислительный эксперимент с построением информационной сети через проективные геометрии и поля Галуа.
Таким образом, методика расчетов сводится к определению членов формулы (1.34). Для определения множителей P ( w i ) используется техника многокритериальной оценки на основе процедуры Саати, где в качестве альтернатив рассматриваются домены w i , а критериями являются факторы, обусловливающие априорные значения P ( w i ) . Для оценки значений P ( x| w i ) проводится серия вычислительных экспериментов, целью которых является получение математического ожидания и среднеквадратического отклонения частот встречаемости термов в домене w i .
Последующее изложение раскрывает существо указанной методики и ее теоретико-практическое наполнение.
Оценка - априорной вероятности того, что владельцем документа является домен w i
Значение искомой вероятности можно получить путем математической обработки экспертных оценок специалистов с привлечением теории многокритериальных решений и функции полезности.
Значения dij частных функций полезности, присваиваемые экспертами каждому домену, могут располагаться в диапазоне [0, 1]. Чем dij ближе к единице, тем, по мнению эксперта, вероятнее соответствие факта принадлежности j -го ключевого слова i - му домену.
Для выявления возможного домена - владельца выбраны следующие критерии:
Т1 - степень соответствия входной спецификации тематике i -го шаблона-документа,
Т2 – распространенность тематики;
Т3 – цитируемость документов по тематике за последний месяц;
Т4 – степень общности тематики (широта тематики).
Для получения обобщенной, комплексной оценки вероятности по p критериям одновременно необходимо определить коэффициенты d j , характеризующие значимость, приоритеты (статистические веса) каждого критерия. Для этой цели используется алгоритм Саати, по которому строится матрица приоритетов D :
Т1 | Т2 | Т3 | Т4 | |
Т1 | 1 | d12 | d13 | d14 |
Т2 | d21 | 1 | d22 | d24 |
Т3 | d31 | d32 | 1 | d34 |
Т4 | d41 | d42 | d43 | 1 |
Для каждой строки находим
( 1.36 )
Откуда
( 1.37 )
Найденные значения статистических весов считаются согласованными, если выполняется условие Саати:
( 1.38 )
где
Размер матрицы | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x | 0 | 0 | 0,58 | 0,90 | 1,12 | 1,24 | 1,32 | 1,41 | 1,45 | 1,49 |
Обобщенную оценку вероятности владельца документа Ii можно вычислить по формуле: