Реферат: Научные проблемы Интернета
изменяются для и
так что в результате из них можно построить следующую матрицу преобразования (для
)
| ![]() | ![]() | ![]() | ![]() | ![]() | ![]() | ![]() | ![]() |
![]() | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
![]() | 0,981 | 0,831 | 0,556 | 0,195 | -0,195 | -0,556 | -0,831 | -0,981 |
![]() | 0,924 | 0,383 | -0,383 | -0,924 | -0,924 | -0,383 | 0,383 | 0,924 |
![]() | 0,831 | -0,195 | -0,981 | -0,556 | 0,556 | 0,981 | 0,195 | -0,831 |
![]() | 0,707 | -0,707 | -0,707 | 0,707 | 0,707 | -0,707 | -0,707 | 0,707 |
![]() | 0,556 | -0,981 | 0,195 | 0,831 | -0,831 | -0,195 | 0,981 | -0,556 |
![]() | 0,383 | -0,924 | 0,924 | -0,383 | -0,383 | 0,924 | -0,924 | 0,383 |
![]() | 0,195 | -0,556 | 0,831 | -0,981 | 0,981 | -0,831 | 0,556 | -0,195 |
Эта матрица является ортогональной и построена по тем же принципам, что и матрица W , которую мы рассмотрели выше. Нам остается коротко охарактеризовать алгоритм сжатия JPEG, основу которого составляет DCT-преобразование.
В JPEG используется цветовая модель YCrCb, где Y передает светимость пикселя. Преобразование DCT выполняется отдельно к светимости Y, и отдельно к матрице, кодирующей хроматические числа Cr и Cb. К светимости Y применяется одномерное DCT преобразование. Для компоненты <Cr, Cb> выполняется разбиение изображения на матрицы пикселей . К каждой из таких матриц применяется двумерное DCT-преобразование. Таким образом, выполняется сжатие с потерей информации.
Сокращение JPEG происходит от слов JointPhotographicExpertGroup – совместная группа по фотографии. Проект JPEG стал стандартом в 1991г. – принят международной организацией стандартов ISO.
3. Классификация документов
Методы спецификации и обработки документов в Internet получают широкое применение в связи с созданием новых технологий и расширением возможностей представления семантики текстов, в первую очередь в документах XML.
В настоящем разделе рассматриваются программно-математические аспекты обработки текстов и создания интеллектуальных поисковых систем в Internet.____________________________________
Задача классификации и идентификации документов
Пусть в базе данных имеются спецификации текстов документов I1 , I2 ,...,In , на входе системы имеется спецификация документа Х = (х1 , х2 , ...,хm ) . Требуется установить, к какому классу документов I1 , I2 ,...,In относится Х .
Задачу будем решать при следующих условиях:
· Параметры х1 , х2 , ...,хm задают частоты встречаемости термов в тексте. Аналогичным образом, спецификации представлены векторами частот встречаемости термов в текстах-шаблонах. Под термом понимается ключевое слово текста.
· Известны весовые оценки значимости термов для соответствующих документов.
В результате будут вычислены некоторые оценки b 1 , b 2 , ..., b n , определяющие систему предпочтений в установлении документа-шаблона, к которому принадлежит текст Х , при этом å b i =1 и если b p > b s , то объективно принадлежность Х к Ip оцениваетсявыше, чем к Is .
Описание проблемы и этапов ее решения
Допустим, что в силу общности или пересечения тем документов может возникнуть n кластеров (доменов, зон) с различной степенью (оценки) принадлежности к ним рассматриваемого документа Х ; Пусть P ( w i ï х) - условная вероятность того, что наблюдаемый вектор х относится к домену w i . В силу теоремы Байеса получим:
, (1.32)
где - вероятность фактического наблюдения вектора х с данными значениями частот встречаемости ключевых слов (термов);
- априорная вероятность того, что документ относится к домену w i ,
- вероятность того, что доменw i мог привести к появлению вектора х;
w i - идентификатор домена.
Рассматриваются следующие домены:
w 0 – ни один из шаблонов-документов не является владельцем Х ;
w 1 – 1 -й источник является владельцем Х , остальные – нет;
w m – m -й источник является владельцем Х , остальные – нет;
w m +1 – 1-й и 2-й источники в совокупности могут быть владельцами Х , остальные нет;
w n – все n могут быть в совокупности владельцами Х .
Введем штрафную оценку
, (1.33)
где - штраф, который следует заплатить за ошибочную классификацию владельца Ii вместо фактического Ij .