Информатика / Реферат: Научные проблемы Интернета

Реферат: Научные проблемы Интернета

изменяются для и так что в результате из них можно построить следующую матрицу преобразования (для )


1	1	1	1	1	1	1	1
0,981	0,831	0,556	0,195	-0,195	-0,556	-0,831	-0,981
0,924	0,383	-0,383	-0,924	-0,924	-0,383	0,383	0,924
0,831	-0,195	-0,981	-0,556	0,556	0,981	0,195	-0,831
0,707	-0,707	-0,707	0,707	0,707	-0,707	-0,707	0,707
0,556	-0,981	0,195	0,831	-0,831	-0,195	0,981	-0,556
0,383	-0,924	0,924	-0,383	-0,383	0,924	-0,924	0,383
0,195	-0,556	0,831	-0,981	0,981	-0,831	0,556	-0,195

Эта матрица является ортогональной и построена по тем же принципам, что и матрица W , которую мы рассмотрели выше. Нам остается коротко охарактеризовать алгоритм сжатия JPEG, основу которого составляет DCT-преобразование.

В JPEG используется цветовая модель YCrCb, где Y передает светимость пикселя. Преобразование DCT выполняется отдельно к светимости Y, и отдельно к матрице, кодирующей хроматические числа Cr и Cb. К светимости Y применяется одномерное DCT преобразование. Для компоненты <Cr, Cb> выполняется разбиение изображения на матрицы пикселей . К каждой из таких матриц применяется двумерное DCT-преобразование. Таким образом, выполняется сжатие с потерей информации.

Сокращение JPEG происходит от слов JointPhotographicExpertGroup – совместная группа по фотографии. Проект JPEG стал стандартом в 1991г. – принят международной организацией стандартов ISO.

3. РљР»Р°СЃСЃРёС„РёРєР°С†РёСЏ РґРѕРєСѓРјРµРЅС‚РѕРІ

Методы спецификации и обработки документов в Internet получают широкое применение в связи с созданием новых технологий и расширением возможностей представления семантики текстов, в первую очередь в документах XML.

В настоящем разделе рассматриваются программно-математические аспекты обработки текстов и создания интеллектуальных поисковых систем в Internet.____________________________________

Задача классификации и идентификации документов

Пусть в базе данных имеются спецификации текстов документов I₁ , I₂ ,...,I_n , на входе системы имеется спецификация документа Х = (х₁ , х₂ , ...,х_m ) . Требуется установить, к какому классу документов I₁ , I₂ ,...,I_n относится Х .

Задачу будем решать при следующих условиях:

· Параметры х₁ , х₂ , ...,х_m задают частоты встречаемости термов в тексте. Аналогичным образом, спецификации представлены векторами частот встречаемости термов в текстах-шаблонах. Под термом понимается ключевое слово текста.

· Известны весовые оценки значимости термов для соответствующих документов.

В результате будут вычислены некоторые оценки b ₁ , b ₂ , ..., b _n , определяющие систему предпочтений в установлении документа-шаблона, к которому принадлежит текст Х , при этом å b _i =1 и если b _p > b _s , то объективно принадлежность Х к I_p оцениваетсявыше, чем к I_s .

Описание проблемы и этапов ее решения

Допустим, что в силу общности или пересечения тем документов может возникнуть n кластеров (доменов, зон) с различной степенью (оценки) принадлежности к ним рассматриваемого документа Х ; Пусть P ( w _i ï х) - условная вероятность того, что наблюдаемый вектор х относится к домену w _i . В силу теоремы Байеса получим: