Контрольная работа: Информационно-поисковый тузаурус
Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ.
Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические.
Парадигматические отношения - логические отношения, существующие между лексическими единицами ИПЯ независимо от контекста, в котором эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Примеры парадигматических отношений: часть - целое (отдел - организация); род - вид (ценная бумага - акция); причина - следствие; функциональное сходство; ассоциации. Учет парадигматических отношений необходим для правильного выбора и точного употребления слов.
Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий. По способу организации понятий различают: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ.
Дескрипторные языки семантически более сильны, чем классификационные, но более сложны для формальной обработки.
Дескриптор - ключевое слово или словосочетание, служащее именем класса эквивалентных ключевых слов (синонимов). Как правило, в качестве дескриптора выбирают одно, наиболее употребляемое ключевое слово из класса синонимичных ключевых слов.
Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.
2. Информационно-поисковый тезаурус: определение, цель разработки
Тезаурус – термин, широко используемый в информатике как составная часть информационно-поисковых систем.
Можно выделить два определения информационно-поискового тезауруса:
1. Информационно-поисковый тезаурус представляет собой словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка (дескрипторами) и предназначенный для поиска слов по их смысловому содержанию.
2. Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области.
И в том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.
Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.
По первому способу создаются алфавитные словари. По второму способу - тезаурусы. Алфавитные словари служат для раскрытия значения данного слова. Тезаурусы служат для поиска слов для выражения данного понятия. Т.е., если в обычном словаре по слову ищется его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл выражают.
Цели разработки ИПТ:
- перевод языка авторов на контролируемый язык, используемый для индексации и поиска;
- обеспечение последовательности в присваивании индексных терминов;
- обозначение отношений между терминами;
- облегчение информационного поиска.
3. Использование информационно-поисковых тезаурусов
Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой информации: переводчики, редакторы, научные работники, референты и др.
Информационно-поисковые тезаурусы используются при индексировании документов и запросов.
Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.
При безтезаурусном индексировании поисковый образ документа представляется в виде списка ключевых слов, выбранных непосредственно из текста документа. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает рядом недостатков: возможна синонимия; нельзя отразить парадигматические отношения.
При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только дескрипторы, входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.
Таким образом, информационно-поисковые тезаурусы используются для:
- перевода текста с ЕЯ на дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами, при этом исключается многозначность;
- отображения парадигматических связей между дескрипторами.
4. Структура информационно-поискового тезауруса
Тезаурус имеет вид словаря, в котором в определенном порядке расположены термины и зафиксированы связи между ними.
Как правило, тезаурус состоит из введения, алфавитного указателя (словарная часть) и систематического указателя.