Реферат: Методы информационного поиска
- региональные информационные ресурсы.
В русскоязычной части Интернета в настоящее время доступен ряд ресурсов, предоставляющих вторичную информацию, как правило, в табулированной форме. Предоставление информации для публикации в подобных источниках является более дешевым вариантом для компаний, не имеющих собственного представительства в Интернете.
Проблемы, возникающие в процессе поиска
Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:
- увеличение охвата с целью извлечения максимального количества значимой информации;
- уменьшение охвата с целью минимизации шумовой информации.
Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.
Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.
Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.
Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной. Появление в сентябре 1997 г. системы Яndex-Web, обновляющей свои данные раз в неделю, обозначило качественный скачок вперед в решении этой проблемы.