Контрольная работа: Добыча знаний и управление ими
В настоящее время в индустриально развитых странах материальное производство становится вторичным по отношению к производству информации и знаний. Поэтому здесь происходят изменения в структуре занятости населения. Теперь главной производственной силой становятся работники знаний (knowledgeworker).
Работник знаний отличается от индустриального работника тем, что он безраздельно владеет своими "средствами производства": интеллектом, памятью, знаниями, инициативой, личным опытом, которые, в явном виде "скрыты" от других. В связи с этим владельцы предприятий озабочены тем, как и каким образом отчуждать эти скрытые знания и превращать их в "явные", зафиксированные и перенесенные на те или иные типы носителей. Кроме того, возникает сложность с тем, что, уходя из компании, работник уносит с собой свои знания.
В то же время работник знаний может эффективно работать только в составе коллектива, он соучастник общего корпоративного дела, продуктом которого являются знания.
Это обусловило появление концепции "интеллектуального капитала". Томас Стюарт и его единомышленники доказали, что капитал практически любого современного предприятия в основном нематериален. Так, в биржевой стоимости высокотехнологических компаний до 95 % составляет именно эта часть. Поэтому, если из высокотехнологичной компании уходят все основные сотрудники, то потери стоимости ее акций будут равны величине интеллектуального капитала.
Экономические предпосылки развития управления знаниями связаны с многочисленными, но не всегда успешными попытками обосновать экономическую целесообразность информационных технологий. Как правило, для оценки экономической эффективности используется показатель "возврат от инвестиций" (returnoninvestment - ROI), который не применим к ИТ, хотя бы из-за их нематериальности.
Так, Пол Страссман (www.strassmann.com) в своей книге "TheSquanderedComputer" (Разоряющий компьютер) доказал, что никакой явной связи между размером инвестиций в ИТ и прибыльностью предприятия не существует. Основной вывод, который он сделал несколько лет назад, состоит в том, что экономическая оценка информационных технологий должна строиться иначе, чем в других отраслях: "сами по себе информационные технологии не прибыльны - прибыль приносят операции над знаниями".
2. Информационный поиск
Движущей силой современного общества являются интеллектуально-информационные ресурсы, т. е. знания и информация. Где их найти? Достаточно условно накопление интеллектуально-информационных ресурсов разделить на две задачи:
- поиск информации;
- добыча знаний.
С поиском информации нам приходится сталкиваться практически во всех компьютерных и Интернет-приложениях. Для этих целей используются встроенные в офисные пакеты и бизнес-приложения поисковые механизмы, средства группирования и сортировки данных. Поисковые машины Интернета (например, AltaVista, Google, HotBot, АПОРТ, Яndex, МЕТА и другие) с помощью специальных роботов позволяют по запросам пользователей находить различную информацию в киберпространстве. Аналогичные средства имеются и на большинстве сайтов, позволяя их посетителям "разобраться" в имеющихся информационных ресурсах.
Как правило, поисковые механизмы скрыты от пользователей и не требуют знания логики их работы. Пользователям нужно ввести слова и некоторые символы-заменители, которых можно узнать из справочной системы программы или поисковой машины Интернета, в поле "Поиск", "Найти","Пошук,"Search" и т. д.
На достаточно больших Интернет-ресурсах используются системы реферирования. Искусство реферирования (составления аннотаций) обеспечивает извлечение наиболее важных или характерных фрагментов из одного или многих источников информации. Для этих целей можно применять такие инструменты, как функция AutoSumma-rize в MicrosoftOffice, системы IBMIntelligentTextMiner, OracleContext и InxightSummarizer (компонент поисковой машины AltaVista), хотя они и имеют некоторые ограничения. Они применимы только для текстов.
Для поиска нужной информации в текстах применяется несколько технологий.
Технология автоматического анализа текста на основе ассоциативно-статистической модели обеспечивает повышение качества векторных моделей, представляющих текст набором составляющих слов, за счет коррелированности появления слов в тексте с помощью семантических связей.
Технология автоматического анализа текста положена в основу таких программных продуктов, как RussianContextOptimizerи OracleInterMedia. Здесь интеллектуальная обработка текста (тематическая классификация, аннотирование) сочетается с поисковыми возможностями, доступными при работе с реляционными базами данных. Большинство возможностей InterMedia оказывается доступно в полной мере лишь для английского языка и в меньшей мере еще для ряда европейских и восточно-азиатских языков.
Адаптацию технологий Oracle к русскоязычным базам данных выполнила российская компания Гарант-Парк-Интернет, которая выпускает продукт RussianContextOptimizer (RCO). Используемое в RCO лингвистическое обеспечение позволяет приводить к нормальной форме все грамматические формы слов русского языка, сводить воедино различные части речи, а также отождествлять близкие по смыслу словосочетания.
Визуализация информационных массивов в Интернете обеспечивает удобное представление для пользователя найденной информации. Для этих целей используются тематические сети TopNet и самоорганизующиеся тематические карты TopSOM.
Для поиска информации в хранилищах данных используются механизмы OLAP-систем, позволяющие получать кубы и их срезы.
3. Добыча знаний
Получить информацию не всегда означает получить знания. Специалисты выделяют три стратегии получения знаний:
- приобретение знаний (способ автоматизированного наполнения базы знаний);
- извлечение знаний (процедура взаимодействия с источником знаний);
- обнаружение знаний в базах данных, (knowledgediscoveryindatabases - KDD) - процесс получения из "сырых" данных потенциально полезной информации.
Благодаря быстрому развитию хранилищ данных, в которых данные предметно ориентированы, интегрированы и хранятся в хронологической последовательности, обнаружение знаний в базах данных вышло на первый план. KDD предполагает накопление "сырых" данных, их отбор, подготовку, преобразование, поиск закономерностей и их обобщение, тем самым превращая информацию (данные) в знания.
Аналитические инструменты, обеспечивающие добычу знаний, относят к области технологий DataMining (раскопки данных). В их основу положена концепция шаблонов и зависимостей, отражающих многоаспектные связи в данных. Нетривиальность разыскиваемых шаблонов позволяет отражать неочевидные закономерности в данных, составляющие так называемые скрытые знания.
4. Классификация систем Data Mining
Сегодня ведется много споров о том, какие системы относить к DataMining. В той или иной степени к DataMining можно отнести системы, поддерживающие алгоритмическое обеспечение, описанное ниже.
Статистические пакеты. В современных статистических пакетах, наряду с классическим методиками (корреляционный, регрессионный, факторный анализ), имеют место и элементы DataMining (http://isl.cemi.rssi.ru). Серьезный недостаток статистических пакетов, ограничивающий их применение в DataMining, - это статистическая парадигма, построенная на усредненных характеристиках выборки, которые не всегда подходят при исследовании реальных сложных жизненных явлений.