Курсовая работа: Автоматизация работы в офисе
Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.
1.3.1. Программы распознавания текстов
Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется значительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.
Эти алгоритмы могут давать разные результаты на разных документах. Например, упоминавшиеся выше системы OCR, способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна из более универсальных программ.
Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.
Нас, прежде всего, интересуют программы, способные распознавать текст, напечатанный на русском и украинском языках. Такие программы выпускаются в основном российскими производителями. Наиболее широко известны и распространены программы FineReader и CuneiForm. Мы подробно остановимся на программе FineReader, обеспечивающей высокое качество распознавания и удобство применения.
1.3.2. Программа FineReader
Программа FineReader выпускается российской компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.
Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию.
FineReader работает с разными моделями сканеров. В частности, программа поддерживает стандарт TWAIN. Мы рассмотрим программу на примере версии 4.0, одной из последних версий на данный момент.
2. Распознавание документов в программе finereader
2.1. Окно программы
После установки программы FineReader в меню «Программы» Главного меню появляются пункты, обеспечивающие работу с ней. Окно программы имеет типичный для приложений Windows9Х вид и содержит строку меню, ряд панелей инструментов и рабочую область.
В левой части рабочей области располагается панель «Пакет», содержащая список графических документов, которые должны быть преобразованы в текст. Эти графические файлы рассматриваются как части одного документа. Результаты их обработки в дальнейшем объединяются в единый текстовый файл. Форма значка, отмечающего исходные файлы, указывает, было ли произведено распознавание.
Панель в нижней части рабочей области содержит фрагмент графического документа в увеличенном виде. С ее помощью можно оценить качество распознавания. Эту панель используют также при «обучении» программы в ходе распознавания текста.
Остальную часть рабочей области занимают окна документов. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа, полученного после распознавания.
В верхней части окна приложения под строкой меню располагаются панели инструментов. На приведенном рисунке включено отображение всех панелей, которые могут использоваться в программе FineReader.
Панель инструментов «Стандартная» содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения представления документа.
Панель «Scan&Read» содержит кнопки, соответствующие всем этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в рамках единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.
Панель «Распознавание» позволяет указать язык документа и вид шрифта. Последнее требуется делать только в тех случаях, когда документ имеет недостаточное качество печати.
Панель «Инструменты» используют при работе с исходным изображением. В частности, она позволяет управлять сегментацией документа. С помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.
Элементы управления панели «Форматирование» используют для изменения представления готового текста или при его редактировании.
2.2. Порядок распознавания текстовых документов
Преобразование бумажного документа в электронный происходит в три этапа. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.
Первый этап работы – сканирование. На этом этапе обычно используют сканер. Однако изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и цифровые видеокамеры.
Второй этап работы – сегментация текста. Дело в том, что в бумажном документе, например на странице книги или журнала, текст не всегда располагается в фиксированном порядке. Он может размещаться в нескольких колонках, содержать иллюстрации (и подписи к ним). Дополнительные врезки и данные, представленные в таблицах, также могут запутать естественный порядок текста. Поэтому, прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. Блоки распознают последовательно. Полученный текст включается в документ в порядке нумерации блоков.
Последний этап работы программы – непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением тех случаев, когда распознавание сопровождается «обучением».
Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Он «теряет связь» с исходным изображением и может редактироваться и форматироваться независимо от него. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Средствами программы в полученном тексте можно также провести проверку грамматики.
Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы Word или Excel, а также в буфер обмена Windows.
2.3. Сканирование документа
Сканирование – это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReader на этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели «Пакет». Так страницы готовятся к распознаванию.
Для того чтобы провести сканирование при помощи программы FineReader, необходимо запустить эту программу и включить сканер. Сканирование страницы производится по щелчку на кнопке «Сканировать» на панели инструментов «Scan&Read» или при нажатии комбинации клавиш CTRL+K.
Программа способна работать со сканером как непосредственно, так и через протокол TWAIN. При непосредственном взаимодействии со сканером возможность сканирования цветных изображений не используется, так как предполагается, что текст в любом случае является одноцветным.
Программа использует для сканирования устройство, которое задано по умолчанию. Для того чтобы выбрать такое устройство или изменить его настройку, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Сканировать» и выбрать в открывшемся меню пункт «Опции» – откроется диалоговое окно «Опции».
Если к компьютеру подключено несколько сканеров или сканер был подключен после установки программы FineReader, следует щелкнуть на кнопке «Выбрать сканер». В этом случае программа проведет поиск подключенных к компьютеру сканеров и позволит выбрать нужный.