Реферат: Работа с документами
Для получения возможности вставки символов и букв, используемых в конкретном языке, достаточно выбрать соответствующий набор символов шрифта Unicode в диалоговом окне Символ (меню Вставка). Например, чтобы вставить в текст русские буквы, следует выбрать набор “Кириллица”.
Рассмотрев Word, давайте сравним программы для распознавания текста.
В последние несколько лет стали очень популярны программы распознавания текста. Используются они не только в офисах для перевода документов в электронный вид, но и дома для распознавания различного вида текстов для написания рефератов и курсовых, что облегчает жизнь студентам и научным сотрудникам. Проблема выбора программного продукта для решения какой-либо задачи всегда стояла перед пользователем. Для того чтобы разрешить ее, необходимо было сравнить хотя бы несколько программ одного назначения. При этом тратились время и деньги, и достаточно часто выбор был далеко не оптимальным. На данный момент всего два программных продукта - Fine Reader 5.0 и Cuneiform 2000 - предлагают решение данной проблемы. Рассмотрим их.
|
Обе программы предлагают несколько дополнительных возможностей помимо распознавания текста:
- проверка орфографии для различных языков;
- сканирование;
- сохранение в различных форматах и передача в другие программы распознанного документа;
- обработка картинок;
- пакетная обработка множества изображений;
- форматирование текста.
Но нас интересуют не столько предлагаемые функции (они практически одинаковые), сколько отличия для пользователя в работе данных программ. Для этого мы проведем исследование по пунктам, которые являются основными для пользователя.
Скорость и качество
Эти характеристики являются одними из самых критичных в применении данных программ, т. к. распознавание должно экономить время, затраченное на страницу текста, а складывается оно в итоге из скорости и качества. Скорость - это время, необходимое самой программе на распознавание, а от качества зависит, придется ли вам исправлять полученный текст и насколько время исправления меньше времени набора того же самого текста. Как показывает опыт, качество напрямую зависит от исходного материала, а также от уровня интеллекта программы распознавания.
Для начала мы посмотрим, как программы будут распознавать страницу, не содержащую ничего, кроме обычного текста. Затем рассмотрим несколько вариантов различной сложности.
Для этого мы берем лист формата А4 с текстом, распечатанным на лазерном принтере, сканируем его в черно-белом режиме с разрешением 300 точек на дюйм и сохраняем в формате TIFF (с этими параметрами будут отсканированы и остальные образцы, взятые для тестов).
|
Теперь мы открываем это изображение в Fine Reader 5.0, выделяем область для распознавания и нажимаем кнопку "Распознать". На этот процесс у программы уходит около 4 с. Производим подобную операцию в Cuneiform 2000 и спустя 8 с получаем распознанный текст.
Таким образом, Fine Reader 5.0 работает быстрее, чем Cuneiform 2000. Теперь о качестве: первая программа совершила только одну ошибку (рис. 4), ну а вторая ошиблась только поставив ненужный пробел (рис. 5).
|
Теперь давайте посмотрим, какая картина будет, если мы возьмем для распознавания разворот учебника с формулами.
|
Производим распознавание и видим, что Fine Reader затратил около 43 с, а Cuneiform - порядка 18 с.
Интересно: Fine Reader здесь показал не лучший результат по скорости, но по качеству - у него преимущество. Судите сами: в основном ошибки распознавания оказались только в формулах, а Cuneiform умудрился совершить их и в тексте.
|
Другой не менее интересный тест на скорость и качество - распознавание ксерокса учебника, причем для него мы возьмем два варианта: хорошего и плохого качества.
При распознавании хорошего ксерокса (рис. 9) Fine Reader вновь оказался впереди - 4 с, а Cuneiform - 5 с.
|
Посмотрев на распознанный текст, можно сказать, что Fine Reader не на много, но все же лучше справился с задачей. Cuneiform не смог распознать правильно букву "Ц", а цифру ноль посчитала буквой "О".
|
Теперь давайте посмотрим, какие результаты у нас получатся, если распознавать ксерокс плохого качества.
|