Курсовая работа: Робота з програмою FineReader

Стрімкий розвиток комп'ютерної техніки і її різноманітного програмного забезпечення — це одна з характерних прикмет сучасного періоду розвитку суспільства. Технологи, основним компонентом яких є комп'ютер, проникають практично в усі сфери людської діяльності. Те, що ще недавно вважалось фантастикою, тепер, завдяки науково-технічному прогресу, особливо прогресу в області комп'ютерних технологій, стало реальністю.

Комп'ютерні технології застосовують у видавництвах і великих бібліо­теках, у парламентах і міністерствах, у банках і на складах, у системах зв'язку і системах управління транспортом, у податкових інспекціях і у сфері розваг тощо. Тепер практично неможливо уявити сучасний офіс без повсякденного і широкого застосування комп'ютерних технологій. Комп'ютер став неодмінним атрибутом робочого місця працівників багатьох професій. У цих умовах продовжує зростати попит на комп'ютерних спеціалістів, особливо на молодих спеціалістів високої кваліфікації. Великою популярністю користуються спеціалісти з комп'ютерної верстки та макетування, комп'ю­терні художники і дизайнери, спеціалісти з банківських та бухгалтерських комп'ютерних систем, спеціалісти з комп'ютерних мереж та ряд інших.

Досить актуальними на сьогоднішній час стали системи оптичного розпізнавання символів ( OCR ).

Системи оптичного розпізнавання символів (Optical Character Recognition) призначені для автоматичного введення друкованих документів в комп'ютер. Однією із таких систем є FineReader.

FineReader - омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання".

На сьогоднішній день існує багато версій програми FineReader, однак найбільш популярною і досконалою є програма версії FineReader 5.0, тому в даній дипломній роботі ми детальніше зупинимося саме на ній.

РОЗДІЛ І. ПОСТАНОВКА ЗАДАЧ

1.1. Вхідна інформація

Процес введення документу в комп'ютер можна розділити на два етапи:

1. Сканування. На першому етапі сканер відіграє роль «ока» комп'ютера: «переглядає» зображення і передає його комп'ютеру. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових крапок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.

2. Розпізнавання. Обробка зображення OCR-системою.

Обробка зображення системою FineReader містить у собі аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, зображень, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки.

Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".

· Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відношень між ними.

· Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.

· Адаптивність - здатність OCR-системи до самонавчання.

Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символ, частину символу або декілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно знайти всі структурні елементи і відношення, що їх пов'язують. У кожному структурному елементі виділяються частини, значимі для людського сприйняття, - відрізки, дуги, кільця і крапки. Виходячи з принципу адаптивності, програма самостійно «налагоджується», використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів друку.

Наслідком роботи у вікні FineReader з'явиться розпізнаний текст, який можна редагувати і записати у найзручнішому форматі.

Нові можливості програми FineReader 5.0.

Робота з зображеннями

· Новий режим відображення сторінок пакета Піктограми, у якому сторінки пакета представляються своїми сильно зменшеними зображеннями.

Сканування

· Можливість сканування розвороту книги: обидві сторінки розкритої книги скануються одночасно, але обробляються окремо. Зображення, що містить парні сторінки, записується в дві різні сторінки пакета.

Аналіз макету сторінки

· У програму додана об'єднана процедура аналізу макета сторінки і розпізнавання. Тепер алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу макету сторінки. Нові алгоритми аналізу використовуються автоматично при запуску розпізнавання на сторінці без блоків, тобто аналіз макета і розпізнавання проводяться за один крок. Старий алгоритм аналізу сторінки, що не використовує розпізнавання, як і раніше доступний (меню Процес >Аналіз макету сторінки ).

· Підтримка розпізнавання "вбудованих" зображень: можливо визначити блок "зображення" усередині текстового або табличного блоку.

Розпізнавання

Існує два варіанти поставки ABBYY FineReader: EU - 121 мова розпізнавання (латиниця та грецькі); Cyrillic Plus - 176 мов розпізнавання (латиниця, грецька та кирилиця). Усі мови розпізнавання поділяються на основні мови, додаткові та

штучні мови. Основна група утворена з мов зі словниковою підтримкою. Для цих мов у програмі FineReader підтримана перевірка розпізнаного тексту (знаходження невпевнено розпізнаних слів і слів з орфографічними помилками).

· Розпізнавання мов програмування (Basic, Cobol, Fortran, Java, C++, Pascal).

· Розпізнавання підрядкових символів (наприклад, H2 O).

· Розпізнавання вертикального тексту.

· Коректна передача кольору тексту.

Збереження і редагування

· Можливість збереження розпізнаного тексту у форматі HTML з повним збереженням оформлення сторінки.

· Можливість збереження розпізнаного тексту у форматі PDF із збереженням повного оформлення документа.

· Збереження кольору тексту при збереженні розпізнаного тексту в RTF, PDF і HTML форматах.

· Підтримка Unicode кодування при збереженні розпізнаного тексту в RTF, DOC, XLS, HTML, TXT і CSV форматах.

--> ЧИТАТЬ ПОЛНОСТЬЮ <--

К-во Просмотров: 365
Бесплатно скачать Курсовая работа: Робота з програмою FineReader