Контрольная работа: Класи технологій проектування. Поняття і основні системи кодування економічної інформації. Проектування процесу введення паперових документів
•високопродуктивні потокові (90-185 сторінок/мін або 180-370 зображень в хвилину.
За якістю сканування, залежного від дозволенної здібності, їх можна розділити на наступні групи:
•з низькою роздільною здатністю дюйм);
•з середньою роздільною здатністю (600-800 точок/1 дюйм);
• з високою роздільною здатністю (1600-2800 точок/ дюйм);
• спеціального призначення.
Для введення старих документів застосовують сканери спеціального призначення з вакуумним притиском документів, які пред'являють дуже низькі вимоги до документу і обробляють його в щадному режимі. Такі сканери дозволяють сканувати не повністю розкриті книги і документи поганої якості. Швидкість введення у таких пристроїв 0,25-3 сторінки в(хвилину.
Контроль якості від сканованих зображень потрібний для того, щоб усі потрібні документи були від скановані і легко читані (не повинно бути пропущених сторінок, неякісних зображень і так далі). Для підвищення ефективності і надійності системи слід мати можливість вибіркової перевірки якості від сканованих зображень, а при скануванні багатосторінкових документів - можливість відстежувати порядок сканованих сторінок.
Повторне сканування проводиться у разі незадовільного якості зображення або через проблеми, пов'язані з неправильним порядком сторінок в документі.
3. Розпізнавання і введення даних, що містяться в документі, в інформаційну базу припускають виконання наступних основних операцій :
• попередньої обробки зображень;
• знаходження полів (сегментація документу і читання тексту);
• перевірки розпізнаної інформації;
• введення даних в інформаційну базу.
• Попередня обробка зображення документів використовує наступні спеціальні функції:
• очищення зображення застосовується для зняття з зображення окремих елементів (наприклад, точки, плями);
• зняття фону і виділень (наприклад, з цінних паперів);
• вирівнювання зображення для наступної його обробки з метою поліпшення якості розпізнавання, щоб документ показати в строго вертикальному положенні в процедурі розпізнання без перекосів;
• зняття елементів форм (для того, щоб ефективно обробляти форму, необхідно видаляти із зображення елементи форми: лінії, розграфлені, таблиці і так далі);
• визначення ідентифікатора форм (оскільки доводиться вводить в систему найрізноманітніші форми, відмінні як за змістом, так і по структурі; для того, щоб система могла працювати з множиною форм, вона повинна визначати, яка форма поступила на обробку, і завантажувати відповідно заздалегідь налагоджене і підготовлене опис форми);
• відновлення букв і символів, якщо вони виявляються пересіченими елементами форми, наприклад лінією.
Крім того, до попередньої обробки зображення відносяться наступні функції, що підвищують надійність розпізнавання:
• обертання зображення на довільний кут;
• масштабування зображення;
• регулювання рівня сірого кольору;
• компресія і декомпресія зображення.
Процеси знаходження полів (сегментація документу) і читання тексту можуть бути виконані послідовно і незалежно, якщо поля повністю визначені своїми візуальними характеристиками. Така ситуація характерна для машиночитаємих форм і документів з явними роздільниками полів у вигляді ліній або великих проміжків. У документах, що не мають строго певного положення полів і явних роздільників між ними, немає принципово іншого способу, як прочитати текст і за його змістом скоректувати результати попередньої сегментації.
У машиночитаємих формах завдання в основному зводиться до знаходження опорних елементів і обчислення відносно них положення інформативних полів. Документи, строго заданої геометрії, що не мають, але що проте використовують явно задані роздільники, обробляються досить надійно, на приклад таблиці з роздільниками у вигляді горизонтальних та вертикальних прямих.
Найбільш складна ситуація виникає при роботі з гнучкими формами документів. Термін «гнучка» означає, що відомі склад полів, їх зразкове розташування, деякі особливості по будові полів, але відсутня повна і точна орієнтація по їх розташуванню.