Системы оптического распознавания текста

На стадії підготовки і обробки інформації, особливо при комп'ютеризації підприємства, автоматизації бухобліку, виникає завдання введення великого об'єму текстової і графічної інформації в ПК. Основними пристроями для введення графічної інформації є: сканер, факс-модем і рідше — цифрова фотокамера. Крім того, використовуючи програми оптичного розпізнавання текстів, можна вводити в комп'ютер (оцифровувати) також і текстову інформацію. Сучасні програмно-апаратні системи дозволяють автоматизувати введення великих об'ємів інформації в комп'ютер, використовуючи, наприклад, мережевий сканер і паралельне розпізнавання текстів на декількох комп'ютерах одночасно.

Більшість програм оптичного розпізнавання тексту (OCR — Optical Character Recognition) працюють з растровим зображенням, яке отримане через факс-модем, сканер, цифрову фотокамеру або інший пристрій. На першому етапі OCR повинен розбити сторінку на блоки тексту, грунтуючись на особливостях правого і лівого вирівнювання і наявності декількох колонок. Потім розпізнаний блок розбивається на рядки. Не дивлячись на простоту, що здається, це не таке очевидне завдання, оскільки на практиці неминучі перекіс зображення сторінки або фрагментів сторінки при згинах. Навіть невеликий нахил приводить до того, що лівий край одного рядка стає нижче за правий край наступним, особливо при маленькому міжрядковому інтервалі. В результаті виникає проблема визначення рядка, до якого відноситься той або інший фрагмент зображення. Наприклад, для букв «j», «Й», «е» при невеликому нахилі вже складно визначити, до якого рядка відноситься верхня (окрема) частина символу (в деяких випадках її можна прийнятийь за кому або крапку).

Потім рядки розбиваються на безперервні області зображення, які, як правило, відповідають окремим буквам; алгоритм розпізнавання робить припущення щодо відповідності цих областей символам; а потім робиться вибір кожного символу, внаслідок чого сторінка відновлюється в символах тексту, причому, як правило, у відповідному форматі

OCR-системы можуть досягати якнайкращої точності розпізнавання — понад 99,9 % для чистих зображень, складених із звичайних шрифтів. На перший погляд така точність розпізнавання здається ідеальною, але рівень помилок все ж таки пригнічує, тому що, якщо є приблизно 1500 символів на сторінці, то навіть при коефіцієнті успішного розпізнавання 99,9 % виходить одна або дві помилки на сторінку. У таких випадках на допомогу приходить метод перевірки по словнику. Тобто, якщо якогось слова немає в словнику системи, то вона по спеціальних правилах намагається знайти схоже. Але це все одно не дозволяє виправляти 100 % помилок, що вимагає человечеського контролю результатів.

Тексти, що зустрічаються в реальному житті, зазвичай далекі від досконалості, і відсоток помилок розпізнавання для «нечистих» текстів часто неприпустимо великий. Брудні зображення — тут найбільш очевидна проблема, тому що навіть невеликі плями можуть затінювати визначальні частини символу або перетворювати один в іншій. Ще однією проблемою є неакуратне сканування, пов'язане з «людським чинником», оскільки оператор, що сидить за сканером, просто не в змозі розгладжувати кожну скановану сторінку і точно вирівнювати її по краях сканера.

Якщо документ був ксерокопійований, нерідко виникають розриви і злиття символів. Будь-який з цих ефектів може примушувати систему помилятися, тому що деякі з OCR-систем вважають, що безперервна область зображення має бути одиночним символом.

Сторінка, розташована з порушенням меж або перекосом, створює трохи спотворені символьні зображення, які можуть бути переплутані OCR.

Програмне забезпечення

1 2 3 4