Системи оптичного розпізнавання текстів та їх програмне і технічне забезпечення

спрощення при вимірах характеристик символів для роботи безшрифтових алгоритмів можуть бути в 2-20 разів більші в порівнянні зі шрифтовими.

Переваги цього підходу тісно пов'язані з його недоліками. Основними перевагами є:

- універсальність. Це означає, з одного боку, можливість застосування цього підходу у випадках великої різноманітності символів, які можуть надійти на вхід системи; з іншого боку, за рахунок закладеної в них здатності узагальнювати, такі алгоритми можуть екстраполювати накопичені знання за межі навчальної вибірки, тобто стійко розпізнавати символи, на вигляд далекі від тих, які були присутні в навчальній вибірці.

- технологічність. Процес навчання шрифтонезалежних алгоритмів звичайно є більше простим й інтегрованим у тому розумінні, що навчальна вибірка не фрагментована на різні класи. При цьому відсутня необхідність підтримувати в базі характеристик різні умови спільного існування цих класів (некорельованість, незмішуваність, систему унікального іменування й т. п. ). Проявом технологічності є також той факт, що часто вдається створити майже повністю автоматизовані процедури навчання.

- зручність у процесі використання програми. У випадку, якщо програма побудована на шрифтонезалежних алгоритмах, користувач не зобов'язаний знати що-небудь про сторінку, яку він хоче ввести в комп'ютерну пам'ять і повідомляти програму про ці знання. Також спрощується інтерфейс користувача програми за рахунок відсутності набору опцій і діалогів, що обслуговують навчання й керування базою характеристик. У цьому випадку процес розпізнавання можна представляти користувачеві як “чорний ящик” (при цьому користувач повністю не має змоги керувати, або якимось чином модифікувати хід процесу розпізнавання). У підсумку це приводить до розширення кола потенційних користувачів за рахунок включення в нього людей, що наділені мінімальною комп'ютерною грамотністю.

При розпізнаванні символів досить широко використовуються штучні нейронні мережі. Алгоритми, що використовують нейронні мережі для розпізнавання символів, часто будуються в такий спосіб

Зображення символу (растр), що є вхідним для розпізнавання, приводиться до деякого стандартного розміру. Як правило, використається растр розміром 16х16 пікселів.

Значення яскравості у вузлах нормалізованого растра використовуються, як вхідні параметри нейронної мережі. Число вихідних параметрів нейронної мережі дорівнює числу розпізнаваних символів. Результатом розпізнавання є символ, якому відповідає найбільше зі значень вихідного вектора нейронної мережі. Підвищення надійності таких алгоритмів пов'язано, як правило, або з пошуком більш інформативних вхідних ознак, або з ускладненням структури нейронної мережі.

Надійність розпізнавання й потреба програми в обчислювальних ресурсах багато в чому залежать від вибору структури й параметрів нейронної мережі. Зображення цифр приводяться до єдиного розміру (16х16 пікселів). Отримане зображення подається на вхід нейронної мережі, що має три внутрішніх рівні й 10 вузлів у верхньому рівні. Нижні шари мережі не є повнопов‘язаними. Вузли нижчого рівня спільно використовують загальний набір ваг. Все це, за задумом розроблювачів, повинне підвищити здатність нижчих рівнів мережі до виділення первинних ознак у зображеннях. Отримана в такий спосіб нейронна мережа має 1256 вузлів й 9760 незалежних параметрів. Для збільшення здатності мережі до узагальнення й зменшення обсягу необхідних обчислень і пам'яті проводиться видалення маловикористовуваних ваг. У результаті число незалежних параметрів зменшується в чотири рази. Навчання нейронної мережі проведено на наборі з 7300 символів, тестування на наборі з 2000 символів. Помилки розпізнавання становлять приблизно 1% на навчальному наборі

1 2 3 4

Схожі роботи

Реферати

Курсові

Дипломні