Сучасних методів автоматизації процесів обробки інформації

Розділ 1. Теоретичні основи традиційних методів автоматизації процесів обробки інформації

Мабуть, ні в яких областях свого застосування комп'ютерні технології не зустрічаються з такими труднощами, як при рішенні семантичних завдань. Часто найпоширенішим шляхом вирішення такої проблеми є автоматизація процесів аналітико-синтетичної переробки інформації (комп'ютерне згортання/розгортання), до яких відносяться індексування, анотування, реферування, конспектування, фрагментування, переклад й інші форми інформаційного аналізу й синтезу. Труднощі насамперед обумовлені складністю, а іноді й неможливістю формалізації й алгоритмізації розумових процесів, що супроводжують зазначені різновиди аналізу й синтезу в їх «ручному», традиційному варіанті. [1]

Відомо, що в загальному випадку формалізація – це викладення внутрішнього змісту в зовнішній формі: зовнішня форма, що відноситься до рівня явищ, визначається сутністю змісту, тобто внутрішньою формою матеріального об'єкта. У сфері інформаційних процесів (знання) відношення зовнішньої й внутрішньої форм більш складне. Зовнішня форма, тобто знакова, – матеріальна й об'єктивна; внутрішня форма, тобто зміст, – ідеальна й суб'єктивна, а об'єктивністю володіє лише в тому розумінні, що є відбиттям об'єктивних, інваріантних, загальних відносин матеріального світу. У цих умовах формалізація інформаційних процесів зводиться до вишукування у формі, тобто плані вираження, елементів, через які можна було б виразити план змісту (зміст, семантику) того або іншого тексту й тим самим здійснити обробку (перетворення) семантичної інформації без звертання до змісту даного тексту. Передбачається, що дана процедура повинна привести до результату, близькому по своїй якості до результату, одержуваній (у загальному випадку) при змістовній обробці тих же текстів. Ніколи якість машинної обробки інформації не буде вище якості інтелектуальної обробки, оскільки мови й алгоритми, що допомагають машині «мислити», завжди будуть бідніше природної мови й алгоритмів, на яких мислить людина. [1]

До напрямку автоматизованого згортання відносяться роботи з автоматичного реферування. Цей напрямок займає як би проміжне положення між мінімальним рівнем згортання – перекладом і максимальним – індексуванням. Однак автоматичне реферування за своїм характером дуже специфічне, оскільки зводиться до екстрагування (витягу) з документів мінімальних релевантних фрагментів, деяка сукупність яких й утворить широкий спектр вторинних документів - різні види анотацій, рефератів, реферативних анотацій, самостійних фрагментів, конспектів й їхніх синтезованих похідних - реферативних покажчиків, дайджестів, реферативних оглядів і т. д. Ці вторинні документи, що є результатом аналітико-синтетичної переробки первинного документного потоку, розраховані на задоволення як індивідуальних, так і потенційних інформаційних потреб різних категорій фахівців науки, техніки й виробництва. [1]

За ці роки вироблені численні підходи до рішення даної проблеми, які досить чітко підрозділяються на два напрямки - квазіреферування, засноване на екстрагуванні з первинних документів за допомогою певних формальних ознак «найбільш інформативних» фраз (фрагментів), сукупність яких утворить деякий екстракт (квазіреферат), і автоматичне реферування, засноване на виділенні з текстів за допомогою спеціальних інформаційних мов найбільш істотної інформації й породженні нових текстів (рефератів), у більшій або меншій ступені первинних документів (або їхнім частин). [1]

Другий напрямок - більше перспективний

Квазіреферрування має ту особливість у порівнянні із властиво реферуванням, що ґрунтується на аналізі поверхнево-синтетичних відносин у тексті, виражених у ньому й не потребуючих звертаннях до глибинно-синтаксичних процесів, вивченість яких ще явно недостатня для опису властивостей будь-якого тексту. [1]

У рамках квазіреферування у свою чергу звичайно виділяють три основних напрямки:

статистичні методи, засновані на використанні статистичних параметрів для оцінки інформативності різних елементів тексту (слів, речень) насамперед по частоті зустрічальності слів у тексті; у результаті ранжирування лексики в тому або іншому документі вони визначають слова з високим рангом й їхня сполучуваність у різних фразах і за цими показниками оцінюють інформативність даних фраз; в іншому випадку на основі функціонування різного типу повторів всім реченням привласнюється функціональна вага, обумовлена числом слів даного речення, зв'язаних зі словами інших речень, і на основі обраного критерію (порога) здійснюється екстрагування фраз із найбільшою функціональною вагою. Статистичні методи базуються на розробках американського вченого Г. Луна, який першим у 1958 р. отримав машинний реферат. Він запропонував здійснювати відбір речень на основі частоти вживання слів у реченні (чим частіше зустрічається слово у ньому, тим вище його семантична вага), а також зважаючи на місце розташування значущих слів у реченні. При відборі речень до реферату для кожного з них визначається його "змістова вага". Чим більше слів, які часто зустрічаються, опиняються поряд, тим суттєвішу інформацію містить речення, що і має включатися до реферату; [8]

позиційні методи, що опираються на припущення про те, що інформативність речення є залежним від його позиції (місця) у тексті документа; однак вони «працюють» відносно задовільно на строго структурованих документах типу стандартів, патентних описів і т. п. , а в інших випадках застосовуються лише в сполученні з іншими методами, оскільки в чистому вигляді не мають необхідну репрезентативність результатів;

індикаторні методи, засновані на функціональній ідентифікації фраз первинного документа за допомогою індексації їх спеціальними словами - маркерами, індикаторами й коннекторами, що утворять лексичний апарат даного способу екстрагування. [1]

Організацію автоматизованих систем умовно можна розділити на три етапи: інформаційно-технологічний, інформаційний й аналітичний. У завдання першого етапу входить насамперед створення оптимального програмного середовища для нагромадження, обробки й збереження інформації в системі, а також забезпечення необхідною електронно-обчислювальною технікою, комп'ютерними мережами й засобами їхнього зв'язку. [11]

Не менш відповідальним є етап формування інформаційних потоків. Він припускає продуманий і ретельний відбір інформації, що виключає всякого роду інформаційний шум. Більше того, інформація, що вводять у бази даних, зберігаючи ключові позиції вихідного тексту, повинна бути максимально «віджата» і щонайкраще структурована для наступної ефективної роботи з нею. Тому в цьому випадку перевага виявляється власним базам даних, створюваним для рішення конкретних проблем. Надлишкова інформація лише ускладнює роботу з інформаційними масивами. [11]

1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні