Сучасних методів автоматизації процесів обробки інформації

1. 3. Індикативні методи автоматизації процесів обробки інформації

Лінгво-семантичні методи автоматизації реферування й анотування спираються на дослідження з лінгвістики і семантики тексту. З цією метою в колишньому Радянському Союзі і за рубежем був проведений ряд експериментів, задача яких полягала в тому, щоб розкрити співвідношення між синтаксичною структурою тексту і його семантикою. Треба сказати, що лінгво-семантичний напрямок досліджень найбільш представлений. [6]

Індикативні методи дають змогу на підставі синтаксичного аналізу формалізувати виклад основного змісту первинного документа у рефераті телеграфного стилю. Синтаксичному аналізу може підлягати як увесь текст, так і його окремі фрагменти, що містять типові маркери. [8]

Нетекстова інформація (таблиці, графіки, схеми, рисунки) вилучається у ході інтелектуального реферування, що передує введенню відомостей до ЕОМ. Відібраним реченням після аналізу надається позитивна чи негативна семантична вага. Крім того, визначається семантична цінність окремих елементів речення. Індикатором для виділення таких елементів виступають розділові знаки в середині речення. [8]

Електронний словник з алфавітним переліком термінів і фраз є покажчиком спеціального коду, що визначає семантичну вагу або семантичну цінність речення. Така побудова словника дає змогу після незначного редагування вводити документи з різної тематики та різноаспектним висвітленням змісту. Обсяг одержаних рефератів становить у середньому до 35 % обсягу оригіналу. [8]

На відміну від попередніх способів квазізгортання індикаторний метод має у своєму розпорядженні можливість функціональної індикації фраз первинного документа, його аспектного структурування за допомогою застосовуваного для екстрагування лексичного апарата. [1]

Індикативні методи дають змогу на основі синтаксичного аналізу формалізувати виклад основного змісту первинного документа. Синтаксичному аналізу може підлягати як увесь текст, так і його окремі фрагменти, що містять типові маркери. Показником для виділення значущих елементів правлять розділові знаки в середині речення.

Суть індикаторного методу полягає у використанні словників маркерів, індикаторів і коннекторів (лексичний апарат згортання), що нараховують понад 1 500 лексичні одиниці так званої неключової внетематичної лексики, і формул вибору, що відбивають вимоги до різних видів вторинних документів для машинного екстрагування фраз, які ставляться до різних змістовних аспектів документів. Сукупності таких фраз, певним чином упорядкованих, і утворять різні види вторинних документів - основного засобу інформаційного обслуговування. [1]

Маркери (їм належить основна роль) – це окремі слова або словосполучення, що забезпечують однозначну ідентифікацію фраз, що належать до різним значеннєвого (змістовним) аспектам тексту. Існують два типи змістовних аспектів (їх називають іноді сітками): перший тип відбиває структуру (логіку) виду документа, другий тип – структуру (логіку) тієї або іншої області знання або групи об'єктів. [1]

Маркери у свою чергу підрозділяються на три групи: маркери, що ідентифікують фрази, що ставляться до аннотативным аспектів змісту -реферативні маркери, орієнтовані на екстрагування фраз, що включають у реферати - фрагментуючі маркери, призначені для екстрагування фраз, що включають у реферати-фрагменти. [1]

Індикатори – лексичні одиниці, покликані виконувати переважно оцінний-оцінні-модально-оцінні функції, – зі змістовними аспектами чітко не зв'язані, а відбивають відношення автора до розглянутого в документі питанню. Вони підрозділяються на підсумовуючі, що акцентують, що констатують, імовірнісний-імовірнісні-оціночно-імовірнісні, що ілюструють й ін. [1]

Коннектори – лексичні одиниці, що забезпечують міжфразові зв'язки. Відомо, що закінченим змістом найчастіше володіють не окремі речення, а деяка їхня сукупність – мінімальний релевантний фрагмент. Нерідкі випадки, коли маркіроване речення є синсемантичним – у ньому основний предмет розгляду замінений займенниковим словом або словосполученням

У цьому випадку для усунення значеннєвої неповноцінності (синсемантичності) фрази до нього необхідно приєднати вище– або нижчестоячу фразу (або фрази). Функцію сигналу про значеннєву неповноту речення й виконують коннектори, які розділені нами на ліві, що відсилають до вищестоящої фрази (аналогічний, даний, цей, такий, описаний, викладений й ін. ), і праві, уточнюючі, що додають (більше того, разом з тим, крім того, зокрема, тим самим й ін. ), що вимагають приєднання нижчестоящої фрази. [1]

Перераховані вище елементи лексичного апарату згортання реалізуються в процесі згортання за допомогою формул вибору тексту. У них у символьній формі фіксуються елементи лексичного апарата, що відповідають вимогам екстрагування фраз для різних видів вторинних документів. Таким чином, структура (схема) формули вибору, організована по фасетному принципі, містить у собі послідовність маркерів й індикаторів, що відповідають моделям різних видів вторинних документів. [1]

У процесі реферування використовуються дві види обробки: пряма і зворотна. Пряма обробка являє собою аналіз знизу нагору. Вона заснована на властивостях самого тексту, що реферується, наприклад на його структурі: реферат будується шляхом вибору за визначеними правилами з тексту найбільш важливої змістовної інформації. Метою аналізу є побудова внутрішнього представлення тексту. Процедура аналізу здійснюється автоматизованою програмою: обробляється текст, на основі використання інформації про слова і конструкції, що міститься в словнику, і набору семантичних правил. Ці правила визначають властивості і відносини між елементарними поняттями, важливими з погляду предметної області.

Внутрішнє представлення тексту має форму мережі. Вона складається з послідовності розмічених пропозиций (слів, словосполучень, речень), кожна з який несе одиницю інформації. Значимість речень оцінюється «Зважувачем». Ціль зважування — перетворення тексту в структуру фреймів, у якій визначений рівень релевантности і детальності речень. Варто підкреслити, що при прямій обробці правила реферування можуть застосовуватися до тексту неодноразово. [6]

Зворотна обробка містить аналіз зверху вниз. Система спирається головним чином на схему реферату і набір правил. Вона витягає з тексту ті фрагменти, що відповідають вимогам, що міститься в ній. Зворотна обробка виробляється за допомогою програми. Селектор за правилами, що враховують схему майбутнього реферату, відбирає речення, що мають максимальну вагу. [6]

Процес породження тексту реферату здійснюється програмою. Генератор робить двох операцій: 1) пошук у вхідному тексті язьщовых одиниць (пропозиций), з яких будується реферат; 2) організацію цих пропозиций у правильний і прийнятний реферативний текст. При другій операції використовуються моделі речень, розраховані на одержання стилістично і граматично нескладних і правильних речень.

Грунтуючись на розроблювальних проектах і системах автоматичного реферування, відбиті в наявній літературі, можна зробити, принаймні, два висновки.

1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні