Сучасних методів автоматизації процесів обробки інформації

1. 1. Статистичні методи автоматизації процесів обробки інформації

Статистичні методи вперше були застосовані в роботах основоположника автоматизації екстрагування американського вченого-інформатика Г. П. Луна, що у лютому 1958 р. одержав перший машинний реферат-екстракт. Лун припустив, що вибір найбільш значимих речень залежить від двох факторів. Перший — це частота зустрічальності слів у реченні, другий фактор, на думку Луна, пов'язаний з місцем розташування значимих слів у реченні. Чим більше значимих слів виявляється поруч, тим більше істотну інформацію несе це речення. Для добору того чи іншого речення в майбутній екстракт по спеціальних формулах встановлювалася його «змістовна» вага. [6]

Варто підкреслити, що схема одержання цього екстракту моделює не сам процес екстрагування речень з тексту людиною, а кінцевий результат стиску.

Ідеї Г. Луна стимулювали подальші розробки з автоматизації реферування, засновані на статистичному аналізі текстів. Найвідомішими стали методики росіян В. Аграєва, Б. Бородіна та В. Пурто. Перші двоє запропонували методику, згідно з якою вибрані з тексту речення виявляються пов'язаними між собою. Найбільш зв'язаними, а тому такими, що підлягають включенню до реферату, вважаються речення, які містять найбільшу кількість однакових значущих слів. [8]

В. Пурто розробив метод оцінки та відбору речень за кількістю інформації, яку вони містять. У цьому випадку тексти підлягають статистичному аналізу для виявлення частоти вживання слів. Словами, що найчастіше вживаються у науково-технічній літературі, є терміни. Дослідник стверджує: чим важливіший термін, тим частіше він зустрічається в тексті, а відібрані речення містимуть максимальну кількість цих термінів. Обсяг одержаного в такий спосіб реферату складає, як правило, не більше трьох речень, незалежно від обсягу первинного документа. [8]

Тобто, у разі використання статистичного методу реферування обсяг і якість рефератів повністю залежать від статистичних характеристик тексту, тому речення, що містять найважливішу інформацію (наприклад, висновки у наукових статтях, патентні формули в описах винаходів), можуть бути взагалі не виділені та не ввійти до реферату. Проте, визначені недоліки, певною мірою, компенсуються завдяки простоті аналізу й однорідності рефератів, які готуються за допомогою ЕОМ. Це стимулює роботи у такому напрямі в багатьох країнах.

Суть статистичних методів полягає у відборі значущих речень відповідно до частоти вживання певних слів і розташування їх у реченні. Відбираючи речення до реферату, для кожного з них визначають значущість або змістову вагу. Чим більше слів, що часто трапляються в одному реченні, тим суттєвішу інформацію воно містить і тому має бути включене до реферату. Різні модифікації цього методу відрізняються підходом до вибору слів, що підлягають статистичному аналізу. Обсяг одержаного в такий спосіб реферату становить, як правило, не більше трьох речень, незалежно від обсягу первинного документа

Простота аналізу тексту першоджерела й однорідність отриманих рефератів забезпечили поширення статистичних методів автоматизованого реферування в багатьох країнах і їхню подальшу оптимізацію. [1]

Головним недоліком статистичного підходу, за загальною думкою, є те, що при його використанні ігноруються значеннєві зв'язки між словами, а обсяг і якість екстрактів цілком залежать від статистики тексту. Однак ці недоліки у певній мірі компенсуються простотою аналізу. [6]

Розробка і перспективи використання методів автоматизованого реферування тісно пов'язані з проблемами оцінювання якості машинних квазірефератів. Якість їх визначають на основі виявлення текстових збігів у рефератах, які підготувала людина, і в автоматичних, а також шляхом порівняння результатів пошуку за текстами інтелектуальних і квазірефератів.

Екстрагування — дуже поширений метод, що привертає фахівців своєю економічністю і легкістю одержання реферату досить високої якості. Суть методики екстрагування полягає в тому, що, аналізуючи первинний документ, у тексті виявляють речення, які потім повністю або із незначними змінами переносять до реферату. При цьому вибір речень повністю залежить від ерудиції та професійної підготовки референта, тому не виключений суб'єктивізм у здійсненні цієї операції. Цього недоліку до певної міри можна уникнути, застосувавши формалізовану методику екстрагування. Така методика базується на виявленні в тексті первинного документа спеціальних словесних кліше — маркерів, індикаторів і конекторів. Маркери, як і в методі вибіркового реферування, визначають аспекти змісту первинного документа. Індикатори, на відміну від маркерів, не прив'язують твердо до певного аспекту. Вони вказують на речення, яким автор надає особливого значення ("слід підкреслити", "необхідно зазначити", "важливо мати на увазі"), або підбивають підсумки якогось фрагмента викладення ("таким чином", "унаслідок", "отже"). Конектори призначені для виділення речень, які обов'язково пов'язані з маркірованим аспектом. Групу конекторів становлять вказівні або власні займенники ("цей", "ці", "такі", "він"), або сполучні і вставні слова ("при цьому", "наприклад", "зокрема"). Для полегшення роботи з вибору відповідних речень складають спеціальні словники. У таких словниках в абетковому порядку перелічено всі маркери, індикатори та конектори. Їх використання підвищує можливість вибору однакових речень із первинних документів і, таким чином, дає змогу точніше передати в рефераті зміст першоджерела.

Референт, переглядаючи текст первинного документа і керуючись словником маркерів та індикаторів, виявляє речення, в яких містяться ці кліше. У спеціальному бланку він обов'язково фіксує речення з маркерами, а речення з індикаторами записує, якщо, на думку референта, маркірованих фраз недостатньо.

Щодо конекторів, то їх можна поділити на дві групи. Першу становлять вказівні та особові займенники, а також вирази на зразок "вищезазначений", "подібний". Якщо слово, яке за­мінюють ці слова, є поза реченням з конектором, то в реферат може бути включено два речення — з конектором і те, що стоїть перед ним.

Другу групу конекторів становлять слова і вирази, які вказують на те, що це речення уточнює маркіроване. До таких конекторів належать слова "так, . . . ", "наприклад", "зокрема", "у тому числі" і т. ін. Якщо референт вважає маркіроване речення не достатньо інформативним, він має змогу включити до реферату, крім нього, наступне речення — речення з конектором.

Отже, суворо формалізоване лише вживання маркерів, використання індикаторів і конекторів, значною мірою визначають міркування референта. Одержані реферати-екстракти потребують доопрацювання з метою вилучення зайвих слів, повторів, уведення зв'язок між фразами тощо.

1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні