Сучасних методів автоматизації процесів обробки інформації

Перефразування також значно поширений метод надання інформації в рефераті. Воно передбачає випущення значної частини відомостей з тексту первинного документа і перебудову його змістової та синтаксичної структури. Перебудову здійснюють, заміняючи одні фрагменти тексту іншими, поєднуючи кілька речень в одне, узагальнюючи відомості. [6]

Роботи з удосконалювання методики статистичного аналізу текстів одержали в 60-і рр. розвиток у багатьох країнах. У цих роботах, враховуються вже не тільки окремі слова, але і словосполучення, що відбивають зміст тексту на основі їхньої спільної зустрічальності в реченнях. Особливої уваги заслуговують опису оригінальних розробок семантико-статистичного підходу до екстрагування з використанням дескрипторних словників (тезаурусів) — так зване «дескрипторне реферування».

До статистичного напрямку відносяться публікації Е. А. Анікіної, присвячені формальному анотуванню технічних текстів. Для добору речень з першоджерела нею використовувався критерій «пріоритету довгих речень». Автор думає, що в реченні з великим числом слів міститься більший обсяг інформації. Однак цей підхід не одержав подальшого розвитку. [6]

Починаючи з 70-х рр. автоматизація анотування і реферування активно вивчається групою „статистика мови” під керівництвом Р. Г. Піотровського. Використовуючи частотні і змістовні критерії, дослідники складають для різних мов науки автоматичні словники слів і словосполучень, супроводжуючи їх відповідними перекладами на певну мову.

Для одержання автоматичних «рефератів» і «анотацій» використовується процедура автоматичного індексування першоджерел за допомогою заздалегідь складених тезаурусів ключових слів і словосполучень. Метод являє собою алгоритмізовану підстановку витягнутих з чи першоджерела з тезауруса інформативних слів і словосполучень у задані словесні кліше типу: «Дана стаття відноситься до теми. . . », «висвітлює питання, пов'язані з. . . » і ін. [6]

 

1. 2. Позиційні методи автоматизації процесів обробки інформації

Позиційні методи автоматизації реферування й анотування мали на меті удосконалити технологію добору найбільш значимих речень з першоджерела використовуючи для цього складний математичний апарат. Представляється, що назва «позиційні» більш точно відбиває сутність методів, названих раніше логіко-математичними. Найбільше повно позиційний напрямок представлений у роботах Г. Едмундсона і Р. Уілліса. У його основу покладена концепція, що інформативними частинами тексту є так звані фіксовані фрагменти: заголовок, підзаголовки, висновки, абзаци, початок і кінець параграфів

У залежності від позицій у тексті фрагменту привласнюється той чи інший ваговий коефіцієнт. Відповідно до цієї концепції автори провели на ЕОМ експериментальну перевірку ефективності чотирьох методів екстрагування, два з який відносилися до позиційного. [6]

  1. Метод натяку (Н). По цьому методі з тексту відбиралися речення для екстракту на основі попередньо складеного людиною словника «позитивних», «негативних» і «нульових» слів. Слова з нульовою вагою при доборі речень не враховувалися. [6]

Сутність методу натяку полягає у використанні під час відбору речень списку слів, в якому заздалегідь виділено слова з позитивною, негативною змістовою вагою і "нульові" (нейтральні). При відборі враховуються тільки слова, що передають позитивну й негативну оцінку. В разі використання методу ключових слів розглядаються слова, відібрані за частотним принципом та за цією ознакою визначені ключовими, що є аналогічним до запропонованого Г. Луном підходу. В методі заголовка головна роль відводиться словнику термінів, відібраних із заголовка та підзаголовків, які мають більшу "вагу", ніж слова з інших речень тексту. До реферату відбираються речення, де зустрічаються терміни, котрі є у словнику. Метод локалізації грунтується на припущенні, що найсуттєвіша інформація концентрується на самому початку або наприкінці певного уривка чи параграфа тексту. Зіставлення всіх чотирьох методів показало, що метод ключових слів забезпечує повноту відбиття змісту первинного документа на 15-40 %, метод заголовка — на 30-40 %, а спільне використання методів натяку, заголовка та локалізації — на 30-60 %. [8]

Треба відмітити, що словник слів, складений для екстрагування по методу натяку, у сучасній термінології можна, мабуть, вважати різновидом аспектних словників дескрипторів. У таких словниках аспектний дескриптор є предикатом, характеризуючи ту чи іншу сторону розгляду предмета.

  1. Метод ключових слів (КС). Ґрунтувався на статистичних критеріях витягу ключових слів з тексту по методу Г. П. Луна.
  2. Метод заголовка (3) — один з різновидів позиційних методів, запропонований розроблювачами. Вважалося, що основний зміст документа виражається його заголовком і підзаголовками. Зі слів, що входять у заголовки і підзаголовки, складався словник; слова з заголовка до того ж одержували більший ваговий коефіцієнт, чим слова з підзаголовків. В екстракт відбиралися речення, у яких зустрічалися терміни, що збігаються зі словником. [6]
  3. Метод локалізації (місцезнаходження) (Л). Це другий метод, що також відноситься до різновиду позиційних. Він спирається на дослідження, де показано, що найбільш інформативними є речення, що містять інформацію про мети, методи, висновки і результатах дослідження. Ці речення можуть знаходитися на початку чи наприкінці параграфа, абзацу, уривка тексту. У залежності від місцезнаходження вони одержують відповідну вагу. [6]

Таким чином, отримані на ЕОМ експериментальні результати, свідчили, що екстракт, побудований по методу заголовка (3), відбиває зміст першоджерела на 30—40%; по методу ключових слів (КС) — на 15—40; по методу натяку (Н) — на 25—45, а по методу локалізації — на 25—55%. [6]

Позиційні методи націлені на вдосконалення технології відбору найбільш значущих речень у текстах із залученням складного математичного апарату. Відбір здійснюється на засадах чотирьох взаємопов'язаних методів: натяку, ключових слів, заголовка, локалізації. [8]

Позиційні методи вдосконалюють відбір найбільш значущих речень з текстів первинних документів з використанням складного математичного апарату. [1]

Подальшого розвитку цей підхід набув під час розробки індикативних методів реферування, порівняно з якими статистичні та позиційні методи відіграють допоміжну роль.

Подальший розвиток позиційний підхід одержав в обґрунтуванні лінгво-семантичної концепції екстрагування, стосовно якої статистичні методи виконують допоміжну роль.

1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні