Сучасних методів автоматизації процесів обробки інформації

По-перше, наявність у даний час різних проектів і систем автоматичного реферування свідчить про те, що усі вони, узяті разом, є широко поставлений експеримент. Цей Експеримент можна розглядати як триваючу спробу моделювання інтелектуальних процесів реферування й анотування. Починаючи з 1958 р. дослідники автоматизації реферування чи усвідомлено неусвідомлено неминуче зіштовхуються з такими проблемами, що завжди знаходилися і знаходяться в поле зору інтелектуального реферування й анотування. У самому загальному виді вони зводяться до перебування і витягу інформативних фрагментів у структурі тексту, розробці процедур редагування і перифразирования відібраних фрагментів і створенню нового синтезованого тексту. Для рішення цих проблем у системах автоматичного реферування використовуються статистичні, позиційні, лінгвістичні, семантичні (чи і ті й інші разом) критерії, за допомогою яких можна уточнювати місце того чи іншого фрагмента, а також його значеннєве навантаження в конкретних текстах. Методики, побудовані на таких критеріях, є предметом інтенсивних досліджень і удосконалювання їхній продовжується. Найбільш багатообіцяючим у найближчій перспективі представляється позиційний, у більш далекої— лингво-семантический підхід. [6]

По-друге, що існують системи автоматизації реферування моделюють, як правило, не сам процес інтелектуального реферування, тобто процеси читання, розуміння, осмислення першоджерела, а кінцевий результат: витяг з тексту фрагментів і оформлення реферату по заданій програмі. Саме в розрахунку на кінцевий результат проектуються і створюються словники «негативних», «позитивних», індикаторних і тому подібних слів, словосполучень. За допомогою словників спочатку виробляються пошук і «дізнавання» інформативних фрагментів, а потім формування з них екстрактів. [6]


Розділ 2. Теоретичні основи сучасних методів автоматизації процесів обробки інформації

2. 1. Симетричне реферування як метод автоматизації процесів обробки інформації

Симетричне реферування являє собою інтерпретацію основних ідей функціонального реферування й ґрунтується на принципах симетричності, ототожнення, послідовності й контактному зв'язку. [18]

Пунктирне підкреслення вказує на повторювані слова, які не належать до предметної області статті й не приймаються в увагу в процесі реферування. Суцільне підкреслення вказує на повторювані слова, що належать до предметної області статті. Ці слова необхідно приймати в увагу при реферуванні.

Принцип, на основі якого працює ця методика - це принцип симетричного відношення: якщо пропозиція X має п зв'язків із пропозицією Y, та пропозиція Y має п зв'язків із пропозицією X. Інший принцип полягає в тім, що слова, що мають одну основу, але різні словотворчі й формотворні суфікси ототожнюються й розглядаються як одне слово. [18]

Методика симетричного реферування має ряд переваг:

Її досить легко автоматизувати при наявності словника термінів, що належать до даної області знань

У цьому випадку комп'ютер (програма) переглядає текст, вибираючи пропозиції з повторюваними словами й підраховуючи кількість зв'язків.

Досить просто можна змінити розмір реферату, установивши певний граничний рівень функціональної ваги пропозицій, що відбирають у реферат. Очевидно, наприклад, що при граничному рівні 6 (у реферат відбираються тільки пропозиції, що мають 6 або більше зв'язків) розмір реферату буде менше, ніж при граничному рівні

Симетричне реферування може застосовуватися як до більших, так і до невеликим наукових і газетних текстів. Мінімальний розмір первинного тексту - три пропозиції, тобто S > 3, де S - розмір реферованого тексту.

Методика симетричного реферування дозволяє змінювати параметри інформаційного пошуку. [18]

Симетричне реферування забезпечує достатню зв’язаність реферату й дозволяє розробляти не тільки дискретні, але й безперервні системи доступу, надаючи користувачеві можливість зміни теми пошуку.

На відміну від маркерного реферування, симетричне реферування може бути ефективно застосоване до невеликих газетних і наукових текстів. Більше того, воно може застосовуватися для реферування рефератів з метою одержання реферату якого-небудь реферату (реферату) за умови, що реферований реферат має не менш трьох пропозицій.

Застосування симетричного реферування до наукових текстів великого обсягу можливо на основі структурованого тематичного словника, що представляє кожну предметну область або її розділ у вигляді певних тим. Методику складання такого словника, можна продемонструвати на прикладі одного з тематичних випусків журналу "Language Learning and Technology", присвяченого проблемам грамотності. Складання словника по темі "грамотність" (literacy) може включати наступні етапи й процедури:

Відбір лексики із заголовків статей. Переглянувши заголовка статей із зазначеного тематичного випуску, одержуємо наступний список:

Елімінація: а) службових слів (артиклів і приводів), б) прикметників, використовуваних як визначення, с) повторюваних слів.

Виділення тематичної лексики й нетематичної лексики. Остання включає слова, що позначають абстрактні поняття й відносини. [18]

Відповідно до методики симетричного екстрагування флективні форми цих слів теж ураховуються. Ці форми включають іменники в множині (наприклад, literacies) і деривати (наприклад, learner). При реферуванні більших по обсязі текстів можна не враховувати атрибутивні іменники.

Відповідно до принципу ототожнення ототожнюються слова з різними словотворчими формотворними суфіксами, але однаковими кореневими морфемами, а також кореферентні терміни. Відповідно до принципу послідовності пропозиції, відібрані з тексту первинного документа, розташовуються в тексті реферату в тій послідовності, у якій вони приводяться в першоджерелі. Відповідно до принципу контактного зв'язку в тому випадку, якщо дві або більше пропозиції мають однакову функціональну вагу, відбирається та пропозиція, що безпосередньо примикає або перебуває ближче до пропозиції з більшою функціональною вагою. [18]

1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні