Сучасних методів автоматизації процесів обробки інформації

Словник може бути складений зі слів у заголовках статей, що ставляться до однієї теми й опублікованих у тематичних випусках наукових журналів. Тематичний словник повинен бути структурований і включати такі розділи, як словник службових слів, словник тематичної лексики, словник нетематичної лексики, словник кореферентных термінів. Оскільки слова в заголовках звичайно носять гіпертомінічний характер, їх варто співвіднести з відповідними гипонимами, для того, щоб скласти кластер слів. Таким чином, словник повинен мати ієрархічну структуру. [18]

Програма автоматичного реферування може брати до уваги той або інший кластер у тому випадку, якщо кількість повторень (рекуррентність) гіпертоніму в тексті перевищує певний граничний рівень й, навпаки, ігнорувати кластер, якщо кількість повторів гіпертоніму не досягає граничного рівня. Для підрахунку кількості повторів можна використати існуючі системи. [18]

При наявності кластерів, що співвідносять зі словами тематичного словника, реферування може вироблятися тільки на основі тематичних слів заголовка тексту, що дозволяє значно спростити весь процес.


2. 2. Контент-аналіз як метод автоматизації процесів обробки інформації

Контент-аналіз починався як кількісно-орієнтований метод аналізу текстів для вивчення масових комунікацій. Уперше він був застосований у 1910 році соціологом Максом Вебером для оцінки охоплення періодичною пресою політичних акцій у Німеччині. [17]

З появою засобів автоматизації, текстів в електронному вигляді, починаючи з 60-х років минулого століття, початковий розвиток одержав контент-аналіз інформації великих обсягів — баз даних і інтерактивних медіа-джерел. Традиційне політичне використання сучасних технологій контент-аналізу було доповнено необмеженим переліком рубрик і тим, що охоплюють виробничу і соціальну сфери, бізнес і фінанси, культуру і науку. Цей процес, у свою чергу, супроводжувався великою кількістю різнорідних програмних систем.

Поняття контент-аналіза, що бере свій початок у психології і соціології, сьогодні поки не має однозначного визначення. Це породжує ряд проблем, найважливіша з який полягає в тому, що програмні системи, побудовані на основі різноманітних підходів до контент-аналізу, у загальному випадку несумісні. [17]

Приведемо лише деякі визначення контент-аналізу:

Контент-аналіз — це методика об'єктивного якісного і систематичного вивчення змісту засобів комунікації (Д. Джері, Дж. Джері). [17]

Контент-аналіз — це систематична числова обробка, оцінка й інтерпретація форми і змісти інформаційного джерела (Д. Мангейм, Р. Річ). [17]

Контент-аналіз — це якісно-кількісний метод вивчення документів, що характеризується об'єктивністю висновків і строгістю процедури і являє собою квантификационную обробку тексту з подальшою інтерпретацією результатів (В. Іванов). [4]

Контент-аналіз складається з пошуку в тексті визначених змістовних понять (одиниць аналізу), виявлення частоти їхньої появи і співвідношення зі змістом усього документа (Б. Краснов)

[17]

Контент-аналіз — це дослідницька техніка для одержання результатів шляхом аналізу змісту тексту про стан і властивості соціальної дійсності (Е. Таршис). [17]

Проте, незважаючи на різноманіття трактувань контент-аналіза, велике прикладне значення методології все-таки дозволяє уникнути багатьох протиріч. Об'єднання засобів і методів, їхній природний добір шляхом багаторазової оцінки отриманих результатів відкривають можливість виділення і підтвердження знань, а також фактичної сили і корисності даного інструментарію. [17]

Контент-аналіз у рамках дослідження інформаційних потоків — новий напрямок, що передбачає аналіз масиву текстових документів — результатів моніторингу інформаційного простору.

Загальновизнаним є розподіл методології контент-аналіза на дві галузі: якісну і кількісну. Основа кількісного контент-аналіза - частота появи в документах визначених характеристик змісту. Метод якісного контент-аналіза базується на самому факті чи присутності відсутності в тексті однієї чи декількох характеристик змісту.

Метод якісного контент-аналізу заснований на тому, що в будь-якій фазі кількісного контент-аналізу для оцінок результатів може бути притягнутий експерт. Таким чином, цей метод покликаний забезпечити експерта необхідними засобами для висновків і додаткових результатів. Експерт за допомогою таких засобів може знайти визначені властивості частини інформації і перевірити їх щодо загального текстового потоку, а загальні властивості текстового потоку поширити на його конкретну тематичну частину. [17]

Процес методу якісного контент-аналізу складається з трьох основних стадій.

Перша — зведення великої кількості текстової інформації до кінцевого числа інтегрованих блоків тексту — одиниць змісту, що кодуються для подальшої обробки цих блоків. Основними одиницями змісту є категорії, послідовності і теми.

Друга стадія якісного контент-аналізу — реконструкція суб'єктивних складених текстового потоку — системи значень, думок, поглядів і доказів кожного джерела тексту.

Третя стадія — формування висновків і узагальнень шляхом порівняння індивідуальних систем значень. [17]

Метод кількісного контент-аналізу, у свою чергу, як правило, складається з трьох основних етапів. На першому етапі виділяються одиниці аналізу і переводяться у форму, прийнятну для обробки (сьогодні — в електронний вигляд). Другий етап складається в підрахунку частоти одиниць аналізу з застосуванням різноманітного математичного апарату для виявлення взаємозв'язків між ними. Суть третього етапу складається в інтерпретації отриманих результатів. При цьому без залучення штучного інтелекту, об'ємних семантичних формалізаторів, навіть експертів як таких, з використанням тільки математичних методів можуть бути отримані змістовні, семантично наповнені результати. [17]

Однією з найважливіших проблем у методології контент-аналізу є процес категоризації. Використання набору категорій задає концептуальну сітку, у термінах якої аналізується текстовий потік.

Дослідження текстового потоку, якщо він досить великий, можна проводити двома шляхами.

Перший шлях — визначення кінцевої, але свідомо надлишкової, сукупності категорій для одержання кількісних даних про зустрічальність деяких з них. При цьому передбачається й автоматична чи напівавтоматична кластеризація (розподіл на групи і класи) неупорядкованої послідовності категорій і, відповідно, одержання на її основі нових узагальнених категорій.

1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні