Сучасних методів автоматизації процесів обробки інформації

Щодо значень раніше виділених елементів, то деякі з них із часом відмирають або модифікуються, паралельно з'являються нові значення. Всі ці зміни також фіксуються на рівні індексів класифікатора проблеми. Тобто її розвиток відтепер передається за допомогою нарощування індексів у фасетній формулі та їх конкретним наповненням у класифікаторі.

Запропонований спосіб представлення та розчленування вхідної інформації від крив великі перспективи для подальших маніпуляцій з нею не тільки нарівні різних варіантів оглядових текстів, а й для отримання кількісних показників. [13]

Технологічно передбачено, що домінантним стосовно інших може бути будь-який фасет. Залежно від цього акценти розставляються на різних аспектах проблеми, представленої в комплексі, тобто з урахуванням усіх її параметрів, або частково. [13]

Неординарним є варіант виведення структурованого тексту в табличному вигляді. По вертикалі таблиці розмішуються фрагменти тексту згідно із заданою споживачем ієрархічною схемою, її ступенями можуть бути: об'єкт дослідження, досліджуваний суб'єкт, тема дослідження тощо. По горизонталі таблиці фіксуються модальність цитат, їх регіональна належність, джерела інформації й інші параметри. Для зручності споживачів у межах вертикальної ієрархії за кожним конкретним значенням елементів проблеми інформаційні модулі групуються згідно з ознаками, зафіксованими у горизонтальному розрізі таблиці, їх черговість та значущість задаються споживачами інформації. [13]

Запропонована технологія передбачає відбір фрагментів текстів із непрофільних для даної проблеми джерел, де вони виконують другорядну роль ремарок, пояснень тощо. Однак при відборі інформації потрібно дуже ретельно аналізувати першоджерела. Щоб досягти максимальних результатів, творці вхідної в БД інформації повинні добре розуміти не тільки матеріал, який опрацьовують, а й вивчити аудиторію споживачів та способи застосування ними даної інформації. Технологія систем сприяє її ефективному використанню, оскільки дозволяє вибирати з усього масиву занесених до БД документів лише ту інформацію і за тією послідовністю, в якій вона необхідна споживачеві - звичайно ж, у межах окресленого переліку варіантів її подання. За допомогою програмних засобів фрагменти текстів із різних першоджерел перетворюються у структурно організовані текстові блоки. [13]

У кожному конкретному випадку процесу побудови класифікатора передує структурний аналіз досліджуваної проблеми, суть якого зводиться до виявлення її складених елементів і зв'язків між ними. Після такої попередньої процедури будується граф проблеми, що відтворить у схематичному виді її модель від загальних понять (параметрів) типу: об'єкт дослідження; суб'єкт дослідження; досліджувана - тема до елементів проблеми в їхніх конкретних проявах. У рамках даної моделі кожному значенню виділених елементів проблеми привласнюється певний код (індекс). Це і є першим варіантом робочого класифікатора проблеми, організованого по фасетно-ієрархічному типі, у якому сукупність значень у межах кожного елемента представлена відповідними фасетними класами. [11]

Удосконалена система обробки БД являє собою сукупність інформаційних файлів, що акумулюють відомості про фасети, значення фасетных індексів і порядку сортування інформаційних модулів, а також файл конфигуратора. Останньому відведена провідна роль у технологічному процесі, оскільки він включає назви інформаційних файлів, використовуваних для індексування й сортування інформаційних модулів, назви БД, що зберігають ці модулі для подальшої обробки, назви вихідних файлів і т. д

Спеціально написані програмні засоби розбивають вхідний документ (інформаційний об'єкт) на окремі незалежні фрагменти (інформаційні модулі), автоматично постачаючи кожний з них бібліографічними даними, внесеними при описі документа в цілому. У результаті таких технологічних перетворень формується масив (мережа) ключових фрагментів публікацій, що представляє собою інформаційний відбиток досліджуваної проблеми. Крім того, кожен інформаційний модуль такої мережі при запуску відповідних програм розбивається на три незалежні складові, кожна з яких може функціонувати самостійно. Одна зі складових являє собою цитату документа (змістовна інформація), інша - повний бібліографічний опис документа і третя - фасетную формулу (структурна характеристика виділеного фрагмента тексту). Така технологічна процедура перетворює раніше сформований масив інформації в повну публікаційну матрицю, що піддається аналізу по кожнійій з виділених складових і по їх довільно заданій сукупності. [11]

Запропонований спосіб подання й розчленовування вхідної інформації дозволяє нею всіляко маніпулювати в процесі формування вихідних текстових файлів і при одержанні кількісних показників. [11]

Підводячи підсумки, слід зазначити, що використання контент-аналізу для створення інформаційно-аналітичних систем дозволяє вловити поширеність тієї чи іншої ознаки досліджуваної сукупності текстів. При цьому важливо не стільки абсолютне, скільки відносне значення ознаки, тобто характеристика її місця (частки) серед інших ознак. Вимір співвідношення між ознаками в текстах дає емпіричний матеріал для розуміння функціональних зв`язків між елементами відображеної в текстах дійсності. При наявності текстів, що мають хронологічну послідовність, можно мати низку фіксованих у часі "портретів" досліджуваної дійсності, що дає змогу висувати гіпотези прогностичного характеру про фунціонування елементів системи.


ВИСНОВКИ

Отже, у рамках автоматичної обробки інформації зазвичай виділяють три основних напрямки:

  • статистичні методи, засновані на використанні статистичних параметрів для оцінки інформативності різних елементів тексту (слів, речень) насамперед по частоті зустрічальності слів у тексті; у результаті ранжирування лексики в тім або іншому документі вони визначають слова з високим рангом й їхня сполучуваність у різних фразах і за цими показниками оцінюють інформативність даних фраз; в іншому випадку на основі функціонування різного типу повторів всім реченням привласнюється функціональна вага, обумовлений числом слів даного речення, зв'язаних зі словами інших речень, і на основі обраного критерію (порога) здійснюється екстрагування фраз із найбільшою функціональною вагою;
  • позиційні методи, що опираються на припущення про те, що інформативність речення є залежним від його позиції (місця) у тексті документа; однак вони «працюють» відносно задовільно на строго структурованих документах типу стандартів, патентних описів і т. п. , а в інших випадках застосовуються лише в сполученні з іншими методами, оскільки в чистому виді не мають необхідну репрезентативність результатів;
  • індикаторні методи, засновані на функціональній ідентифікації фраз первинного документа за допомогою індексації їхніми спеціальними словами - маркерами, індикаторами й коннекторами, що утворять лексичний апарат даного способу екстрагування.

Автоматизація обробки інформації здійснюється за двома напрямами:

  • екстрагування із першоджерел найбільш інформативних фрагментів (автоматичне екстрагування);
  • виявлення в текстах найбільш інформативних фрагментів з наступним синтезуванням із них нових текстів.

Метод контент-аналізу, як один з методів автоматизованої обробки інформації активно застосовується на сучасному етапі і має ряд переваг.

Метод кількісного контент-аналізу, як правило, складається з трьох основних етапів. На першому етапі виділяються одиниці аналізу і переводяться у форму, прийнятну для обробки (сьогодні — в електронний вигляд). Другий етап складається в підрахунку частот одиниць аналізу з застосуванням різноманітного математичного апарату для виявлення взаємозв'язків між ними. Суть третього етапу складається в інтерпретації отриманих результатів.

Контент-аналіз припускає структурування, сегментацію, розчленування текстів чи вичленення із них змістовних інваріантів, що повторюються в усіх чи у ряді текстів, які належать до досліджуваної масової сукупності.

В автоматизованій технології контент-аналізу існує кілька особливостей:

  • використання ключового фрагмента публікації як одиниці формування текстового інформаційного масиву;
  • формування банку ключових фрагментів публікацій є об'єднанням двох взаємозалежних автоматизованих процесів: аналітико-синтетичної переробки і багаторівневої процедури контент-аналізу текстів публікацій;
  • індексація ключових фрагментів публікацій відбувається за допомогою багатофасетної класифікації.
1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні