Сучасних методів автоматизації процесів обробки інформації

Система обробки інформаційних масивів являє собою сукупність інформаційних файлів, що акумулюють інформацію про фасети, значення фасетних індексів і порядку сортування інформаційних модулів, виконавчого файлу і файлу конфігуратора. [17]

При відборі видань, при щоденному їхньому перегляді ведеться пошук потрібних матеріалів. Опрацювання документів здійснюється методом контент-аналізу з урахуванням особливостей визначених тем і перспектив їхнього можливого розвитку. З тексту у вигляді цитат відбирається профільний дослідженню матеріал. Такий спосіб опрацювання документів, який потребує їх уважного прочитання та ретельного кваліфікованого відбору інформації, забезпечує повноту, гарантує чистоту та компактність відібраних матеріалів. [15]

Наступний методичний крок полягає у перекладі змісту виділених фрагментів на формальну мову. Процедура контент-аналізу документів спрямована на виділення з тексту фрагментів, що відповідають найменшому, але цілісному модулю інформації в границях досліджуваної проблеми. У рамках такого модуля визначаються елементи проблеми, адекватні конкретним значенням класифікатора і між ними встановлюються зв'язки для наступної формальної передачі змісту фрагмента публікації за допомогою фасетной формули. Кожної з виділених цитат після її ретельного аналізу привласнюється сукупність визначених індексів (кодів), що відповідають конкретним значенням класифікатора і розташовуються в строго фіксованій послідовності у фасетной формулі. Таким чином, на основі розробленого класифікатора за допомогою фасетної формули ведеться формальний опис виділеного фрагмента тексту, а сукупність фасетних формул усіх виділених фрагментів забезпечує формальний опис документа в цілому (у контексті досліджуваної проблеми). Інформація, що не стосується проблеми, не виділяється з тексту і не заноситься в базу даних. Введений в інформаційну систему документ являє собою сукупність ключових фрагментів тексту (кожний з який заіндексований відповідно до його змісту). Процедура обробки публікацій — своєрідне інформаційне сито, що пропускає лише релевантну темі інформацію у вигляді фрагментів тексту. Серед переваг даної технології, слід зазначити зведення до мінімуму інформаційного шуму. Сформовані бази даних, зберігаючи текст оригіналу, — досить компактні і зручні в роботі. Серед недоліків технології — великі витрати інтелектуальної роботи як при обробці першоджерела, так і при наповненні баз даних. Трудомісткість технології обумовлена головним чином тим, що системи створюються на базі видань, електронні версії яких тепер не одержали поширення. Більш того, надзвичайно низька якість друку таких видань унеможливлює використання процедури електронного розпізнавання тексту. [17]

Запропонована процедура обробки публікацій є своєрідним «інформаційним ситом», що пропускає лише релевантну темі інформацію у вигляді екстрагованих з тексту фрагментів. Серед переваг даної технології, по-перше, слід зазначити відомість інформаційного шуму до мінімуму. По-друге, сформовані БД, зберігаючи у вигляді ключових цитат текст оригіналу, є досить компактними й зручними в роботі. Серед недоліків технології - більші витрати ручної праці, як при обробці першоджерел, так і при наповненні БД. Трудомісткість технології обумовлена головним чином тим, що системи створюються на базі газетних видань переважно регіонального походження, електронні версії яких у цей час не одержали поширення. Більше того, надзвичайно низька якість печатки таких видань унеможливлює використання процедури електронного дізнавання тексту зі сканера

У міру рішення видавничих проблем технологічний процес формування БД буде розвиватися в напрямку його поетапної автоматизації. [11]

Другий, технологічний етап контент-аналізу забезпечує аналітико-синтетичну переробку масиву вхідної інформації та її конвертування у зручні для споживачів аналітичні матеріали, скомпоновані у вигляді різних варіантів текстової складової (самих цитат) та статистичних показників. На цьому етапі використовуються програмні засоби та технологічні схеми, відпрацьовані спеціалістами. [15]

Запропонований спосіб представлення і розчленовування вхідної інформації дозволяє багатопланово використовувати її в процесі формування вихідних текстових файлів і при одержанні кількісних показників. [17]

Технологічно передбачені багатоаспектні комбінації цитат у рамках параметрів класифікатора. У якості домінантного може бути обраний кожний з елементів фасетної формули чи його окреме значення. Проблему можна представляти як комплексно, так і виборчо.

Таким чином, у технології проведення контент-аналізу інформаційного потоку на всіх етапах, як у технології обробки першоджерел і формування баз даних, так і в програмних засобах аналітико-синтетичної обробки інформації, передбачене різноманітне і багатоаспектне використання тематично обкресленої вхідної інформації. Аналіз і синтез включених у систему фрагментів дозволяють одержувати оригінальні інформаційні продукти. Вихідні файли можуть бути представлені у виді автоматично сформованих дайджестів (структурованих цитат публікацій з дотриманням визначеної ієрархії і порядку сортування) чи статистичних таблиць, тобто частотних характеристик досліджуваної проблеми. [17]

Інформаційні технології дозволяють вводити нові елементи, необхідні в окремих випадках конкретним споживачам. Технічно це зважується шляхом додавання у фасетную формулу нових фасет і відповідних їм сукупностей фасетних класів і їхніх індексів — у класифікатор. Таким чином, у процесі розвитку проблеми поповнюється і модифікується початковий варіант класифікатора, і, відповідно, удосконалюється сама система в плані можливостей аналізу проблеми.

Унікальність методології контент-аналізу складається також у тому, що вона не прив'язана ні до конкретного СУБД, ні до конкретних видів джерела інформації, ні до тематики інформації. [17]

Документ заноситься не як єдине ціле, а як сукупність окремих, незалежних одна від одної цитат. При її формуванні поняття «ключова цитата» стосується не тільки і не стільки тексту, з якого вона виділяється, скільки теми, котру відображає інфосистема. Тому не дивно, що «ключовий» відносно репрезентованої теми фрагменту контексті документа, з якого він виділяється, може виконувати другорядну роль або допоміжну функцію. Наприклад, бути поясненням до основного змісту тексту. [13]

Отже, фасетну формулу становлять взяті за строго фіксованою послідовністю індекси фасетних класів відповідних елементів проблеми та синтаксичні знаки; Індекси кожного попереднього фасету віддаляються від індексів наступного за допомогою крапки з комою (;). Для індексування вхідних матеріалів також передбачалися випадки, коли один елемент може одночасно мати кілька значень, вони фіксуються за допомогою індексів у конкретному місці фасетної формули (фасеті), відділяючись одне від одного комою (,). Класифікатор, це передбачено, не має бути консервативним за структурою і за змістом складових елементів. Він повинен розвиватися і вдосконалюватися згідно з розвитком проблеми. На рівні структури додаються нові елементи з сукупністю відповідних їм значень. Фасетна формула доповнюється адекватними цим елементам фасетами і фасетними класами. [13]

1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні