Сучасних методів автоматизації процесів обробки інформації

Другий шлях — виявлення в потоці за допомогою кількісних багаторазових оцінок нових знань з наступною кваліфікацією їх як категорій. Це напрямок контент-аналізу одержало назву Data Mіnіng — дослівно "розкопка даних". [17]

Контент-аналіз є одним із методів якісно-кількісного вивчення змісту текстів. Суть методу полягає у зведенні всіх текстів досліджуваної проблеми до набору певних елементів, які в подальшому підлягають підрахунку та аналізу. Тексти в таких дослідженнях виступають в якості об'єкта аналізу тому, що на підставі змін, які відображені в них, можна робити висновки про тенденції розвитку суспільства, або функціонування відповідних соціальних інститутів. [9]

Російський вчений О. М. Алексєєв виділив такі складові контент-аналітичного дослідження:

Контент-аналіз має справу з масовою сукупністю текстів, використовуючи при цьому типові соціологічні процедури суцільного чи вибіркового обстеження, з дотриманням вимог репрезентативності.

Контент-аналіз припускає структурування, сегментацію, розчленування текстів чи вичленення із них змістовних інваріантів, що повторюються в усіх чи у ряді текстів, які належать до досліджуваної масової сукупності.

Для забезпечення такої однотипності сегментації і вичленення інваріантів контент-аналіз припускає високу ступінь формалізації, застосування суворих операціональних правил і формальних алгоритмів у здійсненні процедур контент-аналізу.

Контент-аналіз — аналітико-синтетична процедура, оскільки передбачається формалізований "розділ" цілісних текстів чи вичленення окремих елементів їх для наступного "збирання" цих інваріантних елементів у великі "однорідні маси", обсяг і тип яких характеризуються як певна цілісність уже усієї сукупності текстів.

Контент-аналіз передбачає використання якісних, статистичних методів, причому вказані інваріантні елементи з їх ознаками виступають одиницями спостереження і підрахунку. [9]

Взагалі, у контент-аналізі має місце перекодування соціальної інформації.

Деякі принципи контент-аналізу запозичені при створенні інформаційно-аналітичних систем в Лабораторії прогнозно-аналітичної бібліометрії НБУ ім. В. І. Вернадського. Серед них:

  • опрацювання великих масивів документальної інформації;
  • вичленення із них змістовних фрагментів;
  • сортування цих фрагментів і збирання їх у однотипні за змістом підгрупи. [9]

Одні з них використовуються на етапі відбору інформації у вигляді ключових цитат, інші — на етапах автоматизованої обробки баз даних.

Застосування елементів методу контент-аналізу при створенні інформаційно-аналітичних систем викликано перш за все необхідністю отримання об`єктивних результатів відбору матеріалів, незалежних від вражень чи почуттів людини. Об`єктивність при цьому досягається тим, що особисті враження дослідника заміняє об`єктивна процедура формалізації і квантифікації тексту

Зміст розчленовується на окремі фрагменти, присвячені різним аспектам висвітлення певної проблеми, які в системі сортуються і при необхідності підраховуються. При виконанні цієї процедури велике значення має наявність детально розробленого класифікатора. Класифікатор — це схема, за якою збирається матеріал до бази даних. Тематичні рубрики та підрубрики класифікатора обираються так, щоб з одного боку вони показували напрямок відбору матеріалів, а з іншого, щоб у результаті аналітичного опрацювання висновки являли собою повний зріз змісту на дану тему. Оскільки від правильного підбору рубрик багато в чому залежить таматична спрямованість масиву інформації, при їх обранні слід остерігатись помилок. Зупинимося на найхарактерніших із них. Якщо обмежитись занадто вузькими тематичними рамками, то можна втратити частину змісту, яка в них не увійде. Якщо ж використовувати дуже узагальнені рубрики, то багато в чому втрачається оригінальність досліджуваних документів, ускладнюється робота з великими масивами відібраної інформації.

У загальному вигляді основні етапи формування інформаційно-аналітичних систем на базі контент-аналізу матеріалів такі. Спочатку визначається тематика дослідження, мета та об`єкт аналізу, його хронологічні та географічні рамки, принципи відбору. Потім розробляється класифікатор, згідно з яким виконується відбір ключових цитат, складається інструкція для кодувальника. Після кодування фрагменти публікацій заносяться до баз даних і обробляються в автоматизованому режимі. [S]

Процедура контент-аналітичного відбору повинна складатися із точно визначених дій, котрим без будь-яких змін повинні підлягати усі об`єкти опрацювання. [9]

Розділи класифікатора, за якими кодуються фрагменти публікацій, мають бути ясними і недвозначними з тим, щоб не допускати двозначності тлумачення і звести до мінімуму вплив суб`єктивних думок кодувальників на процес обробки.

Інтерпретація результатів дослідження повинна охоплювати всі здобуті дані, висновки мають спиратися не на якусь частину результатів, а враховувати їх всі без винятку. [9]

Для автоматизованого опрацювання матеріалів має велике значення не тільки те, яка частота появи тієї чи іншої категорії, а взагалі присутня вона в досліджуваному тексті, чи ні. Кількісний підрахунок дозволяє зробити об`єктивні висновки щодо спрямованості матеріалів за кількістю вживань одиниць аналізу (ключових цитат) в досліджуваних текстах, якісний аналіз робить те саме, але внаслідок вивчення того, чи зустрічається і в якому контексті якась важлива, оригінальна категорія взагалі. [9]

В автоматизованої технології контент-аналізу існує кілька важливих особливостей:

  • використання ключового фрагмента публікації як одиниці формування текстового інформаційного масиву;
  • формування банку ключових фрагментів публікацій є об'єднанням двох взаємозалежних автоматизованих процесів: аналітико-синтетичної переробки і багаторівневої процедури контент-аналізу текстів публікацій;
  • індексація ключових фрагментів публікацій відбувається за допомогою багатофасетної класифікації. [17]

Унікальність запропонованої технології складається в об'єднанні змістовних і кількісних методів контент-аналізу. Послідовність етапів змістовного аналізу проблеми, що досліджується конкретною інформаційною системою, умовно можна поділити на змістовний (якісний) аналіз сукупності публікацій і формалізований (кількісний) аналіз інформаційних масивів: індексного, бібліографічного і масиву текстів ключових фрагментів публікацій.

1 2 3 4 5 6 7 8 9 10 11 12

Схожі роботи

Реферати

Курсові

Дипломні