Концепція організації інформаційно-пошукових систем

документ навіть якщо його ПОД не повністю відповідає пошуковому розпорядженню. У цьому разі результатом пошуку може бути не один якийсь документ, а їх множина, з якої користувач має вибрати ті, які відповідають його потребам найбільше. Це залежить від критерію пошуку, який може змінюватись за бажанням користувача. А загалом ефективність взаємодії користувача з ІПС та робота самої ІПС прямо залежить від якості інформаційно-пошукової мови (ІПМ) — спеціалізованої штучної мови, призначеної для опису центральних тем і формаль­них характеристик документів, а також опису інформаційних запитів і наступного виконання пошуку. З цією метою не може бути використана жодна з природних мов через їх неструктурованість, велику кількість граматичних винятків, неоднозначність та надмірність. Основні елементи ІПМ такі:

1) алфавіт — система графічних знаків, що використовуються для утворення слів і словосполучень;

2) лексика — сукупність слів, що використовуються в мові;

3) граматика — сукупність засобів та правил побудови вислов­лювань;

4) парадигматичні (базові, аналітичні) відношення — відношення, які не залежать від контексту використання і спричинені не мовними, а логічними зв’язками. Наприклад, поняття «магнітний диск», «магнітна стрічка», «лазерний диск», «паперовий документ» утворюють тематичну групу «носії інформації», усередині якої можна виділити лексико-семантичні парадигми «паперові носії інформації» та «машинні носії»; правила побудови індексів та їх ідентифікації.

Розрізняють ІПМ таких видів:

  • ·передкоординатні (класифікаційного типу), в основу яких покладено систематичну класифікацію понять, що відбивають певні парадигматичні відношення. Класифікація може бути ієрар­хічною, фасетною, алфавітно-предметною;
  • ·посткоординатні, в основу яких покладено принцип координатного індексування — зміст документів і запитів виражається набором ключових слів, вибраних з індексованого тексту

Ключові слова — це слова, найбільш характерні для даного тексту або тематики. Пошук і вибір ключових слів є окремою складною проблемою, яка вимагає творчого підходу. Для правової ІПС таку роботу може виконати тільки висококваліфікований юрист широкого профілю. Але навіть повне визначення ключових слів недостатньо для організації ефективного пошуку, оскільки:

  • ·ключові слова можуть мати різні варіанти написання та синоніми. Тоді документ, індексований за допомогою певного терміна, не буде виданий у відповідь на запит, складений з використанням терміна-синоніму;
  • ·ключове слово може мати різні значення (проблема омонімічності). Запит, в якому присутні омоніми, призведе до видачі документів, які не стосуються вибраної користувачем теми;

набір ключових слів не визначає родово-видові відношення між поняттями, а це звужує пошук. З метою вирішення названих проблем для різноманітних тематик розробляються тезауруси — структуровані списки ключових слів, призначених для однозначного подання концептуального змісту документів і запитів. Тезаурус упорядковується так, щоб встановити прозорі еквівалентні, гомографічні, ієрархічні та асоціативні зв’язки між термінами. Тезаурус містить:

1) дескриптори — слова та словосполучення, які однозначно позначають поняття з теми тезаурусу;

2) недескриптори — слова та словосполучення, які у природ­ній мові позначають ті самі поняття, що і дескриптори, або еквівалентні поняття;

3) семантичні зв’язки (зв’язки на основі значень) між дес­крипторами і не-дескрипторами, а також між самими дескрип­торами.

Проблема омонімічності у тезаурусі вирішується тим, що кожне ключове слово

1 2 3 4

Схожі роботи

Реферати

Курсові

Дипломні