Концепція організації інформаційно-пошукових систем
1) алфавіт — система графічних знаків, що використовуються для утворення слів і словосполучень;
2) лексика — сукупність слів, що використовуються в мові;
3) граматика — сукупність засобів та правил побудови висловлювань;
4) парадигматичні (базові, аналітичні) відношення — відношення, які не залежать від контексту використання і спричинені не мовними, а логічними зв’язками. Наприклад, поняття «магнітний диск», «магнітна стрічка», «лазерний диск», «паперовий документ» утворюють тематичну групу «носії інформації», усередині якої можна виділити лексико-семантичні парадигми «паперові носії інформації» та «машинні носії»; правила побудови індексів та їх ідентифікації.
Розрізняють ІПМ таких видів:
- ·передкоординатні (класифікаційного типу), в основу яких покладено систематичну класифікацію понять, що відбивають певні парадигматичні відношення. Класифікація може бути ієрархічною, фасетною, алфавітно-предметною;
- ·посткоординатні, в основу яких покладено принцип координатного індексування — зміст документів і запитів виражається набором ключових слів, вибраних з індексованого тексту
Ключові слова — це слова, найбільш характерні для даного тексту або тематики. Пошук і вибір ключових слів є окремою складною проблемою, яка вимагає творчого підходу. Для правової ІПС таку роботу може виконати тільки висококваліфікований юрист широкого профілю. Але навіть повне визначення ключових слів недостатньо для організації ефективного пошуку, оскільки:
- ·ключові слова можуть мати різні варіанти написання та синоніми. Тоді документ, індексований за допомогою певного терміна, не буде виданий у відповідь на запит, складений з використанням терміна-синоніму;
- ·ключове слово може мати різні значення (проблема омонімічності). Запит, в якому присутні омоніми, призведе до видачі документів, які не стосуються вибраної користувачем теми;
набір ключових слів не визначає родово-видові відношення між поняттями, а це звужує пошук. З метою вирішення названих проблем для різноманітних тематик розробляються тезауруси — структуровані списки ключових слів, призначених для однозначного подання концептуального змісту документів і запитів. Тезаурус упорядковується так, щоб встановити прозорі еквівалентні, гомографічні, ієрархічні та асоціативні зв’язки між термінами. Тезаурус містить:
1) дескриптори — слова та словосполучення, які однозначно позначають поняття з теми тезаурусу;
2) недескриптори — слова та словосполучення, які у природній мові позначають ті самі поняття, що і дескриптори, або еквівалентні поняття;
3) семантичні зв’язки (зв’язки на основі значень) між дескрипторами і не-дескрипторами, а також між самими дескрипторами.
Проблема омонімічності у тезаурусі вирішується тим, що кожне ключове слово