Концепция организации информационно-поисковых систем

ставиться у контекст, який робить це слово однозначним. Для вирішення проблеми синонімічності один із синонімів обирається, більш-менш довільно, як дес­криптор, а синонімам надається статус не-дескрипторів. Тіль­ки дескриптори можуть використовуватись при індексуванні та формулюванні запитів, при цьому не-дескритори допомагають користувачам вибрати дескриптор. Якщо встановлено відповід­ність між ідентичними поняттями в різних мовах, користувач багатомовного тезауруса може формулювати запити рідною мовою і шукати документи незалежно від мови, якою вони були індексовані.

Прикладом спеціалізованого тезауруса є багатомовний політематичний інформаційно-пошуковий тезаурус EUROVOC, визнаний як міжнародний термінологічний стандарт. Він реалізований відповідно до стандартів ISO 2788-1986 «Guidelines for the establishment and development of monolingual thesauri» («Керівництво з введення і розробки одномовних тезаурусів») та ISO 5964-1985 «Guidelines for the establishment and development of multilingual thesauri» («Керівництво з введення і розробки багатомовних тезаурусів»).

EUROVOC використовується для індексування та пошуку даних в ІПС офіційних документів органів, установ, інститутів і деяких держав — членів ЄС. Цей тезаурус охоплює всі теми, важли­ві для діяльності європейських інституцій: політика, міжнародні відносини, європейські співтовариства, законодавство, економіка, торгівля, фінанси, соціальні питання, освіта і комунікації, наука, бізнес і конкуренція, зайнятість та умови праці, транспорт, навколишнє середовище, сільське господарство, лісництво і рибна ловля, виробництво, технології та дослідження, енергія, промисловість, географія, міжнародні організації. Деякі теми у EUROVOC розроблені детальніше порівняно з іншими, оскільки вони важливіші для роботи ЄС. Наприклад, тезаурус містить назви областей кожної держави — члена ЄС, а назви регіонів інших країн відсутні. Слід відзначити, що однією з характеристик політематичних тезаурусів взагалі і EUROVOC зокрема є досить довільне групування дескрипторів за темами. Фактично, деякі дескриптори можуть торкатися двох або більше тем, але для спрощення управління тезаурусом та обмеження його розміру прийнято уникати поліієрархії. Іншими словами, дескриптор включають не до всіх тем, до яких він може належати, а тільки до тієї теми, яка здається найбільш природною для користувачів

EUROVOC реалізований офіційними мовами Європейського Союзу. Усі мови реалізації мають однаковий статус — кожен дескриптор в одній мові обов’язково має відповідний дес­криптор в іншій мові. Однак, між не-дескрипторами у різних мовах не існує еквівалентності, оскільки багатство мов різниться для різних тем.

EUROVOC має дворівневу ієрархію. Верхній рівень складають теми, які мають двохсимвольні коди, наприклад, 12 — «LAW», «Право». Нижній рівень організовано як сукупність мікротезаурусів, позначених чотирма цифрами, перші дві з яких визначають тему, до якої належить цей мікротезаурус: 1216 — «сriminal law» («кримінальне право»). Нумерація тем і мікротезаурусів єдина для всіх мов.

На екрані EUROVOC одночасно представлені дві панелі, які ілюструють вибраний рівень ієрархії: логотип EUROVOC і список тем і мікротезаурусів, або список мікротезаурусів і зміст вибраного мікротезауруса (рис. 1), або мікротезаурус і його окремий дескриптор.  

Рис. 1. Вікно тезауруса EUROVOC:

на лівій панелі — список мікротезаурусів за темами «Європейські співтовариства», «Право», «Економікс», на правій — вміст мікротезауруса «Джерела та галузі права»

На рівні окремих дескрипторів і не-дескрипторів структура EUROVOC залежить від семантичних відношень, встановлених між ними. Передбачено такі їх типи:

1) «SN» (Scope Note, примітка щодо можливих значень) — визначення, що уточнює значення

1 2 3 4

Похожие работы

Рефераты

Курсовые

Дипломные