Лингвистические информационные системы
Багато бібліотек у наш час вирішили використати в своїх автоматизованих системах тезауруси, але при цьому відчувається, що ними майже не використовується колишній досвід у цій сфері, накопичений при створенні інформаційно-пошукових систем.
Перші пропозиції про використання тезаурусів в інформаційно-пошукових системах з'явилися в 1957 р. , а перші тезауруси для підвищення якості пошукових процесів створювалися на початку 60-х рр. У 60-70-ті рр. повністю розроблено теорію інформаційно-пошукових тезаурусів, опубліковано десятки, якщо не сотні, робіт зарубіжних і вітчизняних авторів. У публікаціях пропонуються методичні принципи збору і лексикографічної обробки ключових слів (КС), принципи встановлення семантичних відносин між ними, описується стандартна структура тезауруса.
Ми розглядаємо метод побудови тезаурусів за категоріальним принципом. Він заснований на концептуальній моделі системи знань і використовувався в ряді ІПС.
Мова представлення знань розглядається в структурі людської діяльності, а формалізація семантики складається у вичлененні та формалізованому представленні деяких компонентів діяльності. Спосіб моделювання знань базується на гіпотезі про організацію знань у людській свідомості при пошуку інформації в масиві текстів.
Кожна сфера діяльності людини (галузь науки, техніки, господарства) виділяється з низки інших або за об'єктом діяльності, або за специфікою процесів, що складають дану діяльність, або за засобами здійснення деякого класу процесів
У результаті виділяються наступні семантичні категорії елементів: процеси доцільної діяльності, або просто "процеси"; об'єкти діяльності та її засоби, тобто "предмети" як деякі матеріальні або ідеальні сутності (речі, особи, теорії, конструкти і т. д. ); елементи, що характеризують "процеси" або "предмети" або що є наслідком їх здійснення, існування, появи ("супутні процеси, явища, стани)", "негативні явища", "характеристики" і "умови".
Подальший розподіл за більш вузькими категоріями виливається у процес побудови ієрархічних дерев відносно до "роду-вигляду".
При цьому в одні й ті самі точки гілок цих дерев попадають ключові слова (КС), семантично умовно еквівалентні в даній сфері знання з погляду інтересів інформаційного пошуку. Вони утворять дескриптори.
Вважаємо, що використання КС і тезаурусів доцільно лише у спеціальних бібліотеках, з каталогами з досить обмеженої тематики. В універсальних бібліотеках це веде або до невиправданих витрат на непомірно трудомісткі розробки, або за їх відсутність – до дуже великих, спочатку непомітних, але незворотних втрат інформації при пошуку.
Аналогічно з теорією актуального розчленовування тексту в лінгвістиці, можна вважати, що, видаючи на екран меню і маски як повідомлення (реми), ЕК задає теми текстів – відповідей користувача. Тексти-відповіді виходять шляхом введення користувачем реми для запропонованої теми у вигляді тексту при заповненні екранних масок або номерів вибраних рядків меню.
Слід зауважити, що екранні тексти, які розробляються для ЕК, виявляються тим більше працездатними, чим, по-перше, повніше і точніше виражають майбутню тему тексту читача і, по-друге, чим менших знакових засобів вираження реми