<< Предыдущая

стр. 19
(из 26 стр.)

ОГЛАВЛЕНИЕ

Следующая >>


Рис. 8.9. Фрагмент диаграммы бинарных отношений,
выделяемых в рамках инициативы (КА)2

После построения представлений, фиксированных выше, для каждого дерева классификации концептов строятся:
1. Словарь концептов (Concept Dictionary), содержащий все концепты предметной области, экземпляры таких концептов, атрибуты экземпляров концептов, отношения, источником которых является концепт, а также (опционально) синонимы и акронимы концепта. Фрагмент такого словаря представлен в табл. 8.3.
2. Таблица бинарных отношений (Table of Binary Relations) для каждого «Ad hoc» отношения, исходный коннепт которого содержится в классификационном дереве. Для каждого отношения фиксируется его имя, имена концепта-источника и целевого концепта, инверсное отношение и т. п. характеристики. Пример двух таблиц этого тина представлен в табл. 8.4, 8.5.
3. Таблица атрибутов экземпляра (Instance Attribute Table) для каждого экземпляра из словаря концептов. Основные характеристики здесь следующие: имя атрибута, тип значения, единица измерения, точность, диапазон изменения, значение «по умолчанию», атрибуты, которые могут быть выведены с использованием данного, формула или правило для вывода атрибута и др. Пример описания атрибутов экземпляра Weight показан в табл. 8.6.
4. Таблица атрибутов класса (Class Attribute Table) для каждого класса из словаря концептов с аналогичными характеристиками.
5. Таблица логических аксиом (Logical Axioms Table), в которой даются определения концептов через всегда истинные логические выражения. Определение каждой аксиомы включает ее имя, естественно-языковое описание, концепт, к которому аксиома относится, атрибуты, используемые в аксиоме, логическое выражение, формально описывающее аксиому, и др. Пример описания аксиомы приведен в табл. 8.7.
6. Таблица констант (Constants Table), где для каждой константы указывается ее имя, естественно-языковое описание, тип значения, само значение, единица измерения, атрибуты, которые могут быть выведены с использованием данной константы, и т. п.
7. Таблица формулы (Formula Table) для каждой формулы, включенной в таблицу атрибутов экземпляра. Каждая таблица этого типа, помимо собственно формулы, должна специфицировать ее имя, атрибут, выводимый с помощью этой формулы, естественно-языковое описание, точность, ограничения, при которых возможно использовать формулу, и др.
8. Деревья классификации атрибутов (Attribute Classification Trees), которые графически показывают соответствующие атрибуты и константы, используемые для вывода значения корневого атрибута и формулы, применяемые для этого. По сути дела, эти деревья используются для проверки того, что все атрибуты, представленные в формуле, имеют описания и ни один из атрибутов не пропущен.
9. Таблица экземпляров (Instance Table) для каждого входа в словарь концептов. Здесь специфицируется имя экземпляра, его атрибуты и их значения. Пример фрагмента таблицы экземпляров представлен в табл. 8,8.



Таблица 8.3.
Фрагмент словаря концептов

Имя концепта .... Экземпляр
Атрибуты экземпляра
Отношение
Academic-Staff —
Person

Age First-Name Last-Name Photo Weight
……………………
Supervises
Has-Publications
Editor-of
…………………
Researcher Gomez-Perez



……………………..
Cooperates-with
Research -Interest
Member-of-Research-Group
……………………

Таблица 8.4.
Фрагмент описания отношения Employs

Имя отношения
Employs
Исходный концепт
Organization :
Кардинальность
(1,n)
Целостный концепт
Employee
Математические свойства

Инверсные отношения
Affiliation
Ссылки >


Таблица 8.5.
Фрагмент описания отношения Affiliation

Имя отношения
Affiliation
Исходный концепт
Employee
Кардинальность
(1,n)
Целостный концепт
Organization
Математические свойства
_
Инверсные отношения
Employs
Ссылки


Таблица 8.6.
Фрагмент описания атрибутов экземпляра Weight

Имя атрибута экземпляра
Weight
Тип значения
Mass-Quantity
Единица измерения
Kilogram
Точность
0.001
Диапазон
[0,200]
Значение «по умолчанию»

Кардинальность
(1,1)
Выводится из атрибута экземпляра

Выводится из атрибута класса

Выводится из констант
_
Формула



Таблица 8.7.
Фрагмент описания аксиомы
The-Head-Of-Project-Works-ln-The-Project

Имя аксиомы
The-Head-Of-Project-Works-ln-The-Project
Описание
«Работник, являющийся руководителем проекта, работает в проекте»
Концепт
Employee
Ссылочные атрибуты

Переменные
Е, Р
Определение


……………………..
Forall (E, P) Employs (E) and
Head-Of-Project (E, P) =>
Works-At-Project(E, P)
………………………………..

Таблица 8.8.
Фрагмент таблицы экземпляров

Экземпляр
Атрибут
Значение
Gomez- Perez



………………
Full Name
First Name
Last Name
E-Mail
………………..
«Asuncion Gomez- Perez»
«Asuncion»
«Gomez-Perez»
«asun@fi.upm.es»
……………………………..

Как показывает анализ приведенных выше процедур, выполняемых при создании онтологии в подходе METHONTOLOGY, все они хорошо коррелируют с теми стадиями, которые выделены и используются при построении баз знаний. И это не случайное совпадение, а закономерность, связанная с тем, что онтология — это, по существу, БЗ специального вида. Поэтому, как и в случае построения баз знаний, здесь используется концепция быстрого прототипирования, а специфика проявляется в тех конкретных процессах, которые реализуют рассмотренные выше процедуры. При этом:
• планирование выполняется до начала собственно разработки;
• контроль и гарантии качества осуществляются в процессе разработки;
• большая часть операций по накоплению знаний и их оценке выполняется на стадии концептуализации для того, чтобы предотвратить распространение ошибок на фазу реализации;
• интеграция не должна рассматриваться как интеграция на стадии реализации. Напротив, она выполняется в процессе разработки.

8.2.4. Примеры онтологии

В настоящее время исследования в области онтологии и онтологических систем являются «горячими точками» не только в ИИ, но и в работах по интеллектуализации информационного поиска, в первую очередь, в среде Интернет; в работах по мультиагентным системам; в проектах по автоматическому «извлечению» знаний из текстов на естественном языке; в проектах, ведущихся в смежных областях.
При этом разные авторы вводят различные типизации онтологии [Gruber, 1995; Guarino, 1996], суммируя которые можно выделить классификации по:
• степени зависимости от конкретной задачи или предметной области;
• уровню детализации аксиоматизации;
• «природе» предметной области и т. д.
Дополнительно к этим измерениям можно ввести и классификации, связанные с разработкой, реализацией и сопровождением онтологии, но такая типизация более уместна при обсуждении вопросов реализации онтологических систем.
По степени зависимости от конкретной задачи или предметной области обычно различают:
• онтологии верхнего уровня;
• онтологии, ориентированные на предметную область;
• онтологии, ориентированные на конкретную задачу;
• прикладные онтологии.
Онтологии верхнего уровня описывают очень общие концепты, такие как пространство, время, материя, объект, событие, действие и т. д., которые независимы от конкретной проблемы или области. Поэтому представляется разумным, по крайней мере в теории, унифицировать их для больших сообществ пользователей.
Примером такой общей онтологиии является CYC® [Lenat, 1995]. Одноименный проект — CYC® — ориентирован на создание мультиконтекстной базы знаний и специальной машины вывода, разрабатываемой Сусогр. Основная цель этого гигантского проекта — построить базу знаний всех общих понятий (начиная с таких, как время, сущность и т. д.), включающую семантическую структуру терминов, связей между ними и аксиом. Предполагается, что такая база знаний может быть доступна разнообразным программным средствам, работающим со знаниями, и будет играть роль базы «начальных знаний». В онтологии, по некоторым данным, уже представлены 106 концептов и 105 аксиом. Для представления знаний в рамках этого проекта разработан специальный язык CYCL.
Другим примером онтологии верхнего уровня является онтология системы Gene-railized Upper Model [Braetman et al., 1994], ориентированная на поддержку процессов обработки естественного языка: английского, немецкого и итальянского. Уровень абстракции этой онтологии находится между лексическими и концептуальными знаниями, что определяется требованиями упрощения интерфейсов с лингвистическими ресурсами. Модель Generalized Upper Model включает таксономию, организованную в виде иерархии концептов (около 250 понятий) и отдельной иерархии связей. Фрагмент системы понятий этой онтологии приведен на рис. 8.10.
В целом же можно констатировать, что, несмотря на отдельные успехи, создание достаточно общих онтологии верхнего уровня представляет собой очень серьезную задачу, которая еще не имеет удовлетворительного решения.


Рис. 8.10. Фрагмент системы понятий онтологии Generalized Upper Model

Предметные онтологии и онтологии задач описывают, соответственно, словарь, связанный с предметной областью (медицина, коммерция и т. д.) или с конкретной задачей или деятельностью (диагностика, продажи и т. п.) за счет специализации терминов, введенных в онтологии верхнего уровня. Примерами онтологии, ориентированных на определенную предметную область и конкретную задачу, являются TOVE и Plinius соответственно [TOVE, 1999; Van der Vet et al'., 1994].
Онтология в системе TOVE (Toronto Virtual Enterprise Project) [TOVE, 1999] предметно ориентирована на представление модели корпорации. Основная цель ее разработки — отвечать на вопросы пользователей по реинжинирингу бизнес-процессов, извлекая эксплицитно представленные в онтологии знания. При этом система может проводить дедуктивный вывод ответов. В онтологии нет средств для интеграции с другими онтологиями. Формально онтология описывается с помощью фреймов. Таксономия понятий онтологии TOVE представлена на рис. 8.11.
Прикладные онтологии описывают концепты, зависящие как от конкретной предметной области, так и от задач, которые в них решаются. Концепты в таких онтологиях часто соответствуют ролям, которые играют объекты в предметной области в процессе выполнения определенной деятельности. Пример такой онтологии — онтология системы Plinius [Van der Vet et al., 1994], предназначенная для полуавтоматического извлечения знаний из текстов в области химии. В отличие от других, упомянутых выше онтологии, здесь нет явной таксономии понятий. Вместо этого определено несколько множеств атомарных концептов, таких как, например, химический элемент, целое число и т. п., и правила конструирования остальных концептов. В онтологии описано около 150 концептов и б правил. Формально онтология Plinius тоже описывается с помощью фреймов.



Рис. 8.11. Фрагмент таксономии понятий онтологии TOVE

Как показывает анализ работ в этой области, научными сообществами и колективами создаются онтологии разных типов, но в целом в настоящее время наиболее активно разрабатываются и используются на практике предметные онтологии.
Вместе с тем, независимо от типа оптолоши, для их представления и использования требуются специальные алгоритмические средства, к обсуждению которых мы и переходим в следующем параграфе.

8.3. Системы и средства представления
онтологических знаний

8.8.1. Основные подходы

В настоящее время во всем мире исследования по пространствам знаний в среде Интернет [Khoroshevsky, 1998] ведутся широким фронтом. И одним из ключевых аспектов в таких исследованиях являются алгоритмические и программные средства представления онтологических знаний и работы с онтологиями.
В качестве примеров исследовательских проектов по данной тематике можно указать Cooperative Information Gathering Project из лаборатории Распределенного ИИ университета Массачусет; проект экстрактирования знаний из гипертекстов на основе использования методов машинного обучения, выполняемого в университете Карнеги Мэллон; работы Knowledge Technology Group лаборатории Sun Microsystems no технологии обработки знаний (проект-«Precision Content Retrieval»), целью которого является построение концептуальной таксономии фраз, выделяемых из индексированных материалов, и многие другие [Lesser et al., 1998; Luke et al., 1996; Woods et al, 1999]. Общей целью практически всех таких проектов является разработка новых подходов к построению пространств знаний и средств работы с ними, где бы обеспечивались:
• использование семантики для управления процессом ответа на запросы;
• возможность построения ответов с хорошо определенной семантикой и простым синтаксисом, которые могли бы быть «поняты» и обработаны программными агентами или другими программными средствами;
• возможность гомогенного доступа к информации, которая физически распределена и гетерогенно представлена в Интернете;
• получение информации, которая явно не присутствует среди фактов, полученных из сети, но может быть выведена из других фактов и базовых знаний.
Впечатляющая коллекция ссылок на такие проекты представлена в Интернете по адресу http://www.tzi.org/grp/i3/, но наиболее'интересными с точки зрения темы данного раздела, по-видимому, являются инициатива (КА)2 [Benjamins et al., 1998] и проект SHOE [Heflin et al., 1998], которые и обсуждаются ниже.

8.3.2. Инициатива (КА)2
и инструментарий Ontobroker

Аннотация знаний в рамках инициативы (КА)2
Аннотация знаний сообществом приобретения знаний (Knowledge Annotation Initiative of the Knowledge Acquisition Community) — так расшифровывается аббревиатура (КА)2. Целью работ по этому международному проекту является, в конечном счете, интеллектуальный поиск в среде Интернет и автоматическое накопление новых знаний.
В рамках инициативы (КА)2 выделяются три основных направления исследований:
• онтологический инжиниринг (ontological engineering);
• аннотация Web-страниц;
• запросы к информации на Web-страницах и вывод ответов на базе онтологических знаний.
Онтологический инжиниринг — одно из основных направлений, в рамках которого предполагается, что сообщество (КА)2 должно создать свою собственную и достаточно общую систему онтологии на основе использования средств Ontolingua [Farquhar et al., 1996]. В настоящее время уже разработано воесемь онтологии, которые могут рассматриваться как разделы общей онтологии — онтология организации (organization ontology), проекта (project ontology), личности (person ontology), направления исследований (research-topic ontology), публикаций (publication ontology), событий (event ontology), исследовательских продуктов (research-product ontology) и исследовательских групп (research-group ontology). При этом разработка примеров онтологии осуществляется и управляется участниками проекта — так называемыми провайдер-агентами («provider agents»), а размещаются эти онтологии на их Web-страницах. Такие страницы аннотируются с использованием нового типа HTML-тегов (ONTO), информация в пределах которых обрабатывается специальной компонентой, работающей на основе онтологии, — системой Ontocrawler. В рамках этой компоненты, в зависимости от «богатства» используемой онтологии, может выводиться новая информация, релевантная запросам, но не присутствующая явно на Web-страницах в сети Интернет.
Сама система Ontocrawler разрабатывается в рамках отдельного проекта инициативы (КА)2 — проекта Ontobroker [Fensel et al, 1998], который, собственно, и интересен с точки зрения обсуждения средств представления и обработки онтологических знаний.

Средства спецификации онтологии в проекте Ontobroker
В Ontobroker имеются три основные подсистемы: интерфейс формулирования запросов (query interface), машина вывода ответов (inference engine) и собственно машина доступа к Интернет-ресурсам — «червяк» (Webcrawlef), используемый для накопления требуемых знаний из этой среды.
Для спецификации онтологии разработан специальный язык представления знаний. Подмножество этого языка служит и для формулировки запросов, а язык аннотирования — для «обогащения» Web-документов онтологической информацией. Все эти компоненты и обсуждаются ниже.
Формализм запросов
Формализм запросов ориентирован на фреймовое представление онтологии, в рамках которого, как и обычно, определены понятия экземпляров, классов, атрибутов и значений.
Схема O:C[A-»V] означает, что объект О является экземпляром класса С с атрибутом А, имеющим значение V. Важно, что в каждой позиции такой схемы могут использоваться не только константы, но и переменные или выражения. Для примера, запрос вида

FORALL R <- R:Researcher

предполагает поиск всех объектов, являющихся экземплярами класса Researcher. Если предположить, что идентификатором объекта служит URL домашней страницы специалиста, в качестве результата по этому запросу будет выдан список соответствующих Интернет-ссылок.
Понятно, что это простейший запрос. Обычно же в запросе определяется поисковый образ объектов, обладающих определенными свойствами. Так, если необходимо найти всех специалистов по фамилии Иванов и при этом выдать в качестве результата их имена и электронные адреса, то приведенный выше запрос можно модифицировать следующим образом:


FORALL Obj, FN, ЕМ <-
Obj:Researcher[firstName->>FN;
lastNamе->>"Иванов"; email->>EM].

В качестве ответа при этом могут быть получены значения переменных:

Obj = http://www.anywhere.ru/˜ivanov/
FN = Иван
ЕМ = mailtg:ivanov@anywhere. ru

Имеются в языке Ontobroker и средства вывода значений свойств. Так, некоторые из атрибутов объекта могут задавать отношения, свойства которых известны машине вывода. Для примера, в запросе вида

FORALL Obj.CP <-
Obj:Researcher[lastNarn8 ->>"Иванов"; cooperatesWith->>CP],

атрибут cooperatesWith является отношением, обладающим свойством симметричности. Это означает, что даже если у объекта, описывающего специалиста по фамилии Иванов, свойства cooperatesWith нет, Ontobroker выведет его, если в онтологии представлен объект, описывающий другого специалиста, который имеет такое свойство со значением «Иванов»,
В рассматриваемом языке представления онтологических знаний присутствуют и другие правила вывода значений атрибутов, эксплицитно не представленных в Web-документах. При этом понятно, что язык запросов Ontobroker может использоваться и для формирования репозиториев с информацией, удовлетворяющей заданным ограничениям:. И более того, с помощью запросов можно получать и метаинформадию: запрос вида

FORALL Att, T <- Researcher[Att=>>T]

вернет в качестве результата имена всех атрибутов класса Researcher и связанных с ним классов.
В самой системе Ontobroker поддерживаются два типа интерфейсов при формировании запросов — текстовый (для экспертов) и графический (для пользователей). Первый из них предполагает, что запросы формулируются непосредственно во входном языке описания онтологии. Понятно, что при этом знание синтаксиса языка Ontobroker и знакомство с онтологией, для которой запрос формулируется, должны у эксперта присутствовать.
Проблема знания синтаксиса решается в данном случае, как, впрочем, и в большинстве других инструментальных средств нового поколения^ за счет диалогов, управляемых системой (system-driven dialogue). Пользователю выдается соответствующая панель, где могут быть определены (путем выбора из меню) компоненты запроса и связки между ними. Такой подход обеспечивает синтаксическую корректность и однозначность интерпретации запроса.
Сложнее преодолеть разрыв в знаниях эксперта и пользователя, особенно новичка, об используемой онтологии. Ведь для правильной формулировки запроса необходимо знать, по крайней мере, какие концепты в онтологии присутствуют и какие атрибуты имеются у концептов. Поэтому все системы представления онтологических знаний предоставляют своим пользователям средства виуализации онтологии и навигации по онтологии.
В Ontobroker для визуализации онтологии используется подход, основанный на идеях гиперболической геометрии (Hyperbolic Geometry) [Lamping et al., 1995]. В случае обсуждаемой системы эти идеи реализуются следующим образом: класс, интересующий пользователя в данный момент, представляется «большим шаром», а классы, с ним непосредственно связанные, — «маленькими шарами» и располагаются по границе круга, «очерчивающего» соответствующий слой. Используя данный интерфейс, и эксперт и пользователь могут легко и эффективно включать в свой запрос нужные концепты и их атрибуты, а система Ontobroker переведет их в текстовое представление автоматически. Реализован интерфейс онтологии Ontobroker как Java-апплет, что обеспечивает работу с Web-броузерами на любых платформах, где поддерживается Java-технология.

Формализм представления и машина вывода
Как уже отмечалось выше, онтология определяется через концепты (классы), связанные отношениями, атрибуты и аксиомы. И адекватный язык представления должен обеспечить удобные средства для описания всех перечисленных компонентов. В Ontobroker базисом представления являются так называемые логики фреймов (Frame-Logic) [Kifer et al., 1995].
Базисными конструкциями в данном подходе являются:
• Подклассы (Subclassing) — запись С1 :: С2 означает, что класс С1 является подклассом С2.
• Экземпляры (Instance of) — запись О : С означает, что О является экземпляром класса С.
• Декларации атрибутов (Attribute Declaration) — запись С1[А=>>С2] означает, что для экземпляра класса С1 определен атрибут А, значением которого должен быть экземпляр С2.
• Значения атрибутов (Attribute Value) — запись O[A->>V] означает, что экземпляр О имеет атрибут А со значением V.
• Часть-целое (Part-of) — запись О1 <: О2 означает, что О1 является частью О2.
• Отношения (Relations) — предикаты вида p(al,...,a2) могут использоваться, как и в обычных логических формализмах, но с тем расширением, что в качестве аргументов здесь могут выступать не только термы, но и выражения.
Из базисных конструкций строятся более сложные — факты (facts), правила (rules), «двойные» правила (double rules) и запросы (queries). Запросы уже обсуждались выше. Факты, по сути, являются элементарными выражениями. Правила, как и обычно, имеют левую и правую части, причем левая часть (здесь она называется «головой») является конъюнкцией элементарных выражений, а правая («тело») — сложная формула, термами которой являются элементарные выражения, связанные обычными предикатными символами типа implies: —> , implied by: <—, equivalent: <—>, AND, OR и NOT. Отличие между обычными и «двойными» правилами в симметричности последних. Важное достоинство формализма — возможность использования переменных в «голове» правил (с квантором FORALL) или в его «теле» (с кванторами FORALL и EXISTS). Пример фрагмента онтологии в формализме Ontobroker, адаптированный из работы [Fensel et al., 1998], приводится ниже.
Определения атрибутов

Person [firstName =» STRING;
lastName =» STRING;
eMail =» STRING;
……………………………….
publication =>> Publication],
Employee [affiliation =» 0rganization; ...].

<< Предыдущая

стр. 19
(из 26 стр.)

ОГЛАВЛЕНИЕ

Следующая >>