<< Предыдущая

стр. 10
(из 26 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

(пирамида знаний)
Процесс образования метапонятий, то есть интерпретации групп понятий, полученных на предыдущей стадии, как и обратная процедура — детализация (разукрупнение) понятий, — видимо, принципиально не поддающиеся формализации операции. Они требуют высокой квалификации экспертов, а также наличия способностей к «наклеиванию» лингвистических ярлыков. Если на рис. 4.11 показаны схемы обобщения и детализации на тривиальных примерах, то в реальных предметных областях эта задача оказывается весьма трудоемкой. При этом независимо от того, формальными или неформальными методами были выявлены понятия или детали понятий, присвоение имен которым или интерпретация их — всегда неформальный процесс, в котором инженер по знаниям просит эксперта дать название некоторой группе понятий или отдельных признаков.


Рис. 4.11. Обобщение и детализация понятий

Это не всегда удается. Так, в системе АВТАНТЕСТ [Гаврилова, Червинская, 1992] при образовании метапонятий, полученных методами кластерного анализа, интерпретация заняла несколько месяцев и не может считаться удовлетворительной. Это связано с тем, что формальные методы иногда выделяют «искусственные» концепты, в то время как неформальные обычно — практически используемые и потому легко узнаваемые понятия.
Методы построения пирамиды знаний 'обязательно включают использование наглядного материала — рисунков, схем, кубиков. Уровни пирамиды чаще возникают в сознании инженера по знаниям именно как некоторые образы. Построение пирамиды знаний может быть основано и на естественной иерархии предметной области, например связанной с организационной структурой предприятия или с уровнем компетентности специалистов (рис. 4.12).


Методы определения отношений
Если на стадии 4 (см. рис. 4.10) мы выявили связи между понятиями и использовали их на стадиях 5 и 6 для получения пирамиды знаний, то на стадии 7 мы даем имена связям, то есть превращаем их в отношения.
В работе [Поспелов, 1986] указывается на наличие более 200 базовых видов различных отношений, существующих между понятиями. Предложены различные классификации отношений [Келасьев, 1984; Поспелов, 1986]. Следует только подчеркнуть, что помимо универсальных отношений (пространственных, временных, причинно-следственных) существуют еще и специфические отношения, присущие той или иной предметной области [Гаврилова, Червинская, Яшин, 1988].
Интересные возможности к структурированию знаний добавляют системы когнитивной графики. Так, в системе OPAL [Olton,, Muser, Combs et al., 1987] эксперт может манипулировать на экране дисплея изображениями простейших понятий и строить схемы лечения заболеваний, обозначая отношения явными линиями, которые затем именуются.
Предлагаемая в данном учебнике методология структурирования опирается на современные представления о структуре человеческой памяти и формах репрезентации информации в ней [Величковский, 1982].
Скудность методов структурирования объясняется тем, что методологическая база инженерии знаний только закладывается, а большинство инженеров по знаниям проводит концептуализацию, руководствуясь наиболее дорогими и неэффективными способами — «проб и ошибок» и «по наитию», то есть исходя из соображений здравого смысла.
4.5. Состояние и перспективы
автоматизированного приобретения
знаний

В данном параграфе мы рассмотрим автоматизированный подход к проблеме извлечения и структурирования знаний, традиционно называемый приобретением знаний (knowledge acquisition).
Поскольку основную трудность в создании интеллектуальных систем представляет домашинный этап проектирования, выполняемый инженером по знаниям (или аналитиком), — анализ предметной области, получение знаний и их структурирование, — эти процедуры традиционно считаются «узким местом» (bottleneck) проектирования экспертных систем [Gaines, 1987; Boose, 1990]. Последние 5-6 лет усилия разработчиков направлены на создание инструментальной программной поддержки деятельности инженера по знаниям и эксперта именно на этих этапах.

4.5.1. Эволюция систем приобретения знаний

Первое поколение таких систем появилось в середине 80-х — это так называемые системы приобретения знаний (СПЗ) (TEIRESIAS [Davis, 1982], SIMER+ MIR [Осипов, 1988], АРИАДНА [Моргоев, 1988]). Это средства наполнения так называемых «пустых» ЭС, то есть систем, из БЗ которых изъяты знания (например, EMYCIN — EMPTY MYCIN, опустошенная медицинская ЭС MYCIN со специальной диалоговой системой заполнения базы знаний TEIRESIAS). Их авторы считали, что прямой диалог эксперта с компьютером через СПЗ поможет сократить жизненный цикл разработки. Однако опыт создания и внедрения СПЗ продемонстрировал несовершенство такого подхода.
Основные недостатки СПЗ I поколения:
• Слабая проработка методов извлечения и структурирования знаний.
• Жесткость модели представления знаний, встроенной в СПЗ и связанной с привязкой к программной реализации.
• Ограничения на предметную область.
Таким образом, традиционная схема разработки СПЗ I поколения:
создание конкретной ЭС ® опустошение БЗ ® разработка СПЗ для новых наполнений БЗ ® формирование новой БЗ для другой ЭС
оказалась несостоятельной для промышленного применения.
Второе поколение СПЗ появилось в конце 80-х и было ориентировано на более широкий модельный подход [Gaines, 1989; Борисов, Федоров, Архипов, 1991] с акцентом на предварительном детальном анализе предметной области. Так, в Европе широкое применение получила методология KADS (Knowledge Acquisition and Documentation Structuring) [Wielinga et al., 1989], в основе которой лежит понятие интерпретационной модели> позволяющей процессы извлечения, структурирования и формализации знаний рассматривать как «интерпретацию» лингвистических знаний в другие представления и структуры.
KADS-методология
Рисунок 4.13 демонстрирует преобразование знаний согласно методологии KADS [Breuker, Wielinga, 1989] через спецификацию пяти шагов анализа «идентификация — концептуализация — гносеологический уровень — логический уровень —уровень анализа выполнения» и стадии или пространства проектирования.


Рис. 4.13. Методология KADS

Результатом анализа является концептуальная модель экспертизы, состоящая из четырех уровней (уровня области — уровня вывода — уровня задачи — стратегического уровня), которая затем вводится в пространство проектирования и преобразуется в трехуровневую модель проектирования (рис. 4.14).
При решении реальных задач KADS использует библиотеку интерпретационных моделей, описывающих общие экспертные задачи, такие как диагностика, мониторинг (см. классификацию 1 из п. 2.2) и пр., без конкретного наполнения объектами предметной области. Интерпретационная модель представляет собой концептуальную модель без уровня области. На основании извлеченных лингвистических данных происходит отбор, комбинация и вложение верхних уровней модели, то есть уровней вывода и задачи, которые наполняются конкретными объектами и атрибутами из уровня области и представляют в результате концептуальную модель рассматриваемой задачи. На рис. 4.15 представлена модель жизненного цикла KADS.




Рис. 4.14, Основные модели KADS

Первые системы программной поддержки KADS-методологии представлены набором инструментальных средств KADS Power Tools [Schreiber G., Breuker J. et al., 1988]. В этот набор входят следующие системы: редактор протоколов FED (Protocol Editor); Редактор системы понятий (Concept Editor); Редактор концептуальных моделей СМЕ (Conceptual Model Editor) и ИМ-библиотекарь IML (Interpretation Model Librarian).
Редактор протоколов — программное средство, помогающее инженеру по знаниям в проведении анализа знаний о предметной области на лингвистическом уровне. При работе со знаниями на этом уровне исходным материалом являются тексты (протоколы) — записи интервью с экспертом, протоколы «мыслей вслух» и любые другие тексты, полезные с точки зрения инженера знаний. Редактор протоколов реализован как гипертекстовая система, обеспечивающая выделение фрагментов в анализируемом тексте, установление связей между фрагментами, группирование фрагментов, аннотирование фрагментов. Фрагменты могут иметь любую длину — от отдельного слова до протокола в целом. Фрагменты могут перекрывать друг друга.
Возможны следующие типы связей между фрагментами;
• аннотация (связь между фрагментом протокола и некоторым текстом, введенным инженером знаний для спецификации этого фрагмента);
• член группы (связь между фрагментом и названием — именем группы фрагментов; объединение фрагментов в группу позволяет инженеру знаний структурировать протоколы, при этом группа фрагментов получает уникальное имя);
• поименованная связь (связь между двумя фрагментами, имя связи выбирается инженером знаний);
• понятийная связь (поименованная связь между фрагментом и понятием; обычно используется, если фрагмент содержит определение понятий).


Редактор понятий помогает инженеру знаний организовывать предметные знания в виде набора понятий и связывающих их отношений. Каждое понятие имеет имя и может иметь атрибуты; каждый атрибут может иметь значение. Какие именно атрибуты используются — это определяет инженер знаний с учетом специфики предметной области. С помощью Редактора понятий инженер знаний может вводить произвольные отношения между понятиями и создавать иерархические структуры по тому или иному отношению. Существует единственное отношение (ISA), семантика которого «встроена» в Редактор. Если инженер знаний устанавливает это отношение между двумя понятиями, то имеет место наследование атрибутов.
ИМ-библиотекарь помогает инженеру знаний проводить анализ предметных знаний на эпистемологическом уровне. Основное назначение Библиотекаря состоит в том, чтобы помочь инженеру знаний выбрать одну или более ИМ, подходящих для исследуемой проблемной области (ПО). Помощь Библиотекаря проявляется в чисто информационном аспекте. Вначале Библиотекарь демонстрирует пользователю иерархию типов задач, для которых в библиотеке имеются ИМ. После того как пользователь выбрал интересующую его ИМ, ему демонстрируется ее краткое описание и список атрибутов, включающий в себя следующие атрибуты: «краткое описание», «определение», «структура задачи», «стратегии», «ПО-знания». Выбрав атрибут «определение», пользователь сможет увидеть на экране графическое изображение структуры вывода, элементами которой являются источники знаний и метаклассы. Как источники знаний, так и метаклассы имеют свои наборы атрибутов; инженер знаний может просмотреть их, указывая на соответствующий элемент.
Психосемантика
Помимо идеологии KADS на разработку СПЗ II поколения большое влияние оказали методы смежных наук, в частности психосемантики, одного из молодых направлений прикладной психологии [Петренко, 1988; Шмелев, 1983], перспективного инструмента, позволяющего реконструировать семантическое пространство памяти и тем самым моделировать глубинные структуры знаний эксперта (см. параграф 5.1). Уже первые приложения психосемантики в ИИ в середине 80-х годов позволили получить достаточно наглядные результаты [Кук, Макдо-нальд, 1986]. В дальнейшем развитие этих Методов шло по линии разработки удобных пакетов прикладных программ, основанных на методах многомерного шкалирования, факторного анализа, а также специализированных методов обработки репертуарных решеток [Франселла, Баннистер, 1987] (параграф 5.2). Примерами СПЗ такого типа являются системы KELLY [Похилько, Страхов, 1990], MADONNA [Терехина, 1988], MEDIS [Алексеева и др., 1989]. Специфика конкретных приложений требовала развития также «нечисленных» методов, использующих парадигму логического вывода. Примерами систем этого направления служат системы ETS [Boose, 1986] и AQUINAS [Boose, Bradshaw, Schema,1988]. Успехи СПЗ II поколения позволили значительно расширить рынок ЭС, который к концу 80-х оценивался в 300 млн долларов в год [Попов, 1991]. Тем не менее и эти системы были не свободны от недостатков, к важнейшим из которых можно отнести:
• несовершенство интерфейса, в результате чего неподготовленные эксперты не способны овладеть системой и отторгают ее;
• сложность настройки на конкретную профессиональную языковую среду;
• необходимость разработки дорогостоящих лингвистических процессоров для анализа естественно-языковых сообщений и текстов.
Третье поколение СПЗ — KEATS [Eisenstadt et al, 1990], MACAO [Aussenac-Gilles, Natta, 1992], NEXPERT-OBJECT [NEXPERT-OBJECT, 1990] - перенесло акцент в проектировании с эксперта на инженера по знаниям [Гаврилова, 1988; Gruber, 1989]. Новые СПЗ — это программные средства для аналитика, более сложные, гибкие, а главное использующие графические возможности современных рабочих станций и достижения CASE-технологии (Computer-Aided Software Engineering). Эти системы позволяют не задавать заранее интерпретационную модель, а формировать структуру БЗ динамически. Существуют различные классификации СПЗ — по выразительности и мощности инструментальных средств [Попов, 1988]; по обобщенным характеристикам [Boose, 1990]; в рамках структурно-функционального подхода [Волков, Ломнев, 1989]; интегрированная классификация предложена в работе [Гаврилова, Чер-винская, 1992].
Учитывая новейшие тенденции в инженерии знаний можно предложить следующую схему таксономии СПЗ, представленную на рис. 4.16.

Рис. 4.16. Классификация систем приобретения знаний

Однако и современные СПЗ не полностью лишены серьезных недостатков СПЗ I и II поколений, большая часть которых обусловлена отсутствием теоретической концепции проектирования БЗ. В результате эта область до настоящего времени справедливо считается скорее «искусством», чем наукой и основана на «ad hoc» технологии (то есть применительно к случаю).

4.5.2. Современное состояние
автоматизированных систем приобретения знаний

Анализ современного состояния программных средств приобретения знаний и поддержки деятельности инженера по знаниям позволяет выявить две группы проблем, характерных для существующих СПЗ:
• Методологические проблемы.
• Технологические проблемы.

А. Методологические проблемы
Основная проблема, встающая перед разработчиками, — отсутствие теоретического базиса процесса извлечения и структурирования знаний — порождает дочерние более узкие вопросы и казусы на всех этапах создания интеллектуальных систем. Даже тщательно проработанная методология KADS, описанная в предыдущем параграфе, страдает громоздкостью и явной избыточностью. Ниже перечислены наиболее общие из возникающих проблем в последовательности, соответствующей стадиям жизненного цикла (см. рис. 2.4):
• размытость критериев выбора подходящей задачи;
• слабая проработанность теоретических аспектов процессов извлечения знаний (философские, лингвистические, психологические, педагогические, дидактические и другие аспекты), а также отсутствие обоснованной классификации методов извлечения знаний и разброс терминологии;
• отсутствие единого теоретического базиса процедуры структурирования знаний;
• жесткость моделей представления знаний, заставляющая разработчиков обеднять и урезать реальные знания экспертов;
• несовершенство математического базиса моделей представления знаний (дескриптивный, а не конструктивный характер большинства имеющихся математических моделей);
• эмпиричность процедуры выбора программного инструментария и процесса тестирования (отсутствие критериев, разрозненные классификации, etc.).

Б. Технологические проблемы
Большая часть технологических проблем является естественным следствием методологических и порождена ими. Наиболее серьезными из технологических проблем являются:
• отсутствие концептуальной целостности и согласованности между отдельными приемами и методами инженерии знаний; ;
• недостаток или отсутствие квалифицированных специалистов в области инженерии знаний;
• отсутствие технико-экономических показателей оценки эффективности ЭС (в России);
• несмотря на обилие методов извлечения знаний (фактически более 200 в обзоре [Boose, 1990]), практическая недоступность методических материалов по практике проведения сеансов извлечения знаний;
• явная неполнота и недостаточность имеющихся методов структурирования знаний [Кук, Макдональд, 1986; Гаврилова, Червинская, 1992], отсутствие классификаций и рекомендаций по выбору подходящего метода;
• несмотря на обилие рынка программных средств, недостаток промышленных систем поддержки разработки и их узкая направленность (зависимость от платформы, языка реализации, ограничений предметной области), разрыв между ЯПЗ и языками, встроенными в «оболочки» ЭС;
• жесткость программных средств, их низкая адаптивность, отсутствие индивидуальной настройки на пользователя и предметную область;
• слабые графические возможности программных средств, недостаточный учет когнитивных и эргономических факторов;
• сложность внедрения ЭС, обусловленная психологическими проблемами персонала и неприятия новой технологии решения задач.

4.6. Примеры методов и систем приобретения
знаний

Данный параграф посвящен обзору некоторых наиболее известных методов и систем приобретения знаний, на основе переработки материалов из работ [Осипов, 1990; Молокова, 1992; Осипов, 1997].

4.6.1. Автоматизированное
структурированное интервью

Впервые структурированное интервью применено при создании системы TEI-RESIAS [Davis, 1982] для формирования новых правил и новых понятий. Для этих целей в системе использованы следующие соображения: в случае неудачи в режиме консультации (или тестирования) система предлагает эксперту выделить причины неудачи. Контекст, полученный в результате этого, позволяет системе сформировать некоторые «ожидания», характеризующие содержание нового правила, которое будет вводиться экспертом для устранения неудачи.
Система ROGET[Bennet, 1985] — это первая попытка заменить инженера знаний программной системой на начальном этапе приобретения знаний. Эта система беседует с экспертом как инженер по знаниям, стремящийся понять, как концептуально могут быть организованы экспертные знания, необходимые для создания диагностической ЭС.
В системе MOLE [Eshelman, 1987] приобретение знаний осуществляется в два этапа: на первом этапе используется структурированное интервью и эксперту (или инженеру по знаниям) предлагается ввести список событий предметной области и определить связи между ними; на втором этапе выполняется контекстное приобретение знаний, как это сделано в системе TEIRESIAS.
Система состоит из двух частей: интерпретатора базы предметных знаний и подсистемы приобретения знаний. Последняя поддерживает как процесс первоначального заполнения БЗ, так и процесс отладки и уточнения БЗ.
Интерпретатор БЗ ориентирован на класс диагностических задач и осуществляет вывод решения путем сопоставления заранее определенного множества гипотез (о причине неисправности, о заболевании и т. д.) с совокупностью наблюдений (симптомов, показаний приборов и т. д.). Иными словами, интерпретатор системы MOLE реализует некоторый вариант метода эвристической классификации.
В базе знаний MOLE первоначально существуют знания о том, какие типы когнитивных структур необходимы для осуществления вывода и как распознать знания того или иного типа в информации, сообщаемой экспертом. MOLE запрашивает у эксперта список объектов, играющих роли гипотез и наблюдений. Эксперт, кроме того, должен указать, какие пары «наблюдение — гипотеза» и «гипотеза — гипотеза» ассоциативно связаны.
Результатом этого этапа извлечения знаний является сеть объектов. Затем MOLE пытается получить дополнительную информацию: о типе объекта (является объект наблюдаемым или выводимым); о природе ассоциативной связи (какой тин знаний лежит в основе ассоциации — объясняющие, предсказывающие или иные); о направлении ассоциативной связи, о численной оценке «силы» ассоциативной связи. Однако MOLE понимает, что эксперт не всегда может предоставить такую информацию. Поэтому на этом этапе MOLE использует стратегию ожиданий: она пытается вывести необходимую информацию из сообщений эксперта на основе своих ожиданий.
На этапе начального формирования базы знаний MOLE назначает численные веса ассоциативных связей но умолчанию на основе следующих посылок:
• каждое наблюдение должно быть объяснено некоторой гипотезой;
• только одна из гипотез, объясняющих данное наблюдение, является в каждом конкретном случае наиболее вероятной;
• сумма оценок для связей данного наблюдения с объясняющими его гипотезами равна единице.
Тогда по умолчанию MOLE назначает для каждой связи данного наблюдения оценку, полученную как частное от деления единицы на число гипотез, объясняющих данное наблюдение. MOLE предполагает, что если эксперт сообщил несколько объяснений для одного и того же объекта, то, вероятно, он может сообщить и знания, позволяющие различать эти объяснения.
Система приобретения знаний SALT [Markus, 1987] создана в университете Carnegie Mellon. Система SALT — система приобретения знаний для задач конструирования. Система SALT разрабатывалась в предположении, что решение этой задачи осуществляется методом пошагового распространения ограничений.
Для решения задач конструирования методом пошагового распространения ограничений необходимы знания следующих типов:
• процедуры установления значений параметров;
• процедуры проверки ограничений;
• процедуры коррекции значений параметров с указанием «цены» каждого корректирующего действия.
Важно, чтобы все эти знания составляли целостную и непротиворечивую БЗ.
Наибольшую трудность для эксперта представляет необходимость последовательно, шаг за шагом описать все свои действия при разработке проекта. Работая с системой SALT, эксперт избавлен от этой необходимости.
Исходя из того, как именно экспертные знания будут использоваться в ЭС при составлении конкретных проектов, SALT анализирует текущее состояние БЗ и предлагает эксперту-пользователю ввести или пересмотреть тот или иной фрагмент знаний. Диалог с пользователем в SALT ведется либо посредством вопросов-подсказок, либо посредством меню. Инициатива в диалоге принадлежит системе.
Система приобретения знаний OPAL [Musen, Pagan, et al., 1987] была создана в начале 80-х годов в Стэнфордском университете. Эта система обеспечивает формирование и наращивание базы знаний для ЭС ONCOCIN, дающей советы по лечению онкологических больных. Система приобретения знаний OPAL основана на детально проработанной модели медицинских знаний, используемых врачами-онкологами для рекомендации лечения. Системой используется девять типов знаний:
• схема лечения (порядок и длительность режимов лечения);
• критерий выбора протокола;
• химиотерапия (описание комбинаций лекарств, назначаемых в том или ином режиме, их дозировка);
• радиотерапия (локализация и дозировка радиотерапии);
• изменения в составе крови, требующие модификации дозировки;
• негативные реакции на лечение, выявленные путем лабораторных исследований;
• другие отрицательные последствия проводимого лечения, требующие модификации дозировки лекарств;
• перерыв или прекращение лечения;
• лабораторные исследования, необходимые для обнаружения токсичности лечения и для сохранения истории течения болезни.
Эти типы медицинских знаний связаны в иерархическую структуру.
Для ввода каждого типа знаний разработан специальный графический интерфейс, учитывающий то, как принято фиксировать соответствующие знания. Так, например, для записи схемы лечения онкологи используют диаграммы переходов с условиями на дугах. В системе OPAL ввод таких знаний осуществляется с помощью графического языка программирования. Схема лечения создается как программа на этом языке.
Схемы протоколов и заполненные формы транслируются системой OPAL во внутреннее представление БЗ ЭС ONCOCIN. Этот процесс осуществляется без участия пользователя. По схемам протоколов порождаются диаграммы переходов, называемые генераторами; по формам-бланкам порождаются правила продукций, присоединяемые к соответствующим состояниям в диаграмме.
Система KNA СК создана в 1989 г. в университете Carnegie Mellon. Она представляет собой ориентированный на экспертов предметной области инструмент для создания ЭС, помогающих оценивать и улучшать различные виды проектов.
Единственными знаниями, изначально встроенными в систему KNACK, являются знания о процессе оценки проектов вообще, то есть независимо от конкретного содержания проектов. Все остальные знания приобретаются системой KNACK на основе диалога и анализа документов, называемых отчетами. Отчет описывает процесс оценки какого-либо конкретного проекта.
Приобретение знаний, необходимых для оценки проектов определенного класса, система KNACK осуществляет в два этапа. Первый этап — это настройка на класс проектов. На этом этапе система KNACK с помощью эксперта создает предварительную модель. Расширенная с помощью специальных процедур модель предметной области автоматически транслируется в программу на языке OPS-5.
К методам структурированного интервью примыкают и использованные при построении системы МЕДИКС [Ларичев, Мечитов и др., 1989] процедуры экспертной классификации. Задача экспертной классификации формулируется в работе [Ларичев, Мечитов и др., 1989] для:
• множества независимых свойств Р;
• множества признаков Q;
• множества Qm возможных значений m-го признака;
• множества А всех возможных состояний.
Эксперту (или группе экспертов) предлагается идентифицировать наличие свойств из множества Р и тем самым построить классификацию множества А = UKj, такую, что состояние аОА относится к некоторому классу Kj, если, по мнению эксперта, это состояние обладает свойством POP. Повысить эффективность экспертной классификации в этом случае удается благодаря использованию априорно заданного отношения линейного порядка на множестве состояний.

4.6.2. Имитация консультаций

Этот метод реализован в системе АРИАДНА [Моргоев, 1988]. В основе этого метода — многократное решение экспертом проблемы классификации в режиме последовательной вопросно-ответной консультации «клиент — эксперт». При этом роль клиента моделируется всеми участниками работы, а эксперт выполняет функции, близкие к его профессиональной консультативной деятельности.
С появлением персональных компьютеров связано появление игр эксперта с компьютером [Андриенко Г., Андриенко Н., 1992]. В системе ЭСКИЗ реализован набор игр для приобретения знаний, являющихся той или иной модификацией принципа репертуарных решеток. Например, в игре «Регата» объектами, для которых эксперт должен указать различающие признаки, являются яхты. В ходе гонок яхты должны проходить в пролеты мостов; в один и тот же пролет проходят яхты, соответствующие сходным по какому-либо атрибуту объектам.
Рассмотренные выше системы поддержки процессов приобретения знаний, как правило, ориентированы на отдельные фазы всего технологического цикла. В связи с вышесказанным интересно хотя бы кратко рассмотреть интегрированные средства поддержки определенных методологий.

4.6.3. Интегрированные среды приобретения знаний

Интегрированная среда приобретения знаний AQUINAS [Boose, Bradshaw, Schema, 1988] представляет собой набор программных средств для извлечения экспертных знаний различных типов различными методами. В состав AQUINAS входят:
• система Dialog Manager для помощи новичкам в работе с AQUINAS;
• система ETS для извлечения и анализа репертуарных решеток с последующим преобразованием их в базу продукционных правил;
• средства конструирования различных иерархических структур знаний;
• средства извлечения, представления и использования неточных знаний;
• средства тестирования и коррекции БЗ;
• средства, позволяющие эксперту оценивать конструкторы по наиболее подходящим шкалам;
• средства работы с несколькими экспертами;
• средства автоматического пополнения и коррекции БЗ.
Dialog Manager представляет собой ЭС, специально созданную для того, чтобы консультировать эксперта о возможностях, представляемых AQUINAS, и руководить экспертом при работе с AQUINAS. Возможны три режима взаимодействия с Dialog Manager:
• автоматический, при котором Dialog Manager полностью берет на себя руководство процессом извлечения знаний;
• ассистирующий, при котором хотя эксперту и даются рекомендации относительно его дальнейших действий, но он может им не следовать;
• режим наблюдения за действиями эксперта и сохранения истории.
Выбрав автоматический или ассистирующий режим, экспрет должен выбрать степень подробности подсказок и объяснений, даваемых системой («полностью», «на среднем уровне», «кратко»).
В БЗ Dialog Manager имеются эвристики, которые позволяют этой системе при накоплении экспертом достаточного опыта перейти от автоматического режима к ассистирующему. Dialog Manager информирует эксперта о переключении режимов. Работая в ассистирующем режиме, Dialog Manager оставляет за экспертом выбор деятельности, но на основе своих эвристик рекомендует наиболее подходящую. В частности, если Dialog Manager считает, что эксперту следует заняться анализом БЗ, то в рекомендации обычно указывается, какой именно аспект нуждается в анализе. Так, эксперту может быть рекомендовано обратиться либо к процедурам анализа сходства элементов (конструкторЪв), либо к процедурам кластеризации элементов (конструкторов), либо к разбиению исходной решетки на несколько иерархически связанных.
Интегрированная среда приобретения знаний KITTEN (Knowledge Initiation & transfer Tools for Experts and Novices) [Show, Woodward, 1988], подобно AQUINAS, основана на построении и анализе репертуарных решеток. Отличие KITTEN от AQUINAS заключается в том, что в KITTEN обеспечивается извлечение элементов и конструкторов из текстов, а кроме того, имеются процедуры, анализирующие примеры решения задач экспертом и генерирующие по ним продукционные правила. Продукционные правила, порождаемые из примеров и решеток, могут быть загружены в БЗ оболочки NEXPERT, с помощью которой проводится тестирование БЗ.
Завершая обзор прямых методов приобретения знаний, суммируем проблемы, которые этими методами не решаются:
• эти методы не устраняют посредника между системой и экспертом;
• автономное использование описанных методов не решает таких проблем инженерии знаний, как устранение «пробелов» в знаниях, выявление «глубинных», невербальных знаний; сохраняется большая «время-емкость» и субъективность интервью;
• фаза приобретения знаний идеологически и теоретически не связывается со следующими фазами инженерии знаний.

4.6.4. Приобретение знаний из текстов

Как было указано в параграфе 4.3, даже ручные методы выявления знаний из текста крайне слабо разработаны. В тех же немногих случаях, когда применяются автоматизированные методики, речь, как правило, идет о методах лексико-семантического анализа, а также о моделях понимания текста.
Наибольшую известность имеют модели понимания на лингвистическом уровне. Системы, основанные на них, состоят в большинстве случаев из двух частей:
• первая — морфологический и синтаксический анализ;
• вторая — семантический анализ, который использует результаты работы первой части, а также словарную или справочную информацию для построения формализованного образа текста.
Говоря о семантическом анализе текста, надо иметь в виду, что всякие отношения текстах его семантикой начинаются после того, как в нашем распоряжении оказывается некоторая модель действительности. Объектами этой модели, в частности, могут являться индивиды и отношения.
Таким образом, первая проблема, возникающая при попытках автоматического извлечения знаний из текста, — это выявление свойств элементов текста для соотнесения этих элементов с объектами модели. Крайне редко эти свойства присутствуют в тексте эксплицитно, то есть явно.
Вторая особенность существующих систем анализа текста — это, как правило, необходимость использования словаря предметной области для выполнения морфологического анализа, выделения имен и словосочетаний и т. д. Однако требование предварительного создания словаря предметной области одновременно сильно осложняет задачу и уменьшает степень универсальности получаемой системы.
Понимание текста на семантическом уровне предполагает выявление не только лингвистических, но и логических отношений между языковыми объектами [Апресян, 1974]. Среди подходов к пониманию текста на семантическом уровне следует выделить модели типа «смысл — текст», в частности, модель семантик предпочтения [Wilks, 1976], модель концептуальной зависимости [Хейес-Рот и др., 1987]. В модели «смысл — текст» [Мельчук, 1974] предлагается семантическое представление на основе семантического графа и описания коммуникативной структуры текста.
В системе KRITON [Diderich, Ruchman, May, 1987] анализ текста используется для выявления хорошо структурированных знаний из книг, документов, описаний, инструкций. Основанный на контент-анализе метод протокольного анализа используется для выявления процедурных знаний. Он осуществляется в пять шагов.
1. Протокол делится на сегменты на основании пауз, которые делает эксперт в процессе записи.
2. Семантический анализ сегментов, формирование высказываний для каждого сегмента.
3. Из текста выделяются операторы и аргументы.
4. Делается попытка поиска по образцу в БЗ для обнаружения переменных в высказываниях (переменная вставляется в высказывание, если соответствующая ссылка в тексте не обнаружена).
5. Утверждения упорядочиваются в соответствии с их появлением в протоколе.
В системе ТАКТ (Tool for Acquisition of Knowledge from Text) [Kaplan, Berry-Rog-ghe, 1991] предполагается предварительная подготовка (разметка посредством введения явной скобочной структуры) предложений текста до начала работы текстового анализатора. В результате анализа выделяются объекты, процессы и отношения каузального характера.

4.6.5. Инструментарий прямого приобретения
знаний SIMER + MIR

Программная система SIMER + MIR, разработанная в ИПС РАН под руководством Осипова Г. С. [Осипов, 1997], представляет собой совокупность программных средств для формирования модели и базы знаний предметной области. Система ориентирована преимущественно на области с неясной структурой объектов, с неполно описанным множеством свойств объектов и богатым набором связей различной «связывающей силы» между объектами.
Одна из особенностей системы состоит в том, что ее использование на заключительном этапе не предполагает участия специалистов-разработчиков экспертных систем. Это означает, что система SIMER + MIR представляет собой технологию создания систем, основанных на знаниях о предметной области, причем технологию, ориентированную на экспертов.
Архитектура. Система SIMER + MIR включает модуль прямого приобретения знаний SIMER, систему моделирования рассуждений типа аргументации MIR, программу адаптации системы МШ'к базе знаний, сформированной с помощью SIMER + и программной среды поддержки базы знаний, над которой работают все названные модули. Конструкции базы знаний создаются и просматриваются с помощью языка инженера знаний FORTE, который включается в технологию в специальных случаях (рис. 4.17).



Рис. 4.17. Создание конструкции базы знаний с помощью языка FORTE

Представление и база знаний. Одним из наиболее распространенных видов экспертизы являются высказывания (сообщения) эксперта об объектах (событиях) предметной области. Эти высказывания имеют вид:
< имя объекта > < имя отношения > < имя объектам.
Для ряда областей — медицины, экологии, политики, социологии — можно выделить формы сообщений, показанные в табл. 4.6:
Таблица 4.6.
Формы сообщений

Номер формы
Имя формы
Номер формы
Имя формы
Ф1
a характерно для b
Ф8
При a нередко присутствует b
Ф2
a наблюдается при b
Ф9
a может наблюдаться при b
Ф3
a отмечается при b
Ф10
a обычно сопровождается b
Ф4
a есть проявление b
Ф11
При a как правило b
Ф5
a есть признак b
Ф12
При a обычно b
Продолжение табл. 4.6.

Номер формы
Имя формы
Номер формы
Имя формы


Ф6
a сопровождает b
Ф13
a иногда сопровождается b


Ф7
a нередко сопровождается b
Ф14
a часто сопровождается b


Ф15
a исключает b
Ф20

С a начинается b

Ф16
a приводит к b
Ф21

b развивается при a

<< Предыдущая

стр. 10
(из 26 стр.)

ОГЛАВЛЕНИЕ

Следующая >>