<< Предыдущая

стр. 9
(из 26 стр.)

ОГЛАВЛЕНИЕ

Следующая >>


Выявляют логику и аргументацию экспертов
Вызывают интерес
у эксперта



Привлекают дизайном и динамикой





Недостатки







Отсутствие методик стандартного набора игр


Высокие профессиональные требования к аналитику
Требует от аналитика знания основ игротехники


Сложность создания игр для конкретных предметных областей
Сложность и высокая цена создания специализированных игр в конкретной ПО



Требования к эксперту (тип и качества)




Собеседник или практик
(раскованность и актерское мастерство)
То же
Практик без психологического барьера к ЭВМ


Требования
к аналитику
(тип и качества)
Собеседник (режиссерские способности +
умение создавать сценарии + актерское мастерство
Собеседник (способность к ведению конферанса +
режиссерские способности + сценарист + актерское мастерство)
Мыслитель (контакт
с программистом)
Требования к предметной области

Средне и слабо структурированные и слабо документированные
То же



То же




4.3. Текстологические методы

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний.
В буквальном смысле текстологические методы не относятся к текстологии — науке, которая родилась в русле филологии с целью критического прочтения литературных текстов, изучения и интерпретации источников с узкоприкладной задачей — подготовки текстов к изданию. Сейчас текстология расширила свои границы включением аспектов смежных наук -т- герменевтики (науки правильного толкования древних текстов — библии, античных рукописей и др.), семиотики, психолингвистики и др.
Текстологические методы извлечения знаний, безусловно, используя основные положения текстологии, отличаются принципиально от ее методологии, во-первых, характером и природой своих источников (профессиональная специальная литература, а не художественная, живущая по своим особым законам), а во-вторых, жесткой прагматической направленностью извлечения конкретных профессиональных знаний.
Среди методов извлечения знаний эта группа является наименее разработанной, по ней практически нет никакой библиографии, поэтому дальнейшее изложение является как бы введением в методы изучения текстов в том виде, как это представляют авторы.
Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вторичной структуре (смысловой структуре или макроструктуре текста), настраиваемой над естественным текстом [Величковский, Капица, 1987], или, как сформулировано в работе [Фаин, 1987], «текст не содержит и не передает смысл, а является лишь инструментом для автора текста».
При этом можно выделить две такие смысловые структуры:
М1 — смысл, который пытался заложить автор, это его модель мира, и М2 — смысл, который постигает читатель, в данном случае инженер по знаниям (рис. 4.6), в процессе интерпретации I. При этом Т — это словесное одеяние М1 то есть результат вербализации V.
Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих М1 и М2, из-за того, что М1 образуется за счет всей совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно, и М2 образуется в процессе интерпретации текста Т за счет привлечения всей совокупности научного и человеческого багажа читателя. Таким образом, два инженера по знаниям извлекут из одного Т две различные модели Мi1 и Мi2.


Рис. 4.6. Схема извлечения знаний из специальных текстов
Встает задача: выяснить, за счет чего можно достичь максимальной адекватности М1 и М2, помня при этом, что понимание всегда относительно, поскольку это синтез двух смыслов «свое—чужое» [Бахтин, 1975].
Рассмотрим подробнее, какие источники питают модель М1 и создают текст Т. В работе [Сергеев, 1987] указаны два компонента любого научного текста. Это первичный материал наблюдений a и система научных понятий b в момент создания текста. В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора g, результат его личного опыта, а также некоторые «общие места» или «вода» d. Кроме этого, любой научный текст содержит заимствования из других источников (статей, монографий) и т. д. При этом все компоненты погружены в языковую среду L. Можно записать:

Т = (a,b,g,d,q)L.

Таким образом, компоненты научного текста можно представить в виде следующей схемы (рис. 4.7). При этом компоненты b, g, часть a входят и в модель М1


При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компоненты для выделения истинно значимых для реализации базы знаний фрагментов. Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое «погружен» текст.
Различают микро- и макроконтекст. Микроконтекст — это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац в контексте главы и т. д. Макроконтекст — это вся система знаний, связанная с предметной областью (то есть знания об особенностях и свойствах, явно не указанных в тексте). Другими словами, любое знание обретает смысл в контексте некоторого метазнания.
Теперь несколько подробнее о центральном звене процедуры извлечения знания — о понимании текста. Классическим в текстологии является определение немецкого философа и языковеда В. фон Гумбольдта [Фон Гумбольдт, 1984]:
«...Люди понимают друг друга не потому, что передают собеседнику знаки предметов, и даже не потому, что взаимно настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено цепи чувственных представлений и зачатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивают в сознании соответствующие, но не тождественные смыслы».
Говоря на языке современного языкознания, понимание — это формирование «второго текста», то есть семантической структуры (понятийной структуры) [Сиротко-Сибирский, 1968]. В нашей терминологии — это попытка воссоздания семантической структуры М1 в процессе формирования модели М2, то есть это первый шаг структурирования знаний.
Как происходит процесс понимания I? Одна из возможных схем изложена в работе [Соколов, 1947; Соколов, 1968]. Мы внесли несколько изменений в эту схему в связи с тем, что в ней трактуется понимание текста на иностранном языке, а нас интересует понимание текста в новой для познающего субъекта предметной области. Кроме этого, дополним ее некоторыми положениями герменевтики. В целом полученная схема согласуется со стратегией изучения всего нового.
Основными моментами понимания текста являются:
• Выдвижение предварительной гипотезы о смысле всего текста (предугадывание).
• Определение значений непонятных слов (то есть специальной терминологии).
• Возникновение общей гипотезы о содержании текста (о знаниях).
• Уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям).
• Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний.
• Корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому).
• Принятие основной гипотезы, то есть формирование М3.
Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Такой двуединый подход позволяет охватывать текст как смысловое единство особого рода, с его основными признаками, такими как связность, цельность, законченность и др. [Сиротко-Сибирский, 1968].
Центральными моментами процесса I являются шаги 5 и 7, то есть формирование смысловой структуры или выделение «опорных», ключевых, слов или «смысловых вех» [Сиротко-Сибирский, 1968], а также заключительное связывание «смысловых вех» в единую семантическую структуру.
При анализе текста важно выявление внутренних связей между отдельными элементами текста и понятиями. Традиционно выделяют два вида связей в тексте — эксплицитные (или явные связи), которые выражаются во внешнем дроблении текста, и имплицитные (скрытые связи). Эксплицитные связи делят текст на параграфы с помощью перечисления компонентов, вводных слов (или коннекторов) типа «во-первых..., во-вторых..., однако и т. д.». Имплицитные, или внутренние, связи между отдельными «смысловыми вехами» вызывают основное затруднение при понимании.
Итак, семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, знаний о мире, а также общих (фоновых) знаний в той предметной области, которой посвящен текст. «Тексты пишут для посвященных». Другими словами, если текст не является научно-популярным, то для его адекватного прочтения требуется некоторая подготовка.
Таким образом, путь к знаниям удлиняется еще на одно звено. Если мы раньше говорили, что сами текстологические методы редко употребляются как самостоятельный метод извлечения, а обычно используются как некоторая подготовка к коммуникативному взаимодействию, то теперь утверждаем, что и для прочтения текстов нужна подготовка. Какая же?
Подготовкой к прочтению специальных текстов является выбор совместно с экспертами некоторого «базового» списка литературы, который постепенно введет аналитика в предметную область. В этом списке могут быть учебники для начинающих, главы и фрагменты из монографий, популярные издания. Только после ознакомления с «базовым» списком целесообразно приступать к чтению специальных текстов.
Таким образом, на процесс понимания (или интерпретации) I и модель М2 влияют следующие компоненты (рис. 4.8):
• экстракт компонентов (a,b,g,d,q)', почерпнутый из текста Т;
• предварительные знания аналитика о предметной области w;
• общенаучная эрудиция аналитика e;
• его личный опыт j.

М2=[(a,b,g,d,q)', w, e, j].

Процесс I — это сложный, не поддающийся формализации процесс, на который существенным образом влияют такие чисто индивидуальные компоненты, как когнитивный стиль познания, интеллектуальные характеристики и др.


Рис. 4,8. Компоненты формирования смысла текста

Но процедура разбивки текста на части («смысловые группы»), а затем сгущение, сжатие содержимого каждого смыслового куска в «смысловую веху» является, видимо, основой для любого индивидуального процесса понимания. Такая компрессия (сжатие) текста в виде набора ключевых слов, передающих основное содержание текста, может служить удобной методологической основой для проведения текстологических процедур извлечения знаний.
В качестве ключевого слова может служить любая часть речи (существительное, прилагательное, глагол и т. д.) или их сочетание. Набор ключевых слов (НКС) — это набор опорных точек, по которым развертывается текст при кодировании в память и осознается при декодировании, это семантическое ядро цельности [Си-ротко-Сибирский, 1968].

Пример 4.7
В качестве примера приведем результаты эксперимента по формированию НКС. Знания извлекались из следующего текста [Уэно, Исидзука, 1989].
«Теория фреймов относится к психологическим понятиям, касающимся понимания того, что мы видим и слышим. Эти способы восприятия трактуются с последовательной точки зрения, на их основании осуществляется концептуальное моделирование, целесообразность полученных моделей исследуется вместе с различными проблемами, возникающими в этих двух областях.
Для осознания того факта, что заданная информация в этих областях имеет единственный смысл, человеческая память прежде всего должна быть способна увязывать эту информацию со специальными концептуальными объектами. В противном случае не удается систематизировать информацию, которая выглядит разрозненной. В основе теории фреймов лежит восприятие фактов посредством сопоставления полученной извне информации с конкретными элементами и значениями, а также с рамками, определенными для каждого концептуального объекта в нашей памяти. Структура, представляющая эти рамки, называется фреймом. Поскольку между различными концептуальными объектами имеются некоторые аналогии, то образуется иерархическая структура с классификационными и обобщающими свойствами. Собственно, она представляет собой иерархическую структуру отношений типа «абстрактное-конкретное». Сложные объекты представлены комбинацией нескольких фреймов, другими словами, они соответствуют фреймовой сети. Кроме того, каждый фрейм дополняется связанными с ним фактами и процедурой, обеспечивающей выполнение запросов к другим фреймам.

Причиной, по которой представление знаний фреймами выглядит достаточно точным, является возможность более полного описания процесса мышления человека посредством определения крупной и структурированной основной единицы представления знаний и более тесной связи знаний, основанных на фактах, и процедурных знаний. Тем не менее, как было отмечено ее автором, теорию фреймов следует скорее отнести к теории постановки задач, чем к результативной теории. Можно считать, что она существенно повышает уровень ,и детализирует механизм памяти человека, выводов, понимания и обучения.»
В группе из 34 испытуемых не было получено ни одного совпадающего НКС и, соответственно, все структуры существенно отличались. Для примера приведем две работы (рис. 4.9, а, б).


Рис. 4.9. Примеры смысловых структур, извлеченных из текста
Интересно, что одна из гипотез лингвостатистики о том, что наиболее употребляемые слова являются наиболее важными с точки зрения содержания текста, то есть отражают его тематическую структуру, частично подтвердилась.
Следует сказать несколько слов о том, почему мы выделяем три вида текстологических методов (см. рис. 4.1):
• анализ специальной литературы;
• анализ учебников;
• анализ методик.
Перечисленные три метода существенно отличаются, во-вторых, по степени концентрированности специальных знаний, и, во-вторых, по соотношению специальных и фоновых знаний. Наиболее простым методом является анализ учебников, в которых логика изложения обычно соответствует логике предмета и поэтому макроструктура такого текста будет, наверное, более значима, чем структура текста какой-нибудь специальной статьи. Анализ методик затруднен как раз сжатостью изложения и практическим отсутствием комментариев, то есть фоновых знаний, облегчающих понимание для неспециалистов. Поэтому можно рекомендовать для практической работы комбинацию перечисленных методов.
В заключение предложим одну из возможных практических методик анализа текстов с целью извлечения и структурирования знаний.

4.4. Простейшие методы структурирования

Методы извлечения знаний, рассмотренные выше, являются непосредственной подготовкой к структурированию знаний. Данный параграф посвящен изучению практических методов структурирования знаний.

4.4.1. Алгоритм для «чайников»

В качестве простейшего прагматического подхода к формированию поля знаний начинающему инженеру по знаниям можно предложить следующий алгоритм для «чайников» (рис. 4.10).
1. Определение входных {X} и выходных {Y} данных. Этот шаг совершенно необходим, так как он определяет направление движения в поле знаний — от X к Y. Кроме того, структура входных и выходных данных существенно влияет на форму и содержание поля знаний. На этом шаге определение может быть достаточно размытым, в дальнейшем оно будет уточняться.
2. Составление словаря терминов и наборов ключевых слов N. На этом шаге проводится текстуальный анализ всех протоколов сеансов извлечения знаний и выписываются все значимые слова, обозначающие понятия, явления, процессы, предметы, действия, признаки и т. п. При этом следует попытаться разобраться в значении терминов. Важен осмысленный словарь.
3. Выявление объектов и понятий {А}. Производится «просеивание» словаря N и выбор значимых для принятия решения понятий и их признаков. В идеале на этом шаге образуется полный систематический набор терминов из какой-либо области знаний.
4. Выявление связей между понятиями. Все в мире связано. Но определить, как направлены связи, что ближе, а что дальше, необходимо на этом этапе. Таким образом, строится сеть ассоциаций, где связи только намечены, но пока не поименованы. Например, понятия «день», «ночь», «утро» и «вечер» явно как-то связаны, связаны также и понятия «красный флаг» и «красный галстук», но характер связи тут существенно отличен.
5. Выявление метапонятий и детализации понятий. Связи, полученные на предыдущем шаге, позволяют инженеру по знаниям структурировать понятия и как выявлять понятия более высокого уровня обобщения (метапонятия), так и детализировать на более низком уровне.
6. Построение пирамиды знаний. Под пирамидой знаний мы понимаем иерархическую лестницу понятий, подъем по которой означает углубление понимания и повышения уровня абстракции (обобщенности) понятий. Количество уровней в пирамиде зависит от особенностей предметной области, профессионализма экспертов и инженеров по знаниям.
7. Определение отношений {RA}. Отношения между понятиями выявляются как внутри каждого из уровней пирамиды, так и между уровнями. Фактически на этом шаге даются имена тем связям, которые обнаруживаются на шагах 4 и 5, а также обозначаются причинно-следственные, лингвистические, временные и другие виды отношений.
8. Определение стратегий принятия решений (Sf). Определение стратегий принятия решения, то есть выявление цепочек рассуждений, связывает все сформированные ранее понятия и отношения в динамическую систему поля знаний. Именно стратегии придают активность знаниям, именно они «перетряхивают» модель М в поиске от X к Y.


Однако на практике при использовании данного алгоритма можно столкнуться с непредвиденными трудностями, связанными с ошибками на стадии извлечения знаний и с особенностями знаний различных предметных областей. Тогда возможно привлечение других, более «прицельных» методов структурирования. При этом на разных этапах схемы (рис. 4.10) возможно использование различных методик.

4.4.2. Специальные методы структурирования

Используя представленный на рис. 4.10 алгоритм, инженер по знаниям может испытывать необходимость в применении специальных методов структурирования на разных шагах алгоритма. При этом, естественно, для таких простых и очевидных шагов, как определение входных и выходных понятий или составление словаря, никаких искусственных методов предлагаться не будет.

Методы выявления объектов, понятий и их атрибутов
Понятие или концепт — это обобщение предметов некоторого класса по их специфическим признакам. Обобщенность является сквозной характеристикой всех когнитивных психических структур, начиная с простейших сенсорных образов.
Так, понятие «автомобиль» объединяет множество различных предметов, но все они имеют четыре колеса, двигатель и массу других деталей, позволяющих перевозить на них грузы и людей. Существует ряд методов выявления понятий предметной области в общем словаре терминов, который составлен на основании сеансов извлечения знаний. При этом важно выявление не только самих понятий, но и их признаков.
Возвращаясь к терминологии, введенной в параграфе 1.3, на этом этапе определяются также интенсионалы и экстенсионалы понятий предметной области. Интенсионал очерчивает понятие через взаимосвязь значимых признаков, а экстенсионал — через перечисление конкретных экземпляров объекта.
Если задача выделения реальных объектов А связана только с наблюдательностью и лингвистическими способностями эксперта и инженера по знаниям, то определение метапонятий В требует от них умения проводить операции обобщения и классификации, которые никогда не считались тривиальными.
Поспелов Д. А. [Поспелов, 1986] предложил ряд подходов к созданию основ теории обобщения и классификации применительно к ситуационному управлению и искусственному интеллекту в целом, а также выделил ряд особенностей задач формирования понятий. Среди них особое место занимает выявление прагматически значимых признаков для формирования понятий, способствующих решению задачи.
Сложность заключается в том, что для многих понятий практически невозможно однозначно определить их признаки, это связано с различными формами репрезентации понятий в памяти человека.
Все методы выявления понятий мы разделили на:
• традиционные, основанные на математическом аппарате распознавания образов и классификации;
• нетрадиционные, основанные на методологии инженерии знаний.
Если первые достаточно хорошо освещены в литературе, то вторые пока менее известны.

Пример 4.8
Интересный эксперимент по выявлению понятий описан в работе [Кук, Макдональд, 1986].
Тридцати студентам, имеющим права на вождение автомобиля, предложили составить словарь терминов предметной области с помощью четырех методов:
1. Формирование перечня понятий (17 %).
2. Интервьюирование специалистов (35 %). .
3. Составление списка элементарных действий (18 %).
4. Составление оглавления учебника (30 %).
Цифры в скобках характеризуют продуктивность соответствующего метода, то есть показывают, какой процент понятий из общего выявленного списка (702 термина) был получен соответствующим методом. Для классификации понятий были привлечены еще два участника эксперимента, которые разделили 702 выявленных понятия на семь категорий (методом сортировки карточек). Таблица 4.5 отражает численные данные концептуализации.
В целом результаты показали, что для выявления непосредственно концептов наиболее результативными оказались методы интервьюирования и составления оглавления учебника. Однако наибольшее число общих правил было порождено в методе списка действий. Таким образом, еще раз подтвердилось утверждение о том, что нет «лучшего» метода, есть методы, подходящие для тех или иных ситуаций и типов знаний.

Таблица 4.5.
Данные концептуализации


Категории
Процент от общего числа терминов

Процент от общегочисла терминов, полученный
соответствующим методом





Перечень
понятий

Интервью-
ирование
Список
операций
Составление
оглавления
Объяснение
6
5,5

7,2
7,0
4,9
Общие правила
22,0
43,6

18,9
36,8
4,9
Режимные правила
9,0
9,8

8,4
11,6
6,6
Понятия
42,0
18,4

38,9
8,5
77,7
Процедуры
9,0
5,1

9,5
25,6
1,2
Факты
9,0
15,0

12,5
8,9
1,2
Прочие понятия
3,0
2,6

4,6
1,6
3,5

Интересно, что число правил — продукций «если — то» — составило небольшой процент во всех четырех методах. Это говорит о том, что популярная продукционная модель вряд ли является естественной для человеческих моделей репрезентации знаний.

Методы выявления связей между понятиями
Концепты не существуют независимо, они включены в общую понятийную структуру с помощью отношений. Выявление связей между понятиями при разработке баз знаний доставляет инженеру по знаниям немало проблем. То, что знания в памяти — это некоторые связные структуры, а не отдельные фрагменты, общеизвестно и очевидно. Тем не менее основной упор в существующих моделях представления знаний делается на понятия, а связи вводят весьма примитивные (в основном причинно-следственные).
В последних работах по теории ИИ все больше внимания уделяется взаимосвязанности структур знаний. Так, в работе [Шенк, Бирнбаум, Мей, 1989] введено понятие сценария (script) как некоторой структуры представления знаний. Основу сценария составляет КОП (концептуальная организация памяти) и мета-КОПы — некоторые обобщающие структуры.
Сценарии, в свою очередь, делятся на фрагменты — или сцены (chunks). Связи между фрагментами — временные или пространственные, внутри фрагмента — самые различные: ситуативные, ассоциативные, функциональные и т. д.
Все методы выявления таких связей можно разделить на две группы:
• Формальные.
• Неформальные (основаны на дополнительной работе с экспертом). Неформальные методы выявления связей придумывает инженер по знаниям для того, чтобы вынудить эксперта указать явные и неявные связи между понятиями. Наиболее распространенным является метод «сортировка карточек» в группы [Волков, Ломнев, 1989; Rabbits, Wright, 1987], широко применяемый и для формирования понятий. Другим неформальным методом является построение замкнутых кривых. В этом случае эксперта просят обвести замкнутой кривой связанные Друг с другом понятия [Olson, Renter, 1987]. Этот метод может быть реализован как на бумаге, так и на экране дисплея. В этом случае можно говорить о привлечении элементов когнитивной графики [Зенкин, 1991].
После того как определены связи между понятиями, все понятия как бы распадаются на группы. Такого рода группы представляют собой метапонятия, присвоение имен которым происходит на следующей стадии процесса структурирования.

Методы выделения метапонятий и детализация понятий

<< Предыдущая

стр. 9
(из 26 стр.)

ОГЛАВЛЕНИЕ

Следующая >>