<< Предыдущая

стр. 12
(из 26 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

3. Сжатие исходного массива данных с минимальными потерями в их информативности.
Независимо от задачи МШ всегда используется как инструмент наглядного представления (визуализации) исходных данных. МШ широко применяется в исследованиях по антропологии, педагогике, психологии, экономике, социологии [Дэйвисон, 1988].
В основе данного подхода лежит интерактивная процедура субъективного шкалирования, когда испытуемому (то есть эксперту) предлагается оценить сходство между различными элементами П с помощью некоторой градуированной шкалы (например, от 0 до 9, или от -2 до +2). После такой процедуры аналитик располагает численно представленными стандартизованными данными, поддающимися обработке существующими пакетами прикладных программ, реализующими различные алгоритмы формирования концептов более высокого уровня абстракции и строящими геометрическую интерпретацию семантического пространства в евклидовой системе координат.
Основной тип данных в МШ — меры близости между двумя объектами (i, j) — dij. Если мера близости такова, что самые большие значения dij соответствуют парам наиболее похожих объектов, то dij — мера сходства, если, наоборот, наименее похожим, то dij — мера различия.
МШ использует дистанционную модель различия, используя понятие расстояния в геометрии как аналогию сходства и различия понятий (рис. 5.3).

Рис. 5.3. Расстояние в евклидовой метрике

Для того чтобы функция d, определенная на парах объектов (а, b), была евклидовым расстоянием, она должна удовлетворять следующим четырем аксиомам:
d(a,b) і 0,
d(a,a) = 0,
d(a,b) = d(b,a),
d(a,b) + d(b,c) і d(a,c).
Тогда, согласно обычной формуле евклидова расстояния, мера различия двух объектов i и j со значениями признака k у объектов i и j соответственно Xik и Xjk:

Дистанционная модель была многократно проверена в социологии и психологии [Monahan, Lockhead, 1977; Петренко, 1988; Шмелев, 1983], что дает возможность оценить ее пригодность для использования.
В большинстве работ по МШ используется матричная алгебра. Геометрическая интерпретация позволяет представить абстрактные понятия матричной алгебры в конкретной графической форме. Для облегчения интерпретации решения задачи МШ к первоначально оцененной матрице координат стимулов X применяется вращение.
Среди множества алгоритмов МШ широко используются различные модификации метрических методов Торгерсона [Torgerson, 1958], а также неметрические модели, например Крускала [Kruskal, 1964].
При сравнении методов МШ с другими методами анализа, теоретически применимыми в инженерии знаний (иерархический кластерный анализ [Дюран, Оделл, 1977] или факторный анализ [Иберла, 1980]), МШ выигрывает за счет возможности дать наглядное количественное координатное представление, зачастую более простое и поэтому легче интерпретируемое экспертами.

5.1.3. Использование метафор для выявления
«скрытых» структур знаний

Несмотря на кажущуюся близость задач, инженерия знаний и психосемантика существенно отличаются как в теоретических основаниях, на которых они базируются, так и в практических методиках. Но главное отличие заключается в том, что инженерия знаний направлена на выявление — в конечном итоге — модели рассуждений [Поспелов, 1989], динамической или операциональной составляющей ментального пространства (или функциональной структуры поля знаний Sf), в то время как психосемантика, пытаясь представить ментальное пространство в виде евклидова пространства, позволяет делать видимой статическую структуру взаимного «расположения» объектов в памяти, в виде проекций скоплений объектов (концептуальная структура Sk).
Помимо этого следует отметить ряд недостатков методов психосемантики с точки зрения практической инженерии знаний.
1. Поскольку в основе психосемантического эксперимента лежит процедура измерения субъективных расстояний между предъявляемыми стимулами, то и результаты обработки такого эксперимента, как правило, используют геометрическую интерпретацию — евклидово пространство небольшого числа измерений (чаще всего — двумерное). Такое сильное упрощение модели памяти может привести к неадекватным базам знаний.
2. Естественность иерархии как глобальной модели понятийных структур сознания служит методологической базой ОСП. Кроме того, и в естественном языке понятия явно тяготеют к различным уровням обобщения. Однако в большинстве прикладных пакетов не предусмотрено разбиение семантического пространства на уровни, отражающие различные степени общности понятий, включенных в экспериментальный план. В результате получаемые кластеры понятий, пространственно изолированные в геометрической модели шкалирования, носят таксономически неоднородный характер и трудно поддаются интерпретации.
3. Единственные отношения, выявляемые процедурами психосемантики, — это «далеко — близко» по некоторой шкале. Для проектирования и построения баз знаний выявление отношений является на порядок более сложной задачей, чем выявление понятий. Поэтому семантические пространства, полученные в результате шкалирования и кластеризации, должны быть подвергнуты дальнейшей обработке на предмет определения отношений, особенно функциональных и каузальных.
Нельзя ожидать, что эти противоречия могут быть разрешены быстро и безболезненно, в силу того, что математический аппарат, положенный в основу всех пакетов прикладных программ по психосемантике, имеет определенные границы применимости. Однако одним из возможных путей сближения без нарушения чистоты процедуры видится расширение пространства конкретных объектов-стимулов предметной области за счет добавления некоторых абстрактных объектов из мира метафор, которые заставят эксперта-испытуемого выйти за рамки объективности в мир субъективных представлений, которые зачастую в большей степени влияют на его рассуждения и модель принятия решений, чем традиционные правильные взгляды.
Ниже описан подход, разработанный совместно с Воиновым А. В. [Voinov, Gavrilova, 1993; Воинов, Гаврилова, 1994] и позволяющий вывести эксперта за границы традиционной установки и тем самым выявить субъективные, часто скрываемые или скрытые структуры его профессионального опыта.
Большинство результатов, полученных в когнитивной психологии, подтверждают, что у человека (в том числе и у эксперта) формальные знания о мире (в частности, о той предметной области, где он является экспертом) и его личный поведенческий опыт не могут существовать изолированно, они образуют целостную, стабильную структуру. В западной литературе за этой структурой закрепилось название «модель (или картина) мира». Принципиальным свойством модели мира является то, что ее структура не дана человеку — ее носителю — в интроспекции, она работает на существенно латентном, неосознаваемом уровне, зачастую вообще ничем не отмеченном (в символической форме) на поверхности вербального сознания.
Изучение модели мира человека является задачей когнитивной психологии, психосемантики и прочих родственных дисциплин. Что же касается эксперта как объекта пристального внимания инженерии знаний, то здесь одна из проблем, в решении которых может помочь психосемантика, связана с необходимостью (и неизбежностью) отделения опыта эксперта от его объективных знаний в процессе формализации и структурирования последних для экспертных систем.
Строго говоря, невозможно указать ту грань, за которой знания (которые можно формализовать и извлечь) переходят в опыт (то есть в то, что остается уникальной, неотчуждаемой собственностью эксперта). Более корректно, по-видимому, говорить о некой континууме, детальность градации которого может зависеть от конкретной задачи.
Например, можно выделить следующие три уровня:
1. Знания, предназначенные для изложения или доказательства (аргументации), например, на междисциплинарном уровне или для популярной лекции (вербальные).
2. Знания, которые применяются в реальной практике, — знания еще вербализуемые, но уже нерефлектируемые.
3. Собственно опыт, то есть знания, лежащие на наиболее глубоком, неосознаваемом уровне, отвечающие за те решения эксперта, которые внешне (в том числе и для него самого) выглядят как мгновенное озарение или «инсайт», интуитивный творческий акт (интуитивные).
Классическая методика психосемантического эксперимента также не позволяет выделить из его результатов интуитивный уровень. Это видно из самой тестовой процедуры. Просят ли испытуемого оценить сходство-различие стимулов напрямую или же предлагается оценить их соответствие некоторым «конструктам» — в любом случае испытуемый вольно или невольно настраивается на необходимость доказательности своего ответа в терминах объективных свойств стимулов.
Большинство методов извлечения знаний ориентировано на верхние — вербальные или вербализируемые — уровни знания. Необходим косвенный метод, ориентированный на выявление скрытых предпочтений практического опыта или операциональных составляющих опыта. Таким методом может служить метафорический подход. Метафорический подход, впервые описанный с чисто лингвистических позиций [Black, 1962; Ricoeur, 1975], а также с позиций практической психологии [Гордон, 1987], был видоизменен для нужд инженерии знаний. Например, в экспериментах по объективному сравнению языков программирования между собой были также использованы два метафорических «мира» — мир животных и мир транспорта.
В рамках этого подхода удалось экспериментально доказать следующие тезисы:
• метафора работает как фильтр, выделяющий, посредством подбора адекватного объекта сравнения, определенные свойства основного объекта (то есть того, о котором собственно и идет речь). Эти выделяемые свойства имеют существенно операциональный характер, проявляющийся на уровне полиморфизма методов, так как метафора по самой своей сути исключает возможность сравнения объектов по их внутренним, объективным свойствам;
• метафора имеет целью скорее не сообщить что-либо о данном объекте (то есть ответить на вопрос «что это?»), а призвать к определенному отношению к нему, указать на некую парадигму, говорящую о том, как следует вести себя по отношению к данному объекту;
• субъективному сдвигу в отношении к основному объекту (например, к языку программирования) сопутствует также и сдвиг в восприятии объекта сравнения (например, к конкретному животному) в силу вышеуказанной специфики фильтруемых метафорой свойств. Поэтому объект сравнения выступает в метафоре не по своему прямому назначению, то есть это не просто «лев» как представитель фауны, а воплощение силы, ловкости и могущества;
• в том случае, когда метафора сопоставляет не единичные объекты, а некоторые их множества, в которых объекты связаны осмысленными отношениями, пространство объектов сравнения должно быть изоморфно пространству основных объектов по системе указанных отношений.
На эти тезисы опирается предлагаемая модификация классической методики сопоставления объектов, применяемой, например, в оценочной решетке Келли [Kelly, 1955]. При проведении эксперимента была использована система MEDIS [Алексеева, Воинов и др., 1989; Воинов, Гаврилова, 1994]. Эта система позволяет планировать, проводить и обрабатывать данные произвольного психосемантического эксперимента. Помимо классической парадигмы многомерного шкалирования, система MEDIS включает в себя некоторые возможности теста репертуарных решеток. В частности, она позволяет работать со стимулами двух сортов — так называемыми элементами и конструктами (с единственным исключением: конструкты в системе MEDIS — в отличие от классического теста репертуарных решеток — монополярны). Естественно, выбор базового инструментария существенно повлиял на описываемую экспериментальную реализацию методики. В качестве предметной области был выбран мир языков программирования. В пространство базовых понятий (выступавших в методике в качестве элементов) было включено несколько более или менее популярных языков программирования, принадлежащих к следующим классам:
• языки искусственного интеллекта;
• традиционные процедурные языки
• так называемые «макроязыки», обычно реализуемые в оболочках операционных систем, текстовых редакторах и т. д.
В качестве метафорических пространств выбраны мир животных и мир транспорта. Объекты этих миров выступали в методике в качестве (монополярных) конструктов. На первом этапе эксперимента каждый из респондентов выполнял классическое попарное субъективное шкалирование элементов. На вопрос, «Есть ли что-либо общее между данными языками программирования», респонденту предлагалось ответить одной из следующих альтернатив.

ДА!
1
Объекты очень близки
Да
2
Между объектами есть что-то общее
???
3
Неопределенный ответ
Нет
4
Объекты различны
НЕТ!
5
Объекты совершенно несовместимы

Данные этого этапа (отдельно для каждого из респондентов) подвергались обработке методами многомерного шкалирования (см. выше) и представлены на рис. 5.4.


Рис. 5.4. Классификация языков программирования

Результатом такой обработки является некоторое евклидово пространство небольшого числа измерений, в котором исходные оценки различий представлены геометрическими расстояниями между точками. Чем лучше эти расстояния соответствуют исходным различиям, тем более адекватным считается результат обработки в целом. При этом буквальное совпадение расстояний и числовых кодов ответов, естественно, не является обязательным (хотя оно и возможно в некоторых модельных экспериментах). Более важным оказывается ранговое соответствие расстояний исходным оценкам. А именно, в идеальном случае все расстояния между точками, соответствующие (например) ответам «ДА!» в исходных данных, должны быть меньше (хотя бы и на доли процента масштаба шкалы) всех расстояний, соответствующих ответам «Да», и т. д.
В реальном эксперименте идеальное соответствие невозможно в принципе, так как целью обработки является сжатие, сокращение размерности данных, что ограничивает число координатных осей результирующего пространства. Тем не менее алгоритм шкалирования пытается — насколько это возможно — минимизировать ранговое несоответствие модели исходным данным.
Геометрическую модель шкалирования можно интерпретировать по-разному:
• во-первых, можно выяснить смысл координатных осей результирующего пространства. Эти оси по сути своей аналогичны факторам в факторном анализе, что позволяет использовать соответствующую парадигму интерпретации, детально разработанную в экспериментальной психологии: В данном случае можно считать, что выявленные факторы играют роль базовых категорий, или базовых (латентных) конструктов, с помощью которых респондент (как правило, неосознанно) упорядочивает свою картину мира (точнее, ее проекцию на данную предметную область);
• во-вторых, можно проанализировать компактные группировки стимулов в этом пространстве, отождествив их с некоторыми существенными (хотя и скрытыми от интроспекции) таксономическими единицами, реально присутствующими в модели мира эксперта. Существенно, что делается попытка интерпретировать кластеры, полученные по модели шкалирования, а не по исходным числовым кодам различий. Это вытекает из предположения, что информация, не воспроизводимая главными (наиболее нагруженными) факторами, является «шумом», сопутствующим любому (а особенно психологическому) эксперименту.
Рисунок 5.4 отражает традиционную классификацию языков программирования и легко поддается вербальной интерпретации. Например, на рисунке горизонтальная ось соответствует делению языков программирования на «языки искусственного интеллекта» (левый полюс шкалы) и «традиционные языки программирования» (правый полюс). Вертикальная ось отражает классификацию языков программирования в зависимости от уровня — языки высокого уровня (нижний полюс) и языки низкого уровня или системные языки (верхний полюс).
Основная экспериментальная процедура — попарное сравнение некоторых объектов и выражение степени их сходства (несходства) на числовой оси или выделение пар близких объектов из предъявленной триады — сама по себе накладывает большое количество ограничений на выявляемую структуру, в частности:
1. Из-за выбора стимульного материала (выбор объектов остается за инженером по знаниям).
2. Из-за несовершенства шкалы измерений.
3. В связи с рядом допущений математического аппарата. Но главное/что полученная структура знаний чаще всего носит академический характер, то есть отражает объективно существующие, но легко объяснимые, как бы лежащие на поверхности закономерности.
Это связано с психологической установкой самого эксперимента, во время которого эксперта как бы проверяют, экзаменуют и он, естественно, стремится давать правильные ответы.
На следующем этапе эксперимента респонденту предлагалось сопоставить каждый из языков программирования с каждым из метафорических персонажей. Как и на первом этапе, пары предъявлялись в равномерно-случайном порядке (аналогичном расписанию кругового турнира в спортивных играх). Инструкция для сопоставления выглядела следующим образом:
Попробуйте оценить выразительную силу данной метафоры: «ЛИСП — это слон» или «C++ — это яхта».
Результирующая таблица числовых кодов оценок (идентичная оценочной решетке Келли) была также обработана методами многомерного шкалирования программы МЕДИС. Результаты представлены на рис. 5.5 и 5.6.


Рис. 5.5. Метафорическая классификация языков
программирования (мир животных)


Рис. 5.6. Метафорическая классификация языков
программирования (мир транспорта)

При интерпретации удалось выявить такие латентные понятия и структуры, как «степень изощренности языка» (шкала X рис. 5.5), «сила» (шкала Y рис. 5.5), «универсальность» (шкала Y рис. 5.6), «скорость» (шкала X рис. 5.6) и др.
Кроме этого, полученные рисунки позволили выявить скрытые предпочтения эксперта и существенные характеристики объектов, выступавших в виде стимулов — «силу» языка С («слон»); скорость C++ («яхта»); «старомодность» Фортрана («телега») и пр.
В применении к реальному процессу извлечения знаний это обстоятельство становится принципиальным, так как позволяет на самом деле отделить те знания, благодаря которым эксперт является таковым (уровень В), от общезначимых, банальных (для экспертов в данной предметной области) знаний (уровень А), которые возможно и не стоят того, чтобы ради них создавать собственно экспертную систему.
Однако можно ожидать, что во многих (если не в большинстве) случаях выявленные латентные структуры могут полностью перевернуть представления инженера по знаниям о предметной области и позволить ему существенно углубить базу знаний. Введение мира метафор — это некая игра, а игра раскрепощает сознание эксперта и, как все игровые методики извлечения знаний (п. 4.2), является хорошим катализатором трудоемких серий интервью с экспертом, без которых сегодня невозможна разработка промышленных интеллектуальных систем.

5.2. Метод репертуарных решеток

5.2.1. Основные понятия

Среди методов когнитивной психологии — науки, изучающей то, как человек познает и воспринимает мир, других людей и самого себя, как формируется целостная система представлений и отношений конкретного человека, особое место занимает такой метод личностной психодиагностики, как метод репертуарных решеток («repertory grid»).
Впервые метод был сформулирован автором теории личностных конструктов Джорджем Келли в 1955 г. Чем шире набор личностных конструктов у сз'бъекта, тем более многомерным, дифференцированным является образ мира, человека, других явлений и предметов, то есть тем выше его когнитивная сложность [Гаврилова, 1988].
Репертуарная решетка представляет собой матрицу, которая заполняется либо самим испытуемым, либо экспериментатором в процессе обследования или беседы. Столбцу матрицы соответствует определенная группа объектов, или, иначе, элементов. В качестве объектов могут выступать люди, предметы, понятия, отношения, звуки, цвета — все, что интересует психодиагноста. Строки матрицы представляют собой конструкты — биполярные признаки, параметры, шкалы, альтернативные противоположные отношения или способы поведения. Конструкты либо задаются исследователем, либо выявляются у испытуемого с помощью специальных приемов и процедур выявления. Вводя понятие конструкта, Келли объединяет две функции: функцию обобщения (установления сходства) и функцию противопоставления. Он предлагает несколько определений понятия «конструкт». Одно из них:

Например, выделение из трех предметов «диван, кресло, стул» двух «диван и кресло» выявляет конструкт «мягкость мебели». Келли в своих работах подчеркивает биполярность конструктов. Он считает, что, утверждая что-нибудь, мы всегда одновременно что-то отрицаем. Именно биполярность конструктов делает возможным построение репертуарной решетки. Например, север — юг — это референтная ось: элементы, которые в одном контексте являются «севером», в другом становятся «югом».
Возможности конструкта ограничены. Они могут быть применены только к некоторым объектам. Это нашло свое отражение в понятии «диапазона пригодности» конструкта. Английские психологи Франселла и Баннистер [Франселла, Баннистер, 1987] считают правило «диапазона пригодности» отличительной чертой техники репертуарных решеток. Под диапазоном пригодности можно понимать область представлений человека о мире, понятия которой можно соотнести с конкретной референтной осью выделяемого крнструкта. Психологически осмысленный результат получится только в том случае, если элементы, используемые в репертуарной решетке, будут попадать в «диапазон пригодности» конструктов испытуемого.
Конструкты — не изолированные образования. Они взаимодействуют друг с другом, причем характер этого взаимодействия не случаен, а носит целостный системный характер.
В процессе заполнения репертуарной решетки испытуемый должен оценить каждый объект по каждому конструкту или каким-то другим образом поставить в соответствие элементы конструктам.
Определение репертуарная означает, что элементы выбираются по определенным правилам так, чтобы они соответствовали какой-либо одной области и все вместе были связаны осмысленным образом (контекстом) аналогично репертуару ролей в пьесе. Предполагается, что, изменяя репертуар элементов, можно «настраивать» методики на выявление конструктов разных уровней общности и относящихся к разным системам.
При переводе с английского языка термин матрица не используется, поскольку репертуарная решетка не всегда является матрицей в строгом смысле этого термина: в ней на пересечении строк и столбцов не обязательно стоят числа, не всегда выдерживается прямоугольный формат, строки могут быть разной длины.
Второй смысл этого определения заключается в том, что в технике репертуарных решеток часто элементы задаются в виде обобщенных инструкций, репертуара ролей, на место которых каждый конкретный человек мысленно подставляет своих знакомых людей или конкретные предметы, если в качестве элементов заданы названия предметов.
По всей видимости, репертуарные решетки лучше считать специфической разновидностью структурированного интервью. Обычно мы исследуем систему конструктов другого человека в ходе разговора с ним. В процессе беседы мы постепенно начинаем понимать, как он видит мир, что с чем связано, что из чего следует, что для чего важно, а что нет, как он оценивает других людей, события и ситуации.
Решетка формализует этот процесс и дает математическое обоснование связей между конструктами данного человека, позволяет более детально изучить отдельные подсистемы конструктов, подметить индивидуальное, специфическое в структуре и содержании мировоззрения человека.
Важное положение техники репертуарных решеток: ориентация на выявление собственных конструктов испытуемого, а не навязывание их ему извне.
Гибкость и эффективность репертуарных решеток, качество и количество получаемой информации делают их пригодными для решения широкого круга задач. Методики этого типа используются в различных областях практической деятельности: в педагогике и социологии, в медицине, рекламе и дизайне. Репертуарные решетки оказались методом, идеально приспособленным для реализации в виде диалоговых программ на компьютере, что также способствовало их широкому распространению. Достоинства и преимущества данного метода полностью раскрываются тогда, когда есть возможность, проведя исследование, быстро обработать результаты и проанализировать их с тем, чтобы уже при следующей встрече с испытуемым можно было уточнить и проверить возникшие предположения, составить и провести репертуарную решетку другого тина, а если это необходимо, и дополнить прежнюю, изменив репертуар элементов или выборку конструктов.



5.2.2. Методы выявления конструктов

Метод минимального контекста
Метод минимального контекста или метод триад наиболее часто используется для выявления конструктов. Элементы представляются в группах по три. Это минимальное число, которое позволяет определить сходство и различие.
Испытуемому предъявляются три элемента из всего списка и предлагается назвать какое-нибудь важное качество, по которому два из них сходны между собой и, следовательно, отличны от третьего. После того как экспериментатор запишет ответ, испытуемого просят назвать, в чем конкретно состоит отличие третьего элемента от двух других (если испытуемый не указал, какие именно два элемента были оценены как сходные между собой, то его просят сделать это). Ответ на этот вопрос и представляет собой противоположный полюс конструкта. Испытуемому предъявляется столько триад элементов, сколько сочтет нужным экспериментатор. Специфических правил не существует. Все зависит лишь от величины выборки, то есть от числа конструктов, подлежащих исследованию.

Пример 5.3
Имеется список из названий фруктов. Берется триада «яблоко-груша-апельсин». Респондент выделяет два сходных объекта — «яблоко и груша»; качество, определяющее сходство, — «отсутствие аллергической реакции у респондента», отличие третьего объекта — «аллергичность». Так выявлен личностный конструкт «аллергичиость/отсутствие таковой».

Другие методы выявления конструктов
Франселла и Баннистер [Франселла, Баннистер, 1987] описывают методы, которые также используют триады:
• последовательный метод;
• метод самоидентификации;
• метод ролевой персонификации.
В двух последних методах в триаду включается элемент «я сам».
Келли предложил использовать триады для выявления конструктов, поскольку этот метод отражал его теоретические представления о том, как конструкты впервые возникают. Однако в связи с тем, что у испытуемого выявляются уже сложившиеся конструкты, не обязательно использовать непременно три элемента. Триада не является единственным способом выявления противоположного полюса.
Для выявления конструктов можно использовать два элемента (выявление конструктов при помощи диад элементов) или более, чем три, как это делается в методе полного контекста [Франселла, Баннистер, 1987].
Часто используемый метод — техника лестничного спуска Хинкла:
• конструкты извлекаются стандартным методом;
• по поводу отдельного конструкта задается вопрос «К какому полюсу данного конструкта вы бы хотели быть отнесены?»;
• затем: «Почему вы предпочитаете этот полюс?», «Что противостоит этому?».
Таким образом, получается новый конструкт, более обобщенный, чем исходный. Процесс повторяется, и выделяется иерархия конструктов.

5.2.3. Анализ репертуарных решеток

Анализ репертуарных решеток позволяет определить силу и направленность связей между конструктами респондента, выявить наиболее важные.и значимые параметры (глубинные конструкты), лежащие в основе конкретных оценок и отношений, построить целостную подсистему конструктов, позволяющую описывать и предсказывать оценки и отношения человека.

Анализ единичной репертуарной решетки
Можно использовать форму кластерного анализа для группировки конструктов. Этот алгоритм структурирует конструкты в линейный порядок, так что конструкты, находящиеся близко в пространстве, также оказываются близки в порядке. Этот алгоритм имеет преимущество при демонстрации, так как представление просто реорганизует решетку, показывая соседства конструктов и элементов.
Таким образом, формируются две матрицы — одна для элементов, другая для конструктов. Кластеры определяются выбором наибольших значений в этих матрицах — то есть наиболее связанных составляющих матрицы, — до тех пор пока все элементы и конструкты не оказываются включенными в кластерное дерево. Программа производит иерархическую кластеризацию системы конструктов эксперта и представляет извлеченные знания.
Кроме того, для каждого конструкта имеются численные значения в решетке как вектор величин, связанных с расположением элементов относительно полюсов данного конструкта. С этой точки зрения каждый конструкт может быть представлен как точка в многомерном пространстве, а его плоскость определяется числом связанных с ним элементов. Естественной мерой отношений между конструктами является, следовательно, расстояние между ними в этом многомерном пространстве. Два конструкта с нулевым расстоянием между ними — это конструкты, по отношению к которым элементы структурируются совершенно одинаково. Следовательно, можно считать, что они используются одинаково. В каком-то смысле это эквивалентные конструкты.
Для неэквивалентных конструктов можно анализировать их пространственные отношения, определяя ряд осей как проекцию каждого конструкта на ось, наиболее удаленную от них, проекцию на вторую ось, связанную с оставшимися расстояниями, и т. д. Это метод анализа главных компонент пространства конструктов. Он связан с факторным анализом семантического пространства, использованного в изучении семантического дифференциала. Метод анализа главных компонент позволяет представить элементы и конструкты так, что между ними могут быть выявлены взаимосвязи. Возможно построить логический анализ репертуарной решетки, используя конструкты как предикаты относительно элементов.

Анализ нескольких репертуарных решеток
Довольно часто возникает ситуация, когда требуется сравнить несколько репертуарных решеток. Анализ серии репертуарных решеток, заполняемых одним и тем же человеком в разные моменты времени, позволяет следить за динамикой конструктов и оценок, строить траектории изменения состояния человека в системе его собственных субъективных шкал.
Проанализируем несколько репертуарных решеток, заполняемых разными людьми.
Анализ пар системных конструктов используется для измерения согласия и понимания между людьми. Для этого два эксперта, имеющие разные точки зрения, создают и заполняют решетки по общей области знаний. При этом каждый независимо от другого выбирает элементы, выявляет конструкты и оценивает их. Затем каждый делает две пустые копии своей решетки, оставляя элементы и конструкты без значений их оценки. Обе эти решетки заполняются партнерами. При этом одна заполняется так, как он сам себе это представляет, а вторая так, как он представляет себе заполнение оригинальной решетки ее автором. Сравнение пар решеток помогает достигнуть соглашения и понимания между двумя людьми.
Существуют три способа сравнения двух решеток.
1. Сцепление решеток, имеющих общие элементы, и их последующая обработка одним из описанных алгоритмов, как если бы они составляли одну большую решетку. Таким образом, можно исследовать взаимодействие идей через проверку смешанных кластеров конструктов из разных решеток.
2. Данный путь требует наличия двух решеток с одинаковыми именами элементов и конструктов и показывает расхождения между ними через измерение расстояния между одними и теми же именами. Результаты показывают согласие в понимании и выявляют различия между двумя решетками, основанными на одинаковых именах и конструктах.
3. Данный способ также использует две решетки с одинаковыми именами элементов и конструктов, находит наиболее сильно изменяющиеся элементы и конструкты и удаляет их из решетки. Таким образом, определяются базовые элементы и конструкты, которые показывают согласие и понимание.
Анализ групп системных конструктов. Анализируется серия репертуарных решеток, полученная от группы людей, использовавших одинаковые элементы. Сравнивается каждая пара и показывается «групповая сеть», которая отражает связи сходных конструктов внутри группы. Создается решетка, отражающая конструкты, которые понимаются большинством группы, и это служит основанием дальнейшего анализа. Каждый конструкт, неиспользованный в рамках группы, оценивается по силе связанности с другими конструктами.



5.2.4. Автоматизированные методы

Данный параграф посвящен обзору некоторых наиболее известных, методов и систем приобретения знаний на основе метода репертуарных решеток, частично из работ [Осипов, 1990; Молокова, 1992; Осипов,1997].
Впервые автоматизированное создание репертуарных решеток и извлечение из экспертов конструктов было реализовано в системе PLANET [Games, Shaw, 1984; Shaw, Woodward, 1988]. Дальнейшим развитием системы PLANET является интегрированная среда KITTEN, поддерживающая ряд методов извлечения знаний. Буза Д. в системе ETS [Boose, 1985] использовал метод репертуарных решеток для выявления понятийной системы предметной области. Потомками ETS являются система NeoETS и интегрированная среда для извлечения экспертных знаний AQUINAS [Boose, Bradshaw, Shema, 1988].
Известно большое число прототипов ЭС, для создания которых использовалась ETS. Среди них:
1. Советчик по выбору инструментария для разработчиков ЭС.
2. Консультант по языкам программирования.
3. Анализатор геологических данных.
4. Советчик по отладке Фортрантрограмм.
5. Консультант по СУБД и др.
Однако область применения ETS ограничена извлечением экспертных знаний для таких несложных задач анализа, которые не требуют для своего решения процедурных, каузальных и стратегических знаний.
ETS взаимодействует с экспертом в диалоговом режиме, интервьюируя его и помогая анализировать создаваемую БЗ. В архитектуре ETS могут быть выделены подсистемы: извлечения элементов; выявления конструктов; построения репертуарной решетки; построения графа импликативных связей; генерации продукционных правил; тестирования БЗ; коррекции БЗ; генерации БЗ для различных инструментальных средств создания ЭС.
В диагностической системе MORE [Kahn, Nowlan, McDerraott, 1985] использованы принципы, сходные с теми, которые лежат в основе обеих описанных выше систем. Здесь впервые использовано несколько различных стратегий интервью. Техника интервью, использованная в MORE, направлена на выявление следующих сущностей:
• гипотезы — подтверждение которых имеет своим результатом диагноз;
• симптомы — наблюдение которых приближает последующее принятие гипотезы;
• условия — некоторое множество событий, которое не является непосредственно симптоматическим для какой-либо гипотезы, но которое может иметь диагностическое значение для некоторых других событий;
• связи — соединение сущностей;
• пути — выделенный тип связи, который соединяет гипотезы с симптомами.
В соответствии с этим в системе используются следующие стратегии интервью: дифференциация гипотез, различение симптомов, симптомная обусловленность, деление пути и некоторые другие.
Стратегия дифференциации гипотез направлена на поиск симптомов, которые обеспечивают более точное различие гипотез. Наиболее мощными в этом смысле являются те симптомы, которые наблюдаются при одном диагностируемом событии.
Стратегия различения симптомов выявляет специфические характеристики симптома, которые, с одной стороны, идентифицируют его как следствие некоторой гипотезы, с другой — противопоставляют другим.
Стратегия симптомной обусловленности направлена на выявление негативных симптомов, то есть симптомов, отсутствие которых имеет больший диагностический вес, чем их присутствие.
Стратегия деления пути обеспечивает нахождение симптоматических событий, которые лежат на пути к уже найденному симптому. Если такой симптом существует, то он имеет большее диагностическое значение, чем уже найденный.
В системе KRITON [Diderich, Ruhman, May, 1987] (см. п. 4.6.4) для приобретения знаний используются два источника: эксперт с его знаниями, полученными на практике; книжные знания, документы, описания, инструкции (эти знания хорошо структурированы и фиксированы традиционными средствами). Для извлечения знаний из первого источника в KRITON применена техника интервью, использующая стратегии репертуарной решетки разбиения на ступени. Стратегия разбиения на ступени направлена на выявление наследственной структуры предметной области. Акцент делается на выявлении структуры родовых и видовых понятий (супертипов). При этом типы, выявленные на очередном шаге работы стратегии, становятся базисом для последующего ее применения.
В системе применен прием переключения стратегий: если при работе стратегии репертуарной решетки при предъявлении тройки семантически связанных понятий эксперт не в состоянии назвать признак, отличающий два из них от третьего, система запускает стратегию разбиения на ступени и, задавая эксперту вопросы о понятиях, связанных с предыдущими отношениями «род — вид», предпринимает попытку выяснения таксономической структуры этих понятий с целью выявления признаков, их различающих.
В России существенные результаты в применении репертуарных решеток в инженерии знаний были получены под руководством Г. С. Осипова в рамках проекта SIMER+MIR (см. п. 4.6.5).

5.3. Управление знаниями

5.3.1. Что такое «управление знаниями»

Следует иметь в виду, что знаниями в контексте данного параграфа называют не только знания, но и данные по определениям в главе 1 данного учебника. Понятие «управление знаниями» (КМ — Knowledge Management) появилось в середине 90-х годов в крупных корпорациях, где проблемы обработки информации приобрели особую остроту и стали критическими. При этом стало очевидным, что основным узким местом является обработка знаний, накопленных специалистами компании, так как именно знания обеспечивают преимущество перед конкурентами. Часто информации в компаниях накоплено даже больше, чем они в состоянии обработать. Различные компании пытаются решать этот вопрос по-разному, но при этом каждая компания стремится увеличить эффективность обработки знаний [Macintosh, 1997].
Ресурсы знаний различаются в зависимости от отраслей индустрии и приложений, но, как правило, включают руководства, письма, новости, информацию о заказчиках, сведения о конкурентах и данные, накопившиеся в процессе разработки. Для применения КМ-систем используются разнообразные технологии:
• электронная почта;
• базы и хранилища данных (Data Wharehouse);
• системы групповой поддержки;
• броузеры и системы поиска;
• корпоративные сети и Интернет;
• экспертные системы и базы знаний; интеллектуальные системы.
Традиционно проектировщики систем КМ ориентировались лишь на отдельные группы потребителей — главным образом менеджеров. Более современные КМ-системы спроектированы уже в расчете на целую организацию.
Хранилища данных, которые работают по принципу центрального склада, были одним из первых инструментариев КМ. Как правило, хранилища содержат многолетние версии обычной БД, физически размещаемые в той же самой базе. Когда все данные содержатся в едином хранилище, изучение связей между отдельными элементами может быть более плодотворным.
При этом активы знаний могут находиться в различных местах: в базах данных, базах знаний, в картотечных блоках, у специалистов и могут быть рассредоточены по всему предприятию. Слишком часто одна часть предприятия повторяет работу другой части просто потому, что невозможно найти и использовать знания, находящиеся в других частях предприятия.

Необходимость разработки систем КМ обусловлена следующими причинами:
• работники предприятия тратят слишком много времени на поиск необходимой информации;
• опыт ведущих и наиболее квалифицированных сотрудников используется только ими самими;
• ценная информация захоронена в огромном количестве документов и данных, доступ к которым затруднен;
• дорогостоящие ошибки повторяются из-за недостаточной информированности и игнорирования предыдущего опыта.
Важность систем КМ обусловлена также тем, что знание, которое не используется и не возрастает, в конечном счете становится устаревшим и бесполезным, так же, как деньги, которые сохранены без того, чтобы стать оборотным капиталом, в конечном счете теряют свою стоимость, пока не обесценятся. Напротив, знание, которое распространяется, приобретается и обменивается, генерирует новое знание.

5.3.2. Управление знаниям и корпоративная память

Большинство обзоров концепции управления знания (КМ) уделяет внимание только первичной обработке корпоративной информации типа электронной почты, программного обеспечения коллективной работы или гипертекстовых баз данных (например [Wiig, 1996]). Они формируют существенную часть из необходимой, но определенно не достаточной технической инфраструктуры для управления знаниями.
Одним из новых решений по управлению знаниями является понятие корпоративной памяти (corporate memory), которая по аналогии с человеческой памятью позволяет пользоваться предыдущим опытом и избегать повторения ошибок.

Корпоративная память не позволяет исчезнуть знаниям выбывающих специалистов (уход на пенсию, увольнение и пр.). Она хранит большие объемы данных, информации и знаний из различных источников предприятия. Они представлены в различных формах, таких как базы данных, документы и базы знаний (рис. 5.7).
Введем два уровня корпоративной памяти (так называемые явные и неявные знания [Nonaka, Takeuchi, 1995]).
Уровень 1. Уровень материальной или явной информации — это данные и знания, которые могут быть найдены в документах организации в форме сообщений, писем, статей, справочников, патентов, чертежей, видео- и аудиозаписей, программного обеспечения и т. д.
Уровень 2. Уровень персональной или скрытой информации — это персональное знание, неотрывно связанное с индивидуальным опытом. Оно может быть передано через прямой контакт — «с глазу на глаз», через процедуры извлечения знаний (см. главу 3). Именно скрытое знание — то практическое знание, которое является ключевым при принятии решения и управлении технологическими процессами.



Рис. 5.7. Данные и знания в системах корпоративной памяти

В действительности эти два типа информации, подобные двум сторонам одной и той же медали, одинаково важны в структуре корпоративной памяти (см. рис. 5.7). При разработке систем КМ можно выделить следующие этапы:
1. Накопление. Стихийное и бессистемное накопление информации в организации.
2. Извлечение. Процесс, идентичный традиционному извлечению знаний для ЭС (см. главы 2 и 3). Это один из наиболее сложных и трудоемких этапов. От его успешности зависит дальнейшая жизнеспособность системы.
3. Структурирование. На этом этапе должны быть выделены основные понятия, выработана структура представления информации, обладающая максимальной наглядностью, простотой изменения и дополнения.
4. Формализация. Представление структурированной информации в форматах машинной обработки, то есть на языках описания данных и знаний.
5. Обслуживание. Под процессом обслуживания понимается корректировка формализованных данных и знаний (добавление, обновление): «чистка», то есть удаление устаревшей информации; фильтрация данных и знаний для поиска информации, необходимой пользователям.
Если первые четыре этапа обычны для инженерии знаний, то последний является специфичным для систем управления знаниями.
Как уже было сказано, он распадается на три более мелких процесса:
• Корректировка формализованных знаний (добавление, обновление).
• Удаление устаревшей информации.
• Фильтрация знаний для поиска информации, необходимой пользователю, выделяет компоненты данных и знаний, соответствующие требованиям конкретного пользователя. При помощи той же процедуры пользователь может узнать местонахождение интересующей его информации.
Рассмотренная выше классификация не является единственной, но она позволяет понять, что происходит в реальных системах управления знаниями.

5.3.3. Системы OMIS

Автоматизированные системы КМ, или Organizational Memory Information Systems (OMIS), предназначены для накопления и управления знаниями предприятия [Kuehn and Abecker, 1998]. OMIS включают работу как на уровне 1 — с явным знанием компании в форме баз данных и электронных архивов, так и на уровне 2 — со скрытым знанием, фиксируя его в некотором (более или менее формальном) представлении в форме экспертных систем [Wiig, 1990] или БД.
OMIS часто используют вспомогательные справочные системы, так называемые helpdesk-приложения.
Основные функции OMIS:
• Сбор и систематическая организация информации из различных источников в централизованное и структурное информационное хранилище.
• Интеграция с существующими автоматизированными системами [Conklin, 1996]. На техническом уровне это означает, что корпоративная память должна быть непосредственно связана с помощью интерфейса с инструментальными средствами, которые в настоящее, время используются в организации (например, текстовые процессоры, электронные таблицы, системы).
• Обеспечение нужной информации по запросу (пассивная форма) и при необходимости (активная форма). Слишком частые ошибки — это следствие недостаточной информированности. Этого невозможно избежать с помощью пассивной информационной системы, так как служащие часто слишком заняты, чтобы искать информацию, или просто не знают, что нужная информация существует. Корпоративная память может напоминать служащим о полезной информации и быть компетентным партнером для совместного решения задач.
Конечная цель OMIS состоит в том, чтобы обеспечить доступ к знанию всякий раз, когда это необходимо. Чтобы обеспечить это, OMIS реализует активный подход распространения знаний, который не полагается на запросы пользователей, а автоматически обеспечивает полезное для решения задачи знание. Чтобы предотвращать информационную перегрузку, этот подход должен быть совмещен с высокой выборочной оценкой уместности. Законченная система должна действовать как интеллектуальный помощник пользователю,
Использование корпоративной памяти часто преследует более умеренные цели, чем использование ЭС. Это связано с тем, что технологии обработки данных (баз данных и гипертекстовых систем) применяются гораздо шире, чем технологии систем, основанных на знаниях. OMIS сохраняют и обеспечивают выдачу по запросу нужной информации, но оставляют ее интерпретацию и оценку в специфическом контексте задачи главным образом пользователю.
С другой стороны, корпоративная память расширяет эти технологии работой со знаниями, чтобы улучшить качество решения задач. Так OMIS включает подсистемы объяснений, которые позволяют непосредственно отвечать на вопросы: «Почему?» и «Почему нет?». В простой базе данных или гипертекстовой системе пользователи должны были бы искать нужную информацию для ответа на такие вопросы непосредственно, а для этого необходимо отфильтровать большое количество потенциально нужной информации, которая, однако, не будет применяться в специфическом случае.
Наконец, OMIS не только выдает информацию, но должна также быть всегда готовой воспринимать новую информацию от ее пользователей.
Рисунок 5.8 представляет архитектуру для OMIS и корпоративной памяти (частично из работы [Borghoff and Pareschi, 1998]). Ядром системы является Информационное хранилище (Information Depository). Рисунок также дает представление о некоторых видах информации, которая включается в корпоративную память.


Рис. 5.8. Архитектура OMIS

Если хранилища данных содержат в основном количественную информацию, то хранилища знаний больше ориентированы на качественный материал. КМ-сис-темы генерируют системы из широкого диапазона данных, хранилищ данных, статей новостей, внешних баз, WWW-страниц.
Программный инструментарий для OMIS включает как оригинальные разработки, например KARAT [Tschaitschian, 1997], так и стандартные средства, например, LOTUS NOTES обеспечила один из первых инструментариев хранения качественно и документальной информацией. Однако сегодня в связи с бурным развитием Интернета, КМ-системы все чаще используют Web-технологию.

5.3.4. Особенности разработки OMIS

Так как разработка систем корпоративной памяти — это прежде всего программный проект, то для нее применимы традиционные технологии разработки больших программных систем. В каждом программном проекте первым шагом в разработке является анализ требований, в котором должны быть найдены ответы на следующие вопросы:
• Какие задачи должны поддерживаться?
• Какая информация необходима, чтобы решить эти задачи?
• Какой тип поддержки желателен пользователями?
• Каков уровень затрат на разработку?

<< Предыдущая

стр. 12
(из 26 стр.)

ОГЛАВЛЕНИЕ

Следующая >>