<< Предыдущая

стр. 78
(из 82 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

Современные поисковые системы становятся все более интеллектуальными, что,
однако, не должно ослаблять безопасность доступа к информации. Использо­
вание стохастической информационной технологии [1-3] позволяет комплексно
повысить «интеллект» поисковой системы без ослабления ее защищенности. Это
стало возможно за счет случайного кодирования и хэпгарования символьной ин­
формации с целью ее адаптации к конкретной компьютерной среде. В работе
[2] доказана возможность создания на основе новой технологии интеллектуаль­
ных систем точного поиска, реализующих функции извлечения знаний из тек­
стов и формирования ответов, релевантных запросам пользователей. Вместе с
тем, применение стохастической информационной технологии позволяет решить
и другую задачу — обеспечение безопасного поиска зашифрованной текстовой
информации различного уровня конфиденциальности. При этом создается за­
мкнутый безопасный поисковый контур. Запрос, поступивший от пользователя,
шифруется и передается в поисковую машину, где, не распхифровываясь, под­
вергается дополнительному шифрованию. Это обеспечивает реализацию про­
цедуры интеллектуального поиска на залп1фрованных текстовых документах,
не раскрывая их содержания. Полученный ответ, релевантный запросу, также
будет зашифрован, передан по линии связи и расшифрован на рабочем месте
пользователя. Таким образом, исключается возможность доступа к информа­
ции, хранящейся в текстовых документах поисковой системы, а также доступ к
содержанию вопросов и ответов, передаваемых по сети. Это открывает новые
возможности в области создания безопасных поисковых систем, работаюпщх с
конфиденциальной информацией.

Д . 1.2. Стохастическая технология и семантический анализ
текста
Применение стохастической информационной технологии позволяет комплексно
репхать проблему реализации точного поиска и обеспечения безопасности ин-
ДЛ. Зашифрованные поисковые системы


формации. Под точным поиском понимается нахождение системой ответа, реле­
вантного запросу пользователя. При этом запрос формулируется на естествен­
ном языке в виде вопросительного предложения. Точный поиск предполагает
нахождение ответа с максимально возможной релевантностью — мерой, опреде­
ляющей, насколько полно тот или иной документ отвечает критериям, которые
указаны в запросе. Как показано в [2], точный поиск может быть получен в виде
одного предложения текста (краткий ответ) или группы предложений (подроб­
ный ответ). При этом критерием релевантности является возможность эквива­
лентного преобразования с помощью интеллектуальной обработки полученного
ответа к виду запроса. Если такое преобразование возможно, то полученный
ответ считается в полной мере релевантным запросу или точным. В противном
случае производится попытка повторного формирования ответа с использовани­
ем дополнительной текстовой информации. Если получение указанного ответа
на предоставленном объеме текстовой информации невозможно, то считается,
что в данном случае точный ответ не может быть получен.
Точный ответ либо непосредственно содержится в текстовой информации в
виде одного или нескольких предложений, либо на основе имеющейся информа­
ции происходит извлечение знаний из документов и формируются новые пред­
ложения, релевантные запросу, которых в явном виде в тексте нет. Важнейшую
роль в этом процессе играют семантический анализ текстовой информации и
логическая обработка фрагментов текста с целью получения новых, семанти­
чески связанных текстовых структур, соответствующих требованиям точного
ответа.
Основные принципы построения и функционирования системы точного по­
иска на основе стохастической информационной технологии подробно описаны
в [2, 5], а в данном материале мы более детально опишем реализацию семантиче­
ского анализа и логической обработки текстовой информации в зашифрованном
виде с целью формирования точного ответа.
В общем случае зашифрованная система точного поиска включает базу за­
шифрованных текстовых документов и криптографически защищенные сред­
ства ее интеллектуальной обработки: стохастически индексированные базы зна­
ний грамматического и семантического анализа, базы знаний, определяющие
правила эквивалентного преобразования, подсистему логического вывода и би­
блиотеку прикладных зашифрованных программ, непосредственно реализующие
функции поиска и обработки стохастически преобразованной информации. Вы­
полнение программ также осуществляется в зашифрованном виде, что в соче­
тании с зашифрованной обработкой информации создает комплексную защиту
системы от хакеров, программных закладок и вирусов [3, 7].
При формировании базы текстовых документов поисковой системы произ­
водится стохастическое кодирование символьной информации. Стохастическое
индексирование выполняется с использованием специальной хэш-функции. Эта
хэш-функция обеспечит преобразование различных элементов текстовой инфор­
мации в их хэш-значения, представленные в виде двоичной комбинации задан­
ной длины, которые принимаются в качестве стохастических индексов. За счет
свойств хэш-функции и выбора длины комбинации индекса достигается их га­
рантированная уникальность для различных элементов текста со сколь угодно
малой заданной вероятностью коллизий [1]. При этом сначала формируются сто­
хастические индексы отдельных слов (их основ), которые затем используются
для получения индексов словосочетаний, входящих в предложения текста, и са­
мих предложений. На основе стохастических индексов предложений получают
ДЛ.З. Логический вывод па основе стохастической технологии


индексы абзацев. Названия глав, разделов и самих текстовых документов также
преобразуют в соответствуюпще стохастические индексы.
Полученные индексы обеспечивают произвольный доступ к соответствую­
щим элементам и структурам текстовой информации, которые при этом сто­
хастически кодируются с использованием одноразовой системы шифрования с
открытой передачей ключей [3]. Ключи, применяемые при шифровании текстов,
записываются в конце каждого зашифрованного предложения. Для перевода
слов или словосочетаний из одной системы шифрования в другую используют­
ся процессы перекодирования символьной информации без раскрытия ее содер­
жания [7]. Для раскодирования текстовой информации имеются соответствую­
щие декодеры. При этом система формирования и передачи одноразовых откры­
тых ключей обеспечивает реализацию в реальном времени описанных функций
кодирования, перекодирования и декодирования текстовой информации. Отме­
тим, что после каждого обращения к соответствующему массиву зашифрован­
ного текста происходит его перешифровка с использованием нового открытого
ключа.
В предложенной системе стохастической индексации формирование индек­
сов непосредственно на основе самих символьных объектов обеспечивает воз­
можность ввода новых, исключения старых объектов, изменения порядка их
следования, а также модификацию сетевых структур баз знаний в реальном мас­
штабе времени. При этом происходит автоматическая модификация только тех
структур, которые непосредственно связаны с вновь вводимыми или исключа­
емыми объектами без изменений всей индексной системы. В этом принципи­
альное отличие стохастического индексирования от регулярного индексирова­
ния текстовых документов, при котором любое изменение состава символьных
объектов или их связей требует полной реструктуризации системы. Получен­
ная стохастическая индексная система является открытой к изменению состава
и содержания поисковой системы в процессе ее функционирования, что делает
возможным применение широкой адаптации индексирования к процессам поис­
ка для повьппения скорости обработки при проведении семантического анализа
текстов. Например, в ходе анализа часто возникает необходимость поиска со­
ответствующих фрагментов текста не только по отдельным словам, но и по
словосочетаниям, определяющем различные термины, понятия, предикативную
основу, а также другие типы отношений в предложении. Для этого в системе
реализована возможность быстрого перехода от индексов отдельных слов к ин­
дексам указанных словосочетаний. В результате обеспечивается произвольный
доступ к текстовой информации с целью нахождения нужных предложений, а
также выполнение функций логического вывода, классификации и рубрикации
текстов. Индексные таблицы автоматически модифицируются для включения
строк, связывающих индексы отмеченных словосочетаний с индексами соответ-
ствуюпщх предложений абзацев и текстов. За счет этого повьппается скорость
реализации семантического анализа.

Д. 1.3. Логический вывод на основе стохастической
технологии
Все перечисленное относится также к построению и функционированию баз
знаний, основанных на стохастически индексированных правилах продукций.
Применение стохастических индексов предикатов, процедур и правил позволя­
ет образовывать сетевые структуры, в которых время логического вывода ли­
нейно зависит от числа используемых правил продукций. При этом полностью
Д.1. Зашифрованные поисковые системы


снимается проблема «комбинаторного взрыва», характерного для существующих
продукционных систем, и обеспечивается реальное время логической обработ­
ки независимо от объема базы знаний. Образованная сетевая структура правил
продукций является открытой к изменению их состава и содержания. Часто ис­
пользуемые цепочки правил могут быть преобразованы в одно правило путем
их агрегации, что повьппает скорость обработки информации текстов при се­
мантическом анализе и поиске. Отметим, что построение правил продукций на
основе стохастических индексов априори шифрует содержание правил и логику
их обработки.
Рассмотрим пример стохастического преобразования правил продукций и
выполнения логического вывода в зашифрованном виде.
Два правила из базы знаний семантического анализа, связанных с определе­
нием обстоятельства места (каждый предикат, входяпщй в первое или второе
правило, имеет соответствующий номер):

1. Если в предложении имеется словосочетание, (Д. 1.1)
и это словосочетание включает глагол, (Д. 1.2)
и этот глагол относится к глаголам класса движения, (Д. 1.3)
и это словосочетание включает существительное, (Д. 1.4)
и это существительное относится к существительным
класса пространства, (Д1-5)
то словосочетание, включающее глагол и существительное,
относится к типу пространственных отношений. (Д. 1.6)
2. Если словосочетание, включающее глагол и существительное,
относится к типу пространственных отношений, (Д. 1.7)
то существительное данного словосочетания относится к
обстоятельству места. (Д. 1.8)

Шифрование указанных правил производится с использованием хэш-функ­
ций. В результате каждый предикат с номером (г, j) будет преобразован в уни­
кальный стохастический индекс /if- — двоичную комбинацию заданной длины.
Каждое правило продукций с номером i будет преобразовано в стохастический
индекс /if^ . В силу свойств односторонности хэш-функции восстановить исход­
ное содержание предиката и правила продукций по полученному стохастическо­
му индексу невозможно. Для исключения подбора исходного текста по известной
хэш-функции перед формированием стохастического индекса текстовая инфор­
мация может быть предварительно зашифрована.
Раскрытие содержания указанных текстовых элементов осуществляется с
использованием секретного словаря, который хранится в зашифрованном виде.
Доступ к соответствующей строке секретного словаря производится по индек­
су /if-. Эта строка /if- описывает содержание данного предиката в текстовом
защищенном виде. После шифрования правила примут следующий вид:
т(РР) . г(р) л Т^Р^ л Т^Р^ л Т^Р^ А Т^Р^ «^ Т^Р^-

т(РР) . т(р) . т(р)


Анализируя правила продукций (1) и (2), представленные в текстовом виде,
можно увидеть, что предикаты (Д. 1.6) и (Д. 1.7) идентичны по содержанию (без
союза «если... то», который играет формальную роль). Поэтому оба правила при
логическом выводе образуют связанную цепочку через отмеченный идентичный
предикат. Учитывая свойства хэш-функции после шифрования данных правил.
д. 1.4- Семантический анализ зашифрованных текстов


индексы /i^e ,и РЛ[ также будут идентичными. В итоге указанные правила в
г(р) , г(р)
захоифрованном виде образуют логическую цепочку:
^ т{рр) ^ /-(р)
ЛРР)



Здесь предикат 1Л21 являясь заключением логической цепочки, определяет тип
обстоятельства в защищенном виде. Результат логического вывода может быть
расшифрован с использованием функции обращения по индексу /^22 к секрет­
ному словарю предикатов. Так как данный словарь зашифрован с применением
одноразовой системы шифрования, расшифровка указанного предиката произ­
водится в декодере с использованием соответствующего открытого ключа.

Д . 1.4. Семантический анализ зашифрованных текстов
Как известно, цель семантического анализа — анализ смысла составных частей
каждого предложения [4]. Для этого в описываемой интеллектуальной поиско­
вой системе используется процесс извлечения знаний из лингвистической ли­
тературы. Применяются стохастически индексированные толковые и семанти­
ческие словари, проблемно-ориентированные словари терминов и определений,
энциклопедии, справочники, учебные пособия и др. За счет этого реализуется
режим самообучения поисковой системы с использованием логического выво­
да в указанных текстах, с автоматическим накоплением знаний для проведения
грамматического и семантического анализа [2]. Сформированные базы знаний
содержат как процедурные знания в виде правил продукций, так и семантиче­
ские сети, включающие термины и наименования объектов предметной области,
предикативные основы предложений текста, а также словосочетания, описыва­
ющие типы отношений в каждом предложении.
Отметим, что уровень семантического анализа зависит от требований точ­
ного поиска. Исходя из этого, классификация объектов и отношений между ни­
ми, представленная в словосочетаниях каждого предложения текста, является
определяющей. Процесс классификации осуществляется автоматически путем
реализации логического вывода в стохастически индексированных толковых,
семантических словарях, а также в словарях терминов и определений. Пред­
варительно проведенное стохастическое индексирование указанных текстовых
документов позволяет по индексу основы слова, представляющего некоторое
понятие, по индексу словосочетаний, определяющих типы отношений данного
предложения, получить произвольный доступ к соответствуюпщм статьям сло­
варя, где определены указанные элементы текста. Далее по индексам понятий
и словосочетаний, которые входят в указанные определения, логический вывод
может быть продолжен путем доступа к другим статьям текста, описывающим
их. В итоге будут генерироваться дерево или цепочки логического вывода, ре­
ализуемые с помош;ью индексов указанного текстового документа, до тех пор,
пока исходное понятие или словосочетание не будет сведено к базовым поняти­
ям пространства, времени, причины, цели, образа действия, меры или степени
и др. Глаголы, представляюпще сказуемое, соответственно, будут отнесены к
классам глаголов движения, перемещения, конкретного действия, физического
или душевного состояния, мыслительно-речевого действия, а также других су­
ществующих классов глаголов. При этом на основе классификации понятий и
терминов, описываюпщх объекты предметной области, а также типы отноше­
ний между ними, с использованием правил продукций представленной выше базы
знаний точно определяются члены каждого предложения.
Д.1. Зашифрованные поисковые системы


Разберем пример классификации глаголов и существительных некоторого
исходного предложения, которое включает словосочетание, содержащее глагол
и существительное.
Возьмем предложение «Мальчик бежит полем», как пример, иллюстрирую­
щий применение правил продукций для определения типа обстоятельства, ко­
торое выражено существительным. Сначала проанализируем это предложение
в незапгафрованном виде. Выберем словосочетание «бежит полем», содержащее
глагол «бежит» и существительное «полем». Переведем глагол «бежит» в неопре­
деленную форму «бежать». Для доказательства того, что этот глагол входит в
класс глаголов движения, сначала обратимся к толковому словарю (Ожегов С И .
Словарь русского языка. — М.: Сов. Энциклопедия, 1973. — 846 с ) :

С.39. Б е ж : а т ь (...) 1. Двигаться быстрым, резко отталкивающимся от зем­
ли шагом.

Как видим, в соответствии с толковым словарем глагол «бежать» определяется
глаголом «двигаться». Далее с помощью правила эквивалентного преобразования
глагола в существительное преобразуем глагол «двигаться» в существительное
«движение». Правило эквивалентного преобразования: если требуется преобра­
зовать глагол в неодушевленное существительное, то сначала выделяем основу
глагола, обращаемся к формату словаря, ищем неодушевленное существитель­
ное, основа которого имеет обшую часть, включаюшую корень (возможно, с

<< Предыдущая

стр. 78
(из 82 стр.)

ОГЛАВЛЕНИЕ

Следующая >>