<< Предыдущая

стр. 79
(из 82 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

приставкой или с суффиксом, с введением новых согласных, с их чередованием),
с основой преобразуемого глагола, после этого, используя общую часть их основ,
заменяем суффикс -а(тъ), -и(тъ) преобразуемого глагола на суффикс неодуше­
вленного существительного -ени(е): двигать (ел) — двиэюение.
Преобразовав глагол «двигаться» в существительное «движение», которое со­
впадает с названием класса глаголов, можно сделать вывод, что глагол «бежать»
относится к классу движения.
Обратимся теперь к существительному «полем». Переведем данное существи­
тельное в именительный падеж. Для докгизательства того, что существительное
«поле» относится к существительным класса пространства опять обратимся к
толковому словарю:

С.507. П о л е (...) 1. Безлесная равнина, прост,ранство.

Из определения следует, что существительное «поле» относится к существитель­
ным класса пространства. Проведенный анализ доказывает, что в соответствии
с правилом продукций словосочетание «бежать полем»относится к типу про­
странственных отношений. Поэтому, как следует из цепочки логического вы­
вода, существительное «полем» относится к обстоятельству места.
Теперь представим, как описанный процесс семантического анализа можно
произвести с зашифрованным текстом, используя стохастически индексирован­
ный зашифрованный толковый словарь. Обозначим как K{U11) закодированное
слово «бежит», выбранное из указанного зашифрованного предложения. Исполь­
зуя отмеченную процедуру преобразования глаголов, которая представлена в
виде зашифрованной подпрограммы, и применяя перекодер, преобразуем исход­
ный код K{U11) в код K{U12). Этот код соответствует глаголу «бежать». По
полученному коду K{U12) в блоке формирования хэш-функции будет сформи­
рован стохастический индекс этого слова П^2- ^ ^ данному индексу выполняет­
ся произвольный доступ к указанной статье стохастически индексированного
ДЛ.4' Семантический анализ зашифрованных текстов


толкового словаря. Выберем из него код ЛГ(1713), который здесь соответствует
глаголу «двигаться». Затем, используя зашифрованную подпрограмму перево­
да данного кода в код соответствующего ему существительного, получим код
K{Ud). Этот код в данном случае соответствует зашифрованному коду клас­
са глаголов движения. В результате получим следующую цепочку логического
вывода:

K{Ull) • K{U12) • I^^l ^ K{UU) ^ K{Ud).

Для классификации существительного «полем», которое в закодированном
виде обозначим K{U2\)^ будет реализована другая логическая цепочка:

K{U2l) ^ K{U22) >- /^22 ^ K{Up).

Здесь K{U22) — код слова «поле», /^22 — стохастический индекс, образованный
из указанного кода (он используется для доступа к соответствующей статье
стохастически индексированного толкового словаря). Зашифрованное значение
К (Up), найденное в статье словаря, соответствует коду класса пространства.
После определения классов глагола и существительного в закодированном виде
с использованием приведенной цепочки правил продукций будет определен код,
который соответствует обстоятельству места.
Таким образом, в зашифрованном виде может быть проведена классифика­
ция понятий, отношений и определения типов обстоятельств и других членов
предложения. Здесь используются коды слов, их стохастические индексы, за-
ип1фрованные правила продукций и подпрограммы. При этом реализуются за­
шифрованные цепочки логического вывода на множестве правил продукций и
кодов стохастически индексированного словаря.
Семантический анализ является необходимым дополнением синтаксическо­
го, в результате которого члены предложения определяются с недостаточной
точностью, что не отвечает требованиям точного поиска. Главным является то,
что на основе проведенного семантического анализа определяются типы отно­
шений каждого словосочетания (в том числе наиболее сложные, включающие
обстоятельства) в предложении и вопросы, на которые они отвечают.
Все понятия, выраженные словосочетаниями предложения, будут семантиче­
ски представлять конкретные типы отношений, а именно: родо-видовые, «часть -
целое», причинно-следственные, определительные, функциональные, простран­
ственные, временные, образа действия, меры или степени и др. Этим типам
отношений соответствуют конкретные вопросы. Подобному анализу подверга­
ется также вопросительное предложение запроса, поэтому, если в ходе поиска
будет найдено или сформировано предложение, содержащее словосочетание, со­
ответствующее вопросительному слову (словосочетанию) запроса (при условии,
что все остальные словосочетания запроса и данного предложения идентичны),
то это означает, что в процессе поиска получен точный ответ на запрос.
Важным методом определения типа отношений в словосочетании (предика­
тивная основа, включающая подлежащее и сказуемое, словосочетание, связыва­
ющее сказуемое с одним из видов обстоятельств и др.) является образование
нового словосочетания с ключевыми словами, которые позволяют однозначно
определить тип исходного словосочетания. Далее следует проверка корректно­
сти употребления данного сочетания путем обращения к базе текстов для поиска
предложений, содержащих идентичные словосочетания. Если в процессе поиска
по указанным ключевым словам будет найдено одно или несколько предложений.
Д.1. Зашифрованные поисковые системы


включающих сформированное словосочетание, то это позволяет точно опреде­
лить предикативную основу предложения или вид обстоятельства в исходном
словосочетании. Таким образом, возможность обработки в реальном времени
большого количества индексированных текстов позволяет получить новое каче­
ство в виде определения семантики (типа отношения) исходного словосочетания.
Полученные классы предикатов каждого предложения заносятся в концеп­
туальную часть бс1зы знаний текстовых документов по конкретной тематике с
указанием индексов текстов, абзацев и предложений, в которых данные клас­
сы содержатся. Эти данные могут быть представлены как в виде фреймовой
структуры, так и в табличном виде.
Другим важным процессом, который реализуется в ходе семантического
анализа, является рубрикация текстов с точностью до каждого абзаца. Она осу­
ществляется в процессе автоматического анализа терминов, понятий, определе­
ний, а также отношений между ними. На основе этого формируется рубрикатор
текстовых документов с укгьзанием основных терминов и понятий, представлен­
ных в названных документах по данной теме с отметкой индексов текстов и
абзацев, содержание которых посвящено описанию отмеченных объектов пред­
метной области. Кроме указанных классификатора и рубрикатора в ходе грам­
матического и семантического анализа текстов формируются пословные стоха­
стические индексы [2], позволяющие по определенной совокупности ключевых
слов запроса определять индексы текстов, абзацев и предложений, в которых
они содержатся. Таблицы индексов включают все необходимые грамматические
и семантические характеристики каждого предложения, необходимые для по­
дробного анализа текста. Отметим, что эти индексы могут формироваться уже
в процессе поиска ответа на введенный пользователем вопрос, в реальном вре­
мени после выбора с помощью классификатора и рубрикатора текстов, абзацев
и предложений, которые семантически соответствуют поставленному вопросу.
Таким образом, в интеллектуальной информационно-поисковой системе по­
иск проводится в трехмерном пространстве: классификатор, рубрикатор по опре­
деленной теме, индексы текстового документа. При реализации системы в про­
граммно-аппаратном виде все три типа поиска могут выполняться параллельно
в различных процессорах, что обеспечивает существенное (не менее, чем в три
раза) сокращение времени предварительной обработки текстов.
После нахождения абзацев и предложений, соответствующих семантике за­
проса, на основе указанных элементов текста формируется точный ответ. Здесь
используются процедуры образования семантически связанных структур, экви­
валентных преобразований и логического вывода. В результате может быть по­
лучен краткий точный ответ, релевантный запросу.
Опыт разработки и использования поисковых систем показгш, что существу­
ющие словари синонимов не отвечают требованиям точного поиска. Это обу­
словлено тем, что представленные синонимические ряды в нгизванных словарях
оторваны от содержания текстовых документов, поэтому они не могут включать
близкие по смыслу слова, которые необходимы при нахождении точного ответа.
Кроме этого синонимы должны быть согласованы со множеством слов, поня­
тий, терминов словаря по данной тематике, который формируется при индек­
сировании текстов. Указанную проблему решает метод контекстной синонимии
на основе индексируемых текстовых документов [2], позволяющий повысить эф­
фективность интеллектуальной поисковой системы. Для этого применяется ло­
гический вывод по индексированным толковым словарям, словарям терминов и
определений по конкретным темам с использованием вместо индексов отдель-
д. 1.5. Универсальность защищенных поисковых систем


ных слов индексов словосочетаний, в которые они входят. Здесь учитываются
классификация и рубрикация каждого обрабатываемого текста.

Д . 1.5. Универсальность защищенных поисковых систем
в результате применения стохастической информационной технологии интел­
лектуальная поисковая система может одинаково эффективно работать как с
открытыми, так и с зашифрованными текстами. Для реализации точного поис­
ка в зашифрованных текстах документы, подлежапще индексированию, предва­
рительно шифруются с использованием одноразовой системы шифрования [3].
С этой целью применяются стохастический кодер и система формирования от­
крытых и закрытых ключей. Шифрование производится методом стохастиче­
ского кодирования. Зашифрованный текст переводится в специальный формат,
позволяющей выделять отдельные абзацы, предложения, слова и знаки препина­
ния. При этом каждое предложение пп1фруется с помощью одноразового ключа,
который в открытом виде записывается в конце предложения. На основании по­
лученного зашифрованного текста производится формирование описанной систе­
мы индексов отдельных слов, словосочетаний, предложений, абзацев и текстов.
Процесс формирования стохастического индекса заключается в перекоди­
ровании индексируемого элемента текста с помощью перекодера в соответству­
ющий код. С выхода перекодера полученный зашифрованный текст посимволь­
но поступает в блок формирования хэш-функции, который в результате про­
веденной в нем обработки преобразует данный текстовый элемент в уникаль­
ный стохастический индекс — двоичную комбинацию заданной длины. В итоге
все функции интеллектуальной обработки текстовой информации можно реа-
лизовывать с помощью стандартного набора процедур: перекодирование соот-
ветствуюпщх элементов текста, формирование на их основе стохастического
индекса, по которым осуществляется произвольный доступ к требуемым пред­
ложениям зашифрованного текстового документа (в том числе индексированно
за1пифрованных толковых словарей, словарей терминов и определений и другой
стохастически индексированной и зашифрованной текстовой информации).
После доступа к заданному фрагменту текста поиск в нем необходимой ин­
формации осуществляется путем сравнения соответствующих элементов данно­
го запшфрованного текста с исходным или эталонным текстом, после его переко­
дирования — с помопц>ю открытых ключей к виду обрабатываемого зашифро­
ванного текста [3]. В результате, используя типовой формат зашифрованного
текста, могут быть найдены идентичные слова или словосочетания, необходи­
мые для реализации интеллектуальной обработки текстов без раскрытия их со­
держания. Затем на основе найденных слов или словосочетаний формируются
новые индексы для продолжения логической цепочки поиска. При этом могут
быть реализованы все функции стохастической индексации текстов, классифи­
кация и рубрикация терминов, понятий и отношений, логического вывода на
текстовой информации, эквивалентные преобразования слов, словосочетаний и
предложений для формирования точного ответа, представленного в зашифро­
ванном виде.
Декодирование ответа осуществляется в компьютере пользователя, выдав­
шего исходный запрос. При этом передача по линии связи также осуществляется
в зашифрованном виде после необходимого перекодирования зашифрованного
вопроса или ответа.
Приведем пример формирования запроса, обработки текста и получения от­
вета в запп1фрованном виде.
ДЛ, Зашифрованные поисковые системы


Сначала представим запрос, сформированный пользователем, предваритель­
но выбранный абзац в процессе анализа текста и полученный точный ответ в
открытом виде. Именно в таком виде может получить указанную информацию
администратор защищенной поисковой системы после ее расшифрования с по­
мощью мастер-ключа.
Запрос: Какие устройства персонального компьютера называются периферий­
ными?
Предварительно выбранный абзац: Персональный компьютер предназначен для
создания, хранения, обработки и передачи данных. Он состоит из различных бло­
ков и устройств. При этом устройства, расположенные внутри системного блока,
называются внутренними. Устройства, расположенные снаружи, — внешними.
Дополнительные подключаемые внешние устройства относятся к периферийным
устройствам. Принтер для печати информации на бумаге — пример периферий­
ного устройства.
Точный ответ: Дополнительные подключаемые внешние устройства персональ­
ного компьютера (например, принтер для печати информации) называются пе­
риферийными.
В процессе формирования точного ответа в качестве базового было выбрано
следующее предложение: «Дополнительные подключаемые внешние устройства
относятся к периферийным устройствам». Затем, используя отнопхения «часть-
целое», в него было введено словосочетание «персональный компьютер» из перво­
го предложения абзаца в соответствующем падеже (внешние устройства — часть
компьютера). После этого, применяя отношения «род-вид», в базовое предложе­
ние включено словосочетание «принтер для печати информации» из последнего
предложения абзаца (принтер для печати информации относится к классу пери­
ферийных устройств). К этому словосочетанию было добавлено вводное слово
«например». Полученная группа слов «(например, принтер для печати инфор­
мации)» представлена в базовом предложении как вставная конструкция и, со­
ответственно, выделена скобками. Словосочетание «относятся к периферийным
устройствам» заменяется на близкое по смыслу словосочетание «называются пе­
риферийными устройствами». В итоге выполненного семантического анализа и
логической обработки текста формируется точный ответ, представленный вьппе.
Для контроля релевантности полученного ответа преобразуем его к виду за­
проса. При этом группа слов определения «Дополнительные подключаемые внеш­
ние» заменена на вопросительное слово «Какие». Также была исключена встав­
ная конструкция, которая имеет уточняющее значение. В результате из сфор­
мированного ответа получено вопросительное предложение «Какие устройства
персонального компьютера называются периферийными?», которое идентично
запросу. Это доказывает релевантность полученного точного ответа запросу
пользователя.
Как было отмечено вьппе, в поисковой системе описанные преобразования
выполняются с зашифрованным текстом. Для пшфрования используется одно­
разовый многоалфавитный кодер. Представим зашифрованную информацию в
символьном виде (с некоторыми сокргшдениями ввиду иллюстративного значения
данного примера).
Запрос: Ж Л 1 и Ъ З Ь К Ь д Т П \ ? К Н Е М К А Ф Ю Г О З Р Т С В 8 А Щ Г В \ ? Г г И Б О Д С Е 8 У
НВРЙ1?КУИГДГВ2КРЮФДТУд8
Предварительно выбранный абзац: \ ? Г К С К Т Щ Г 0 д К Щ И Б 8 В У И В Й Ь У С У Я Х М
ЪYDЖEГF0ЯЧMЦZEKДBЩЮZHYЖTГБIQFBXШЧHW8HЪЖИДБVZRKH
ВЮМХТСФЯУК\УдЪСЮАЦ\УЬиЩСТКдМ8НФЗЬЦЬК
д. 1.5. Универсальность защищенных поисковых систем



EWЖФHЮAЩDZXOPИЧZYBHЯБATNWMЪФГИFQJKHЮШOGCЖЭBЫV
РЗЪДЬАКР
Точный ответ: К Р А Ц А 1 Г Д Б М Т Ш М В Л Г Й С К 0 Е Н Щ Ф В В Р Ь У Р З Ъ и \ ? 1 Ж Ы
ШТКСЯЬИЭ28ЮХОСКдУЧ

АЕЛЮЦЕКНУХОЗБШ8МОСМТЯ
Именно в таком виде информация будет представлена злоумьппленнику при по­
пытке несанкционированного доступа к системе в процессе обработки, хранения
или передачи информации.
Отметим, что пользователь имеет доступ к содержанию запроса (до его
кодирования с целью передачи в поисковую систему), а также полученного точ­
ного ответа (после его декодирования). Вся текстовая база системы, включая
приведенный выше предварительно выбранный абзац, является для пользовате­
ля зашифрованной.
Таким образом, в системе реализуется полностью замкнутый зашифрован­
ный контур точного поиска информации с выполнением функций интеллекту­
альной обработки текстов, включаюпщх необходимые элементы семантического
анализа.

Литература
[1] Насыпный В.В. Развитие теории построения открытых систем на основе
информационной технологии искусственного интеллекта. М.: Воениздат,
1994. — 248 с.
[2] Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы

<< Предыдущая

стр. 79
(из 82 стр.)

ОГЛАВЛЕНИЕ

Следующая >>