• скачать файл

Лингвистический транслятор в семействе систем с обработкой ея-текстов

с. 1
ЛИНГВИСТИЧЕСКИЙ ТРАНСЛЯТОР В СЕМЕЙСТВЕ СИСТЕМ С ОБРАБОТКОЙ ЕЯ-ТЕКСТОВ

(ретроспекция)
Геннадий К. Хахалин
113405, Москва, Варшавское ш., д. 125

Научно-Исследовательский Центр Электронной Вычислительной Техники

Описываются несколько систем с различной степенью обработки ЕЯ-текстов лингвистическим транслятором (ЛТ), разработанным на основе метода контекстного фрагментирования. Дается краткая характеристика метода. Приводятся примеры различных типов ЕЯ-предложений, которые обрабатываются этим транслятором. Кроме того рассматриваются некоторые "побочные" системы на основе компонентов данного ЛТ.



1. Введение

Опыт применения разработанного лингвистического транслятора (ЛТ) в приведенных ниже различных системах показал, что можно использовать один и тот же ЛТ для разных приложений, если при его создании учитывать характерные свойства ЕЯ (флективность, избыточность, омонимичность, некомплетивность, идеоматичность, сложность и вариабельность конструкций ЕЯ-предложений и т.д.), а сам ЛТ при этом должен: быть адаптивным, открытым, спектральным; анализировать элементы ЕЯ-текста ( сложные, эллиптические и анафорические предложения); иметь систему лингвистического синтеза; проводить полные или частичные разборы в зависимости от сложности самих текстов и т.д.



2. Краткая характеристика метода контекстного фрагментирования (МКФ)

Главной задачей ЛТ является формирование по ЕЯ-описанию (тексту) описания ситуации на языке понятий и отношений модели проблемный среды (ПС). Но поскольку описание на языке ПС не “терпит” неопределенностей, опущений, неправильностей и т.п., то необходимо для процесса трансляции иметь адекватный язык представления лингвистических знаний (ЯПЛЗ) и соответствующую алгоритмику.

ЯПЛЗ в МКФ включает семантические сети для представления грамматики ЕЯ и модели ПС и систему продукций для интерпретации фрагментов ЕЯ-текста во фрагменты модели ПС. Семантические сети используются со своими механизмами множественного обобщения, ассоциированными процедурами, базовыми функциями работы с сетями и т.п., дополненные структурными образованиями (т.н. “контекстами”), которые можно представить в виде ормультигиперграфов с раскрашенными вершинами и ребрами. Контексты присоединяются к семантической сети на любом уровне обобщения как некоторые отделимые "куски" знаний, соответствующие на уровне грамматики правилам выделения словосочетаний, групп, фраз и т.д., а на уровне модели ПС правилам образования объектов, стереотипов, ситуаций и т.д.

На базе ЯПЛЗ строится лингвистическая модель, которая содержит три части: грамматическая модель, модель проблемной среды и связующая эти модели - интерпретационная модель. Первые две основаны на семантических сетях с “навешанными” контекстами [Заслонко и др., 1986]; последняя — на механизмах общих продукционных правил [Поспелов, 1990].

Суть алгоритмики лингвистической трансляции (при анализе) состоит из декомпозиции предложений ЕЯ-текста на фрагменты с помощью контекстов, их интерпретации во фрагменты модели проблемной среды и композиции этих фрагментов в структуру, описывающую ситуацию в проблемной среде. [Заслонко и др., 1988]. Данная алгоритмика реализуется в лингвистическом анализаторе, базовая часть которого служит для обработки полных простых ЕЯ-предложений, а расширенная (при использовании базовой) - для обработки осложненных, сложных, эллиптических и анафорических предложений ЕЯ-текста [Кузин и др., 1989]. Основным критерием в процессе анализа является критерий связности фрагментов результата разбора. Ключевым моментом в процессе фрагментирования является механизм сопоставления ЕЯ-предложения и контекстов модели, который реализуется с помощью алгоритма нахождения изоморфизма графов, сводимого к процедуре поиска внутренне устойчивого множества.

3. Описание систем.

3.1. Запрос на ЕЯ к базам данных (“ЕЯ-ИНТЕРФЕЙС”)

Система доступа на ЕЯ к различным базам данных (БД), предоставляющая возможность "широкому" пользователю формулировать запросы к БД или заполнять ее в достаточно произвольной форме [Заслонко и др., 1988].

Система состоит из транслятора, концептуальной системы управления БД (КСУБД) и собственно БД. ЛТ в системе предназначен для преобразования запросов и декларативов для КСУБД. КСУБД осуществляет преобразование семантического представления запроса или утверждения на формальный язык БД, например, в виде набора SQL-запросов.

Эксперименты с системой осуществлялись в областях автоматизированного проектирования (АСУ ЕСАП) и кадрового учета сотрудников (ИПС-кадры).

На ЛТ в задаче доступа возлагался анализ и синтез достаточно широкого спектра ЕЯ-предложений (примеры из области АСУ ЕСАП): простые изолированные вопросы или декларативы (Когда объявлено проектирование ТЭЗа Ц52.617.745?, ТЭЗ Х прошел этап СК 20.07.95), лексически синонимичные предложения (Сколько раз проводился этап синтаксического контроля для панели У? и Сколько раз проводился этап СК для панели У?), различные перефразировки (Когда закончен этап СК ТЭЗа Ц52.617.745? и Когда был проведен СК ТЭЗа Ц52.617.745?), различный порядок слов (Какие ТЭЗы входят в панель Х? и Какие в панель Х входят ТЭЗы?), осложненные и сложные предложения (Когда сформированы, выведены и сданы КД на панель Х?, Выведены МН когда на ТЭЗ Х, а сданы на панель У?, Когда КД сданы на ТЭЗы панели, проектирование которой закончено 95.07.25?) и др. Восстановление эллипсисов осуществлялось либо по контексту предложения (для сложных предложений), либо по диалогическому контексту.

Синтезатор в задаче доступа используется для выдачи ответов на ЕЯ и для проверки полноты и корректности моделей; восстановления эллипсисов, разрешения анафор и т.д. Синтез ЕЯ-предложений реализуется по базовой схеме почти теми же блоками ЛТ, что и для анализа. В качестве примера даны два запроса и синтезированные перефразировки, для которых анализ по ключевым словам не применим: лексический состав один и тот же, а смысл (при разном порядке слов) - разный.



Какие этапы прошли все ТЭЗы? Какие ТЭЗы прошли все этапы?

Соответствующие синтезированные перефразировки:



Какие этапы прошли все ТЭЗы? Прошли какие ТЭЗы все этапы?

Все ТЭЗы какие прошли этапы? Какие ТЭЗы все этапы прошли?

Прошли какие этапы все ТЭЗы? Все этапы какие ТЭЗы прошли?

Приведем еще пример синтеза перефразировок с промежуточного и выходного уровней.

Запрос: Когда КД выведены для панели Х?

Синтез перефразировок:

После грамматического анализа: После семантического анализа:

Когда КД выведены для панели Х? Когда прошла этап ВКД панель Х?

КД когда выведены для панели Х? Прошла когда этап ВКД панель Х?

Для панели Х когда КД выведены? Этап ВКД панель Х когда прошла?

3.2. Система анализа ЕЯ-текстов по поисковым образам пользователя ("САТПО")

Оболочка системы анализа текстовых документов для поиска и выделения фрагментов ЕЯ-текста, соответствующих описаниям ситуаций, задаваемых пользователем в виде множества обобщенных поисковых образов [Аредова и др., 1997]. Оболочка рассчитана на поабзацный анализ реальных ЕЯ-текстов. Набор поисковых образов (ПО) представляется в виде заранее составленных семантических контекстов. Для конкретного пользователя набор ПО в таких задачах сравнительно постоянен, переменным является поток разнообразных материалов. Подобное встречается в задачах поиска информации по текстовым файлам газет, журналов и т.п.; составления обзоров и аналитических отчетов; "отслеживания" наперед заданной информации и т.п.

Для текстовых файлов каждый абзац текста быстро просматривается (экспресс-анализ по ключевым словам), последовательно выделяются “подозрительные” фрагменты, которые подаются на ЛТ для полного анализа. ЛТ анализирует эти фрагменты и выделяет только те отрезки ЕЯ-текста, в которых присутствуют поисковые образы. В общем случае при удачном выделении поискового образа его обобщенные и параметрические элементы конкретизируются информацией из соответствующего фрагмента ЕЯ-текста

В качестве результата выдается множество отрезков ЕЯ-текста, каждому из которых сопоставлено множество ПО и другая информация. В [Аредова и др., 1997] приведены примеры ПО и выделенных фрагментов ЕЯ-текста в экспериментальной предметной области.



3.3. Машинный переводчик ("ТОЛМАЧЪ")

Оболочка системы машинного перевода, предназначенная для перевода текстов с одного ЕЯ на другой [Аредова и др., 1996]. По структуре и функциональным возможностям способна работать по двум "кольцам" перевода: первое использует только модели грамматик входного и выходного языков; второе — эти две модели плюс единую для этих двух языков модель проблемной среды (т.е. единую семантику).

Для демонстрации возможностей оболочки была разработана ЛМ для входного русского и выходного английского языков в предметной области "СПОРТ" (тексты относятся к рефератам статей по спортивной тематике). Эта предметная область содержит достаточно произвольные тексты с общеупотребительной лексикой, с широким спектром терминов по медицине, технике, психологии, спорту и др. Пример перевода фрагмента ЕЯ-текста реферата:

Оригинал:

В ряде стран мини-баскетбол рассматривается как национальное спортивное движение детей, которому придается государственное значение. Рассматриваются причины критического сокращения числа команд, спортсменов, соревнований по баскетболу в СССР. Для обеспечения притока спортивных резервов необходимо привлечение в мини-баскетбол не менее 2 млн. детей. Целесообразны четыре возрастные категории соревнующихся - до 6 лет, 7-8 лет, 9-10 лет и 11-12 лет. Предложены практические меры развития мини-баскетбола в СССР.

Перевод:

In number of the countries mini-basketball is considered as national sporting movement of the children, which is added state significance. There are considered motives of critical shortening of number of the commands, sportsmen, competitions by basketball in ussr. For provisions of the tributary of the sporting reserves is necessary attracting in mini-basketball not less 2 mill. Kids. It is expediently four age classes of the competitors - until 6 years,7 -8 years, 9 -10 years and 11 -12 years. There are offered practical steps of development of the mini-basketball in ussr.

3.4. Система кодирования ЕЯ-текстов ("КОДЕТ")

Оболочка системы кодирования, предназначенная для автоматического индексирования непрепарированных ЕЯ-текстов [Заслонко и др., 1988]. Индексирование осуществляется на основе заранее заданных классификаторов с учетом семантических связей между понятиями.

Специфика ЕЯ-текстов в таких задачах определяется наличием: часто беспредикативных ЕЯ-предложений; общепринятых и специфических сокращений; различного порядка слов; избыточной информации для кодирования; множества синонимичных формулировок; осложненных и сложных ЕЯ-предложений и др. Кодирование по ключевым словам в значительном количестве случаев не дает корректный результат и требует разработки ad hoc'ов.

Ниже даны примеры кодирования диагнозов для медицинской архивной системы МЕДАС. Кодирование диагнозов осуществлялось по системе классификации ВОЗ, на базе которой была построена модель заболеваний для больных отделения реанимации (около 300 заболеваний). На основе текстов диагнозов была построена лингвистическая модель. Примеры текстов реальных диагнозов и их кодировка:



Заданный диагноз: Закрытый оскольчатый перелом бедра. Перелом лонной и правой седалищной кости. Алкогольное опъянение.

Кодированный диагноз: (Закрытый оскольчатый перелом бедра.) (821.0) (Перелом лонной и правой седалищной кости.) (808.4 808.2) (Алкогольное опъянение.) (305.0)

Заданный диагноз: Острый гангренозный холецистит. Местный перитонит. Двусторонняя пневмония. ОДН. Ишемическая болезнь сердца. Мерцательная аритмия. ССН.

Кодированный диагноз: (Острый гангренозный холецистит.) (575.0) (Местный перитонит.) (567.9) (Двусторонняя пневмония.) (486) (ОДН.)(518.5)( Ишемическая болезнь сердца.) (411.9) (Мерцательная аритмия.) (427.3) (ССН.) (428.9)

3.5. Система концептуального синтеза графических изображений по ЕЯ-инструкциям пользователя ("КСИ")

Прототип системы автоматического построения и преобразования графических сцен по инструкциям пользователя, задаваемым в форме ЕЯ-выражений. Система включает три основных подсистемы: лингвистический транслятор, концептуальную систему управления графическими программами и систему реализации графики (пакет графических программ) [Власов и др., 1988], [Заслонко и др., 1988].

Инструкции пользователя описывают графическую сцену в терминах и конструкциях ЕЯ. Описание на ЕЯ преобразуется с помощью ЛТ в описание изображений в терминах понятий и отношений “геометрической среды”. Система синтеза изображений по этому концептуальному описанию строит и/или преобразует реальную графическую сцену на экране дисплея.

На вход системы в текстовой форме поступают от пользователя инструкции, состоящие из описания команд и/или объектов изображения. Задания инструкций приближены к обычной форме описания задач на геометрическое построение и включают вопросы, декларативы и команды с вкраплениями выражений типа х=5 см., y=30 градусов, A>B.

Семантическое представление графических команд описывает структуру элементов, составляющих фигуру, и связи между ними. Параметры соответствуют общепринятым свойствам фигуры как целого, а также свойствам составляющих ее элементов. Модель, у которой всем параметрам присвоены значения, является описанием конкретного экземпляра фигуры и может быть визуализирована на плоскости отображения.

Такая система позволяет оперировать элементами сцены как некоторыми целостными понятиями. Ниже приведены примеры инструкций, используемых в реальных экспериментах:



  1. Построить точку A с координатами X1, Y1. Построить точку C.

  2. По точкам с координатами X1, Y1 и X2, Y2 построить отрезок AB.

  3. По сторонам AB длиной L1, AC длиной L2 и BC длиной L3 нарисовать треугольник ABC.

  4. Повернуть фигуру ABC на 20 градусов.

  5. Фигуру ABC сдвинуть в левый верхний угол экрана. Сдвинуть ABC на 5 позиций влево.

  6. Увеличить масштаб прямоугольника ABCD в 2 раза. Тре-к CDF пов на 5 град.

4. "Побочные" системы

4.1. Программно-технологический комплекс разработки электронных толковых словарей ("ТОЛК")

Комплекс обеспечивает разработку и поддержку электронного толкового словаря пользователя с заполнением на любую выбранную предметную область [СЭТС, 1996]. Он состоит из оболочки словаря с быстрым доступом к словарным статьям по любой словоформе и системы настройки на конкретный словарь предметной области. “ТОЛК” служит пользователю или группе пользователей средством для создания индивидуальных и/или корпоративных словарей.

Разнообразие режимов работы со словарем позволяет: набрать или, просматривая файл, отметить любое слово в произвольной форме и получить его толкование, не задумываясь о стандартной форме слова; получать всю предысторию работы со словарем, возвращаясь на любой из предыдущих этапов; работать со словарной толковой статьей как с обычным файлом и т.д.

4.2. Система хранения словарных статей (“VOC-4”)

Система “VOC-4” предназначена для использования в системах обработки ЕЯ-текста со словарями большого объема с быстрым доступом к словарным статьям нескольких типов. Разнотипность словарей определяется различными структурами словарных статей и присоединенными программами.

Система содержит 4 словаря: словарь для текстовых статей (например, устойчивых словосочетаний); словарь для строчных словарных статей основ с морфологическим анализатором; словарь для строчных словарных статей лексем с морфологическим синтезатором; словарь для текстовых статей (например, понятий модели проблемной среды). Тип первого и последнего словарей одинаков. Встроенные во второй и третий словари морфологический анализатор и синтезатор предназначены для русского языка (см. ниже МОРАНСИ). Для модификации словарей существует система настройки, которая используется для всех или некоторых словарей.

4.3. Морфологический анализатор/синтезатор для русского языка (“МОРАНСИ”)

“МОРАНСИ” представляет собой две отдельные подсистемы морфологического анализа и синтеза. Каждая из них состоит из: словаря, присоединенной программы (анализа или синтеза), программы доступа к статьям и программы настройки на заданный морфологический словарь.

Программа анализа для русского языка предназначена для анализа заданной словоформы с выдачей морфологических признаков (МОРАН), а программа синтеза — для генерирования по заданной лексеме (и необходимым ей признакам) требуемой словоформы (МОРСИ).

4.4. Морфологический словарь русского языка (“МОРФРУС”)

“МОРФРУС” представляет собой электронный морфологический словарь русского языка и предназначен для анализа словоформ и выдачи признаков заданной словоформы в привычной для человека форме (его, например, можно использовать в системе обучения русскому языку).

Результатами работы при анализе словоформы являются: синтаксические характеристики словоформы (имя синтаксического класса, к которой принадлежит словоформа: существительное, глагол, прилагательное, причастие и т.д.) и морфологические характеристики словоформы (лексема, основа, окончание, род, число, падеж, возвратность, лицо, время и т.д.). При этом на экран последовательно отображаются все омонимии словоформы (например, кладу - существительное и глагол, простой - существительное и прилагательное и т.п.).

5. Заключение

Успехи в области лингвистической ЕЯ-обработки за последний десяток лет несомненны. Появились коммерческие системы МП (Stylus, Socrat, Pars и др.), поиска информации в ЕЯ-текстах и аннотирования (“Следопыт”, “Либретто”) и др. Представлен широкий спектр экспериментальных систем обработки ЕЯ-текстов.



Наряду с этим следует выделить задачи, требующие дальнейшей проработки: трансляция связных ЕЯ-текстов в пределах абзацев и более; полноценный лингвистический синтез текста; автоматизация процесса наполнения моделей; методы проверки ЛТ и ЛМ на полноту, корректность и разнообразие. Следует также отметить недостаточную проработанность вопросов унификации моделей ПС, механизмов вывода для ЛТ и т.д.

Л и т е р а т у р а

[Аредова и др., 1996] Аредова И.И., Заслонко А.Н., Хахалин Г.К. Лингвистическая обработка ЕЯ-текста в программной оболочке системы машинного перевода "ТОЛМАЧ". Труды Международного семинара Диалог'96 по компьютерной лингвистике и ее приложениям (под ред. А.С. Нариньяни) - М., 1996, с. 34-36.

[Аредова и др., 1997] Аредова И.И., Заслонко А.Н., Хахалин Г.К. САТПО - система анализа ЕЯ-текстов по поисковым образам пользователя. Труды Международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям (под ред. А.С. Нариньяни) - М., 1997, с. 28-32.

[Власов и др., 1988] Власов А.В., Аредова И.И. Экспериментальная система синтеза графических изображений по их описанию в терминах геометрических понятий. Материалы конференции "Развитие интеллектуальных возможностей современных и перспективных ЭВМ" - М., МДНТП, 1988, с. 123-132.

[Заслонко и др., 1986] Заслонко А.Н., Кузин Е.С., Хахалин Г.К. Лингвистический транслятор в системе общения с ЭВМ. Материалы конференции "Экспертные системы - 86" - М., МДНТП, 1986, с. 9-16.

[Заслонко и др., 1988] Заслонко А.Н., Новикова Н.С., Хахалин Г.К. Лингвистическая трансляция элементов ЕЯ-текста: эллиптические и сложные предложения. Материалы конференции "Развитие интеллектуальных возможностей современных и перспективных ЭВМ" - М., МДНТП, 1988, с. 90-94.

[Кузин и др., 1989] Кузин Е.С., Ройтман А.И., Фоминых И.Б., Хахалин Г.К. Интеллектуализация ЭВМ. Кн. 2 серии "Перспективы развития вычислительной техники" - М., Высшая школа, 1989, с. 93-132.

[Поспелов, 1990] Поспелов Д.А. Продукционные модели. В кн. Искусственный интеллект. Справочник в 3 кн. Кн. 2. Модели и методы. /ред. Д.А.Поспелов/ - М., Радио и связь, 1990, с. 49-56.

[СЭТС, 1996] СЭТС система разработки электронных толковых словарей для русского языка. Каталог выставки "Интеллект-СОФТ'96" - М., НТК "МЕТОД", 1996, с.19.
Работа опубликована в Трудах VI национальной конференции по Искусственному Интеллекту РАН - КИИ-98, Пущино, 1998, с. 238-246



с. 1