Билет 14 1. Автоматизация анализа письменного текста: основные подходы к решению проблемы. Существует 2 основные стратегии решения проблемы: 1. модульный подход - последовательный анализ по уровням (морфологический, синтаксический, семантический, прагматический) 2. интегральный подход (более современный и более адекватный, Р. Шенк) 1. Системы модульного типа (Леонтьева): |модуль морфологического |-> полное морф. представление | |анализа | | |модуль синтаксического |-> полное синт.представление | |анализа | | |модуль семантического |-> частичное (фрагментарное) | |анализа |представл. | |прагматический анализ | | |(пока не реализован) | | Для широких ПО может быть использован в нескольких системах: СМП (SYSTRAN) системах извлечения знаний ИПС 2. Системы интегрального типа | | |фрагментарные | |Концептуальный анализ |-> |концептуальные | | | |представления: | | | | | |сценарии, | |морф.анализ |синт.анализ |сем. анализ | |фреймы. планы. | Ищет в тексте диагностические слова заполняет пустые слоты в сценарии делает ряд концептуальных выводов (inferences) о смысле текста (в результате чего способна отвечать на поставленные вопросы по содержанию) на определенных этапах подключает процедуры нельзя получить уровневое представление тексты узко ограниченной тематики Пример: интегральная система анализа Шенка: 1. MARGE (Memory Response Generation in English) - обработка концептуальной информации. В основе лежит теория концептуальных зависимостей - комплексная теория человеческого мышления. Работает в двух режимах: перефразирование (перевод входной фразы на ЯКЗ) концептуальный вывод 2. Модель SAM (Script Applying Mechanism) является компьютерной программой, которая позволяет понимать связность текста за счет применения сценариев: POLITICS (ведет диалог, моделирует политическую идеологию) PAM -> TALE-SPIN - порождение сказок FRUMP - машинное реферирование сообщений на нескольких языках, чтение , опирающееся на понятие интереса (Integral Partial Parser) 2. Терминологические банки данных: структуры, функции, методы построения. ТБД - автоматизированная система инвентаризации и машинного представления терминологической лексики и ее семантизации в системах машинного и человеко- машинного речевого общения. Это единая служба с удобным доступом, описывающая все сведения о термине и ликвидирующая неравномерность описания терминологии. Научные задачи: моделирование терминологической системы РЯ как системы подсистем построение общенаучных и общетеоретических тезаурусов исследование русской терминологии Типы традиционного использования ТБД: справочно-информационное обслуживание специалистов различных областей знания обеспечение традиционного перевода научно-технической литературы обеспечение АСОТ, включая системы машинного перевода лингвистическое обеспечение авт. систем информации обеспечение работ по упорядочению терминологии подготовка и издание терминологических словарей унификация определенных терминов подготовка научных отчетов о составе РЯ Организационная структура ТБД: терминологические центры службы переводов (переводческая функция) службы стандартизации (нормативная функция) университеты (исследовательская функция) всероссийские органы НТИ (по АСУ и ИПС) Функциональная структура ТБД: 1. Головной ТБД - справочно-поисковый аппарат по видовым банкам данных: ведение коммуникативного формата данных организация и руководство работами по передаче данных в ТБД обработка и ввод данных обслуживание предприятий 2. Специализированные ТБД (сбор, хранение , обработка информации), могут включать существующие ТБД, словарно-терминологические службы НТИ: отбор представительного массива источников ввод и обновление терминологической информации в БД передача информации другим СТБД и ГТБД эксплуатация СТБД в соответствии с конкретными задачами организации. ТБД состоит из ряда массивов, которые называются подфондами. Подфонды - массивы терминов, которые создаются и хранятся в центральном органе МФРЯ (Машинный фонд РЯ) на базе массивов первичного типа. Подфонды: специальных и межотраслевых терминов, фигурирующих в отдельных отраслях знаний и деятельности общенаучных и общетехнических терминов терминоэлементов (используются в нескольких терминосистемах). 3. Примеры оформления сложных документов (сноски, газетная верстка, колонтитулы и т. д) в MS Word 5.0. Сноски: 1. курсор на месте символа ссылки на сноску 2. Format, Footnote 3. в поле reference mark ввести ссылку на сноску (не более 28 символов) 4. enter 5. ввести текст сноски (до нескольких абзацев) перемещение между сноской и текстом: Jump Footnote использование окна сносок: Esc W S F переход из окна в окно: F1 местоположение сносок: по умолчанию - на той же стр., где ссылка Format Division Layout: same page, end Газетная верстка: колонки: 1. Options: Show Layout Yes или Alt-F4 2. Esc Format Division Layout колонтитулы: 1. курсор в начало документа 2. ввести текст + enter 3. курсор внутрь текста или выделить текст 4. Esc Format Running Head: Position: Top Bottom None Odd Even First Alignment: left margin Edge-of-paper 5. enter Быстрое создание колонтитулов: 1-3 - то же самое 4. верхний колонтитул: Ctrl+F2 нижний колонтитул: Alt+F2 На каждой странице может быть не более двух колонтитулов: верхний и нижний Выравнивание колонтитулов: Format Paragraph или Alt C, Alt R. Вывод номера страницы/даты: 1. курсор в то место колонтитула, где будет страница. 2. набрать page/date 3. F3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20