II. Блок “Проблемы и методы автоматической обработки текста»

I. Введение

Некие источники

Баранов А.Н. Введение в прикладную лингвистику. М., 2001. Марчук Ю.Н. Базы компьютерной лингвистики. М., 2000.

Баевский В. С. Лингвистические, математические, семантические и компьютерные модели в истории и теории литературы. М., 2001.

www.dialog-21.ru www.aot.ru www.ruscorpora.ru и др.

Журнальчик «Literary and Linguistic Computing»

Скрещение дисциплин

ИТ II. Блок “Проблемы и методы автоматической обработки текста»/КТ [в гуманитарных сферах]

Компьютерная лингвистика

Прикладная лингвистика

Автоматическая обработка текста

Статистические способы в анализе текста: лингвистика, литературоведение и фольклористика

Наименования направлений и дисциплин

квантитативная лингвистика

понятие «квантификация знания»

вычислительная лингвистика

компьютерная (computational) лингвистика

инженерная лингвистика

математическая лингвистика

прикладная (applied) лингвистика

корпусная лингвистика

Двойственное осознание ИТ/КТ в гуманитарных сферах

внедрение ИТ/КТ в фактически гуманитарных исследовательских работах

внедрение компьютеризованных гуманитарных моделей II. Блок “Проблемы и методы автоматической обработки текста» в различных сферах деятельности

Самый обычной вариант

Компьютерные/информационые технологии необходимы магистру для того, чтоб набрать текст собственной диссертации.

Более непростой вариант

Компьютерные/информационые технологии необходимы магистру для того, чтоб:

воспользоваться способностями базы данных (корпус, словарь и т.п.) либо разных узкоспециальных программ (к примеру, обработки звука) для собственных исследовательских работ;

работать с II. Блок “Проблемы и методы автоматической обработки текста» информацией в сферах прикладной филологии (WEB-дизайн, редакционно-издательская и архивная деятельность.

Еще больше непростой вариант

Компьютерные/информационые технологии необходимы магистру для того, чтоб алгоритмизировать и отработать на большом материале свои модели текста.

Совершенно непростой вариант

Экстрафилологический вариант: компьютерные/информационые технологии необходимы магистру для того, чтоб сделать методы автоматической обработки II. Блок “Проблемы и методы автоматической обработки текста» языковой инфы, которые могли бы использовать нефилологи, нелингвисты.

В любом случае –

междисциплинарный нрав обсуждаемых тем.

Обычно прикладные направления

Транскрипция речи. Транслитерация.

Увеличение скорости набора текста. Проверка грамотности.

Преподавание зарубежных языков.

Логопедия, нейролингвистика и проч.

Классификация терминологии. Построение терминосистем.

Лексикография. Словари и справочники.

Создание и исследование искусств. языков.

Моделирование текста (в II. Блок “Проблемы и методы автоматической обработки текста» том числе ХТ).

Текст как основная единица исследования филологии

автоматизация его обработки на различных уровнях, препядствия и решения

Практика внедрения АОТ

определение речи,

машинный перевод,

автоматическая систематизация документов,

аннотирование текстов,

кодирование текстов,

информационный поиск

(полу)автоматический набор текста

и т.д.

Не фактически гуманитарные сферы скрещения интересов

социология

психология

политика

криминалистика и юриспруденция

библиотечное дело

информатика

искусственный ум

Кто наши работодатели?

Лингвистика — Гуманитарная сфера?

1. Особенности II. Блок “Проблемы и методы автоматической обработки текста» лингвистических объектов

2. Общие интересы наук:

лингвистика  биология, физика

лингвистика  социология, психология

лингвистика « математика, информатика

… … …

? лингвистика  литературоведение

Методологические базы

Оптимизация языка. Моделирование.

Формализация языковых данных.

Словарь как обычный пример формализованного описания.

Да и он делается для человека-читателя.

Словарное истолкование (МАС)

ХИРУ́РГ, -а, м. Доктор — спец по хирургии.

ХИРУРГИ́Я, -и, ж. Раздел медицины, изучающий II. Блок “Проблемы и методы автоматической обработки текста» заболевания, главным способом исцеления которых является оперативное вмешательство, и разрабатывающий приемы, способы и технику выполнения операций.

Доктор… Спец…

МЕДИЦИНА… Болезнь… ОПЕРАЦИЯ…

КОМПОНЕНТНЫЙ АНАЛИЗ

Неоднозначное слово (МАС)

ДЕ́ЛАТЬ, несов., перех. (сов. сделать).

1. Создавать обычно при помощи инструментов, особых приспособлений, машин и т. п. различного рода предметы, вещи, изделия II. Блок “Проблемы и методы автоматической обработки текста»; изготовлять, создавать. Делать станки.

2. Заниматься чем-л., работать, проявлять какую-л. деятельность. Я желал приняться за работу — не мог; желал ничего не делать и не мыслить…

3. Поступать, действовать каким-л. образом. Делать все по-своему.

4. из кого-чего. Обращать, превращать в кого-, что-л. Делать из кого-л. посмешище II. Блок “Проблемы и методы автоматической обработки текста».

◊ Делать авансы кому см. аванс; Делать акцент на чем см. акцент; Делать вид см. вид1; Делать огромные (либо круглые) глаза см. глаз; Делать из мухи слона см. муха; Не делать секрета из чего см. секрет1; От нечего делать — от бездельничания, от скукотищи … …

Сколько единиц хранения?

Предпосылки развития ИТ II. Блок “Проблемы и методы автоматической обработки текста»:
Человек и информационная среда

неувязка ввода, определения, обработки инфы

изменчивость и разрастание информационного места

недостаток времени и средств

развитие и интеграция информационных устройств

Предпосылки:
Развитие научной базы

математика и информатика

психология, социология и т.д.

когнитивная лингвистика, теория представления познаний

! Скорость развития прикладной лингвистики и информационных технологий, огромный скачок за последние 30 лет

Воздействие ИТ на классические гуманитарные методологии

внедрение II. Блок “Проблемы и методы автоматической обработки текста» теор. данных

постановка новых теор. задач, новые требования к четкости определений, логичности классификаций

выявление нерешенных заморочек

Статистика и гуманитарные науки
Конструкции из теор. работы

любопытно также отметить и…

нередко встречается у… (типично для…)

С другой стороны:

Мат. способы (в том числе математическая статистика) – это только инструмент для работы. Представления и догадки о причинной связи должны быть II. Блок “Проблемы и методы автоматической обработки текста» привнесены из некой другой теории, которая позволяет содержательно разъяснить изучаемое явление.

Другими словами, даже верные статистические характеристики могут сделать картину, которая противоречит языковой реальности.

ИТ: данные о языке…

(как грамматику, так и семантику)

можно представить формализованно

перевести в компьютерный метод.

Различия в гуманитарной и естественнонаучной методологии

Филология vs. Математика

Лингвистика vs. Литературоведение

Специфичность гуманитарных II. Блок “Проблемы и методы автоматической обработки текста» исследовательских работ

Некорректность, расплывчатость понятий и определений.

Доминирование высококачественных черт их главных объектов.

Ограниченность способностей проведения активного опыта.

Большой объем начальной инфы.

Конкретно 2-ой пункт очень осложняет построение формализованных теорий в филологии.

Острота 4-ого пт в отношении текстового анализа равномерно снимается с развитием компьютерных систем и корпусных II. Блок “Проблемы и методы автоматической обработки текста» проектов.

Направления ИТ/языковых технологий

Автоматический анализ и синтез речи.

Современная лексикография. Создание лексических тезаурусов.

Корпусная лингвистика.

Информационный поиск.

Автоматическое аннотирование.

Кодирование/декодирование текста.

Компьютерная проверка правописания и грамматики. Упрощение ввода текста, системы «интеллектуального ввода».

Новые средства интерфейса электрических устройств.

Лингвистические нюансы борьбы с вирусами. Антиспам.

Автоматический перевод.

Атрибуция (определение II. Блок “Проблемы и методы автоматической обработки текста» авторства) текста.

Политическая и юридическая лингвистика.

Лингвистические экспертизы.

Задачи ТЕСТологии.

Искусственный ум как лингвистическая неувязка.

Структура курса

I. Введение.

II. Препядствия и квантитативно-лингвистические способы АОТ.

III. Информационные технологии – сферы приложения АОТ и лингвистических познаний.

IV. Практические задания.

ческой обработки текста (АОТ)

Уровни языка и речи: традиционные представления

Уровни автоматической обработки II. Блок “Проблемы и методы автоматической обработки текста» текста

Генеральные задачи АОТ

сегментация речи

снятие омонимии (разрешение многозначности)

II. Блок “Задачи и способы автоматической обработки текста»

Уровни АОТ: Словообразование

2. Словообразование

Главные препядствия АОТ

Сегментация и снятие омонимии

(на морфемном уровне)

лист-в-енн-иц-а

? лист-в-ен-ниц-а

? лист-в-е-нн-ица

? лист-венниц-а

… …

Неувязка описания значений морфем

Определение инструментария морфем

Принципы формализация подачи инфы в словарях морфем и II. Блок “Проблемы и методы автоматической обработки текста» грамматиках

Неувязка идиоматичности слова

Подснежник = предмет (-ник), находящийся ниже (под-) [снега].

Снег – мин. непроизводная единица.

Вопрос применимости для извлечения инфы о лексическом значении

Неувязка неуниверсальности СО-моделей

тигр + -иц- = тигрица

тигр + -енок = тигренок

Аналогично:

лев – левица – левенок (?)

бык – бычица – бычонок (?)

Неувязка морфемного варьирования

ДРУГ

дру[г]а, дру[к], о дру[г’]е

ДРУЖОК

дру[ж]ок II. Блок “Проблемы и методы автоматической обработки текста», дру[ш]ка

ДРУЗЬЯ

дру[з’]ья

музей – музея – музеи:

музе(j)-0 – музе(j)-а – музе(0)-и

СО-синтез. Личный пример лингвистической формализации

красноватый – краснота

гладкий – гладкость

голубий – синева

желтоватый – желтизна

… …

Разветвленная модель, позволяющая на основании формальных и семантических (!) признаков найти, появляется либо не появляется слово.

Доминирование форманта -ость

верный – верность лаконичный - краткость

Специфичность активных словообразовательных моделей

Модели, дозволяющие на основании II. Блок “Проблемы и методы автоматической обработки текста» формальных и семантических признаков найти, появляется либо не появляется слово.

Разветвленность и громоздкость алгоритмов. Включенность неавтоматизированных частей.

Сложность российского словообразования.

Выводы:

Словообразовательные структуры проще давать перечнем, гнездами, тем паче что сейчас можно позволить для себя затратность в плане компьютерных ресурсов.

С другой стороны, описание аффиксов может быть полезно II. Блок “Проблемы и методы автоматической обработки текста» в процедуре морфологического и семантического анализа слов, отсутствующих в БД:

* компьютерность (мышления)

компьютерн-ый + -ость.

Применимость СО-анализа

в практике обучения РКИ

в системах машинного перевода

как дополнение различных видов АОТ

Но!

Ограниченность использования из-за перечисленных заморочек.

Уровни АОТ: Морфология

3. Морфология

Задачки

обобщение грамматических форм

(окно – окна – окне – окнами и т.п.)

в разных программках, связанных с II. Блок “Проблемы и методы автоматической обработки текста» АОТ

разведение форм, относящихся к различным парадигмам (disambiguation, снятие неоднозначностей):

после – 1) после (нар.), 2) после (предл.), 3) засол (сущ.)

Морфологическая систематизация языков

изолирующие

отсутствие словоизменения, грамматическая значимость порядка слов, слабенькое противопоставление знаменательных и служебных слов.

агглютинирующие

развитая система словоизменения, единый тип склонения и спряжения, грамматическая однозначность аффиксов, отсутствие важных чередований

инкорпорирующие

возможность включения в состав глагола-сказуемого II. Блок “Проблемы и методы автоматической обработки текста» других членов предложения, время от времени с сопутствующим морфонологическим конфигурацией основ

флективные – наверное, самые продуктивные и достойные внимания для разработки моделей морфологического анализа

полифункциональность грамматических морфем, наличие фонетических явлений на их соединениях, фонетически не обусловленные конфигурации корня, огромное число фонетически и семантически не целевых типов склонения и спряжения.

Граматический словарь
А. А II. Блок “Проблемы и методы автоматической обработки текста». Зализняка

Примеры словарных статей

1/бол<еть нсв нп 1a (_о живом существе_)

2/бол<еть нсв нп 5b (_о частях тела_)

б>олеутол<ение с 7a

б>олеутол<яющий п 4a

болив<ар м 1a (_шляпа_)

бол<ивар м 1a (_денежная единица_)

болив<иец мо 5*a

болив<ийка жо 3*a

болив<ийский п 3a!&

болигол<ов м 1a

бол<ид м 1a

Особенности именной парадигмы падежей

nom — именительный падеж (голова, отпрыск, степь II. Блок “Проблемы и методы автоматической обработки текста», сани, который)

gen — родительный падеж (головы, отпрыска, степи, саней, которого)

dat — дательный падеж (голове, отпрыску, степи, саням, которому)

acc — винительный падеж (голову, отпрыска, степь, сани, который/которого)

ins — творительный падеж (головой, отпрыском, степью, санями, которым)

loc — предложный падеж ([о] голове, отпрыску, степи, санях, котором)

gen2 — 2-ой родительный падеж II. Блок “Проблемы и методы автоматической обработки текста» (чашечка чаю)

acc2 — 2-ой винительный падеж (постричься в монахи; по два человека)

loc2 — 2-ой предложный падеж (в лесу, на оси́)

voc — звательная форма (Господи, Серёж, ребят)

adnum — счётная форма (два часа́, три шара́)

Особенности глагольной парадигмы

инфинитив

личные формы

причастия (грамматически прилагательные)

деепричастия

Итого около 150 форм + возвратимые

(» 80)

Остальные трудности

Чисто флективные классы:

стол II. Блок “Проблемы и методы автоматической обработки текста» – стола – столы

Словоизменение с чередованием:

потолок – потолока – потолоки (?)

Словоизменение с супплетивизмом:

человек – человека – человеки (?)

меня – меню – мень (?)

По словарю А. А. Зализняка

8 типов именного словоизменения (с подтипами)

16 типов глагольного словоизменения (с подтипами)

особенные типы склоненичя местоимений, числительных и т.д.

наличие «изолированной» лексики, не подчиняющейся общим моделям (глаголы типа БЫТЬ)

«Многословные II. Блок “Проблемы и методы автоматической обработки текста»» слова, коллокации, фразеологизмы

Самый общий термин – неоднословные целостности:

В течение, в виде, без утомились, на ощупь, до упаду

Вертеться (вертится, кручусь, вертелась…) как белка в колесе

Положить (положишь, положил…) зубы на полку

Черт с… (тобой, ним, этим, лекцией…)

Пример работы морфоанализатора
Начальный текст

Вывод программки (Mystem, Yandex) http://company.yandex.ru/technologies/mystem/

Вывод программки (Mystem, Yandex II. Блок “Проблемы и методы автоматической обработки текста») http://company.yandex.ru/technologies/mystem/

Неувязка грамматической омонимии

стекла – стечь

стекла – стекло

при – при (предлог)

при – переть (императив)

при – пря (напр. род. п. ед. ч.) = устар. ссора, спор, состязание; то же, что распря.

Формально-графический принцип анализа

База + флексия:

мыш-Ь

мыш-И

мыш-И

мыш-Ь

мыш-ЬЮ

мыш-И

Виды морфоанализа

со словарем основ

со словарем словоформ

способом II. Блок “Проблемы и методы автоматической обработки текста» логического умножения

без словаря, при помощи таблиц

Незапятнанный стеммер малопродуктивен для РЯ:

* кровать – кроваю – кроваешь – по типу читать (?)

* кровать – кровлю – кровишь – по типу спать (?)

* кровать – крую – круешь – по типу сновать (?)

Требования к современному методу

объем словаря (покрытие 98-99%)

словоизменительный метод

действенная гипотетичная обработка новых слов

обучаемость системы

технические свойства

Внедрение морфоанализа

системы информационного поиска

лингвистические корпуса

машинный перевод

автоматическая проверка II. Блок “Проблемы и методы автоматической обработки текста» грамотности

… … …

Самые известные свободно распространяемые программки российского морфологического анализа:

MyStem (Yandex)

Диалинг, Dialing (АОТ.ру)

Снятие неоднозначностей: постморфология

частота потребления форм:

при – предлог, при – от устар. пря

а – альянс, частичка, междометие, существительное?

анализ наиблежайшего контекста, шаблоны:

Л. П. Быков, доктор, зав. кафедрой

учет повторных употреблений в тексте

Быков – Быкова – Быковым. В одном контексте (?):

* Быков пасет пастух Быков II. Блок “Проблемы и методы автоматической обработки текста».

подробный синтаксический анализ:

функция в предложении, особенности согласования, управления и т.п.

подключение словарей оборотов:

в + течение = в_течение (предлог)

Общие препядствия морфоанализа

объем словаря (больше либо меньше?)

развитие системы (пополнение и очистка базы)

Уровни АОТ: Синтаксис

4. Синтаксис

Цель анализа

получить с помощью алгоритмов синтаксическую структуру предложения:

найти члены предложения и дела II. Блок “Проблемы и методы автоматической обработки текста» меж ними

найти структурный тип предложения

Синтаксический анализатор (парсер, парсинг)

Интернациональные эквиваленты

parser

parsing engine

Синтаксис и морфология

Светит незнакомая звезда,

Опять мы оторваны от дома…

Форма слова и член предложения.

(Не)морфологизированный член предложения.

Синтаксис и семантика

Дороги размыли дождики.

Дождики вызвали аварии на дорогах.

Член предложения и лексическое значение (+ фоновые познания, пресуппозиции выражения)

Синтаксис и II. Блок “Проблемы и методы автоматической обработки текста» пунктуация

Ветер по морю гуляет

И кораблик подгоняет.

Казнить__нельзя__помиловать.

Член предложения, типы предложений, их границы и знаки препинания

Синтаксическая омонимия

Делегация из Петербурга прибыла в Москву.

Обвиняемого в убийстве священника Адельгейма востребовали принудительно вылечивать…

Неувязка порядка слов

Мой отец – большой спец.

(тире может и не быть…)

Большой спец мой отец.

Белеет парус II. Блок “Проблемы и методы автоматической обработки текста» одинокий

В тумане моря голубом.

* Одинокий парус белеет в голубом тумане моря.

Дистантное размещение
и эллипсис

Спец мой отец неплохой.

Прикладная лингвистика, как мне кажется, увлекательный предмет.

Шапочка знала, что, если дернуть за веревочку, дверь раскроется.

Мне два до Москвы.

Я за свечку, свечка – в печку!

«Ты куда?» – «На лекцию».

1-й II. Блок “Проблемы и методы автоматической обработки текста» шаг. Синтаксическая сегментация

Выделение предложений при анализе текста (абзаца). Формальные маркеры.

[Берлиоз] побледнел, вытер лоб платком, поразмыслил: "Что это со мной? Этого никогда не было… сердечко дурачится… я переутомился. Пожалуй, пора кинуть все к черту и в Кисловодск…“

Прокуратор дернул щекой и произнес тихо:

— Приведите обвиняемого.

Сегментация предложения

Малая синтаксическая II. Блок “Проблемы и методы автоматической обработки текста» единица.

Исходя из убеждений теор. лингвистики – только словоформа.

Исходя из убеждений прикладной лингвистики – словоформа либо оператор (символ препинания либо альянс). Они вскрывают синтаксические дела

Сегментация предложения

Построение дерева синтагм и дерева частей.

Дерево («граф» – что же все-таки это такое?)

«Синтагма» в теоретической и прикладной лингвистике

Вчера выпал снег.

«Сегмент» = клауза (кусок II. Блок “Проблемы и методы автоматической обработки текста» предложения) в теоретической и прикладной лингвистике.

Выделение частей

Вчера выпал снег, заваливший всю область.

Вчера выпал снег, который завалил всю область.

2-й шаг. Методы представления структур

Модель предложения можно представить (изобразить, формализовать) 2-мя классическими методами:

грамматика зависимостей

грамматика составляющих

Грамматика зависимостей

Я иду в магазин за хлебом.

Я иду ® за  хлебом

в

магазин

Бинарные дела

Наличие корня II. Блок “Проблемы и методы автоматической обработки текста» (иду)

Грамматика составляющих

Предложение

Я иду

за хлебом

в магазин

Систематизация парсеров

По методу движения:

Непрерывные

Циклические

По выявляемым отрезкам

Интегральные

Локальные

Языковые средства, используемые при парсинге

Словоизменение +

Учет морфологических признаков =

МОРФОАНАЛИЗ

Традиционный пример Л.В.Щербы:

Глок-ая куздр-а штеко будланул-а бокр-а

и кудряч-ит бокрёнк-а.

Избрал президента – избрал «Президент» (сыр, шоколад, отель…)

Языковые средства, используемые при парсинге

Языковые универсалии II. Блок “Проблемы и методы автоматической обработки текста» (члены предложения и проч.)

Служебные слова

Пунктуация

Порядок слов

Интонация (?)

Интонация как синтаксическое средство

Пример А. Е. Кибрика:

В этой гимназии обучался потом всемирно узнаваемый киноартист.

Полезные синтаксические ограничения

Порядок слов, «проективность» предложения

Сейчас мне приснился странноватый сон.

«Непроективное» предложение:

Странноватый мне приснился сон сейчас.

Полезные синтаксические ограничения

Зависимость хоть какой синтаксической структуры от одной II. Блок “Проблемы и методы автоматической обработки текста» верхушки.

люблю

вас

люблю и боюсь И

вас люблю боюсь

вас

Полезные синтаксические ограничения

Один субъект и один предикат в структуре сектора, не считая случаев сочинительных отношений меж субъектами и предикатами:

Арлекин и Пьеро прыгали и орали.

Выводы: общие трудности парсинга

Сложность языковой системы, свободный порядок слов в почти всех языках

Неуниверсальность синтаксических моделей в плане анализа II. Блок “Проблемы и методы автоматической обработки текста» различных языков

Корректировка результатов человеком («ручная» работа)

Вопрос о нужности анализа синтаксических структур при семантическом анализе.

Семантическая эквивалентность

Вчера выпал снег, заваливший всю область.

Вчера выпал снег, который завалил всю область.


igroki-znamenitih-basketbolnih-komand-provedut-master-klass-dlya-kazanskih-shkolnikov.html
igrotehnika-pitki-kak-sposob-uznat-informaciyu.html
igrovaya-deyatelnost-kak-sredstvo-razvitiya-lichnosti-shkolnika.html