Некоторые полезные тезаурусы представлены в Интернете по адресу http://www.rutenia.ru/folklore/. С содержанием лингвистических понятий можно ознакомиться в «Тезаурусе по теоретической и прикладной лингвистике» С.Е. Никитиной (Никитина 1978). Опыт словарно-тезаурусного описания семантики информационных технологий обсуждается в монографии Ю.Н. Филипповича и А.В. Прохорова (Филиппович, Прохоров 2002).
Задание 1. Найдите определение термина тезаурус в сетевых энциклопедиях Википедия и Кругосвет. Сохраните скриншоты с определениями для итоговой презентации по спецкурсу.
Задание 2. Ознакомьтесь с тезаурусами, доступными по адресу http://www.rutenia.ru/folklore/.
База данных не является понятием собственно прикладной лингвистики. Это понятие общее для всех информационных технологий. База данных – это структурированная совокупность взаимосвязанных данных в рамках некоторой предметной области, предназначенная для длительного хранения во внешней (не оперативной) памяти компьютера и постоянного применения. Тем не менее создание базы данных – ключевая технология компьютерной лексикографии. Современные словари создаются на основе хранимых в памяти компьютера контекстов, для их создания используют программы, позволяющие формальным образом представить морфологические, словообразовательные, синтаксические и даже семантические характеристики слова.
Формирование базы данных начинается с табличного представления сырого материала. В стандартный пакет программного обеспечения Windows входят электронные таблицы Excel, позволяющие организовать материал и производить стандартную статистическую обработку. Однако управлять базой данных в Excel неудобно. Для управления базой данных Microsoft Office предлагает систему управления базой данных Access (СУБД Access). Это сравнительно простая система, позволяющая из исходного материала, введенного в базу данных, формировать множество таблиц по количественным и качественным параметрам, заданным самим пользователем. СУБД Аccess широко используется в лингвистических работах.
Задание 1. Ознакомьтесь с приложением Excel. Используя возможности приложения, попытайтесь составить таблицу образцов склонения русских существительных.
Задание 2. Выберите одну из доступных в Интернет лингвистическую базу данных:
http://www.speech.nw.ru/,
http://www.imli.ru/zagovor/,
www.lingsoft.fi/doc/rustwol.txt.
Подготовьте презентацию о ней.
(Индивидуально) Выбрать одну из доступных в Интернете лингвистическую базу данных: http://www.speech.nw.ru/, www.imli.ru/zagovor/, www.lingsoft.fi/doc/rustwol.txt. Подготовьте презентацию о ней.
Составить таблицу формообразования (по выбору) в Excel.
Четвертый урок
Тема: Основные ИКТ прикладной русистики: корпус данных и корпус текстов
Цель в предметной области: знакомство с Национальным корпусом русского языка и другими корпусами, систематизация знаний о лексическом значении слова.
Цель в формировании информационно-коммуникационной компетентности: знакомство с технологией национальных корпусов.
Задачи:
1. Установить основные отличия корпуса данных от базы данных.
2. Определить цели создания национальных корпусов.
3. Определить достоинства представления национального языка в виде корпуса.
4. Определить спектр задач, решаемых на материале Национального корпуса русского языка.
Формы: лекция с обсуждением. приемы реализации задач:
1. Характеристика корпуса текстов с показом мультимедийной презентации.
2. Показать достоинства работы с корпусом текстов в презентации.
3. Продемонстрировать возможности поиска информации в корпусе на компьютере.
4. Индивидуальная работа над материалами из Национального корпуса русского языка.
Материалы для урока
Корпус данных – особый вид базы данных. В отличие от базы данных, корпус данных претендует на отражение реальной картины, существующей в предметной области. Обычно корпус данных формируется из текстов. По запросу пользователя из корпуса извлекаются материалы. Единица извлечения материала определяется единицей хранения. Если единицей хранения является слово, то на запрос пользователя из корпуса будет извлекаться отдельное слово (как в орфографических словарях); если же единица хранения – словосочетание, то пользователь на запрос о слове получит ближайшие контексты интересующего его слова; при единице хранения предложении «ответом» пользователю будет целое предложение и т. п.
В качестве материалов предлагаем главу о корпусной лингвистике из учебного пособия И.Г. Овчинниковой и И.А. Углановой «Компьютерное моделирование речевой коммуникации» (Пермь 2006). Приведем некоторые выдержки из данного пособия.
Корпусная лингвистика – одна из наиболее востребованных отраслей прикладного языкознания. Бурное развитие корпусной лингвистики обусловлено необходимостью создания ресурсов, обеспечивающих доступ к языковому материалу, качественно обработанному и репрезентативному. Одна из основных прикладных задач, стимулирующих бурное развитие корпусной лингвистики, – обеспечение систем машинного перевода, новое поколение которых использует корпусы текстов на разных языках как базы примеров и аналогий, пригодных для повторного использования при переводе новых документов. Корпусная лингвистика использует программное обеспечение, рассчитанное на обработку естественного языка. В процессе создания корпусов текстов на различных языках совершенствуются программы, позволяющие работать с естественным языком на компьютере (так называемые NLP – natural language processing). Такого рода программы широко используются за пределами корпусной лингвистики и научных исследований.
Корпусы текстов представляют сырой материал для создания и тестирования программ по переработке естественного языка. В данном случае под текстами понимаются и высказывания устной речи как в СМИ, так и в естественной коммуникации (например, соответствующие подкорпусы Британского национального корпуса). В целом все известные корпусы реализуют четыре варианта:
– национальный корпус, в котором представлены тексты из различных сфер коммуникации (монолингвальный корпус);
– сравнительный (или контрастивный) корпус, объединяющий несколько национальных корпусов, организованных аналогично (с совпадающей репрезентативностью и общим корпус-менеджером);
– параллельный корпус, или корпус параллельных текстов, содержащих тексты на одном языке и их переводы на другой язык (или на несколько языков);
– корпус разговорной речи, который может существовать отдельно, а не только в качестве подмассива Национального корпуса. Корпусы разговорной (и шире – устной) речи могут включать только аудиозаписи (в частности, Корпус диалектов английского языка) или, напротив, только транскрипцию или орфографическую запись устной речи (как подмассив Британского национального корпуса). Оптимальным вариантом полагают параллельное размещение в корпусе аудиозаписей и их стенограммы (в транскрипции или орфографии).
Классификация корпусов В.П. Захарова
Каждый из вариантов пригоден для решения специфических задач. Например, сравнительный корпус позволяет изучать языки в контрастивном аспекте, в то время как параллельный корпус используется в качестве базы данных (базы примеров перевода) в современных системах машинного перевода. Обращение к нему в