Корпусная лингвистика
Ко́рпусная[1] лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
Лингвистический, или языковой, корпус текстов — это большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач[2]. Основными чертами современного корпуса являются машиночитаемый формат, репрезентативность, наличие металингвистической информации[2]. Репрезентативность достигается с помощью специальной процедуры отбора текстов.
Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой[источник не указан 4007 дней]. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).
Целесообразность создания текстовых корпусов объясняется:
- представлением лингвистических данных в реальном контексте;
- достаточно большой представительностью данных (при большом объёме корпуса);
- возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др.[3]
История
[править | править код]Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.
Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request — ни разу.
По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объёмами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпусы большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) в Бирмингемском университете и Британский национальный корпус (British National Corpus, BNC). В СССР таким проектом был Машинный фонд русского языка, создававшийся по инициативе А. П. Ершова.
Современное состояние
[править | править код]Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпусы существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 500 млн словоупотреблений[4].
Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто The Wall Street Journal и The New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Максима Мошкова или Проект «Гутенберг»).
Проблемы
[править | править код]Проблема представительности
[править | править код]Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объёма текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.
Проблема разметки
[править | править код]К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:
- токенизация (разбиение на орфографические слова)
- лемматизация (приведение словоформ к словарной форме)
- морфологический анализ
Проблема представления результатов
[править | править код]В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.
Веб как корпус
[править | править код]Использование поисковых машин
[править | править код]В качестве корпуса может использоваться множество текстов, доступных в интернете (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. Такая методология получила название англ. Googleology[5]. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.). Кроме того, дело осложняется малой распространённостью семантической вёрстки.
На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также статистика запросов.
Использование веб-страниц
[править | править код]Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета[6].
Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов[7].
Проект Татоэба
[править | править код]В 2006 году появился сайт Татоэба (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений — 600000[8]. Любой желающий может добавлять новые предложения и их переводы, а при необходимости — бесплатно скачать целиком или частично все языковые корпусы.
Открытый корпус русского языка
[править | править код]Интерес представляет проект открытого корпуса русского языка, который не только использует опубликованные под свободными лицензиями тексты, но и позволяет любому желающему принять участие в лингвистической разметке корпуса. Такая форма краудсорсинга стала возможной благодаря разбиению задачи разметки на небольшие задания, с большинством из которых может справиться человек без специальной лингвистической подготовки[9]. Корпус постоянно пополняется, все тексты и программное обеспечение, связанные с ним, доступны под лицензиями GNU GPL v2 и CC-BY-SA.
См. также
[править | править код]- Компьютерная лингвистика
- Национальный корпус русского языка
- Татоэба
- Мангеймский корпус немецкого языка
- Корпус современного американского английского языка
- Британский национальный корпус
Примечания
[править | править код]- ↑ Встречаются ударения как на первом, так и на предпоследнем слоге. «…прилагательное должно произноситься с ударением на первом слоге — „ко́рпусный“ (Большой толковый словарь русского язы-ка, СПб., 1998). В то же время анализ узуса специалистов пока свидетельствует в пользу форм „корпуса́“, „корпусно́й“, „корпусна́я“, которые используются часто, так что можно, видимо, с осторожностью сказать, что в настоящее время этот вопрос остается открытым. Правила, регламентирующего употребление той или иной формы применительно к корпусной лингвистике, пока нет, хотя, как представляется, победить должен вариант „корпусы“, поскольку он отличает терминологическое значение слова от его общеупотребительного значения. В учебнике авторы будут использовать именно этот вариант». Захаров В. П., Богданова С. Ю. Корпусная лингвистика Архивная копия от 3 июля 2019 на Wayback Machine. СПб, 2013
- ↑ 1 2 Захаров, Богданова, 2013, с. 5.
- ↑ Довнар П.Ю., Воронцов А.В. Лингвистический процессор китайского языка. Особенности разработки // Международный конгресс по информатике: информационные системы и технологии: материалы международного научного конгресса 31 окт. – 3 нояб. 2011 г.. — Минск: БГУ: БГУ, 2011. Архивировано 24 октября 2018 года.
- ↑ Статистика. Национальный корпус русского языка . www.ruscorpora.ru. Дата обращения: 27 декабря 2019. Архивировано 29 декабря 2019 года.
- ↑ Kilgarriff A. Googleology is bad science. Архивная копия от 8 сентября 2008 на Wayback Machine Computational Linguistics,, 33(1), 2007.
- ↑ Baroni M. and Bernardini S. (editors). WaCky! Working papers on the Web as Corpus. Архивная копия от 31 марта 2022 на Wayback Machine Gedit, Bologna, 2006.
- ↑ См. работы: Wikipedia in academic studies
- ↑ Список предложений по языкам . Дата обращения: 16 декабря 2010. Архивировано 11 марта 2011 года.
- ↑ Бочаров В.В., Грановский Д.В. Программное обеспечение для коллективной работы над морфологической разметкой корпуса // Труды международной конференции «Корпусная лингвистика – 2011». — Санкт-Петербург: СПб.: С.-Петербургский гос. университет, Филологический факультет, 2011. Архивировано 13 февраля 2017 года.
Литература
[править | править код]- Захаров В. П., Богданова С. Ю. Корпусная лингвистика: Учебник для студентов направления «Лингвистика». — 2-е изд, перераб. и дополн. — СПб.: СПбГУ. РИО. Филологический факультет., 2013. — 148 с.
Ссылки
[править | править код]- Учебник по корпусной лингвистике [1]
- Национальный корпус русского языка
- Открытый корпус русского языка
- Сайт семинара по корпусной и компьютерной лингвистике, проводящегося в Институте лингвистических исследований РАН
- Коллекция корпусов на corpus.leeds.ac.uk (англ.)
- Коллекции корпусов на сайте Дэвида Ли (англ.)
- Уппсальский корпус
- Корпус ХАНКО: форма поиска
- Special Interest Group on Web as Corpus (англ.)
- Архив рассылки Corpora-List (англ.)
- Сайт проекта Татоэба
- Размеченные коллекции для задачи извлечения информации (на сайте Исследовательского центра искусственного интеллекта)