Автоматическое реферирование

Автомати́ческое рефери́рование, анноти́рование — создание краткой версии (реферата, аннотации) текстового документа с помощью компьютерной программы.

История

Первая работа по автоматическому реферированию была сделана американским учёным Г. П. Луном^[вд] в 1958 г. на материале английского языка.^[1]^[2]^[3] Принципы экстрактивного реферирования были сформулированы Дж. Солтоном^[вд] в конце 50-х — начале 60-х годов.^[2]^[4]

В СССР первооткрывателями в области автоматического реферирования стали В. Е. Берзон, И. П. Cевбо, Э. Ф. Скороходько^[вд], Д. Г. Лахути, Р. Г. Пиотровский и др.^[5]^[2]

Подходы

Выделяется два основных подхода к автоматическому реферированию: извлекающий (экстрагирующий, поверхностный) и генерирующий (абстрагирующий, глубинный).^[6]^[1]^[5]^[2]

Извлекающий (экстракция)

Из исходного текста выбираются наиболее важные фразы, предложения или абзацы, совокупность которых образует некоторый экстракт, квазиреферат.^[5] При этом данные фрагменты не обрабатывают, а извлекают в том порядке и виде, в каком они приведены в исходном тексте.^[6]

Достоинства подхода: независимость от предметной области, сравнительная простота разработки.^[1] Недостатки: бессвязность результата.^[1]

Генерирующий (абстракция)

Генерирующие методы основаны на лингвистических правилах обработки естественного языка или методах искусственного интеллекта.^[6] Они содержательно обобщают исходный документ, создавая текст, явно в нём не представленный.^[6]

Достоинства подхода: лучшее качество результата.^[1] Недостатки: сложность практической реализации, необходимость сбора большого количества лингвистических знаний.^[1]

Примечания

↑ ¹ ² ³ ⁴ ⁵ ⁶ Батура Т. В., Бакиева А. М. Методы и системы автоматического реферирования текстов — Новосибирск: 2019. — 110 с. — 100 экз. — ISBN 978-5-4437-0974-1
↑ ¹ ² ³ ⁴ Седова Е. П. Автоматическое реферирование научных публикаций средствами синтаксического анализа на материале современных статей по компьютерному си — СПб.: 2018. — 49 с.
↑ Luhn H. P. The Automatic Creation of Literature Abstracts (англ.) // IBM Journal of Research and Development / C. A. Pickover — IBM Corporation, IEEE, 1958. — Vol. 2, Iss. 2. — P. 159—165. — ISSN 0018-8646; 2151-8556 — doi:10.1147/RD.22.0159
↑ Salton G. Dynamic Information and Library Processing (англ.) — 1975. — 523 p.
↑ ¹ ² ³ Тревгода С. А. Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений — СПб.: 2009. — 157 с. — 100 экз.
↑ ¹ ² ³ ⁴ Осминин П. Г. Современные подходы к автоматическому реферированию и аннотированию // Вестник Южно-Уральского государственного университета — Челябинск: 2012. — вып. 25. — С. 134–135.

[batura-1] ¹ ² ³ ⁴ ⁵ ⁶ Батура Т. В., Бакиева А. М. Методы и системы автоматического реферирования текстов — Новосибирск: 2019. — 110 с. — 100 экз. — ISBN 978-5-4437-0974-1

[sedova-2] ¹ ² ³ ⁴ Седова Е. П. Автоматическое реферирование научных публикаций средствами синтаксического анализа на материале современных статей по компьютерному си — СПб.: 2018. — 49 с.

[3] Luhn H. P. The Automatic Creation of Literature Abstracts (англ.) // IBM Journal of Research and Development / C. A. Pickover — IBM Corporation, IEEE, 1958. — Vol. 2, Iss. 2. — P. 159—165. — ISSN 0018-8646; 2151-8556 — doi:10.1147/RD.22.0159

[4] Salton G. Dynamic Information and Library Processing (англ.) — 1975. — 523 p.

[trevgoda-5] ¹ ² ³ Тревгода С. А. Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений — СПб.: 2009. — 157 с. — 100 экз.

[osminin-6] ¹ ² ³ ⁴ Осминин П. Г. Современные подходы к автоматическому реферированию и аннотированию // Вестник Южно-Уральского государственного университета — Челябинск: 2012. — вып. 25. — С. 134–135.

[1]

[2]

[3]

[4]

[5]

[6]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Автоматическое реферирование

Содержание

История

Подходы

Извлекающий (экстракция)

Генерирующий (абстракция)

Примечания

Навигация

Автоматическое реферирование

История

Подходы

Извлекающий (экстракция)

Генерирующий (абстракция)

Примечания

Навигация

Поиск