Generative pre-trained transformer

Generative pre-trained transformer или GPT (рус. Генеративный предобученный трансформер) — это тип нейронных языковых моделей, впервые представленных компанией OpenAI^{[источник не указан 365 дней]}, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.

Языковые модели GPT от OpenAI

11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный предобученный трансформер (GPT)^[1]. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали обучение с учителем на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей^[2]. Кроме того, многие языки (такие как суахили или гаитянский креольский) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках^[2]. Предложенный OpenAI подход слабонадзорного ("полунадзорного")^[англ.] обучения на основе модели GPT включает два этапа:

несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
собственное дискриминативное (различительное)^[англ.] «дообучающее» обучение, на котором эти параметры адаптируются к конкретной задаче.

Версии GPT от OpenAI
	Использование	Архитектура	Количество параметров	Тренировочные данные	Дата выпуска
GPT-1	Общее	12-уровневый декодер-трансформер с 12 головками (без кодировщика), за которым следует линейный софтмакс.	117 миллионов	BookCorpus: 4,5 ГБ текста из 7000 неизданных книг разных жанров.^[3]	11 июня 2018^[4]
GPT-2^[англ.]	Общее	GPT-1, но с изменённой нормализацией^[англ.].	1,5 миллиарда (▲1 273 000 %)	WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц, за которые проголосовали на Reddit.	14 февраля 2019
GPT-3	Общее	GPT-2, но с изменениями для возможности масштабирования в большем объёме.	175 миллиардов (▲11 566 %)	570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных Common Crawl, WebText, английской Википедии, а также BookCorpus.	11 июня 2020^[5]
InstructGPT (GPT-3.5)	Разговор	GPT-3, тонко настроенный^[англ.] для выполнения инструкций с использованием обратной связи с человеком.	175 миллиардов^[6]	Неизвестно	4 марта 2022
ChatGPT	Диалог	Использует GPT-3.5 и тонко настроенн^[англ.] (подход к трансферному обучению^[англ.]) как с обучением с учителем, так и с RLHF (обучение с подкреплением на основе отзывов людей).	Неизвестно	Неизвестно	30 ноября 2022
GPT-4	Общее	Также обучен на основе предсказания текста и основан на обучении с подкреплением. Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.^[7]	Неизвестно	Неизвестно	14 марта 2023

Другие (производные) модели GPT

После того, как OpenAI выпустила свою модель GPT-3, EleutherAI выпустила ряд больших языковых моделей (LLM) с открытым исходным кодом, и её модель GPT-J привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.

Основные GPT от других разработчиков
	Использование	Архитектура	Количество параметров	Тренировочные данные	Дата выпуска	Разработчик
GPT-J	Общее	Параллельный декодер	6 миллиардов	Набор данных объёмом 825 ГБ с открытым исходным кодом (называемый «кучей»)	9 июня 2021	EleutherAI
BLOOM	Общее	Трансформер только для декодера	176 миллиардов	Данные 46 естественных языков и 13 языков программирования; Всего 1,6 терабайт предварительно обработанного текста.	6 июля 2022	Hugging Face
BioGPT	Биомедицинский контент^[8]^[9]	Как в GPT-2 Medium (24 слоев, 16 головок)	347 миллионов	Непустые записи из PubMed (всего 1,5 миллиона).	24 сентября 2022	Microsoft

Примечания

↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya Improving Language Understanding by Generative Pre-Training (неопр.) 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.
↑ ¹ ² Tsvetkov, Yulia Opportunities and Challenges in Working with Low-Resource Languages (неопр.). Carnegie Mellon University (22 июня 2017). Дата обращения: 23 января 2021. Архивировано 31 марта 2020 года.
↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19—27. arXiv:1506.06724. Архивировано 5 февраля 2023. Дата обращения: 7 февраля 2023.
↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya Improving Language Understanding by Generative Pre-Training (неопр.) 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.
↑ Language models are few-shot learners (амер. англ.). openai.com. Дата обращения: 21 марта 2023. Архивировано 21 марта 2023 года.
↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; et al. (2022-03-04). "Training language models to follow instructions with human feedback". arXiv:2203.02155. {{cite journal}}: Cite journal требует |journal= (справка)
↑ OpenAI GPT-4 Technical Report (неопр.) (2023). Дата обращения: 16 марта 2023. Архивировано 14 марта 2023 года.
↑ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; et al. (2022-09-24). "BioGPT: generative pre-trained transformer for biomedical text generation and mining". Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661. Архивировано 1 апреля 2023. Дата обращения: 7 февраля 2023.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
↑ Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks (неопр.). The Decoder (29 января 2023). Дата обращения: 7 февраля 2023. Архивировано 7 февраля 2023 года.

[gpt1paper-1] Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya Improving Language Understanding by Generative Pre-Training (неопр.) 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.

[tsvetkov-2] ¹ ² Tsvetkov, Yulia Opportunities and Challenges in Working with Low-Resource Languages (неопр.). Carnegie Mellon University (22 июня 2017). Дата обращения: 23 января 2021. Архивировано 31 марта 2020 года.

[3] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19—27. arXiv:1506.06724. Архивировано 5 февраля 2023. Дата обращения: 7 февраля 2023.

[gpt1paper2-4] Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya Improving Language Understanding by Generative Pre-Training (неопр.) 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.

[5] Language models are few-shot learners (амер. англ.). openai.com. Дата обращения: 21 марта 2023. Архивировано 21 марта 2023 года.

[6] Ouyang, Long; Wu, Jeff; Jiang, Xu; et al. (2022-03-04). "Training language models to follow instructions with human feedback". arXiv:2203.02155. {{cite journal}}: Cite journal требует |journal= (справка)

[7] OpenAI GPT-4 Technical Report (неопр.) (2023). Дата обращения: 16 марта 2023. Архивировано 14 марта 2023 года.

[pmid36156661-8] Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; et al. (2022-09-24). "BioGPT: generative pre-trained transformer for biomedical text generation and mining". Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661. Архивировано 1 апреля 2023. Дата обращения: 7 февраля 2023.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[9] Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks (неопр.). The Decoder (29 января 2023). Дата обращения: 7 февраля 2023. Архивировано 7 февраля 2023 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Персональный искусственный интеллект Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Generative pre-trained transformer

Языковые модели GPT от OpenAI

Другие (производные) модели GPT

Примечания

Навигация

Поиск