- Описание :
SuperGLUE ( https://super.gluebenchmark.com/ ) — это новый тест, стилизованный под GLUE, с новым набором более сложных задач на понимание языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.
Дополнительная документация : изучить документы с кодом
Исходный код :
tfds.text.SuperGlue
Версии :
-
1.0.2
(по умолчанию): нет примечаний к выпуску.
-
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
super_glue/boolq (конфигурация по умолчанию)
Описание конфигурации : BoolQ (Boolean Questions, Clark et al., 2019a) — это задача контроля качества, где каждый пример состоит из короткого отрывка и вопроса «да/нет» о отрывке. Вопросы предоставляются анонимно и по собственной инициативе пользователями поисковой системы Google, а затем сопровождаются абзацем из статьи в Википедии, содержащей ответ. Следуя оригинальной работе, мы оцениваем с точностью.
Домашняя страница : https://github.com/google-research-datasets/boolean-questions
Размер загрузки :
3.93 MiB
Размер набора данных :
10.75 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 3245 |
'train' | 9427 |
'validation' | 3270 |
- Структура функции :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'passage': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
проход | Текст | нить | ||
вопрос | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{clark2019boolq,
title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
booktitle={NAACL},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/cb
Описание конфига : CommitmentBank (De Marneffe et al., 2019) — это корпус коротких текстов, в котором хотя бы одно предложение содержит встроенную оговорку. Каждое из этих встроенных предложений аннотировано в той степени, в которой мы ожидаем, что человек, написавший текст, привержен истине предложения. Полученная задача оформлена в виде трехклассового текстового следования на примерах, взятых из Wall Street Journal, художественной литературы из Британского национального корпуса и Switchboard. Каждый пример состоит из предпосылки, содержащей встроенное предложение, и соответствующая гипотеза является извлечением этого предложения. Мы используем подмножество данных, у которых согласованность между аннотаторами выше 0,85. Данные несбалансированы (относительно меньше нейтральных примеров), поэтому мы оцениваем, используя точность и F1, где для нескольких классов F1 мы вычисляем невзвешенное среднее значение F1 для каждого класса.
Домашняя страница : https://github.com/mcdm/CommitmentBank
Размер загрузки :
73.71 KiB
Размер набора данных :
229.28 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 250 |
'train' | 250 |
'validation' | 56 |
- Структура функции :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
гипотеза | Текст | нить | ||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
помещение | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{de marneff_simons_tonhauser_2019,
title={The CommitmentBank: Investigating projection in naturally occurring discourse},
journal={proceedings of Sinn und Bedeutung 23},
author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/копа
Описание конфигурации : набор данных «Выбор правдоподобных альтернатив» (COPA, Roemmele et al., 2011) — это задача на причинно-следственные рассуждения, в которой системе дается исходное предложение и две возможные альтернативы. Система должна выбрать альтернативу, которая имеет более правдоподобную причинно-следственную связь с предпосылкой. Метод, используемый для построения альтернатив, гарантирует, что задача требует причинно-следственных рассуждений для решения. Примеры имеют дело либо с альтернативными возможными причинами, либо с альтернативными возможными последствиями предпосылки предложения, сопровождаясь простым вопросом, устраняющим неоднозначность между двумя типами экземпляров для модели. Все примеры созданы вручную и посвящены темам из онлайн-блогов и энциклопедии, связанной с фотографией. Следуя рекомендации авторов, мы оцениваем с помощью точности.
Домашняя страница : http://people.ict.usc.edu/~gordon/copa.html
Размер загрузки :
42.96 KiB
Размер набора данных :
196.00 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 500 |
'train' | 400 |
'validation' | 100 |
- Структура функции :
FeaturesDict({
'choice1': Text(shape=(), dtype=string),
'choice2': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
выбор1 | Текст | нить | ||
выбор2 | Текст | нить | ||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
помещение | Текст | нить | ||
вопрос | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{roemmele2011choice,
title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
booktitle={2011 AAAI Spring Symposium Series},
year={2011}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/мультирк
Описание конфигурации : Набор данных для понимания прочитанного с несколькими предложениями (MultiRC, Khashabi et al., 2018) представляет собой задание на ответ на вопрос «верно/неверно». Каждый пример состоит из абзаца контекста, вопроса об этом абзаце и списка возможных ответов на этот вопрос, которые должны быть помечены как истинные или ложные. Вопросы-ответы (QA) — популярная проблема со многими наборами данных. Мы используем MultiRC из-за ряда желательных свойств: (i) каждый вопрос может иметь несколько возможных правильных ответов, поэтому каждая пара вопрос-ответ должна оцениваться независимо от других пар, (ii) вопросы составлены таким образом, что для ответа на каждый вопрос требуется извлечение фактов из нескольких контекстных предложений, и (iii) формат пары вопрос-ответ более точно соответствует API других задач SuperGLUE, чем извлекающий QA на основе диапазона. Абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.
Домашняя страница : https://cogcomp.org/multirc/
Размер загрузки :
1.06 MiB
Размер набора данных :
70.39 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 9693 |
'train' | 27 243 |
'validation' | 4848 |
- Структура функции :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'idx': FeaturesDict({
'answer': int32,
'paragraph': int32,
'question': int32,
}),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
отвечать | Текст | нить | ||
IDX | ОсобенностиDict | |||
идентификатор/ответ | Тензор | int32 | ||
идентификатор/абзац | Тензор | int32 | ||
идентификатор/вопрос | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
параграф | Текст | нить | ||
вопрос | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{MultiRC2018,
author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
year = {2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/запись
Описание конфигурации : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) — это задача контроля качества с несколькими вариантами ответов. Каждый пример состоит из новостной статьи и вопроса в стиле Клоуза о статье, в которой замаскирован один объект. Система должна предсказать замаскированный объект из заданного списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен с использованием нескольких различных поверхностных форм, все из которых считаются правильными. Статьи взяты из CNN и Daily Mail. Следуя оригинальной работе, мы оцениваем максимальный (по всем упоминаниям) уровень токена F1 и точное соответствие (EM).
Домашняя страница : https://sheng-z.github.io/ReCoRD-explorer/
Размер загрузки :
49.36 MiB
Размер набора данных :
166.40 MiB
.Автоматическое кэширование ( документация ): да (тест, проверка), только если
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 10 000 |
'train' | 100 730 |
'validation' | 10 000 |
- Структура функции :
FeaturesDict({
'answers': Sequence(Text(shape=(), dtype=string)),
'entities': Sequence(Text(shape=(), dtype=string)),
'idx': FeaturesDict({
'passage': int32,
'query': int32,
}),
'passage': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
ответы | Последовательность (текст) | (Никто,) | нить | |
сущности | Последовательность (текст) | (Никто,) | нить | |
IDX | ОсобенностиDict | |||
IDX/проход | Тензор | int32 | ||
идентификатор/запрос | Тензор | int32 | ||
проход | Текст | нить | ||
запрос | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{zhang2018record,
title={Record: Bridging the gap between human and machine commonsense reading comprehension},
author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
journal={arXiv preprint arXiv:1810.12885},
year={2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/rte
Описание конфигурации : наборы данных Recognizing Textual Entailment (RTE) получены из серии ежегодных соревнований по текстовому следствию, проблеме предсказания того, влечет ли данное предложение с посылкой данное предложение-гипотеза (также известное как вывод на естественном языке, NLI). RTE ранее был включен в GLUE, и мы используем те же данные и формат, что и раньше: мы объединяем данные из RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) и RTE5 (Bentivogli et al., 2009). Все наборы данных объединяются и преобразуются в двухклассовую классификацию: влечения и не влечения. Из всех задач GLUE задача RTE оказалась в числе задач, получивших наибольшую пользу от трансферного обучения: она перешла от почти случайной производительности (~ 56 %) во время запуска GLUE к точности 85 % (Liu et al., 2019c) в момент запуска GLUE. время написания. Однако, учитывая восьмибалльный разрыв в отношении производительности человека, задача еще не решена машинами, и мы ожидаем, что оставшийся разрыв будет трудно закрыть.
Домашняя страница : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
Размер загрузки :
733.32 KiB
Размер набора данных :
2.15 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 3000 |
'train' | 2490 |
'validation' | 277 |
- Структура функции :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
гипотеза | Текст | нить | ||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
помещение | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wic
Описание конфигурации : набор данных Word-in-Context (WiC, Pilehvar and Camacho-Collados, 2019) поддерживает задачу устранения неоднозначности смысла слов, представленную как двоичная классификация пар предложений. Имея два предложения и многозначное (неоднозначное по смыслу) слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли это слово в одном и том же смысле в обоих предложениях. Предложения взяты из WordNet (Miller, 1995), VerbNet (Schuler, 2005) и Викисловаря. Мы следим за оригинальной работой и оцениваем с помощью точности.
Домашняя страница : https://pilehvar.github.io/wic/
Размер загрузки :
386.93 KiB
Размер набора данных :
1.67 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1400 |
'train' | 5428 |
'validation' | 638 |
- Структура функции :
FeaturesDict({
'end1': int32,
'end2': int32,
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
'start1': int32,
'start2': int32,
'word': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
конец1 | Тензор | int32 | ||
конец2 | Тензор | int32 | ||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
предложение1 | Текст | нить | ||
предложение2 | Текст | нить | ||
старт1 | Тензор | int32 | ||
старт2 | Тензор | int32 | ||
слово | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{DBLP:journals/corr/abs-1808-09121,
author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
journal={CoRR},
volume={abs/1808.09121},
year={2018},
url={http://arxiv.org/abs/1808.09121},
archivePrefix={arXiv},
eprint={1808.09121},
timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc
- Описание конфигурации : Winograd Schema Challenge (WSC, Levesque et al., 2012) — это задача на понимание прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка вариантов. Учитывая сложность этой задачи и оставшийся запас, мы включили WSC в SuperGLUE и преобразовали набор данных в его корреферентную форму. Задача представляет собой проблему бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать кореферентные связи внутри предложения, в отличие от различных других стратегий, которые могут вступить в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательным классом большинства в проверочном наборе, отражающим распределение скрытого тестового набора, и 52% отрицательным классом в обучающем наборе. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также из тех, которые распространяются аффилированной организацией Commonsense Reasoning. Тестовые примеры взяты из художественных книг и предоставлены нам авторами исходного набора данных. Ранее версия WSC, преобразованная в NLI, включенная в GLUE, была известна как WNLI. В WNLI не было достигнуто существенного прогресса, поскольку во многих заявках было решено отправлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения обучения и разработки: предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутым ярлыком. Если система запоминала тренировочный набор без осмысленного обобщения, что было легко из-за небольшого размера тренировочного набора, она могла работать намного ниже шанса на наборе для разработки. Мы удаляем этот враждебный дизайн в версии WSC для SuperGLUE, гарантируя, что никакие предложения не будут использоваться совместно между обучающими, проверочными и тестовыми наборами.
Однако проверочные и тестовые наборы исходят из разных доменов, при этом проверочный набор состоит из неоднозначных примеров, так что изменение одного слова фразы, не являющейся существительным, изменит кореферентные зависимости в предложении. Тестовый набор состоит только из более простых примеров с большим количеством словосочетаний с существительными (и, следовательно, с большим количеством вариантов для модели), но с низкой двусмысленностью или без нее.
Домашняя страница : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Размер загрузки :
31.98 KiB
Размер набора данных :
219.70 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- Структура функции :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
span1_index | Тензор | int32 | ||
span1_text | Текст | нить | ||
span2_index | Тензор | int32 | ||
span2_text | Текст | нить | ||
текст | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc.fixed
- Описание конфигурации : Winograd Schema Challenge (WSC, Levesque et al., 2012) — это задача на понимание прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка вариантов. Учитывая сложность этой задачи и оставшийся запас, мы включили WSC в SuperGLUE и преобразовали набор данных в его корреферентную форму. Задача представляет собой проблему бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать кореферентные связи внутри предложения, в отличие от различных других стратегий, которые могут вступить в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательным классом большинства в проверочном наборе, отражающим распределение скрытого тестового набора, и 52% отрицательным классом в обучающем наборе. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также из тех, которые распространяются аффилированной организацией Commonsense Reasoning. Тестовые примеры взяты из художественных книг и предоставлены нам авторами исходного набора данных. Ранее версия WSC, преобразованная в NLI, включенная в GLUE, была известна как WNLI. В WNLI не было достигнуто существенного прогресса, поскольку во многих заявках было решено отправлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения обучения и разработки: предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутым ярлыком. Если система запоминала тренировочный набор без осмысленного обобщения, что было легко из-за небольшого размера тренировочного набора, она могла работать намного ниже шанса на наборе для разработки. Мы удаляем этот враждебный дизайн в версии WSC для SuperGLUE, гарантируя, что никакие предложения не будут использоваться совместно между обучающими, проверочными и тестовыми наборами.
Однако проверочные и тестовые наборы исходят из разных доменов, при этом проверочный набор состоит из неоднозначных примеров, так что изменение одного слова фразы, не являющейся существительным, изменит кореферентные зависимости в предложении. Тестовый набор состоит только из более простых примеров с большим количеством словосочетаний с существительными (и, следовательно, с большим количеством вариантов для модели), но с низкой двусмысленностью или без нее.
В этой версии устранены проблемы, из-за которых интервалы на самом деле не являются подстроками текста.
Домашняя страница : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Размер загрузки :
31.98 KiB
Размер набора данных :
219.70 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- Структура функции :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
span1_index | Тензор | int32 | ||
span1_text | Текст | нить | ||
span2_index | Тензор | int32 | ||
span2_text | Текст | нить | ||
текст | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axb
Описание конфигурации : созданный экспертами набор диагностических данных, который автоматически проверяет модели на широкий спектр лингвистических, здравых и мировых знаний. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следования (последствие, нейтральное или противоречие) и помеченных ярлыками, которые указывают на явления, характеризующие отношения между двумя предложениями. Заявки в таблицу лидеров GLUE должны включать прогнозы классификатора MultiNLI отправки в наборе диагностических данных, а анализ результатов был показан вместе с основной таблицей лидеров. Поскольку эта широкомасштабная диагностическая задача оказалась сложной для топовых моделей, мы сохранили ее в SuperGLUE. Однако, поскольку MultiNLI не является частью SuperGLUE, мы объединяем противоречие и нейтральность в единую метку not_entailment и просим, чтобы представленные материалы включали прогнозы результирующего набора из модели, используемой для задачи RTE.
Домашняя страница : https://gluebenchmark.com/diagnostics
Размер загрузки :
33.15 KiB
Размер набора данных :
290.53 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1104 |
- Структура функции :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
предложение1 | Текст | нить | ||
предложение2 | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axg
Описание конфига: Winogender предназначен для измерения гендерной предвзятости в системах разрешения кореферентности. Мы используем версию Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018), в которой Winogender рассматривается как текстовая задача следствия. Каждый пример состоит из исходного предложения с мужским или женским местоимением и гипотезы, дающей возможный антецедент местоимения. Примеры встречаются в минимальных парах, где единственная разница между примером и его парой - это род местоимения в посылке. Производительность на Winogender измеряется как точностью, так и оценкой гендерного паритета: процентом минимальных пар, для которых прогнозы совпадают. Мы отмечаем, что система может тривиально получить идеальный показатель гендерного паритета, угадывая один и тот же класс для всех примеров, поэтому высокий показатель гендерного паритета не имеет смысла, если он не сопровождается высокой точностью. В качестве диагностического теста гендерной предвзятости мы рассматриваем схемы как имеющие высокую положительную прогностическую ценность и низкую отрицательную прогностическую ценность; то есть они могут продемонстрировать наличие гендерной предвзятости в системе, но не доказать ее отсутствие.
Домашняя страница : https://github.com/rudinger/winogender-schemas
Размер загрузки :
10.17 KiB
Размер набора данных :
69.75 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 356 |
- Структура функции :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
гипотеза | Текст | нить | ||
IDX | Тензор | int32 | ||
этикетка | Метка класса | int64 | ||
помещение | Текст | нить |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{rudinger-EtAl:2018:N18,
author = {Rudinger, Rachel and Naradowsky, Jason and Leonard, Brian and {Van Durme}, Benjamin},
title = {Gender Bias in Coreference Resolution},
booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2018},
address = {New Orleans, Louisiana},
publisher = {Association for Computational Linguistics}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.