- 説明:
DART (DAta Record to Text generation) には、トリプル セット内のすべての事実をカバーする文の説明で注釈が付けられた RDF エンティティ関係が含まれています。 DART は、WikiTableQuestions、WikiSQL、WebNLG、Cleaned E2E などの既存のデータセットを使用して構築されました。 WikiTableQuestions と WikiSQL のテーブルは主語-述語-目的語のトリプルに変換され、そのテキスト注釈は主に MTurk から収集されました。 E2E の意味のある表現もトリプルに変換され、その記述が使用されました。変換できなかったものは削除されました。
E2E と WebNLG のデータセット分割は維持され、WikiTableQuestions と WikiSQL では Jaccard 類似性を使用して同じセット (train/dev/tes) に類似のテーブルを維持します。
このデータセットは、標準化されたテーブル形式に従って構築されています。
追加のドキュメント:コード を使用したペーパーの探索
ソースコード:
tfds.structured.dart.Dart
バージョン:
-
0.1.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
249.71 MiB
データセットのサイズ:
38.83 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 12,552 |
'train' | 62,659 |
'validation' | 6,980 |
- 機能構造:
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
入力テキスト | 特徴辞書 | |||
入力テキスト/テーブル | 順序 | |||
input_text/table/column_header | テンソル | ストリング | ||
入力テキスト/テーブル/コンテンツ | テンソル | ストリング | ||
入力テキスト/テーブル/行番号 | テンソル | int16 | ||
target_text | テンソル | ストリング |
監視されたキー(
as_supervised
docを参照):('input_text', 'target_text')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}