- Descriptif :
databricks-dolly-15k
est un ensemble de données open source d'enregistrements de suivi des instructions utilisés dans la formation databricks/dolly-v2-12b qui a été généré par des milliers d'employés de Databricks dans plusieurs des catégories comportementales décrites dans le document InstructGPT , notamment le brainstorming, la classification, Assurance qualité fermée, génération, extraction d'informations, assurance qualité ouverte et synthèse.
Cet ensemble de données peut être utilisé à toutes fins, qu'elles soient académiques ou commerciales, selon les termes de la licence Creative Commons Attribution-ShareAlike 3.0 Unported .
Page d'accueil : https://github.com/databrickslabs/dolly
Code source :
tfds.datasets.databricks_dolly.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
12.60 MiB
Taille de l'ensemble de données :
12.69 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'train' | 15 014 |
- Structure des fonctionnalités :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
catégorie | Texte | chaîne | ||
contexte | Texte | chaîne | ||
instruction | Texte | chaîne | ||
réponse | Texte | chaîne |
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) :
- Citation :