Perete (7.043 subiecte)
Sugestii
Înainte de a pune o întrebare, asigurați-vă că ați citit Întrebările frecvente.
Ne propunem să menținem o atmosferă pozitivă pentru discuții civilizate. Vă rugăm să citiți regulile noastre împotriva comportamentului necorespunzător.
Borbie
acum 12 ore
Yorwba
acum 22 ore
Borbie
acum 3 zile
PaulP
acum 7 zile
sharptoothed
acum 7 zile
CK
acum 8 zile
CK
acum 16 zile
AlanF_US
acum 20 zile
sananab
acum 20 zile
sharptoothed
acum 21 zile
I think the Cyrillic/Latin transliterator for Uzbek is redundant, since the language has officially transitioned into the Latin alphabet in 2023, and some languages using both alphabets already don't have that feature (for example, Serbian).
The transliteration feature was there when Uzbek was first added into Tatoeba, back in 2010.
I remember Georgian having the transliteration feature, but that was removed since it was redundant for a phonemic language.
It's not completely redundant, as there are a bunch of Uzbek sentences in the database using Cyrillic script. And the transliteration feature makes it possible to find them even when you're using Latin script to search: https://tatoeba.org/en/sentence...ry=dushmanning
I wasn't aware of this side of the transliteration feature until now. Thank you for letting me know about it!
Is there an open-source English sentence database similar to Tatoeba?
Mozilla's Common Voice is similar in collecting sentences and recordings thereof. It does not have the translation aspect of Tatoeba.
See https://commonvoice.mozilla.org/
If you just need English sentences, there are a few. However, I have looked myself, and found Tatoeba to be of the best quality, especially for English.
English-only:
• English Penn Treebank (Pennsylvania State University)
... is not something I know much about.
• English Web Treebank (Universal Dependencies)
... is mostly composed of biased sentence picks, but each has a grammatical breakdown. Stanford's NLP project Stanza uses it.
• Common Voice (Mozilla Foundation)
... as Augustus said!
With translation:
• OpenSubtitles2018 Corpus (OpenSubtitles)
... isn't very good for high-fidelity translation, but is rather natural, apart from its dramatizations.
Honorable mentions:
• Google Books Ngram Dataset (Google)
... only has a few languages. For example, their Japanese dataset is old and can only be accessed via purchase in yen.
• Wikipedia and Wiktionary (Wikimedia Foundation)
• Any other English (meta)corpora out there
https://www.google.com/search?q...s"%7C"dataset"
It really depends on your intentions and usage, as all corpora have their biases, unfortunately.
Conținutul acestui mesaj contravine regulilor noastre și, prin urmare, a fost ascuns. Este afișat numai pentru admini și pentru autorul mesajului.
Conținutul acestui mesaj contravine regulilor noastre și, prin urmare, a fost ascuns. Este afișat numai pentru admini și pentru autorul mesajului.
Conținutul acestui mesaj contravine regulilor noastre și, prin urmare, a fost ascuns. Este afișat numai pentru admini și pentru autorul mesajului.
🍎 Random Esperanto Sentences with Audio by PaulP
https://bit.ly/rndepoaudio
Interesting link, CK. Thanks!
✹✹ Stats & Graphs ✹✹
Tatoeba Stats, Graphs & Charts have been updated:
https://tatoeba.j-langtools.com/allstats/
Conținutul acestui mesaj contravine regulilor noastre și, prin urmare, a fost ascuns. Este afișat numai pentru admini și pentru autorul mesajului.
Conținutul acestui mesaj contravine regulilor noastre și, prin urmare, a fost ascuns. Este afișat numai pentru admini și pentru autorul mesajului.
Conținutul acestui mesaj contravine regulilor noastre și, prin urmare, a fost ascuns. Este afișat numai pentru admini și pentru autorul mesajului.
Conținutul acestui mesaj contravine regulilor noastre și, prin urmare, a fost ascuns. Este afișat numai pentru admini și pentru autorul mesajului.