Лингвистички повезани отворени подаци
У процесу обраде природних језика, лингвистике и сродних поља, Лингвистички повезани отворени подаци (LLOD) описују методу и интердисциплинарну заједницу која се бави креирањем, дељењем и (поновном) употребом језичких ресурса у складу са принципима повезаних података. Облак лингвистичких повезаних отворених података креирала је и одржава га Радна група за отворену лингвистику (OWLG) Фондације за отворено знање. Облак лингвистичких повезаних отворених података је такође фокус активности више група W3C заједнице, потом истраживачких пројеката и инфраструктурних напора.
Лингвистички повезани отворени подаци
[уреди | уреди извор]Лингвистички повезани отворени подаци објављују податке из области лингвистике и обраде природних језика користећи следеће принципе: [1]
- Подаци би требало да буду лиценцирани коришћењем отворених лиценци као што су Creative Commons лиценце.
- Елементи у скупу података требало би да буду јединствено идентификовани помоћу једиинствених идентификатора ресурса - URI.
- URI би требало да буде разрешен, тако да корисници могу да приступе додатним информацијама путем веб прегледача.
- Разрешавање ресурса LLOD требало би да врати резултате користећи веб стандарде као што су Оквир за опис ресурса (RDF).
- Везе до других ресурса треба да буду укључене како би помогле корисницима да открију нове ресурсе и обезбеде семантику.
Главне предности LLOD-а су: [2]
- Репрезентација: Повезани графови су флексибилнији формат репрезентације језичких података.
- Интероперабилност: Заједнички RDF модели се могу лако интегрисати.
- Федерација: Подаци из више извора могу се једноставно комбиновати.
- Екосистем: Алати за RDF и повезане податке су широко доступни под лиценцама отвореног кода.
- Изражајност: Постојећи речници помажу у изражавању језичких ресурса.
- Семантика: Заједничке везе изражавају шта се мисли.
- Динамичност: Веб подаци се могу континуирано побољшавати.
Основна веб страна дијаграма облака LLOD је под linguistic-lod.org[3]
Употреба LLOD
[уреди | уреди извор]Лингвистички повезани отворени подаци су примењени у решавању више истраживачких проблема у различитим научним областима:
- У свим областима емпиријске лингвистике, рачунарске лингвистике и обраде природних језика лингвистичка анотација и обележавање представљају централни елемент анализе. Напредак у области је ометен проблемима интероперабилности. Међу овим проблемима су најистакнутији проблеми разлике у речницима и разлике у схемама за анотацију који се користе за различите ресурсе и алате. Употребом повезаних податка за повезивање језичких ресурса и онтологија или терминолошких репозиторијума олакшава поновно коришћење заједничких речника и њихово тумачење на заједничкој основи.
- У корпусној лингвистици преклапање ознака представља врло добро познат проблем за формат XML. Отуда су од касних 90-их предложени модели података засновани на графовима.[4] Они су представљени помоћу више међусобно повезаних XML датотека[5] који су слабо подржани готовом (непромењивом) XML технологијом.[6]
- Вишејезична питања која укључују повезивање лексичких ресурса попут Ворднета, што је извршено путем међујезичког индекса Глобалне Ворднет асоцијације, и повезивање више хетерогених ресурса попут Ворднета и Википедије, што је учињено уз помоћ Бабелнета.
Одабрани LLOD ресурси
[уреди | уреди извор]Према подацима из октобра 2018. године, 10 најчешће повезаних ресурса у LLOD дијаграму (према броју повезаних скупова података) су:
- Онтологија за лингвистичку анотацију (The Ontologies of Linguistic Annotation - OLiA, повезана са 74 скупа података) обезбеђује референтну терминологију за лингвистичку анотацију и граматичке метаподатке;
- Ворднет (WordNet, повезан са 51 скупом података), лексичка база података за енглески језик и пивот за развој сличних база података за друге језике са неколико издања (Принстонско издање повезано са 36 скупова података; издање W3C повезано са 8 скупова података; издање VU повезано са 7 скупова података);
- Дбпедија (DBpedia, повезана са 50 скупова података) заснована на генералном знању о речима, почива на Википедији;
- lexinfo.net (повезан са 36 скупова података) обезбеђује референтну терминологију за лексичке ресурсе;
- Бабелнет (BabelNet, повезан са 33 скупа података) вишејезично лексикализована семантичка мрежа заснована на агрегацији више других ресурса, већином на Ворднету и Википедији;
- lexvo.org (повезан са 26 скупова података) обезбеђује језичке идентификаторе и друге податке везане за језик. Најбитније, lexvo обезбеђује RDF репрезентацију трословних ознака и онформација за језике из стандарда ISO 639-3;
- Регистар категорија података (The ISO 12620 Data Category Registry, ISOcat; RDF издање, повезан са 10 скупова података) представља полуструктуиран репозиторијум терминологије повезане са језиком.
- UBY (RDF издањеlemon-Uby, повезан са 9 скупова података) лексичка мрежа за енглески језик, агрегирана из више лексичких ресурса;
- Glottolog (повезан са 7 скупова података) обезбеђује ситнозне језичке идентификаторе за језике са малим бројем ресурса (оне који нису покреивени пројектом lexvo.org);
- Wiktionary-DBpedia повезују (wiktionary.dbpedia.org, повезан са 7 скупова података), лексикализација концепата Дбпедије заснована на Вики речнику.
Развој облака LLOD и активности заједнице
[уреди | уреди извор]Дијаграм облака лингвистичких повезаних отворених података одржава Радна група за отворену лингвистику (OWLG) Фондације за отворено знање која представља отворену и интердисциплинарну групу стручњака за језичке ресурсе. Радна група за отворену лингвистику организује догађаје заједнице и координира развој LLOD и омогућава интердисциплинарну комуникацију између сарадника и корисника LLOD.
Употреба и развој лингвистичких повезаних отворених података су тема неколико великих истраживачких пројеката:
- LOD2. Creating Knowledge out of Interlinked Data (11 земаља ЕУ + Кореја, 2010–2014)[7]
- MONNET. Multilingual Ontologies for Networked Knowledge (5 земаља ЕУ, 2010–2013)[8]
- LiODi. Linked Open Dictionaries (BMBF Истраживачка група младих е-хуманиста, Гетеов универзитет у Франкфурту, Немачка, 2015-2020)[9]
- NexusLinguarum. European network for Web-centred linguistic data science (COST акција, 2019-2023) [10]
Референце
[уреди | уреди извор]- ^ Open Linguistics Working Group. „Linguistic LOD”. linguistic-lod.org. LIDER project. Приступљено 24. 5. 2016.
- ^ Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Towards open data for linguistics: Lexical Linked Data (PDF). Heidelberg: In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer. Архивирано из оригинала (PDF) 15. 02. 2016. г. Приступљено 24. 5. 2016.
- ^ „Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data.”. Приступљено 10. 12. 2019.
- ^ Bird, Steven; Liberman, Mark. „Towards a formal framework for linguistic annotations” (PDF). In: Proceedings of the International Conference on Spoken Language Processing, Sydney, 1998. Приступљено 25. 5. 2016.[мртва веза]
- ^ ISO 24612:2012. „Language resource management -- Linguistic annotation framework (LAF)”. ISO. Приступљено 25. 5. 2016.
- ^ Eckart, Richard (2008). Choosing an XML database for linguistically annotated corpora. SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, Sep 2008. стр. 7—22.
- ^ „lod2.okfn.org (archived version)”. Архивирано из оригинала 07. 03. 2014. г. Приступљено 9. 12. 2019.
- ^ „Multilingual Ontologies for Networked Knowledge (Monnet)”. European Commission, CORDIS EU research results. Архивирано из оригинала 10. 02. 2023. г. Приступљено 10. 12. 2019.
- ^ „Linked Open Dictionaries (LiODi)”. Архивирано из оригинала 17. 01. 2020. г. Приступљено 10. 12. 2019.
- ^ „CA18209 - European network for Web-centred linguistic data science”. cost. European Cooperation in Science and Technology. Приступљено 10. 12. 2019.