Викиданные

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Викиданные
англ. Wikidata
Изображение логотипа
URL wikidata.org
Коммерческий нет
Тип сайта содержательный проект Викимедиа[вд], семантическая вики, вики с переключением алфавита[вд], MediaWiki-сайт, база знаний, онлайновая база данных[вд], граф знаний[вд], краудсорсинговый проект[вд], самоизображающая сущность[вд], открытый контент и sociotope[вд]
Владелец Фонд Викимедиа
Создатель Сообщество Викимедиа[вд]
Начало работы 29 октября 2012[1]
Текущий статус работает, постепенно наращивая функциональность
Слоган the free knowledge base that anyone can edit, la base de conocimiento libre que todo el mundo puede editar и מאגר הידע החינמי שכל אחד יכול לערוך
Логотип Викисклада Медиафайлы на Викискладе

«Викида́нные» (англ. Wikidata) — совместно редактируемая база знаний, созданная Фондом Викимедиа. Используется для обеспечения централизованного хранения данных, которые могут использоваться в других проектов, в том числе в статьях Википедии — например, интервики-ссылок, значков статусных статей и списков или статистической информации: дат рождения, численности населения и т. п.[2] Содержимое Викиданных распространяется по лицензии Creative Commons CC0[3].

История

Создатель всемирной паутины Тим Бернерс-Ли описывал её как совокупность связанных между собой человекочитаемых документов, расположенных на серверах по всему миру. Логическим развитием этой идеи стала семантическая паутина, предложенная им же в 2001 году. Она предполагала построение столь же масштабной и распределённой сети взаимосвязанных машиночитаемых данных. Одной из важных вех в реализации этой идеи стало анонсирование компанией Google в мае 2012 года концепции Knowledge Graph[4]. На тот момент уже существовали аналогичные (хоть и значительно менее масштабные) инструменты этого типа, такие как DBpedia и YAGO[англ.] (автоматически импортировавшие данные преимущественно из википедии), а также Freebase, NELL[англ.] и OpenCyc (преимущественно наполняемые людьми)[5].

В октябре 2012 года была официально запущена разработка «Викиданных» под руководством Wikimedia Deutschland[6], таким образом став первым новым проектом Фонда Викимедиа с 2006 года[7]. Стартовое финансирование было получено от Института искусственного интеллекта Пола Аллена[англ.], Фонда Гордона и Бетти Мур[англ.] и Google в размере 1,3 миллиона евро[8].

Первоочередной задачей было создание централизованного хранилища «интервики»-ссылок, то есть ссылок на страницы проектов Фонда, описывающих одни и те же темы. Одна запись (элемент) викиданных может быть связана с множеством страниц в любом вики-проекте, включая (но не ограничиваясь) всеми языковыми разделами википедии. Это позволяет «потребителям» викиданных (например русской википедии), для каждой статьи отображать список аналогичных статей на других языках.[9]

Вместе с интервики-ссылками, у элементов викиданных сразу появились и другие атрибуты (например, названия на поддерживаемых MediaWiki языках[10]). Традиционно в вики-проектах, базовая информация по теме статьи размещалась в инфобоксах[англ.], поэтому целью следующего этапа было дать пользователям возможность сохранять в элементах структурированную информацию (например, «Луна вращается вокруг Земли» или «Высота Эвереста 8848,86 метров») и отображать её в форме привычных читателю инфобоксов в связанных статьях[11].

В сентябре 2015 года появилась возможность делать запросы к викиданным на языке SPARQL. Wikidata Query Service[англ.]* был реализован на основе open-source продукта Blazegraph.[12]

В 2016 году разработчики анонсировали поддержку орфографических структур данных, в 2018 появилась возможность создания лексем и словоформ, а затем и указания их значений с помощью привязки соответствующего по смыслу элемента викиданных.[13]

Для упрощения моделирования и последующей валидации данных в мае 2019 года была введена поддержка для сохранения и совместного редактирования ShEx[англ.]-схем[14].

Также в 2019 году разработчики сумели выпустить Wikibase[англ.] (движок Викиданных) в виде самостоятельного продукта.[15] В 2021 году были анонсированы планы по запуску Wikibase.Cloud — SaaS в рамках которого пользователю предоставляются предварительно настроенные компоненты WBStack: собственно Wikibase, сервис SPARQL запросов, и т. п.

Структура

Терминология утверждений в Викиданных

Утверждения — это способ хранения любой информации об известном элементе. Формально, они состоят из пар ключ-значение, которые хранят соответствие свойства (например, «автор», или «дата публикации») с одним или несколькими значениями (например, «Артур Конан-Дойл» или «1902»). Например, неформальное утверждение «молоко — белое» (англ. milk is white) было бы закодировано с помощью утверждения, которое хранит пару. Это пара, состоящая из свойства P462 (цвет) — https://www.wikidata.org/wiki/Property:P462 со значением Q23444 (белый) https://www.wikidata.org/wiki/Q23444 в записи Q8495 (молоко) https://www.wikidata.org/wiki/Q8495.

Утверждения могут устанавливать отношение между свойством и более чем одним значением. Например, свойство «occupation» (род занятий) для Марии Кюри могло бы быть связано со значениями «физик» и «химик», чтобы отразить факт того, что она занималась и тем, и другим[16].

Значения могут быть разных типов, включая другие записи Викиданных, строки, числа или файлы с фото/видео. Свойства предписывают, с какими типами значений их можно связывать. Например, свойство «официальный сайт» может быть поставлено в соответствие только со значениями типа «URL»[17]. Также, свойства могут определять более сложные правила относительно их предполагаемого использования. Эти правила называются «ограничения» (англ. constraints). Например, свойство «столица» включает в себя «ограничение на единственное значение») (англ. single value constraint), отражающее тот факт, что у любой территории (как правило) есть только одна столица. Ограничения трактуются скорее как подсказки, чем как нерушимые правила[18].

При желании, для уточнения значения утверждения могут использоваться квалификаторы (англ. qualifiers). Они предоставляют дополнительную информацию в контексте данного утверждения. Например, свойство «население» может быть расширено квалификатором «по состоянию на 2011 год». Также утверждения могут снабжаться ссылками, указывающими на подтверждающий утверждение контент[19].

Митап-доклад-лекция про Викиданные, затрагивая Википедию, SPARQL

См. также

Примечания

  1. Wikidata’s tenth anniversary has been celebrated in Tamale, Ghana, by the Dagbani Wikimedians User Group and two of its sister communities — 2022.
  2. Data Revolution for Wikipedia. Wikimedia Deutschland (30 марта 2012). Дата обращения: 11 сентября 2012. Архивировано из оригинала 11 сентября 2012 года.
  3. Викиданные: Введение. Дата обращения: 8 декабря 2015. Архивировано 5 марта 2016 года.
  4. Färber M., Bartscherer F., Menne C., Rettinger A. Linked data quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO (англ.) // Semantic Web: Interoperability, Usability, Applicability / P. Hitzler, K. JanowiczIOS Press, 2017. — Vol. 9, Iss. 1. — P. 77—129. — ISSN 1570-0844; 2210-4968; 1570-0844doi:10.3233/SW-170275
  5. Ringler D., Paulheim H. One Knowledge Graph to Rule Them All? Analyzing the Differences Between DBpedia, YAGO, Wikidata & co (англ.) // KI 2017: Advances in Artificial Intelligence: 40th Annual German Conference on AI, Dortmund, Germany, September 25–29, 2017, ProceedingsSpringer Nature Switzerland AG, 2017. — P. 366—372. — ISBN 978-3-319-67190-1, 978-3-319-67189-5 — doi:10.1007/978-3-319-67190-1_33
  6. Tanon T. P., Vrandečić D., Schaffert S., Steiner T., Pintscher L. From Freebase to Wikidata: The Great Migration (англ.) // Proceedings of the 25th International Conference on World Wide Web — 2016. — P. 1419—1428. — 10 p. — ISBN 978-1-4503-4143-1doi:10.1145/2872427.2874809
  7. Yu L. A Developer’s Guide to the Semantic Web (англ.)Springer Berlin Heidelberg, 2011. — P. 551. — ISBN 978-3-642-15969-5doi:10.1007/978-3-642-15970-1
  8. Liu Z., Han X. Deep Learning in Knowledge Graph (англ.) — 2018. — P. 117—145. — doi:10.1007/978-981-10-5209-5_5
  9. Burgstaller-Muehlbacher S., Waagmeester A., Mitraka E., Turner J., Putman T., Leong J., Naik C., Pavlidis P., Schriml L., Good B. M. et al. Wikidata as a semantic framework for the Gene Wiki initiative (англ.) // DatabaseOUP, University of Oxford, 2016. — Vol. 2016. — P. baw015. — ISSN 1758-0463doi:10.1093/DATABASE/BAW015PMID:26989148
  10. Kaffee L., Piscopo A., Vougiouklis P., Carr L., Pintscher L. A Glimpse into Babel: An Analysis of Multilinguality in Wikidata (англ.) // Proceedings of the 13th International Symposium on Open Collaboration — 2017. — 5 p. — ISBN 978-1-4503-5187-4doi:10.1145/3125433.3125465
  11. Sáez T., Hogan A. Automatically Generating Wikipedia Info-boxes from Wikidata (англ.) // (unknown type) — 2018. — 8 p. — doi:10.1145/3184558.3191647
  12. Bielefeldt A., Gonsior J., Krötzsch M. Practical Linked Data Access via SPARQL: The Case of Wikidata (англ.) — 2018. — 10 p.
  13. Nielsen F. Å. Ordia: A Web application for Wikidata lexemes (англ.) // The Semantic Web: ESWC 2019 Satellite Events: ESWC 2019 Satellite Events, Portorož, Slovenia, June 2–6, 2019, Revised Selected Papers / P. Hitzler, S. Kirrane, O. Hartig, N. Manfrin, M. Vidal, M. Maleshkova, S. Schlobach, K. Hammar, K. Hose, R. VerborghSpringer Nature Switzerland AG, 2019. — P. 141—146. — 6 p. — ISBN 978-3-030-32326-4, 978-3-030-32327-1 — doi:10.1007/978-3-030-32327-1_28
  14. Nielsen F. Å., Thornton K., Gayo J. E. L. Validating Danish Wikidata lexemes (англ.) // Proceedings of the Posters and Demo Track of the 15th International Conference on Semantic Systems / M. Alam, R. Usbeck, T. Pellegrini, H. Sack, Y. Sure-Vetter — 2019. — 5 p.
  15. Diefenbach D., Wilde M. D., Wilde M. D., Alipio S. Wikibase as an Infrastructure for Knowledge Graphs: The EU Knowledge Graph (англ.) // The Semantic Web – ISWC 2021 / A. Hotho, E. Blomqvist, S. Dietze, A. Fokoue, P. Barnaghi, A. Haller, M. Dragoni, H. Alani — 2021. — P. 631—647. — 17 p. — ISBN 978-3-030-88360-7doi:10.1007/978-3-030-88361-4_37
  16. Help:Statements. Дата обращения: 26 мая 2019. Архивировано 25 марта 2019 года.
  17. Help:Data type. Дата обращения: 26 мая 2019. Архивировано 23 марта 2019 года.
  18. Help:Property constraints portal. Дата обращения: 26 мая 2019. Архивировано 1 июня 2019 года.
  19. Help:Sources. Дата обращения: 26 мая 2019. Архивировано 17 апреля 2019 года.

Ссылки