Викиданные:Лексикографические данные/Документация
Это главная страница документации для лексикографических данных на Викидатах. Она предназначена для описания общей информации о лексемах Викиданных: как они структурированы, как можно их редактировать и что можно добавить для их обогащения.
Обратите внимание: хотя информация на этой странице может широко применяться к большинству языков, то, что подходит для моделирования одного языка, не всегда будет работать для моделирования другого языка. Для получения информации о моделировании лексем для конкретных языков посетите страницы документации для них.
См. также техническую документацию о расширении WikibaseLexeme, которое обеспечивает и лексемы в Викиданных.
Доступен глоссарий лексикографических терминов Викиданных.
Модель данных
Модель данных WikibaseLexeme описывает структуру данных, называемую Лексемами в Wikibase. Текст далее — краткое изложение; для более детальной информации см. соответствующую страницу документации WikibaseLexeme.
Лексема — это лексический элемент языка, такой как слово, фраза или префикс (больше информации о лексемах в общем можно найти в статье Википедии «Лексема»).
Лексемы, как и элементы и свойства, являются сущностями модели данных Wikibase; они также задаются индивидуальными идентификаторами и могут быть отдельно запрошены и получены.
Лексема состоит из семи компонентов, описанных в каждом из следующих подразделов:
- её LID;
- её леммы;
- её язык;
- её лексическая категория;
- её утверждения (на верхнем уровне);
- её смыслы; и
- её формы.
Идентификатор лексемы
Лексем имеют идентификаторы (ID), начинающиеся с "L", за которым следует десятичное число, например, L3746552
. Эти идентификаторы (часто называемые "LID" от lexeme identifiers, "идентификатор лексемы") уникальны в рамках Викиданных и присваиваются автоматически при создании лексемы.
URI RDF для лексемы — это http://www.wikidata.org/entity/
, за которым следует идентификатор лексемы.
Лемма лексемы
Леммы лексемы в основном используются как удобочитаемые представления лексемы. Каждая лемма состоит из строки, сопровождаемой допустимым языковым тегом IETF. Обычно леммы представляют собой письменные формы слова, фразы или аффикса, которые можно найти в описывающем их словаре, независимо от того, считаются ли они морфологически «основными» или «корневыми» формами.
- например в русской лексеме Lexeme:L111470 леммой является «зонт», потому что большинство русских словарей предоставляют информацию об этой лексеме под заголовком «зонт», а не под чем-то вроде «зонты», «зонту» или «зонтами».
- например в итальянской лексеме Lexeme:L1196965 есть лемма «volare», потому что большинство итальянских словарей предоставляют информацию о ней под этим заголовком, а не под чем-то вроде «volo», «volante» или «volato».
- например корейская лексема Lexeme:L17 содержит лемму «먹다», потому что большинство корейских словарей предоставляют информацию о ней именно в этой форме, а не в чем-то вроде «먹-», «먹어» или даже «먹습니다».
Лексемы могут иметь несколько лемм, особенно если в данном языке существуют различия в системе письма или других орфографических соглашениях. Разные леммы обозначаются разными языковыми тегами, потому что лексема может иметь только одну лемму для данного языкового тега.
- например, лексема хиндустани Lexeme:L641622 имеет две леммы: «चाचा» с кодом
hi
и «چاچا» с кодомur
, которые представляют одну и ту же словарную форму (произносится /t͡ʃɑː.t͡ʃɑː/) в письменности деванагари (используется для хинди) и арабской письменности (используется в урду). - например, лексема иврита Lexeme:L63672 имеет две леммы: «אדום» с кодом
he
и «אָדֹם» с кодомhe-x-Q21283070
, которые отражают различия в том, как пишется одна и та же словоформа в зависимости от наличия диакритических знаков. - например, южноминьская лексема Lexeme:L308008 имеет три леммы: '城市' с кодом
nan-hani
, 'siânn-tshī' с кодомnan-x-Q56929
и «siâⁿ-chhi» с кодомnan-x-Q559173
. Они представляют собой использование либо китайских иероглифов, либо одной из двух систем латинизации, каждая из которых соответствует одной и той же словоформе.
Обратите внимание, что некоторые из приведенных выше языковых кодов содержат символ «-x-». Есть две основные причины, по которым это может присутствовать в языковом коде:
- Для языков, коды языков которых еще не поддерживаются, в крайнем случае можно задать язык, добавив QID для элемента Викиданных языка к тегу базового кода
mis
.- например, лексемы на полабском языке, такие как Lexeme:L1089491, имеют лемму с кодом
mis-x-Q36741
. - например лексемы на сойотско-цатанском языке, такие как Lexeme:L1015954, имеют лемму с кодом
mis-x-Q4426878
. - например, лексемы на языке Láadan (Q35757), такие как Lexeme:L623039, имеют лемму с кодом
mis-x-Q35757
.
- например, лексемы на полабском языке, такие как Lexeme:L1089491, имеют лемму с кодом
- Если язык имеет поддерживаемый код языка, но для варианта код языка не поддерживается, субтег для частного использования может быть прикреплен непосредственно к существующему поддерживаемому коду.
- например, лексемы на диалекте Varendri (Q48726757) бенгальского языка, такие как Lexeme:L672268, имеют лемму с кодом
bn-x-Q48726757
(где 'bn' - существующий поддерживаемый код). - например, леммы на Devanagari Sindhi (Q116688933) для лексем на синдхи используют код языка
sd-x-q116688933
(где 'sd' — существующий поддерживаемый код). - например, леммы на Adlam (Q19606346) для лексем в Fula используют код языка
ff-x-q19606346
(где 'ff' — существующий поддерживаемый код).
- например, лексемы на диалекте Varendri (Q48726757) бенгальского языка, такие как Lexeme:L672268, имеют лемму с кодом
Леммы лексемы — это то, что отображается при использовании шаблона {{L}}
для ссылки на лексему в Викиданных (в том числе далее на этой странице).
Язык лексемы
Язык, к которому принадлежит лексема, является ссылкой на элемент Викиданных для языка.
Для большинства языков это просто определить: English (Q1860), Thai (Q9217), Manchu (Q33638) и Gun (Q3111668) — это лишь некоторые из множества возможностей, поскольку они поддерживают языковые коды en
, th
, mnc
и guw
.
Однако некоторые языки начали требовать в своих лексемах использования определённых языковых элементов; дополнительную информацию см. в страницах документации для этих языков.
Лексическая категория
Лексическая категория, к которой принадлежит лексема, представляет собой ссылку на элемент Викиданных для определённой группы слов с определённым синтаксическим поведением на языке. Обычно это соответствует «части речи» лексемы: существительные, глаголы, прилагательные, наречия и т. д.
Лексическая категория лексемы должна быть несколько более общей, чем её другое более подходящее, но более конкретное описание, как более широкое отражение того, как лексема ведёт себя синтаксически в своём языке. Другие элементы, такие как count noun (Q1520033), separable verb (Q3254028) и relative pronoun (Q1050744), где это применимо, должны быть добавлены в качестве значений утверждений instance of (P31).
Разные языки могут использовать разные лексические категории, но некоторые категории достаточно часто встречаются в разных языках, чтобы можно было провести сравнение. См. на полной странице документации о лексических категориях таблицу, сравнивающую такие категории в разных языках.
Утверждения лексемы
Лексемы, как и элементы или свойства, имеют утверждения (заявления), которые предоставляют информацию о лексеме, не специфичную для одной из её форм или значений. В зависимости от того, как работает конкретный язык, и в зависимости от лексической категории лексемы, некоторые утверждения будут более применимы к данной лексеме, чем другие.
Многие общие свойства, применимые непосредственно к лексемам, перечислены в Template:Lexicographical properties.
Смыслы лексемы
Смыслы описывают различные значения лексемы.
Смысл состоит из трёх частей: 1) идентификатор смысла, 2) глоссы и 3) утверждения.
- Идентификатор Смысла начинается с идентификатора лексемы, к которой он принадлежит, за которым следуют дефис («-») и буква «S», за которой следует натуральное число в десятичной записи: например,
L3746552-S4
. Эти идентификаторы уникальны в пределах Викиданных; когда внутри лексемы создаётся новый смысл, ему предоставляется совершенно новый идентификатор смысла. Как и LID, идентификатор смысла может быть добавлен кhttp://www.wikidata.org/entity/
, чтобы сформировать уникальный URI для смысла. - Глоссы определяют значение Смысла с помощью естественного языка. Для лексемы данного языка X толкование в языке X должно представлять собой более подробное объяснение значения смысла, в то время как толкование в других языках Y и Z может быть менее подробным, если оно достаточно ясно для говорящего на Y и Z, каково значение этого Смысла.
- Подобно лексемам, элементам и свойствам, Смыслы могут иметь утверждения, дополнительно описывающие смысл и его отношения с другими смыслами и элементами Викиданных.
Многие общие свойства, применимые к Смыслам лексем, перечислены в Template:Lexicographical properties.
Формы лексемы
Формы описывают различные реализации лексемы в речи или на письме.
В зависимости от того, как язык ведет себя морфологически, может существовать ровно одна Форма лексемы или несколько Форм. В общем, чем более изолирующим или аналитическим или чем более агглютинативным или полисинтетическим является язык, тем больше он может выиграть от наличия одной формы на каждую лексему. Лексемы во многих флективных языках обычно имеют несколько форм для определённых комбинаций грамматических признаков.
Форма состоит из четырех частей: 1) идентификатор формы, 2) представления формы, 3) грамматические особенности и 4) утверждения.
- Идентификатор Формы начинается с идентификатора лексемы, к которой она принадлежит, за которой следуют дефис («-») и буква «F», за которыми следует натуральное число в десятичной записи: например,
L3746552-F4
. Эти идентификаторы уникальны в пределах Викиданных; когда внутри лексемы создается новая форма, для неё предоставляется совершенно новый идентификатор Формы. Подобно LID или идентификатору Смысла, идентификатор формы может быть добавлен кhttp://www.wikidata.org/entity/
, чтобы сформировать уникальный URI для Формы. - Представления Форм — это строки, сопровождаемые языковыми тегами, которые показывают, как используется конкретная форма. Как и в случае с леммами, в одной форме может быть несколько представлений, позволяющих учитывать различия в системе письма или орфографических вариациях внутри языка.
- «Грамматические признаки» — это ссылки на элементы Викиданных, которые определяют синтаксические обстоятельства, в которых применяется данная Форма.
- Подобно Лексемам, Смыслам, элементам и свойствам, Формы могут иметь «утверждения», дополнительно описывающие словоформу и ее отношения к другим Формам и элементам Викиданных.
Многие общие свойства, применимые к формам лексем, перечислены в Template:Lexicographical properties.
Критерии включения лексем
В некоторых случаях или языках может существовать несколько объектов для связанных слов, тогда как в других языках может быть только один. В таблице ниже представлен обзор того, как могут быть связаны существительные:
difference in | 1 lexeme | 2+ lexemes | |||
---|---|---|---|---|---|
sense | add several senses | add applicable sense to lexeme | link other(s) with homograph lexeme | duplicate forms on each | |
etym. | add etym. to each sense | add etym. to lexeme base | link other(s) with homograph lexeme | duplicate forms on each | |
gender | add gender to each sense | add gender to lexeme base | link other(s) with homograph lexeme | duplicate forms on each | |
common/proper | add several senses | use lexical category "noun" | add applicable sense to lexeme | link other(s) with homograph lexeme | duplicate forms on each |
caps/lowercase | add several forms | qualify forms to applicable senses | add applicable sense to lexeme | link other(s) with homograph lexeme | add only applicable forms |
singular/plural | add several forms | qualify forms to applicable senses | add applicable sense | if possible link other(s) with homograph lexeme | add only applicable forms |
pronunciation | add the same form twice | qualify forms to applicable senses, add pronunciation | add applicable sense | if possible link other(s) with homograph lexeme | add form and applicable pronunciation |
forms/spelling | add several forms or alternate forms | qualify forms to applicable senses | add applicable sense | if possible link other(s) with homograph lexeme | add only applicable forms |
For a given language and criterion (first column), just one of the two might apply
Интерфейс
В следующем разделе подробно описаны действия, которые необходимо предпринять в пользовательском интерфейсе Викиданных для выполнения распространённых задач, связанных с редактированием лексем.
Лексемы
Создание новой лексемы
- Перейти к Special:NewLexeme.
- В текстовом поле "Lemma" введите лемму (дополнительную информацию см. в #Lexeme lemmata).
- В поле "Lexeme's language" введите язык лексемы, введя название языка или его QID (дополнительную информацию см. в разделе #Lexeme Language).
- Если вам будет предложено это сделать, в поле "Spelling variant of the Lemma" введите код языка леммы (дополнительную информацию см. в #Lexeme lemmata).
- В поле "Lexical category" введите лексическую категорию лексемы, введя её имя или QID (дополнительную информацию см. в разделе #Лексическая категория).
- Нажмите на "Create" для сохранения изменений.
Вы создали лексему с самой базовой информацией. Поскольку она очень пустой, её нельзя использовать осмысленно, пока не будет добавлена дополнительная информация, такая как заявления, смыслы и формы (см. дальше на этой странице).
Редактирование леммы, языка или лексической категории
- Рядом с леммой нажмите кнопку "редактировать".
- Лемма может быть изменена следующим образом:
- Чтобы добавить лемму, сначала выберите "+", который появляется рядом с леммой.
- В новой лемме в поле "Lemma" добавьте представление новой леммы.
- Также в новую лемму в "Spelling variant" добавьте код языка новой леммы.
- Чтобы удалить конкретную лемму, просто выберите «x» рядом с "Lemma" в этой лемме.
- Чтобы изменить язык лексемы, используйте поле поиска рядом с "Language", чтобы выбрать элемент для языка.
- Чтобы изменить лексическую категорию лексемы, используйте поле поиска рядом с "Lexical category", чтобы выбрать элемент лексической категории.
- Нажмите на "publish" для сохранения изменений.
Добавление, редактирование или удаление утверждений лексемы
Добавление утверждения в лексему включает в себя следующие шаги:
- Нажмите «add statement»
- Введите свойство, введя его имя в поле свойства (например,
derived from lexeme
) и выбрав его в выпадающем списке. - Введите значение для свойства.
Замечание: Wikidata property for lexicographic senses (Q54275340) такое, как translation (P5972) или synonym (P5973) в настоящее время не поддерживает поиск значений для смыслов, хоть по строке Лексемы хоть по глоссам Смыслов. Это значит, чтобы ввести значение для утверждения, нужно ввести точный идентификатор Смысла Лексемы. Например, в Лексеме mother (L3625) есть утверждение synonym (P5973) mom (L11530). Ввод $1 - единственная возможность это опубликовать. - Если вы хотите добавить к заявлению квалификаторы и ссылки, не стесняйтесь это делать.
- Сохраните утверждение, нажав на "publish".
- Чтобы редактировать утверждение, нажмите "edit".
- Чтобы удалить утверждение, нажмите "edit", а затем нажмите на "remove".
Удаление лексемы
Чтобы удалить лексему, вы можете запросить её удаление на "Wikidata:Requests for deletions", как это делается с элементами. Если у вас включен гаджет объединения, вы можете отправлять запросы на удаление лексем, используя его.
Поиск лексемы
Чтобы искать лексемы через Special:Search или в поле поиска на любой странице, вы можете использовать его LID, одну из его лемм или представление одной из его Форм.
Самый простой способ сделать это — добавить к одному из них префикс «L:», и вы автоматически увидите результаты в пространстве имен лексем для вашего поиска. Например, лексема L301993 имеет лемму «হৃদয়», а одна из ее форм имеет представление «হৃদয়েতে». Поиск по словам «L:L301993», «L:হৃদয়» или «L:হৃদয়েতে» вернёт в результатах одну и ту же лексему.
Альтернативно вы можете выполнить поиск без префикса «L:» (например, используя «L301993», «হৃদয়» или «হৃদয়েতে»), затем выбрать пространство имен «Lexeme» в Search in: и повторно запустить поиск, чтобы получить ту же лексему.
Обратите внимание, что селектор (раскрывающееся меню, которое появляется, чтобы предложить результаты) пока не поддерживает пространство имён лексем. Однако нажатие Enter или щелчок значка поиска после ввода ключевого слова покажет вам результаты (на отдельной странице).
Значения
Создать новое Значение
- В разделе "Смыслы" лексемы нажмите "add Sense".
- В поле "Language" введите языковой код для глоссы.
- В поле "Gloss" введите глоссу.
- Чтобы добавить новые глоссы, нажмите на "add" и повторяйте шаги 2 и 3.
- Нажмите на "publish" для сохранения изменений.
Редактировать комментарий значения
- Рядом с глоссами Смысла нажмите «edit».
- Чтобы добавить новую глоссу, выполните следующее:
- Под существующими глоссами Смысла щёлкните меньшую ссылку «add». (Будьте осторожны, чтобы случайно не нажать вместо этого на ссылки "add statement" или "add Sense", используемые для добавления нового утверждения или Смысла!)
- В поле "Language" введите языковой код для новой глоссы.
- В поле "Gloss" введите новую глоссу.
- Повторите эти шаги для каждой новой глоссы, которую вы хотите добавить.
- Чтобы удалить глоссу, нажмите «remove» рядом с ней.
- Нажмите на "publish" для сохранения изменений.
Удалить Значение
- Рядом с глоссами Смысла нажмите «edit».
- Нажмите «remove»
Формы
Создание новой формы
- В разделе "Формы" лексемы нажмите "add Form".
- Ниже Representation заполните представление для новой Формы.
- Под Spelling variant введите код языка для этого представления.
- Чтобы добавить больше представлений, нажмите «+» рядом с существующими представлениями и повторите шаги 2 и 3 для нового представления.
- Рядом с Grammatical features введите один или несколько грамматических признаков, введя их название и выбрав их в появившемся списке.
- Нажмите на "publish" для сохранения изменений.
Редактировать представление формы или грамматические признаки
- Рядом с представлениями формы нажмите «edit».
- Представления могут быть изменены следующим образом:
- Чтобы добавить представление, сначала выберите "+", который появляется рядом с представлением.
- В новом представлении в поле "Representation" добавьте новое представление Формы.
- Также в новом представлении в "Spelling variant" добавьте код языка этого представления.
- Чтобы удалить конкретное представление, просто выберите «x» рядом с "Representation" в этом представлении.
- Чтобы добавить грамматический признак, введите его название в конце текстового поля и выберите соответствующий элемент в появившемся списке элементов.
- Чтобы удалить грамматический признак, щёлкните значок «x», который появляется рядом с ним.
- Нажмите на "publish" для сохранения изменений.
Удалить Форму
- Рядом с представлениями формы нажмите «edit».
- Нажмите «remove»
Особенности
См. также Wikidata:Lexicographical data/Development
Что входит в первую версию
- Новые типы данных: Лексема, Форма
- Добавить, редактировать, удалить Лексемы
- Добавить, редактировать, удалить Формы
- Добавить, редактировать, удалить утверждения
- Добавить, редактировать, удалить квалификаторы
- Добавить, редактировать, удалить ссылки
- Ссылка на элемент из лексемы или формы
- Связывание с другой лексемой из лексемы, формы или элемента
- Поиск и подсказки при вводе значения
- Базовые внутренние API (используются для пользовательского интерфейса, их не следует использовать)
Что будет добавлено в будущем
Заказы от ближайших до долгосрочных планов
- Поиск контента с помощью Special:Search Done
- Отображение леммы на страницах истории, последних изменениях и списке наблюдения. Done
- Добавить, редактировать, удалить Смыслы Done
- Поддержка RDF и возможность запроса данных на query.wikidata.org Done
- Улучшение поддержки API
- Автоматическое создание Форм
- Доступ к данным на клиентах (другие проекты Викимедиа) Done
- Редактирование данных непосредственно из Викисловаря