Piątek, 3 czerwca 2022 r.
W tym tygodniu wprowadziliśmy udoskonalenie algorytmu identyfikującego dokumenty, w których element tytułu lub jest napisany w innym języku lub alfabecie niż zawartość, i wybiera tytuł podobny do języka i skryptu dokumentu. Jest to zgodne z ogólną zasadą, że tytuł dokumentu powinien być napisany w języku lub alfabecie jego głównej zawartości. To jeden z powodów, dla których elementy tytułów mogą wykraczać poza tytuły wyników wyszukiwania.
Tytuły wielojęzyczne
Tytuły wielojęzyczne powtarzają to samo wyrażenie w 2 różnych językach lub alfabetach. Najpopularniejszy wzorzec to dołączanie angielskiej wersji tekstu do tytułu.
गीतांजलि की जीवनी - biografia Geetanjali w hindi
W tym przykładzie tytuł składa się z 2 części (podzielonych łącznikiem) i zawiera te same treści w różnych językach (hindi i angielskim). Tytuł jest w obu językach, ale sam dokument jest tylko w języku hindi. Nasz system wykrywa takie niespójności i może używać tylko tekstu nagłówka w języku hindi, na przykład:
गीतांजलि की जीवनी
Tytuły w alfabecie łacińskim
Transliteracja oznacza sytuację, gdy treść jest napisana w innym języku, a za pomocą innego pisma lub alfabetu. Weźmy na przykład tytuł strony z utworem napisanym w języku hindi, ale z transliteracją, aby użyć znaków łacińskich zamiast natywnego pisma dewanagari w języku hindi:
jis desh me holi kheli jati hai
W takim przypadku nasz system próbuje znaleźć alternatywny tytuł, korzystając ze skryptu dominującego na stronie, który w tym przypadku może być:
जिस देश में होली खेली जाती है
Podsumowanie
Zasadniczo nasze systemy używają elementu tytułu strony. W przypadku tytułów wielojęzycznych lub z transliteracją nasze systemy mogą wyszukiwać alternatywy pasujące do dominującego języka strony. Dlatego warto użyć tytułu, który jest zgodny z językiem lub alfabetem głównej treści strony.
Zachęcamy do dalszego dzielenia się swoimi opiniami na naszym forum dyskusyjnym, w tym w istniejących wątkach dotyczących tego tematu w językach angielskim i japońskim.