Diskuse:Cvikov (Německo)/Archiv1

Tato diskusní stránka je archivovaná.

Už ji prosím neupravujte. Pokud chcete na nějaké téma navázat, začněte novou sekci na současné diskusní stránce.

Návrh na přesun na české exonymum

Nejnovější komentář: před 5 lety169 komentářů12 lidí v diskusi

Podle zásady „Pokud cizí město má zažitý český ekvivalent (české exonymum), použijte ten“ navrhují článek k přesunu na běžné české exonymum Cvikov. U českého, méně známého Cvikova, navrhuji použít rozlišovač. --Palu (diskuse) 15. 11. 2018, 12:20 (CET)

S návrhem nesouhlasím, v českém povědomí je jako "Cvikov" znám rozhodně spíš ten Cvikov v severních Čechách (a méně známý je zřejmě jak pro koho). Označit německé město, které se tak oficiálně jmenuje, jako "Zwickau" je podle mě dostatečné rozlišení. Především tady vyvstává otázka, co to je "zažitý ekvivalent" - a Zwickau přece jen není Mnichov nebo Vídeň... Vůbec ty opakované snahy o předělávky německých názvů měst (navíc běžně používaných i obyvatelstvem sousedních Čech) nepovažuji v řadě případů za smysluplné - lepší by bylo, kdybychom čas ztracený v takových debatách raději věnovali tvorbě nových článků o obcích a městech v sousedních zemích či jejich vylepšování (pravda, bývá to pracnější, než tyto diskuse) . A podobně jako Němci u svých verzí článků o českých či polských městech (včetně těch původně německých) respektují jejich česká/polská jména, měli bychom my zachovat stejný respekt i v opačném gardu.--Dirillo (diskuse) 15. 11. 2018, 12:46 (CET)

Musím namítnout, že přednost má jednoznačně WP:Název článku před WP:Rozlišovač. Rozlišení názvů nemůže být argument pro neužití exonyma. Lze to řešit například doložením, že český Cvikov je frekventovanější a rozlišovač tedy má mít německý Cvikov. Co se pak týče vašich názorů na to jak to má chodit, tak to patří spíše k debatě o případnou změnu pravidla WP:Města a obce, nikoliv sem. -- (diskuse) 15. 11. 2018, 13:09 (CET)

Možná by bylo lepší, kdyby jste naopak vy jako navrhovatel této změny prokázal, že označení "Cvikov" se v češtině všeobecně ujalo jako název pro saské město Zwickau. Podle ČNK to tak rozhodně nevypadá.--Eleiodromos (diskuse) 15. 11. 2018, 13:23 (CET)

Nejsem si jist, z čeho pramení, že to tak nevypadá. Korpus.cz Cvikov zná: 1. Hospodářské noviny, 2012; 2. MF Dnes 2011; 3. Nepokojná léta 2000; 4. MF Dnes 2011; 5. AutoProfi 2014.

Další výskyty jsou běžně na internetu: [1]; [2]; [3]; [4]; [5]; [6]; [7]; [8]; [9]; [10]; [11]; [12]; [13]; [14]; [15]; [16]; [17]; [18]; [19]; [20]; [21]; [22]; [23]; [24]; [25]; [26]; [27]; ad.

Máte zde přes 30 různorodých zdrojů od knih přes články až po užití v reálném životě.

Ostatně proč mám dokládat, že se označení Cvikov v češtině všeobecně ujalo? Máte dojem, že ne? To mě popravdě u vás jako v tématu zběhlého člověka překvapuje. Chápu, že můžete mít jiný názor u hraničních případů, ale tady podle mě nemůže být o hraničním případě řeč a Cvikov je už po prvním zadání do Google jednoznačně používané exonymum. --Palu (diskuse) 15. 11. 2018, 14:39 (CET)

Naprosto souhlasím s kolegou Palu, že by bylo vhodné otevřít diskusi o změně pravidla WP:Města a obce. Někdy je situace až trapně komická - viz třeba polské Glucholazy, které jsou takto (lehce počeštěně, bez polského "ł") uvedeny dokonce i v [jízdních řádech ČD] a v regionálních zdrojích, ale na cswiki zatvrzele máme "Hlucholazy", které nikdo nepoužívá. Taková změna pravidel by měla být primární - přece jen už trochu pokročila doba od chvíle, kdy se v naší kotlině vše apriori počešťovalo.--Dirillo (diskuse) 15. 11. 2018, 15:15 (CET)

Jak už jsem napsal, tohle do téhle debaty nepatří. Zkuste otevřít diskusi u příslušného pravidla nebo na jiném vhodném místě. --Palu (diskuse) 15. 11. 2018, 16:30 (CET)

@Palu:Zatím jste prokázal pouze to, že české exonymum existuje. O tom není sporu. Na Českém národním korpusu je ale možné použít pokročilejší funkce, např. formát CQL dotazu, který odfiltruje frekventovaný český Cvikov a najde pouze výskyt, kdy po sobě následují lemmata "německý" a "Cvikov" ve všech pádech těchto slov. Relativní frekvence (odhad pravděpodobnosti výskytu jevu v jazyce krát 1 milion) u toho slovního spojení v největším korpusu ČNK "syn v6" je pouze 0.02. U spojení "saský" a "Cvikov" potom 0.01. Název Zwickau má tamtéž relativní frekvenci 0.31.--Eleiodromos (diskuse) 15. 11. 2018, 15:29 (CET)

Jsem přesvědčen o tom, že jsem prokázal to, že je exonymum užívané celkem běžně napříč různými typy užití a že nejde o okrajové nebo zastaralé exonymum (= jde o zažité exonymum). --Palu (diskuse) 15. 11. 2018, 16:29 (CET)

Mě jste nepřesvědčil. Pořád tady šermujete s poněkud vágním pojmem "zažitost", ale co je tato zažitost jiného než právě přesně definovatelná relativní frekvence.--Eleiodromos (diskuse) 15. 11. 2018, 16:41 (CET)

Mám za to, že zažitý je "ten, co byl zažit", tj. "ten, ze vešel v užívání". Relativní frekvence tohle nevypoví. Relativní frekvence vypoví jedině to, které synonymum je nejpoužívanější, nikoliv které je nebo není zažité. Mimo to jazykový korpus nedovede přesně definovat relativní frekvenci, jelikož nikdy neobsahuje veškeré texty lidstva, nýbrž pouze jejich výběr. Například ze mnou citovaných 32 zdrojů obsahuje pravděpodobně jen 5. --Palu (diskuse) 15. 11. 2018, 18:02 (CET)

Děkuji za poučení. Když má něco zanedbatelnou frekvenci výskytu v jazyce, tak to zcela určitě nemůže být "zažité". Zažitá je malá násobilka, kterou umí člověk zpaměti. Korpus definuje přesnou relativní frekvenci (tj. absolutní frekvenci poměřovanou celkovou délkou korpusu). Jiný způsob, jak relativní frekvenci výskytu jevu v jazyce měřit, zatím neexistuje. Čili to, že je název Cvikov pro saský Zwickau zažitější/frekventovanější než originální název, jste neprokázal.--Eleiodromos (diskuse) 15. 11. 2018, 18:28 (CET)

Prokazovat něco podobného nebylo mým cílem. Mým cílem bylo doložit zažitost, nikoliv poměřit zažitost vůči jiným synonymům. O tom pravidlo nic neříká. To by pak nemusela existovat tato specializovaná výjimka z pravidla "očekávatelnost". --Palu (diskuse) 15. 11. 2018, 18:44 (CET)

Vaše osobní filozofie "zažitosti" a "očekávatelnosti" do toho asi moc světla nevnese. Pro mě jste prostě nedoložil ani frekventovanost, ani zažitost. Říkejte tomu, jak chcete.--Eleiodromos (diskuse) 15. 11. 2018, 19:08 (CET)

Pravidlo o očekávatelnosti mluví o tom, co popisujete vy - zvolit ten název, který je frekventovanější. Z něj existuje výjimka pro města, která říká, že pokud má město zažitý český ekvivalent, použijme ten. Město Zwickau má zažitý český ekvivalent, což dokládá jeho rozšířené užívání. Máte nějaké jiné vnímání pravidla? --Palu (diskuse) 15. 11. 2018, 19:13 (CET)

U pravidla očekávatelnosti není ani zmínka o tom, že by „zažitost“ byla nějakou výjimkou, spíše snad aplikací tohoto pravidla na speciální případy.--Eleiodromos (diskuse) 15. 11. 2018, 19:44 (CET)

Kdyby byl váš výklad správný, pak by tam nemusela být ta aplikace toho pravidla vůbec popsána, protože by nepřinášela žádný rozdíl oproti základnímu pravidlu. Pravda? --Palu (diskuse) 15. 11. 2018, 20:10 (CET)

V každém případě tam není o nějaké výjimce ani zmínky. To, že tím vzniká nějaký rozdíl (např. okrajový název se může stát základem pro pojmenování článku apod.), je pouze vaše zcestná interpretace.--Eleiodromos (diskuse) 15. 11. 2018, 20:14 (CET)

┌─────────────────────────────────────┘OK, přeformuluju to. Jedná se o specializované pravidlo v rámci obecného pravidla, kterým vzniká určitý rozdíl. Čili má přednost před obecným pravidlem. Města se tedy řídí obecným pravidlem (jméno se volí podle očekávatelnosti, tj. obvykle podle největší frekvence), ale pokud mají zažitý český ekvivalent, pak má tento ekvivalent přednost. Je taková formulace blíže shodě s vaším pojetím? --Palu (diskuse) 15. 11. 2018, 20:36 (CET)

Zažitý název, ať už to interpretujete jakkoliv, nemůže mít zanedebatelnou frekvenci výskytu. Pak prostě není zažitý. "Londýn, Vídeň, Řezno" mají frekvenci vysokou, což lze doložit, Lobava, Ojvín a německý Cvikov ji mají zanebatelnou, což lze doložit.--Eleiodromos (diskuse) 15. 11. 2018, 21:03 (CET)

Skutečně má Cvikov zanedbatelnou frekvenci? Podle čeho tak usuzujete? Právě jsem vám dal 32 užití v nejrůznějších okruzích textů. Jak přesně určujete tu "zandebatelnost"? Protože pravidlo je vystavěno evidentně jinak, než co tady prosazujete - má to na něj nějakou návaznost? --Palu (diskuse) 15. 11. 2018, 21:38 (CET)

32 jednotlivých výskytů (nezřídka v literatuře starší) vůbec nic nemění na prokazatelně nízké relativní frekvenci tohoto názvu v ČNK. Názvy měst jsou problematika čistě lingvistická, jediným přesným ukazatelem zažitosti/frekvence daného názvu je jeho výskyt v jazykovém korpusu.--Eleiodromos (diskuse) 15. 11. 2018, 21:55 (CET)

Jazykový korpus je neúplný a nemůže zahrnovat veškeré texty, většinu ze zmíněných 32 textů jich ani neobsahuje. S vaší poslední větou tedy nesouhlasím. Kvůli několika starším textům, které jsem záměrně také zahrnul, abych ukázal, že exonymum je běžné už drahnou dobu, nelze smést ze stolu jednoznačně prokázané současné užívání doložené ostatními refy. Myslím, že dál se nepohneme a budeme muset počkat, jestli nepřijdou další kolegové s nějakým novým pohledem nebo argumenty. Zatím díky za diskusi. --Palu (diskuse) 15. 11. 2018, 22:07 (CET)

Jazykový korpus neobsahuje všechny české texty, ale je podle lingvistických měřítek dostatečně velký a reprezentativní. Stejným způsobem byste mohl najít třeba 32 jednotlivých výskytů slova čistonosoplena nebo jakéhokoliv jiného slova. Teď tedy záleží na tom, koho jste (kromě sebe) přesvědčil o tom, že heslo Zwickau je nutné přejmenovat. Mě tedy rozhodně ne. Pěkný večer.--Eleiodromos (diskuse) 15. 11. 2018, 22:24 (CET)

To by mě zajímalo, kolik lidí v roce 2005 přemluvil Kyknos, když přesouval z názvu Cvikov na Zwickau. Nevidím ani pokus a jím uvedený argument šel řešit rozcestníky. Srovnávat čistonosoplenu s Cvikovem je argumentační faul, běžné užívání Cvikova jsem doložil, o okrajovosti názvu nejsou jiné známky než vaše tvrzení. Dokonce i vámi zmíněný korpus Cvikov zná v rozličném užití (3x noviny, 1x časopis, 1x kniha, vše současné). --Palu (diskuse) 15. 11. 2018, 22:36 (CET)

Vy se prostě neumíte rozloučit. Nízkou frekvenci výskytu označení "Cvikov" pro ono saské město dokládá ČNK. Můžete si to klidně přeměřit. Počet několika jednotlivých výskytů v žádném případě není ukazatelem zažitosti/frekvence. Tu jste měl prokázat a přesvědčit auditorium. A to jste tady podle mě nepředvedl.--Eleiodromos (diskuse) 15. 11. 2018, 22:44 (CET)

Zažitost lze doložit dostatečně rozšířeným užitím. To jsem splnil. Nikde není psána podmínka, že to lze splnit pouze korpusem a dosud se tak ani běžně nedělo. Vždy většinou otrockým průzkumem zdrojů. --Palu (diskuse) 15. 11. 2018, 22:46 (CET)

Což právě vedlo k mnoha zbytečným sporům a k situaci, kdy byla a je řada měst pojmenována archaickými názvy. 32 jednotlivých výskytů nic neprokazuje.--Eleiodromos (diskuse) 15. 11. 2018, 22:51 (CET)

Tohle ale není ten příklad. Jak jsem ukázal, použití exonyma Cvikov je zcela současné, je dostatečně široké a má i tradici. Jen není jeho použití nejširší ze všech, jak pořád dokola poukazujete. To ale není předmětem pravidla. Pravidlo říká "pokud existuje zažité české exonymum, použijte jej". Váš pohled by byl relevantní v případě, kdy by toto speciální pravidlo neexistovalo a platilo by pouze pravidlo o očekávatelnosti. Pak bychom řešili, které ze synonym je nejzažitější. Doufám, že se mi už podařilo ten rozdíl vysvětlit. --Palu (diskuse) 15. 11. 2018, 22:56 (CET)

Ano, a právě tohle exonymum prokazatelně zažité není.--Eleiodromos (diskuse) 15. 11. 2018, 22:58 (CET)

Právě, že jsem prokázal, že zažité je. Prokázal jsem to 32 užitími (včetně korpusu) v rozličných zdrojích od oficiálních stránek německých úřadů, přes české současné noviny, současné knihy, motoristické časopisy, až po historickou literaturu nebo literaturu o historii. Je to zcela běžně používané jméno a to je podstata toho pojmu zažitost. Takže znovu prosím, nepleťte si to se soutěží co je zažitější. --Palu (diskuse) 15. 11. 2018, 23:04 (CET)

32 výskytů jakéhokoliv slova nedokazuje, že to slovo je zažité. To lze přesně zjistit jedině v jazykovém korpusu. Nedokázal jste vůbec nic.--Eleiodromos (diskuse) 15. 11. 2018, 23:07 (CET)

┌───────────────────────────────────┘To by byla pravda jedině pokud by byl korpus všeobjímající. Korpus všeobjímající není, stejně jako není všeobjímající můj vzorek. Můj vzorek ale dokládá, že se Cvikov používá v rozličných typech textů v běžném jazyce. Nedokládá to tím, že vyčítá, že se používá hodně, v kvantech. Dokládá to tak, že tu ten výskyt je. Je to podobné, jako když děláte průzkum mezi lidmi, jestli by volili Babiše. Taky nemusíte vyzpovídat 10 milionů lidí, abyste to zjistil. Stačí pár a už budete mít představu. A myslím, že na mém vzorku není důležité ani tolik číslo 32, jako celkem přesvědčivá šířka záběru co do typu textů. --Palu (diskuse) 15. 11. 2018, 23:12 (CET)

Dokázal jste, že to exonymum existuje, to je jasné. Proč ale nepoužít daleko přesnější metodu měření frekvence výskytu slova v jazyce? Když máme výsledek voleb, proč důvěřovat neaktuálnímu předvolebnímu průzkumu?--Eleiodromos (diskuse) 15. 11. 2018, 23:21 (CET)

Právě, že o výsledek voleb nejde ani v případě korpus.cz. To by musel obsahovat i zdroje, které dosud neobsahuje. Ale i kdyby obsahoval všechny zdroje, to, co byste doložil není, že "Cvikov není zažitý", ale že "existují zažitější synonyma než Cvikov". A to není to, co v tomhle případě potřebujeme dokládat. --Palu (diskuse) 15. 11. 2018, 23:26 (CET)

Metoda jazykového korpusu je v souladu se současnými poznatky matematické lingvistiky. Metoda: "mám 32 výskytů, pojďme přejmenovávat" je spíše smutným specifikem diskusí na české Wikipedii.--Eleiodromos (diskuse) 15. 11. 2018, 23:33 (CET)

Pro určité účely je to ten nejsofistikovanější nástroj. Pokud bychom poměřovali co je nejfrekventovanější, určitě by nám dobře pomohl. Pokud ale hledáme všechny frekventované v dostatečně širokém záběru typů textů, pak nám moc nepomůže, protože 1. nemá záběr do všech typů textů a 2. prosté automatické poměřování čísel nedokáže nahradit lidský výběr typu "od každého trochu". My zde nepotřebujeme poměřit kvantitu (= nejočekávatelnější), ale šířku záběru (= existuje české exonymum, které není mrtvé nebo neskomírá?) a k tomu nám korpus nemůže posloužit. --Palu (diskuse) 15. 11. 2018, 23:45 (CET)

To se právě fatálně mýlite. Inteligentní lidský výběr od každého trochu je právě podle přesných metodik zakomponován do ČNK. Vaše pokroucená argumentace, která se snaží dokázat, že málo zažitým/frekventovaným názvem je možné v encyklopedii pojmenovávat města, je absolutně mimo. V pravidle se o žádné výjimce, ani rozdílu nemluví. Šířku záběru jste svými 32 výskyty rozhodně nepoměřil.--Eleiodromos (diskuse) 15. 11. 2018, 23:55 (CET)

V pravidle o městech se hovoří o tom, že pokud existuje zažité české exonymum, máme ho použít. Tím se vymyká od ostatních témat, kde se rozhodujeme pouze na základě frekvence tak, jak říkáte. Čili tato debata není o tom, jestli je něco frekventovanějšího než Cvikov, ale o tom, jestli je Cvikov živé exonymum. Živost exonyma samozřejmě lze poměřit frekvencí - pokud bude nejfrekventovanější, pak je nepochybně živé. Neznamená to ale, že pokud nebude nejfrekventovanější, živé nebude. Toto je příklad, kdy možná není nejfrekventovanější (a já jsem se tohle ani nepokoušel studovat, takže to mám jen z vašeho tvrzení o korpusu, ale například napříč novinovými servery jsem si průzkum nedělal), ale podařilo se mi prokázat, že je živé a není okrajové. --Palu (diskuse) 16. 11. 2018, 00:02 (CET)

Ano a právě exonymum Cvikov použité pro výše zmíněné saské město zažité NENÍ.--Eleiodromos (diskuse) 16. 11. 2018, 00:10 (CET)

Cituji: „U českého, méně známého Cvikova, navrhuji použít rozlišovač“. Na to jste přišel kde? Nějaký důkaz pro tvrzení „méně známého“? Lze toto tvrzení doložit nějakými zdroji, články o malé známosti Cvikova, nebo je to jen váš pocit? --Jan Kovář^BK (diskuse) 15. 11. 2018, 23:09 (CET)

OK, beru zpět. Co ze dvou měst bude mít rozlišovač, nechám na další bod debaty po rozhodnutí, jestli použít české exonymum. Přiznám se, že tohle byl skutečně jen můj pocit. --Palu (diskuse) 15. 11. 2018, 23:12 (CET)

Díky za vysvětlení. Jinak Zwickau znám jako Zwickau i Cvikov, takže na použití českého exonyma nemám zcela jasný názor. --Jan Kovář^BK (diskuse) 15. 11. 2018, 23:21 (CET)

Já samozřejmě znám také oba názvy. Nicméně u měst, která mají zažitá česká exonyma, bychom podle pravidla měli preferovat právě ty. To je důvod, proč jsem navrhl tento přesun. --Palu (diskuse) 15. 11. 2018, 23:27 (CET)

Jsem proti přesunu, mám stejný názor jako Dirillo, a německá jmena bych vrátil na mnohem více exonym. Jinak je stále komunita rozdělená, a divím se, že to Palua stále baví. Města mají také úřední název, a tím v Německu česká exonyma nejsou, bohužel.Mirek256 16. 11. 2018, 06:07 (CET)

Tak na dohadování musí být víc lidí. Já jsem zase spíš příznivec exonym a úřední jména pokládám za méně významná, takže v osobním životě budu užívat spíš Cvikov, protože se mi s ním lépe pracuje. Což tedy automaticky neznamená, že jsem pro přesun - Wikipedie nemá být nástrojem jazykové revoluce.--Tchoř (diskuse) 16. 11. 2018, 07:10 (CET)

Musím uznat, že znění doporučení pro názvy měst a obcí chápu spíše stejně jako Palu. Nechci do toho promítat můj osobní názor na používání endonym nebo exonym, ale pro zajímavost bych chtěl poznamenat, že Cvikov je pro mě mnohem srozumitelnější, než Řezno. Ona ta zažitost nebude všude v Česku stejná, ale bude se jistě lišit lokálně, takže sporům o pohraniční města se asi hned tak nevyhneme... --YjM | _d^p 16. 11. 2018, 08:39 (CET)

Jakožto člověk, který přes oba Cvikovy má sem tam cestu: Pokud už přejmenovávat Zwickau na Cvikov, pak ale rozlišovač by měly dostat ~~německé město nebo~~ obě města s rozcestníkem. Stále mi to však přijde tisíckrát krkolomnější než nechat to jak to je (+ do úvodní věty článku o německém městě vysvětlit, že se tomu městu říká Cvikov, a do článku o českém městě zase Možná hledáte). --Dvorapa (diskuse) 16. 11. 2018, 10:21 (CET) Bohužel co se týče nějakého předešlého systému, kterým bychom se mohli řídit: na první pohled žádný moc není. Štětín, Svídnice (Polsko), Žitava vs. Valbřich, Chudoba, Jelení Hora. --Dvorapa (diskuse) 16. 11. 2018, 10:30 (CET) Pozn.: beru zpět svůj čechocentrismus, obě města jsou si významem dost podobná. (upraveno 16. 11. 2018, 20:45 (CET) wikipedistou Dvorapa (diskuse))

No ta krkolomnost podle mě není dobrý argument. Řešení typu "Různé významy" + rozlišovač mi nepřijde nějak krkolomné. Nebo myslíte, že je lepší mít Mnichov a München místo Mnichov (okres Cheb) a Mnichov? Tím chci říct, že standardní řešení doteď žádnou krkolomnost nevykazovalo a může tak jít jen o dojem plynoucí z toho, že není lehké si situaci představit. Zkuste se tedy podívat na mnou zmíněný citovaný případ (Mnichov vs. Mnichov (okres Cheb)) a říct, jestli vám přijde krkolomný (jen se prosím neupínejte na to, že bude hlavním významem německé město a vedlejším české, to je totiž jiný, podružný bod). Tedy jestli jsme správně pochopil co má být na tom řešení krkolomné. --Palu (diskuse) 16. 11. 2018, 11:41 (CET)

Ono je na tom nejvíce krkolomné, že těch případů, kde to je pokaždé jinak bychom mohli nacházet stovky. Zde se přeme o dvě města, vy jste vyjmenoval nyní další dvě obce, já vyjmenoval výše dalších šest a pokud bych z těchto desíti obcí chtěl učinit nějaký závěr, jak se to běžně dělá, tak to nejde, prostě si to každý dělá jak chce. Proto by nemělo být podstatné, co se líbí mně nebo vám, ale co očekávají čtenáři a ideálně to standardizovat napříč Wikipedií. Řešení Mnichova rozhodně zakládá na dominanci 1,5 mil. města proti 400 obyvatelům vesnice. Jenže u Cvikova tak jasně dominanci rozhodnout nelze, obě města jsou spádová pro přilehlé vesnice, rozdíl ve velikosti sice je, ale co do významu už tak moc ne. Proto pokud přejmenovat, tak ale přidělit rozlišovač oběma. V tom případě ale přejmenovat i Jelení Horu, Chudobu nebo Valbřich. Anebo to ponechat jak to je. Ovšem poté by bylo vhodné přejmenovat i Štětín, Svídnici, Žitavu nebo oba Mnichovy. Jednoznačně si myslím, že to není problém jen těchto dvou měst, bylo by dobré už tento stále problematický jev konečně globálně vyřešit a poté se jasným a přesným zněním pravidla/konsensu ohánět jak bičem. --Dvorapa (diskuse) 16. 11. 2018, 20:45 (CET)

Stávající pravidlo stanovuje "zažitost jako Londýn, Vídeň, Řezno". Není problém s pomocí Českého národního korpusu stanovit průměrnou relativní frekvenci z těchto tří měst, tu případně snížit na polovinu, aby nebyla favorizována větší města, případně, aby se vyšlo vstříc těm, kteří zde dávají přednost českým exonymům. Takto stanovená relativní frekvence v ČNK by potom mohla sloužit k rozhodování podobných sporů o názvy obcí. Co by bylo pod tuto hranici, to by zůstalo pod originálním názvem v němčině, polštině atd.--Eleiodromos (diskuse) 16. 11. 2018, 21:09 (CET)

To je příliš složité na běžného českého wikipedistu. Navíc je potřeba u podobných korpusových výpočtů zahrnout i aktuálnost zdroje (těžko budeme město na Wikipedii nazývat Nový Bezděz, když název v 15. století postupně nahradil název nový a od té doby se původní nepoužívá) a ani si nemyslím, že bychom měli kdy šanci se na jednotném vzorci shodnout. Asi bych volil nějaký jednodušší přístup, který bude moci použít i „každý blbec“. Třeba pomocí zdrojů, pokud v posledních x letech existují 2NNVZ uvádějící český název zahraniční obce, pak použít ten. --Dvorapa (diskuse) 17. 11. 2018, 11:23 (CET)

Jestli tomu správně rozumím, je potřeba vyjasnit dvě věci: za jakých podmínek použít český název (viz výše) a pokud je použit český název, pak jak to udělat s rozlišovači v případě shody. Pro druhý bod navrhuji použít rozlišovače u obou obcí, pokud se jedná o města podobného významu (Cvikovy), a pouze u významější obce, pokud se jedná o propastný rozdíl mezi významem obou obcí (Mnichov). --Dvorapa (diskuse) 17. 11. 2018, 11:23 (CET)

Tento systém jsem si nevymyslel já. Používá se úspěšně na dewiki a předchází se tak zbytečným sporům. Každý má svůj individuální jazykový cit, nebo zkušenost s místními názvy v rámci regionu. Tohle je ale spravedlivý způsob, jak řešit stávající chaos. Jak jsem již uvedl, když někdo najde 32 výskytů "saského Cvikova" v českých textech, není problém najít stejných 32 výskytů "saského Zwickau" v českých textech. Je to tedy opět patová situace. Texty v jazykovém korpusu "Syn verze 6" pocházejí z let 2010–2016. Odrážejí tedy současnou podobu české publicistiky. "Zažitost", o které mluví pravidlo, tak lze číselně vyjádřit a v případě sporu porovnat.--Eleiodromos (diskuse) 17. 11. 2018, 11:48 (CET)

Jak už jsem řekl, příliš složité na běžného wikipedistu. 2NNVZ z nedávné doby zmiňující český název by mohla být mnohem jednodušší a přesto efektivní a nesporná možnost. --Dvorapa (diskuse) 17. 11. 2018, 11:58 (CET)

2NNVZ mohou bez problémů dodat obě strany sporu. Následkem by byla záplava absurdních archaismů, které by zdejší slavjanofilská lobby mohla hravě a bez jakékoliv míry prosazovat. Např. Seina by mohla být tímto způsobem přejmenována na staročeský název Sekvana apod. Tyto mrtvé názvy by pak byly ve zjevném rozporu s pravidlem očekávatelnosti.--Eleiodromos (diskuse) 17. 11. 2018, 12:21 (CET)

Nemohou, když říkám, že musí být z nedávné doby. A také nevím, proč by protistrana sporu chtěla dodávat 2NNVZ vyvracející svůj názor (PS: přečtěte si pořádně, co říkám, zdá se mi, že mi vůbec nerozumíte). --Dvorapa (diskuse) 17. 11. 2018, 12:24 (CET)

Z nedávné doby mohou pocházet 2NNVZ, které jedné straně ("saský Cvikov") dodají argumenty. Jiné 2NNVZ z nedávné doby však mohou dodat také jejich názoroví oponenti ("saský Zwickau"). Proč by měla být favorizována první skupina, když "saský Zwickau" má v českých textech větší frekvenci? Takový postup by o skutečném užívání obou názvů v reálném světě nic nevypovídal a vedl by k následkům, které jsem uvedl výše.--Eleiodromos (diskuse) 17. 11. 2018, 12:55 (CET)

K jakým by mohlo dojít následkům? Proč by měla být favorizována první skupina? Ono u těch textů hlavně záleží, kdo je jejich autor. A často se setkávám s tím, že místní/Češi žijící v pohraničí říkají obci česky (viz Cvikov, Chudoba, Kladsko, Jelení Hora), zatímco drtivá většina Čechů mimo východočeský kraj tomu budou říkat cizojazyčně (Zwickau, Kudowa, Klłodzko, Jelenia Góra). Jenže v takovou chvíli váš systém selhává, protože přestože se obci říká běžně Česky, lidé z druhé strany republiky o tom neví. --Dvorapa (diskuse) 17. 11. 2018, 13:10 (CET)

Přesně to by použití korpusu řešilo. Jsou zde totiž významně zastoupeny regionální deníky, které odrážejí místní specifika publicistického stylu. Když má být ovšem podle pravidla něco "zažité jako Londýn, Vídeň, Řezno", tak by tomu měli rozumět čtenáři ze všech koutů ČR. Originálním názvem se potom nic nezkazí.--Eleiodromos (diskuse) 17. 11. 2018, 13:26 (CET)

To ano, ale pokud bychom na korpus aplikovali nějaký vzorec, tak ale stejně ty výskyty v reqionálních denících mohou být oproti ostatním, např. celonárodním v menšině ne? Procentuálně by tedy místní v pohraničí stále utřeli. Nebo pořád nerozumím, jak byste to tedy dle korpusu vybíral, aby to bylo dostatečně fér. Řekněme to konkrétně (omlouvám se, použiji příklad ze svého regionu): tři regionální deníky z Orlických hor (třeba i jen obecní/reqionální zpravodaje) napíší zprávu, že v Kladsku na polské straně hor zítra začnou vánoční trhy, ovšem když se poté nedejbože v Kladsku stane teroristický útok a někdo najede do lidí, 30 českých velkých deníků hned napíše, že se stala hrůza v Kłodzku. A je to nepoměr 30:3 ne? (zrovna v tomhle případě Kladska a Cvikova jsou oba snad dostatečně zažité i u velkých deníků, berte to spíš jen jako příklad, ale u jiných názvů, třeba u Chudoby nebo Jelení Hory už si myslím že by takový problém nastat mohl).

A zpátky k těm 2NNVZ: Pokud by přišel wikipedista a dodal 2NNVZ, konkrétně třeba jednu zprávu z nějakého Orlickohorského deníku, že v Kladsku začínají vánoční trhy, a druhou třeba z Náchodského zpravodaje, že Kladští zastupitelé rozhodli o dokončení cyklostezky Kladsko–Náchod, asi bych neměl problém mu to uznat spíš než nějaký výsledek vzorce z korpusu, který by mi 30:3 říkal, že mám článek pojmenovat Kłodzko. --Dvorapa (diskuse) 17. 11. 2018, 18:54 (CET)

Na Český národní korpus není třeba aplikovat nějaký vzorec, metoda zjištění relativní frekvence výskytu jevu v jazyce je stejně intuitivní jako používání Google. Šlo by jen o tu případnou hranici, kdy název je nebo není zažitý. Pokud jde o zastoupení regionálních deníků, tak vězte, že v korpusu "syn verze 6" zaujímají deníky Bohemia a Moravia polovinu z celkového množství, viz graf. Jazyk encyklopedie by měl odpovídat publicistickým standardům, nikoliv nějakému místnímu nespisovnému nářečí. Kladsko má v "syn verze 6" relativní frekvenci 0.43 (Kłodzko 0.02), to je řádově výše než 0,02 "saského Cvikova".--Eleiodromos (diskuse) 17. 11. 2018, 19:12 (CET)

On je právě nespisovný třeba jenom proto, že ÚJČ o daném názvu třeba ani moc neví a přitom se třebas používá v celém východočeském kraji. Nicméně já bych právě dal přednost místnímu názvu než tomu, co nějací pražáci píšící do celonárodních novin vyčetli z Google map a myslí si, že to tak má být. Krom toho také záleží, jak v tom korpusu hledáte, zkoušel jsem si nyní vyhledat Kudowa-Zdrój x Lázně Chudoba a dospěl jsem k závěru 0,01 x 0. Ovšem pod slovem Chudoba jsou stovky různých jmen lidí a rostlin a produktů a kdovíčeho, čili kdo ví, jak to vlastně je (nemám čas projít všech 6000 výskytů slova Chudoba)? Stejně tak by mě zajímalo, jak jste procházel všech 7000 výskytů slova Cvikov a polemizoval, zda daný text pojednává o saském nebo lužickém městě. Jen z prvních 20, které mi to dalo, to je cca půl na půl. A to není jen problém korpusu, to i problém Google testu a myslím si, že tyto metody nám bohužel u takovýchto případů nepomohou. Já věřím, že ty pokročilé funkce korpusu to umí vyfiltrovat a také věřím, že existují lidé, kteří to umí perfektně ovládat a dokáží mně, neznalému člověku rychle vypsat, jak to s těmi Cvikovy nebo Chudobou vlastně je. Ovšem běžný pisatel Wikipedie tyto složité vyhledávací mechanismy nezná a na první dobrou dopadne jako já s mými pokusy. Z mého pohledu to je, jako kdybyste na základní škole doporučoval dětem vypočítat hmotnost kuličky pomocí kvantové fyziky (trochu přeháním). Jistěže to funguje spolehlivě, ale v testu vám ty děcka dosvědčí, že kvantovce nemají šanci moc rozumět. Raději bych tedy opravdu apeloval na nějaký jednodušší přístup s tím, že pokud bude název navíc doložený šikovně vyhledanými klíčovými slovy v korpusu, pak jen lépe. (myslím, že už se oba opakujeme, tak toho prozatím nechme a počkejme ještě, co si myslí/co vymyslí ostatní). --Dvorapa (diskuse) 17. 11. 2018, 19:57 (CET)

Pro plnohodnotné používání ČNK je třeba se do něj nejprve zaregistrovat. Je to totiž projekt chráněný autorskými právy. Pro stanovení výskytu "německý Cvikov" a "saský Cvikov" jsem použil pokročilejší vyhledávání vzhledem k tomu, že Cvikovy jsou dva. Návod najdete zde. Tzv. gůgltest je naprosto něco jiného, Google stavěný pro angličtinu např. neumí zahrnout skloňované tvary daného slova. Cílem Google navíc není výzkum jazyka, ale byznys. Běžný pisatel Wikipedie musí zvládnout např. kód. Myslím, že není důvod dělat z wikipedistů hlupáky. Kdo chce prosadit přejmenování nějakého města, může se na wiki ČNK dozvědět vše potřebné.--Eleiodromos (diskuse) 17. 11. 2018, 20:16 (CET)

Wikipedisté však pro prosazení přejmenování v první řadě vůbec nebudou zkoušet korpus, ale právě Google test. Máme to na Wikipedii i v pravidlech a doporučeních. Umí skloňování slov velmi dobře. A také dokáže dát alespoň trochu pohled na věc, i když zahrnuje i výsledky z nedůvěryhodných zdrojů a výsledky z osobních blogísků apod. Tady však nejde o to, že by chtěl někdo prosadit jedno přejmenování, tady jde o hledání plošného konsensu, kterým by se řídili všichni u všech obcí bez rozdílu a většina z nás smrtelníků vážně nebude tápat, jak sepsat dotaz na korpus, než vytvoří článek. Každé dítě ze základní školy by mělo být schopné na základě jednoduchého pravidla říct, zda se bude článek na Wikipedii jmenovat tak či onak. Teď mi řekněte, kolik lidí by před napsáním článku chtělo pročítat wiki korpusu a přemýšlet, jak zadat do korpusu dotaz. Nikdo. Máte-li nějaký jiný nápad než mnou navržené 2NNVZ, protože nic lepšího zatím v diskusi asi nepadlo (i když je fakt, že jsem ji neměl čas číst celou), sem s ním. --Dvorapa (diskuse) 17. 11. 2018, 20:45 (CET)

Exonyma jsou problematikou lingvistickou. S tím skloňováním mimochodem nemáte pravdu. Lingvisté zdůrazňují, že vyhledávání v Google má zcela jiné parametry.^[1] Obecně uznávaný je diachronní korpus vytvořený z Googlebooks: Google Ngram Viewer, který ovšem dosud nemá českou verzi.^[2] Chorvatská lingvistka Pavlina Krešimir se ve svém článku Using Google Search Engine for Word Frequency Analysis pokouší porovnat výsledky běžného vyhledávání chorvatských slov ve vyhledávači Google s hledáním v chorvatských korpusech. Dochází při tom k závěru, že mezi výsledky existuje určitá korelace.^[3] Nic víc. Metoda korpusu je tedy podle názoru současné lingvistiky tím nejlepším řešením.--Eleiodromos (diskuse) 17. 11. 2018, 21:00 (CET)

Úplně z jiného pohledu: Nutnost se někde zaregistrovat mi přijde ohrožením anonymity / pseudonymity editorů a z tohohle hlediska by se mi pravidlo něco takového vyžadující pro plnohodnotnou účast na diskusi hodně nelíbilo.--Tchoř (diskuse) 17. 11. 2018, 21:19 (CET)

Žijeme v době, kdy na nás Google a Facebook vědí vše a kdy je možné kohokoliv odpálit raketou na základě údajů z chytrého telefonu. Projevovat v takové situaci krajní nedůvěru aplikaci Ústavu Českého národního korpusu mi přijde přehnané. Registrace je soukromou věcí každého případného uživatele, jsem přesvědčen, že ČNK nikoho nepráskne.--Eleiodromos (diskuse) 17. 11. 2018, 21:34 (CET)

Problém je, že jako Wikipedie nemůžeme uživatele nutit se zaregistrovat do korpusu, jen kvůli našim pravidlům (dobrý poznatek Tchoři). --Dvorapa (diskuse) 17. 11. 2018, 22:45 (CET)

Ale k tomu, abych se registroval u Facebooku či Googlu mne naštěstí Wikipedie nijak nenutí. A já vykládám poměrně značné úsilí na to, aby o mne věděli co nejméně. Nehledě k tomu, že tradičně je pro člověka problém narušení soukromí spíš lidmi geograficky bližšími, kteří jej mohou potkat i v jiné roli, než někým vzdáleným.--Tchoř (diskuse) 17. 11. 2018, 22:46 (CET)

Přirovnal bych to asi k tomu, že Wikipedie nemůže nutit wikipedisty, aby se zaregistrovali v nejrůznějších knihovnách. Jenže z pouhého gůglení (které se Vás samozřejmě netýká) se encyklopedie dělat nedá.--Eleiodromos (diskuse) 17. 11. 2018, 22:52 (CET)

@Tchoř: Nutno zdůraznit, že registrace kdekoliv jinde, ať už jde o sociální síť nebo o aplikaci ČNK, nijak nenarušuje anonymitu či pseudonymitu wikipedisty, jenžto mezi těmito účty není žádné propojení. --YjM | _d^p 18. 11. 2018, 18:57 (CET)

Registrace minimálně, ovšem využití podstatně. V situaci, kdy na základě diskuse na Wikipedii začne zčistajasna deset uživatelů veřejně debatovat ve Wikipedii nad nějakým exonymem a zároveň hledat v korpusu všechny jeho možné varianty, přičemž sedm z nich se se svým občanským jménem na Wikipedii netají, takže lze jejich účty spárovat okamžitě, tak těm zbylým třem už moc té anonymity nezbyde.--Tchoř (diskuse) 19. 11. 2018, 04:38 (CET)

@Dvorapa: Nechci posuzovat, zda je registrace a vyhledávání v ČNK „příliš složité na běžného českého wikipedistu“, ale troufám si tvrdit, že běžný český wikipedista by ani potenciálním zavedením nového pravidla nic takové nepotřeboval – českých exonym totiž existuje konečně mnoho a už samotný Seznam českých exonym naznačuje, že nejde o nějaké ohromné číslo. Validitu všech českých exonym proti tomuto pravidlu by stačilo poměřit pouze jednou (resp. periodicky při vydání nové verze korpusu), hromadně. Nehledě na to, že velká část článků, kterých se problém týká, je již pod nějakým názvem založených. Tj. wikipedista, který by chtěl založit nový článek o městě s „problematickým“ názvem už tolik možností nemá. --YjM | _d^p 18. 11. 2018, 18:57 (CET)

Pokud to stačí provést jen jednou (za čas), pak bych doporučil místo dlouhých nesmyslných hádek zde tuto věc provést a vypsat někam třeba pod lípu seznam článků, které se jmenují počeštěně a asi by neměly + seznam článků, které se počeštěně nejmenují a asi by měly. Projdeme to, zjistíme konkrétně, jak moc se dá výsledkům z korpusu/sče věřit (věřím, že by bylo na první pohled zřejmé, že to je dobrá věc nebo to produkuje blbosti) a provedeme přejmenování (případně vymyslíme strategii přejmenování, pokud bude konflikt jako u Cvikovů). --Dvorapa (diskuse) 18. 11. 2018, 19:40 (CET)

Kvalitní myšlenka, všema deseti pro. Chrzwzcz (diskuse) 18. 11. 2018, 19:56 (CET)

Pořád nějak nechápu, proč bychom měli místo standardních testů v tématických zdrojích + google testu zavádět test korpusem. Korpus obsahuje jen výběr textů, například co se týče textů zmiňujících německé pohraničí nebude obsahovat pravděpodobně ani desetinu existujících textů. To z něj dělá pro tento účel naprosto nevypovídající zdroj. Tak proč se vám tak líbí? Jen proto, že je teoreticky nejobsáhlejším zdrojem, abychom si zjednodušili analýzu a prostě mrkli na jeden zdroj místo projíždění mnoha článků? Jenže tím se naprosto vzdálíme od reality do nějakého absurdního teoretického abstraktna. Uvědomte si, že ze 32 skutečných reálných zdrojů, které píší o Cvikově, jich korpus obsahuje pouze 5. Je to statisticky zcela nedostatečné. --Palu (diskuse) 18. 11. 2018, 21:00 (CET)

Je směšné, že tady chce jazykovou revoluci dělat někdo, kdo ani neovládá české skloňování řeckých jmen.--Eleiodromos (diskuse) 16. 11. 2018, 12:26 (CET)

„Nebuďte jedovatí – pokud to bezprostředně nesouvisí s probíraným tématem, nevyčítejte svému názorovému odpůrci například formální úpravu jeho diskusního příspěvku či jiné, pro spor nepodstatné věci.“ To jenom cituju Wikipedie:Wikietiketa, jestli článek přejmenujete nebo ne, to je mi samozřejmě úplně egál.--Hnetubud (diskuse) 16. 11. 2018, 13:38 (CET)

Seznam českých exonym pro německá toponyma, Seznam českých exonym - zkuste si z toho vydedukovat, jak to tedy je teď a jak to ladí s pravidlem. Jsou tam tři typy - jména historická už nepoužívaná (jméno české je kurzívou, původní jméno je modré), jména sice současná ale ne tak moc užívaná (jméno české je normálně, původní jméno je modré), a jména používaná a wikipedií podporovaná (jméno české je modré, původní je normální). Za mě: Ne že by se česká jména měla úplně upřednostňovat stůj co stůj, ale zas bych po nich nevyžadoval více než 50%, to si vykládám pod "zažité". Z článků snad bude vidět, co je a není zažitost. Chrzwzcz (diskuse) 16. 11. 2018, 19:08 (CET)

50 % čeho?--Eleiodromos (diskuse) 16. 11. 2018, 19:19 (CET)

100 * Cvikov / (Cvikov + Zwickau). V korpusu nebo jakkoliv jinak chcete měřit.Chrzwzcz (diskuse)

Nechápu. Když někdo najde 32 výskytů "saského Cvikova", není problém najít v českých publicistických textech stejných 32 výskytů "saského města Zwickau".--Eleiodromos (diskuse) 16. 11. 2018, 22:12 (CET)

Nechápu co nechápete, jednoznačněji než matematickým vzorcem to snad už napsat nejde. Cvikov = počet výskytů Cvikova, Zwickau = počet výskytů Zwickauů. Vyřízeno. 32 tam nikde nevystupuje, nemotat ji tam. Chrzwzcz (diskuse) 16. 11. 2018, 22:18 (CET)

Absolutní frekvenci/počet obou názvů v reálném světě změřit nelze. Měřit se dá pouze v korpusu, přičemž rozhodující není počet jednotlivých výskytů, ale relativní frekvence. Není mi jasné, čeho se tím Vaším vzorcem lze dopočítat. Podle mého názoru nemá smysl vymýšlet tady něco, co už je matematickými lingvisty dávno vymyšleno.--Eleiodromos (diskuse) 16. 11. 2018, 22:38 (CET)

Bojuje proti sobě Zwickau a Cvikov. Můj vzorec (a těžko si budu dávat copyright na vzorec pro poměr) vypočítá třeba že z 51 % používají zdroje Cvikov (a nepřekvapivě 49 % Zwickau). Pak není co řešit. A já tvrdím, že českým názvům by se přece jen mohlo trochu nadržovat i když jsou někde nehluboko pod 50 %. Chrzwzcz (diskuse) 16. 11. 2018, 22:59 (CET)

Jak ale chcete všechny ty jednotlivé výskyty napočítat? To je zhola nemožné. I já jsem českým exonymům ochoten nadržovat slevením relativní frekvence (průměr z relativní frekvence názvů "Londýn, Vídeň, Řezno") na polovic. Viz výše. Navrhuji tak něco, co se dá měřením v Českém národním korpusu snadno realizovat. Vy chcete patrně spočítat všechny výskyty v reálném světě, což nelze.--Eleiodromos (diskuse) 16. 11. 2018, 23:28 (CET)

Co navrhuje Chrzwzcz je vzít si třeba Mladou Frontu a porovnat výskyty. Nebo to udělat s encyklopediemi o Německu apod. V podstatě přijímá vaší teorii o frekvenčním poměřování s tím, že pro Cvikov nemusí být nadpoloviční většina, abychom ho použili. Jen se neomezuje na korpus.cz, který je sestaven jen z některých textů a jehož výběr tak není dostatečně reprezentativní. Místo toho chce prozkoumat reálné prostředí, kde se o Cvikovu píše. --Palu (diskuse) 17. 11. 2018, 07:58 (CET)

Vy si tomu říkejte poloviční relativní frekvence, já tomu budu říkat poměr 33:66 a půjde o totéž. V odkazech výše by se dalo zkoumat, jestli Wikipedie už teď nenadržuje českým exonymům ještě víc. Chrzwzcz (diskuse) 17. 11. 2018, 08:01 (CET)

O totéž právě vůbec nejde. Nejprve je třeba si ujasnit, zda počítat jablka nebo hrušky.--Eleiodromos (diskuse) 17. 11. 2018, 10:21 (CET)

Korpus "SYN verze 6", který navrhuji použít jako nástroj měření, zahrnuje korpusy SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a SYN2015; kromě nich se skládá také z publicistiky z let 2010–2015, která je již součástí korpusů SYN verze 4 a verze 5, a také z dosud nezveřejněné publicistiky z roku 2016 v objemu téměř 200 mil. slov. O složení jeho publicistické části si můžete udělat představu zde.--Eleiodromos (diskuse) 17. 11. 2018, 08:49 (CET)

Ad debata Chrzwzcz-Eleiodromos, pro Eleiodromose: Chrzwzcz říká, že při výběru ze dvou možností máme zjistit, jak často se užívají, a české exonymum užít, pokud je používané aspoň dejmetomu cca ve 40 procentech případů. Obvykle se používanost zjišťuje google testem, vy navrhujete použít korpus, v tom není problém. Postup vyhovující vám oběma by pak zněl: České exonymum se použije, pokud jeho relativní četnost v korpusu není výrazně nižší než relativní četnost cizojazyčného názvu. Například je-li relativní četnost originálního jména 0.31, pak by české exonymum mělo nárok na použití pouze pokud by jeho relativní četnost byla 0.20 a výše. (Což asi Cvikov nedá. I když jestli jsem pochopil způsob jakým jste pracoval s korpusem, tak jste našel výskyty typu "německý Cvikov" ve všech pádech; ale nikoliv případy typu "Cvikov (Německo)" ani případy kde jsou "Cvikov" a "německý" od sebe více vzdálené.) (Pro pochopení použité matematiky: je-li relativní četnost cizího jména 0.30/0.60/3/12, má české exonymum být použito, má-li relativní četnost aspoň 0.20/0.40/2/8.) --Jann (diskuse) 17. 11. 2018, 22:20 (CET)

Já samozřejmě nejsem proti tomu, aby byl název, který se v české publicistice moc neobjevuje vzhledem ke své okrajovosti, např. Lubáň, upřednostněn proti téměř stejně frekventovanému názvu Lubań. V tom jsem dal Paluovi za pravdu a proti přesunu jsem jako hlavní autor tohoto článku nic nenamítal. Je to jen otázka nastavení určité hranice relativní frekvence, popř. porovnání obou názvů. Máte pravdu v tom, že jsem při testování "německého či saského Cvikova" nezohlednil výskyt typu "Cvikov AND Německo". Zatím jsem totiž nenašel způsob, jak tento problém řešit, protože na ČNK fungují operátory AND a OR mnohem přesněji. To ale není problém podle situace lépe vychytat. Ve Vašem vysvětlení mi není jasné, k čemu se vztahují jednotlivé hodnoty za lomítky, ale jak jsem řekl, hranice "zažitosti", která by byla k českým názvům vstřícná, může být předmětem další diskuse.--Eleiodromos (diskuse) 17. 11. 2018, 22:38 (CET)

Spíš říkám: najděte si na stránkách Seznam českých exonym pro německá toponyma, Seznam českých exonym taková 2 3 4 česká exonyma, na jejichž užití byste si ani netipli a přesto se na české Wiki nezpochybněně drží. U nich přeměřte procenta, nebo i váhu zdrojů, a třeba to bude hluboko pod 40 %. Pokud bude Cvikov vykazovat podobných čísel jako ten výběr nečekaných názvů, má právo na Wiki být (druhý přístup je přejmenovat na původní názvy ty 2 3 4 neuvěřitelné případy :)) Chrzwzcz (diskuse) 18. 11. 2018, 14:47 (CET)

Stránky na Wikipedii by neměly být kriteriem pro debatu o exonymech. To je čistě lingvistická problematika a záležitost zdrojů samotných. To, co navrhujete, připomíná věštění z kávové sedliny. Pokud jde o poměřování, jak říkáte "váhy zdrojů", to by bylo ještě spornější.--Eleiodromos (diskuse) 18. 11. 2018, 15:10 (CET)

Jaké věštění, co to zase píšete? Wikipedie má pravidlo o tom, že se mají používat česká exonyma pokud jsou zažitá. Prohlédnutím stránek s nejméně očekávanými exonymy se jendoduše ukáže, co si pod "zažítá exonyma" česká wikipedie ještě představuje jako absolutní minimum. Váhování zdrojů je naprostý wikistandard, takže to asi nebudu ani dál pokračovat...Chrzwzcz (diskuse) 18. 11. 2018, 16:05 (CET)

Ad Palu: 32 výskytů v různých zdrojích je zažitost, pokud se alternativa vyskytuje také cca v desítkách kusů. Pokud se jméno v českých textech vyskytuje orientačně v desítkách a stovkách tisíc výskytů ([28]) musí alternativa mít k prokázání zažitosti řádově stejnou početnost. Odlišit český a německý Cvikov v googlu i korpusu je ovšem problém, nicméně googl ukazuje že například "německý Cvikov" dost zaostává za "německé Zwickau". PS. A samozřejmě, navrhujete změnu z pokojného stavu, věc není na první pohled jasná, tudíž důkazní břemeno je na vás. --Jann (diskuse) 17. 11. 2018, 22:20 (CET)

Já jsem v diskusi nepopíral, že Zwickau je požívaný časěji. Mluvil jsem o tom, že název Cvikov je zažitý a měli bychom tedy použít jej dle našeho pravidla. Není to nějaký obskurní staromilecký relikt, nýbrž známé, srozumitelné slovo. Předmětem pravidla není prokazovat, že je nejčetnější, ale to, že je zažité. A to reprezentuje právě široké použítí napříč různými tématy i typy textů, jaké jsou v oněch 32 zdrojích. Mnoho jich je z článků novin, mnoho z knih, snad nejvíce z atomobilových časopisů (ve Cvikově se vyráběly Trabanty a dnes VW) a abych ilustroval, že to není ani nějaký nový výmysl, uvedl jsem i starou literaturu nebo literaturu o historii. Rozhodně nebylo mým cílem dokládat, že je toto exonymum používanější nebo stejně používané (nebo používané ze 40 procent) než endonymum. Je to totiž úplně jiné kritérium než kritérium obsažené v pravidle Města a obce. --Palu (diskuse) 18. 11. 2018, 14:00 (CET)

"Mnoho, mnoho, nejvíce", ale na přejmenování málo.--Eleiodromos (diskuse) 18. 11. 2018, 14:22 (CET)

Dobře, můžeme hledat dál. Korpus je k tomu ale nevhodný. Hledejme v reálných encyklopediích, článcích, knihách, poměřujme výskyty. V korpusu ale určitě nehledejte texty o německém příhraničí. Pro studium exonym korpus použít nelze (pakliže nebude sestaven přímo za tímto účelem, což ten vámi citovaný není). --Palu (diskuse) 18. 11. 2018, 15:09 (CET)

To je pouze váš momentální subjektivní názor, že jazykový korpus je k řešení jazykových problémů nevhodný. Měl byste ho doložit citací lingvistických zdrojů.--Eleiodromos (diskuse) 18. 11. 2018, 15:16 (CET)

Nikdy jsem nenapsal, že jazykový korpus není vhodný k řešení jazykových problémů. Je to podsouvání absurdního názoru, abyste zpochybnil můj postoj. V této diskusi už asi třetí logický klam. Chcete vyhrát ve při nebo najít pravdu? --Palu (diskuse) 18. 11. 2018, 15:22 (CET)

Jinými slovy jste řekl totéž: "korpus je k tomu nevhodný", "pro studium exonym korpus použít nelze". To je z hlediska jazykovědy absurdní. Je směšné, že zrovna vy mi po vší té demagogii výše podsouváte, že se tu dopuštím nějakých logických klamů.--Eleiodromos (diskuse) 18. 11. 2018, 15:27 (CET)

Proč přesně dáváte rovnítko mezi "jazykové problémy" a "studium exonym"? --Palu (diskuse) 18. 11. 2018, 15:30 (CET)

Exonyma jsou samozřejmě jazykový problém. Ke studiu jazykových problémů se pak používá jazykový korpus.--Eleiodromos (diskuse) 18. 11. 2018, 15:32 (CET)

Jazykových problémů je mnohem více, než jenom exonyma. K některým lze použít korpus a k jiným ne. Já jsem napsal, proč si myslím, že pro exonyma je korpus nevhodný - neobsahuje vhodný soubor textů. Stejně tak lze těžko pomocí korpusu poměřit přechylovanou anepřechylovanou podobu příjmení, protože zkrátka korpus takové texty neobsahuje. Jestli chcete můj názor zpochybnit nějak inteligentně, doložte, že korpus obsahuje obsáhlou sbírku českých textů o německém pohraničí. Jinak prosím, přečtěte si tuto stránku. --Palu (diskuse) 18. 11. 2018, 15:36 (CET)

V korpusu "syn verze 6" zaujímají deníky Bohemia a Moravia (tedy včetně pohraničních regionů) polovinu z celkového množství, viz graf. Řekl bych, že se už točíme v kruhu. Vaše momentální subjektivní názory na ČNK mě nezajímají. Půjdu se asi věnovat něčemu smysluplnějšímu...--Eleiodromos (diskuse) 18. 11. 2018, 15:41 (CET)

Musím říct, že podobné vedení diskuse (váš názor mě nezajímá, je to demagogie, je to subjektivní, apod.) je až nepříjemně agresívní a neumožňuje příliš dobrat se konce debaty, spíše to výsledek blokuje. Poud bych se vrátil k věcné rovině, pak deníky Bohemia a Moravia možná píšou i o německém pohraničí (což ale osobně trochu pochybuju), ale určitě to není reprezentativní vzorek, z kterého můžete seskládat celkový přehled co do šířky typů textů (encyklopedie, noviny, časopisy, běžný web, ...). Skutečně nám pomůže v naší debatě vědět, jestli deníky Bohemia a Moravia používají více Cvikov nebo Zwickau? Já myslím, že pro určení zažitosti tyto deníky nestačí a vzorek je naprosto nevypovídající. --Palu (diskuse) 18. 11. 2018, 15:47 (CET)

Q.E.D.--Eleiodromos (diskuse) 18. 11. 2018, 15:51 (CET)

Co tak každému diskutujícímui kb a slova vynásobit deseti, a v tomto rozhasu přidat obsah do článků?Komunita se zde neshodne, tak proto zde mlčím.Mirek256

↑ LÜDELING, Anke; EVERT, Stefan; BARONI, Marco. Using Web Data for Linguistic Purposes [online]. 2007 [cit. 2018-11-13]. Dostupné online. (anglicky)
↑ FRIGINAL, Eric; WALKER, Marsha; RANDALL, Janet Beth. Exploring mega-corpora:Google Ngram Viewer and the Corpus of Historical American English [online]. 2014 [cit. 2018-11-13]. Dostupné online. (anglicky)
↑ KREŠIMIR, Pavlina. Using Google Search Engine for Word Frequency Analysis. Information Technology Interfaces (ITI), Proceedings of the ITI 2012 34th International Conference on. 2012, s. 393-396. ISSN 1334-2762. (anglicky)

Průzkum periodik - Google test

Parametry hledání \ Periodikum	Cvikov Německo -českolipsko	Zwickau Německo -českolipsko	% Cvikov	% Zwickau
iDNES.cz	308 výskytů	250 výskytů	55 %	45 %
iHNed.cz	85 výskytů	285 výskytů	23 %	77 %
Lidovky.cz	109 výskytů	73 výskytů	60 %	40 %
Česká televize	87 výskytů	74 výskytů	54 %	46 %
Novinky.cz	69 výskytů	67 výskytů	51 %	49 %
Ceskenoviny.cz	31 výskytů	13 výskytů	70 %	30 %
Aktuálně.cz	130 výskytů	107 výskytů	55 %	45 %
Celkem			53 %	47 %

Eleiodromos opřel shození Cvikova ze stolu tvrzením "Relativní frekvence (odhad pravděpodobnosti výskytu jevu v jazyce krát 1 milion) u toho slovního spojení v největším korpusu ČNK "syn v6" je pouze 0.02.", přitom ale nenapsal, kolik je tento ukazatel relativní frekvence u Zwickau. Logicky předpokládám, že je nepoměrně větší, což bylo důvodem, proč Eleiodromos Cvikov zamítl. Vzhledem k reálným výskytům výše, které dokazují, že Cvikov je nejen zažitý, ale dokonce i používaný častěji než endonymum, lze říct, že Eleiodromosova metoda dokládání exonym/endonym pomocí korpusu je naprosto neprůkazná a nepoužitelná. Snad jsem svá tvrzení z diskuse výše o nesmyslnosti užití korpusu pro tento typ problému na tomto průzkumu dostatečně vysvětlil. Ovšem, google test má také své ohromné problémy, především ve výběru funkčních parametrů pro vyhledávání, ale i tak si troufám tvrdit, že je o mnoho přesnější, jelikož vybíráme ty texty, které se tématu věnují, nikoliv texty "já o voze, ty o koze". --Palu (diskuse) 20. 11. 2018, 19:27 (CET)

Dík za google test, tak se má argumentovat. Ncméně: Zaprvé Eleiodromos napsal frekvenci Zwickau (.. Název Zwickau má tamtéž relativní frekvenci 0.31.--Eleiodromos (diskuse) 15. 11. 2018, 15:29 (CET) ..). Za druhé, část Cvikovů ve vaší tabulce je český Cvikov - např. u Českých novin jde o 6 případů z těch 31. --Jann (diskuse) 21. 11. 2018, 15:30 (CET)

Ano, to asi ano. Stejně tak může být teoreticky mezi Zwickau český Cvikov, protože jeho německá varianta je totožná. Nicméně z pohledu zažitosti ztráta pár procent pro Cvikov příliš nezmění. Možná tak z pohledu očekávatelnosti, kde by třeba Cvikov spadl pod 50 procent. Ale ta není u exonym to, co chceme sledovat - konsensem je nadržovat českým exonymům, pakliže nejsou obskurní (jeden z důvodu je kultivovaný jazyk Wikipedie). Jinak druhé relativní frekvence jsem se nevšiml, takže se omlouvám. --Palu (diskuse) 21. 11. 2018, 22:57 (CET)

Jen připomínám, že v diskusi Oybin byly provedeny testy validity tzv. Google testu, které dopadly následovně:

Toponyma Chomutov, Chotumov, Chomuvot a Chovutom (Google test)
Toponymum
Chomutov	290
Chotumov	90
Chomuvot	10
Chovutom	2

(Eleiodromos)

Toponyma Praha a Prag (Google test)
Toponymum
Praha	290
Prag	311

(Lubor Ferenc)

Název Prag je tedy podle tzv. Google testu na českém internetu používanější než název Praha.--Eleiodromos (diskuse) 21. 11. 2018, 19:41 (CET)

Ano, Google test má své potíže, je potřeba jednotlivé výsledky kriticky posoudit. Přesto je ale vzhledem k uvedenému nepoměrně přesnější a vhodnější než test korpusem. --Palu (diskuse) 21. 11. 2018, 22:59 (CET)

Samozřejmě je to nějak divně naklikaný googletest. Přece si nebudeme myslet že na českém internetu se najde jen 290 zmínek o Praze :D Chrzwzcz (diskuse) 22. 11. 2018, 19:08 (CET)

Přesně tímhle způsobem se v podobných diskusích na české Wikipedii běžně argumentuje.--Eleiodromos (diskuse) 22. 11. 2018, 19:15 (CET)

Jakým zas? Chrzwzcz (diskuse)

Apelováním na racionální argumenty, zdravý rozum a elementární logiku, které teoreticky u rozumných lidí přebíjí předsudky. V podobných diskusích nejen na Wikipedii však často předsudky vyhrávají. Myslím však, že by jste se neměl přestat snažit o vedení debaty "přesně tímhle způsobem". --Jann (diskuse) 24. 11. 2018, 22:48 (CET)

Ke google testům: třeba s Prahou - google dá rozumné výsledky takto: Praha (do vyhledávače postě napsat Praha + zaškrtnout volbu "stránky pouze česky") a Prag s poměrem 249 : 7,7 ve prospěch Prahy. Palu dělá tu chybu, že si navíc prokliká až na poslední stránku kterou mu google ukáže, a protože google ukáže vždy jen pár desítek stránek (při deseti heslech na stránce tedy u Prahy/Prag to bylo 29 a 31 stránek výsledků - viz výše) tak mu vždy vyjde číslo kolem dvou tří stovek které jen slabě závisí na reálném počtu použití slova v prostorách internetu. Paluova metoda je jakžtakž použitelná pro slova vyskytující se na internetech v desítkách případů, ale pro města, o kterých se píše tisíckát nebo milionkrát vydává nesmysly. U Prahy evidentní, u Oybinu je však zkreslení také výrazné - srovnejte Ojvín a řádově více Oybin s Paluovými tabulkami. Čili google test použitelný je, avšak musí se současně používat i hlava :-) PS. Korpus má zase jiné problémy, jeho tvůrci evidentně dávají před neutrální vědou přednost vědě politicky a ideologicky angažované, bohužel... --Jann (diskuse) 24. 11. 2018, 22:48 (CET)

Smím se zeptat, čím máte podložené to smělé tvrzení o politickém a ideologickém profilu ČNK?--Eleiodromos (diskuse) 24. 11. 2018, 22:59 (CET)

Tvrzením na wiki.korpus.cz: Složení publicistické části korpusu SYN verze 5 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport), - pánové zahrnuli mezi "hlavní" všechny celostátní deníky kromě jednoho, všechny kromě jednoho, lišícího se opoziční politickou orientací. Ten je "ne-hlavní". Čím jiným než ideopředsudky tohle rozdělení vysvětlit? Navíc následuje úžasné tvrzení, že deníky s jednotnou celostátní částí doplněnou krajskou regionální přílohou jsou "celostátní deníky", kdežto deníky s jednotnou celostátní částí doplněnou okresní regionální přílohou (Deníky Bohemia) jsou "regionální deníky". Jako sranda dobrý, ale brát takovéhle "vědce" vážně je fakt odvaha. -- Tento příspěvek přidal Jann (diskuse • příspěvky) 25. listopadu 2018, 10.51 (CE(S)T)

Z celostátních českých deníků chybí AHA!, Šíp a Haló noviny. Jen připomínám, že Ústav Českého národního korpusu je příspěvkovou organizací s omezenými finančními možnostmi. Bylo by např. zajímavé studovat jazyk bulvárních novin. Hlavním cílem ČNK však není zachycení nějaké politické ideologie, ale standardizované češtiny v žánru publicistiky. Vyhledávací managery aplikace KonText, které na rozdíl od Google nejsou určeny pro komerční účely, bych z nějaké politicko-ideologické podjatosti rovněž nepodezíral.--Eleiodromos (diskuse) 25. 11. 2018, 12:28 (CET)

Podle mě je úplně jedno proč je ČNK nekompletní. Zkrátka nekompletní je. Google test naproti tomu kompletní je alespoň v oblasti digitalizovaných zdrojů dostupných na internetu. --Palu (diskuse) 25. 11. 2018, 12:59 (CET)

"Alespoň v oblasti digitalizovaných zdrojů dostupných na internetu" je značné a citelné omezení. Český národní korpus, který tak jako každý jiný korpus kdekoli na světě neobsahuje všechny texty daného jazyka, zahrnuje rovněž určitý podíl české odborné literatury. Práce s ním však vyžaduje více pozornosti než pět minut gůglování.--Eleiodromos (diskuse) 25. 11. 2018, 13:12 (CET)

Proto je vhodné doplnit google test o průzkum dalších relevantních zdrojů v knihovně, pokud je ta šance. Máte pak kompletní přehled na internetu + kompletní přehled ve vámi vybraném souhrnu knih o dané problematice. Použitím ČNK máte přehled z nekompletního souhrnu rozličného typu textů. Taky připomínám, že i google test zahrnuje mnoho tištěné literatury dostupné například na Google knihách, webarchive, apod. --Palu (diskuse) 25. 11. 2018, 13:19 (CET)

To je jako stavět dům z vepřovek a pak to na ušlapané hlíně zachraňovat betonovou podlahou. Já bych ten dům přece jen raději stavěl z lepšího materiálu.--Eleiodromos (diskuse) 25. 11. 2018, 13:28 (CET)

V této debatě nám může pomoct jedině objektivní argumentace. Při subjektivním "mě se to zdá nekvalitní" nevím na co vlastně odpovědět. Pokud máte takový pocit, podpořte ho nějakým porovnáním, analýzou, logickým tokem, apod. --Palu (diskuse) 25. 11. 2018, 13:47 (CET)

Viz literatura,^[1]^[2]^[3] kterou jsem tu opakovaně argumentoval.--Eleiodromos (diskuse) 25. 11. 2018, 13:52 (CET)

↑ LÜDELING, Anke; EVERT, Stefan; BARONI, Marco. Using Web Data for Linguistic Purposes [online]. 2007 [cit. 2018-11-13]. Dostupné online. (anglicky)
↑ FRIGINAL, Eric; WALKER, Marsha; RANDALL, Janet Beth. Exploring mega-corpora:Google Ngram Viewer and the Corpus of Historical American English [online]. 2014 [cit. 2018-11-13]. Dostupné online. (anglicky)
↑ KREŠIMIR, Pavlina. Using Google Search Engine for Word Frequency Analysis. Information Technology Interfaces (ITI), Proceedings of the ITI 2012 34th International Conference on. 2012, s. 393-396. ISSN 1334-2762. (anglicky)

A kde a čím ta literatura dokazuje, že pro naše účely je google test nepoužitelný, nebo i jen horší než prohledání korpusu? --Jann (diskuse) 5. 12. 2018, 14:54 (CET)

Ve studii Using Web Data for Linguistic Purposes je do detailů rozebráno, v čem jsou slabiny komerčního vyhledávacího enginu Google (skloňování apod.), pokud je použit pro lingvistické účely. Stačí, když se do toho trochu začtete. To, že jsou např. pro potřeby informatiky (automatické opravy v editorech apod.) používány výhradně tyto výdobytky korpusové lingvistiky, je fakt tak triviální, že ho tu nepotřebuji dokazovat. Přeneseno do prostředí české Wikipedie mi přijde naprosto v pořádku, aby se právě zde používaly ty nejlepší nástroje a metody. Pokud je např. na dewiki problém exonym řešen pomocí korpusu, určitě to není proto, že by nebyli tak chytří jako někteří čeští wikipedisté, kteří v této citlivé otázce argumentují tím, co za pět minut vygůglovali.--Eleiodromos (diskuse) 5. 12. 2018, 15:09 (CET)

Šíp je od roku 2009 týdeník. ...cílem však není zachycení nějaké politické ideologie, ale standardizované češtiny v žánru publicistiky... - jestli z nebulvárních a polobulvárních deníků považují za "hlavní" všechny kromě jediného opozičního, tak to zvenku vypadá, že jejich pojetí standardizované češtiny má výrazné ideologické rysy, a že váš názor (..zachycení nějaké politické ideologie a utlumení jiné mezi jejich cíle nepatří..) je v rozporu s jejich činy. Omezené zdroje a organizační forma s tím naprosto nesouvisí, ty mohou ovlivnit pouze velikost tvořeného souboru, množství přepisovaných textů, nikoliv jejich výběr (ledaže by "správný" výběr ovlivňoval výši dostupných finančních prostředků). --Jann (diskuse) 30. 11. 2018, 19:37 (CET)

Předseda komise pro informační zdroje ČNK mi dnes na dotaz, proč nejsou do excerpce zařazeny Haló noviny, odpověděl takto: „nejsem si jistý, jak je to konkrétně u Haló novin, ale obecně se to má tak, že potřebujeme souhlas vydavatele daného periodika se zařazením jeho produkce do ČNK. Bohužel se poměrně často stává, že souhlas nezískáme a musíme tak řadu titulů oželet, i když bychom je jinak -- kvůli dokumentaci jazyka v nich -- rádi měli.“--Eleiodromos (diskuse) 5. 12. 2018, 12:55 (CET)

Zajímavé, cením si vaší snahy. Nicméně oni píší "hlavní deníky" nikoliv "deníky, jejichž vydavatelé dali souhlas". Takže sdělení se týká jiných médií... Mimochodem, vaše Inteligentní lidský výběr od každého trochu je právě podle přesných metodik zakomponován do ČNK se tak trochu tluče se sdělením, že vybíráno je pouze z těch médií, u kterých mají souhlas vydavatele... google naopak prohledává celý web, ne? --Jann (diskuse) 5. 12. 2018, 14:54 (CET)

Google prohledává pouze nejnovější povrch webu. Články z důležitých deníků, jako jsou např. Hospodářské noviny, nejsou pro neplatící čtenáře přístupné. Starší články z období posledních dvaceti let jsou často nedostupné. Z odborné literatury je stále digitalizován jen zlomek, u kterého není problém s autorským právem. Vzniká tedy převaha literatury starší a neaktuální. V ČNK naproti tomu naleznete prokomponovanou směs publicistiky od roku 2000, ale také část odborných textů a krásné literatury. Nechybí ani takové záležitosti, jako jsou např. Parlamentní listy. To, že tzv. Google test měří pouze počet momentálně dostupných výskytů na povrchu webu a nikoliv relativní frekvenci (pravidlem Wikipedie požadovanou "zažitost jako Londýn, Vídeň, Řezno"), snad nemusím připomínat.--Eleiodromos (diskuse) 5. 12. 2018, 15:24 (CET)

Já nějak nechápu, proč se tu pořád hádáme o tom jestli ČNK nebo Google test. Jsou to dvě metody na udělání si obrázku, ani jedna není stoprocentně spolehlivá, každá má svoje mouchy a hlavně - obě ukazují, že Cvikov je zažité české exonymum. Tak proč tu sáhodlouze donekonečna rozebíráme, jestli ČNK je nebo není suprovější než Google test? Připomínám, že začátek této debaty se vedl o přejmenování článku na Cvikov. --Palu (diskuse) 6. 12. 2018, 19:22 (CET)

ČNK nic takového neukazuje.--Eleiodromos (diskuse) 6. 12. 2018, 19:54 (CET)

Co to povídáte? Korpus Cvikov zná. --Palu (diskuse) 6. 12. 2018, 20:17 (CET)

To vaše srovnání má stejnou logiku jako srovnání lidového léčitelství a medicíny. To, že se v ČNK ojediněle vyskytuje německý či saský Cvikov, nic nemění na tom, že jeho relativní frekvence je pouze 0,02.--Eleiodromos (diskuse) 6. 12. 2018, 20:21 (CET)

Jenže to není to, co nás v této debatě zajímá. Obecně máte pravdu a články na Wikipedii se pojmenovávají na základě relativní frekvence (i když dosud jsme řešili její určení výhradně Google testem, nikoliv ryze lingvistickým ČNK nezkoumajícím jakékoliv další reálie a navíc s méně reprezentativním výběrem textů než má Google). Města mají ale z tohoto pravidla (WP:Očekávatelnost) výjimku (WP:Města a obce) a pojmenovávají se tak, že pakliže má město zažité české exonymum, použije se to. Takže pro tuto debatu není relativní frekvence relevantním ukazatelem. --Palu (diskuse) 6. 12. 2018, 20:30 (CET)

Abych byl pochopen, uvedu to na příkladu. Cvikov má podle vašich zjištění na ČNK relativní frekvenci 0,02, což znamená 2 výskyty ve 100 milionech slov. Zwickau má 0,31, což znamená 3 výskyty v 10 milionech slov. Podle toho lze určit, že Zwickau je 15x častější variantou než Cvikov. Nelze ale podle toho určit, jestli je to slovo zažité. To lze určit jedině otrockou analýzou zdrojů co do rozsahu, kvality a i relativní četnosti, ale v rámci reprezentativního vzorku. (a další věc pak je, že mi není jasná metodika, jak bylo garantováno, že nedošlo k záměně Zwickau a Cvikov v Čechách) --Palu (diskuse) 6. 12. 2018, 20:41 (CET)

O reprezentativnosti vzorku, který vyhledá Google, mám vážné pochybnosti. Pokud vás zajímají další informace, představu si můžete udělat v článku Měnící se svět webového vyhledávání. Pokud jde o váš osobní výklad pravidla zažitosti, v tom se asi neshodneme, protože v ČNK jistě najdete např. i slovo čistonosoplena. Pravidlo mluví o "zažitosti jako Londýn, Vídeň, Řezno". Poměřeno relativní frekvencí je to: Londýn (66,15), Vídeň (40,3), Řezno (0,84). Průměrně tedy 35,76. To je podle mého názoru "zažitost", o jaké mluví toto pravidlo, nikoliv 0,02.--Eleiodromos (diskuse) 6. 12. 2018, 20:47 (CET)

Reprezentativnost vzorku Google je taková, jak si ji nastavíme a Google je rozhodně kompletnější než ČNK, což už tu bylo probíráno. Pokud si myslíte, že 15x méně je automaticky nezažité, pak nechápu na základě čeho si to myslíte. Věřím, že snad ještě horší výsledek získáte u záchod vs. klozet (nebo auto vs. vozidlo, letadlo vs. aeroplán, zip vs. zdrhovadlo, ...) a přesto to neznamená, že klozet není zažité slovo. Je to poměření frekvence, nikoliv zažitosti - nelze mezi to klást rovnítko. Možná má čistonosoplena taky 0,02, i když si to nemyslím (a vy máte v moci na rozdíl ode mě to prozkoumat; možná, že je skutečně tak citovaná jako příklad absurdity obrozenecké slovotvorby, že vylítne ještě výš než Zwickau), ale i kdyby, tak to skutečně nevypovídá nic o její zažitosti. --Palu (diskuse) 6. 12. 2018, 20:58 (CET)

Určení zažitosti je pro intuici nedostupné a nerealizovatelné. Zapomeňte na svůj individuální jazykový cit poplatný vašemu původu a věku a seznamte se s tvrdými daty. Google je dobrý jen pro první nástřel, nikoliv pro zjištění přesné hodnoty relativní frekvence daného slova.--Eleiodromos (diskuse) 6. 12. 2018, 21:12 (CET)

I analýza výskytu v rámci typů a rozsahu zdrojů patří mezi tvrdá data, ČNK skutečně není jediným zdrojem tvrdých dat, vzlášť když je nekompletní. Musím trvat na tom, že relativní frekvence slova nijak nesouvisí se zažitostí. Tento ukazatel neumí prokazatelně ukázat ani že slovo je zažité (citování absurdního slova pro pobavení zvýší jeho četnost bez vlivu na jeho nezažitost) ani že je nezažité (nízká frekvence některých slov může být způsobená například užíváním pouze ve spisovné vrstvě jazyka apod.). Už vůbec nemůžete mluvit o nezažitosti na základě patnáctinásobného rozdílu. Musel by být v řádu stovek či tisíců, aby tam byl alespoň nepřímý náznak. --Palu (diskuse) 6. 12. 2018, 21:19 (CET)

Pokud má exonymum frekvenci 0,02, nezbývá než dát šanci originálnímu názvu. Věřte tomu, že čeština tím neutrpí a přežije to stejně jako současnou nadvládu stupidních anglicismů. Pokud výsledky gůglování považujete za "tvrdá data", potom nechápu, oč se ta korpusová lingvistika vlastně snaží, když je to přece tak jednoduché.--Eleiodromos (diskuse) 6. 12. 2018, 21:26 (CET)

Ovšem tato vaše odpověď postrádá jakýkoliv odkaz na tvrdá data nebo místní pravidla a prostě jen hrnuje váš osobní postoj. Věřím tomu, že korpusoví lingvisté dokáží ČNK využívat relevantním způsobem a že je korpus velmi důležitým nástrojem pro sledování vývoje jazyka. Věřím, že na základě určité studie, která zahrne také, ale ne jenom výsledky relativních četností, lze stanovit, že nějaké slovo už je nezažité a nepoužívané. Nelze to ale usoudit pouze na základě relativní frekvence, která je sama o sobě jen jedním údajem z mnoha. Je to, jako byste chtěl z frekvence prodeje jídel ve fastfoodu určit, které jídlo není ve společnosti známé. Že se prodá některé jídlo jednou za týden a jiné jednou za minutu ještě neznamená, že to jednou za týden je neznámé. Znamenat to může to, že 1) není chutné, 2) není zdravé, 3) není dostupné, ... atd. A nebo samozřejmě i že není známé, to je vlastně také jedna z těchto mnoha možností. --Palu (diskuse) 6. 12. 2018, 21:37 (CET)

Bohužel, jediná kvantifikovatelná "zažitost" je relativní frekvence. Nic lepšího není k dispozici. Dál už tuto diskusi není třeba rozmělňovat.--Eleiodromos (diskuse) 6. 12. 2018, 21:45 (CET)

Ano, tento argument opakujete velmi často, vlastně v každé vaší odpovědi. Jeho mylnost dokazuje třeba i rozpor vašeho závěru o nezažitosti Cvikova například s bakalářskou prací Vývoj a současný stav české exonymie TUL ("více frekventovaná a známá jména") nebo s článkem Cizí zeměpisná jména v českém kontextu v Naší řeči citující vznikající publikaci názvoslovné komise Českého úřadu geografického a kartografického ("exonymum běžně užívané v českém kontextu"). Dále Cvikov běžně použila práce Standardizace jmen sídelních a nesídelních geografických objektů z území mimo Českou republiku ČÚZK, a je tu další spousta použití v soudobé spisovné češtině, jako třeba v tomto sborníku apod. Zkrátka z jednoho údaje ČNK evidentně nejde vypozorovat to, co tvrdíte, že jde. Nebo leda že by byli všichni ostatní letadlo. --Palu (diskuse) 6. 12. 2018, 22:19 (CET)

Prosimvás, nějaká bakalářka z oboru "Český jazyk a literatura" na TULU, nebo článek z Naší řeči z roku nebreč vám dává zase jen pouhé 3 výskyty, nikoliv "zažitost" a už vůbec ne relativní frekvenci.--Eleiodromos (diskuse) 6. 12. 2018, 22:30 (CET)

Já tam vidím hodnocení, ne jen výskyty: "více frekventovaná a známá jména", "exonymum běžně užívané v českém kontextu". Myslím, že autorita těchto dvou zdrojů je větší, než vaše interpretace ČNK, která nehledí ani na váhu obsažených zdrojů, ani na četnost v rámci určitých okruhů, zkrátka prostě jen vezmete jedno číslo a to sem s odpuštěním "prdnete" jako že dokládá všechno. Bez jakékoliv hlubší interpretace, bez porozumění, co vlastně to číslo dokládá a ukazuje. --Palu (diskuse) 6. 12. 2018, 22:46 (CET)

S činností a cíli ČNK, na nichž se nepodílejí bc.-češtináři, ale absolventi matfyz, jste se evidentně ani neseznámil. Proto se s vámi pro dnešek loučím se svým oblíbeným Q.E.D..--Eleiodromos (diskuse) 6. 12. 2018, 22:56 (CET)

Ono ztotožňovat autoritu ČNK a autoritu toho, kdo z něj získává a interpretuje údaje, je kardinální chybou. O autoritě ČNK jsem neřekl nic špatného. Tvrdím jen, že váš výklad není správný, protože nelze ČNK aplikovat takovým způsobem, jak jej aplikujete. --Palu (diskuse) 6. 12. 2018, 22:59 (CET)

Jestli to dobře chápu, zpochybnil jste můj test v úvodu této kapitoly. Můžete tedy čísla opravit tak, aby byla podle vás v pořádku? --Palu (diskuse) 25. 11. 2018, 10:41 (CET)

JoChrzwzcz (diskuse) 25. 11. 2018, 10:57 (CET)

iDNES.cz     10600:4390
iHNed.cz       114: 404  
Lidovky.cz     313: 128 
Česká televize 219:  98
Novinky.cz     100: 140  
Ceskenoviny.cz  81:  26 
Aktuálně.cz    300: 275

Bez odkazů nepoznám, co bylo na mojí metodě špatně. Jestli to dobře chápu, tak jsem nesprávně odečítal to číslo a měl jsem ho odečítat už na první stránce. Nicméně když kliknu třeba na ten Ojvín výše, tak žádné číslo nevidím, dokud se neproklikám právě na ten konec. --Palu (diskuse) 25. 11. 2018, 11:09 (CET)

Když kliknete na Ojvín, vidíte řádek Vše Obrázky .... Nastavení Nástroje. Přičemž tlačítko Nástroje je zvýrazněné. Pod ním je řádek Nástrojů: Stránky pouze česky Bez časového omezení... Řádek Nástrojů je vidět, protože jsem tam zaškrtl "Stránky pouze česky". Když kliknete na "Nástroje", tak vám tenhle nástrojový řádek zmizí a na jeho místě se objeví obvyklé "Přibližný počet výsledků: 6 390 (0,37 s) " a to je číslo o které nám jde - googlovský odhad počtu Ojvínů na internetech. Oybinů google odhaduje 111 tisíc [29]. --Jann (diskuse) 25. 11. 2018, 11:50 (CET)

Do těchto odkazů se evidentně zrcadlí českolipský Cvikov.--Eleiodromos (diskuse) 25. 11. 2018, 12:40 (CET)

Díky tedy za vysvětlení, tohle jsem neznal. --Palu (diskuse) 25. 11. 2018, 12:59 (CET)

Rádo se stalo. Po zopakování google testu touto lepší metodou dostaneme například na Aktuálně.cz pro cvikov německo -českolipsko odhad googlu 198, pro zwickau německo -českolipsko 236, což se liší od vašeho výsledku 130 ku 107. Imo to pořád dokazuje zažitost Cvikova v redakci Aktuálně, ale ty poměry už jsou jiné a u jiných webů mohou být dramaticky jiné. Obecně dotaz cvikov německo -českolipsko prohrává s zwickau německo -českolipsko v poměru 378 000 ku 16 500 000. Čiliže, v kontrastu k redakci Aktuálně, na českých internetech Cvikov jasně prohrává. Kupodivu u knih známých googlu je poměr 3300 ku 951 ve prospěch Cvikova. --Jann (diskuse) 30. 11. 2018, 19:37 (CET)

Tak z pohledu zažitosti nám je celkem jedno, které synonymum prohrává. Jde o to, jestli je to české zažité, tj. jestli je v paměti. --Palu (diskuse) 30. 11. 2018, 19:47 (CET)

V paměti je, v tom smyslu, že významná část Čechů ho zná. Nicméně ohledně zažitosti se lišíme - myslím, že zažitostí pravidlo nemíní zda exonymum je v paměti, ale zda je používané. --Jann (diskuse) 30. 11. 2018, 19:59 (CET)

To se nelišíme. Pokud je v paměti, tak je i používané. Je ale irelevantní, jestli je nejpoužívanější. --Palu (diskuse) 30. 11. 2018, 20:07 (CET)

To jméno živé je, třeba ve smyslu že jej i noviny v posledním roce používají a ve srovnatelném počtu k originálu. A ani Google se nebojí dát Cvikov na své mapy v češtině... Ne že by nešlo zpochybňovat Googlemapy, můžeme ale třeba porovnat, jak moc se Wikipedie od Googlu liší u jiných exonym. Chrzwzcz (diskuse) 30. 11. 2018, 22:21 (CET) PS: Proklikal jsem si asi 30 českých exonym pro německá toponyma a rozdíl jsem zaznamenal jen u Zwickau, všude jinde jsou Googlemapy a Wiki stejně "odvážné", až se vkrádala otázka jestli to Google prachsprostě neokopíroval z wikipedie, ale vypadá to že tenhle článek se nikdy nejmenoval Cvikov... Chrzwzcz (diskuse) 30. 11. 2018, 22:39 (CET)

@Chrzwzcz: Článek byl jako Cvikov založen, stačí umět hledat Cvikov (Zwickau), a jinak zde poznamenám, jestli mě na wiki něco nebaví, tak tato diskuze na toto téma, ale mám názor, že by se německá města měla jmenovat německy.Mirek256 1. 12. 2018, 09:04 (CET)

Google přecházel na české názvy letos, sotva kopíroval jak byl článek založen před lety. Německá města by se pochopitelně na wikipedii měla jmenovat tak, jak je běžné v českých zdrojích a ne jak si někdo direktivně vymyslí protože má úžasnou myšlenku jak jazyk zpravidelnit a zavedenou češtinu zpitvořit Berliny, Dresdeny a Kölny. Chrzwzcz (diskuse) 1. 12. 2018, 10:09 (CET)

Se mi nevěřilo, tady máte zdroj: důkaz Chrzwzcz (diskuse) 1. 12. 2018, 11:09 (CET)

Ale hned diskuze Pracuji ve spedici a vůbec se nám to nelíbí. Velká města s českými názvy budiž. Ale komu co řekne německá Olešnice nad Halštrovem (jinak Olešnic v ČR je okolo padesáti), Cáchy, maďarský Ráb, a mnoho dalších měst. Jenom to komplikuje vyhledávání, Google měl nechat původní názvy Oelsnitz/Vogtland, Györ, Aachen. A ještě lepší je Cvikov (Zwickau) a Cvikov v severních Čechách a v článku zmiňované Benátky. Protože se opravdu může stát to, co píše autor článku, „že si zadáte do navigace například Benátky, a na hranici města vás přivítá cedule Venezia. Pokud tedy nedorazíte do Benátek nad Jizerou.“ -:)))Mirek256 1. 12. 2018, 11:19 (CET)

No jo, v diskuzi může být kdecos, nespokojenci a rýpalové forever. Pokud české zdroje znají jen Olešnici nad Halštrovem, ať se to naučí i česká navigace a ne naopak. Nebo pokud to Google s počešťováním přehnal a vytáhl zapomenuté vykopávky, dají se nahlásit opravy. Chrzwzcz (diskuse) 1. 12. 2018, 11:23 (CET)

Aplikace Google nemůže být kritériem v diskusi o českém jazyce. Od toho je Ústav pro jazyk český Akademie věd České republiky a Ústav Českého národního korpusu.--Eleiodromos (diskuse) 1. 12. 2018, 11:46 (CET)

No a kdo říká, že o tom Google rozhoduje? Říkám jenom, že pokud se Wikipedie rozhodne pro Cvikov, což je stále živé jméno (milý ÚJČ vám to jistě ukáže, ve výsledcích třeba za poslední rok nebo pětiletku), tak v tom nebude osamocena a nemá se za co stydět. Tu vysmívanou Olešnici nad Halštrovem tu máme na wikině taky. Ale jinak nemáte pravdu, na wikipedii se úplně bněžneě výsledky hledají na googlu a váží se, nejede jen na prostý počet výskytů, ale zkouší odhadnout, jaký má tento výskyt dosah. Že v nějakých lokálních novinách napsali 1000x Zwickau je pěkná věc, ale 1 Cvikov v celostátním médiu to klidně převálcuje. A váš drahý korpus by nám hlásil 1000násobnou převahu Zwickau, ne?Chrzwzcz (diskuse) 1. 12. 2018, 12:01 (CET)

Jsem proti přesunu, podle mne je německý název očekávaný, viz také názvy ostatních měst v zemském okrese...--OISV (diskuse) 12. 12. 2018, 08:33 (CET)

Tím myslíte v zemském okresu Cvikov? U určování zažitosti exonym určitě nehraje roli nějaké posuzování po skupinkách. :) Chrzwzcz (diskuse) 12. 12. 2018, 08:44 (CET)

[1] LÜDELING, Anke; EVERT, Stefan; BARONI, Marco. Using Web Data for Linguistic Purposes [online]. 2007 [cit. 2018-11-13]. Dostupné online. (anglicky)

[2] FRIGINAL, Eric; WALKER, Marsha; RANDALL, Janet Beth. Exploring mega-corpora:Google Ngram Viewer and the Corpus of Historical American English [online]. 2014 [cit. 2018-11-13]. Dostupné online. (anglicky)

[3] KREŠIMIR, Pavlina. Using Google Search Engine for Word Frequency Analysis. Information Technology Interfaces (ITI), Proceedings of the ITI 2012 34th International Conference on. 2012, s. 393-396. ISSN 1334-2762. (anglicky)

[4] LÜDELING, Anke; EVERT, Stefan; BARONI, Marco. Using Web Data for Linguistic Purposes [online]. 2007 [cit. 2018-11-13]. Dostupné online. (anglicky)

[5] FRIGINAL, Eric; WALKER, Marsha; RANDALL, Janet Beth. Exploring mega-corpora:Google Ngram Viewer and the Corpus of Historical American English [online]. 2014 [cit. 2018-11-13]. Dostupné online. (anglicky)

[6] KREŠIMIR, Pavlina. Using Google Search Engine for Word Frequency Analysis. Information Technology Interfaces (ITI), Proceedings of the ITI 2012 34th International Conference on. 2012, s. 393-396. ISSN 1334-2762. (anglicky)

[1]

[2]

[3]

[1]

[2]

[3]