Wikipedia:Archiv/Datenbankabfragen/Wünsche
Auf dieser Unterseite von Wikipedia:Datenbankabfragen kann man Wuensche fuer neue Abfragen aeussern.
Mit Abfrage ist primaer eine SQL-Abfrage auf einer lokalen Kopie der Datenbank der deutschen Wikipedia (einem "Dump") gemeint. Einige Wuensche benoetigen jedoch eine Nachbearbeitung eines SQL-Ergebnisses mit anderen Programmen (z.B. mit sed), oder direkt eine Verarbeitung der Datenbank mit anderen Programmen (die sich entweder mit der SQL-Datenbank verbinden oder selbst den Dump durchsuchen). Auch solche "nicht-nur-SQL"-Abfragen werden hier beruecksichtigt. Nach Moeglichkeit sollte ein Bearbeiter aber eine reine SQL-Abfrage verwenden, damit die Ergebnisliste leicht von anderen aktualisiert werden kann.
Die Daten, die den potentiellen Bearbeitern zur Verfuegung stehen, sind
- die Tabelle der aktuellen Revisionen aller Artikel (cur)
- die Tabellen der Wiki-Links (links, brokenlinks)
- die Tabelle der Kategorie-Einordnungen (categorylinks)
- die Tabelle der Bild-Hochlade-Informationen (image)
- die Tabelle der Bildlinks (imagelinks)
Nicht allen Benutzern zur Verfuegung stehen
- die Tabelle der frueheren Revisionen der Artikel (old) aufgrund ihrer Groesse von 13 GB (Mai 2005)
Fuer offline-Abfragen gar nicht zur Verfuegung stehen
- Benutzerdaten wie Passwoerter, Einstellungen, Email-Adressen
- Daten ueber Beobachtungslisten der Benutzer
Wer solche Daten (in anonymisierter Form!) benoetigt, sollte sich an meta:Requests for queries wenden.
Wenn du eine neue Abfrage erbitten möchtest, beachte bitte folgendes:
- Stelle bitte Wünsche für neue Abfragen in einem neuen Abschnitt am Ende dieser Seite. Mit diesem Link kannst du einen neuen Abschnitt beginnen.
- Gib bitte immer mit an, auf welcher Seite das Ergebnis gespeichert werden soll - das kann eine Unterseite deiner Benutzerseite sein, oder eine Unterseite von Wikipedia:Datenbankabfragen, oder eine andere Seite im WP-Namensraum.
- Bei Suchanfragen gib mit an,
- welche Namensräume durchsucht werden sollen (Artikel, Diskussionsseiten, Benutzerseiten, Benutzerdiskussionsseiten, Wikipediaseiten, Wikipediadiskussionsseiten etc.).
- welche Daten der gefundenen Artikel du möchtest (Titel, letzte Bearbeitung, Groesse etc.)
- bei reinen Titelsuchen: ob Weiterleitungsseiten markiert oder gar nicht aufgelistet werden sollen
- eine spezielle Sortierreihenfolge (normal wird man wohl nach Titel sortieren, es kann aber auch chronologisch sein)
- Und beachte bitte, dass die Abfragen auf einer Kopie der Datenbank ausgefuehrt wird, die manchmal einige Wochen alt ist! Das Datum des aktuellen Dump ist hier verzeichnet.
Die Diskussion des Abfragewunsches kann dann auf dieser Seite geschehen. Wenn die Abfrage fertig ist, ausgeführt wurde und das Ergebnis hochgeladen wurde, sollte die Diskussion zusammengefasst und nach Wikipedia:Datenbankabfragen/Wünsche/Archiv verschoben werden. Die verwendete Abfrage sollte auf der Ergebnisseite oder deren Diskussionsseite hinterlegt werden.
Bereits vorhandene Abfragen, die erneut ausgefuehrt werden sollen
Wenn du eine bereits vorhandene Abfrage erneut ausgefuehrt haben moechtest, gib bitte hier den Link auf die Abfrage oder Ergebnisliste, und sag dazu, ob sie gleich oder erst mit dem naechsten Dump aktualisiert werden soll.
- Benutzer:MichaelDiederich/Plus als dagger --SirJective 18:29, 19. Feb 2006 (CET)
- Ähnliche Titel --SirJective 18:29, 19. Feb 2006 (CET)
- Benutzer:Bierdimpfl/Nicht_kategorisierte_Seiten --SirJective 18:29, 19. Feb 2006 (CET)
- Fehlende Artikel mit langem Titel, enthält aber Brockenlinks. --Atamari 15:48, 28. Dez 2005 (CET)
- Kürzere Treffer, enthält aber Brockenlinks. --Atamari 15:49, 28. Dez 2005 (CET)
- Nicht vorhandene Artikel mit Sonderzeichen am Anfang, enthält aber Brockenlinks. --Atamari 15:54, 28. Dez 2005 (CET)
- Nicht vorhandene Artikel mit Sonderzeichen am Anfang aktualisierte Form --Centic 11:09, 27. Feb 2006 (CET)
Neue Abfragen
Abfrage von "Wiedergängern"
eine Abfrage von Artikeln die gelöscht wurden aber wieder da sind.
Noch kleine zusatzwünsche so möglich
- Bilder mit {{NowCommons}} mit dem selben bildnamen als löschgrund nicht listen
- artikel die direkt danach (zum teil) wieder hergestellt wurden nicht listen
- artikel die direkt nach der Löschung durch eine Verschiebung "gefüllt" wurden nicht löschen
- joh mehr ausnahmen fallen mir nicht ein wenn das geht wäre es super! auch als dauer-liste denke ich ...Sicherlich Post 17:54, 9. Jun 2005 (CEST)
- Wie würdest du solche Artikel von Hand identifizieren?
- was verstehst du unter der (Teil-)Wiederherstellung eines Artikels und woran erkennt man sie?
- Woran erkennt man, dass ein scheinbar neu angelegtes Lemma durch eine Verschiebung entstanden ist?
- Für Beispiele muss ich ins Löschlog sehen, richtig? :)
- --SirJective 18:40, 10. Jun 2005 (CEST)
- Prinzipiell wird das wohl nur über eine Auswertung des Löschlogbuches möglich sein - möglicherweise gibt es aber auch eine Hilfstabelle, die bei "Gelöschte Seiten wiederherstellen" Verwendung findet.
- Zum zweiten Punkt: Würde im Logbuch z.B. so aussehen:
- 03:27, 6. Jan 2005 Srbauer - Leah Remini wurde wiederhergestellt (16 Versionen wiederhergestellt.)
- 03:25, 6. Jan 2005 Srbauer - Leah Remini wurde gelöscht (löschen - URV in Versionen)
- Zum dritten Punkt: da fällt mir momentan nicht viel dazu ein, da bei einer Verschiebung im Zielartikel m.W. kein Vermerk gemacht wird. Dies wird nur in der Zusammenfassung beim Quellartikel angegeben - falls der mittlerweile (z.B. wg. Falschschreibung) gelöscht wurde, sieht das übel aus. -- srb ♋ 02:01, 26. Jun 2005 (CEST)
- sorry war lange nicht hier ;) ... ich würde in die history gucken und sehen ob sie da ne gelöschte version haben ;) (die vermutlich im dump nicht drin ist? .. hmmm) .... Sicherlich Post 01:44, 24. Jul 2005 (CEST)
- Ich sehe noch nicht, wie ich bei dieser Aufgabe helfen kann, sorry. --SirJective 14:10, 24. Jul 2005 (CEST)
Die Abfrage unter Wikipedia:Fehlende Artikel muss mal auf den neuen Syntax aktualisert werden (ich bin gescheitert), und auch bitte mal ausführen. --Atamari 23:35, 6. Dez 2005 (CET)
- Komme da mit reinem SQL auch nicht weiter. --SirJective 22:10, 19. Dez 2005 (CET)
- Das ist aber blöd, ich dachte mit SQL kann man so vieles abfragen. An welchen Punkt scheitert die Abfrage? --Atamari 23:12, 19. Dez 2005 (CET)
- Siehe Wikipedia Diskussion:Fehlende Artikel --SirJective 11:21, 20. Dez 2005 (CET)
Liste zu Spezialthemen
Ist z.B. eine Liste mit allen Rechtsthemen erhältlich?? --Pelz 23:50, 16. Aug 2005 (CEST)
- Hallo Pelz, hilft dir die Liste aller Artikel, die einen Rechtshinweis enthalten? --Wiegels 01:13:04, 17. Aug 2005 (CEST) (externen in internen Link umgewandelt) --SirJective
Artikel mit langen Diskussionsseiten
Gibt es eine Möglichkeit, eine Top 100 der Artikel mit den längsten Diskussionsseiten zu erhalten? Wie sind überhaupt Abfragen der Diskussionsseiten möglich? Aus dem Datenbankschema bin ich nicht schlau geworden.--mkalz 21:57, 19. Aug 2005 (CEST)
- Hi, Diskussionen sind in einem anderen "Namensraum" als normale Artikel, normale Artikel haben Namensraum = '0', Diskussionen = '1', usw., siehe Wikipedia:Namensraum. Ein entsprechendes SELECT könnte daher wie folgt ausschauen (ohne Gewähr, da Wikisign derzeit offline ist):
SELECT concat('*[[Diskussion:', cur_title, ']]'), length(cur_text) as len FROM cur WHERE cur_namespace = 1 ORDER BY len DESC LIMIT 100;
--Centic 23:56, 19. Aug 2005 (CEST)
- Hab die Abfrage geändert - so liefert sie direkt eine Link-Liste. --SirJective 00:06, 20. Aug 2005 (CEST)
Ihr seid ja schnell - vielen Dank schon mal - ich werde es evtl. offline versuchen, wenn Wikisign noch länger unten ist. --mkalz 11:50, 20. Aug 2005 (CEST)
Artikel mit den meisten Edits
Hallo nochmal, die obige Abfrage hat hervorragend funktioniert. Nun bräuchte ich noch die Abfragewerte für die 100 Artikel mit den meisten Edits. Dazu noch eine Frage: Gibt es ein Archiv, in dem die alten Datenbankdumps abgelegt sind? Ich würde gerne auch ältere Wikipedia-Versionen untersuchen. --mkalz 11:21, 22. Aug 2005 (CEST)
- Ich kenne derzeit keine (von mir aus auch veraltete) WP-Seite, auf der bereits die meistbearbeiteten Artikel zu finden sind.
- Der aktuelle und der vorherige Datenbank-Dump ist auf http://download.wikimedia.org/wikipedia/de/ herunterzuladen. Der Dump 20050623 ist noch im SQL-Format (cur und old), aber laut Jah ist der old-Dump unvollständig (s. hier), der Dump 20050713 ist im XML-Format, aber die komplette Liste aller Versionen (20050713_pages_full.xml.gz) ist leider ebenfalls unvollständig. Noch ältere Dumps wirst du vermutlich nur noch bei Leuten finden, die sie sich heruntergeladen und aufgehoben haben.
- Ich habe eine Kopie von cur und old vom 20041126-Dump (von old hab ich alles außer den Artikeltexten, sind "nur" 300MB statt einigen GB), ich könnte also die Artikel bestimmen, die damals die meisten Bearbeitungen hatten. --SirJective 15:28, 22. Aug 2005 (CEST)
- Hallo SirJective. Es gibt also kein Archiv für die alten Datenbankdumps? Vielleicht ist das aber auch nur ein Verständnisfehler meinerseits: Ich würde gerne über einen längeren Zeitraum (evtl. 1 Jahr) erheben, welche Artikel am meisten editiert wurden. Daher hatte ich die Idee, dass ich mir alle Dumps nehme, die es im Zeitraum von einem Jahr gibt und nach einander die meisten Edits abfrage. Ist dies evtl. auch über die old-Datei möglich? Wie wäre denn der Code für eine Wikisign-Abfrage im aktuellen Dump? Noch einmal vielen Dank für deine Hilfe. --mkalz 16:04, 22. Aug 2005 (CEST)
- Ja, meines Wissens gibt es kein solches Archiv. Da ein Dump aller Sprachen aller Wikimedia-Projekte einige Dutzend Gigabyte groß ist, wundert mich das auch nicht.
- Der Dump der Artikel bestand (vor MediaWiki Version 1.5) aus den Tabellen cur und old. Für die Abfrage der meistbearbeiteten Artikel sollte eine Untersuchung der old-Tabelle genügen: Zu den dort gefundenen Häufigkeiten muss noch eine 1 addiert werden. Eine Abfrage könnte so aussehen (ungetestet!):
select cur_title, count(*) as anzahl from old where cur_namespace = 0 group by cur_namespace, cur_title having anzahl>100 order by anzahl desc;
- wikisign hat aber meines Wissens keine old-Tabellen. --SirJective 17:22, 22. Aug 2005 (CEST)
- Hier hast du die 11000 am häufigsten bearbeiteten Seiten vom 26.11.2004:
- http://chsemrau.de/wikipedia/20041126_revisioncount.zip (97kb)
- Die Einträge sind im Format "Namensraum TAB Titel TAB Anzahl". Falls du nur Artikel brauchst, wähle die Zeilen aus, die mit "0" beginnen (sind etwa 9000). Das erzeugende JAVA-Programm liegt bei. --SirJective 19:35, 22. Aug 2005 (CEST)
- SirJective - was soll ich sagen? Vielen Dank! Ein letzter Wunsch noch - ich hoffe, dass ich nicht unverschämt werde: Kannst du mir von dem Dump des gleichen Datums auch noch die 100 längsten Diskussionsseiten sagen? Wenn ich mit zwei unterschiedlichen Dumps arbeite, kommt das nicht so gut ;-)?--mkalz 22:22, 22. Aug 2005 (CEST)
- Bitte sehr:
- http://chsemrau.de/wikipedia/20041126_longpages.zip (109kb)
- Da hast du gleich die 10000 längsten Artikeldiskussionsseiten mit Länge. Auch hier hab ich das Programm beigelegt. Ich muss dir für diesen Auftrag danken, denn nun endlich habe ich eine Möglichkeit entwickelt, die SQL-Dumps ziemlich einfach mit Hilfe eines regulären Ausdrucks zu beackern. :) Demnächst mach ich dasselbe für die XML-Dumps, und dann bin ich für alles Neue gut gerüstet. --SirJective 01:36, 23. Aug 2005 (CEST)
Aktive Benutzer
Hallo, ich hätte gerne am Wochenende eine Liste der aktivsten Benutzer aus dem aktuellsten Dump, möglichst umfassender als im Beispiel, z.B. die ersten 1000 oder alle ab 100 Beiträge, und nach Bearbeitungsanzahl absteigend sortiert. Die Namensliste möchte ich als Grundlage für die Erstellung aktueller Listen von Beitragszahlen verwenden, solange wie die Alternative Benutzerstatistik nicht erneuert wird. Es ist mir egal, ob sie auf einer Unterseite hiervon oder meiner Benutzerseite gespeichert wird oder mir per Mail geschickt wird. Vielen Dank --Wiegels 21:24:43, 9. Sep 2005 (CEST)
- Wenns demnächst hoffentlich mal vollständige Dumps gibt, dann will ich versuchen, die Alt.Stat zu aktualisieren. Meinem Servers störts ja nich wenn er 10 Gig runterladen soll. --BLueFiSH ?! 21:31, 9. Sep 2005 (CEST)
- Hallo, die Anfrage hat sich erledigt. Ich habe das Ergebnis schon geschickt bekommen. --Wiegels 22:51:46, 9. Sep 2005 (CEST)
Bilder ohne Lizenzbausteine
Ich hoffe ich bin hier richtig: Kann mir bitte jemand eine Liste aller Bilder, in denen keiner der Lizenzbausteine aus Wikipedia:Lizenzvorlagen für Bilder vorkommt, besorgen? Wäre praktisch um URVs aufzuspühren. -- Timo Müller Diskussion 14:08, 11. Sep 2005 (CEST)
- Hallo Timo, ist dir die Seite Wikipedia:Bilder ohne Lizenzangabe bereits bekannt? Diese - momentan fertig abgearbeitete - Liste versammelt alle Bilder, die überhaupt keinen erkennbaren Lizenzhinweis haben. Mit dem nächsten Dump der Datenbank (der zur Zeit erstellt wird) kann ich diese Liste aktualisieren. Falls sie "hinreichend klein" ausfällt, können wir gern damit beginnen, Bilder zu suchen, die zwar einen als reinen Text gegebenen Lizenzhinweis haben, aber noch keinen Lizenzbaustein.
- Zusätzlich kannst du dich ja der Kategorie:Wikipedia:Bilder ohne Lizenzangabe widmen. :) --SirJective 14:59, 11. Sep 2005 (CEST)
- In Kategorie:Wikipedia:Bilder ohne Lizenzangabe steh aber nur Bilder, die schon gefunden worden sind. Und Wikipedia:Bilder ohne Lizenzangabe ist ja schon erledigt. Da werde ich wohl weiter die Spezial:Newimages durchgehen müssen. -- Timo Müller Diskussion 15:04, 11. Sep 2005 (CEST)
- Außerdem werden in Wikipedia:Bilder ohne Lizenzangabe Bilder, die zum Beispiel die Buschstabenkombinationen "gnu" "fdl" und "pd" enthalten, von der Suche ausgeschlossen. Dadurch werden einige URV-Bilder nicht gefunden. Beispielsweise würde schon ein Bild mit der Bildbeschreibung "NPD-Wahlplakat" nie gefunden werden. Deswegen wäre eine Liste aller Bilder, die keien Baustein enthalten, auch sehr hilfreich. Auch Bilder miot dem Lizenz-fehlt-Baustein oder einem Löschantrag sollten nicht geunden werden. Um die Suche zu vereinfachen, könnte man auch einfach nach Seiten suchen, die nicht
{{
enthalten, denn diese können kewine Vorlagen enthalten. -- Timo Müller Diskussion 16:59, 11. Sep 2005 (CEST)
- Wie schon gesagt, kann ich mit dem nächsten Dump zusätzlich zur Liste "Bilder ohne Lizenzangabe" eine Liste "Bilder ohne Lizenzvorlage" anlegen.
- Das "würde nie gefunden werden" ist eine ungerechtfertigte Verallgemeinerung. Wie ich bereits auf Wikipedia Diskussion:Bilder ohne Lizenzangabe geschrieben hatte, hat die alte Abfrage den Nachteil, dass sie auch "pd" innerhalb von Wörtern fand und diese Bilder ignorierte. Eine neue Abfrage wird diesen Umstand beachten und nur alleinstehende "pd" suchen. -SirJective 20:06, 11. Sep 2005 (CEST)
- Das wäre nett. Ich habe es schon mit wikisign.org versucht, aber dabei werden leider auch jede Menge Bilder gefunden, die auf Commons liegen, da die Bildbeschreibungsseite hier dann natürlich keine Vorlage enthält. Weißt du, wie man das lösen kann?
- "Die Sache mit Commons" muss ich selbst erstmal auf die Reihe kriegen. Auf dieser Downloadseite kann man die Daten von commons runterladen. Das kannst du ja Filzstift empfehlen. --SirJective 22:45, 11. Sep 2005 (CEST)
Selbst wenn Benutzer:Filzstift die Commons in Wikisign integriert: Es ist nicht möglich, in einer Abrage auf zwei unterschiedliche Datenbänke zuzugreifen. Ich werde ihmn aber trozdem fragen. Vieleich hat er ja eine Lösung. -- Timo Müller Diskussion 09:42, 12. Sep 2005 (CEST)
- So, ich hab einmal eine mögliche Aktualisierung der Liste vorgeschlagen: Wikipedia Diskussion:Bilder ohne Lizenzangabe#Update möglich. --SirJective 14:21, 16. Sep 2005 (CEST)
Lange Wikipedia Diskussionen
Hallo, könnte ich eine Auflistung aller Wikipedia:-Seiten-Diskussionen haben, die mehr als 20 Inhaltsverzeichnispunkte enthalten oder anders gesagt mehr als 80x das "Istgleich"-Zeichen (=) enthalten. Im Vorraus danke, Schlurcher ??? 22:32, 11. Sep 2005 (CEST)
- Aus dem Dump vom 13. Juli: Benutzer:Schlurcher/Lange Wikipedia Diskussionen --SirJective 23:26, 11. Sep 2005 (CEST)
Artikel mit PND
Hallo SirJective,
für eine Architekturdatenbank (www.archINFORM.net) erstelle ich gerade datenbankbasierte Links zu Wikipedia. Als Basis benutze ich PND-Nummern. Zur Verlinkung brauche ich jetzt eine Verweistabelle mit PND und den Titeln der jeweiligen Wikipedia-Länderseiten. Den SQL-Code habe ich soweit auch zusammengebastelt und auf Wikisign.org getestet. Funktioniert auch, bloss limitiert Wikisign das Ergenis auf maximal 500 Einträge. Hatte bereits im Vorfeld Kontakt mit APPER und JakobVoss und wurde auf Dich als "Halter" einer lokalen Wikipedia-Datenbank verwiesen. Kannst Du mir das Ergebnis der folgenden SQL-Abfrage bereitstellen? Das Ergebnis ist vielleicht auch für andere Projekte interessant und könnte helfen den Nutzen der PNDs herauszustellen.
Hier die Abfrage:
SELECT SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'{{PND|' )), 7, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'{{PND|' )),'}}')-7) AS 'PND', REPLACE(cur_title,'_',' ') AS 'deu', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[en:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[en:' )),']]')-6) AS 'eng', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[fr:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[fr:' )),']]')-6) AS 'fra', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[it:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[it:' )),']]')-6) AS 'ita', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[es:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[es:' )),']]')-6) AS 'spa', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[nl:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[nl:' )),']]')-6) AS 'nld', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[pl:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[pl:' )),']]')-6) AS 'pol', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[pt:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[pt:' )),']]')-6) AS 'por', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[ru:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[ru:' )),']]')-6) AS 'rus', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[ja:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[ja:' )),']]')-6) AS 'jpn', SUBSTRING(SUBSTRING(cur_text FROM INSTR(cur_text,'[[zh:' )), 6, INSTR(SUBSTRING(cur_text FROM INSTR(cur_text,'[[zh:' )),']]')-6) AS 'zho' FROM cur where cur_text Like "%{{PND|%" and cur_namespace = 0 and cur_is_redirect = 0
- Arch2all 08:31, 21. Sep 2005 (CEST)
- Ich hab zwar den Dump, aber ich habe ihn nicht in eine SQL-Datenbank importiert (der Platz reicht nicht, weil ich so ziemlich jeden anderen WP-Dump auch noch runtergeladen habe :)). Ich kann mir aber anhand der Abfrage ungefähr vorstellen, was du suchst.
- Kannst du mir eine Beispiel-Ausgabe (z.B. von wikisign.org) geben, an der ich das genaue Format der Ausgabe erkennen kann? Mit diesen Substring- und Instr-Befehlen habe ich nämlich noch nicht gearbeitet. Soweit ich das sehe, möchtest du:
- die PND-Nummer - die ganze Vorlage oder nur die Nummer?
- den deutschen Titel,
- die Titel bestimmter Interwiki-Links - nur den Titel, oder auch die Sprache dazu, also z.B. "Peter Pan" oder "en:Peter Pan"?
- Ich werde dann die Abfrage mit meinem Programm simulieren und auf den XML-Dump anwenden. --SirJective 15:36, 21. Sep 2005 (CEST)
- Danke schon mal :)
Ich bräuchte die
- PND-Nummer (nur die PND ohne Klammern,etc)
- die Titel und zwar neben dem deutschen (am besten schon die _ durch Leerzeichen ausgetauscht) auch die sonstigen (soweit vorhanden) Interwiki-Titel. Die am besten in Form von Tabellenspalten (jede Spalte eine bestimmte Sprache, wenn vorhanden mit Titel z.B. "Peter Pan" ansonsten leer. Alles in UTF-8, um keine Probleme mit Sonderzeichen zu bekommen.
Als Beispiel folgende Wikisign-Abfrage: http://www.wikisign.org/chronikdetail.php?key=06a229b049a7082d8c922134db409563&wsLang=en
Der Aufwand scheint aber für Dich ja auch höher zu sein, wenn Du das ganze erst für dein Programm simulieren musst. Vielleicht organisiere ich mir besser selber einen Dump (gibt's den auch auf CD, leider hänge ich noch wegen fiesen Vertragslaufzeiten an einem volumenbeschränktem DSL-Tarif) und installiere mit MySQL eine lokale Wikipedia. - Arch2all 16:12, 21. Sep 2005 (CEST)
- Hab die Routine für mein Programm schon fertig und ausprobiert, es liefert die gewünschte Ausgabe: 14421 Artikel. :)
- Das Ergebnis kann ich dir als TAB- (oder sonstwas-) getrennte Datei geben, als Wiki-Tabelle, oder in einem anderen Format deiner Wahl (z.B. als SQL-Dump). Ich werde es wohl auf meine HP hochladen (gezippt 300KB), wo es dann jeder runterladen kann.
- Die Dumps gibts offiziell nicht auf CD, aber ich hab schonmal einen per CD verschickt. Wäre eigentlich eine interessante Geschäftsidee: Wikipedia-Dumps per CD verschicken. :) --SirJective 16:46, 21. Sep 2005 (CEST)
- Optimal: TAB-getrennte UTF8-Textdatei, gezippt ;)
- Für die Geschäftsidee hättest Du schon den ersten Kunden (bei 'nem fairen Preis) ;) Du könntest vielleichst das ganze gleich noch als Abo anbieten. Laufend versorgt mit aktuellen Wiki-Dumps in allen Sprachen auf einer DVD. Träum...
- hier hast du eine TAB-getrennte UTF8-kodierte Textdatei, sortiert nach PND. Die ausgegebenen Sprachlinks sind in der Reihenfolge deiner Abfrage: PND, de, en, fr, it, es, nl, pl, pt, ru, ja, zh.
- Meine Kosten für den Versand der CD beliefen sich auf etwa 2,50 € (Rohling, gepolsterter Umschlag und Porto). Was darauf aufbauend ein fairer Endpreis wäre, weiß ich nicht. Auf ein Abo-Angebot von mir würde ich mich aber nicht einlassen - wie leicht vergesse ich mal etwas. *g* --SirJective 17:24, 21. Sep 2005 (CEST)
- Deine Tabellen-Textdatei ist bestens. Dankeschön! Speicher doch gleich die Abfrageeinstellungen. Bei Gelegenheit kannst Du mir dann bei einem neuen Dump ja wieder so einen Auszug generieren...
Mit Hilfe der Tabelle ist mir gleich noch ein ganzer Haufen PND-Fehler und Doppeleinträge aufgefallen. Ich korrigiere die entsprechenden Arikel jetzt nach und nach. Auf die CD kann ich (trotz des günstigen Angebots :) daher erstmal verzichten. MySQL-Server installieren und Dump aufspielen hätten meiner Kiste wahrscheinlich sowieso den Rest gegeben. Trotzdem finde ich die Geschäftsidee immer noch gut.
Geokoordinaten
Mir sind ein paar Atikel aufgefallen, die Angaben zu Geokoordinaten machen. Aber wo dann diese Geokoordinate nicht verlinkt ist. Dachte mir daraus könnt man bestimmt eine nette Wartungsliste basteln. -- Ninjamask 18:26, 5. Okt 2005 (CEST)
- Wenn du deine Idee präzisierst, kann ich dir vielleicht helfen. ;) --SirJective 22:10, 19. Dez 2005 (CET)
- Artikel die keine Vorlage aus dem Wikipedia:WikiProjekt Georeferenzierung benutzen, aber eine Geokoordinate enthalten. -- Ninjamask 01:20, 2. Jan 2006 (CET)
Begriffsklärungen
Hallo, ich bins mal wieder. Wenns nicht zu viel Umstände macht bräuchte ich für das weitere Aufräumen der Begriffsklärungen einen Liste mit allen Artkeln, die sowohl die Vorlage:Dieser Artikel verwenden als auch einen horizontalen Strich enthalten ----. Dump muss nicht neu sein. --Schlurcher ??? 23:11, 21. Okt 2005 (CEST)
- Benutzer:Schlurcher/DieserArtikel --SirJective 19:13, 22. Okt 2005 (CEST)
- Danke, immer wieder Danke --Schlurcher ??? 23:06, 22. Okt 2005 (CEST)
Begriffsklärungen Teil 2
Hallo, ich bins mal wieder. Falls es wieder möglich wäre, bräuchte ich folgende Auflistungen:
- Alle Artikel, die Klammern im Lemma haben und die Vorlage Vorlage:Dieser Artikel verwenden
- Alle Redirects, die auf ... (Begriffsklärung) redirecten
- Alle Redirects, die von einem festen Lemma auf das selbe Lemma mit Klammerzusatz redirecten. z.B. von Sekunde auf Sekunde (Einheit).
Falls irgendeine Abfrage nicht möglich ist kann sie ignoriert werden. Dump muss (wie immer ;-) ) nicht aktuell sein. Danke --Schlurcher ??? 13:54, 30. Okt 2005 (CET)
- Das wäre sicher alles mit SQL leicht ausführbar, ich hab aber mein eigenes Programm auf den Dump vmo 20. Oktober angesetzt. :)
- Benutzer:Schlurcher/DieserArtikel (hab einfach mal die ohnehin leere Liste überschrieben)
- Benutzer:Schlurcher/Redirect auf Begriffsklärung
- Benutzer:Schlurcher/Redirect auf Klammerzusatz
- Die Länge der dritten Liste ist vermutlich vor allem durch Verschiebungen bedingt, möglicherweise trug aber auch die Liste Benutzer:SirJective/Klammerzusatz dazu bei. ;) --SirJective 19:49, 30. Okt 2005 (CET)
Dieser Artikel
Ein paar Artikel haben in den ersten Zeilen ein Verweis, der besser mit der BKL-Format-Vorlage {{DieserArtikel|bla bla bla}} umgeschrieben werden kann. Beispiel im Quellcode:
''Für die gleichnamige japanische Provinz siehe [[Bingo (Provinz)]].'' '''Bingo''' ist ein [[Lotterie]]spiel, das...
also ich denke mir, man könnte mal eine Abfrage versuchen ob in den ersten drei Zeilen oder x Buchstaben der Begriff siehe vorkommt. Weitere Ideen? --Atamari 17:06, 28. Dez 2005 (CET)
Nicht kategorisierte Seiten - neuer Dump
Hallo, alle Artikel, die unter Benutzer:Bierdimpfl/Nicht_kategorisierte_Seiten verlinkt sind, wurden kategorisiert. Könntest du (SirJective) bitte einen neuen Dump erstellen - wenn möglich einen aus dem Datenbankdump ab dem 12.01.2006? Danke & Gruß WikiCare DiskQS-Mach mit! 00:25, 11. Jan 2006 (CET)
- Brion arbeitet daran, neue Dumps herzustellen, aber es wird sicher noch einige Tage dauern. Ich hoffe, ihr arbeitet in der Zwischenzeit fleissig die Spezialseite ab. ;) Die 1000 dort aufgelisteten Artikel gehen bis P, ich weiss aber gerade nicht, ob die Seite aktuell ist. (Falls sie nicht aktuell ist, kann man sie trotzdem koordiniert abarbeiten, indem man auf Bierdimpfls Seite angibt, welchen Buchstabenbereich man wann durchgesehen hat.) --SirJective 14:45, 25. Jan 2006 (CET)
Benutzernamen mit Schimpfwörtern
Kann mir bitte jemand aus den Wikipedia Dumps alle Benutzer mit Namen wie
- Arsch
- Nutte
- Wichser
- Schlappschwanz
- Idiot
raussuchen, damit diese Accounts alle mal umbenannt werden, falls sie beleidigend sind?
Danke,Dark Lord Klever Battle 17:51, 24. Dez 2005 (CET)
Fragezeichen in Tabellen
Hallo, ich fände eine Liste der Tabellen im Artikelnamensraum, die Fragenzeichen enthalten, nützlich. Gibt es eine solche schon? Wenn nicht, könnte man die Artikel unter Benutzer:Bohr/Liste der Artikel mit Fragezeichen in Tabellen auflisten. -- Bohr 18:51, 18. Feb 2006 (CET)
- Die Aufgabe klingt einfach, die Schwierigkeit liegt jedoch darin, die Tabellen zu erkennen. Eigentlich müssten math-Tags, html-Kommentare und nowiki-Tags beachtet werden, und Tabellen, die in Vorlagen begonnen und im Artikel geschlossen werden, machen einem das Parsen nicht leichter. Ich hab jetzt mit einem recht einfachen regulären Ausdruck nach Tabellenanfängen und -enden gesucht.
- Das Ergebnis enthält also möglicherweise falsch positive und es fehlen sicher einige falsch negative. Um deine Neugier zu befriedigen sollte sie jedoch ausreichen. :) --SirJective 21:45, 26. Feb 2006 (CET)
- Danke! Ich bin aber nicht nur neugierig, sondern will auch einige Daten herauszufinden versuchen, weil ich finde, dass sichtbar fehlende einen schlechten Eindruck auf den Leser machen. --Bohr 17:38, 27. Feb 2006 (CET)
- Gern geschehen. Ich wollte nicht ausdrücken, dass du nur neugierig auf das Resultat bist. Ob dir die Liste auch bei deinem Vorhaben hilft, wirst du sehen. :) Wenn du Artikel, die fälschlicherweise aufgeführt wurden, obwohl sie kein Fragezeichen in einer Tabelle enthalten, als solche markierst, kannst du mir helfen, das Suchkriterium für ein zukünftiges Update zu verbessern. --SirJective 19:08, 27. Feb 2006 (CET)
Militärwesen
Hallo, kann mir jemand eine Abfrage aller Artikel in der Kategorie Militärwesen und aller ihrere Unterkategorien mit Außnahme der Militärpersonen in alphabetischer Reihenfolge erstellen? Vielen Dank 82.83.71.190 19:23, 24. Feb 2006 (CET)
- Gern, wo soll sie denn gespeichert werden? Möchtest du nur die Abfrage, oder auch das Ergebnis? ;) --SirJective 21:48, 26. Feb 2006 (CET)
- Super, vielen Dank, lege das Ergrbnis bitte hier ab:A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 0...9 Wenn dir das zu viele Links sind, dann alles unter "a", ich teile die Liste dann auf.Ich habe mich scho mal auf wikisign.org versucht, bin da aber nicht so richtig weitergekommen, weil ich den Wechsel in Unterkategorien nicht hinkriege. Wo kann ich deine Abfrage anwenden? Lege die Abfrage bitte unter Benutzer:Tornado irgendwo ab. Kannst du die Artikel einmal durchzählen? Nochmal vielen Dank 82.83.119.214 22:31, 28. Feb 2006 (CET)
- Ich hab jetzt mal den A-Teil hochgeladen. Das Format hab ich direkt von der Liste astronomischer Themen übernommen. :) Die Abfrage, die ich verwende, kann man leider als "einfacher Benutzer" nicht auf wikisign.org ausführen, weil sie Schreibzugriffe enthält. Die verwendete Abfrage ähnelt der auf Portal Diskussion:Astronomie/Index. Wenn dir das Ergebnis zu umfangreich ist, kann ich auch die reine Titelliste hochladen. --SirJective 23:49, 2. Mär 2006 (CET)
- Vielen Dank, der Umfang der Liste ist gut, leider sind die Militärpersonen über andere Unterkatgorien wieder reingekommen. Kannst Du diese entfernen? Dafür müssten aus Deiner Abfrage nachträglich noch einmal alle Artikel mit der Kategorie Militärperson oder einer ihrer Unterkategorien aussortiert werden. 82.83.96.97 08:36, 5. Mär 2006 (CET)
- Ich schließe die Artikel in Unterkategorien von Militärperson nun aus. Dadurch werden aber immer noch nicht alle Personen ausgeschlossen, z.B. die in Kategorie:Achtzigjähriger Krieg (Person). Soll ich weitere Maßnahmen treffen, um Personen auszuschließen (z.B. Auswertung der Mann/Frau-Kategorie), oder möchtest du die Personen sehen, um ggf. die Kategorisierung zu verbessern? --SirJective 21:32, 5. Mär 2006 (CET)
- Hallo SirJective, vielen Dank für Deine Mühe. Versuch bitte alle Personen aus der Liste heraus zu kriegen. Die sollten eigentlich alle im Personnverzeichnis (Militär) stehen. Alle zusätzlichen Personen lege bitte hier ab. Das Problem ist nicht die Kategoriesierung dieser einzelnen Personen , sondern der übergeordneten Kategorien. Wenn es Dir nicht zuviel Mühe macht, möhte ich Dich noch einmal bitten die Artikl (Wenn möglich ohne Weiterleitungen,etc...) einmal durchzählen zu lassen.82.83.116.19 16:05, 9. Mär 2006 (CET)
- Wenn meine Abfragen jetzt richtig sind, dann finde ich 820 Militärkategorien, davon 165 Militärpersonenkategorien, 10365 Militärartikel (einschließlich 22 kategorisierter Redirects), davon 1399 Personenartikel, von denen 736 als Militärperson kategorisiert sind. Die 699 anderen Personenartikel sind auf Benutzer:Tornado/Militärpersonen gespeichert. Es gibt 5893 Redirects auf 3229 verschiedene Militärartikel.
- Ich speichere die große Liste auf http://chsemrau.de/wikipedia/militaerwesen.zip (200kb). Wer Lust dazu hat, möge sie auf die Unterseiten von Portal:Militär/Register hochladen.
- Analog zum Astronomie-Index sollte auch auf jeder Seite des Militär-Index vermerkt sein, dass der Index automatisch aus den Kategorien erzeugt wird, und dass neue Artikel kategorisiert werden sollen, und nicht unbedingt manuell in den Index eingetragen müssen.
- --SirJective 20:36, 9. Mär 2006 (CET)
BKL-Seiten, die andere Kategorien enthalten(brauchts nimmer, geht mit Catscan)
Ist es möglich, per MySQL-Query alle Seiten der Kategorie:BKL zu suchen, die auch noch andere Kategorien enthalten? Danke,HD-α @ 20:20, 8. Mär 2006 (CET)
Liste von Baustein-Vergammelungen
Aus Wikipedia:Bots/Anfragen#Chronologische Listen für Einträge in Wartungs-Kategorien:
- Ich fände es sinnvoll, zentral verwaltete und regelmäßig gepflegte Listen zu haben, welche Auskunft geben über die Dauer des Verweilens eines Artikels in einer bestimmten Wartungs-Kategorie (Doppeleintrag, Lückenhaft, Unverständlich, Ohne Quellen, etc.). Dadurch könnte man sich viel zielsicherer alte Lumpen vornehmen, die hier seit Jahren schon irgendwo zwischen A und Z in den Kategorien rumgammeln. Oder gibt es solche Listen schon? --Asthma 16:48, 15. Feb 2006 (CET)
Wäre dies möglich?
Grüsse,HD-α @ 20:20, 8. Mär 2006 (CET)
- Meine positive Antwort steht dort. --SirJective 21:14, 9. Mär 2006 (CET)
Eine komplexere Abfrage
Hallo, Ich benötige für meine Arbeit in der WP folgende Daten:
Von allen Redirect-Seiten im Diskussions-Namensraum (1) den Titel der Seite, die Anzahl der Links darauf und auch die Anzahl der Einträge in der History. Wäre super, wenn das jemand für mich abfragen könnte, denn damit komme ich nicht mehr klar.
Das Ergebnis bitte nach Benutzer:PortalBot/SQL-Abfrage schreiben. --PortalBot 13:14, 30. Mär 2006 (CEST)
- Die Anzahl der History-Einträge kann ich dir nicht liefern, aber ich kann dir sagen, ob eine Seite neu ist. Soweit ich das sehe, zielen deine Pläne ja sowieso primär auf Seiten ab, die durch eine Verschiebung entstanden und somit neu sind.
- Die Abfrage dazu benötigt eigentlich nur die Tabellen page und pagelinks, und müsste so oder so ähnlich aussehen:
select page_title, count(pl_from) as anzahl_links, page_is_new from page left join pagelinks on (page_namespace = 1 and pl_namespace = 1 and page_title = pl_title) where page_namespace = 1 and page_is_redirect = 1 group by page_title;
- Du kannst sie ja mal auf wikisign probieren (mit einem kleinen limit), ich werde nicht sofort dazu kommen, sie auf meinem Rechner auszuführen. --SirJective 14:15, 2. Apr 2006 (CEST)