Geocodierung
Der Begriff Geocodierung steht für einen (komplexen) Prozess, bei dem postalische Adressen mit Hilfe eines Referenzbestandes geprüft, ggf. verbessert und mit einem Raumbezug versehen werden. Sogenannte geocodierte Adressen sollten nach dem Prozess in Struktur und Lage möglichst vollständig und korrekt vorliegen und Geoschlüssel und/oder x-,y-Koordinaten besitzen. Über Geoschlüssel und/oder Koordinaten erhalten postalische Adressen als auch deren Zusatzinformationen (z. B. aus dem CRM stammend) einen direkten (über x,y) und/oder indirekten Raumbezug (Geoschlüssel).
Geocodierung ist eine zentrale Basis, um Adressen mit weiteren raumbezogenen Daten anzureichern und um Adresszusatzinformationen wie z. B. Kaufdaten räumlich auswerten zu können.[1][2]
Einführung
Die Geocodierung von Adressen wird zunehmend auch von geo-fachfremden Disziplinen eingesetzt, da der Bedarf an (a) raumbezogenen Analysen von Adressen (z. B. für die Kundendichte, Entfernung zum nächstgelegenen Punkt usw.) und/oder (b) deren Zusatzinformationen (z. B. Umsatz pro Kunde) und/oder (c) die Anreicherung der Adressen um weitere raumbezogene Variablen (z. B. Gebäudetyp, Baudichte, Nachbarschaftsinformationen) stetig steigt. Weil es sich bei der Geocodierung aber um einen komplexen, fehleranfälligen Prozess handelt, dient dieser Artikel als wissenschaftliche Grundlage, auf welche Punkte bei der Geocodierung (besonders) zu achten sind, hier für Deutschland.
Die Inputdatei
Die zu geocodierenden Adressen sollten möglichst aktuell und vollständig in folgender Adress-Struktur vorliegen:
5-stellige Postleitzahl, Ort/Gemeinde, Straße, Hausnummer / Hausnummernzusatz
Beispiel: 51145, Köln, Planckstr. 14
Hinweis: Bereits das Fehlen einer Adress-Komponente kann zu Geocodierungsfehlern führen, z. B. das Fehlen des Hausnummern-Zusatzes (siehe auch Qualität der Geocodierung). Auf die Geocodierung historischer Adressen sind Geocodierungssysteme i. d. R. nicht ausgelegt, da der Georeferenzbestand, gegen den geocodiert wird, möglichst aktuell und präzise ist und somit z. B. historische Straßennamen nicht beinhaltet. Von daher sollten historische Adressen zunächst postalisch bereinigt werden, bevor sie geocodiert werden können.
Die Georeferenzdatei /-datenbank
Bei dem Prozess der Geocodierung gleicht die Geocodierungssoftware eingehende Adressen (aus der Inputdatei) mit einer Georeferenzdatei (i. d. R. in einer Datenbank) ab, auf die die Software Zugriff hat. Der Abgleich ist eine logische Suche nach dem bestmöglichen 1:1 Treffer von Inputadresse zur Georeferenzdatei. Diese beinhaltet möglichst alle postalischen Adressen zu einem bestimmten Zeitpunkt, d. h. alle Postleitzahlen und Postorte zu einem bestimmten Zeitpunkt (Postalischer Gebietsstand) sowie alle Orte und Gemeinden mit Ortsteilen, Straßen, Hausnummern und Hausnummernzusätzen zu einem bestimmten Zeitpunkt (Amtlicher Gebietsstand). Hinweis: Die postalischen Gebietsstände weichen von den amtlichen Gebietsständen ab.
Des Weiteren beinhaltet die Georeferenzdatei die zu den Gebietsständen zugehörigen Geoschlüssel und Geokoordinaten, die neben Adress-Treffer in die Outputdatei mit einfließen. Standardisierte Geoschlüssel sind die 5-stellige Postleitzahl, mit der man zur 5-stelligen Postleitzahlenkarte referenzieren kann sowie der Amtlicher Gemeindeschlüssel, kurz AGS. Beide Gebietsstände verändern sich unterjährig, weshalb es beim Geocodierungsprozess wichtig ist zu wissen, welche Quellen (Post und/oder Amt) sich mit welchen Gebietsständen in der Georeferenzdatei befinden. Die Postdatei, zu der neben den Postleitzahlen auch Postorte sowie deren Straßen mit Namen zählen, ist als unterjähriger Gebietsstand erhältlich. Die amtlichen Strukturen inkl. (amtlicher) Geoschlüssel der Kreise und Gemeinden, deren Ortsteile bzw. Stadtbezirke und -viertel, deren Straßen mit Namen sowie Gebäude mit Adressen sind i. d. R. nur einmal jährlich erhältlich.
Die Koordinaten zu jeder Adresse im Georeferenzbestand stammen i. d. R. von den Katasterämtern, die sog. Hauskoordinaten (HKs), alternativ teils auch von privatwirtschaftlichen Anbietern wie der Deutschen Telekom, den Navigationsanbietern und Google oder mittels Open Street Map (OSM). Hinweis: Die Hauskoordinaten der Katasterämter werden jährlich aktualisiert, weisen aber keinen eindeutigen, einheitlichen amtlichen Gebietsstand auf. Dieser muss für die Referenzdatei entsprechend erstellt werden, z.B. Datenstand 10/18, Gebietsstand 12/17. Dies gilt auch für die privatwirtschaftlichen Anbieter und OSM
Die Outputdatei
Die Outputdatei der Geocodierung sollte die eingehenden Adressen und/oder eine eindeutige ID, die gefundenen Adresstreffer (gefundene Adresse / Adressmatch), die Qualität der Geocodierung und den Zeitpunkt der Geocodierung (Zeitstempel) sowie Metadaten zur Referenzdatei enthalten.
Qualität der Geocodierung
Die Beurteilung, mit welcher Qualität Adressen geocodiert (oder nicht geocodiert) wurden, ist maßgeblich für die qualitative Einordnung aller folgenden Prozesse. Dazu zählen (a) alle nachgelagerten raumbezogenen Analysen der Adressen und deren Zusatzinformationen) sowie (b) das Anreichern der Adressen mit weiteren raumbezogenen Daten. Zu (a) zählt auch die Verschneidung mit anderen geographischen wie z. B. den Georastern (z. B. INSPIRE 100×100 m).
Die Qualität einer Geocodierung muss Aufschluss geben über die Vollständigkeit und Fehlerquote der Inputdatei (absolut und/oder prozentual), die Trefferwahrscheinlichkeit zu jeder Adresse (Inputadresse zu Referenzadresse), bei Adress-Nicht-Treffern, auf welcher räumlichen Ebene 'trotzdem' zugeordnet wurde (Beispiel: Hausnummer fehlte, aber Straßenmittelpunkt konnte ermittelt werden) und die Lagequalität der angereicherten Koordinate (z. B. Gebäudeeingang, Gebäudemittelpunkt, interpolierte Hauskoordinate, Straßenabschnittsmittelpunkt) sowie Informationen über die Abweichung der zugeordneten Lage zum Gebäude bzw. der wirklichen Adresslage.
Die größten Einflussfaktoren sind die Qualität (Aktualität, Vollständigkeit, Korrektheit) der Inputdatei sowie die Qualität der Georeferenzdatei (Aktualität, Vollständigkeit, Korrektheit). Des Weiteren spielt die Geocodierungslogik mit der die Inputdatei mit der Georeferenzdatei abgeglichen werden eine zentrale Rolle.
Geocodierungssoftware /-systeme
Zur Geokodierung postalischer Adressen werden spezielle Geokodierungssysteme genutzt, verkürzt auch Geocoder genannt, die als Offline- und Online-Dienste zur Verfügung stehen. Bei der Online-Geocodierung kommt es zu einer Adressübermittlung, was wiederum datenschutzrelevant ist.
Die Ergebnisqualität eines Geocoders hängt maßgeblich davon ab, welche Referenzdatei und welche Geocodierungslogik verwendet wird. Da diese von Geocoder zu Geocoder voneinander abweichen (es gibt hier keinen Standard), produzieren unterschiedliche Geocoder i. d. R. bei derselben Inputdatei unterschiedliche Outputdateien unterschiedlicher Qualität.
Inverse Adressgeocodierung
Inverse Geocodierung von Adressen (auch reverse geocoding genannt) bezeichnet das Gegenteil: mittels Geokoordinaten wird bestmöglich die nächstmögliche Adresse gematcht. Die Inverse Adressgeocodierung spielt aufgrund von steigenden Anzahl von GPS-Koordinaten z. B. der Handys eine zunehmend wichtigere Rolle (siehe auch[3])
Siehe auch
Einzelnachweise
- ↑ Markus Böhmer: Handbuch Geomarketing. Hrsg.: Herter, Mühlbauer. Wichmann Verlag, 2007, ISBN 978-3-87907-453-2, S. 127 f.
- ↑ Jens Gladis: Handbuch Geomarketing 2te Ausgabe. Hrsg.: Herter, Mühlbauer. Wichmann Verlag, 2018, ISBN 978-3-87907-653-6, S. 137 f.
- ↑ Wie aus App-Daten neue Zielgruppen werden. 13. Dezember 2016, abgerufen am 2. Juli 2019.