Sprache gilt als ein hochkomplexes Kulturgut der Menschheit und fungiert als Grundlage der Kommunikation zwischen Menschen.
Gleichzeitig ist die Erfassung von Bedeutung in Sprache eine der größten Herausforderungen an die Forschung im Bereich der künstlichen Intelligenz.
Mittels Sprache tauschen Menschen Gedanken aus, vermitteln sich gegenseitig Wissen und teilen sich Informationen über die Welt mit.
Die Bedeutung einzelner Wörter wird im Zusammenhang eines Satzes verstanden und wird weiterhin im Lichte des Allgemeinwissens und des Erfahrungsschatzes interpretiert.
Die Forschung im Bereich der automatischen Sprachverarbeitung verfolgt das Ziel, Sprache automatisch so zu verstehen, wie es der Mensch auf natürliche Weise tut.
In dieser Dissertation nähern wir uns der übergeordenten Herausforderung der Erfassung von Bedeutung in Sprache vor einem Hintergrund an Weltwissen von zwei Seiten:
(a) Kenntnis über typische Situationen und Handlungen wie sie zum Beispiel in Texten beschrieben werden und
(b) strukturiertes Wissen über Relationen wie es in Wissensdatenbanken gespeichert wird.
Beide Seiten können mit verschiedenartigen Vektordarstellungen (sogenannten verteilten Repräsentationen) untersucht werden, um unterschiedliche Aspekte von Hintergrundwissen abzudecken:
textuelle, strukturierte und visuelle oder multimodale verteilte Repräsentationen.
Daraus ergibt sich die konkrete Herausforderung, die Eignung der verschiedenen verteilten Repräsentationen in Bezug auf die Erfassung von Bedeutung in Sprache – entsprechend der beiden genannten Seiten – zu bestimmen.
Wir gehen die Herausforderungen der Erfassung von Bedeutung in Sprache mittels der lexikalisch-semantischen Wissensbasis FrameNet an.
FrameNet widmet sich beiden Seiten der Erfassung von Weltwissen und beruht auf der linguistischen Theorie der Frame-Semantik, welche auf das Modellieren von menschlichem Sprachverstehen abzielt.
FrameNet definiert Frames als Kategorien für Bedeutungseinheiten und weiterhin definiert es Beziehungen zwischen Frames als strukturiertes Metawissen über Zusammenhänge von Frames.
Diese Frames und Beziehungen sind für die Aufgaben der Frame-Identifikation und der Frame-zu-Frame-Beziehungs-Vorhersage von zentraler Bedeutung.
Bezugnehmend auf Seite (a), wurde die Aufgabe der Frame-Identifikation entwickelt, um so das Verstehen von Kontextwissen über typische Situationen, Handlungen und deren Akteure zu fördern.
Bei dieser Aufgabe sollen Prädikate mit Frames annotiert werden, um so die Bedeutung des Prädikats im Satzkontext zu erfassen.
Wir verwenden textuelle verteilte Repräsentationen, um die Bedeutung von Wörtern im Satzkontext zu modellieren und entwickeln ein System für Frame-Identifikation, das beste Leistungen im Vergleich zu Vorgängersystemen erzielt.
Unser System für Frame-Identifikation kann zur automatischen Annotation von Frames in englischen oder in deutschen Texten genutzt werden.
Darüber hinaus entwickeln wir einen multimodalen Ansatz zur Frame-Identifikation, in welchem wir textuelle verteilte Repräsentationen für Wörter mit visuellen verteilten Repräsentationen für auf Bildern dargestellte Entitäten kombinieren.
Wir finden heraus, dass visuelle Informationen besonders in schwierigen Kontexten mit seltenen Frames hilfreich sind.
Für künftige Arbeiten zur Weiterentwicklung des multimodalen Ansatzes schlagen wir vor, multimodale verteilte Repräsentationen gezielt für Verben zu entwickeln.
Bezugnehmend auf Seite (b), führen wir die Aufgabe der Frame-zu-Frame-Beziehungs-Vorhersage ein, um so das Verstehen von strukturiertem Wissen über Zusammenhänge von Frames zu fördern.
Bei dieser Aufgabe sollen Verbindungen zwischen Frames mit Beziehungsbeschreibungen annotiert werden, um so das strukturierte Metawissen über Frames in FrameNet zu erweitern.
Wir trainieren textuelle und strukturierte verteilte Repräsentationen für Frames und erforschen die Grenzen der textuellen verteilten Repräsentationen beim Modellieren von Beziehungen.
Darüber hinaus stellen wir textuelle und strukturierte verteilte Repräsentationen vergleichend gegenüber und entwickeln das erste System für die Frame-zu-Frame-Beziehungs-Vorhersage.
Wir finden heraus, dass textuelle und strukturierte verteilte Repräsentationen bei der Vorhersage von Beziehungen Unterschiede aufweisen.
Das bedeutet, dass diese beiden Repräsentationsarten unterschiedliches Frame-Wissen beisteuern können, wenn sie im Rahmen anderer Aufgaben angewendet werden.
Weiterhin kann unser strukturiertes Vorhersagesystem genutzt werden, um Vorschläge für die Vervollständigung der Beziehungs-Annotation in FrameNet zu machen.
Für künftige Arbeiten zur Weiterentwicklung des strukturierten Ansatzes für die Frame-zu-Frame-Beziehungs-Vorhersage schlagen wir vor, auch hier visuelle Informationen einzubinden.
Zusätzlich kann ein solcher erweiterter Ansatz zur Einführung von neuen Frames und Beziehungen beitragen.
Die zwei Arten von Frame-Wissen der beiden Seiten – unser System für Frame-Identifikation und unsere verteilten Repräsentationen für Frames – werden für eine extrinsische Evaluierung im Rahmen anderer Aufgaben angewandt.
Über die verschiedenen Anwendungen hinweg sehen wir einen Trend, dass Frame-Wissen besonders in mehrdeutigen und kurzen Sätzen hilfreich ist.
Zusammengefasst behandeln wir in dieser Dissertation zwei entgegengesetzte Seiten des Verstehens von Bedeutung in Sprache, nämlich das Verstehen von typischen Situationen und Handlungen sowie das Verstehen von strukturiertem Wissen über Relationen, und wir untersuchen beide Seiten mit unterschiedlichen verteilten Repräsentationen, wobei wir textuelles, strukturiertes und multimodales Hintergrundwissen abdecken. | German |