TU Darmstadt / ULB / TUprints

Uni- and Multimodal and Structured Representations for Modeling Frame Semantics

Botschen, Teresa (2019)
Uni- and Multimodal and Structured Representations for Modeling Frame Semantics.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
Dissertation_TeresaBotschen.pdf - Accepted Version
Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs.

Download (6MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Uni- and Multimodal and Structured Representations for Modeling Frame Semantics
Language: English
Referees: Gurevych, Prof. Dr. Iryna ; Roth, Prof. Dr. Stefan ; Schütze, Prof. Dr. Hinrich
Date: 2019
Place of Publication: Darmstadt
Date of oral examination: 24 January 2019
Abstract:

Language is the most complex kind of shared knowledge evolved by humankind and it is the foundation of communication between humans. At the same time, one of the most challenging problems in Artificial Intelligence is to grasp the meaning conveyed by language. Humans use language to communicate knowledge and information about the world and to exchange their thoughts. In order to understand the meaning of words in a sentence, single words are interpreted in the context of the sentence and of the situation together with a large background of commonsense knowledge and experience in the world. The research field of Natural Language Processing aims at automatically understanding language as humans do naturally. In this thesis, the overall challenge of understanding meaning in language by capturing world knowledge is examined from the two branches of (a) knowledge about situations and actions as expressed in texts and (b) structured relational knowledge as stored in knowledge bases. Both branches can be studied with different kinds of vector representations, so-called embeddings, for operationalizing different aspects of knowledge: textual, structured, and visual or multimodal embeddings. This poses the challenge of determining the suitability of different embeddings for automatic language understanding with respect to the two branches. To approach these challenges, we choose to closely rely upon the lexical-semantic knowledge base FrameNet. It addresses both branches of capturing world knowledge whilst taking into account the linguistic theory of frame semantics which orients on human language understanding. FrameNet provides frames, which are categories for knowledge of meaning, and frame-to-frame relations, which are structured meta-knowledge of interactions between frames. These frames and relations are central to the tasks of Frame Identification and Frame-to-Frame Relation Prediction. Concerning branch (a), the task of Frame Identification was introduced to advance the understanding of context knowledge about situations, actions and participants. The task is to label predicates with frames in order to identify the meaning of the predicate in the context of the sentence. We use textual embeddings to model the semantics of words in the sentential context and develop a state-of-the-art system for Frame Identification. Our Frame Identification system can be used to automatically annotate frames on English or German texts. Furthermore, in our multimodal approach to Frame Identification, we combine textual embeddings for words with visual embeddings for entities depicted on images. We find that visual information is especially useful in difficult settings with rare frames. To further advance the performance of the multimodal approach, we suggest to develop embeddings for verbs specifically that incorporate multimodal information. Concerning branch (b), we introduce the task of Frame-to-Frame Relation Prediction to advance the understanding of relational knowledge of interactions between frames. The task is to label connections between frames with relations in order to complete the meta-knowledge stored in FrameNet. We train textual and structured embeddings for frames and explore the limitations of textual frame embeddings with respect to recovering relations between frames. Moreover, we contrast textual frame embeddings versus structured frame embeddings and develop the first system for Frame-to-Frame Relation Prediction. We find that textual and structured frame embeddings differ with respect to predicting relations; thus when applied as features in the context of further tasks, they can provide different kinds of frame knowledge. Our structured prediction system can be used to generate recommendations for annotations with relations. To further advance the performance of Frame-to-Frame Relation Prediction and also of the induction of new frames and relations, we suggest to develop approaches that incorporate visual information. The two kinds of frame knowledge from both branches, our Frame Identification system and our pre-trained frame embeddings, are combined in an extrinsic evaluation in the context of higher-level applications. Across these applications, we see a trend that frame knowledge is particularly beneficial in ambiguous and short sentences. Taken together, in this thesis, we approach semantic language understanding from the two branches of knowledge about situations and actions and structured relational knowledge and investigate different embeddings for textual, structured and multimodal language understanding.

Alternative Abstract:
Alternative AbstractLanguage

Sprache gilt als ein hochkomplexes Kulturgut der Menschheit und fungiert als Grundlage der Kommunikation zwischen Menschen. Gleichzeitig ist die Erfassung von Bedeutung in Sprache eine der größten Herausforderungen an die Forschung im Bereich der künstlichen Intelligenz. Mittels Sprache tauschen Menschen Gedanken aus, vermitteln sich gegenseitig Wissen und teilen sich Informationen über die Welt mit. Die Bedeutung einzelner Wörter wird im Zusammenhang eines Satzes verstanden und wird weiterhin im Lichte des Allgemeinwissens und des Erfahrungsschatzes interpretiert. Die Forschung im Bereich der automatischen Sprachverarbeitung verfolgt das Ziel, Sprache automatisch so zu verstehen, wie es der Mensch auf natürliche Weise tut. In dieser Dissertation nähern wir uns der übergeordenten Herausforderung der Erfassung von Bedeutung in Sprache vor einem Hintergrund an Weltwissen von zwei Seiten: (a) Kenntnis über typische Situationen und Handlungen wie sie zum Beispiel in Texten beschrieben werden und (b) strukturiertes Wissen über Relationen wie es in Wissensdatenbanken gespeichert wird. Beide Seiten können mit verschiedenartigen Vektordarstellungen (sogenannten verteilten Repräsentationen) untersucht werden, um unterschiedliche Aspekte von Hintergrundwissen abzudecken: textuelle, strukturierte und visuelle oder multimodale verteilte Repräsentationen. Daraus ergibt sich die konkrete Herausforderung, die Eignung der verschiedenen verteilten Repräsentationen in Bezug auf die Erfassung von Bedeutung in Sprache – entsprechend der beiden genannten Seiten – zu bestimmen. Wir gehen die Herausforderungen der Erfassung von Bedeutung in Sprache mittels der lexikalisch-semantischen Wissensbasis FrameNet an. FrameNet widmet sich beiden Seiten der Erfassung von Weltwissen und beruht auf der linguistischen Theorie der Frame-Semantik, welche auf das Modellieren von menschlichem Sprachverstehen abzielt. FrameNet definiert Frames als Kategorien für Bedeutungseinheiten und weiterhin definiert es Beziehungen zwischen Frames als strukturiertes Metawissen über Zusammenhänge von Frames. Diese Frames und Beziehungen sind für die Aufgaben der Frame-Identifikation und der Frame-zu-Frame-Beziehungs-Vorhersage von zentraler Bedeutung. Bezugnehmend auf Seite (a), wurde die Aufgabe der Frame-Identifikation entwickelt, um so das Verstehen von Kontextwissen über typische Situationen, Handlungen und deren Akteure zu fördern. Bei dieser Aufgabe sollen Prädikate mit Frames annotiert werden, um so die Bedeutung des Prädikats im Satzkontext zu erfassen. Wir verwenden textuelle verteilte Repräsentationen, um die Bedeutung von Wörtern im Satzkontext zu modellieren und entwickeln ein System für Frame-Identifikation, das beste Leistungen im Vergleich zu Vorgängersystemen erzielt. Unser System für Frame-Identifikation kann zur automatischen Annotation von Frames in englischen oder in deutschen Texten genutzt werden. Darüber hinaus entwickeln wir einen multimodalen Ansatz zur Frame-Identifikation, in welchem wir textuelle verteilte Repräsentationen für Wörter mit visuellen verteilten Repräsentationen für auf Bildern dargestellte Entitäten kombinieren. Wir finden heraus, dass visuelle Informationen besonders in schwierigen Kontexten mit seltenen Frames hilfreich sind. Für künftige Arbeiten zur Weiterentwicklung des multimodalen Ansatzes schlagen wir vor, multimodale verteilte Repräsentationen gezielt für Verben zu entwickeln. Bezugnehmend auf Seite (b), führen wir die Aufgabe der Frame-zu-Frame-Beziehungs-Vorhersage ein, um so das Verstehen von strukturiertem Wissen über Zusammenhänge von Frames zu fördern. Bei dieser Aufgabe sollen Verbindungen zwischen Frames mit Beziehungsbeschreibungen annotiert werden, um so das strukturierte Metawissen über Frames in FrameNet zu erweitern. Wir trainieren textuelle und strukturierte verteilte Repräsentationen für Frames und erforschen die Grenzen der textuellen verteilten Repräsentationen beim Modellieren von Beziehungen. Darüber hinaus stellen wir textuelle und strukturierte verteilte Repräsentationen vergleichend gegenüber und entwickeln das erste System für die Frame-zu-Frame-Beziehungs-Vorhersage. Wir finden heraus, dass textuelle und strukturierte verteilte Repräsentationen bei der Vorhersage von Beziehungen Unterschiede aufweisen. Das bedeutet, dass diese beiden Repräsentationsarten unterschiedliches Frame-Wissen beisteuern können, wenn sie im Rahmen anderer Aufgaben angewendet werden. Weiterhin kann unser strukturiertes Vorhersagesystem genutzt werden, um Vorschläge für die Vervollständigung der Beziehungs-Annotation in FrameNet zu machen. Für künftige Arbeiten zur Weiterentwicklung des strukturierten Ansatzes für die Frame-zu-Frame-Beziehungs-Vorhersage schlagen wir vor, auch hier visuelle Informationen einzubinden. Zusätzlich kann ein solcher erweiterter Ansatz zur Einführung von neuen Frames und Beziehungen beitragen. Die zwei Arten von Frame-Wissen der beiden Seiten – unser System für Frame-Identifikation und unsere verteilten Repräsentationen für Frames – werden für eine extrinsische Evaluierung im Rahmen anderer Aufgaben angewandt. Über die verschiedenen Anwendungen hinweg sehen wir einen Trend, dass Frame-Wissen besonders in mehrdeutigen und kurzen Sätzen hilfreich ist. Zusammengefasst behandeln wir in dieser Dissertation zwei entgegengesetzte Seiten des Verstehens von Bedeutung in Sprache, nämlich das Verstehen von typischen Situationen und Handlungen sowie das Verstehen von strukturiertem Wissen über Relationen, und wir untersuchen beide Seiten mit unterschiedlichen verteilten Repräsentationen, wobei wir textuelles, strukturiertes und multimodales Hintergrundwissen abdecken.

German
URN: urn:nbn:de:tuda-tuprints-84843
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Ubiquitous Knowledge Processing
Date Deposited: 24 May 2019 07:41
Last Modified: 09 Jul 2020 02:31
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/8484
PPN: 44901519X
Export:
Actions (login required)
View Item View Item