Refine
Document Type
- Master's Thesis (8) (remove)
Keywords
- Computerlinguistik (4)
- Korpus <Linguistik> (2)
- Abgrenzung (1)
- Bundestag (1)
- Dependenzgrammatik (1)
- Deutsch (1)
- Diskursanalyse (1)
- Diskurslinguistik (1)
- Distanzierung (1)
- Frage-Antwort-System (1)
Publicationstate
Publisher
In der natürlichen Sprachverarbeitung haben Frage-Antwort-Systeme in der letzten Dekade stark an Bedeutung gewonnen. Vor allem durch robuste Werkzeuge wie statistische Syntax-Parser und Eigennamenerkenner ist es möglich geworden, linguistisch strukturierte Informationen aus unannotierten Textkorpora zu gewinnen. Zusätzlich werden durch die Text REtrieval Conference (TREC) jährlich Maßstäbe für allgemeine domänen-unabhängige Frage-Antwort-Szenarien definiert. In der Regel funktionieren Frage-Antwort-Systeme nur gut, wenn sie robuste Verfahren für die unterschiedlichen Fragetypen, die in einer Fragemenge vorkommen, implementieren. Ein charakteristischer Fragetyp sind die sogenannten Ereignisfragen. Obwohl Ereignisse schon seit Mitte des vorigen Jahrhunderts in der theoretischen Linguistik, vor allem in der Satzsemantik, Gegenstand intensive Forschung sind, so blieben sie bislang im Bezug auf Frage-Antwort-Systeme weitgehend unerforscht. Deshalb widmet sich diese Diplomarbeit diesem Problem. Ziel dieser Arbeit ist zum Einen eine Charakterisierung von Ereignisstruktur in Frage-Antwort Systemen, die unter Berücksichtigung der theoretischen Linguistik sowie einer Analyse der TREC 2005 Fragemenge entstehen soll. Zum Anderen soll ein Ereignis-basiertes Antwort-Extraktionsverfahren entworfen und implementiert werden, das sich auf den Ergebnissen dieser Analyse stützt. Informationen von diversen linguistischen Ebenen sollen daten-getrieben in einem uniformen Modell integriert werden. Spezielle linguistische Ressourcen, wie z.B. WordNet und Subkategorisierungslexika werden dabei eine zentrale Rolle einnehmen. Ferner soll eine Ereignisstruktur vorgestellt werden, die das Abpassen von Ereignissen unabhängig davon, ob sie von Vollverben oder Nominalisierungen evoziert werden, erlaubt. Mit der Implementierung eines Ereignis-basierten Antwort-Extraktionsmoduls soll letztendlich auch die Frage beantwortet werden, ob eine explizite Ereignismodellierung die Performanz eines Frage-Antwort-Systems verbessern kann.
The present thesis introduces KoralQuery, a protocol for the generic representation of queries to linguistic corpora. KoralQuery defines a set of types and operations which serve as abstract representations of linguistic entities and configurations. By combining these types and operations in a nested structure, the protocol may express linguistic structures of arbitrary complexity. It achieves a high degree of neutrality with regard to linguistic theory, as it provides flexible structures that allow for the setting of certain parameters to access several complementing and concurrent sources and layers of annotation on the same textual data. JSON-LD is used as a serialisation format for KoralQuery, which allows for the well-defined and normalised exchange of linguistic queries between query engines to promote their interoperability. The automatic translation of queries issued in any of three supported query languages to such KoralQuery serialisations is the second main contribution of this thesis. By employing the introduced translation module, query engines may also work independently of particular query languages, as their backend technology may rely entirely on the abstract KoralQuery representations of the queries. Thus, query engines may provide support for several query languages at once without any additional overhead. The original idea of a general format for the representation of linguistic queries comes from an initiative called Corpus Query Lingua Franca (CQLF), whose theoretic backbone and practical considerations are outlined in the first part of this thesis. This part also includes a brief survey of three typologically different corpus query languages, thus demonstrating their wide variety of features and defining the minimal target space of linguistic types and operations to be covered by KoralQuery.
Mehrsprachigkeit in linguistischen Daten. Theoretische und praktische Aspekte ihrer Erfassung
(2008)
Politiker und Parteien sehen sich heutzutage oft mit dem Vorwurf konfrontiert, sie heben sich kaum mehr voneinander ab, seien gar „austauschbar“. Umso größer scheint das Bedürfnis nach Abgrenzung. Diese wird kommunikativ hergestellt und ist am besten von den diskursiven Zusammenhängen und Akteurskonstellationen her, in denen sie sich aktualisiert, nachzuvollziehen.
Das Vorgehen in dieser Arbeit gliedert sich im Wesentlichen in drei Schritte: Zunächst wird eine Theorieskizze der Abgrenzung als Sprechhandlung entworfen. Hierbei geht es vor allem darum, verschiedene Lesarten zu erschließen und die Abgrenzung in einem Panorama verwandter Konzepte wie etwa Ausgrenzung, Distinktion und Distanzierung zu verorten (Teil 1). Daraufhin wird die Plenardebatte als Textsorte erschlossen und in ihren kommunikativen Spezifika erfasst, wobei besonders die Stichworte Inszeniertheit, Mehrfachadressierung und die Frage nach dem Verhältnis zwischen Mündlichkeit und Schriftlichkeit in den Blickpunkt rücken (Teil 2). Sodann wird mithilfe der pragma-semiotischen Textarbeit als Methode ganz konkret sprachliches Datenmaterial aus Plenardebatten analysiert und interpretativ ausgewertet (Teile 3 und 4). Dabei kommen auch korpuslinguistische Verfahren zum Einsatz, die jedoch letztlich im Dienste einer qualitativ orientierten Analyse stehen.
Die Analyse berücksichtigt sowohl explizite als auch implizite Formen sprachlicher Abgrenzung. Sie zeigt unter anderem, dass politische Abgrenzungshandlungen keineswegs parteispezifisch sind, sondern von allen Parteien und Akteuren mehr oder weniger konstant praktiziert werden. Dabei wird Abgrenzung hauptsächlich als Selbstpositionierung realisiert; bisweilen finden sich aber durchaus auch Fremdpositionierungen – etwa als Aufforderungen an andere Akteure, sich gegenüber Dritten abzugrenzen. Auf der Ebene der sprachlichen Formen lässt sich schließlich durch eine Art experimentelle Annäherung mit korpuslinguistischen Verfahren eine Reihe von Mehrworteinheiten ausmachen, die als Indikatoren für implizite Abgrenzung gelten können.
Sprachverarbeitung mit getypten Attribut-Wert-Matrizen. Dependenzgrammatik und Konzeptuelle Semantik
(1996)
In dieser Arbeit wurden die Dependenzgrammatik und die Konzeptuelle Semantik formalisiert. Als Ausgangspunkt dafür diente eine detaillierte Darstellung der formalen Grundlage. Diese wurden im Kapitel 1 erarbeitet. Nicht alle in diesem Kapitel entwickelten Konzepte wurden in den späteren Kapiteln aufgegriffen. Ich halte es aber für sinnvoll die mathematischen Eigenschaften eines Formalismus ausführlich darzustellen, bevor dieser zur Anwendung gebracht wird. Die beschriebenen Eigenschaften sind dem Formalismus immanent. Auf die Einführung von Erweiterungen, z.B. die Definition von Mengen, wurde verzichtet, da sie im weiteren Verlauf keine Verwendung finden.
Im Kapitel 2 wird gezeigt, dass die Dependenzgrammatik mit dem dargestellten Formalismus beschrieben werden kann. Damit wurde eine Formalisierung erreicht, die zeigt, dass der seltene Einsatz dieser traditionsreichen Grammatiktheorie in der Computerlinguistik, zumindest aus formalen Gründen, nicht gerechtfertigt ist.
Das Kapitel 3 stellt die Konzeptuelle Semantik vor. Die ursprüngliche Formalisierung dieser Theorie wurde kritisiert. Es wurde gezeigt, dass die Beschreibung der Konzepte durch getypte Attribut-Wert-Matrizen eine bessere Alternative der formalen Darstellung ist. Desweiteren wurden einerseits Vereinfachungen (z.B. der Verzicht auf die Dekomposition der Konzepte) und andererseits Erweiterungen (d.h. insbesondere eine Erweiterung des Inventars der ontologischen Kategorien) vorgeschlagen.
Nachdem diese beiden linguistischen Theorien mit demselben formalen Apparat dargestellt wurden, wurde im Kapitel 4 dargestellt, dass sie sich ergänzen. In dem skizzierten Sprachverarbeitungssystem werden die syntaktische und die semantische Struktur parallel aufgebaut. Es ist erkennbar, dass sich beide Theorien ergänzen. Es wurde darüber hinaus gezeigt, dass ein solches System eine sehr gut geeignete Basis zur maschinellen Verarbeitung defizitärer sprachlicher Äußerungen bildet.
Die vorliegende Arbeit beschäftigt sich mit den multiplen Referenzmöglichkeiten und der Multifunktionalität des deutschen Pronomens es, da es unter beiden Gesichtspunkten wesentliche Unterschiede zur maskulinen und femininen Form des Personalpronomens der 3. Person aufweist. So muss es beispielsweise nicht mit seinem Bezugsnomen hinsichtlich Genus- und Numerus kongruieren, es muss nicht einmal auf nominale Bezugsentitäten rekurrieren. Diese für ein Pronomen nicht-prototypischen Verweismöglichkeiten bedingen die Multifunktionalität von es, die innerhalb der germanistischen Linguistik rege diskutiert wird.