Refine
Year of publication
Document Type
- Part of a Book (7)
- Article (5)
- Book (2)
- Conference Proceeding (2)
Keywords
- Textanalyse (16) (remove)
Publicationstate
- Veröffentlichungsversion (16) (remove)
Reviewstate
- (Verlags)-Lektorat (14)
- Peer-Review (2)
Publisher
- Niemeyer (3)
- CEUR-WS (1)
- European Language Resources Association (ELRA) (1)
- Hempen (1)
- Institut für Deutsche Sprache (1)
- Leibniz-Institut für Deutsche Sprache (IDS) (1)
- Narr (1)
- Olms (1)
- Universität Lund (1)
- VEB Verlag Enzyklopädie (1)
We present recognizers for four very different types of speech, thought and writing representation (STWR) for German texts. The implementation is based on deep learning with two different customized contextual embeddings, namely FLAIR embeddings and BERT embeddings. This paper gives an evaluation of our recognizers with a particular focus on the differences in performance we observed between those two embeddings. FLAIR performed best for direct STWR (F1=0.85), BERT for indirect (F1=0.76) and free indirect (F1=0.59) STWR. For reported STWR, the comparison was inconclusive, but BERT gave the best average results and best individual model (F1=0.60). Our best recognizers, our customized language embeddings and most of our test and training data are freely available and can be found via www.redewiedergabe.de or at github.com/redewiedergabe.
Dieser Band versammelt neun Beiträge mit dem Ziel, Sprach- und Literaturwissenschaft aufeinander zu beziehen: Literatur grammatisch zu betrachten und Grammatik für Literatur (neu) zu denken. Jeder Beitrag nimmt mindestens einen grammatischen und einen literarischen Gegenstand zum Ausgangspunkt. Dabei ist die Bandbreite groß; sie reicht von Bodo Kirchhoffs Roman ‚Dämmer und Aufruhr‘ über die Kurzgeschichte ‚Das Brot‘ von Wolfgang Borchert bis hin zu Marion Poschmanns Gedichtzyklus ‚Kindergarten Lichtenberg‘ und deckt unterschiedlichste sprachliche Bereiche wie Tempus, semantische Rollen, Interpunktionszeichen oder Metaphern ab. Ist es in der Schule geradezu erwünscht, Grammatik und Literatur integrativ zu unterrichten, verfolgen sie als universitäre Disziplinen oft ganz unterschiedliche Fragestellungen an verschiedenen Sprachwerken. Vor diesem Hintergrund ist dieser Band ein interdisziplinärer Versuch, Anregungen und neue Perspektiven für schulische wie universitäre Bildungskontexte zu geben.
Die Rolle von Illokutionen in Texten wurde bisher vorwiegend unter dem Gesichtspunkt der Hierarchiebildung untersucht. Daß auch die sequentielle Anordnung von Illokutionen ein Forschungsgebiet ist, das zur Vertiefung unserer Kenntnisse über Textstrukturen beitragen kann, haben Rosengren (1987) und Brandt/Rosengren (1991) deutlich gemacht. Meine Überlegungen stützen sich in wesentlicher Hinsicht auf diese Beiträge.
Aus der Syntax ist uns bekannt, daß die Reihenfolge sprachlicher Konstituenten durch Prinzipien der Konstituentenstruktur eingeschränkt wird. Die verbleibenden freien Stellungsmöglichkeiten können durch Mittel der Fokus-Hintergrund- oder der Topic-Comment-Gliederung festgelegt werden. Insgesamt betrachtet wird die Reihenfolge syntaktischer Konstituenten also durch verschiedene Strukturprinzipien geregelt. Es liegt nun nahe, auch die mögliche Anordnung von Illokutionen auf strukturelle Prinzipien unterschiedlicher Art zurückzuführen. Diese Fragestellung setzt eine Unterscheidung von Arten der Strukturbildung in Texten sowie eine Untersuchung ihres Einflusses auf die Sequenzierung von Texteinheiten voraus. Der vorliegende Beitrag verfolgt das Ziel, diese Aufgabenstellung genauer zu umreißen.
Um gesprochene Sprache leichter analysieren zu können, müssen zuvor die auf Audio- oder Videokassetten befindlichen Aufnahmen transkribiert werden. Dabei kommt der Darstellung von Synchronität des Gesprochenen z.B. in Partiturschreibweise und dem Annotieren von Situationen, Verhalten einzelner Diskursteilnehmer u.dgl. eine bedeutende Rolle zu. Die Vielfalt der transkribierten Details und Informationsebenen setzt ein differenziertes Kodierungsschema voraus. Des Weiteren besteht bei der Gesprächsanalyse der Wunsch, neben dem Auffinden bestimmter Stellen im Schriftmaterial (Transkript) auch deren akustisches Ereignis wiedergeben zu können, was die Synchronisation von Text und Aufnahme voraussetzt.
Im Folgenden wird nach einer Einleitung, welche die Geschichte und Motive für die in diesem Papier beschriebenen Komponenten kurz darstellt, eine Zusammenfassung linguistischer Desiderate für die Erschließung von Gesprächskorpora präsentiert und im Anschluss daran ein Modell für Diskurstranskripte vorgestellt, das die technische Grundlage für die diskursanalytische Erschließung von Gesprächskorpora am Institut für Deutsche Sprache (IDS) durch den Computer bildet. Anschließend wird der technische Prozess der Korpuserstellung skizziert, gefolgt von der Beschreibung dreier dabei zum Einsatz kommenden Werkzeuge, des DIDA-Editors, des SPRAT-Alignment- Systems und des DMM-Konverters. Schließlich wird die Volltextdatenbank COSMAS II vorgestellt, mit der die Analyse in den resultierenden SGML-Diskurstranskripten durchgeführt wird. Im Mittelpunkt steht dabei die Fähigkeit von COSMAS II, mit Hilfe der aus der Diskursstruktur abgeleiteten Diskursmetrik eine breite Palette von Suchanfragen zu ermöglichen und sie mit Hilfe der grafischen Suchanfragekomponente als SGML-Suchanfragen zu formulieren. Abschließend wird kurz auf die geplante Weiterentwicklung eingegangen.
The aim of the paper is twofold. Firstly, an approach is presented how to select the correct antecedent for an anaphoric element according to the kind of text segments in which both of them occur. Basically, information on logical text structure (e.g. chapters, sections, paragraphs) is used in order to select the antecedent life span of a linguistic expression, i.e. some linguistic expressions are more likely to be chosen as an antecedent throughout the whole text than others. In addition, an appropriate search scope for an anaphora expressed by an expression can be defined according to the document structuring elements that include the linguistic expression. Corpus investigations give rise to the supposition that logical text structure influences the search scope of candidates for antecedents. Second, a solution is presented how to integrate the resources used for anaphora resolution. In this approach, multi-layered XML annotation is used in order to make a set of resources accessible for the anaphora resolution system.