Refine
Year of publication
Document Type
- Conference Proceeding (11)
- Article (6)
- Part of a Book (6)
- Book (2)
- Other (1)
- Working Paper (1)
Keywords
- Deutsch (16)
- Korpus <Linguistik> (12)
- Annotation (7)
- Direkte Rede (5)
- Redeerwähnung (5)
- Wortverbindung (5)
- Automatische Sprachanalyse (4)
- Indirekte Rede (4)
- Erzähltechnik (3)
- Grammatik (3)
Publicationstate
- Veröffentlichungsversion (16)
- Zweitveröffentlichung (4)
- Postprint (2)
Reviewstate
- Peer-Review (12)
- (Verlags)-Lektorat (7)
- Verlags-Lektorat (1)
Publisher
- Zenodo (6)
- Institut für Deutsche Sprache (4)
- CEUR-WS (1)
- De Gruyter (1)
- Erich Schmidt Verlag (1)
- European Language Resources Association (1)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (1)
- Leibniz-Institut für Deutsche Sprache (1)
- Leibniz-Institut für Deutsche Sprache (IDS) (1)
- Pasithee (1)
This contribution presents a quantitative approach to speech, thought and writing representation (ST&WR) and steps towards its automatic detection. Automatic detection is necessary for studying ST&WR in a large number of texts and thus identifying developments in form and usage over time and in different types of texts. The contribution summarizes results of a pilot study: First, it describes the manual annotation of a corpus of short narrative texts in relation to linguistic descriptions of ST&WR. Then, two different techniques of automatic detection – a rule-based and a machine learning approach – are described and compared. Evaluation of the results shows success with automatic detection, especially for direct and indirect ST&WR.
Mit traditionellen Methoden der Narratologie ist es nur möglich, eine begrenzte Menge von (meist kanonischen) Texten zu untersuchen. Computer hingegen können große Textmengen bewältigen und über die breitere empirische Basis einen neuen Blick auf das literarischen Schaffen eröffnen. Dazu ist es jedoch notwendig, narratologische Konzepte auch automatisch erfassbar zu machen. Die vorliegende Studie untersucht, wie ein etabliertes Phänomen des Erzählens – die Wiedergabe von Rede, Gedanken und Geschriebenem in narrativen Texten – mit Hilfe automatischer Methoden identifiziert werden kann. Auf der Basis narratologischer Forschungsliteratur wird zunächst ein Annotationsystem für Redewiedergabeformen entwickelt und auf ein Beispielkorpus von deutschsprachigen Erzähltexten angewendet. Anschließend werden Methoden zur automatischen Erkennung und deren Ergebnisse vorgestellt. Prototypen der beschriebenen Redewiedergabeerkenner sind online frei verfügbar. Die Studie liefert konkrete Ansätze für die automatische Erkennung von Redewiedergabe und demonstriert zugleich Strategien für die Nutzung von Methoden der Digital Humanities in der Narratologie.
Automatic recognition of speech, thought, and writing representation in German narrative texts
(2013)
This article presents the main results of a project, which explored ways to recognize and classify a narrative feature—speech, thought, and writing representation (ST&WR)—automatically, using surface information and methods of computational linguistics. The task was to detect and distinguish four types—direct, free indirect, indirect, and reported ST&WR—in a corpus of manually annotated German narrative texts. Rule-based as well as machine-learning methods were tested and compared. The results were best for recognizing direct ST&WR (best F1 score: 0.87), followed by indirect (0.71), reported (0.58), and finally free indirect ST&WR (0.40). The rule-based approach worked best for ST&WR types with clear patterns, like indirect and marked direct ST&WR, and often gave the most accurate results. Machine learning was most successful for types without clear indicators, like free indirect ST&WR, and proved more stable. When looking at the percentage of ST&WR in a text, the results of machine-learning methods always correlated best with the results of manual annotation. Creating a union or intersection of the results of the two approaches did not lead to striking improvements. A stricter definition of ST&WR, which excluded borderline cases, made the task harder and led to worse results for both approaches.
This contribution presents an XML Schema for annotating a high level narratological category: speech, thought and writing representation (ST&WR). It focusses on two aspects: Firstly, the original Schema is presented as an example for the challenge to encode a narrative feature in a structured and flexible way and secondly, ways of adapting this Schema to TEI are considered, in Order to make it usable for other, TEI-based projects.
The paper explores factors that influence the distribution of constituent words of compounds over the head and modifier position. The empirical basis for the study is a large database of German compounds, annotated with respect to the morphological structure of the compound and the semantic category of the constituents. The study shows that the polysemy of the constituent word, its constituent family size, and its semantic category account for tendencies of the constituent word to occur in either modifier or head position. Furthermore, the paper explores the degree to which the semantic category combination of head and modifier word, e.g., x=substance and y=artifact, indicates the semantic relation between the constituents, e.g., y_consists_of_x.
Corpus REDEWIEDERGABE
(2020)
This article presents the corpus REDEWIEDERGABE, a German-language historical corpus with detailed annotations for speech, thought and writing representation (ST&WR). With approximately 490,000 tokens, it is the largest resource of its kind. It can be used to answer literary and linguistic research questions and serve as training material for machine learning. This paper describes the composition of the corpus and the annotation structure, discusses some methodological decisions and gives basic statistics about the forms of ST&WR found in this corpus.
Projektvorstellung – Redewiedergabe. Eine literatur- und sprachwissenschaftliche Korpusanalyse
(2018)
Das laufende DFG-Projekt „Redewiedergabe“ stellt einen Anwendungsfall quantitativer Sprach-und Literaturwissenschaft dar und beschäftigt sich mit dem Phänomen „Redewiedergabe“ auf der Grundlage großer Datenmengen. Zu diesem Zweck wird zum einen ein Korpus manuell mit Redewiedergabeformen annotiert, zum anderen werden Verfahren zur automatischen Erkennung des Phänomens entwickelt. Ziel ist es, Forschungsfragen nach der Entwicklung von Redewiedergabe vor allem im 19. Jahrhundert zu beantworten.
KoMuX, der Kompositamuster-Explorer, (www.owid.de/plus/komux) ist eine Webanwendung, die es ermöglicht, mehr als 50.000 nominale Komposita des Deutschen gezielt nach abstrakten oder lexikalisch-teilspezifizierten Mustern zu durchsuchen. Unterschiedliche Visualisierungen helfen dabei, Strukturen und Zusammenhänge innerhalb der Ergebnismenge zu erfassen.