Refine
Document Type
- Part of a Book (6) (remove)
Has Fulltext
- yes (6)
Keywords
- Deutsch (4)
- Korpus <Linguistik> (4)
- Wortverbindung (3)
- Annotation (2)
- Phraseologismus (2)
- Redeerwähnung (2)
- Computerunterstützte Lexikographie (1)
- Direkte Rede (1)
- Fallstudie (1)
- Hochliteratur (1)
Publicationstate
- Veröffentlichungsversion (3)
- Zweitveröffentlichung (2)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (4)
- Peer-Review (1)
Publisher
Dieser Artikel fasst wichtige Aspekte der vom Projekt ‘Usuelle Wortverbindungen’ (UWV) erarbeiteten
Konzeption für die korpusbasierte lexikografische Beschreibung von Wortverbindungen in OWID zusammen. Der Schwerpunkt in diesem Teilprojekt liegt auf der lexikografischen Beschreibung des typischen Gebrauchs von usuellen Wortverbindungen auf der Basis eines sehr großen Korpus des Deutschen. Zur differenzierten Untersuchung des Sprachgebrauchs werden korpusanalytische Methoden herangezogen und die Ergebnisse in einem nutzerfreundlichen Hypertextformat präsentiert. Zudem ist es ein Ziel, die sprachliche Vielfalt, die in den Korpora gerade auch in Bezug auf Wortverbindungen zu finden ist, durch eine große Menge authentischer Korpusbelege angemessen darzustellen.
Corpus REDEWIEDERGABE
(2020)
This article presents the corpus REDEWIEDERGABE, a German-language historical corpus with detailed annotations for speech, thought and writing representation (ST&WR). With approximately 490,000 tokens, it is the largest resource of its kind. It can be used to answer literary and linguistic research questions and serve as training material for machine learning. This paper describes the composition of the corpus and the annotation structure, discusses some methodological decisions and gives basic statistics about the forms of ST&WR found in this corpus.
Diese Fallstudie untersucht die quantitative Verteilung von direkten und nicht-direkten Formen von Redewiedergabe im Vergleich zwischen zwei Literaturtypen: Hochliteratur - definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen - und Heftromanen - massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden. Die Studie geht von manuell annotierten Daten aus und überprüft daran die Verlässlichkeit automatischer Annotationswerkzeuge, die im Anschluss eingesetzt werden, um eine Untersuchung von insgesamt 250 Volltexten durchzuführen. Es kann nachgewiesen werden, dass sich die Literaturtypen sowie auch unterschiedliche Genres von Heftromanen hinsichtlich der verwendeten Wiedergabeformen unterscheiden.
In this paper we outline our corpus-driven approach to detecting, describing and presenting multi- word expressions (MWEs). Our goal is to treat MWEs in a way that gives credit to their flexible nature and their role in language use. The bases of our research are a very large corpus and a Statistical method of collocation analysis. The rich empirical data is interpreted linguistically in a structured way which captures the interrelations, patterns and types of variances of MWEs. Several levels of abstraction build on each other: surface patterns, lexical realizations (LRs), MWEs and MWE patterns. Generalizations are made in a controlled way and in adherence to corpus evidence. The results are published online in a hypertext format.