Refine
Year of publication
Document Type
- Conference Proceeding (11)
- Article (6)
- Part of a Book (6)
- Book (2)
- Other (1)
- Working Paper (1)
Keywords
- Deutsch (16)
- Korpus <Linguistik> (12)
- Annotation (7)
- Direkte Rede (5)
- Redeerwähnung (5)
- Wortverbindung (5)
- Automatische Sprachanalyse (4)
- Indirekte Rede (4)
- Erzähltechnik (3)
- Grammatik (3)
Publicationstate
- Veröffentlichungsversion (16)
- Zweitveröffentlichung (4)
- Postprint (2)
Reviewstate
- Peer-Review (12)
- (Verlags)-Lektorat (7)
- Verlags-Lektorat (1)
Publisher
- Zenodo (6)
- Institut für Deutsche Sprache (4)
- CEUR-WS (1)
- De Gruyter (1)
- Erich Schmidt Verlag (1)
- European Language Resources Association (1)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (1)
- Leibniz-Institut für Deutsche Sprache (1)
- Leibniz-Institut für Deutsche Sprache (IDS) (1)
- Pasithee (1)
Dieser Artikel fasst wichtige Aspekte der vom Projekt ‘Usuelle Wortverbindungen’ (UWV) erarbeiteten
Konzeption für die korpusbasierte lexikografische Beschreibung von Wortverbindungen in OWID zusammen. Der Schwerpunkt in diesem Teilprojekt liegt auf der lexikografischen Beschreibung des typischen Gebrauchs von usuellen Wortverbindungen auf der Basis eines sehr großen Korpus des Deutschen. Zur differenzierten Untersuchung des Sprachgebrauchs werden korpusanalytische Methoden herangezogen und die Ergebnisse in einem nutzerfreundlichen Hypertextformat präsentiert. Zudem ist es ein Ziel, die sprachliche Vielfalt, die in den Korpora gerade auch in Bezug auf Wortverbindungen zu finden ist, durch eine große Menge authentischer Korpusbelege angemessen darzustellen.
Die im Folgenden dargestellte korpusgesteuerte Methode "UWV-Analysemodell" wurde auf der Basis der Forschungen zu usuellen Wortverbindungen (UWV) (vgl. Steyer 2000, 2003, 2004, Steyer/Lauer 2007, Brunner/Steyer 2007, Steyer 2008, Steyer demn.) und zahlreicher, exhaustiver Analysen in den letzten Jahren entwickelt. Ziel war ein empirisches Vorgehensmodell, das es ermöglicht, die Differenziertheit und Vernetztheit von Wortverbindungen auf verschiedenen Abstraktionsebenen ausgehend von Kookkurrenzdaten angemessen darzustellen. Daher ging es in dieser Arbeitsphase nicht darum, usuelle Wortverbindungen des Deutschen möglichst umfassend und in großer Menge zu inventarisieren, sondern die "innere Natur" von Wortverbindungen zwischen Varianz und Invarianz mit unterschiedlichen Graden an lexikalischer Spezifiziertheit sowie ihre wechselseitigen Verbindungen im Detail zu erfassen und zu beschreiben.
We present recognizers for four very different types of speech, thought and writing representation (STWR) for German texts. The implementation is based on deep learning with two different customized contextual embeddings, namely FLAIR embeddings and BERT embeddings. This paper gives an evaluation of our recognizers with a particular focus on the differences in performance we observed between those two embeddings. FLAIR performed best for direct STWR (F1=0.85), BERT for indirect (F1=0.76) and free indirect (F1=0.59) STWR. For reported STWR, the comparison was inconclusive, but BERT gave the best average results and best individual model (F1=0.60). Our best recognizers, our customized language embeddings and most of our test and training data are freely available and can be found via www.redewiedergabe.de or at github.com/redewiedergabe.
Die vorgestellte Studie untersucht die Anteile unterschiedlicher Redewiedergabeformen im Vergleich zwischen zwei Literaturtypen von gegensätzlichen Enden des Spektrums: Hochliteratur – definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen – und Heftromanen, massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden und früher abwertend als „Romane der Unterschicht” (Nusser 1981) bezeichnet wurden. Unsere These ist, dass sich diese Literaturtypen hinsichtlich ihrer Erzählweise unterscheiden, und sich dies in den verwendeten Wiedergabeformen niederschlägt. Der Fokus der Untersuchung liegt auf der Dichotomie zwischen direkter und nicht-direkter Wiedergabe, die schon in der klassischen Rhetorik aufgemacht wurde.
Vom 14. bis 16. März fand im Congress Center Rosengarten in Mannheim die 53. Jahrestagung des Instituts für Deutsche Sprache (IDS) statt, die sich in diesem Jahr mit dem Lexikon und dessen Komplexität und Dynamik beschäftigte. Im Mittelpunkt standen neue Perspektiven auf das Lexikon und die Lexikonforschung nach der empirischen Wende, die das Bild vom Wortschatz deutlich verändert und den Blick darauf erweitert hat. Lexikontheoretiker und Lexikografen arbeiten heute u.a. mit quantitativen korpuslinguistischen Methoden und berücksichtigen Forschungsergebnisse und -methoden angrenzender Disziplinen wie der Psycholinguistik, wodurch auch neuartige Konzepte ins Blickfeld rücken. Das Inventar lexikalischer Einheiten beschränkt sich nicht mehr nur auf Wörter, sondern wurde durch konstruktionsartige Einheiten und semiabstrakte lexikalische Muster ergänzt.
Corpus REDEWIEDERGABE
(2020)
This article presents the corpus REDEWIEDERGABE, a German-language historical corpus with detailed annotations for speech, thought and writing representation (ST&WR). With approximately 490,000 tokens, it is the largest resource of its kind. It can be used to answer literary and linguistic research questions and serve as training material for machine learning. This paper describes the composition of the corpus and the annotation structure, discusses some methodological decisions and gives basic statistics about the forms of ST&WR found in this corpus.