Refine
Year of publication
Document Type
- Conference Proceeding (11)
- Article (6)
- Part of a Book (6)
- Book (2)
- Other (1)
- Working Paper (1)
Keywords
- Deutsch (16)
- Korpus <Linguistik> (12)
- Annotation (7)
- Direkte Rede (5)
- Redeerwähnung (5)
- Wortverbindung (5)
- Automatische Sprachanalyse (4)
- Indirekte Rede (4)
- Erzähltechnik (3)
- Grammatik (3)
Publicationstate
- Veröffentlichungsversion (16)
- Zweitveröffentlichung (4)
- Postprint (2)
Reviewstate
- Peer-Review (12)
- (Verlags)-Lektorat (7)
- Verlags-Lektorat (1)
Publisher
- Zenodo (6)
- Institut für Deutsche Sprache (4)
- CEUR-WS (1)
- De Gruyter (1)
- Erich Schmidt Verlag (1)
- European Language Resources Association (1)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (1)
- Leibniz-Institut für Deutsche Sprache (1)
- Leibniz-Institut für Deutsche Sprache (IDS) (1)
- Pasithee (1)
This paper describes a rule-based approach to detect direct speech without the help of any quotation markers. As datasets fictional and non-fictional texts were used. Our evaluation shows that the results appear stable throughout different datasets in the fictional domain and are comparable to the results achieved in related work.
Vom 14. bis 16. März fand im Congress Center Rosengarten in Mannheim die 53. Jahrestagung des Instituts für Deutsche Sprache (IDS) statt, die sich in diesem Jahr mit dem Lexikon und dessen Komplexität und Dynamik beschäftigte. Im Mittelpunkt standen neue Perspektiven auf das Lexikon und die Lexikonforschung nach der empirischen Wende, die das Bild vom Wortschatz deutlich verändert und den Blick darauf erweitert hat. Lexikontheoretiker und Lexikografen arbeiten heute u.a. mit quantitativen korpuslinguistischen Methoden und berücksichtigen Forschungsergebnisse und -methoden angrenzender Disziplinen wie der Psycholinguistik, wodurch auch neuartige Konzepte ins Blickfeld rücken. Das Inventar lexikalischer Einheiten beschränkt sich nicht mehr nur auf Wörter, sondern wurde durch konstruktionsartige Einheiten und semiabstrakte lexikalische Muster ergänzt.
Dieser Artikel fasst wichtige Aspekte der vom Projekt ‘Usuelle Wortverbindungen’ (UWV) erarbeiteten
Konzeption für die korpusbasierte lexikografische Beschreibung von Wortverbindungen in OWID zusammen. Der Schwerpunkt in diesem Teilprojekt liegt auf der lexikografischen Beschreibung des typischen Gebrauchs von usuellen Wortverbindungen auf der Basis eines sehr großen Korpus des Deutschen. Zur differenzierten Untersuchung des Sprachgebrauchs werden korpusanalytische Methoden herangezogen und die Ergebnisse in einem nutzerfreundlichen Hypertextformat präsentiert. Zudem ist es ein Ziel, die sprachliche Vielfalt, die in den Korpora gerade auch in Bezug auf Wortverbindungen zu finden ist, durch eine große Menge authentischer Korpusbelege angemessen darzustellen.
Die im Folgenden dargestellte korpusgesteuerte Methode "UWV-Analysemodell" wurde auf der Basis der Forschungen zu usuellen Wortverbindungen (UWV) (vgl. Steyer 2000, 2003, 2004, Steyer/Lauer 2007, Brunner/Steyer 2007, Steyer 2008, Steyer demn.) und zahlreicher, exhaustiver Analysen in den letzten Jahren entwickelt. Ziel war ein empirisches Vorgehensmodell, das es ermöglicht, die Differenziertheit und Vernetztheit von Wortverbindungen auf verschiedenen Abstraktionsebenen ausgehend von Kookkurrenzdaten angemessen darzustellen. Daher ging es in dieser Arbeitsphase nicht darum, usuelle Wortverbindungen des Deutschen möglichst umfassend und in großer Menge zu inventarisieren, sondern die "innere Natur" von Wortverbindungen zwischen Varianz und Invarianz mit unterschiedlichen Graden an lexikalischer Spezifiziertheit sowie ihre wechselseitigen Verbindungen im Detail zu erfassen und zu beschreiben.
This contribution presents the newest version of our ’Wortverbindungsfelder’ (fields of multi-word expressions), an experimental lexicographic resource that focusses on aspects of MWEs that are rarely addressed in traditional descriptions: Contexts, patterns and interrelations. The MWE fields use data from a very large corpus of written German (over 6 billion word forms) and are created in a strictly corpus-based way. In addition to traditional lexicographic descriptions, they include quantitative corpus data which is structured in new ways in order to show the usage specifics. This way of looking at MWEs gives insight in the structure of language and is especially interesting for foreign language learners.
In diesem Beitrag wird das Redewiedergabe-Korpus (RW-Korpus) vorgestellt, ein historisches Korpus fiktionaler und nicht-fiktionaler Texte, das eine detaillierte manuelle Annotation mit Redewiedergabeformen enthält. Das Korpus entsteht im Rahmen eines laufenden DFG-Projekts und ist noch nicht endgültig abgeschlossen, jedoch ist für Frühjahr 2019 ein Beta-Release geplant, welches der Forschungsgemeinschaft zur Verfügung gestellt wird. Das endgültige Release soll im Frühjahr 2020 erfolgen. Das RW-Korpus stellt eine neuartige Ressource für die Redewiedergabe-Forschung dar, die in dieser Detailliertheit für das Deutsche bisher nicht verfügbar ist, und kann sowohl für quantitative linguistische und literaturwissenschaftliche Untersuchungen als auch als Trainingsmaterial für maschinelles Lernen dienen.