Refine
Document Type
- Part of a Book (2)
- Other (1)
Has Fulltext
- yes (3)
Keywords
- Deutsch (3)
- Korpus <Linguistik> (2)
- Automatische Sprachanalyse (1)
- Deutsches Referenzkorpus (DeReKo) (1)
- Fugenelement (1)
- Komposition <Wortbildung> (1)
- Konstruktionsgrammatik (1)
- Morphemanalyse (1)
- Nominalkompositum (1)
- Segmentierung (1)
Publicationstate
- Postprint (3) (remove)
Reviewstate
- (Verlags)-Lektorat (2)
- Peer-Review (1)
Publisher
- Springer (1)
- Stauffenburg (1)
We present a method to identify and document a phenomenon on which there is very little empirical data: German phrasal compounds occurring in the form of as a single token (without punctuation between their components). Relying on linguistic criteria, our approach implies to have an operational notion of compounds which can be systematically applied as well as (web) corpora which are large and diverse enough to contain rarely seen phenomena. The method is based on word segmentation and morphological analysis, it takes advantage of a data-driven learning process. Our results show that coarse-grained identification of phrasal compounds is best performed with empirical data, whereas fine-grained detection could be improved with a combination of rule-based and frequency-based word lists. Along with the characteristics of web texts, the orthographic realizations seem to be linked to the degree of expressivity.
„Actual words are of theoretical interest” (Audring 2021: 3). Unter Zugrundelegung dieser gebrauchsbasierten Prämisse geht der vorliegende Beitrag der Frage nach, wie sich die Nominalkomposition im Deutschen auf der Basis sprachlicher Massendaten als Konstruktionsfamilie, d.h. als ein hierarchisches Netzwerk von Konstruktionen unterschiedlichen Abstraktionsgrads, beschreiben lässt. Der Beitrag knüpft in theoretischer Hinsicht an Booijs (2010) „Construction Morphology” an, geht jedoch insofern über diese hinaus, als versucht wird, deren Grundannahmen auch auf automatisch erhobene sprachliche Massendaten anzuwenden. Konkret wird mit einem Inventar von rund 185.000 Zusammensetzungen aus zwei simplizischen Nomen gearbeitet, die systematisch aus dem Deutschen Referenzkorpus (DeReKo) (vgl. Leibniz-Institut für Deutsche Sprache 2007) extrahiert und im Anschluss (semi)automatisch weiterverarbeitet wurden.