Refine
Document Type
- Part of a Book (2)
- Article (1)
Language
- German (3)
Has Fulltext
- yes (3)
Keywords
- Apostroph (3) (remove)
Publicationstate
- Veröffentlichungsversion (3) (remove)
Reviewstate
- (Verlags)-Lektorat (2)
- Peer-Review (1)
Publisher
In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zusätzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata für die Tokens in der ersten Spalte – ergänzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gelöscht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese äußerst ambig sein können, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengehören. Dieser Beitrag fokussiert auf den Apostroph, der in vielfältiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten möchten. Wir nutzen dafür das komplette Lindenberg-Archiv des song-korpus.de-Repositoriums, kategorisieren die auftretenden Phänomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch -lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch für diese Texte angepasstes Training zu Genauigkeiten ≥ 96% führt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verfügung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verfügbar auf github), die für ähnliche Texte verwendet werden kann.
In der emotional geführten Sprachverfallsdebatte wird besonders die Apostrophsetzung vor dem Genitiv- und dem Plural-t, vulgo Deppen-Apostroph, kritisiert und als vermeintliche Entlehnung aus dem Englischen stigmatisiert. Erst seit kurzem liegen mit Scherer (2010, 2013) korpusbasierte Untersuchungen vor, die eine angemessene Interpretation dieses graphematischen Wandels erlauben, der weitaus älter ist als gemeinhin vermutet. Generell erweist sich, dass viele als neu und bedrohlich empfundene Sprachveränderungen bereits vor über hundert Jahren meist ebenso emotional gegeißelt wurden. Der Beitrag befasst sich hauptsächlich mit der diachronen Entwicklung des phonographischen Apostrophs zu einem morphographischen, dessen Funktion nun nicht mehr darin besteht, nicht-artikulierte Laute zu markieren, sondern morphologische Grenzen (Uschis, Joseph K.’s, CD’s). Deutlich wird, dass der Apostroph der Gestaltschonung komplexer Basen dient, deren Gros aus Eigennamen besteht. Anschließend wird in einem kürzeren Teil nach der Entstehung und Beschaffenheit dieser s-Flexive selbst gefragt. Diese sind ihrerseits Ergebnis flexionsmorphologischer Umstrukturierungen und garantieren maximale Konstanthaltung des Wortkörpers. Abschließend wird noch die neueste Entwicklung gestreift, die in der Deflexion ebendieser s-Flexive besteht und die sich wieder am deutlichsten bei den Eigennamen manifestiert. Diese haben als Quelle all dieser Entwicklungen zu gelten (vgl. des Irak, des Helmut Kohl, auch des Perfekt, des LKW, des Gegenüber). Insgesamt ist festzustellen: Nicht nur die Apostrophsetzung vor s-Flexiven, sondern auch die s-Flexive selbst sowie ihr derzeitiger Abbau dienen ein und derselben Funktion: Der Schonung durch Konstanthaltung markierter Wortkörper, worunter mehrheitlich Eigennamen fallen, daneben auch Fremdwörter, Kurzwörter und Konversionen. Damit sind es die Eigennamen, die Ausgangspunkt und Ursache tiefgreifenden flexionsmorphologischen und graphematischen Wandels bilden.