Refine
Document Type
- Article (2)
- Part of a Book (1)
- Other (1)
Language
- German (4)
Has Fulltext
- yes (4)
Is part of the Bibliography
- yes (4) (remove)
Keywords
- Zeichensetzung (4) (remove)
Publicationstate
- Veröffentlichungsversion (2)
- Zweitveröffentlichung (2)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (2)
- Peer-Review (2)
Der Beitrag dokumentiert eine Auswahl der wichtigsten Leitlinien, die die Grundlage für die Neukonzeption und -bearbeitung des Kapitels zur Zeichensetzung im Amtlichen Regelwerk bilden. Das wesentliche Ziel der mit der Bearbeitung des Kapitels Zeichensetzung befassten internationalen Arbeitsgruppe im Rat für deutsche Rechtschreibung (RfdR) in seiner aktuellen Amtsperiode (2018–2023) bestand darin, eine für die Nutzerinnen und Nutzer deutlichere und einfachere Darstellung dieses Teils des amtlichen Regelwerks (ARW) vorzulegen ebenso wie eine systematisch an einer semasiologischen Perspektive orientierte Erfassung der Funktion und der Verwendung der Interpunktionszeichen auf der Grundlage wissenschaftlicher Weiterentwicklungen.
In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zusätzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata für die Tokens in der ersten Spalte – ergänzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gelöscht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese äußerst ambig sein können, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengehören. Dieser Beitrag fokussiert auf den Apostroph, der in vielfältiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten möchten. Wir nutzen dafür das komplette Lindenberg-Archiv des song-korpus.de-Repositoriums, kategorisieren die auftretenden Phänomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch -lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch für diese Texte angepasstes Training zu Genauigkeiten ≥ 96% führt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verfügung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verfügbar auf github), die für ähnliche Texte verwendet werden kann.
There are strict formal requirements for the use of a comma. However, there are none regarding the comma’s actual shape. In printed fonts, it is determined by the font’s specification. In hand-written texts though, the shape of the comma is variable; most writers choose from a set of straight, convex and concave shapes. By using a corpus of 1464 commas written by 99 individuals, we will present three case studies of persons whose comma shapes do somehow correlate with linguistic structures. With that, we might identify a few (possibly subconscious) shaping strategies. Some writers might mark a norm insecurity by a different comma form, others might mark the function of the entity which is segmented by the comma, or the comma type itself (sentence boundary, exposition or coordination).