@article{FaassSchmid2023, author = {Gertrud Faa{\"s} and Helmut Schmid}, title = {Segmentierungs- und Annotationsverfahren f{\"u}r die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen}, series = {Journal for Language Technology and Computational Linguistics}, volume = {36}, number = {1}, publisher = {Gesellschaft f{\"u}r Sprachtechnologie und Computerlinguistik}, address = {Hildesheim}, issn = {2190-6858}, doi = {10.21248/jlcl.36.2023.241}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:mh39-117416}, pages = {151 -- 170}, year = {2023}, abstract = {In der Computerlinguistik ist eine kaskadische Prozessierung von Texten {\"u}blich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zus{\"a}tzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata f{\"u}r die Tokens in der ersten Spalte – erg{\"a}nzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gel{\"o}scht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese {\"a}u{\"s}erst ambig sein k{\"o}nnen, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengeh{\"o}ren. Dieser Beitrag fokussiert auf den Apostroph, der in vielf{\"a}ltiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten m{\"o}chten. Wir nutzen daf{\"u}r das komplette Lindenberg-Archiv des song-korpus.de-Repositoriums, kategorisieren die auftretenden Ph{\"a}nomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch -lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch f{\"u}r diese Texte angepasstes Training zu Genauigkeiten ≥ 96\% f{\"u}hrt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verf{\"u}gung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verf{\"u}gbar auf github), die f{\"u}r {\"a}hnliche Texte verwendet werden kann.}, language = {de} }