@article{FaassSchmid2023,
  author    = {Gertrud Faa{\"s} and Helmut Schmid},
  title     = {Segmentierungs- und Annotationsverfahren f{\"u}r die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen},
  series   = {Journal for Language Technology and Computational Linguistics},
  volume    = {36},
  number    = {1},
  publisher = {Gesellschaft f{\"u}r Sprachtechnologie und Computerlinguistik},
  address   = {Hildesheim},
  issn      = {2190-6858},
  doi       = {10.21248/jlcl.36.2023.241},
  url       = {https://nbn-resolving.org/urn:nbn:de:bsz:mh39-117416},
  pages     = {151 -- 170},
  year      = {2023},
  abstract  = {In der Computerlinguistik ist eine kaskadische Prozessierung von Texten {\"u}blich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zus{\"a}tzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata f{\"u}r die Tokens in der ersten Spalte – erg{\"a}nzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gel{\"o}scht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese {\"a}u{\"s}erst ambig sein k{\"o}nnen, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengeh{\"o}ren. Dieser Beitrag fokussiert auf den Apostroph, der in vielf{\"a}ltiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten m{\"o}chten. Wir nutzen daf{\"u}r das komplette Lindenberg-Archiv des song-korpus.de-Repositoriums, kategorisieren die auftretenden Ph{\"a}nomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch -lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch f{\"u}r diese Texte angepasstes Training zu Genauigkeiten ≥ 96\% f{\"u}hrt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verf{\"u}gung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verf{\"u}gbar auf github), die f{\"u}r {\"a}hnliche Texte verwendet werden kann.},
  language  = {de}
}