Refine
Document Type
- Article (7)
- Conference Proceeding (2)
- Book (1)
Language
- German (7)
- English (2)
- Multiple languages (1)
Has Fulltext
- yes (10)
Is part of the Bibliography
- yes (10)
Keywords
- Lyrics <Lyrik> (10) (remove)
Publicationstate
Reviewstate
- Peer-Review (9)
- (Verlags)-Lektorat (1)
Der vorliegende Beitrag vergleicht die Verwendung der anglizistischen Nomination old school und der nativen Entsprechung Alte Schule im Hip-Hop-Subkorpus des Songkorpus (Schneider 2020). Dieser Vergleich erfolgt auf zwei Ebenen: Zum einen wird die diskurs-spezifische Verwendung anhand eines adaptierten Analyse-Frameworks für Hip-Hop-Texte von Androutsopoulos und Scholz (2002) untersucht, zum anderen wird der syntaktische und morphologische Gebrauch in den Deutschraptexten analysiert. Dabei zeigt sich, dass es jeweils spezifische Verwendungstendenzen auf diskursiver Ebene gibt, die wesentlichsten Unterschiede aber in der syntaktischen und morphologischen Verwendung auftreten, allen voran in der höheren Produktivität der anglizistischen Nomination. Es wird dafür argumentiert, dass sich dies unter anderem auf sprachstrukturelle bzw. wortformale Spezifika des Englischen zurückführen lässt, wie den nicht vorhandenen Flexionssuffixen der Adjektive. Damit werden die in der Anglizismenforschung etablierten Überlegungen zu Verwendungsgründen um eine simple, aber gegebenenfalls folgenreiche Beobachtung ergänzt, die sich vor allem bei den sprachökonomischen Ansätzen einordnen lässt. Schließlich wird darüber auf diskursiver Ebene wiederum auch ein Bezug zu terminologischen Vorteilen hergeleitet: Trotz flexibler Verwendung wird das schriftliche Abbild bei Wortbildungen geschont (Oldschoolstyle, Oldschool-Aufnahmen, Oldschooler), was für die Wiedererkennbarkeit des Diskurselements – neben der zusätzlichen Auszeichnung durch die Eigenschaft ‚fremdsprachig‘ – zuträglich sein könnte.
Das Songkorpus erlaubt Einblicke in bestimmte gesellschaftliche Diskurse, die in anderen Sprachkorpora weniger zur Geltung kommen. Das zeigt sich auch bei der Analyse von Phrasemen im Songkorpus.
Phraseme sind etablierte Wortkombinationen; sie konservieren kollektives Wissen, kollektive Kultur. Element of Crime, Fettes Brot, Udo Lindenberg, Stefan Stoppok, Konstantin Wecker, Marius Müller-Westernhagen, die Autoren meines kleinen Teilkorpus, sind Anti-Establishment und alles andere als konservativ. Zwar verwenden sie häufig Phraseme verschiedenster Struktur und Art, karikieren sie aber auch häufig, spielen lässig mit ihnen, hinterfragen ihre Bedeutung, verändern ihre Bedeutung. Ihre spezielle Haltung bedingt spezielle Phraseme und spezielle Phrasemvarianten.
Im Zentrum dieses Beitrags steht die Analyse kreativer Wortbildungsprodukte in Songtexten. Der Fokus liegt somit bewusst auf solchen Wortbildungen, die nicht den Weg ins Lexikon finden, sondern gerade aufgrund ihres okkasionellen Charakters einen erhöhten Grad an Expressivität aufweisen, der dann gezielt für die spezifische kreative Qualität von Songtexten genutzt wird.
Solche okkasionellen komplexen Wörter, die sich in theoretischer Hinsicht innerhalb der Domäne der ‚Extravagant Morphology‘ verorten lassen, werden über das Kriterium der Wortlänge aus dem Songkorpus herausgefiltert und im Anschluss hinsichtlich ihrer formalen sowie semantisch-pragmatischen Besonderheiten analysiert. Im Vordergrund steht dabei die Frage, wodurch die Kreativität der insgesamt 183 Bildungen des Untersuchungskorpus getriggert wird. Die Analyse zeigt, dass expressive Effekte in Songtexten offenbar sowohl durch die Verwendung markierter Wortbildungsmuster als auch durch den Rückgriff auf ‚auffällige‘ Lexik erzeugt werden. Zum einen ist der Anteil markierter Wortbildungsmuster wie der Phrasenkomposition und anderer phrasaler Wortbildungen gegenüber klassischen Textsorten wie Zeitungstexten deutlich erhöht. Zum anderen wird durch die Verwendung einer umgangssprachlichen, vulgären, brutalen oder poetischen Lexik, aber auch mit unmarkierten Wortbildungsmustern wie der prototypischen Determinativkomposition, Aufmerksamkeit erregt. Insgesamt erweist sich das Songkorpus dabei als wahre Fundgrube für kreative Wortbildungsprodukte.
In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zusätzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata für die Tokens in der ersten Spalte – ergänzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gelöscht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese äußerst ambig sein können, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengehören. Dieser Beitrag fokussiert auf den Apostroph, der in vielfältiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten möchten. Wir nutzen dafür das komplette Lindenberg-Archiv des song-korpus.de-Repositoriums, kategorisieren die auftretenden Phänomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch -lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch für diese Texte angepasstes Training zu Genauigkeiten ≥ 96% führt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verfügung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verfügbar auf github), die für ähnliche Texte verwendet werden kann.
Vorgestellt wird das Korpus deutschsprachiger Songtexte als innovative Sprachdatenquelle für interdisziplinäre Untersuchungsszenarien und speziell für den Einsatz im Fremd- und Zweitsprachenunterricht. Die Ressource dokumentiert Eigenschaften konzeptioneller Schriftlichkeit und konzeptioneller Mündlichkeit und erlaubt empirisch begründete Analysen sprachlicher Phänomene bzw. Tendenzen in den Texten moderner Popmusik. Vorgestellt werden Design, Annotationen und Anwendungsbeispiele des in thematische und autorenspezifische Archive stratifizierten Korpus.
The automatic recognition of idioms poses a challenging problem for NLP applications. Whereas native speakers can intuitively handle multiword expressions whose compositional meanings are hard to trace back to individual word semantics, there is still ample scope for improvement regarding computational approaches. We assume that idiomatic constructions can be characterized by gradual intensities of semantic non-compositionality, formal fixedness, and unusual usage context, and introduce a number of measures for these characteristics, comprising count-based and predictive collocation measures together with measures of context (un)similarity. We evaluate our approach on a manually labelled gold standard, derived from a corpus of German pop lyrics. To this end, we apply a Random Forest classifier to analyze the individual contribution of features for automatically detecting idioms, and study the trade-off between recall and precision. Finally, we evaluate the classifier on an independent dataset of idioms extracted from a list of Wikipedia idioms, achieving state-of-the art accuracy.
Song lyrics can be considered as a text genre that has features of both written and spoken discourse, and potentially provides extensive linguistic and cultural information to scientists from various disciplines. However, pop songs play a rather subordinate role in empirical language research so far - most likely due to the absence of scientifically valid and sustainable resources. The present paper introduces a multiply annotated corpus of German lyrics as a publicly available basis for multidisciplinary research. The resource contains three types of data for the investigation and evaluation of quite distinct phenomena: TEI-compliant song lyrics as primary data, linguistically and literary motivated annotations, and extralinguistic metadata. It promotes empirically/statistically grounded analyses of genre-specific features, systemic-structural correlations and tendencies in the texts of contemporary pop music. The corpus has been stratified into thematic and author-specific archives; the paper presents some basic descriptive statistics, as well as the public online frontend with its built-in evaluation forms and live visualisations.