Korpuslinguistik
Refine
Document Type
- Part of a Book (6)
- Article (2)
- Book (1)
- Conference Proceeding (1)
Has Fulltext
- yes (10)
Is part of the Bibliography
- yes (10) (remove)
Keywords
- Korpus <Linguistik> (8)
- Deutsch (3)
- Grammatik (3)
- Computerlinguistik (2)
- Korpuslinguistik (2)
- Lyrics <Lyrik> (2)
- Popmusik (2)
- corpus linguistics (2)
- Adjektive (1)
- Annotation (1)
Publicationstate
- Veröffentlichungsversion (5)
- Zweitveröffentlichung (5)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (6)
- Peer-Review (4)
Publisher
Sprachanfragen als authentische Primärdaten bergen Erkenntnispotenziale für eine große Bandbreite linguistischer und transferwissenschaftlicher Forschungsfragen und Methoden. Der Beitrag skizziert diese Potenziale und legt dabei den Fokus auf wissenschaftskommunikative Prozesse im Austausch linguistischer Laien und Experten. Anhand erster Ergebnisse einer empirischen korpusgestützten Untersuchung von ca. 50.000 Sprachanfragen wird skizziert, welche Erkenntnisse aus diesen Daten für die Vermittlung von Sprachwissen in einer zunehmend digitalisierten und vernetzten Gesellschaft gewonnen werden können.
Einleitung
(2023)
Vorgestellt wird das Korpus deutschsprachiger Songtexte als innovative Sprachdatenquelle für interdisziplinäre Untersuchungsszenarien und speziell für den Einsatz im Fremd- und Zweitsprachenunterricht. Die Ressource dokumentiert Eigenschaften konzeptioneller Schriftlichkeit und konzeptioneller Mündlichkeit und erlaubt empirisch begründete Analysen sprachlicher Phänomene bzw. Tendenzen in den Texten moderner Popmusik. Vorgestellt werden Design, Annotationen und Anwendungsbeispiele des in thematische und autorenspezifische Archive stratifizierten Korpus.
Das Vokabular von Songtexten im gesellschaftlichen Kontext – ein diachron-empirischer Beitrag
(2022)
Der Beitrag untersucht den Stellenwert gesellschaftlich relevanter Thematiken in deutschsprachigen Songtexten der zurückliegenden fünf Jahrzehnte. Dabei zeigt sich, dass neben individuellen Befindlichkeiten auch politische, sozialkritische oder umweltbezogene Themen signifikant angesprochen werden. Wir kontrastieren Songtexte mit anderen Testsorten und wenden dabei quantitative Methoden auf umfangreiche, breit stratifizierte Datensamples an, um die Phänomenbeschreibungen präzisierbar, generalisierbar und reproduzierbar zu machen. Das longitudinale Korpusdesign bietet Potenzial für diachrone Vergleiche. Im Sinne eines erweiterten „Mixed Methods“-Ansatzes exploriert die Studie zudem ausgewählte Aspekte qualitativ und bettet sie in den zeitlichen Kontext ein.
Song lyrics can be considered as a text genre that has features of both written and spoken discourse, and potentially provides extensive linguistic and cultural information to scientists from various disciplines. However, pop songs play a rather subordinate role in empirical language research so far - most likely due to the absence of scientifically valid and sustainable resources. The present paper introduces a multiply annotated corpus of German lyrics as a publicly available basis for multidisciplinary research. The resource contains three types of data for the investigation and evaluation of quite distinct phenomena: TEI-compliant song lyrics as primary data, linguistically and literary motivated annotations, and extralinguistic metadata. It promotes empirically/statistically grounded analyses of genre-specific features, systemic-structural correlations and tendencies in the texts of contemporary pop music. The corpus has been stratified into thematic and author-specific archives; the paper presents some basic descriptive statistics, as well as the public online frontend with its built-in evaluation forms and live visualisations.
Digitale Korpora haben die Voraussetzungen, unter denen sich Wissenschaftler mit der Erforschung von Sprachphänomenen beschäftigen, fundamental verändert. Umfangreiche Sammlungen geschriebener und gesprochener Sprache bilden mittlerweile die empirische Basis für mathematisch präzise Generalisierungen über zu beschreibende Wirklichkeitsausschnitte. Das Datenmaterial ist hochkomplex und besteht neben den Rohtexten aus diversen linguistischen Annotationsebenen sowie außersprachlichen Metadaten. Als unmittelbare Folge stellt sich die Konzeption adäquater Recherchelösungen als beträchtliche Herausforderung dar. Im vorliegenden Buch wird deshalb ein datenbankbasierter Ansatz vorgestellt, der sich der Problematiken multidimensionaler Korpusrecherchen annimmt. Ausgehend von einer Charakterisierung der Anforderungsmerkmale linguistisch motivierter Suchen werden Speicherungs- und Abfragestrategien für mehrfach annotierte Korpora entwickelt und anhand eines linguistischen Anforderungskatalogs evaluiert. Ein Schwerpunkt liegt dabei in der Einführung problemorientierter Segmentierung und Parallelisierung.
Der vorliegende Band befasst sich mit dem Stand und der Entwicklung von Forschungsinfrastrukturen für die germanistische Linguistik und einigen angrenzenden Bereichen. Einen zentralen Aspekt dabei bildet die Notwendigkeit, Kooperativität in der Wissenschaft im institutionellen Sinne, aber auch in Hinsicht auf die wissenschaftliche Praxis zu organisieren. Dies geschieht in Verbunden als Kooperationsstrukturen, wobei Sprachwissenschaft und Sprachtechnologie miteinander verbunden werden. Als zentraler Forschungsressource kommen dabei Korpora und ihrer Erschließung durch spezielle, linguistisch motivierte Informationssysteme besondere Bedeutung zu. Auf der Ebene der Daten werden durch Annotations- und Modellierungsstandards die Voraussetzung für eine nachhaltige Nutzbarkeit derartiger Ressourcen geschaffen.
The paper describes preliminary studies regarding the usage of Example-Based Querying for specialist corpora. We outline an infrastructure for its application within the linguistic domain. Example-Based Querying deals with retrieval situations where users would like to explore large collections of specialist texts semantically, but are unable to explicitly name the linguistic phenomenon they look for. As a way out, the proposed framework allows them to input prototypical everyday language examples or cases of doubt, which are automatically processed by CRF and linked to appropriate linguistic texts in the corpus.