Refine
Document Type
- Part of a Book (12)
- Article (2)
- Book (2)
Language
- German (16)
Has Fulltext
- yes (16)
Is part of the Bibliography
- no (16)
Keywords
- Korpus <Linguistik> (16) (remove)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (14)
Publisher
- de Gruyter (11)
- De Gruyter (1)
- Institut für Deutsche Sprache (1)
- Leibniz-Institut für Deutsche Sprache (IDS) (1)
- Narr (1)
- Narr Francke Attempto (1)
Vorwort
(2007)
Mit diesem Bild beschreibt Hermann Unterstöger in einem „Sprachlabor“- Artikel der Süddeutschen Zeitung vom 23.3.2013 die Erfolgsgeschichte, die das Substantiv (das) Narrativ in den letzten 30 Jahren vorgelegt hat. Während Unterstöger feinsinnig den intertextuellen Bezug zum „Narrenschiff“ des Sebastian Brant oder dem gleichnamigen Roman von Katherine Ann Porter bemüht, wird Matthias Heine, der Autor von „Seit wann hat geil nichts mehr mit Sex zu tun? 100 deutsche Wörter und ihre erstaunlichen Karrieren“ in einem Artikel in der WELT vom 13.11.2016, wie nach diesem Buchtitel zu erwarten, eher grob: Dort heißt es: „Hinz und Kunz schwafeln heutzutage vom ,Narrativ‘“.
Große Sprachkorpora sind als empirische Basis für die Arbeit des Linguisten zunehmend wichtig geworden. Dabei gehen die Arbeiten zum Korpusaufbau Hand in Hand mit der Entwicklung immer komfortablerer computerlinguistischer Werkzeuge zur Verwaltung und Analyse großer Datenmengen. Mit dem Fortschritt in den Möglichkeiten der Datenerschließung stellt sich die Frage, wie die Linguistik dies in Erkenntniszuwachs umsetzen kann. Diese aktuelle Frage nach dem Zusammenhang von Datenverfügbarkeit und Wissenszuwachs stand im Zentrum der Jahrestagung des Instituts für Deutsche Sprache 2006. Das Jahrbuch Sprachkorpora - Datenmengen und Erkenntnisfortschritt stellt theoretische und methodische Fragen zu Anlage und Nutzung großer Korpora ins Zentrum und behandelt sie aus der Sicht verschiedener linguistischer Teildisziplinen wie Grammatik, Lexik/Lexikographie, Pragmatik/Soziolinguistik und Computerlinguistik/Informatik. Dabei werden anhand von Darstellungen zu aktuellen Projekten die unterschiedlichen Anforderungen an die Zusammensetzung und Aufbereitung von Sprachkorpora und an die Recherchemöglichkeiten ebenso deutlich wie Kernfragen der Methodologie, z.B. nach dem Status des linguistischen Datums selbst oder nach der Verbindung von quantitativen und qualitativen Verfahren.
Im Beitrag werden korpuslinguistische Aspekte und Fragestellungen aus variationslinguistischer Perspektive diskutiert, wobei der Fokus auf der Analyse regionalsprachlicher Daten und Korpora des Deutschen liegt. Unter Regionalsprache wird hier der areal gebundene, sprechsprachliche Gesamtbereich „unterhalb“ der normierten Standardsprache verstanden, der sich von den lokalen Basisdialekten über Varietäten bzw. Sprechlagen des mittleren Bereichs bis hin zum standardnächsten Pol der Regionalsprache (Regionalakzent oder Regionalstandard) erstreckt.
Am Beginn des Beitrags steht ein Überblick über Datenklassen, die als empirische Grundlage für regionalsprachliche Fragestellungen herangezogen werden können. Eine Präsentation regionalsprachlicher Korpora, die auf den vorgestellten Datenklassen aufbauen, schließt sich an, wobei hier lediglich einige ausgewählte, online zugängliche Korpora Berücksichtigung finden (können). In einem nächsten Schritt werden die vorgestellten Korpora zur konkreten variationslinguistischen Analyse von zwei regionalsprachlichen Phänomenen aus dem lautlichen („g-Spirantisierung“) bzw. grammatischen Bereich („Rezipientenpassiv“) herangezogen und auf ihre Ergiebigkeit geprüft.
In diesem Beitrag wird untersucht, wie mithilfe korpuslinguistischer Verfahren Erkenntnisse über den Aufbau von Bedeutungsparaphrasen in Wörterbüchern gewonnen werden können. Diese Erkenntnisse sollen dazu genutzt werden, den Aufbau von Bedeutungsparaphrasen in Wörterbüchern umfassend und systematisch zu beschreiben, z.B. im Hinblick auf eine Optimierung der Bedeutungsparaphrasen für so genannte elektronische Wörterbücher oder für die Extraktion lexikalisch-semantischer Information für NLP-Zwecke.
Wer sich mit grammatischen Phänomenen historischer Sprachstufen beschäftigt, kann seine empirischen Daten bekanntermaßen nicht auf der Grundlage von Sprecherurteilen gewinnen, sondern muss zunächst Korpusrecherchen betreiben. Die Größe des auszuwählenden Korpus ist sehr stark phänomenabhängig: So reicht es im Bereich der Syntax in der Regel nicht aus, kleinere Textausschnitte aus verschiedenen Textquellen zu einem Korpus zusammenzufügen, vielmehr müssen vollständige Texte nicht nur nach raum-zeitlichen Koordinaten, sondern auch textsortenabhängig ausgewählt werden, um ein repräsentatives Korpus für eine spezifische Sprachstufe zu erstellen. Da eine manuelle Sichtung dieser doch recht großen Korpora sich sehr zeitaufwändig gestaltet, bietet sich gerade im Bereich der historischen Syntax der Einsatz von syntaktisch annotierten, digitalen Korpora an. Im folgenden Beitrag wird der Aufbau einer solchen Baumbank für das Frühneuhochdeutsche einschließlich der verfügbaren Recherchemöglichkeiten vorgestellt.
In diesem Aufsatz diskutiere ich drei syntaktische Phänomene, die für die Grammatikforschung von zentraler Bedeutung sind. Ich zeige, dass Introspektion als Stütze von Theorien nicht ausreicht und entwickle Korpusanfragen für die diskutierten Fälle. Der Aufsatz schließt mit Anmerkungen zu den Grenzen der Korpuslinguistik.
Es gibt viele linguistische Forschungsfragen, für deren Beantwortung man Korpusdaten qualitativ und quantitativ auswerten möchte. Beide Auswertungsmethoden können sich auf den Korpustext, aber auch auf Annotationsebenen beziehen. Jede Art von Annotation, also Kategorisierung, stellt einen kontrollierten und notwendigen Informationsverlust dar. Das bedeutet, dass jede Art von Kategorisierung auch eine Interpretation der Daten ist. In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z. B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten. In den letzten Jahren haben sich neben den großen, ,,flach“ annotierten Korpora Korpusmodelle herausgebildet, mit denen man konfligierende Informationen kodieren kann, die so genannten Mehrebenen-Modelle (multilevel standoff corpora), in denen alle Annotationsebenen unabhängig vom Text gespeichert werden und nur auf bestimmte Textanker verweisen. Ich argumentiere anhand der Fehlerannotation in einem Lernerkorpus dafür, dass zumindest Korpora, in denen es stark variierende Annotationsbedürfnisse und umstrittene Analysen geben kann, davon profitieren, in Mehrebenen-Modellen kodiert zu werden.
Arbeitet man als muttersprachlicher Sprecher des Deutschen mit Corpora gesprochener oder geschriebener deutscher Sprache, dann reflektiert man in aller Regel nur selten über die Vielzahl von kulturspezifischen Informationen, die in solchen Texten kodifiziert sind - vor allem, wenn es sich bei diesen Daten um Texte aus der Gegenwart handelt. In den meisten Fällen hat man nämlich keinerlei Probleme mit dem in den Daten präsupponierten und als allgemein bekannt erachteten Hintergrundswissen. Betrachtet man dagegen Daten in Corpora, die andere - vor allem nicht-indoeuropäische - Sprachen dokumentieren, dann wird einem schnell bewusst, wieviel an kulturspezifischem Wissen nötig ist, um diese Daten adäquat zu verstehen. In meinem Beitrag illustriere ich diese Beobachtung an einem Beispiel aus meinem Corpus des Kilivila, der austronesischen Sprache der Trobriand-Insulaner von Papua-Neuguinea. Anhand eines kurzen Ausschnitts einer insgesamt etwa 26 Minuten dauernden Dokumentation, worüber und wie sechs Trobriander miteinander tratschen und klatschen, zeige ich, was ein Hörer oder Leser eines solchen kurzen Daten-Ausschnitts wissen muss, um nicht nur dem Gespräch überhaupt folgen zu können, sondern auch um zu verstehen, was dabei abläuft und wieso ein auf den ersten Blick absolut alltägliches Gespräch plötzlich für einen Trobriander ungeheuer an Brisanz und Bedeutung gewinnt. Vor dem Hintergrund dieses Beispiels weise ich dann zum Schluss meines Beitrags darauf hin, wie unbedingt nötig und erforderlich es ist, in allen Corpora bei der Erschließung und Kommentierung von Datenmaterialien durch sogenannte Metadaten solche kulturspezifischen Informationen explizit zu machen.
Gesprächsprotokolle auf Knopfdruck: Die automatische Zusammenfassung von gesprochenen Dialogen
(2007)
Dieser Beitrag beschreibt computerlinguistische Arbeiten zur automatischen Zusammenfassung gesprochener Dialoge. Der Beitrag geht sowohl auf die notwendige Vorverarbeitung als auch auf die eigentliche Zusammenfassung durch automatische Erkennung von Themengrenzen und Extraktion relevanter Äußerungen ein. Ein weiterer Schwerpunkt liegt in der Beschreibung von Arbeiten zur automatischen Anaphernresolution in gesprochener Sprache. Der Beitrag betont vor allem die Rolle und Bedeutung von annotierten Korpora für die computerlinguistische Forschung und Entwicklung.