Korpuslinguistik
Refine
Document Type
- Part of a Book (11) (remove)
Has Fulltext
- yes (11)
Keywords
- Sprachvariante (11) (remove)
Publicationstate
- Zweitveröffentlichung (6)
- Veröffentlichungsversion (5)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (10)
- Peer-Review (1)
Publisher
- de Gruyter (4)
- Narr (3)
- Academia (1)
- Narr Francke Attempto (1)
- Peter Lang (1)
- Wilhelm Fink (1)
GraphVar ist ein Korpus aus über 1.600 Abiturarbeiten, die zwischen 1917 und 2018 an einem niedersächsischen Gymnasium geschrieben wurden. Das Hauptinteresse beim Aufbau bestand in der Beschreibung graphematischer Variation und ihrer Entwicklung über die Zeit. Leitend war die Frage, was Schreiberinnen und Schreiber eigentlich tatsächlich machen bzw. gemacht haben – und zwar unbeeinflusst von technischen Hilfsmitteln oder Schluss- und Endredaktion, aber unter vergleichbaren Bedingungen. Das Korpus bietet somit ein Fenster auf den unverfälschten Schreibgebrauch von Abiturientinnen und Abiturienten im Laufe der Zeit. Zum jetzigen Zeitpunkt sind 1.618 Arbeiten transkribiert, linguistisch annotiert und über eine ANNIS-Instanz erreichbar (graphvar.unibonn.de, Stand: 8.8.2023). Im Sommer 2022 konnten weitere 1.600 Arbeiten zwischen 1900 und 2021 an einem Gymnasium in Nordrhein-Westfalen digitalisiert werden. Neben schriftlinguistischen Fragestellungen ist das Korpus prinzipiell auch für syntaktische, morphologische und lexikalische Fragestellungen geeignet; auch didaktische Untersuchungen sind möglich, genau wie kulturwissenschaftliche.
For many reasons, Mennonite Low German is a language whose documentation and investigation is of great importance for linguistics. To date, most research projects that deal with this language and/ or its speakers have had a relatively narrow focus, with many of the data cited being of limited relevance beyond the projects for which they were collected. In order to create a resource for a broad range of researchers, especially those working on Mennonite Low German, the dataset presented here has been transformed into a structured and searchable corpus that is accessible online. The translations of 46 English, Spanish, or Portuguese stimulus sentences into Mennonite Low German by 321 consultants form the core of the MEND-corpus (Mennonite Low German in North and South America) in the Archive for Spoken German. In addition to describing the origin of this corpus and discussing possibilities and limitations for further research, we discuss the technical structure and search possibilities of the Database for Spoken German. Among other things, this database allows for a structured search of metadata, a context-sensitive token search, and the generation of virtual corpora that can be shared with others. Moreover, thanks to its text-sound alignment, one can easily switch from a particular text section of the corpus to the corresponding audio section. Aside from the desire to equip the reader with the technical knowledge necessary to use this corpus, a further goal of this paper is to demonstrate that the corpus still offers many possibilities for future research.
Dieser Beitrag stellt zwei Korpora vor, die als Datengrundlage für die Bestimmung der Regionalangaben im Digitalen Wörterbuch der deutschen Sprache (DWDS) fungieren: das ZDL-Regionalkorpus und das Webmonitor-Korpus. Diese Korpora wurden am Zentrum für digitale Lexikographie der deutschen Sprache (ZDL) erstellt und stehen allen registrierten Nutzern der DWDS-Plattform für Recherchen zur Verfügung. Das ZDL-Regionalkorpus enthält Artikel aus Lokal- und Regionalressorts deutscher Tageszeitungen, die mit arealen Metadaten versehen sind. Es wird ergänzt durch regionale Internet-Quellen im Webmonitor-Korpus, die zusätzliche Areale und Ortspunkte aus dem deutschen Sprachraum einbeziehen. Die Benutzerschnittstelle der linguistisch annotierten Korpora erlaubt nicht nur komplexe sprachliche Abfragen, sondern bietet auch statistische Recherchewerkzeuge zur Bestimmung arealer Verteilungen.
Gegenstand des Beitrags sind korpuslinguistische Zugänge zur Variation im Auftreten des Fugenelements in Komposita aus zwei Nomen (Arbeit I s I weg). Die qualitative Vorstudie zeigt, dass die Verfügung nach Erstglied auf Vokal (Bühne I n I spiel, See I ufer) entgegen manchen Hinweisen aus bisherigen Korpusuntersuchungen sehr weitgehend linguistisch systematisierbar ist. Die Hauptstudie fokussiert dann die sehr variable Verfügung nach Erstglied auf Konsonant (Arbeit I s I weg vs. Heimat I art). Sie modelliert statistisch den Einfluss von Größen, deren Bedeutung in der bisherigen Forschung nur angenommen, aber nicht überprüft werden konnte. Dabei führt sie auch neue Einflussgrößen ein und gibt deutliche Hinweise darauf, dass die Variation in größerem Ausmaß als bisher vermutet einzelfallspezifisch geregelt ist.
Die Dokumentation und Untersuchung deutscher Sprachinselvarietäten war schon immer eine der wichtigsten Aufgaben der germanistischen Sprachwissenschaft. Mittlerweile stellt sich aber immer öfter die Frage der Nachhaltigkeit der erhobenen Spachinseldaten. Insbesondere in Bezug auf die vom Sprachtod bedrohten Varietäten, wie z.B. im Fall der russlanddeutschen Dialekte aus den noch intakten Sprachinseln der ehemaligen Sowjetunion, ist es äußerst wichtig, die existierenden Audioaufnahmen systematisch und dauerhaft zu archivieren. Aber nicht nur die Archivierung, sondern auch der freie und unkomplizierte Zugang zu diesen Materialien ist ein wesentlicher Aspekt im Konzept der Nachhaltigkeit. Wie sollte dieser Zugang aber gestaltet sein und in welcher Form sollen die Daten präsentiert werden? Auf genau diese Frage ist das Projekt „Elektronisches Wörterbuch. Ein Online-Informationsangebot zu Sprache und Dialekten der Russlanddeutschen" eingegangen. In diesem Projekt wurden historische Tonaufnahmen russlanddeutscher Dialekte linguistisch aufbereitet und in Form einer strukturierten Russlanddeutschen Dialektdatenbank (RuDiDat) online veröffentlicht. Diese Datenbank ist frei verfügbar und ermöglicht die Recherche im Korpus des Russlanddeutschen. Der vorliegende Beitrag stellt die Datenbank vor und thematisiert Herausforderungen, die durch unterschiedliche Ausprägungsformen des Russlanddeutschen entstehen könnten, wenn man die im Internet freigegebenen Sprachinseldaten für vergleichende Analysen heranzieht.
Der vorliegende Aufsatz beschäftigt sich mit einigen Aspekten der variationistischen Annotation von Korpusdaten. Anhand von mehreren Beispielen wird gezeigt, dass der Vergleich von Kategorien in einem Korpus oder der Vergleich von zwei Korpora nur unter bestimmten Bedingungen variationistisch interpretiert werden kann. Da die Definition von Variablen oft schwierig ist und die Zuordnung von Varianten zu Variablen je nach Forschungsfrage unterschiedlich sein kann, müssen Variablen und Varianten in einem Korpus (für alle transparent und nachvollziehbar) annotiert werden. Dabei wird für eine offene Korpusarchitektur argumentiert, in der in einem bestehenden Korpus jederzeit Variablen und Varianten hinzugefügt werden können.
Südtirol ist eine mehrsprachige italienische Provinz, in der die Verwendung unterschiedlicher Sprachen, besonders Deutsch und Italienisch, sowie der lokalen deutschen Dialekte in der mündlichen Kommunikation in formalen wie informalen Sprechsituationen einen hohen gesellschaftlichen Stellenwert hat. Mit der Frage, welche Sprachen bzw. Varietäten in der schriftlichen Alltagskommunikation verwendet werden und welche soziolinguistischen Faktoren dabei eine Rolle spielen, hat sich das Projekt DiDi befasst, in dem die Sprach- und Varietätenverwendung in Facebook-Texten näher untersucht wurden. Dabei stellte sich unter anderem heraus, dass das Schreiben im Dialekt besonders unter Jugendlichen weit verbreitet ist (Glaznieks/Frey 2018). Mithilfe des aus diesem Projekt entstandenen und für wissenschaftliche Nutzung frei zugänglichen Facebook-Korpus kann die Sprach- und Varietätenverwendung Südtiroler Facebooknutzer/innen in der internetbasierten Kommunikation aus unterschiedlichen linguistischen Perspektiven untersucht werden.
Von Grammatikern erwartet man Auskunft darüber, wie man zu reden und zu schreiben hat, eine Erwartung, die sich auf die Annahme stutzt, es stehe grundsätzlich immer schon fest, was in Sprachen wie etwa dem Deutschen als korrekt gelten kann. Tatsächlich kann jedoch nicht einmal davon ausgegangen werden, dass es so etwas wie das Deutsche als eindeutig bestimmten Gegenstand gibt. Alles, was als Deutsch zu fassen ist, sind ungezählte schriftliche und - sofern aufgezeichnet - mündliche Äußerungen. Bis vor wenigen Jahren waren diese Daten praktisch nur unzureichend zu nutzen, weshalb Grammatikern wenig anderes übrig blieb, als auf der schmalen Basis durch Introspektion gewonnener Daten Simulationen eines allgemeinen Sprachgebrauchs zu entwickeln. Mit der Verfügung über riesige Korpora maschinenlesbarer Texte haben sich die Voraussetzungen für die Untersuchung grammatischer Strukturen entscheidend verändert. Für die Grammatikforschung ergaben sich damit neue Perspektiven: zum einen ein radikaler Bruch mit der Tradition grammatischer Analysen, der weitgehend auf eine statistische Auswertung von Kookkurrenzen setzt, zum andern - weniger radikal, mehr traditionsverbunden - die Möglichkeit, konventionell kompetenzgestutzt erarbeitete Regelhypothesen anhand von Daten zu validieren, wie sie in sehr großen Textkorpora vorliegen und dem, was als Deutsch gelten kann, so nah kommen, wie dies irgend erreichbar ist, da sie durchweg in dem Bemühen zustande kamen, sich korrekt auszudrucken.
Thema des Beitrags ist der Einsatz des Dudenkorpus in der Zusammenarbeit von Grammatikautoren und Dudenredaktion. Das annotierte Korpus und die Recherchemöglichkeiten, die es bietet, werden anhand aktueller Beispiele aus der Werkstatt einer Dudenredakteurin beschrieben. Einen Schwerpunkt bildet neben einfachen Vergleichen zwischen zwei oder drei morphologischen Varianten die komplexere Frage, ob temporales wo (der Zeitpunkt, wo; jetzt, wo) in der Dudengrammatik weiterhin als standardsprachlich bezeichnet werden soll. Zugleich wird versucht, die Attraktivität alternativer Konstruktionen (der Zeitpunkt, zu dem; jetzt, da) für Schreibende und Lesende zu messen. Diese ‘Alternativen’ verhalten sich jedoch keineswegs wie die eingangs erwähnten morphologischen Varianten zueinander – zu unterschiedlich sind semantische und syntaktische Leistungen, zu unterschiedlich die Restriktionen, die für ihre Verwendung im Satz gelten, zu unterschiedlich sind schließlich die untersuchten Texte, aus denen die mittels Hochrechnung ausgewerteten über 30 000 Sätze stammen. Zur Diskussion steht, welche Konsequenzen in einer Grammatik für ein breites Publikum zu ziehen sind. Diese Frage wird für die ‘Wortgrammatik’ anders beantwortet als für die ‘Regelgrammatik’.
This paper presents ongoing research which is embedded in an empirical-linguistic research program, set out to devise viable research strategies for developing an explanatory theory of grammar as a psychological and social phenomenon. As this phenomenon cannot be studied directly, the program attempts to approach it indirectly through its correlates in language corpora, which is justified by referring to the core tenets of Emergent Grammar. The guiding principle for identifying such corpus correlates of grammatical regularities is to imitate the psychological processes underlying the emergent nature of these regularities. While previous work in this program focused on syntagmatic structures, the current paper goes one step further by investigating schematic structures that involve paradigmatic variation. It introduces and explores a general strategy by which corpus correlates of such structures may be uncovered, and it further outlines how these correlates may be used to study the nature of the psychologically real schematic structures.