Refine
Year of publication
Document Type
- Part of a Book (128)
- Article (45)
- Conference Proceeding (15)
- Book (12)
- Review (2)
- Working Paper (1)
Keywords
- Korpus <Linguistik> (203) (remove)
Publicationstate
- Zweitveröffentlichung (203) (remove)
Reviewstate
- (Verlags)-Lektorat (146)
- Peer-Review (53)
- (Verlags-)Lektorat (1)
- Peer-reviewed (1)
Publisher
- de Gruyter (69)
- Narr (18)
- Narr Francke Attempto (16)
- European Language Resources Association (10)
- Erich Schmidt (9)
- Wilhelm Fink (7)
- Editura Academiei Române (5)
- Lang (3)
- Olms (3)
- Stauffenburg (3)
The project Referenzkorpus Altdeutsch (‘Old German Reference Corpus’) aims to es- tablish a deeply-annotated text corpus of all extant Old German texts. As the automated part-of-speech and morphological pre-annotation is amended by hand, a quality control system for the results seems a desirable objective. To this end, standardized inflectional forms, generated using the morphological information, are compared with the attested word forms. Their creation is described by way of example for the Old High German part of the corpus. As is shown, in a few cases, some features of the attested word forms are also required in order to determine as exactly as possible the shape of the inflected lemma form to be created.
The availability of electronic corpora of historical stages of languages has been wel- comed as possibly attenuating the inherent problem of diachronic linguistics, i.e. that we only have access to what has chanced to come down to us - the problem which was memorably named by Labov (1992) as one of “Bad Data”. However, such corpora can only give us access to an increased amount ot historical material and this can essentially still only be a partial and possibly distorted picture of the actual language at a particular period of history. Corpora can be improved by taking a more representative sample of extant texts if these are available (as they are in significant number for periods after the invention of printing). But, as examples from the recently compiled GerManC corpus of seventeenth and eighteenth century German show, the evidence from such corpora can still fail to yield definitive answers to our questions about earlier stages of a language. The data still require expert interpretation, and it is important to be realistic about what can legitimately be expected from an electronic historical corpus.
Multi-faceted alignment. Toward automatic detection of textual similarity in Gospel-derived texts
(2015)
Ancient Germanic Bible-derived texts stand in as test material for producing computational means for automatically determining where textual contamination and linguistic interference have influenced the translation process. This paper reports on the results of research efforts that produced a text corpus; a method for decomposing the texts involved into smaller, more directly comparable thematically-related chunks; a database of relationships between these chunks; and a user-interface allowing for searches based on various referential criteria. Finally, the state of the product at the end of the project is discussed, namely as it was handed over to another researcher who has extended it to automatically find semantic and syntactic similarities within comparable chunks.
In this paper we present some preliminary considerations concerning the possibility of automatic parsing an annotated corpus for N-N compounds. This should in prin- ciple be possible at least for relational and stereotype compounds, if the lemmatization of the corpus connects the lemmata with lexical entries as described in Höhle (1982). These lexical entries then supply the necessary information about the argument structure of a relational noun or about the stereotypical purpose associated with the noun’s referent which can be used to establish a relation between the first and the head constituent of the compound.
The relative order of dative and accusative objects in older German is less free than it is today. The reason for this could be that speakers of the direct predecessor of Old High German organized the referents according to the Thematic Hierarchy. If one applies a Case Hierarchy Nom>Acc>Dat to this, the order Nom - Dat - Acc falls out. It becomes apparent that the status of the Thematic Hierarchy is not a factor governing underlying word order, but a factor inducing scrambling. Arguments from binding theory, whose validity is discussed, indicate that the underlying order is ‘accusative before dative’
GraphVar ist ein Korpus aus über 1.600 Abiturarbeiten, die zwischen 1917 und 2018 an einem niedersächsischen Gymnasium geschrieben wurden. Das Hauptinteresse beim Aufbau bestand in der Beschreibung graphematischer Variation und ihrer Entwicklung über die Zeit. Leitend war die Frage, was Schreiberinnen und Schreiber eigentlich tatsächlich machen bzw. gemacht haben – und zwar unbeeinflusst von technischen Hilfsmitteln oder Schluss- und Endredaktion, aber unter vergleichbaren Bedingungen. Das Korpus bietet somit ein Fenster auf den unverfälschten Schreibgebrauch von Abiturientinnen und Abiturienten im Laufe der Zeit. Zum jetzigen Zeitpunkt sind 1.618 Arbeiten transkribiert, linguistisch annotiert und über eine ANNIS-Instanz erreichbar (graphvar.unibonn.de, Stand: 8.8.2023). Im Sommer 2022 konnten weitere 1.600 Arbeiten zwischen 1900 und 2021 an einem Gymnasium in Nordrhein-Westfalen digitalisiert werden. Neben schriftlinguistischen Fragestellungen ist das Korpus prinzipiell auch für syntaktische, morphologische und lexikalische Fragestellungen geeignet; auch didaktische Untersuchungen sind möglich, genau wie kulturwissenschaftliche.
Exploration und statistisch valide Analysen annotierter Textkorpora helfen bei der induktiven Aufdeckung systematischer Schreibgebrauchsmuster. Umgekehrt lassen sich – deduktiv – Vorgaben der kodifizierten Norm (amtliches Regelwerk) quantitativ überprüfen. Wir präsentieren eine Methodik für die empirisch informierte Beschreibung orthografisch motivierter Phänomene, gehen auf prototypische Fälle ein und werfen ein Schlaglicht auf Fallstricke der Korpusnutzung für die Orthografieforschung. Abschließend skizzieren wir Funktionen und Wirkungsweisen aggregierender Visualisierungen für die Forschungskommunikation am Beispiel des amtlichen Wörterverzeichnisses.
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
In this article, we provide an insight into the development and application of a corpus-lexicographic tool for finding neologisms that are not yet listed in German dictionaries. As a starting point, we used the words listed in a glossary of German neologisms surrounding the COVID-19 pandemic. These words are lemma candidates for a new dictionary on COVID-19 discourse in German. They also provided the database used to develop and test the NeoRate tool. We report on the lexicographic work in our dictionary project, the design and functionalities of NeoRate, and describe the first test results with the tool, in particular with regard to previously unregistered words. Finally, we discuss further development of the tool and its possible applications.
Unter Neologismen finden sich bedeutungsgleiche Ausdrücke (im weitesten Sinne Synonyme), die unter bestimmten Bedingungen sprachliche Unsicherheiten hervorrufen. Das liegt u. a. an ihrer semantisch-konzeptuellen Ähnlichkeit, an nicht abgeschlossenen Lexikalisierungsprozessen, aber es treten auch Zweifel auf, weil es Unterschiede zwischen der Allgemein- und der Fachsprache gibt. Für einige Neologismen ist es auch charakteristisch, dass mehrere morphologische Varianten gleichzeitig in den Wortschatz eintreten, sodass nicht immer klar ist, wann welche präferiert werden. Dass all diese Ausdrücke lexikalischem Wettbewerb und situationsgebundenen Gebrauchsbedingungen ausgesetzt sind und dass sie zu Zweifel führen können, wird in Onlineforen sichtbar. Dieser Beitrag beschäftigt sich mit der Frage, wie solche Paare/Gruppen korpusgestützt semantisch analysiert und wie sie in deskriptiven Wörterbüchern angemessen beschrieben werden können, um sowohl Gemeinsamkeiten als auch Unterschiede für Nachschlagende sichtbar zu machen. Dazu werden konkrete Beispiele und ein gegenüberstellendes Wörterbuchdarstellungsformat für neologistische Synonyme vorgeschlagen.
Dieser Beitrag beschreibt die Prozesse der Datenerhebung, -aufbereitung und geplanten Veröffentlichung eines Teilkorpus des vom österreichischen Wissenschaftsfonds (FWF) finanzierten Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation – Kontakt – Perzeption“ (FWF F060). Die Daten werden v. a. aus variationslinguistischer, kontaktlinguistischer wie auch perzeptionslinguistischer Perspektive analysiert, wofür eigene Tools entwickelt wurden, die – ebenso wie das Korpus selbst – mittelfristig der interessierten Öffentlichkeit zur Verfügung gestellt werden.
Der Beitrag skizziert die Genese und Komplexität des Konzepts ‚Usuelle Wortverbindung‘ (UWV) vor dem Hintergrund der korpuslinguistischen Wende. Die Möglichkeit, sprachliche Massendaten untersuchen zu können, erbrachte neue Einsichten in Hinblick auf Status, Form, Funktion, Festigkeit und Variabilität dieser zentralen Wortschatzeinheiten – gleichzeitig aber auch in Hinblick auf ihre Unschärfen und vielfachen Überlappungen. Eine der folgenreichsten Erkenntnisse ist, dass UWVs auf vorgeprägten Schemata und Mustern basieren und in ein komplexes Netz von Ausdrücken ähnlicher Art eingebettet sind. Für die Aneignung sprachlichen Wissens ist das Verstehen solcher primär funktionalen Musterbildungen elementar.
Einleitung
(2023)
Das Werk versteht sich als eine Darstellung der wichtigsten syntaktischen, prosodischen, semantischen und pragmatischen Eigenschaften kausaler und konditionaler Konnektoren des gesprochenen Deutsch.
Die Untersuchung formuliert notwendige theoretische Grundlagen und zeigt die komplexe Interaktion mehrerer Faktoren, die sich auf die Interpretation einer Äußerung auswirken. Empirische Daten belegen, dass die kontextuelle und pragmatische Interpretation der untersuchten Relationen stark mit ihren syntaktischen und prosodischen Mustern korreliert. Jedoch handelt es sich nicht um eine Eins-zu-eins-Beziehung, denn gleiche Lesarten können von kausalen und konditionalen Relationen unterschiedlich markiert sein. Anhand der Ergebnisse wird das Verhältnis zwischen Konditionalität und Kausalität diskutiert.
Gerd Hentschel gehört zu den Pionieren der heutigen Computerlexikografie und der IT-gestützten Korpuserschließung. Eine seiner ersten Zeitschriftenpublikationen, mit dem Titel Einsatz von EDV und Mikrocomputer in einem lexikographischen Forschungsprojekt zum deutschen Lehnwort im Polnischen (Hentschel 1983), befasst sich mit der Frage, wie - unter den damaligen technischen Vorzeichen - Forschungs- und Dokumentationsarbeiten zu polnischen Germanismen sinnvoll durch die Verwendung von Computern unterstützt werden können. Die besagten Arbeiten mündeten später in die Online-Publikation des Wörterbuchs der deutschen Lehnwörter in der polnischen Schrift- und Standardsprache (WDLP). Es ist aus heutiger Sicht bemerkenswert, mit welchen Beschränkungen die Arbeit mit dem Computer noch vor 40 Jahren zu kämpfen hatte. Aus gegebenem Anlass sei es gestattet, diesen Punkt etwas ausführlicher zu illustrieren.
Dieser Beitrag stellt den Aufbau eines multimodalen Korpus zur Erforschung des Deutschen als Minderheitssprache in Argentinien vor (DiA). In dem sich im Aufbau befindlichen DiA-Korpus werden die heutige wie auch die historische Situation mit multimodalen (mündlichen, schriftlichen und visuellen) Datensätzen repräsentiert, die mit entsprechenden methodischen Zugängen erfasst wurden und werden. Dazu gehören fragebogengeleitete Interviews (mündliches Medium), Briefe und elizitierte Schriftzeugnisse (geschriebenes Medium) sowie Linguistic-Landscape-Bilddaten (visuelles Medium). In diesem Beitrag wird zunächst ein Überblick über die Forschungssituation zum Deutschen als Minderheitensprache in Argentinien gegeben. Kern des Beitrags ist dann die Vorstellung der Korpusstruktur und des Vorgehens beim Korpusaufbau sowie die Darstellung von Auswertungspotentialen des Datenfundus auf systemischer, soziolinguistischer, sprachideologischer und kontaktlinguistischer Ebene. Eine Methodenreflexion rundet den Beitrag ab.
This study explores the interdependence of qualitative and quantitative analysis in articulating empirically plausible and theoretically coherent generalizations about grammatical structure. I will show that the use of large electronic corpora is indispensable to the grammarian's work, serving as a rich source of semantic and contextual information, which turns out to be crucial in categorizing and explaining grammatical forms. These general concerns are illustrated by the patterns of use of Czech relative clauses (RC) with the non-declinable relativizer co, by taking a set of existing claims about these RCs and testing their accuracy on corpus material. The relevant analytic categories revolve around the referential type of the relativized noun, the interaction between relativization and deixis, and the semantic relationship between the relativized noun and the proposition expressed by the RC. The analysis demonstrates that some of the existing claims are fully invalid in the face of regularly attested semantic distinctions, while others are more or less on the right track but often not comprehensive or precise enough to capture the full richness of the facts. 1
Conversation is usually considered to be grammatically simple, while academic writing is often claimed to be structurally complex, associated primarily with a greater use of dependent clauses. Our goal in the present paper is to challenge these stereotypes, based on the results of large-scale corpus investigations. We argue that both conversation and professional academic writing are grammatically complex but that their complexities are dramatically different. Surprisingly, the traditional view that complexity is realized through extensive clausal embedding leads to the conclusion that conversation is more complex than academic writing. In contrast, written academic discourse is actually much more ‘compressed’ than elaborated, and the complexities of academic writing are realized mostly as phrasal embedding rather than embedded clauses.
Nachdem die Erforschung der Wortbildungsregularitäten des Deutschen in den zentralen Bereichen zu erheblichen Fortschritten und weithin konsensfähigen Ergebnissen geführt hat, wendet sich die Forschung in den letzten Jahren verstärkt neuen Aspekten zu, wobei textlinguistische und in verschiedener Weise anwendungsorientierte Fragen eine erhebliche Rolle spielen, daneben aber auch andere, häufig theoriespezifischere Herangehensweisen gewählt werden. Wie viele andere Bereiche der Sprachwissenschaft hat sich auch die Wortbildungsforschung mit der neuen Möglichkeit auseinanderzusetzen, elektronische Korpora als empirische Basis zu nutzen.
Der Band dokumentiert die Ergebnisse der Tagung zur Wortbildung an der Universität Santiago de Compostela im Sommer 2006, und gerade bei einer transnationalen - und im Gefolge auch germanistisch-hispanistisch transdisziplinären - Tagung liegt es nahe, die typologisch vergleichenden Aspekte zu betonen, die ebenfalls in letzter Zeit erheblich an Bedeutung gewonnen haben. Mit der Schwerpunktsetzung auf den (deutsch-spanischen) Vergleich, auf textuelle und auf am Bereich DaF anwendungsorientierte Fragestellungen ergänzen die im vorliegenden Band dokumentierten Ergebnisse dieser Tagung die derzeit wieder recht lebhafte Diskussion um Fragen der Wortbildung.
OWID und OWIDplus – lexikographisch-lexikologische Online-Informationssysteme des IDS Mannheim
(2023)
Lexikographische und lexikalische Ressourcen zum Deutschen werden an vielen unterschiedlichen Institutionen erarbeitet, z. B. an Akademien der Wissenschaften oder in privatwirtschaftlichen Verlagen. Auch am Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim werden solche Materialien erstellt und der (Fach-)Öffentlichkeit unter dem Dach von OWID, dem „Online-Wortschatz-Informationssystem Deutsch“ (owid.de), präsentiert.
Anders als bei Sonntagspredigten haben die katholischen und evangelischen AutorInnen von Kirche in 1live nur 90 Sekunden zur Verfügung, um ihre christliche Botschaft zu vermitteln. Vorliegender Beitrag untersucht, wie die katholischen und evangelischen AutorInnen dies tun. Welche Inhalte erachten sie für relevant? Welche sprachliche Gestaltung wählen sie? Greifen katholische und evangelische AutorInnen zu den gleichen Inhalten und sprachlichen Mitteln oder zeigen sich konfessionelle Präferenzen und Differenzen? Diesen Fragen soll an einem Korpus aus Kirche in 1live-Radiopredigten aus den Jahren 2012 bis 2021 (= 2.755 Texte mit insgesamt 726.570 Token) mit einem quantitativen und qualitativen Methoden-Mix nachgegangen werden. Die Studie wird im Rahmen des DFG-Projekts „Sprache und Konfession 500 Jahre nach der Reformation“ am Germanistischen Institut der Westfälischen Wilhelms-Universität Münster durchgeführt.
Sprachanfragen als authentische Primärdaten bergen Erkenntnispotenziale für eine große Bandbreite linguistischer und transferwissenschaftlicher Forschungsfragen und Methoden. Der Beitrag skizziert diese Potenziale und legt dabei den Fokus auf wissenschaftskommunikative Prozesse im Austausch linguistischer Laien und Experten. Anhand erster Ergebnisse einer empirischen korpusgestützten Untersuchung von ca. 50.000 Sprachanfragen wird skizziert, welche Erkenntnisse aus diesen Daten für die Vermittlung von Sprachwissen in einer zunehmend digitalisierten und vernetzten Gesellschaft gewonnen werden können.
Metadaten zu Gesprächen und den beteiligten Sprecher/-innen enthalten Informationen, die für die Beschreibung, Erschließung und Analyse von Korpora wichtig sind. Bisher werden sie jedoch in der Konversationsanalyse und der Interaktionalen Linguistik so gut wie nicht genutzt. Dieser Beitrag zeigt exemplarisch, wie Metadaten des Gesprächskorpus „Forschungs- und Lehrkorpus Gesprochenes Deutsch“ (FOLK) im Rahmen einer interaktionslinguistischen Untersuchung verwendet werden können, um Regularitäten der Verwendung einer untersuchten Gesprächspraktik zu identifizieren und ihren Zusammenhang mit den Eigenschaften von Aktivitäten und Sprecherrollen zu klären. In allgemeinerer Perspektive diskutiert der Beitrag, wie und an welchen Stellen einer interaktionslinguistischen Untersuchung Metadaten von Nutzen sein können und wie ihr Stellenwert im Rahmen dieser Methodologie kritisch reflektiert werden muss.
Filtern, Explorieren, Vergleichen: neue Zugriffsstrukturen und instruktive Potenziale von OWIDplus
(2023)
OWIDplus, das Zusatzangebot zur Wörterbuchplattform OWID, vereint verschiedenste lexikalische Datenbanken, Korpustools und visuell aufbereitete Analysen, die mithilfe von Textsuche und Kategorienfiltern so sortiert werden können, dass Benutzer*innen leicht die für sie interessanten Projekte entdecken können. Eine tiefergehende Beschäftigung mit den Einzelprojekten zeigt, wie bei aller oberflächlicher Ähnlichkeit oder gemeinsamen Themenbereichen ganz unterschiedliche methodische Zugänge zu sprachlichen Daten gewählt worden sind und wie Methodik und Forschungsfrage stets aufeinander abgestimmt werden müssen. Die Vielzahl potenzieller Forschungsfragen führt so unweigerlich zu einer Diversität von Projekten und somit einer Heterogenität, die, so hoffen die Autor*innen, in OWIDplus greifbar wird.
Die sprachlichen Auffälligkeiten, die in Gedichten zu beobachten sind, haben immer wieder Anlass zu verschiedenen Versionen der Abweichungstheorie gegeben, derzufolge die in Gedichten verwendete Sprache von nicht-lyrischer Sprache abweicht. Expressionistische Lyrik ist insbesondere für ihre argumentstrukturellen Innovationen bekannt. Auf der Basis eines Korpus expressionistischer Gedichte wird eine Übersicht über diese Auffälligkeiten gegeben, die die Grundlage für weitere Studien darstellen soll, in denen zu zeigen sein wird, inwieweit unter bestimmten grammatiktheoretischen Annahmen die Abweichungstheorie zurückgewiesen werden kann.
This paper presents the IVK-Ler corpus, a longitudinal, annotated learner corpus of weekly writings produced by a group of 18 adolescents in a preparatory class. The corpus consists of 117 student texts collected between 2020 and 2021 and has a structure layered by student and text number. It includes metadata that enables researchers to analyze and track individual student progress in terms of syntactic competence and literacy. The annotation schema, manual and automatic annotation processes, and corpus representation are described in detail. The corpus currently includes target hypotheses and gold standard part-of-speech tags. Future work could include additional annotation layers for topological fields and dependency relations, as well as semantic and discourse annotations to make the corpus usable for tasks beyond syntactic evaluations.
Der vorliegende Beitrag beschreibt, wie die Verfügbarkeit digitaler Textkorpora den Wandel von einer systemorientierten hin zu einer gebrauchsorientierten Sprachforschung ermöglicht hat. Doch die korpusbasierte Beschreibung des Sprachgebrauchs kann nur so realistisch sein wie die Korpora, mit denen sie arbeitet. Deshalb ist es von großer Bedeutung, auch besondere Textsorten zu berücksichtigen und Herangehensweisen zu entwickeln, das dafür nötige Vertrauen bei den Datenspendern zu erzeugen. Im Zentrum des Beitrags steht deshalb die Diskussion von einigen derartigen Textsorten und den Herausforderungen, die sich mit ihnen in Hinsicht auf den Korpusaufbau verbinden. Der Beitrag endet mit einem Ausblick auf das Forum Deutsche Sprache, das einen solchen Ort des Vertrauens für Spracherhebungen bieten möchte.
Einleitung
(2023)
Der Beitrag betrachtet das Deutsche Referenzkorpus DeReKo in Bezug auf Strategien für seinen Ausbau, den Zugriff über die Korpusanalyseplattform KorAP und seine Einbettung in Forschungsinfrastrukturen und in die deutschsprachige und europäische Korpuslandschaft. Ausgehend von dieser Bestandsaufnahme werden Perspektiven zu seiner Weiterentwicklung aufgezeigt. Zu den Zukunftsvisionen gehören die Verteilung von Korpussressourcen und die Konstruktion multilingualer vergleichbarer Korpora anhand der Bestände der National- und Referenzkorpora, eine Plattform zur Abgabe und Aufbereitung von Sprachspenden als eine Anwendung von Citizen Science sowie eine Komponente zur automatischen Identifikation von übersetzten bzw. maschinenverfassten Texten.
In unserem Beitrag widmen wir uns dem Einsatz von Sprachkorpora für den Kontext
Deutsch als Fremdsprache (DaF), wobei wir unterschiedliche Ressourcen und Anwendungsbereiche beleuchten. Ziel des Beitrags ist es, exemplarisch Korpora für den DaF-Kontext vorzustellen, sowie deren Potenziale beispielhaft herauszustellen. Zu den vorgestellten Ressourcen zählen Lernerkorpora für Deutsch als Zielsprache, Spezial- und Fachkorpora, Vergleichskorpora sowie Korpora der gesprochenen Sprache und Wörterbuchressourcen. Mit Blick auf die unterschiedlichen Korpora und deren Spezifika loten wir lohnende Perspektiven und Anknüpfungspunkte für Forschung und Didaktik aus und geben Hinweise zur vertiefenden Auseinandersetzung.
Die Arbeit mit digitalen Daten und empirischen Methoden hat die Möglichkeiten intersubjektiv nachprüfbarer Forschung und Theoriebildung in der Linguistik wie in kaum einer anderen geisteswissenschaftlichen Disziplin verändert. Der Linguistik steht heute eine beeindruckende Anzahl hochwertiger Korpusressourcen zur Verfügung, um Fragestellungen ausgehend vom tatsächlichen Sprachgebrauch in gesprochener und geschriebener Sprache zu bearbeiten und Hypothesen datengestützt zu überprüfen.
Dieser Band bietet Einblicke in Grundlagenfragen, aktuelle Forschungsarbeiten und Entwicklungen im Bereich der korpusgestützten Sprachanalyse – von den theoretischen Grundlagen über die Beschreibung einzelner Korpora und Werkzeuge bis hin zu korpusgestützten Fallstudien und zum Einsatz von Korpora in Lehre und Unterricht. Die 25 Beiträge reflektieren den Stand der gegenwärtigen Forschung und sind nicht nur für Expertinnen und Experten, sondern auch für fortgeschrittene Studierende der Linguistik mit einschlägigem fachlichen Interesse verständlich.
Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.
This paper deals with a specific type of lexeme, namely binary preposition-noun combinations containing temporal references like am Ende [at (the) end] or für Sekunden [for seconds]. The main characteristic of these combinations is the recurrent internal zero gap. Despite the fact that the omission of the determiner can often be explained by grammatical rules, the zero gaps indicate a higher degree of lexicalization. Therefore, we interpret these expressions as minimal phraseological units with holistic meanings and functions. The corpusdriven exploration of typical context patterns (e.g. using collocation profiles and the lexpan slot filler analysis) shows that a) even such minimal expressions are based on semi-abstract schemes and b) temporal expressions can also fulfill modal or discursive functions, usually with fuzzy borders and overlapping structures. In the case of modalization or pragmatization one can regard such PNs as distinct lexicon entries.
Seit der Forschung große Datenmengen und Rechenkapazitäten zur Verfügung stehen arbeitet auch die Sprachwissenschaft zunehmend datengeleitet. Datengeleitete Forschung geht nicht von einer Hypothese aus, sondern sucht nach statistischen Auffälligkeiten in den Daten. Sprache wird dabei oft stark vereinfacht als lineare Abfolge von Wörtern betrachtet. Diese Studie zeigt erstmals, wie der zusätzliche Einbezug syntaktischer Annotationen dabei hilft, sprachliche Strukturen des Deutschen besser zu erfassen.
Als Anwendungsbeispiel dient der Vergleich der Wissenschaftssprachen von Linguistik und Literaturwissenschaft. Die beiden Fächer werden oft als Teildisziplinen der Germanistik zusammengefasst. Ihre wissenschaftliche Praxis unterscheidet sich jedoch systematisch hinsichtlich Forschungsdaten, Methoden und Erkenntnisinteressen, was sich auch in den Wissenschaftssprachen niederschlägt.
Neue Entwicklungen in der Korpuslandschaft der Germanistik. Beiträge zur IDS-Methodenmesse 2022
(2023)
Die in diesem Band versammelten Beiträge zur Methodenmesse der Jahrestagung 2022 des Leibniz-Instituts für Deutsche Sprache geben einen Überblick über die aktuelle Korpuslandschaft in der germanistischen Linguistik: von historischen Sammlungen authentischer Sprachdaten über aktuelle Zeitungs- und Social-Media-Korpora, Gesprächskorpora, Korpora aus Texten von Deutschlernenden bis hin zu einem Korpus mit Texten leichter Sprache und einem Gebärdensprachekorpus. Die Beiträge erläutern jeweils die Designkriterien sowie die Methodik der Datenerhebung und geben einen Einblick, wie die Daten sprachwissenschaftlich verwendet werden können.
This article details the process of creating the Nottinghamer Korpus deutscher YouTube-Sprache ('The Nottingham German YouTube Language Corpus' - or NottDeuYTSch corpus) and outlines potential research opportunities. The corpus was compiled to analyse the online language produced by young German-speakers and offers significant opportunity for in-depth research across several linguistic fields including lexis, morphology, syntax, orthography, and conversational and discursive analysis. The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, German-speaking demographic and represent an authentic language snapshot of young German speakers. The corpus was proportionally sampled based on video category and year from a database of 112 popular German-speaking YouTube channels in the DACH region for optimal representativeness and balance and contains a considerable amount of associated metadata for each comment that enable further longitudinal cross-sectional analyses. The NottDeuYTSch corpus is available for analysis as part of the German Reference Corpus (DeReKo).
Einleitung
(2023)
In Dresden entsteht für den Forschungshub Digital Herrnhut der Pilot für ein agiles und multimodales Referenzkorpus der nächsten Generation (Nex-Gen Agile Reference Corpus (NARC)) in Zusammenarbeit mit der Sächsischen Landesbibliothek - Staats- und Universitätsbibliothek Dresden (SLUB). Dieses Korpus (N-ARC1) wird textliche, kartografische und audiovisuelle Quellen sowie weitere Artefakte fassen, die, miteinander vernetzt, als offene Forschungsdaten (teil-)maschinell angereichert werden können und in einer virtuellen Forschungsumgebung öffentlich und nachnutzbar zur Verfügung stehen sollen. Dafür bieten die Dokumente und Spuren der Herrnhuter Brüdergemeine - eine am Beginn des 18. Jahrhundert gegründete und in nur wenigen Jahrzehnten weltumspannende Glaubensgemeinschaft - einen idealen Ausgangspunkt. Im Beitrag werde ich exemplarisch an einigen ausgewählten Beispielen aus den Themenkreisen Datenerschließung, Datenstrukturierung, -erweiterung und -vernetzung zwischen akademischer Lehre, Forschung und bürgerwissenschaftlicher Beteiligung die Herausforderungen illustrieren, vor denen wir derzeit in der Umsetzung in Dresden stehen.
Die erfolgreiche Wiederverwendung gesprochener Korpora muss fachspezifischen Evaluationskritierien genügen und erfordert daher eine flexible Korpusarchitektur, die durch multirepräsentationale (Verfügbarkeit eines akustischen Signals und einer Transliteration) und multisituationale Daten (Variabilität von Situationen bzw. Aufgaben) gekennzeichnet ist. Diese Kriterien werden in einer Fallstudie zur /eː/-Diphthongisierung polnischer Deutschlerner/-innen angewendet und diskutiert. Die Fallstudie repliziert die Ergebnisse der /eː/-Diphthongisierung bei Bildbenennungen von Nimz (2016). Vor der Wiederverwendung werden weitere fachspezifische Evaluationskriterien überprüft, wie Multisituationalität, Aufnahmequalitäten, Erweiterbarkeit, vorhandene Metadaten und vorhandene Dokumentation. Nach der Replikationsstudie werden die Herausforderungen für eine Umsetzung der Wiederverwendung bezüglich Datenmanagement, Workflows und Data Literacy in Forschungs- und Lehrkontexten diskutiert.
Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.
Der Beitrag thematisiert den Zusammenhang von Korpusaufbereitung, Datenanreicherung und Nutzungsszenarien im Kontext des Discourse Lab, das an der TU Darmstadt und der Universität Heidelberg betrieben und in linguistischen und interdisziplinären Forschungs- und Lehrprojekten genutzt wird. Für die Diskursforschung sind Korpora genauso konstitutiv wie die Einbeziehung von Kontexten des Sprachgebrauchs in die Analyse. Daher ist die Frage nach Repräsentationsformaten von Kontexten besonders wichtig. Eine große Rolle bei der korpuslinguistischen Kontextualisierung spielen auch Annotationen. Das wird am Darmstädter-Tagblatt-Korpus, den Plenarprotokollen des Deutschen Bundestags und den Korpora der DFG-Forschungsgruppe Kontroverse Diskurse diskutiert.
Der Beitrag liefert einen Einblick in korpuslinguistische Projekte und Aktivitäten aus dem österreichischen Sprachraum. Der Fokus liegt auf zwei primär auf die Analyse gesprochener Sprache ausgerichteten Korpora (DiÖ-Korpus und WBÖ-Korpus) sowie auf dem medial wie konzeptionell schriftlich angelegten Austrian Media Corpus. Institutionell eingebettet sind die Korpora in den Spezialforschungsbereich „Deutsch in Österreich (DiÖ)“ sowie in die Aktivitäten des Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH) an der Österreichischen Akademie der Wissenschaften. Die theoretisch-methodologische Perspektive der Diskussion ist eine variationslinguistische, wobei sozio- und systemlinguistische Aspekte im Beitrag Berücksichtigung finden.
Dieser Beitrag stellt zwei Korpora vor, die als Datengrundlage für die Bestimmung der Regionalangaben im Digitalen Wörterbuch der deutschen Sprache (DWDS) fungieren: das ZDL-Regionalkorpus und das Webmonitor-Korpus. Diese Korpora wurden am Zentrum für digitale Lexikographie der deutschen Sprache (ZDL) erstellt und stehen allen registrierten Nutzern der DWDS-Plattform für Recherchen zur Verfügung. Das ZDL-Regionalkorpus enthält Artikel aus Lokal- und Regionalressorts deutscher Tageszeitungen, die mit arealen Metadaten versehen sind. Es wird ergänzt durch regionale Internet-Quellen im Webmonitor-Korpus, die zusätzliche Areale und Ortspunkte aus dem deutschen Sprachraum einbeziehen. Die Benutzerschnittstelle der linguistisch annotierten Korpora erlaubt nicht nur komplexe sprachliche Abfragen, sondern bietet auch statistische Recherchewerkzeuge zur Bestimmung arealer Verteilungen.
Das Korpus GeWiss (Gesprochene Wissenschaftssprache kontrastiv: Deutsch im Vergleich zum Englischen und Polnischen) bietet vielfältige Möglichkeiten zur Erforschung und Vermittlung der mündlichen Hochschulkommunikation. Mit den im Projekt ZuMult entwickelten Zugangswegen zu Korpora der gesprochenen Sprache eröffnen sich für einen deutlich größeren Personenkreis umfassende Nutzungsmöglichkeiten, die sowohl für sprachdidaktische Kontexte als auch für Forschungszwecke relevant sind. In diesem Beitrag wird eine Auswahl der in ZuMult geschaffenen Werkzeuge im Hinblick auf ihr Potenzial zur Arbeit mit den GeWiss-Daten vorgestellt. Im Anschluss wird anhand von expliziten sprachlichen Positionierungsmustern aufgezeigt, wie diese Korpustools für eine sprachdidaktisch orientierte empirische Untersuchung zu den Spezifika mündlicher Wissenschaftskommunikation genutzt werden können.
Die explorative Studie untersucht anhand von Korpusbelegen, in welchen Fällen satzförmige oder infinitivische propositionale Strukturen bedeutungserhaltend durch Nominalisierungen ersetzbar sind. Auf indirekte Weise soll so ein Zugang auch zur Bedeutung von propositionalen Strukturen selbst eröffnet werden. Die in der Literatur gängige These, dass nur bei einem Teil der Denotatsorten propositionaler Strukturen (von Ereignissen über Tatsachen bis zu ,rein abstrakten Objekten‘) Nominalisierung möglich sei, wird durch die Studie widerlegt. Damit stellt sich auch die Frage nach der Haltbarkeit der gängigen Fassung des Begriffs Proposition selbst. Die von Friederike Moltmann vertretene neue Sichtweise auf Propositionen scheint hingegen auch für Nominalisierungen eine Analyse ohne die bisher auftretenden Widersprüche zu ermöglichen.
Dieser Beitrag stellt ein neues, im Aufbau befindliches Parallelkorpus vor: Das ‚Parallel European Corpus of Informal Interaction‘ (PECII). Zunächst wird der Bedarf nach besser vergleichbaren Daten fur die sprachübergreifende Erforschung natürlichen sprachlichen Handelns in der sozialen Interaktion begründet. Wir diskutieren Fragen der Vergleichbarkeit von Episoden natürlicher sozialer Interaktion, und die methodologischen Herausforderungen, die Ansprüche an ein Korpus natürlicher Sprachdaten mit dem Wunsch nach vergleichbaren Daten in Einklang zu bringen. Schließlich skizzieren wir mögliche Untersuchungsansätze auf der Grundlage von PECII anhand einer laufenden Studie zur Sanktionierung von Fehlverhalten in verschiedenen Aktivitätskontexten. Zukünftig soll PECII der wissenschaftlichen Öffentlichkeit als Ressource fur die sprach- und kulturvergleichende Untersuchung sprachlichen Handelns in der sozialen Interaktion zur Verfügung stehen.
Als Band 12 der Reihe „Studien Deutsch als Fremd- und Zweitsprache“ des Erich Schmidt Verlags ist 2021 Junhong Lis Dissertation mit dem Haupttitel „Aber-Relationen“ erschienen. Wie der Untertitel „Vorkommen und Funktion in DaF-Lehrwerken für Fortgeschrittene und in wissenschaftlichen Texten“ verrät, geht es in dieser Arbeit um eine gewinnbringende Untersuchung der Distribution des Konnektors aber mit Hinblick auf die Optimierung des DaF-Unterrichts. Für die Zwecke der Arbeit werden zwei Korpora aufgebaut: Das erste Korpus (Korpus 1) enthält 551 Belege aus wissenschaftlicher Literatur zum Fach Deutsch als Fremdsprache (161 f.). Das zweite Korpus (Korpus 2) besteht aus 849 Belegen aus 11 DaF-Lehrwerken für erwachsene, fortgeschrittene Deutschlernende (162 ff.).
Blogg Dir deinen Urlaub nach Tunesien! Zur Erläuterung des Musters [VImp PROPReflexivDat NPAkk]
(2020)
In diesem Beitrag soll das Muster [VImp PROPReflexivDat NPAkk] semantisch und syntaktisch erläutert werden. Dieses Muster, das semantisch mit Verben des Erwerbens wie anschaffen korreliert, wird auch im Zusammenhang mit Kommunikationsverben wie bloggen und facebooken sowie mit dem Kontaktverb rubbeln belegt. Mithilfe des Konzeptes der Koerzion bzw. der semantischen Anpassung soll das Kovorkommen des erwänhten Musters mit diesen Verben beschrieben und erklärt werden. Als empirische Quelle dient das Korpus für das Deutsche 2012 und 2014 aus den Corpora from the Web. Die vorliegende Untersuchung ist im Rahmen meiner Dissertationsarbeit zum Thema Argumentstruktur und Bedeutung medialer Kommunikationsverben des Deutschen und des Spanischen im Sprachvergleich durchgeführt worden.
Der Beitrag illustriert die Nutzung des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für interaktionslinguistische Fragestellungen anhand einer exemplarischen Studie. Zunächst werden die Stratifikation (Datenkomposition) des Korpus, das zugrundeliegende Datenmodell und dessen Annotationsebenen sowie Typen von Untersuchungsinteressen vorgestellt, für die das Korpus nutzbar ist. Im Hauptteil wird Schritt für Schritt anhand einer Studie zur Verwendung des Formats was heißt X in der sozialen Interaktion gezeigt, wie mit FOLK relevante Daten gefunden und analysiert werden können. Abschließend weisen wir auf einige Vorsichtsmaßnahmen bei der Benutzung des Korpus hin.
Das Deutsche Referenzkorpus DeReKo dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DeReKo und seine Verwendungsmöglichkeiten sowie einen Einblick in seine strategische Gesamtkonzeption, die zum Ziel hat, DeReKo trotz begrenzter Ressourcen für einerseits möglichst viele und andererseits auch für innovative und anspruchsvolle Anwendungen nutzbar zu machen. Insbesondere erläutern wir dabei Strategien zur Aufbereitung sehr großer Korpora mit notwendigerweise heuristischen Verfahren und Herausforderungen, die sich auf dem Weg zur linguistischen Erschließung solcher Korpora stellen.
Vorwort
(2023)
Die in diesem Band versammelten Beiträge zur Jahrestagung 2022 des Instituts für Deutsche Sprache geben einen Überblick zu aktuellen Entwicklungen der Erschließung und Nutzung von Korpora in der germanistischen Linguistik und darüber hinaus. Dabei steht im Vordergrund, wie bekannte und neue Korpora für die Untersuchung verschiedenster linguistischer Fragestellungen, z.B. der Lexikografie, der Gesprächsforschung, des Spracherwerbs oder der historischen Sprachwissenschaft, genutzt werden können.
Im Einzelnen geht es um:
- Korpusangebote und Korpusdesign
- Software für die Arbeit mit Korpora
- Korpusaufbereitung
- den Zusammenhang von Korpusaufbereitung und Forschungsfragestellungen
- ethisch-rechtliche Aspekte der Arbeit mit Korpora
- Anwendungs- und Nutzungsmöglichkeiten von Korpora
Diese Fragen werden im Kontext wissenschaftstheoretischer Überlegungen zur Frage des Nutzens von Korpora für die linguistische Erkenntnisbildung behandelt. Es werden dabei sowohl klassische Schrift- und Tonkorpora, als auch Korpora mit Daten aus anderen Medialitäten (Video und Social Media) vorgestellt. Eine weitere Dimension sind Vergleichskorpora mehrerer Sprachen oder Medialitäten (mündlich vs. schriftlich) sowie diachrone (Vergleichs-)Korpora und der Blick auf nicht-deutschsprachige Korpusangebote.
In diesem Beitrag beschäftigen wir uns mit moralisierenden Sprachhandlungen, worunter wir diskursstrategische Verfahren verstehen, in denen die Beschreibung von Streitfragen und erforderlichen Handlungen mit moralischen Begriffen enggeführt werden. Auf moralische Werte verweisendes Vokabular (wie beispielsweise „Freiheit“, „Sicherheit“ oder „Glaubwürdigkeit“) wird dabei verwendet, um eine Forderung durchzusetzen, die auf diese Weise unhintergehbar erscheint und keiner weiteren Begründung oder Rechtfertigung bedarf. Im Fokus unserer Betrachtungen steht dementsprechend das aus pragma-linguistischer Sicht auffällige Phänomen einer spezifischen Redepraxis der Letztbegründung oder Unhintergehbarkeit, die wir als Pragmem auffassen und beschreiben. Hierfür skizzieren wir zunächst den in der linguistischen Pragmatik verorteten Zugang zu Praktiken der Moralisierung, betrachten sprachliche Formen des Moralisierens und deren kotextuellen und insbesondere pragma-syntaktischen Struktureinbettungen, um anschließend Hypothesen zu kontextuellen Wirkungsfunktionen aufzustellen. Darauf basierend leiten wir schließlich anhand von exemplarischen Korpusbelegen Strukturmuster des Moralisierens ab, die wir in dem Terminus „Pragmem“ verdichten und mittels qualitativer und quantitativer Analysen operationalisieren.
Das Theonym Gott für den christlichen Gott weist im Frühneuhochdeutschen eine Reihe ungewöhnlicher grammatischer Eigenschaften auf, die in diesem Beitrag korpusbasiert untersucht werden. Zum einen hat es sich von seiner appellativischen Herkunft emanzipiert, wie beispielsweise am fehlenden Artikel deutlich wird, zum anderen nutzt es aber das für einen Namen ungewöhnliche es-Flexiv im Genitiv (Pauls, Gottes) und tritt, wie unbelebte Appellative, als Genitivattribut dominant nachgestellt auf (Haus __ Gottes). In der Schreibung bildet sich die Doppelmajuskel <GOtt> heraus, die es bis ins 18. Jh. visuell von der übrigen Lexik abhebt. Damit weist das Theonym im Frühneuhochdeutschen eine Sondergrammatik auf, in abgeschwächter Form besteht sie bis heute fort. Der Beitrag argumentiert dafür, dass es sich um ein Resultat besonderer kommunikativer Relevanz handelt.
Die Rolle der antizipatorischen Verstehensdokumentation erweist sich in den Interviews aus dem Israelkorpus m. E. als besonders wichtig. Es wird von der Tatsache ausgegangen, dass es sich bei den Informanten um Personen mit besonders delikaten biographischen Hintergründen handele. Die Interviewerinnen müssen demzufolge mit der starken emotionalen Belastung rechnen, der die Interviewten während der Rekonstruktion ihrer Lebensgeschichte ausgesetzt sind. Ein sehr direkter Frage-Antwort-Stil könnte wegen dieser emotionalen Belastung als unangenehm empfunden werden. Der Einsatz von Verfahren antizipatorischer Verstehensdokumentation weist stattdessen m. E. eindeutig darauf hin, wie sich die Interviewerinnen offensichtlich um Empathie bemühen und im Sinne einer intersubjektiven Inreraktionskonstitution mit den Interviewten kooperieren. Ziel dieses Beitrages ist es zu zeigen, wie solche Verfahren der antizipatorischen Verstehensdokumentation durch den systematischen Einsatz der Konnektoren und, also, dann realisiert werden können.
Eine korpuslinguistische Untersuchung mit umfassender Analyse der häufiger vorkommenenden Adverbbildungsmuster des Deutschen legt nahe, dass die Sättigung des internen Argumentplatzes eines ursprünglich relationalen Ausdrucks eine wichtige Rolle bei der Adverbproduktion spielt (Brandt 2020). Eine genauere Betrachtung der Unterschiede zwischen -ermaßen- vs. -erweise-Adverbien deutet auf eine grammatische Unterscheidung zwischen Satzadverbien und Adverbien der Art und Weise: Im Fall von -ermaßen erfolgt die Sättigung über Token-Reflexivität, während der interne Slot von -erweise- Bildungen über häufigere und möglicherweise expansive Mechanismen geschlossen wird. Darüber hinaus fördert die pleonastische Qualität von Bildungen auf der Basis gerundivaler Partizipien die Produktivität von -erweise Adverbien.
Der Artikel präsentiert eine Untersuchung zur Häufigkeit und funktionalen Vielfalt der deutschen Partikel ja in einem Korpus 22 monomodaler Dialoge junger Frauen. Vor dem Hintergrund früherer Untersuchungen wird auf Grundlage einer umfangreichen, homogenen Stichprobe das komplexe kommunikative Verwendungsspektrum der Partikel dargestellt. Außerdem wird die Adäquatheit bisheriger funktionaler Aufschlüsselungen vor dem Hintergrund wenig oder gar nicht beschriebener Funktionaler Varianten diskutiert.
Korpora sind – als idealerweise digital verfüg- und auswertbare Sammlungen von Texten – eine wertvolle empirische Grundlage linguistischer Studien. Eigene Korpora aufzubauen ist, je nach Sprachausschnitt, mit unterschiedlichen Herausforderungen verbunden. Zu allen Texten sollten Metadaten zu den Textentstehungsbedingungen (Zeit, Quelle usw.) erhoben werden, um diese als Variablen in Auswertungen einbeziehen zu können. Andere Informationen wie etwa die Themenzugehörigkeit (oder Annotationen auch unterhalb der Textebene) sind auch hilfreich, in vielerlei Hinsicht aber schwieriger pauschal taxonomisch vorzugeben, geschweige denn, operationell zu ermitteln. Jenseits der »materiellen« Verfügbarkeit der Texte und der technischen Aufbereitung sind es das Urheberrecht, vor allem Lizenz- bzw. Nutzungsrechte, sowie ethische Verantwortung und Persönlichkeitsrechte, die beachtet werden müssen, auch um zu gewährleisten, dass die Daten für die Reproduktion der Studien Dritten rechtssicher zugänglich gemacht werden dürfen. Bevor für ein Vorhaben ein neues Korpus aufgebaut wird, sollte deshalb am besten geprüft werden, ob nicht ein geeignetes bereits zur Verfügung steht. Wenn ein Korpus aufgebaut wird, sollte für eine nachhaltige Aufbewahrung und Zugänglichmachung gesorgt und die Existenz an geeigneter Stelle dokumentiert werden.
Auch Linguist*innen, die gesprochene Sprache untersuchen, kommen schon seit längerem nicht mehr ohne digitale Infrastrukturen aus. Seit Beginn der Gesprochene-Sprache-Forschung werden Gespräche aufgezeichnet und anschließend transkribiert, da die flüchtigen, innerhalb von Bruchteilen von Sekunden stattfindenden Feinheiten des Gesprochenen paradoxerweise nur durch Verschriftung im Detail untersucht werden können. Diese Detailuntersuchungen beschränkten sich im vergangenen Jahrhundert meist auf wenige Einzelbelege für ein untersuchtes Phänomen. Das heißt, die Forschenden hatten den unmittelbaren Überblick über ihre Datenkollektionen und benötigten keine elaborierten digitalen Methoden zu deren Aufbereitung, Annotation und Analyse. Dies hat sich in den letzten beiden Jahrzehnten stark geändert: Es wurden vermehrt gezielt große Datenmengen gesammelt, in Datenbanken organisiert und der Forschungsgemeinschaft zur Nutzung zur Verfügung gestellt. An erster Stelle muss hier das Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK) genannt werden (vgl. Schmidt 2014). Dieses wird seit 2008 am Leibniz-Institut für Deutsche Sprache (IDS) aufgebaut und ist heute das größte Referenzkorpus für das gesprochene Deutsch.
In a recent article, Meylan and Griffiths (Meylan & Griffiths, 2021, henceforth, M&G) focus their attention on the significant methodological challenges that can arise when using large-scale linguistic corpora. To this end, M&G revisit a well-known result of Piantadosi, Tily, and Gibson (2011, henceforth, PT&G) who argue that average information content is a better predictor of word length than word frequency. We applaud M&G who conducted a very important study that should be read by any researcher interested in working with large-scale corpora. The fact that M&G mostly failed to find clear evidence in favor of PT&G's main finding motivated us to test PT&G's idea on a subset of the largest archive of German language texts designed for linguistic research, the German Reference Corpus consisting of ∼43 billion words. We only find very little support for the primary data point reported by PT&G.
Transkriptionswerkzeuge sind spezialisierte Softwaretools für die Transkription und Annotation von Audio- oder Videoaufzeichnungen gesprochener Sprache. Dieses Kapitel erklärt einleitend, worin der zusätzliche Nutzen solcher Werkzeuge gegenüber einfacher Textverarbeitungssoftware liegt, und gibt dann einen Überblick über grundlegende Prinzipien und einige weitverbreitete Tools dieser Art. Am Beispiel der Editoren FOLKER und OrthoNormal wird schließlich der praktische Einsatz zweier Werkzeuge in den Arbeitsabläufen eines Korpusprojekts illustriert.
Gegenstand des Beitrags sind korpuslinguistische Zugänge zur Variation im Auftreten des Fugenelements in Komposita aus zwei Nomen (Arbeit I s I weg). Die qualitative Vorstudie zeigt, dass die Verfügung nach Erstglied auf Vokal (Bühne I n I spiel, See I ufer) entgegen manchen Hinweisen aus bisherigen Korpusuntersuchungen sehr weitgehend linguistisch systematisierbar ist. Die Hauptstudie fokussiert dann die sehr variable Verfügung nach Erstglied auf Konsonant (Arbeit I s I weg vs. Heimat I art). Sie modelliert statistisch den Einfluss von Größen, deren Bedeutung in der bisherigen Forschung nur angenommen, aber nicht überprüft werden konnte. Dabei führt sie auch neue Einflussgrößen ein und gibt deutliche Hinweise darauf, dass die Variation in größerem Ausmaß als bisher vermutet einzelfallspezifisch geregelt ist.
In diesem Kapitel stellen wir zunächst grundlegende Konzepte von Abfragesystemen und Abfragesprachen für die Suche in Korpora vor. Diese Konzepte sollen Ihnen helfen, die einzelnen Abfragesprachen besser zu verstehen und vergleichen zu können. Die gängigen Abfragesprachen unterscheiden sich in vielen Details. Diese Details und die Möglichkeiten und Grenzen der einzelnen Abfragesprachen stellen wir im zweiten Teil mit vielen Beispielaufgaben und dazu passenden Lösungen in jeweils drei Abfragesprachen vor.
Korpora gesprochener Sprache
(2022)
Korpora gesprochener Sprache bestehen aus Audio- oder Videoaufnahmen sprachlicher Produktionen, die über eine Transkription einer linguistischen Analyse zugänglich gemacht werden. Sie kommen zur Untersuchung unterschiedlichster sprachwissenschaftlicher Fragestellungen unter anderem in der Gesprächsforschung, der Dialektologie und der Phonetik zum Einsatz. Dieser Beitrag diskutiert die wichtigsten Eigenschaften von Korpora gesprochener Sprache und stellt einige Vertreter der verschiedenen Kategorien vor.
Dieses Kapitel gibt einen Überblick über Korpora internetbasierter Kommunikation, die als digitale Ressourcen frei zur Verfügung stehen und für eigene linguistische Forschungsarbeiten genutzt werden können. In Abschnitt 1 erläutern wir korpuslinguistische Basiskonzepte, die für die Arbeit mit Korpora internetbasierter Kommunikation benötigt werden, und präzisieren die Sprachgebrauchsdomäne Internetbasierte Kommunikation, die den Gegenstand des hier beschriebenen Ressourcentyps bildet. Abschnitt 2 gibt einen Überblick zu existierenden Korpusressourcen für das Deutsche und stellt ausgewählte Korpora zu weiteren europäischen Sprachen vor. In Abschnitt 3 geben wir abschließend einen kurzen Einblick in aktuelle Forschungsfelder, die sich im Bereich der Korpuslinguistik und Sprachtechnologie in Bezug auf den Aufbau und die Aufbereitung von Korpora internetbasierter Kommunikation stellen.
Diese Fallstudie untersucht die quantitative Verteilung von direkten und nicht-direkten Formen von Redewiedergabe im Vergleich zwischen zwei Literaturtypen: Hochliteratur - definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen - und Heftromanen - massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden. Die Studie geht von manuell annotierten Daten aus und überprüft daran die Verlässlichkeit automatischer Annotationswerkzeuge, die im Anschluss eingesetzt werden, um eine Untersuchung von insgesamt 250 Volltexten durchzuführen. Es kann nachgewiesen werden, dass sich die Literaturtypen sowie auch unterschiedliche Genres von Heftromanen hinsichtlich der verwendeten Wiedergabeformen unterscheiden.
Daten und Metadaten
(2022)
In diesem Kapitel werden Metadaten als Daten definiert, die der Dokumentation und/oder Beschreibung empirischer Sprachdaten dienen. Einleitend werden die verschiedenen Funktionen von Metadaten im Forschungsprozess und ihre Bedeutung für die Konzepte der Ausgewogenheit und Repräsentativität diskutiert. Anhand des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) werden dann Metadaten eines konkreten Korpus vorgestellt, und es wird gezeigt, wie diese bei Korpusanalysen zum Einsatz kommen.
Gesprochene Lernerkorpora: Methodisch-technische Aspekte der Erhebung, Erschließung und Nutzung
(2022)
This article provides an overview of methodological and technical issues that arise in the collection, indexing and use of spoken learner corpora, i. e. corpora containing spoken utterances of learners of a target language. After an introductory discussion of the most important special features of this type of corpus that distinguish it from written language learner corpora and spoken corpora with L1 speakers, we will go into more detail on questions of corpus design. The main part of the paper is then an overview of the methodological and technical procedures of the individual steps of collecting, indexing, providing and using spoken learner corpora. The main aim of this overview is to highlight practices that can be considered best practices according to the current state of research. Finally, we outline the challenges that still exist for this type of corpus.
Dieses Kapitel befasst sich mit dem Zusammenspiel von Raum und Interaktion und konzentriert sich auf die dynamischen Organisationsformen sozialer Handlungen unter Berücksichtigung verbaler und sichtbarer Ressourcen. Durch die Untersuchung eines spezifischen Settings – professionelle Interaktionen in einem Radiostudio – werden wir empirisch beschreiben und konzeptualisieren, wie ein gebauter bzw. stark architekturierter Raum im Rahmen institutioneller Praktiken genutzt und relevant gesetzt wird. So soll zu aktuellen Überlegungen zu Interaktionsraum und -architektur, zu Raum als Ressource sowie als materiellem Umfeld beigetragen werden. Unsere ethnomethodologische und konversationsanalytische Perspektive wird von aktuellen Debatten über den sogenannten spatial turn in der interaktionalen Forschung beeinflusst (Kap. 1.1). Auf Grundlage eines in einem Radiostudio erstellten Videokorpus (Kap. 1.2) wird zunächst die Verbindung zwischen einem architektonisch und technologisch komplexen Umfeld und dem interaktionalen Handeln der Teilnehmer skizziert (Kap. 2.1, Kap. 2.2). Es folgt die detaillierte Analyse eines Einzelfalls (Kap. 3), in dem die Radiomoderatoren einen Text für den nächsten Sendeabschnitt vorbereiten. Hier werden die räumlichen Charakteristika sichtbar, die bei der Arbeit nach und nach relevant gesetzt werden (Kap. 4).
Im Corona-Diskurs prallen völlig unterschiedliche Meinungen und Positionen zur Rolle des Staates aufeinander. Die Studie untersucht diese Positionen mit korpuslinguistischen Methoden anhand der Berichterstattung von Medien und Kommentaren von Leserinnen und Lesern in der Deutschschweiz. Dabei werden auch rechte und Corona-skeptische Plattformen in die Analyse einbezogen. Grundlage des korpuspragmatischen Zugangs ist die Berechnung und Interpretation von Word Embeddings, einer Methode zur Modellierung von semantischen Räumen. Es zeigt sich, wie sich im Diskurs inkommensurable Semantiken entwickeln.
Faltungen: Die Schließung des rechten Kommunikationssystems aus korpuspragmatischer Perspektive
(2022)
Der Beitrag untersucht linguistische Prozesse, die bei der operativen Schließung politischer Kommunikationssysteme wirksam sind. Am Beispiel rechter Online-Medien während der sogenannten europäischen Flüchtlingskrise werden Praktiken der Umsemantisierung identifiziert und daraufhin befragt, wie sie an der rekursiven Organisation des rechten Kommunikationssystems mitwirken. Anhand von Aggregationen und Subjektprädikativen werden Prozesse der Umkonfigurierung konventioneller begrifflicher Relationen illustriert. Für (Um-)Semantisierungen, die zur operativen Schließung von Kommunikationssystemen beitragen, wird der Begriff der Faltung entwickelt.
Der Beitrag behandelt methodische Fragen der Korpuspragmatik im Bereich der politischen Sprache am Beispiel sprachlicher Praktiken der Moralisierung im Deutschen Bundestag. Wir stellen einen Ansatz zur Erarbeitung pragmatischer Strukturmuster – ,Pragmeme‘ – des Moralisierens vor, der auf kollaborativer Annotation basiert. Den Datensatz bildet das linguistisch aufbereitete Korpus der Plenarprotokolle des Deutschen Bundestags 1949–2017. Zur Eruierung geeigneter Beobachtungspassagen wurde ein Thesaurus von Moralwörtern erarbeitet und deren Verteilung gemessen. Dadurch haben sich drei Beobachtungsperioden für Pilotkorpora ergeben: 1949, 1983 und 2015. In diesen Beobachtungsperioden wurden Zufallsstichproben von Sätzen mit Moralwörtern gezogen und annotiert. Im Beitrag stellen wir die einzelnen Schritte und vorläufigen Ergebnisse des Projekts vor und diskutieren Möglichkeiten und Grenzen des Verfahrens.
Der Beitrag untersucht korpuspragmatisch am Beispiel der Präpositionalphrasen mit gegen Varianten der Gegenwehr in der Zeit des Nationalsozialismus. Im Vordergrund stehen Flugblätter, Programmschriften und Zeitungsartikel, die unter den Bedingungen von Verfolgung, Exil oder Desertation kollaborativ verfasst wurden. Eine Spur zu diesen Dokumenten, die die Heterogenität und die Konfliktlinien des Widerstands auf Textebene widerspiegeln, legt die Korpusauswertung mithilfe der soziopragmatischen Annotationen aus dem Paderborner HetWik-Projekt. Methodisch werden gegen-Phrasen anhand ihrer Füllerprofile und Kollokatoren einzelnen Handlungsmustern zugeordnet. Im Ergebnis zeigt sich der Solidarisierungseffekt von situativ verfestigten Kollokationen sowie eine (selbst)kritische Reflexion von NS-Feindschaften.
In diesem Beitrag steht die sprachliche Konstitution von Eigengruppen und mit diesen assoziierten Partnergruppen im Vordergrund, deren zentrale Sprachgebrauchsmuster gezeigt werden. Der Beitrag basiert auf Auswertungen der im Projekt „Heterogene Widerkulturen: Sprachliche Praktiken des Sich-Widersetzens von 1933 bis 1945“ erstellten manuellen, soziopragmatisch orientierten Annotationen von 140 Widerstandstexten sowie auf korpuslinguistischen Auswertungen des Gesamtkorpus (554 Texte). Es soll gezeigt werden, dass eine linguistische Auseinandersetzung mit dem Gegenstand Ergebnisse der Widerstandsgeschichte produktiv vertiefen kann. So lässt allein schon die Betrachtung des pronominalen Referierens Schlüsse auf die sozialkulturelle Bindung der Widerstandsakteur/-innen zu.
Forschungskontext
(2022)
Die folgenden Beiträge von Heidrun Kämper, Britt-Marie Schuster, Nicole Wilk, Friedrich Markewitz, Mark Dang-Anh und Stefan Scholl stehen im Kontext zweier von der DFG geförderter Forschungsprojekte, die unter dem Gesichtspunkt einer sprachlichen Sozialgeschichte 1933 bis 1945 – als Tandemprojekte – seit 2018 von Britt-Marie Schuster, Nicole Wilk und Friedrich Markewitz in Paderborn und von Mark Dang-Anh, Stefan Scholl und Heidrun Kämper am IDS realisiert werden. Es sind jeweils Dreijahresprojekte, die 2021 abgeschlossen werden. Zur Einordnung der genannten Beiträge soll zuvor kurz in die Projektkonzeption eingeführt und ein Überblick über die Forschungsgegenstände gegeben werden.
Das Archiv für Gesprochenes Deutsch und das Forschungs- und Lehrkorpus für Gesprochenes Deutsch
(2022)
Der Beitrag stellt das Archiv für Gesprochenes Deutsch (AGD) und das
Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK) als Ressourcen für die sprachwissenschaftliche Forschung vor. Besonderes Augenmerk liegt dabei auf deren Potenzial für die sprachwissenschaftliche Forschung zu Sprachgebrauch in Gesellschaft und Politik.
This paper investigates the long-term diachronic development of the perfect and preterite tenses in German and provides a novel analysis by supplementing Reichenbach’s (1947) classical theory of tense by the notion of underspecification. Based on a newly compiled parallel corpus spanning the entire documented history of German, we show that the development in question is cyclic: It starts out with only one tense form (preterite) compatible with both current relevance and narrative past readings in (early) Old High German and, via three intermediate stages, arrives at only one tense form again (perfect) compatible with the same readings in modern Upper German dialects. We propose that in order to capture all attested stages we must allow tenses to be unspecified for R (reference time), with R merely being inferred pragmatically. We then propose that the transitions between the different stages can be explained by the interplay between semantics and pragmatics.
Sprache ist politisch, und politisches Handeln vollzieht sich nie ohne Sprache. Sprachgebrauch bzw. sprachliches Handeln stehen dabei in einer unauflösbaren Wechselbeziehung mit der gesellschaftlich-politischen Wirklichkeit. Diese Wechselbeziehung aus verschiedenen Perspektiven zu analysieren, ist das Ziel der in diesem Band versammelten Beiträge, mit denen die Jahrestagung 2021 des Leibniz-Instituts für Deutsche Sprache dokumentiert wird. Dabei geht es nicht zuletzt um die gesellschaftliche Verantwortung, die die Sprachwissenschaft – wie alle Sozialwissenschaften – hat. Diese Verantwortung besteht darin zu zeigen, welche Rolle und Funktion Sprache im gesellschaftlich-politischen Kontext zukommt. Mit diesem Anspruch bekommen Themen aus dem Bereich Sprache, Politik und Gesellschaft sowohl gegenwarts- als auch vergangenheitsbezogen eine neue Relevanz. Der Zugang ist dabei dezidiert transdisziplinär, neben der Linguistik sind insbesondere auch die Politologie und die Geschichtswissenschaft beteiligt.
In this paper, we present an overview of freely available web applications providing online access to spoken language corpora. We explore and discuss various solutions with which the corpus providers and corpus platform developers address the needs of researchers who are working with spoken language. The paper aims to contribute to the long-overdue exchange and discussion of methods and best practices in the design of online access to spoken language corpora.
When searching large electronic corpora of the German language, one finds variation at structurally critical points of the grammatical system. Two examples from the grammar of the noun phrase show that in certain cases this variation helps to ensure the function of a standard language, so that a certain amount of variation belongs to a realistic idea of a standard language. This is shown on the one hand by techniques of expanding the central adjective vocabulary and on the other hand by the choice of morphological alternatives in the area between determiners and attributive adjectives
This paper investigates the use of linking adverbs in adversative constructions in German and Italian. In Italian those constructions are very frequently formulated with adverbs such as invece, while wordings without a lexical connective are more typical of German. Corpus data show that the syntactic und semantic conditions favouring the use of adversative adverbs are by and large the same in both languages. Lexical connectives can increase explicitness when the intended adversative interpretation is not obvious on other grounds. The higher frequency of adversative adverbs in Italian is shown to be a consequence of the more restrictive rules of the placement of prosodic accent.
The project “Paronymwörterbuch” investigates and documents easily confused words (so-called paronyms) in German with respect to their use in public discourse as documented in a large corpus. These are, for example, antik/antiquiert/antiquarisch (antique/antiquated/antiquarian) or sportlich/sportiv (sporty/athletic). The results of this work are explanatory, contrastive entries in a new dynamic e-dictionary called “Paronyme − Dynamisch im Kontrast”. The objective of this paper is twofold. Firstly, essential new usage modalities of the new dictionary will be illustrated. As it is designed for contrastive consultation processes, the comparative structure of the entries will be elucidated and we will show how this dictionary has moved away from static to dynamic presentation by incorporating flexible consultation options. Secondly, as entries contain linguistic details which are consistently paired up with conceptual-encyclopaedic information, it is shown how this reference guide combines corpus-based methods with cognitive semantics. In this way, linguistic findings correlate better with how users conceptualise language by adequately reflecting ideas such as conceptual structure, categorisation and knowledge. Consequently, appropriate contrastive corpus tools and methods are employed. This paper also emphasises the need of semiotic approaches to the analysis of linguistic data in order to provide ostensive and cognitive-oriented lexical explanations. Such approaches are also necessary to guarantee an efficient pairwise investigation of paronyms. Advantages and disadvantages of explorative self-organising feature maps will be explained in more detail.
Am Leibniz-Institut für Deutsche Sprache (IDS) wurde im Programmbereich „Lexikografie und Sprachdokumentation“ ein neuartiges Wörterbuch entwickelt, das leicht verwechselbare Ausdrücke in ihrem aktuellen öffentlichen Sprachgebrauch deskriptiv beschreibt. Im Jahr 2018 erschien das elektronische Nachschlagewerk „Paronyme – Dynamisch im Kontrast“, das sich durch folgende drei Aspekte auszeichnet:
1) Erstens liegen mehrstufige kontrastive Beschreibungsebenen und flexible Darstellungsformen vor;
2) zweitens sind die Bedeutungserläuterungen kognitiv-konzeptuell angelegt, um einer langen Forderung nach einer stärker kognitiv ausgerichteten Lexikografie Rechnung zu tragen;
3) drittens werden Datengrundlagen und Analysemethoden genutzt, mit denen umfassend Paronyme ermittelt und diese anschließend erstmals empirisch ausgewertet werden konnten.
Die Dokumentation und Untersuchung deutscher Sprachinselvarietäten war schon immer eine der wichtigsten Aufgaben der germanistischen Sprachwissenschaft. Mittlerweile stellt sich aber immer öfter die Frage der Nachhaltigkeit der erhobenen Spachinseldaten. Insbesondere in Bezug auf die vom Sprachtod bedrohten Varietäten, wie z.B. im Fall der russlanddeutschen Dialekte aus den noch intakten Sprachinseln der ehemaligen Sowjetunion, ist es äußerst wichtig, die existierenden Audioaufnahmen systematisch und dauerhaft zu archivieren. Aber nicht nur die Archivierung, sondern auch der freie und unkomplizierte Zugang zu diesen Materialien ist ein wesentlicher Aspekt im Konzept der Nachhaltigkeit. Wie sollte dieser Zugang aber gestaltet sein und in welcher Form sollen die Daten präsentiert werden? Auf genau diese Frage ist das Projekt „Elektronisches Wörterbuch. Ein Online-Informationsangebot zu Sprache und Dialekten der Russlanddeutschen" eingegangen. In diesem Projekt wurden historische Tonaufnahmen russlanddeutscher Dialekte linguistisch aufbereitet und in Form einer strukturierten Russlanddeutschen Dialektdatenbank (RuDiDat) online veröffentlicht. Diese Datenbank ist frei verfügbar und ermöglicht die Recherche im Korpus des Russlanddeutschen. Der vorliegende Beitrag stellt die Datenbank vor und thematisiert Herausforderungen, die durch unterschiedliche Ausprägungsformen des Russlanddeutschen entstehen könnten, wenn man die im Internet freigegebenen Sprachinseldaten für vergleichende Analysen heranzieht.
Early New High German N+N compounds are notoriously difficult to identify. This is mostly due to formally similar or identical pronominal genitive constructions. Furthermore, what looks like a noun at first glance might sometimes be an affixoid, an adjective or a verb stem. The precise identification of compounds is not only relevant for researchers concerned with word-formation. It has consequences for corpus lemmatisation, lexicography and our understanding of the noun phrase, to name just a few areas. Compound identification has been tackled before (mostly by Pavlov [1983] and NITTA [1987]), but modern corpus linguistics allows for a better assessment of all factors involved. This paper reevaluates and outlines strategies to identify Early New High German compounds, aiming to serve as an easily adaptable guideline for future research.
The main aim of this contribution is to present the range of lexicographic information from LeGeDe, an electronic prototype for lexical and interactional features of spoken German. The focus lies on the detailed description of the different lexicographical information classes using illustrative examples and figures from the resource. In addition to highlighting the lexicographic microstructure and providing an overview of the outer texts and the multimedia information offer, the contribution also presents detailed background data on the conception of the LeGeDe resource. Innovative aspects and possible applications are outlined and forward-looking desiderata are offered.
In this paper, the basic assumptions are presented against the background of the development of a corpus-based method to determine suitable headword candidates for the LeGeDe-prototype (LeGeDe= Lexik des gesprochenen Deutsch), a lexicographical resource on spoken German. In a first quantitatively oriented step, potential one-word headword candidates are identified with the help of frequency class comparisons from a corpus for spoken (FOLK) and a subset from a corpus for written German (DEREKO). Qualitative analyses based on a project-specifically defined sample of data from the FOLK corpus lead to multi-word headword candidates. The results of the qualitative analyses were also compared with the results of studies from the research literature as well as (quantitative-orientated) bi- and trigram analyses. In their multi-word form, these candidates are particularly characterized by the fact that they assume a very special interactional function in the (authentic) interaction and have to be described as a whole unit. The paper explains this combined procedure, which was extracted in the LeGeDe-project for the appointment of headword candidates.
Die LeGeDe-Ressource: korpusbasierte lexikografische Einblicke und anwendungsorientierte Ausblicke
(2021)
Der Beitrag stellt die lexikografische Online-Ressource LeGeDe, den ersten korpusbasierten Prototypen für Besonderheiten der Lexik des Deutschen in der Interaktion vor. Dabei werden sowohl die Herausforderungen an das innovative Projekt thematisiert als auch Möglichkeiten für einen anwendungsorientierten Nutzen im DaF- und DaZ-Bereich diskutiert und als Ausblick Desiderata für die weitere Beschäftigung mit der lexikografischen Kodifizierung gesprochensprachlicher Spezifika des Deutschen aufgezeigt.
Das ZDL-Regionalkorpus umfasst Zeitungsartikel aus Lokal- und Regionalressorts deutschsprachiger Tageszeitungen. Es dient als empirische Grundlage für die lexikografische Beschreibung der diatopischen Variation im Digitalen Wörterbuch der deutschen Sprache (DWDS). Darüber hinaus steht es allen angemeldeten Nutzern der DWDS-Korpusplattform für die Recherche zur Verfügung. Die Abfrage kann auf bestimmte diatopische Areale oder diachrone Zeiträume beschränkt werden. Die Verteilung der Treffer über Areale und Zeiträume lässt sich in verschiedener Form darstellen; dabei werden neben absoluten Trefferzahlen auch normalisierte PPM-Werte ausgegeben.
Das Projekt InterCorp startete 2005 in Prag mit dem Ziel ein mehrsprachiges Parallelkorpus für akademische Zwecke zu entwickeln. Prinzipiell ist InterCorp eine Reihe von einsprachigen Korpora mit synchronen Texten verschiedener Genres und stellt somit ein einmaliges Instrument für sowohl kontrastive als auch intrasprachliche Untersuchungen dar. Die meisten Parallelen sind auch lemmatisiert und morpho-syntaktisch annotiert, somit lassen sich auch rasch statistische Daten über die Texte abrufen.
Geeignete Such- und Visualisierungswerkzeuge, idealiter in Form von Webapplikationen, sind für den benutzerfreundlichen Zugang zu Sprachressourcen von großer Bedeutung. In diesem Beitrag stellen wir die Webapplikationen Rover und TüNDRA vor, die am CLARIN-D Zentrum Tübingen im Rahmen des BMBF-Projekts CLARIN-D entwickelt wurden.
Dieser Beitrag präsentiert die neue multilinguale Ressource CoMParS (Collection of Multilingual Parallel Sequences). CoMParS versteht sich als eine funktional-semantisch orientierte Datenbank von Parallelsequenzen des Deutschen und anderer europäischer Sprachen, in der alle Daten neben den sprachspezifischen und universellen (im Sinne von Universal Dependencies) morphosyntaktischen Annotationen auch nach sprachübergreifenden funktional-semantischen Informationen auf der neudefinierten Annotationsebene Functional Domains annotiert und auf mehreren Ebenen (auch ebenenübergreifend) miteinander verlinkt sind. CoMParS wird in TEI P5 XML kodiert und sowohl als monolinguale wie auch als multilinguale Sprachressource modelliert.