Refine
Year of publication
Document Type
- Part of a Book (268)
- Conference Proceeding (50)
- Book (35)
- Article (32)
- Working Paper (8)
- Other (7)
- Review (3)
- Preprint (1)
Keywords
- Korpus <Linguistik> (404) (remove)
Publicationstate
- Veröffentlichungsversion (238)
- Zweitveröffentlichung (146)
- Postprint (31)
- Erstveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (404) (remove)
Publisher
- de Gruyter (115)
- Narr (41)
- Institut für Deutsche Sprache (19)
- Narr Francke Attempto (18)
- Heidelberg University Publishing (13)
- Leibniz-Institut für Deutsche Sprache (IDS) (13)
- Stauffenburg (8)
- Lang (7)
- Wilhelm Fink (7)
- Winter (7)
In diesem Beitrag beschäftigen wir uns mit moralisierenden Sprachhandlungen, worunter wir diskursstrategische Verfahren verstehen, in denen die Beschreibung von Streitfragen und erforderlichen Handlungen mit moralischen Begriffen enggeführt werden. Auf moralische Werte verweisendes Vokabular (wie beispielsweise „Freiheit“, „Sicherheit“ oder „Glaubwürdigkeit“) wird dabei verwendet, um eine Forderung durchzusetzen, die auf diese Weise unhintergehbar erscheint und keiner weiteren Begründung oder Rechtfertigung bedarf. Im Fokus unserer Betrachtungen steht dementsprechend das aus pragma-linguistischer Sicht auffällige Phänomen einer spezifischen Redepraxis der Letztbegründung oder Unhintergehbarkeit, die wir als Pragmem auffassen und beschreiben. Hierfür skizzieren wir zunächst den in der linguistischen Pragmatik verorteten Zugang zu Praktiken der Moralisierung, betrachten sprachliche Formen des Moralisierens und deren strukturelle Einbettung in den Satz oder den Text (also kotextuelle und pragmasyntaktischen Struktureinbettungen), um anschließend Hypothesen zu kontextuellen Wirkungsfunktionen aufzustellen. Darauf basierend leiten wir schließlich anhand von exemplarischen Korpusbelegen Strukturmuster des Moralisierens ab, die wir in dem philosophisch-linguistischen Fachterminus ‚Pragmem‘ verdichten und mittels qualitativer und quantitativer Analysen operationalisieren.
Die gesprächsanalytische Studie untersucht Gespräche im Spannungsfeld von institutioneller und interkultureller Kommunikation. Dazu werden Interaktionen zwischen deutschen Polizeibeamten und Immigranten, die nicht über muttersprachliche Kenntnisse des Deutschen verfügen, in natürlichen Zeugen- und Beschuldigtenvernehmungen sowie Erst-Kontakt-Situationen an der Anmeldung der Polizeiinspektion analysiert. Die Interaktionen werden zum einen auf institutioneller Ebene hinsichtlich der Asymmetrien sowie dem Umgang der Beteiligten mit den für die Institution typischen Schemata untersucht. Zum anderen rücken auf interkultureller Ebene die Verstehenssicherung und kulturbedingte Kommunikationsstörungen in den Fokus. Dabei zeigt sich, dass die Klienten teilweise über ein (kulturell) anderes Rahmenwissen verfügen und sich daher Divergenzen hinsichtlich des Verständnisses des Kommunikationstyps ‚Vernehmung‘ zwischen Beamten und Klienten auftun.
The project Referenzkorpus Altdeutsch (‘Old German Reference Corpus’) aims to es- tablish a deeply-annotated text corpus of all extant Old German texts. As the automated part-of-speech and morphological pre-annotation is amended by hand, a quality control system for the results seems a desirable objective. To this end, standardized inflectional forms, generated using the morphological information, are compared with the attested word forms. Their creation is described by way of example for the Old High German part of the corpus. As is shown, in a few cases, some features of the attested word forms are also required in order to determine as exactly as possible the shape of the inflected lemma form to be created.
The availability of electronic corpora of historical stages of languages has been wel- comed as possibly attenuating the inherent problem of diachronic linguistics, i.e. that we only have access to what has chanced to come down to us - the problem which was memorably named by Labov (1992) as one of “Bad Data”. However, such corpora can only give us access to an increased amount ot historical material and this can essentially still only be a partial and possibly distorted picture of the actual language at a particular period of history. Corpora can be improved by taking a more representative sample of extant texts if these are available (as they are in significant number for periods after the invention of printing). But, as examples from the recently compiled GerManC corpus of seventeenth and eighteenth century German show, the evidence from such corpora can still fail to yield definitive answers to our questions about earlier stages of a language. The data still require expert interpretation, and it is important to be realistic about what can legitimately be expected from an electronic historical corpus.
Multi-faceted alignment. Toward automatic detection of textual similarity in Gospel-derived texts
(2015)
Ancient Germanic Bible-derived texts stand in as test material for producing computational means for automatically determining where textual contamination and linguistic interference have influenced the translation process. This paper reports on the results of research efforts that produced a text corpus; a method for decomposing the texts involved into smaller, more directly comparable thematically-related chunks; a database of relationships between these chunks; and a user-interface allowing for searches based on various referential criteria. Finally, the state of the product at the end of the project is discussed, namely as it was handed over to another researcher who has extended it to automatically find semantic and syntactic similarities within comparable chunks.
In this paper we present some preliminary considerations concerning the possibility of automatic parsing an annotated corpus for N-N compounds. This should in prin- ciple be possible at least for relational and stereotype compounds, if the lemmatization of the corpus connects the lemmata with lexical entries as described in Höhle (1982). These lexical entries then supply the necessary information about the argument structure of a relational noun or about the stereotypical purpose associated with the noun’s referent which can be used to establish a relation between the first and the head constituent of the compound.
The relative order of dative and accusative objects in older German is less free than it is today. The reason for this could be that speakers of the direct predecessor of Old High German organized the referents according to the Thematic Hierarchy. If one applies a Case Hierarchy Nom>Acc>Dat to this, the order Nom - Dat - Acc falls out. It becomes apparent that the status of the Thematic Hierarchy is not a factor governing underlying word order, but a factor inducing scrambling. Arguments from binding theory, whose validity is discussed, indicate that the underlying order is ‘accusative before dative’
GraphVar ist ein Korpus aus über 1.600 Abiturarbeiten, die zwischen 1917 und 2018 an einem niedersächsischen Gymnasium geschrieben wurden. Das Hauptinteresse beim Aufbau bestand in der Beschreibung graphematischer Variation und ihrer Entwicklung über die Zeit. Leitend war die Frage, was Schreiberinnen und Schreiber eigentlich tatsächlich machen bzw. gemacht haben – und zwar unbeeinflusst von technischen Hilfsmitteln oder Schluss- und Endredaktion, aber unter vergleichbaren Bedingungen. Das Korpus bietet somit ein Fenster auf den unverfälschten Schreibgebrauch von Abiturientinnen und Abiturienten im Laufe der Zeit. Zum jetzigen Zeitpunkt sind 1.618 Arbeiten transkribiert, linguistisch annotiert und über eine ANNIS-Instanz erreichbar (graphvar.unibonn.de, Stand: 8.8.2023). Im Sommer 2022 konnten weitere 1.600 Arbeiten zwischen 1900 und 2021 an einem Gymnasium in Nordrhein-Westfalen digitalisiert werden. Neben schriftlinguistischen Fragestellungen ist das Korpus prinzipiell auch für syntaktische, morphologische und lexikalische Fragestellungen geeignet; auch didaktische Untersuchungen sind möglich, genau wie kulturwissenschaftliche.
Exploration und statistisch valide Analysen annotierter Textkorpora helfen bei der induktiven Aufdeckung systematischer Schreibgebrauchsmuster. Umgekehrt lassen sich – deduktiv – Vorgaben der kodifizierten Norm (amtliches Regelwerk) quantitativ überprüfen. Wir präsentieren eine Methodik für die empirisch informierte Beschreibung orthografisch motivierter Phänomene, gehen auf prototypische Fälle ein und werfen ein Schlaglicht auf Fallstricke der Korpusnutzung für die Orthografieforschung. Abschließend skizzieren wir Funktionen und Wirkungsweisen aggregierender Visualisierungen für die Forschungskommunikation am Beispiel des amtlichen Wörterverzeichnisses.
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
Diese Monografie setzt sich neu mit Laiengedanken zur deutschen Sprache auseinander. Mit einem kleinen, aber aussagekräftigen Korpus von rund 480 schriftlichen Äußerungen muttersprachlicher und nichtmuttersprachlicher Laien zwischen 1992 und 2023 fokussiert sie sich durch viele Detailanalysen erstens auf Themen, die Laien bewegen, zweitens auf Argumente, die Laien zur Bekräftigung ihrer Ansichten anführen, und drittens auf Ausdruckstopoi, mit denen Laien argumentieren.
Die Monografie ist Ideengeber vor allem für linguistische, soziolinguistische, psychologische und gesellschaftspolitische Projekte zum Laiendiskurs im öffentlichen Raum, speziell für Projekte zu brisanten, aktuell heftig diskutierten Themen wie Antirassismus und Gendern, für Projekte zu Anglizismen, für Projekte zu Sprachwandel, Sprachverfall, Sprachpflege und Sprachpurismus, für Projekte zu Jugendsprache und Generation sowie für Projekte zur Sprache als Herrschaftsinstrument.
Das Beispiel ist seit der Antike ein zentraler Gegenstand der abendländischen Diskussion. In dieser ersten umfassenden Monographie zur Linguistik des Beispiels wird deshalb eine interdisziplinäre Perspektive entfaltet, in der Ansätze aus Rhetorik, Philosophie, Pädagogik und Psychologie sowie linguistischen Ansätze zur Beispielforschung behandelt werden. Die sprachwissenschaftliche Beschäftigung mit Beispielen blieb bisher jedoch ein Randphänomen, obwohl Praktiken der Beispielverwendung in der Alltagskommunikation allgegenwärtig sind.
Orientiert an ›grounded theory‹, linguistischer Hermeneutik und Handlungssemantik wird hier ein Beispielbegriff erarbeitet, demzufolge das Beispielverwenden eine komplexe Form sprachlichen Handelns und eine fundamentale menschliche Denkbewegung darstellt, die darin besteht, einen Konnex zwischen Besonderem und Allgemeinem zu konstituieren. Hierauf basierend werden Beispiele anhand eines umfangreichen Korpus von Gesprächsdaten analysiert und kommunikative Muster, sprachliche Realisierungsformen sowie Funktionen des Beispielverwendens in der Interaktion herausgearbeitet.
Dieser Beitrag beschreibt die Prozesse der Datenerhebung, -aufbereitung und geplanten Veröffentlichung eines Teilkorpus des vom österreichischen Wissenschaftsfonds (FWF) finanzierten Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation – Kontakt – Perzeption“ (FWF F060). Die Daten werden v. a. aus variationslinguistischer, kontaktlinguistischer wie auch perzeptionslinguistischer Perspektive analysiert, wofür eigene Tools entwickelt wurden, die – ebenso wie das Korpus selbst – mittelfristig der interessierten Öffentlichkeit zur Verfügung gestellt werden.
Der Beitrag skizziert die Genese und Komplexität des Konzepts ‚Usuelle Wortverbindung‘ (UWV) vor dem Hintergrund der korpuslinguistischen Wende. Die Möglichkeit, sprachliche Massendaten untersuchen zu können, erbrachte neue Einsichten in Hinblick auf Status, Form, Funktion, Festigkeit und Variabilität dieser zentralen Wortschatzeinheiten – gleichzeitig aber auch in Hinblick auf ihre Unschärfen und vielfachen Überlappungen. Eine der folgenreichsten Erkenntnisse ist, dass UWVs auf vorgeprägten Schemata und Mustern basieren und in ein komplexes Netz von Ausdrücken ähnlicher Art eingebettet sind. Für die Aneignung sprachlichen Wissens ist das Verstehen solcher primär funktionalen Musterbildungen elementar.
Einleitung
(2023)
Das Werk versteht sich als eine Darstellung der wichtigsten syntaktischen, prosodischen, semantischen und pragmatischen Eigenschaften kausaler und konditionaler Konnektoren des gesprochenen Deutsch.
Die Untersuchung formuliert notwendige theoretische Grundlagen und zeigt die komplexe Interaktion mehrerer Faktoren, die sich auf die Interpretation einer Äußerung auswirken. Empirische Daten belegen, dass die kontextuelle und pragmatische Interpretation der untersuchten Relationen stark mit ihren syntaktischen und prosodischen Mustern korreliert. Jedoch handelt es sich nicht um eine Eins-zu-eins-Beziehung, denn gleiche Lesarten können von kausalen und konditionalen Relationen unterschiedlich markiert sein. Anhand der Ergebnisse wird das Verhältnis zwischen Konditionalität und Kausalität diskutiert.
Speech islands are historically and developmentally unique and will inevitably disappear within the next decades. We urgently need to preserve their remains and exploit what is left in order to make research on language-in-contact and historical as well as current comparative language research possible.
The Archive for Spoken German (AGD) at the Institute for German Language collects, fosters and archives data from completed research projects and makes them available to the wider research community.
Besides large variation corpora and corpora of conversational speech, the archive already contains a range of collections of data on German speech minorities. The latter will be outlined in this chapter. Some speech island data is already made available through the personal service of the AGD, or the database of spoken German (DGD), e.g. data on Australian German, Unserdeutsch, or German in North America. Some corpora are still being prepared for publication, but still important to document for potentially interested research projects. We therefore also explain the current problems and efforts related to the curation of speech island data, from the digitization of recordings and the collection of metadata, to the integration of transcriptions, annotations and other ways of accessing and sharing data.
Gerd Hentschel gehört zu den Pionieren der heutigen Computerlexikografie und der IT-gestützten Korpuserschließung. Eine seiner ersten Zeitschriftenpublikationen, mit dem Titel Einsatz von EDV und Mikrocomputer in einem lexikographischen Forschungsprojekt zum deutschen Lehnwort im Polnischen (Hentschel 1983), befasst sich mit der Frage, wie - unter den damaligen technischen Vorzeichen - Forschungs- und Dokumentationsarbeiten zu polnischen Germanismen sinnvoll durch die Verwendung von Computern unterstützt werden können. Die besagten Arbeiten mündeten später in die Online-Publikation des Wörterbuchs der deutschen Lehnwörter in der polnischen Schrift- und Standardsprache (WDLP). Es ist aus heutiger Sicht bemerkenswert, mit welchen Beschränkungen die Arbeit mit dem Computer noch vor 40 Jahren zu kämpfen hatte. Aus gegebenem Anlass sei es gestattet, diesen Punkt etwas ausführlicher zu illustrieren.
Dieser Beitrag stellt den Aufbau eines multimodalen Korpus zur Erforschung des Deutschen als Minderheitssprache in Argentinien vor (DiA). In dem sich im Aufbau befindlichen DiA-Korpus werden die heutige wie auch die historische Situation mit multimodalen (mündlichen, schriftlichen und visuellen) Datensätzen repräsentiert, die mit entsprechenden methodischen Zugängen erfasst wurden und werden. Dazu gehören fragebogengeleitete Interviews (mündliches Medium), Briefe und elizitierte Schriftzeugnisse (geschriebenes Medium) sowie Linguistic-Landscape-Bilddaten (visuelles Medium). In diesem Beitrag wird zunächst ein Überblick über die Forschungssituation zum Deutschen als Minderheitensprache in Argentinien gegeben. Kern des Beitrags ist dann die Vorstellung der Korpusstruktur und des Vorgehens beim Korpusaufbau sowie die Darstellung von Auswertungspotentialen des Datenfundus auf systemischer, soziolinguistischer, sprachideologischer und kontaktlinguistischer Ebene. Eine Methodenreflexion rundet den Beitrag ab.
This study explores the interdependence of qualitative and quantitative analysis in articulating empirically plausible and theoretically coherent generalizations about grammatical structure. I will show that the use of large electronic corpora is indispensable to the grammarian's work, serving as a rich source of semantic and contextual information, which turns out to be crucial in categorizing and explaining grammatical forms. These general concerns are illustrated by the patterns of use of Czech relative clauses (RC) with the non-declinable relativizer co, by taking a set of existing claims about these RCs and testing their accuracy on corpus material. The relevant analytic categories revolve around the referential type of the relativized noun, the interaction between relativization and deixis, and the semantic relationship between the relativized noun and the proposition expressed by the RC. The analysis demonstrates that some of the existing claims are fully invalid in the face of regularly attested semantic distinctions, while others are more or less on the right track but often not comprehensive or precise enough to capture the full richness of the facts. 1
Conversation is usually considered to be grammatically simple, while academic writing is often claimed to be structurally complex, associated primarily with a greater use of dependent clauses. Our goal in the present paper is to challenge these stereotypes, based on the results of large-scale corpus investigations. We argue that both conversation and professional academic writing are grammatically complex but that their complexities are dramatically different. Surprisingly, the traditional view that complexity is realized through extensive clausal embedding leads to the conclusion that conversation is more complex than academic writing. In contrast, written academic discourse is actually much more ‘compressed’ than elaborated, and the complexities of academic writing are realized mostly as phrasal embedding rather than embedded clauses.
Nachdem die Erforschung der Wortbildungsregularitäten des Deutschen in den zentralen Bereichen zu erheblichen Fortschritten und weithin konsensfähigen Ergebnissen geführt hat, wendet sich die Forschung in den letzten Jahren verstärkt neuen Aspekten zu, wobei textlinguistische und in verschiedener Weise anwendungsorientierte Fragen eine erhebliche Rolle spielen, daneben aber auch andere, häufig theoriespezifischere Herangehensweisen gewählt werden. Wie viele andere Bereiche der Sprachwissenschaft hat sich auch die Wortbildungsforschung mit der neuen Möglichkeit auseinanderzusetzen, elektronische Korpora als empirische Basis zu nutzen.
Der Band dokumentiert die Ergebnisse der Tagung zur Wortbildung an der Universität Santiago de Compostela im Sommer 2006, und gerade bei einer transnationalen - und im Gefolge auch germanistisch-hispanistisch transdisziplinären - Tagung liegt es nahe, die typologisch vergleichenden Aspekte zu betonen, die ebenfalls in letzter Zeit erheblich an Bedeutung gewonnen haben. Mit der Schwerpunktsetzung auf den (deutsch-spanischen) Vergleich, auf textuelle und auf am Bereich DaF anwendungsorientierte Fragestellungen ergänzen die im vorliegenden Band dokumentierten Ergebnisse dieser Tagung die derzeit wieder recht lebhafte Diskussion um Fragen der Wortbildung.
Anders als bei Sonntagspredigten haben die katholischen und evangelischen AutorInnen von Kirche in 1live nur 90 Sekunden zur Verfügung, um ihre christliche Botschaft zu vermitteln. Vorliegender Beitrag untersucht, wie die katholischen und evangelischen AutorInnen dies tun. Welche Inhalte erachten sie für relevant? Welche sprachliche Gestaltung wählen sie? Greifen katholische und evangelische AutorInnen zu den gleichen Inhalten und sprachlichen Mitteln oder zeigen sich konfessionelle Präferenzen und Differenzen? Diesen Fragen soll an einem Korpus aus Kirche in 1live-Radiopredigten aus den Jahren 2012 bis 2021 (= 2.755 Texte mit insgesamt 726.570 Token) mit einem quantitativen und qualitativen Methoden-Mix nachgegangen werden. Die Studie wird im Rahmen des DFG-Projekts „Sprache und Konfession 500 Jahre nach der Reformation“ am Germanistischen Institut der Westfälischen Wilhelms-Universität Münster durchgeführt.
The landscape of digital lexical resources is often characterized by dedicated local portals and proprietary interfaces as primary access points for scholars and the interested public. In addition, legal and technical restrictions are potential issues that can make it difficult to efficiently query and use these valuable resources. As part of the research data consortium Text+, solutions for the storage and provision of digital language resources are being developed and provided in the context of the unified cross-domain German research data infrastructure NFDI. The specific topic of accessing lexical resources in a diverse and heterogenous landscape with a variety of participating institutions and established technical solutions is met with the development of the federated search and query framework LexFCS. The LexFCS extends the established CLARIN Federated Content Search that already allows accessing spatially distributed text corpora using a common specification of technical interfaces, data formats, and query languages. This paper describes the current state of development of the LexFCS, gives an insight into its technical details, and provides an outlook on its future development.
Sprachanfragen als authentische Primärdaten bergen Erkenntnispotenziale für eine große Bandbreite linguistischer und transferwissenschaftlicher Forschungsfragen und Methoden. Der Beitrag skizziert diese Potenziale und legt dabei den Fokus auf wissenschaftskommunikative Prozesse im Austausch linguistischer Laien und Experten. Anhand erster Ergebnisse einer empirischen korpusgestützten Untersuchung von ca. 50.000 Sprachanfragen wird skizziert, welche Erkenntnisse aus diesen Daten für die Vermittlung von Sprachwissen in einer zunehmend digitalisierten und vernetzten Gesellschaft gewonnen werden können.
Metadaten zu Gesprächen und den beteiligten Sprecher/-innen enthalten Informationen, die für die Beschreibung, Erschließung und Analyse von Korpora wichtig sind. Bisher werden sie jedoch in der Konversationsanalyse und der Interaktionalen Linguistik so gut wie nicht genutzt. Dieser Beitrag zeigt exemplarisch, wie Metadaten des Gesprächskorpus „Forschungs- und Lehrkorpus Gesprochenes Deutsch“ (FOLK) im Rahmen einer interaktionslinguistischen Untersuchung verwendet werden können, um Regularitäten der Verwendung einer untersuchten Gesprächspraktik zu identifizieren und ihren Zusammenhang mit den Eigenschaften von Aktivitäten und Sprecherrollen zu klären. In allgemeinerer Perspektive diskutiert der Beitrag, wie und an welchen Stellen einer interaktionslinguistischen Untersuchung Metadaten von Nutzen sein können und wie ihr Stellenwert im Rahmen dieser Methodologie kritisch reflektiert werden muss.
Filtern, Explorieren, Vergleichen: neue Zugriffsstrukturen und instruktive Potenziale von OWIDplus
(2023)
OWIDplus, das Zusatzangebot zur Wörterbuchplattform OWID, vereint verschiedenste lexikalische Datenbanken, Korpustools und visuell aufbereitete Analysen, die mithilfe von Textsuche und Kategorienfiltern so sortiert werden können, dass Benutzer*innen leicht die für sie interessanten Projekte entdecken können. Eine tiefergehende Beschäftigung mit den Einzelprojekten zeigt, wie bei aller oberflächlicher Ähnlichkeit oder gemeinsamen Themenbereichen ganz unterschiedliche methodische Zugänge zu sprachlichen Daten gewählt worden sind und wie Methodik und Forschungsfrage stets aufeinander abgestimmt werden müssen. Die Vielzahl potenzieller Forschungsfragen führt so unweigerlich zu einer Diversität von Projekten und somit einer Heterogenität, die, so hoffen die Autor*innen, in OWIDplus greifbar wird.
Die sprachlichen Auffälligkeiten, die in Gedichten zu beobachten sind, haben immer wieder Anlass zu verschiedenen Versionen der Abweichungstheorie gegeben, derzufolge die in Gedichten verwendete Sprache von nicht-lyrischer Sprache abweicht. Expressionistische Lyrik ist insbesondere für ihre argumentstrukturellen Innovationen bekannt. Auf der Basis eines Korpus expressionistischer Gedichte wird eine Übersicht über diese Auffälligkeiten gegeben, die die Grundlage für weitere Studien darstellen soll, in denen zu zeigen sein wird, inwieweit unter bestimmten grammatiktheoretischen Annahmen die Abweichungstheorie zurückgewiesen werden kann.
This paper presents the IVK-Ler corpus, a longitudinal, annotated learner corpus of weekly writings produced by a group of 18 adolescents in a preparatory class. The corpus consists of 117 student texts collected between 2020 and 2021 and has a structure layered by student and text number. It includes metadata that enables researchers to analyze and track individual student progress in terms of syntactic competence and literacy. The annotation schema, manual and automatic annotation processes, and corpus representation are described in detail. The corpus currently includes target hypotheses and gold standard part-of-speech tags. Future work could include additional annotation layers for topological fields and dependency relations, as well as semantic and discourse annotations to make the corpus usable for tasks beyond syntactic evaluations.
Der vorliegende Beitrag beschreibt, wie die Verfügbarkeit digitaler Textkorpora den Wandel von einer systemorientierten hin zu einer gebrauchsorientierten Sprachforschung ermöglicht hat. Doch die korpusbasierte Beschreibung des Sprachgebrauchs kann nur so realistisch sein wie die Korpora, mit denen sie arbeitet. Deshalb ist es von großer Bedeutung, auch besondere Textsorten zu berücksichtigen und Herangehensweisen zu entwickeln, das dafür nötige Vertrauen bei den Datenspendern zu erzeugen. Im Zentrum des Beitrags steht deshalb die Diskussion von einigen derartigen Textsorten und den Herausforderungen, die sich mit ihnen in Hinsicht auf den Korpusaufbau verbinden. Der Beitrag endet mit einem Ausblick auf das Forum Deutsche Sprache, das einen solchen Ort des Vertrauens für Spracherhebungen bieten möchte.
Einleitung
(2023)
Der Beitrag betrachtet das Deutsche Referenzkorpus DeReKo in Bezug auf Strategien für seinen Ausbau, den Zugriff über die Korpusanalyseplattform KorAP und seine Einbettung in Forschungsinfrastrukturen und in die deutschsprachige und europäische Korpuslandschaft. Ausgehend von dieser Bestandsaufnahme werden Perspektiven zu seiner Weiterentwicklung aufgezeigt. Zu den Zukunftsvisionen gehören die Verteilung von Korpussressourcen und die Konstruktion multilingualer vergleichbarer Korpora anhand der Bestände der National- und Referenzkorpora, eine Plattform zur Abgabe und Aufbereitung von Sprachspenden als eine Anwendung von Citizen Science sowie eine Komponente zur automatischen Identifikation von übersetzten bzw. maschinenverfassten Texten.
In unserem Beitrag widmen wir uns dem Einsatz von Sprachkorpora für den Kontext
Deutsch als Fremdsprache (DaF), wobei wir unterschiedliche Ressourcen und Anwendungsbereiche beleuchten. Ziel des Beitrags ist es, exemplarisch Korpora für den DaF-Kontext vorzustellen, sowie deren Potenziale beispielhaft herauszustellen. Zu den vorgestellten Ressourcen zählen Lernerkorpora für Deutsch als Zielsprache, Spezial- und Fachkorpora, Vergleichskorpora sowie Korpora der gesprochenen Sprache und Wörterbuchressourcen. Mit Blick auf die unterschiedlichen Korpora und deren Spezifika loten wir lohnende Perspektiven und Anknüpfungspunkte für Forschung und Didaktik aus und geben Hinweise zur vertiefenden Auseinandersetzung.
Die Arbeit mit digitalen Daten und empirischen Methoden hat die Möglichkeiten intersubjektiv nachprüfbarer Forschung und Theoriebildung in der Linguistik wie in kaum einer anderen geisteswissenschaftlichen Disziplin verändert. Der Linguistik steht heute eine beeindruckende Anzahl hochwertiger Korpusressourcen zur Verfügung, um Fragestellungen ausgehend vom tatsächlichen Sprachgebrauch in gesprochener und geschriebener Sprache zu bearbeiten und Hypothesen datengestützt zu überprüfen.
Dieser Band bietet Einblicke in Grundlagenfragen, aktuelle Forschungsarbeiten und Entwicklungen im Bereich der korpusgestützten Sprachanalyse – von den theoretischen Grundlagen über die Beschreibung einzelner Korpora und Werkzeuge bis hin zu korpusgestützten Fallstudien und zum Einsatz von Korpora in Lehre und Unterricht. Die 25 Beiträge reflektieren den Stand der gegenwärtigen Forschung und sind nicht nur für Expertinnen und Experten, sondern auch für fortgeschrittene Studierende der Linguistik mit einschlägigem fachlichen Interesse verständlich.
Das KOLLokationsLEXikon Deutsch als Fremdsprache (KOLLEX DAF) ist ein
- korpusgestütztes Kollokationswörterbuch, da es typische Wortverbindungen, sog. Kollokationen und häufige Wortkombinationen nach bestimmten Kategorien mit ihren ungarischen Äquivalenten auflistet (Stichwort mit SUBSTANTIVEN, ADJEKTIVEN, VERBEN und ADVERBIEN bzw. in KOMBINATIONEN),
- syntagmatisches Lernerwörterbuch, da es außer Kollokationen auch die Valenz der Stichwörter und die der Kollokationen und Wortkombinationen angibt, ergänzt mit pragmatischen und morphosyntaktischen Verwendungsbeschränkungen sowie ggf. mit einem Symbol für mögliche Fehlerquellen,
- benutzerfreundliches Produktionswörterbuch, da es alle deutschen Wortverbindungen in blauer Farbe und in klar strukturierten Wörterbuchartikeln mit einem Übersichtsblock zu den Bedeutungen des Stichwortes auflistet, aber auch die Sprachrezeption mit einem umfangreichen Register unterstützt.
Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.
This article sketches the development of paronym dictionaries in German. These dictionaries document and describe commonly confused words which cause uncertainties because they are similar in sound, spelling and/or meaning (e.g. effektiv/effizient, sportlich/sportiv). First, an overview of existing reference guides is provided, covering different traditions. Numerous lemma lists have been collected for pedagogical purposes and there has always been an interest in the lexicological treatment of paronyms. However, only a handful of dictionaries covering commonly confused pairs and a small number of genuine paronym dictionaries have ever been compiled. I will focus on lexicographic endeavours, including Wustmann (1891), Müller (1973) and Pollmann and Wolk (2001). Secondly, I will shed light on the differences in descriptions in these dictionaries. This includes how prescriptive approaches have been replaced over time by empirical descriptive accounts and how dictionaries have moved away from restricted, static hardback editions towards dynamic e-dictionaries. Finally, an e-dictionary, “Paronyme — Dynamisch im Kontrast”, is presented with contrastive and flexible two-level consultation views. Its three key elements are its corpus-based foundation, the implementation of meta-lexicographic requirements and a consideration of users’ interests. This dictionary has implemented a user-friendly and dynamic interface and it records conventionalized patterns and preferences in authentic communication.
This paper deals with a specific type of lexeme, namely binary preposition-noun combinations containing temporal references like am Ende [at (the) end] or für Sekunden [for seconds]. The main characteristic of these combinations is the recurrent internal zero gap. Despite the fact that the omission of the determiner can often be explained by grammatical rules, the zero gaps indicate a higher degree of lexicalization. Therefore, we interpret these expressions as minimal phraseological units with holistic meanings and functions. The corpusdriven exploration of typical context patterns (e.g. using collocation profiles and the lexpan slot filler analysis) shows that a) even such minimal expressions are based on semi-abstract schemes and b) temporal expressions can also fulfill modal or discursive functions, usually with fuzzy borders and overlapping structures. In the case of modalization or pragmatization one can regard such PNs as distinct lexicon entries.
Seit der Forschung große Datenmengen und Rechenkapazitäten zur Verfügung stehen arbeitet auch die Sprachwissenschaft zunehmend datengeleitet. Datengeleitete Forschung geht nicht von einer Hypothese aus, sondern sucht nach statistischen Auffälligkeiten in den Daten. Sprache wird dabei oft stark vereinfacht als lineare Abfolge von Wörtern betrachtet. Diese Studie zeigt erstmals, wie der zusätzliche Einbezug syntaktischer Annotationen dabei hilft, sprachliche Strukturen des Deutschen besser zu erfassen.
Als Anwendungsbeispiel dient der Vergleich der Wissenschaftssprachen von Linguistik und Literaturwissenschaft. Die beiden Fächer werden oft als Teildisziplinen der Germanistik zusammengefasst. Ihre wissenschaftliche Praxis unterscheidet sich jedoch systematisch hinsichtlich Forschungsdaten, Methoden und Erkenntnisinteressen, was sich auch in den Wissenschaftssprachen niederschlägt.
Neue Entwicklungen in der Korpuslandschaft der Germanistik. Beiträge zur IDS-Methodenmesse 2022
(2023)
Die in diesem Band versammelten Beiträge zur Methodenmesse der Jahrestagung 2022 des Leibniz-Instituts für Deutsche Sprache geben einen Überblick über die aktuelle Korpuslandschaft in der germanistischen Linguistik: von historischen Sammlungen authentischer Sprachdaten über aktuelle Zeitungs- und Social-Media-Korpora, Gesprächskorpora, Korpora aus Texten von Deutschlernenden bis hin zu einem Korpus mit Texten leichter Sprache und einem Gebärdensprachekorpus. Die Beiträge erläutern jeweils die Designkriterien sowie die Methodik der Datenerhebung und geben einen Einblick, wie die Daten sprachwissenschaftlich verwendet werden können.
Dieser Aufsatz befasst sich mit pragmatischen Aspekten von Negationsanhebung (NA), die vor allem in Horn (1978) erörtert wurden, und mit performativischen Eigenschaften von NA-Konstruktionen, die ursprünglich in Prince (1976), vor allem mit Bezug auf französische Daten diskutiert wurden. Das Ziel ist, die Kernaussagen von Horn (1978) und Prince (1976) mit Korpusdaten im übereinzelsprachlichen Kontext zu validieren. Als Gegenstand der Untersuchung werden deutsche und polnische NA-Konstruktionen herangezogen und entsprechend zwei verschiedene monolinguale Korpora als Datenquelle benutzt.
This article details the process of creating the Nottinghamer Korpus deutscher YouTube-Sprache ('The Nottingham German YouTube Language Corpus' - or NottDeuYTSch corpus) and outlines potential research opportunities. The corpus was compiled to analyse the online language produced by young German-speakers and offers significant opportunity for in-depth research across several linguistic fields including lexis, morphology, syntax, orthography, and conversational and discursive analysis. The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, German-speaking demographic and represent an authentic language snapshot of young German speakers. The corpus was proportionally sampled based on video category and year from a database of 112 popular German-speaking YouTube channels in the DACH region for optimal representativeness and balance and contains a considerable amount of associated metadata for each comment that enable further longitudinal cross-sectional analyses. The NottDeuYTSch corpus is available for analysis as part of the German Reference Corpus (DeReKo).
Der Umgang mit längeren, komplexeren Redebeiträgen hat als Gegenstand der Mündlichkeitsdidaktik in Sprachvermittlung sowie Sprachbildung viel Aufmerksamkeit erfahren. Empirische Untersuchungen dazu, in welchen Sprachverwendungskontexten lange Redebeiträge in natürlichen Gesprächssituationen häufig vorkommen und damit die Fähigkeit, sie verstehen und produzieren zu können, eine Anforderung für Lernende bildet, stehen jedoch noch aus. Der Beitrag stellt eine explorative Studie auf der Basis des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) vor, die zeigt, wie durch korpuslinguistische Analysen anhand von Interaktionskorpora eine Beschreibung der Gebrauchsspezifika langer Redebeiträge für ein weites Spektrum an Gesprächskontexten gewonnen und damit eine Grundlage für die zielgruppenspezifische Vermittlung diskursiver Fähigkeiten im DaF/DaZ-Unterricht bereitgestellt werden kann.
Einleitung
(2023)
Dieser Beitrag gibt einen Überblick über die methodischen Ausgangspunkte des Projekts MIT. Qualität und stellt einige zentrale Erkenntnisse zur Modellbildung, der korpuslinguistischen Analyse und Akzeptabilitätserhebungen in der Sprachgemeinschaft vor. Wir zeigen dabei, wie bestehende Textqualitätsmodelle anhand einer Analyse einschlägiger Ratgeberliteratur erweitert werden können. Es wurden zwei empirische Fallstudien durchgeführt, die beide auf die Herstellung von textueller Kohärenz mittels des Kausalkonnektors weil fokussieren. Wir stellen zunächst eine korpuskontrastive Analyse vor. Weiterhin zeigen wir, wie man anhand verschiedener Aufgabenstellungen diverse Aspekte von Akzeptabilität in der Sprachgemeinschaft abprüfen kann.
In Dresden entsteht für den Forschungshub Digital Herrnhut der Pilot für ein agiles und multimodales Referenzkorpus der nächsten Generation (Nex-Gen Agile Reference Corpus (NARC)) in Zusammenarbeit mit der Sächsischen Landesbibliothek - Staats- und Universitätsbibliothek Dresden (SLUB). Dieses Korpus (N-ARC1) wird textliche, kartografische und audiovisuelle Quellen sowie weitere Artefakte fassen, die, miteinander vernetzt, als offene Forschungsdaten (teil-)maschinell angereichert werden können und in einer virtuellen Forschungsumgebung öffentlich und nachnutzbar zur Verfügung stehen sollen. Dafür bieten die Dokumente und Spuren der Herrnhuter Brüdergemeine - eine am Beginn des 18. Jahrhundert gegründete und in nur wenigen Jahrzehnten weltumspannende Glaubensgemeinschaft - einen idealen Ausgangspunkt. Im Beitrag werde ich exemplarisch an einigen ausgewählten Beispielen aus den Themenkreisen Datenerschließung, Datenstrukturierung, -erweiterung und -vernetzung zwischen akademischer Lehre, Forschung und bürgerwissenschaftlicher Beteiligung die Herausforderungen illustrieren, vor denen wir derzeit in der Umsetzung in Dresden stehen.
Die erfolgreiche Wiederverwendung gesprochener Korpora muss fachspezifischen Evaluationskritierien genügen und erfordert daher eine flexible Korpusarchitektur, die durch multirepräsentationale (Verfügbarkeit eines akustischen Signals und einer Transliteration) und multisituationale Daten (Variabilität von Situationen bzw. Aufgaben) gekennzeichnet ist. Diese Kriterien werden in einer Fallstudie zur /eː/-Diphthongisierung polnischer Deutschlerner/-innen angewendet und diskutiert. Die Fallstudie repliziert die Ergebnisse der /eː/-Diphthongisierung bei Bildbenennungen von Nimz (2016). Vor der Wiederverwendung werden weitere fachspezifische Evaluationskriterien überprüft, wie Multisituationalität, Aufnahmequalitäten, Erweiterbarkeit, vorhandene Metadaten und vorhandene Dokumentation. Nach der Replikationsstudie werden die Herausforderungen für eine Umsetzung der Wiederverwendung bezüglich Datenmanagement, Workflows und Data Literacy in Forschungs- und Lehrkontexten diskutiert.
Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.
Der Beitrag thematisiert den Zusammenhang von Korpusaufbereitung, Datenanreicherung und Nutzungsszenarien im Kontext des Discourse Lab, das an der TU Darmstadt und der Universität Heidelberg betrieben und in linguistischen und interdisziplinären Forschungs- und Lehrprojekten genutzt wird. Für die Diskursforschung sind Korpora genauso konstitutiv wie die Einbeziehung von Kontexten des Sprachgebrauchs in die Analyse. Daher ist die Frage nach Repräsentationsformaten von Kontexten besonders wichtig. Eine große Rolle bei der korpuslinguistischen Kontextualisierung spielen auch Annotationen. Das wird am Darmstädter-Tagblatt-Korpus, den Plenarprotokollen des Deutschen Bundestags und den Korpora der DFG-Forschungsgruppe Kontroverse Diskurse diskutiert.
Der Beitrag liefert einen Einblick in korpuslinguistische Projekte und Aktivitäten aus dem österreichischen Sprachraum. Der Fokus liegt auf zwei primär auf die Analyse gesprochener Sprache ausgerichteten Korpora (DiÖ-Korpus und WBÖ-Korpus) sowie auf dem medial wie konzeptionell schriftlich angelegten Austrian Media Corpus. Institutionell eingebettet sind die Korpora in den Spezialforschungsbereich „Deutsch in Österreich (DiÖ)“ sowie in die Aktivitäten des Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH) an der Österreichischen Akademie der Wissenschaften. Die theoretisch-methodologische Perspektive der Diskussion ist eine variationslinguistische, wobei sozio- und systemlinguistische Aspekte im Beitrag Berücksichtigung finden.
Dieser Beitrag stellt zwei Korpora vor, die als Datengrundlage für die Bestimmung der Regionalangaben im Digitalen Wörterbuch der deutschen Sprache (DWDS) fungieren: das ZDL-Regionalkorpus und das Webmonitor-Korpus. Diese Korpora wurden am Zentrum für digitale Lexikographie der deutschen Sprache (ZDL) erstellt und stehen allen registrierten Nutzern der DWDS-Plattform für Recherchen zur Verfügung. Das ZDL-Regionalkorpus enthält Artikel aus Lokal- und Regionalressorts deutscher Tageszeitungen, die mit arealen Metadaten versehen sind. Es wird ergänzt durch regionale Internet-Quellen im Webmonitor-Korpus, die zusätzliche Areale und Ortspunkte aus dem deutschen Sprachraum einbeziehen. Die Benutzerschnittstelle der linguistisch annotierten Korpora erlaubt nicht nur komplexe sprachliche Abfragen, sondern bietet auch statistische Recherchewerkzeuge zur Bestimmung arealer Verteilungen.
Das Korpus GeWiss (Gesprochene Wissenschaftssprache kontrastiv: Deutsch im Vergleich zum Englischen und Polnischen) bietet vielfältige Möglichkeiten zur Erforschung und Vermittlung der mündlichen Hochschulkommunikation. Mit den im Projekt ZuMult entwickelten Zugangswegen zu Korpora der gesprochenen Sprache eröffnen sich für einen deutlich größeren Personenkreis umfassende Nutzungsmöglichkeiten, die sowohl für sprachdidaktische Kontexte als auch für Forschungszwecke relevant sind. In diesem Beitrag wird eine Auswahl der in ZuMult geschaffenen Werkzeuge im Hinblick auf ihr Potenzial zur Arbeit mit den GeWiss-Daten vorgestellt. Im Anschluss wird anhand von expliziten sprachlichen Positionierungsmustern aufgezeigt, wie diese Korpustools für eine sprachdidaktisch orientierte empirische Untersuchung zu den Spezifika mündlicher Wissenschaftskommunikation genutzt werden können.
Die explorative Studie untersucht anhand von Korpusbelegen, in welchen Fällen satzförmige oder infinitivische propositionale Strukturen bedeutungserhaltend durch Nominalisierungen ersetzbar sind. Auf indirekte Weise soll so ein Zugang auch zur Bedeutung von propositionalen Strukturen selbst eröffnet werden. Die in der Literatur gängige These, dass nur bei einem Teil der Denotatsorten propositionaler Strukturen (von Ereignissen über Tatsachen bis zu ,rein abstrakten Objekten‘) Nominalisierung möglich sei, wird durch die Studie widerlegt. Damit stellt sich auch die Frage nach der Haltbarkeit der gängigen Fassung des Begriffs Proposition selbst. Die von Friederike Moltmann vertretene neue Sichtweise auf Propositionen scheint hingegen auch für Nominalisierungen eine Analyse ohne die bisher auftretenden Widersprüche zu ermöglichen.
Dieser Beitrag stellt ein neues, im Aufbau befindliches Parallelkorpus vor: Das ‚Parallel European Corpus of Informal Interaction‘ (PECII). Zunächst wird der Bedarf nach besser vergleichbaren Daten fur die sprachübergreifende Erforschung natürlichen sprachlichen Handelns in der sozialen Interaktion begründet. Wir diskutieren Fragen der Vergleichbarkeit von Episoden natürlicher sozialer Interaktion, und die methodologischen Herausforderungen, die Ansprüche an ein Korpus natürlicher Sprachdaten mit dem Wunsch nach vergleichbaren Daten in Einklang zu bringen. Schließlich skizzieren wir mögliche Untersuchungsansätze auf der Grundlage von PECII anhand einer laufenden Studie zur Sanktionierung von Fehlverhalten in verschiedenen Aktivitätskontexten. Zukünftig soll PECII der wissenschaftlichen Öffentlichkeit als Ressource fur die sprach- und kulturvergleichende Untersuchung sprachlichen Handelns in der sozialen Interaktion zur Verfügung stehen.
Als Band 12 der Reihe „Studien Deutsch als Fremd- und Zweitsprache“ des Erich Schmidt Verlags ist 2021 Junhong Lis Dissertation mit dem Haupttitel „Aber-Relationen“ erschienen. Wie der Untertitel „Vorkommen und Funktion in DaF-Lehrwerken für Fortgeschrittene und in wissenschaftlichen Texten“ verrät, geht es in dieser Arbeit um eine gewinnbringende Untersuchung der Distribution des Konnektors aber mit Hinblick auf die Optimierung des DaF-Unterrichts. Für die Zwecke der Arbeit werden zwei Korpora aufgebaut: Das erste Korpus (Korpus 1) enthält 551 Belege aus wissenschaftlicher Literatur zum Fach Deutsch als Fremdsprache (161 f.). Das zweite Korpus (Korpus 2) besteht aus 849 Belegen aus 11 DaF-Lehrwerken für erwachsene, fortgeschrittene Deutschlernende (162 ff.).
Blogg Dir deinen Urlaub nach Tunesien! Zur Erläuterung des Musters [VImp PROPReflexivDat NPAkk]
(2020)
In diesem Beitrag soll das Muster [VImp PROPReflexivDat NPAkk] semantisch und syntaktisch erläutert werden. Dieses Muster, das semantisch mit Verben des Erwerbens wie anschaffen korreliert, wird auch im Zusammenhang mit Kommunikationsverben wie bloggen und facebooken sowie mit dem Kontaktverb rubbeln belegt. Mithilfe des Konzeptes der Koerzion bzw. der semantischen Anpassung soll das Kovorkommen des erwänhten Musters mit diesen Verben beschrieben und erklärt werden. Als empirische Quelle dient das Korpus für das Deutsche 2012 und 2014 aus den Corpora from the Web. Die vorliegende Untersuchung ist im Rahmen meiner Dissertationsarbeit zum Thema Argumentstruktur und Bedeutung medialer Kommunikationsverben des Deutschen und des Spanischen im Sprachvergleich durchgeführt worden.
Diese Monografie setzt sich neu mit Sprachanfragen auseinander. Mit einem kleinen, aber aussagekräftigen Korpus von rund 300 schriftlichen Anfragen zwischen 1997 und 2022 fokussiert sie sich durch viele Detailanalysen auf den Charakter der Anfragenden und die Charakteristik der Anfragen: Wer sind die Anfragenden? Wen fragen sie? Wie fragen sie? Was fragen sie? Warum fragen sie? Und wie hängt all das zusammen?
Die Monografie versteht sich als Anregung vor allem für größer angelegte Studien mit einem größeren, repräsentativen Korpus. Darüber hinaus kann sie Ideengeber sein etwa für soziolinguistische Studien zur Persönlichkeit von Sprachanfragenden, für Studien zum Laiendiskurs über Sprache, zu muttersprachlichen versus nichtmuttersprachlichen Interessen oder zu angefragten Themen: Welche Aspekte der Themen werden erfragt; welche sind relevant, welche sind brisant?
Der Beitrag illustriert die Nutzung des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für interaktionslinguistische Fragestellungen anhand einer exemplarischen Studie. Zunächst werden die Stratifikation (Datenkomposition) des Korpus, das zugrundeliegende Datenmodell und dessen Annotationsebenen sowie Typen von Untersuchungsinteressen vorgestellt, für die das Korpus nutzbar ist. Im Hauptteil wird Schritt für Schritt anhand einer Studie zur Verwendung des Formats was heißt X in der sozialen Interaktion gezeigt, wie mit FOLK relevante Daten gefunden und analysiert werden können. Abschließend weisen wir auf einige Vorsichtsmaßnahmen bei der Benutzung des Korpus hin.
Das Deutsche Referenzkorpus DeReKo dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DeReKo und seine Verwendungsmöglichkeiten sowie einen Einblick in seine strategische Gesamtkonzeption, die zum Ziel hat, DeReKo trotz begrenzter Ressourcen für einerseits möglichst viele und andererseits auch für innovative und anspruchsvolle Anwendungen nutzbar zu machen. Insbesondere erläutern wir dabei Strategien zur Aufbereitung sehr großer Korpora mit notwendigerweise heuristischen Verfahren und Herausforderungen, die sich auf dem Weg zur linguistischen Erschließung solcher Korpora stellen.
Vorwort
(2023)
Die in diesem Band versammelten Beiträge zur Jahrestagung 2022 des Instituts für Deutsche Sprache geben einen Überblick zu aktuellen Entwicklungen der Erschließung und Nutzung von Korpora in der germanistischen Linguistik und darüber hinaus. Dabei steht im Vordergrund, wie bekannte und neue Korpora für die Untersuchung verschiedenster linguistischer Fragestellungen, z.B. der Lexikografie, der Gesprächsforschung, des Spracherwerbs oder der historischen Sprachwissenschaft, genutzt werden können.
Im Einzelnen geht es um:
- Korpusangebote und Korpusdesign
- Software für die Arbeit mit Korpora
- Korpusaufbereitung
- den Zusammenhang von Korpusaufbereitung und Forschungsfragestellungen
- ethisch-rechtliche Aspekte der Arbeit mit Korpora
- Anwendungs- und Nutzungsmöglichkeiten von Korpora
Diese Fragen werden im Kontext wissenschaftstheoretischer Überlegungen zur Frage des Nutzens von Korpora für die linguistische Erkenntnisbildung behandelt. Es werden dabei sowohl klassische Schrift- und Tonkorpora, als auch Korpora mit Daten aus anderen Medialitäten (Video und Social Media) vorgestellt. Eine weitere Dimension sind Vergleichskorpora mehrerer Sprachen oder Medialitäten (mündlich vs. schriftlich) sowie diachrone (Vergleichs-)Korpora und der Blick auf nicht-deutschsprachige Korpusangebote.
In der Korpuslinguistik und der Quantitativen Linguistik werden ganz verschiedenartige formale Maße verwendet, mit denen die Gebrauchshäufigkeit eines Wortes, eines Ausdrucks oder auch abstrakter oder komplexer sprachlicher Elemente in einem gegebenen Korpus gemessen und ggf. mit anderen Gebrauchshäufigkeiten verglichen werden kann. Im Folgenden soll für eine Auswahl dieser Maße (absolute Häufigkeit, relative Häufigkeit, Wahrscheinlichkeitsverteilung, Differenzenkoeffizient, Häufigkeitsklasse) zusammengefasst werden, wie sie definiert sind, welche Eigenschaften sie haben und unter welchen Bedingungen sie (sinnvoll) anwendbar und interpretierbar sind – dabei kann eine Rolle spielen, ob das Häufigkeitsmaß auf ein Korpus als Ganzes angewendet wird oder auf einzelne Teilkorpora. Zusätzlich zu den bei den einzelnen Häufigkeitsmaßen genannten Einschränkungen gilt generell der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt und je kleiner dieses Korpus ist, desto stärker hängt die beobachtete Gebrauchshäufigkeit des Wortes von zufälligen Faktoren ab, d.h., desto geringer ist die statistische Zuverlässigkeit der Beobachtung.
Das Theonym Gott für den christlichen Gott weist im Frühneuhochdeutschen eine Reihe ungewöhnlicher grammatischer Eigenschaften auf, die in diesem Beitrag korpusbasiert untersucht werden. Zum einen hat es sich von seiner appellativischen Herkunft emanzipiert, wie beispielsweise am fehlenden Artikel deutlich wird, zum anderen nutzt es aber das für einen Namen ungewöhnliche es-Flexiv im Genitiv (Pauls, Gottes) und tritt, wie unbelebte Appellative, als Genitivattribut dominant nachgestellt auf (Haus __ Gottes). In der Schreibung bildet sich die Doppelmajuskel <GOtt> heraus, die es bis ins 18. Jh. visuell von der übrigen Lexik abhebt. Damit weist das Theonym im Frühneuhochdeutschen eine Sondergrammatik auf, in abgeschwächter Form besteht sie bis heute fort. Der Beitrag argumentiert dafür, dass es sich um ein Resultat besonderer kommunikativer Relevanz handelt.
Dieses Buch schließt eine Lücke in der Konnektorenforschung, indem es den Gebrauch von Konnektoren im gesprochenen Deutsch untersucht. Die Fragestellung bringt Elemente aus dem traditionellen grammatischen Ansatz und aus der pragmatisch basierten Forschung zur gesprochenen Sprache zusammen. In Anlehnung an die Methode der Interaktionalen Linguistik analysiert der Autor den Gebrauch der Konjunktoren «und», «aber» und der Adverbkonnektoren «also», «dann» in zwei Korpora von autobiographischen Interviews. Die Untersuchung zeigt, wie Konnektoren zur Bewältigung von verschiedenartigen kommunikativen Aufgaben zur Stiftung von Intersubjektivität und zur Gesprächsorganisation eingesetzt werden können.
Die Rolle der antizipatorischen Verstehensdokumentation erweist sich in den Interviews aus dem Israelkorpus m. E. als besonders wichtig. Es wird von der Tatsache ausgegangen, dass es sich bei den Informanten um Personen mit besonders delikaten biographischen Hintergründen handele. Die Interviewerinnen müssen demzufolge mit der starken emotionalen Belastung rechnen, der die Interviewten während der Rekonstruktion ihrer Lebensgeschichte ausgesetzt sind. Ein sehr direkter Frage-Antwort-Stil könnte wegen dieser emotionalen Belastung als unangenehm empfunden werden. Der Einsatz von Verfahren antizipatorischer Verstehensdokumentation weist stattdessen m. E. eindeutig darauf hin, wie sich die Interviewerinnen offensichtlich um Empathie bemühen und im Sinne einer intersubjektiven Inreraktionskonstitution mit den Interviewten kooperieren. Ziel dieses Beitrages ist es zu zeigen, wie solche Verfahren der antizipatorischen Verstehensdokumentation durch den systematischen Einsatz der Konnektoren und, also, dann realisiert werden können.
This paper arises within the current communication urgency experienced throughout the pandemic. From its onset, several new lexical units have permeated the overall media discourse, as well as social media and other channels. These units convey information to the public regarding the ‘severe acute respiratory syndrome’ namely COVID-19. In addition to its worldwide impact healthwise, the pandemic generates noteworthy influence in the linguistic landscape, and as a result, a significant number of neologisms have emerged. Within the scope of our ongoing research, we identify the neologisms in European Portuguese that are related to the term COVID-19 via form or meaning. However, not all the new lexical units identified in our corpus containing COVID-19 in its formation can unequivocally be regarded as neoterms (terminological neologisms). Accordingly, this article aims not only to reflect on the distinction between neologism and neoterm but also to explore the determinologisation process that several of these new lexical units experience.
This paper presents the main issues connected with the creation of a trilingual Hungarian-Italian-English dictionary of the COVID-19 pandemic using Lexonomy. My aim is not only to create a coronacorpus (in Hungarian, I propose my own corona-neologism or ‘coroneologism’: koronakorpusz) and a dictionary of equivalents, but also to understand how the different waves and phases of the COVID-19 pandemic are changing the Hungarian language, detect the Corona-, COVID-, pandemic-, virus-, mask-, quarantine-, and vaccine-related neologisms, and offer an overview of the most frequent or linguistically interesting Hungarian neologisms and multiword units related to COVID-19.
This paper focuses on standardological and lexicographical aspects of Coronavirus-related neologisms in Croatian. The presented results are based on corpus analysis. The initial corpus for this analysis consists of terms collected for the Glossary of Coronavirus. This corpus has been supplemented by terms we collected on the Internet and from the media. The General Croatian corpora: Croatian Web Corpus – hrWaC (cf. Ljubešić/Klubička 2016) and Croatian Language Repository (cf. Brozović Rončević/Ćavar 2008: 173–186) were also used, but since they do not include neologisms that entered the language after 2013, they could be used only to check terms in the language before that time. From October 2021, a specialized Corona corpus compiled by Štrkalj Despot and Ostroški Anić (2021) became publicly available on request. The data from these corpora are analyzed by Sketch Engine (cf. Kilgarriff et al. 2004: 105–116), a corpus query system loaded with the corpora, enabling the display of lexeme context through concordances and (differential) word sketches and the extraction of keywords (terms) and N-grams. The most common collocations are sorted into syntactic categories. For English equivalents, in addition to the sources found on the Internet, enTenTen2020 corpus was consulted. In the second part of the paper, we analyze and compare the presentation of Coronavirus terminology in the descriptive Glossary of Coronavirus and the normative Croatian Web Dictionary – Mrežnik.
Eine korpuslinguistische Untersuchung mit umfassender Analyse der häufiger vorkommenenden Adverbbildungsmuster des Deutschen legt nahe, dass die Sättigung des internen Argumentplatzes eines ursprünglich relationalen Ausdrucks eine wichtige Rolle bei der Adverbproduktion spielt (Brandt 2020). Eine genauere Betrachtung der Unterschiede zwischen -ermaßen- vs. -erweise-Adverbien deutet auf eine grammatische Unterscheidung zwischen Satzadverbien und Adverbien der Art und Weise: Im Fall von -ermaßen erfolgt die Sättigung über Token-Reflexivität, während der interne Slot von -erweise- Bildungen über häufigere und möglicherweise expansive Mechanismen geschlossen wird. Darüber hinaus fördert die pleonastische Qualität von Bildungen auf der Basis gerundivaler Partizipien die Produktivität von -erweise Adverbien.
The present paper examines the usage of 341 COVID-19 neologisms which appeared in South Korea over a span of eighteen months (from December 2019 to May 2021) and were extracted from a corpus composed of COVID-19-related news articles and comments, the COVID-19 Corpus, in order to address the following research questions: 1) How do the 341 COVID-19 neologisms extracted rank in news articles and comments respectively?, 2) What usage trends do neologisms designating the disease and other high-frequency neologisms show in news articles and comments respectively?, 3) What characteristic differences do comments as a non-expert and subjective language resource and news articles as an expert and objective language resource show and what value may each genre add to the lexicographic description of neologisms?
Since the beginning of 2020, the Covid-19 pandemic has dominated public discourse and introduced a wealth of words and expressions to the general vocabulary of English and other world languages. The lexical adaptation necessitated by this global health crisis has been unprecedented in speed and scope, and in response, the Oxford English Dictionary (OED) has continually revised its coverage, publishing special updates of Covid-19-related words in 2020 outside of its usual quarterly publication cycle. This article describes how OED lexicographers have analysed language corpora and other text databases to monitor the development of pandemic-related words and provide a linguistic and historical context to their usage.
Einleitung
(2022)
Enabling appropriate access to linguistic research data, both for many researchers and for innovative research applications, is a challenging task. In this chapter, we describe how we address this challenge in the context of the German Reference Corpus DeReKo and the corpus analysis platform KorAP. The core of our approach, which is based on and tightly integrated into the CLARIN infrastructure, is to offer access at different levels. The graduated access levels make it possible to find a low-loss compromise between the possibilities opened up and the costs incurred by users and providers for each individual use case, so that, viewed over many applications, the ratio between effort and results achieved can be effectively optimized. We also report on experiences with the current state of this approach.
CLARIN, the "Common Language Resources and Technology Infrastructure", has established itself as a major player in the field of research infrastructures for the humanities. This volume provides a comprehensive overview of the organization, its members, its goals and its functioning, as well as of the tools and resources hosted by the infrastructure. The many contributors representing various fields, from computer science to law to psychology, analyse a wide range of topics, such as the technology behind the CLARIN infrastructure, the use of CLARIN resources in diverse research projects, the achievements of selected national CLARIN consortia, and the challenges that CLARIN has faced and will face in the future.
The book will be published in 2022, 10 years after the establishment of CLARIN as a European Research Infrastructure Consortium by the European Commission (Decision 2012/136/EU).
Einleitung
(2022)
Die Arbeit wurde vom Verein für Gesprächsforschung mit dem Dissertationsförderpreis 2020 ausgezeichnet.
Bis heute gehört die Frage, wie InteraktionsteilnehmerInnen verstehen, welche von mehreren möglichen Lesarten eines sprachlichen Formats im jeweiligen Kontext gilt, zu den größten Herausforderungen der Konversationsanalyse. Aufbauend auf den Erkenntnissen über soziales Handeln in der Interaktion in Sprechakttheorie und Konversationsanalyse beschäftigt sich diese Arbeit mit dem Verhältnis zwischen rekurrenten sprachlichen Formaten und sozialen Handlungen. Im Fokus stehen interrogative und deklarative Modalverbformate: soll ich...?, kannst du...?, willst/magst/möchtest du...?, du kannst... und ich kann...
Eine umfassende, korpusdatengestützte Untersuchung zu diesen Formaten im Deutschen fehlte bisher. In der Forschung zu anderen Sprachen wurden vergleichbare Formate eingehender untersucht, aber fast ausschließlich in Bezug auf direktiv-kommissive Handlungen, wie Bitten, Aufforderungen, Angebote, Vorschläge etc., während das breitere Handlungsspektrum und -potenzial der Formate nicht aufgezeigt wurde.
Die vorliegende Untersuchung zeigt auf,
1. welches Handlungsspektrum die untersuchten Formate aufweisen,
2. wie die Komposition eines Turns, dessen Position (i.e., in der laufenden Sequenz, in der Interaktion, in der Aktivität oder in der Interaktionsgeschichte) sowie weitere kontextuelle Faktoren (wie z.B. die Verteilung von epistemischen und deontischen Rechten) dazu beitragen, wie das Format als diese oder jene Handlung in der Interaktion verstanden wird, und
3. welches Handlungspotenzial bzw. welche globale Handlungsbedeutung das jeweilige Format aufweist.
Die Untersuchung bedient sich der Methodik der Konversationsanalyse und der Interaktionalen Linguistik und beruht auf mehr als 500 Belegen aus Videoaufnahmen natürlicher Interaktion aus dem FOLK-Korpus.
Die vorliegende Arbeit zeigt, welche Handlungen mit den untersuchten Formaten vollzogen werden und welche Rolle unterschiedliche Faktoren (wie die Position des Turns, die Verteilung von deontischen und epistemischen Rechten, und die Verantwortung für das Projekt, auf das sich die Handlung bezieht, das Agens der künftigen Handlung, das nonverbale Verhalten von Interagierenden während der Realisierung des fokalen Turns etc.) dafür spielen, wie das jeweilige Format verstanden wird. Überdies wird nachgewiesen, welche weiteren linguistischen Merkmale (wie z.B. Vorkommen von Adverbien und Modal- bzw. Abtönungspartikeln, Argumentrealisierung, Wortfolge, Semantik des Vollverbs etc.) zusätzlich zum Modalverbformat für Handlungskonstitution und -zuschreibung relevant sein können und wann. Somit werden Faktoren herausgearbeitet, die für die weitere Entwicklung des Konzeptes ‚Format für soziale Handlungen‘ notwendig sind.
Die Arbeit zeigt, dass eine umfassende Analyse des gesamten Handlungsspektrums der Verwendung sprachlicher Formen auf Basis eines großen Korpus notwendig ist, um die für bestimmte Handlungsfunktionen relevanten Realisierungs- und Kontextbedingungen korrekt identifizieren zu können und vorschnellen Schlüssen über die Assoziation von linguistischen Formaten mit bestimmten Handlungen vorzubeugen. Trotz unterschiedlicher feingranularer Funktionen der Formate ist allerdings stets eine Kernbedeutung feststellbar, die zum Handlungspotenzial des jeweiligen Formats beiträgt.
Korpora sind – als idealerweise digital verfüg- und auswertbare Sammlungen von Texten – eine wertvolle empirische Grundlage linguistischer Studien. Eigene Korpora aufzubauen ist, je nach Sprachausschnitt, mit unterschiedlichen Herausforderungen verbunden. Zu allen Texten sollten Metadaten zu den Textentstehungsbedingungen (Zeit, Quelle usw.) erhoben werden, um diese als Variablen in Auswertungen einbeziehen zu können. Andere Informationen wie etwa die Themenzugehörigkeit (oder Annotationen auch unterhalb der Textebene) sind auch hilfreich, in vielerlei Hinsicht aber schwieriger pauschal taxonomisch vorzugeben, geschweige denn, operationell zu ermitteln. Jenseits der »materiellen« Verfügbarkeit der Texte und der technischen Aufbereitung sind es das Urheberrecht, vor allem Lizenz- bzw. Nutzungsrechte, sowie ethische Verantwortung und Persönlichkeitsrechte, die beachtet werden müssen, auch um zu gewährleisten, dass die Daten für die Reproduktion der Studien Dritten rechtssicher zugänglich gemacht werden dürfen. Bevor für ein Vorhaben ein neues Korpus aufgebaut wird, sollte deshalb am besten geprüft werden, ob nicht ein geeignetes bereits zur Verfügung steht. Wenn ein Korpus aufgebaut wird, sollte für eine nachhaltige Aufbewahrung und Zugänglichmachung gesorgt und die Existenz an geeigneter Stelle dokumentiert werden.
Auch Linguist*innen, die gesprochene Sprache untersuchen, kommen schon seit längerem nicht mehr ohne digitale Infrastrukturen aus. Seit Beginn der Gesprochene-Sprache-Forschung werden Gespräche aufgezeichnet und anschließend transkribiert, da die flüchtigen, innerhalb von Bruchteilen von Sekunden stattfindenden Feinheiten des Gesprochenen paradoxerweise nur durch Verschriftung im Detail untersucht werden können. Diese Detailuntersuchungen beschränkten sich im vergangenen Jahrhundert meist auf wenige Einzelbelege für ein untersuchtes Phänomen. Das heißt, die Forschenden hatten den unmittelbaren Überblick über ihre Datenkollektionen und benötigten keine elaborierten digitalen Methoden zu deren Aufbereitung, Annotation und Analyse. Dies hat sich in den letzten beiden Jahrzehnten stark geändert: Es wurden vermehrt gezielt große Datenmengen gesammelt, in Datenbanken organisiert und der Forschungsgemeinschaft zur Nutzung zur Verfügung gestellt. An erster Stelle muss hier das Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK) genannt werden (vgl. Schmidt 2014). Dieses wird seit 2008 am Leibniz-Institut für Deutsche Sprache (IDS) aufgebaut und ist heute das größte Referenzkorpus für das gesprochene Deutsch.
In der Physiotherapie erlernen Patienten Übungen, um Erkrankungen des Bewegungsapparats durch Bewegung zu therapieren. Angeleitet werden sie hierzu durch multimodale Instruktionen, die als längere Instruktions‚sequenzen‘ aus Direktiva, Korrekturen und Accounts gestaltet sind. Anhand eines Korpus aus Videoaufnahmen erforscht diese Arbeit erstmals die Instruktionspraxis in authentischen Physiotherapiesitzungen in Bezug auf die verbalen und leiblichen Praktiken des Instruierens.
Der Fokus der multimodalen Analysen liegt auf den Einsatzbedingungen und spezifischen instruktionalen Leistungen der einzelnen Handlungsressourcen (wie Sprache, Blick, Gestik, Demonstration, Berührung etc.) und ihrer genauen Realisierung. Insbesondere in der Erforschung taktiler Praktiken betritt die Studie Neuland in der Interaktionsanalyse. Die lückenlose Aufnahme ganzer Physiotherapieprozesse ermöglicht zudem Einblicke in die longitudinale Entwicklung von Instruktionsprozessen und deren Veränderung in Abhängigkeit vom ‚common ground‘ innerhalb längerer Interaktionsgeschichten.
Fragen der Verdatung sind Bestandteil der digitalen Diskursanalyse und keine Vorarbeiten. Die Analyse digital(isiert)er Diskurse setzt im Unterschied zur Auswertung nicht-digital repräsentierter Sprache und Kommunikation notwendig technische Verfahren und Praktiken, Algorithmen und Software voraus, die den Untersuchungsgegenstand als digitales Datum konstituieren. Die nachfolgenden Abschnitte beschreiben kurz und knapp wiederkehrende Aspekte dieser Verdatungstechniken und -praktiken, insbesondere mit Blick auf Erhebung und Transformation (Abschnitt 2), Korpuskompilierung (Abschnitt 3), Annotation (Abschnitt 4) und Wege der analytischen Datenerschließung (Abschnitt 5). Im Fazit wird die Relevanz der Verdatungsarbeit für den Analyseprozess zusammengefasst (6).
Transkriptionswerkzeuge sind spezialisierte Softwaretools für die Transkription und Annotation von Audio- oder Videoaufzeichnungen gesprochener Sprache. Dieses Kapitel erklärt einleitend, worin der zusätzliche Nutzen solcher Werkzeuge gegenüber einfacher Textverarbeitungssoftware liegt, und gibt dann einen Überblick über grundlegende Prinzipien und einige weitverbreitete Tools dieser Art. Am Beispiel der Editoren FOLKER und OrthoNormal wird schließlich der praktische Einsatz zweier Werkzeuge in den Arbeitsabläufen eines Korpusprojekts illustriert.
Gegenstand des Beitrags sind korpuslinguistische Zugänge zur Variation im Auftreten des Fugenelements in Komposita aus zwei Nomen (Arbeit I s I weg). Die qualitative Vorstudie zeigt, dass die Verfügung nach Erstglied auf Vokal (Bühne I n I spiel, See I ufer) entgegen manchen Hinweisen aus bisherigen Korpusuntersuchungen sehr weitgehend linguistisch systematisierbar ist. Die Hauptstudie fokussiert dann die sehr variable Verfügung nach Erstglied auf Konsonant (Arbeit I s I weg vs. Heimat I art). Sie modelliert statistisch den Einfluss von Größen, deren Bedeutung in der bisherigen Forschung nur angenommen, aber nicht überprüft werden konnte. Dabei führt sie auch neue Einflussgrößen ein und gibt deutliche Hinweise darauf, dass die Variation in größerem Ausmaß als bisher vermutet einzelfallspezifisch geregelt ist.
In diesem Kapitel stellen wir zunächst grundlegende Konzepte von Abfragesystemen und Abfragesprachen für die Suche in Korpora vor. Diese Konzepte sollen Ihnen helfen, die einzelnen Abfragesprachen besser zu verstehen und vergleichen zu können. Die gängigen Abfragesprachen unterscheiden sich in vielen Details. Diese Details und die Möglichkeiten und Grenzen der einzelnen Abfragesprachen stellen wir im zweiten Teil mit vielen Beispielaufgaben und dazu passenden Lösungen in jeweils drei Abfragesprachen vor.
Korpora gesprochener Sprache
(2022)
Korpora gesprochener Sprache bestehen aus Audio- oder Videoaufnahmen sprachlicher Produktionen, die über eine Transkription einer linguistischen Analyse zugänglich gemacht werden. Sie kommen zur Untersuchung unterschiedlichster sprachwissenschaftlicher Fragestellungen unter anderem in der Gesprächsforschung, der Dialektologie und der Phonetik zum Einsatz. Dieser Beitrag diskutiert die wichtigsten Eigenschaften von Korpora gesprochener Sprache und stellt einige Vertreter der verschiedenen Kategorien vor.
Dieses Kapitel gibt einen Überblick über Korpora internetbasierter Kommunikation, die als digitale Ressourcen frei zur Verfügung stehen und für eigene linguistische Forschungsarbeiten genutzt werden können. In Abschnitt 1 erläutern wir korpuslinguistische Basiskonzepte, die für die Arbeit mit Korpora internetbasierter Kommunikation benötigt werden, und präzisieren die Sprachgebrauchsdomäne Internetbasierte Kommunikation, die den Gegenstand des hier beschriebenen Ressourcentyps bildet. Abschnitt 2 gibt einen Überblick zu existierenden Korpusressourcen für das Deutsche und stellt ausgewählte Korpora zu weiteren europäischen Sprachen vor. In Abschnitt 3 geben wir abschließend einen kurzen Einblick in aktuelle Forschungsfelder, die sich im Bereich der Korpuslinguistik und Sprachtechnologie in Bezug auf den Aufbau und die Aufbereitung von Korpora internetbasierter Kommunikation stellen.
Diese Fallstudie untersucht die quantitative Verteilung von direkten und nicht-direkten Formen von Redewiedergabe im Vergleich zwischen zwei Literaturtypen: Hochliteratur - definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen - und Heftromanen - massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden. Die Studie geht von manuell annotierten Daten aus und überprüft daran die Verlässlichkeit automatischer Annotationswerkzeuge, die im Anschluss eingesetzt werden, um eine Untersuchung von insgesamt 250 Volltexten durchzuführen. Es kann nachgewiesen werden, dass sich die Literaturtypen sowie auch unterschiedliche Genres von Heftromanen hinsichtlich der verwendeten Wiedergabeformen unterscheiden.
Daten und Metadaten
(2022)
In diesem Kapitel werden Metadaten als Daten definiert, die der Dokumentation und/oder Beschreibung empirischer Sprachdaten dienen. Einleitend werden die verschiedenen Funktionen von Metadaten im Forschungsprozess und ihre Bedeutung für die Konzepte der Ausgewogenheit und Repräsentativität diskutiert. Anhand des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) werden dann Metadaten eines konkreten Korpus vorgestellt, und es wird gezeigt, wie diese bei Korpusanalysen zum Einsatz kommen.