Korpuslinguistik
Refine
Year of publication
Document Type
- Article (51) (remove)
Has Fulltext
- yes (51)
Keywords
- Korpus <Linguistik> (41)
- Deutsch (26)
- Gesprochene Sprache (11)
- Korpuslinguistik (6)
- corpus linguistics (6)
- Fremdsprache (5)
- Sprachdaten (5)
- Fremdsprachenunterricht (4)
- Korpora in DaF/DaZ (4)
- corpus (4)
Publicationstate
- Veröffentlichungsversion (51) (remove)
Reviewstate
- Peer-Review (35)
- (Verlags)-Lektorat (14)
- Peer-review (1)
Publisher
In diesem Beitrag werden Komposita mit den relationalen Zweitgliedern Gatte und Gattin aus genderlinguistischer Perspektive untersucht, basierend auf manuell annotiertem zeitungssprachlichen Korpusmaterial. Frauen werden im analysierten Korpus ca. 12-mal häufiger in ihrer ehelichen Rolle versprachlicht als Männer. Statistische Analysen zeigen, dass sie dabei systematisch in ein possessives Verhältnis zum Ehemann gesetzt werden (Arztgattin = Gattin eines Arztes), während Ehemänner in den untersuchten Komposita tendenziell doppelt individualisiert werden (Arztgatte = Gatte, der Arzt ist). Neben den Zweitgliedern geben auch die Genera der beiden Konstituenten Aufschluss über die kodierte Bedeutungsrelation: Genusgleichheit (Kanzlergatte) führt zu einer qualifizierenden, Genusdivergenz (Kanzleringatte) zu einer possessiven Lesart. Die Analyse belegt außerdem die Existenz movierter Kompositumserstglieder – diese sind sogar die häufigste Form zur Benennung weiblicher Personen im Erstglied. Trotzdem herrscht bei der Bezugnahme auf Frauen eine größere Formenvarianz als bei Männern, welche fast ausschließlich mit maskulinen Erstgliedern versprachlicht werden. Damit zeigt die Studie, wie genderlinguistische Perspektiven auch im Bereich der Wortbildung einen neuen Analysezugang bilden.
Dieser Werkstattbericht zeigt anhand verschiedener korpusbasierter Ressourcen, wie Fragen zu sprachlichen Phänomenen, die für Sprachlernende nicht oder nur unzureichend dokumentiert sind, empirisch beantwortet werden können. Besonderes Augenmerk wird dabei auf OWIDplusLIVE gelegt. Hierbei handelt es sich um ein Werkzeug zur tagesaktuellen Analyse von Token (einzelne Wortformen/Lemmata) und Bi-/Trigrammen (zwei bzw. drei direkt aufeinander folgende Token). Über eine Anbindung an KorAP können zudem Belege aus dem DeReKo (Deutsches Referenzkorpus) abgerufen und analysiert werden.
The NottDeuYTSch corpus is a freely available collection of YouTube comments written under German-speaking videos by young people between 2008 and 2018. The article uses the NottDeuYTSch corpus to investigate how YouTube comments can be used to produce learning materials and how corpora of Digitally-Mediated Communication can benefit intermediate learners of German. The article details the effects of authentic communication within YouTube comments on teenage learners, examining how they can influence the psycholinguistic factors of motivation, foreign language anxiety, and willingness to communicate. The article also discusses the benefits and limitations of using authentic corpus material for the development of teaching material.
This paper introduces the Nottinghamer Korpus deutscher YouTube-Sprache (‘The Nottingham German YouTube Language Corpus’ - or NottDeuYTSch corpus). The corpus comprises over 33 million words, taken from roughly 3 million YouTube comments published between 2008 and 2018, written by a young, German-speaking demographic. The NottDeuYTSch corpus provides an authentic and representative linguistic snapshot of young German speakers and offers significant opportunities for in-depth research in several linguistic fields, such as lexis, morphology, syntax, orthography, multilingualism, and conversational and discursive analysis.
We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is divided into 16 parts based on 16 corpus folds. We describe how the dataset was created and structured. By evaluating the distribution over the 16 folds, we show that it is possible to work with a subset of the folds in many use cases (e.g., to save computational resources). In a case study, we investigate the growth of vocabulary (as well as the number of hapax legomena) as an increasing number of folds are included in the analysis. We cross-combine this with the various cleaning stages of the dataset. We also give some guidance in the form of Python, R, and Stata markdown scripts on how to work with the resource.
This paper analyses intensification in German digitally-mediated communication (DMC) using a corpus of YouTube comments written by young people (the NottDeuYTSch corpus). Research on intensification in written language has traditionally focused on two grammatical aspects: syntactic intensification, i.e. the use of particles and other lexical items and morphological intensification, i.e. the use of compounding. Using a wide variety og examples from the corpus, the paper identifies novel ways that have been used for intensification in DMC, and suggests a new taxonomy of classification for future analysis of intensification.
Die Darstellung von und Arbeit mit Transkripten spielt in vielen forschungs- und anwendungsbezogenen Arbeiten mit Daten gesprochener Sprache eine wichtige Rolle. Der im ZuMult-Projekt entwickelte Prototyp ZuViel (Zugang zu Visualisierung von Transkripten) knüpft an etablierte Verfahren zur Transkriptdarstellung an und erweitert diese durch neue Möglichkeiten des interaktiven Arbeitens mit Transkripten im digitalen Medium. Der Beitrag führt in diese neuen Möglichkeiten ein und erklärt, wie sie in didaktischen DaF/DaZ-Kontexten aber auch hinsichtlich forschungsbezogener Perspektiven angewendet werden können
Im vorliegenden Artikel wird ein Überblick über das von der DFG geförderte Projekt Zugänge zu multimodalen Korpora gesprochener Sprache – Vernetzung und zielgruppenspezifische Ausdifferenzierung (ZuMult) gegeben. Dabei wird zunächst auf die Sprachdaten und auf die technische Basis der Applikationen eingegangen, die dem Projekt zugrunde liegen. Im Anschluss werden die weiteren Beiträge in diesem Themenheft von KorDaF kurz vorgestellt. Übergeordnetes Thema von ZuMult ist die Verbesserung der Zugänglichkeit von digitalen mündlichen Sprachdaten für verschiedene Anwendungen und Zielgruppen, wobei der Fokus dieses Themenhefts auf Applikationen und Anwender:innen aus der Fremdsprachendidaktik und der DaF-/DaZ-Forschung und -Lehre liegt. Die einzelnen Beiträge beleuchten zentrale methodische und/oder technische Aspekte dieses Themas und beschreiben die Architektur und verschiedene prototypische Anwendungen, die das Projekt entwickelt hat.
Das Forschungs- und Lehrkorpus für GesprochenesDeutsch (FOLK) ist ein Korpus des gesprochenen Deutsch in natürlichen sozialen Interaktionen, das seit 2008 in der Abteilung Pragmatik am Leibniz-Institut für Deutsche Sprache in Mannheim aufgebaut wird. FOLK besteht aus Audio- und Videoaufzeichnungen natürlicher Gespräche aus verschiedensten gesellschaftlichen Bereichen (private, institutionelle und öffentliche Interaktionsdomäne), die durch Transkription, weitere Annotationen und Metadaten-Dokumentation für korpusgestützte Analysen erschlossen und zur wissenschaftlichen Nutzung bereitgestellt werden. FOLK wird auf vielfältige Weise für Untersuchungen zum gesprochenen Deutsch genutzt, insbesondere in der Gesprächsforschung, der Korpuslinguistik und anwendungsorientierten Zweigen der Linguistik.