Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache | Corpus Linguistics and Interdisciplinary Perspectives on Language | CLIP
Refine
Year of publication
Document Type
- Part of a Book (14)
- Book (11)
Has Fulltext
- yes (25)
Keywords
- Korpus <Linguistik> (17)
- Deutsch (10)
- Grammatik (9)
- Germanistik (3)
- Sprachvariante (3)
- Adjektiv (2)
- Annotation (2)
- Datenerhebung (2)
- Deutsch in Österreich (2)
- Historische Sprachwissenschaft (2)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (24)
- Zweitveröffentlichung (3)
Publisher
- Narr (23)
- Narr Francke Attempto (2)
11
Dieser Beitrag beschreibt die Prozesse der Datenerhebung, -aufbereitung und geplanten Veröffentlichung eines Teilkorpus des vom österreichischen Wissenschaftsfonds (FWF) finanzierten Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation – Kontakt – Perzeption“ (FWF F060). Die Daten werden v. a. aus variationslinguistischer, kontaktlinguistischer wie auch perzeptionslinguistischer Perspektive analysiert, wofür eigene Tools entwickelt wurden, die – ebenso wie das Korpus selbst – mittelfristig der interessierten Öffentlichkeit zur Verfügung gestellt werden.
11
Das Austrian Media Corpus (amc) ist mit derzeit rund 11 Mrd. Token eines der größten deutschsprachigen Korpora journalistischer Prosa. Es bietet damit weitreichende Analysemöglichkeiten für eine Vielzahl sprachwissenschaftlicher Aspekte, wie z. B. die Analyse grammatischer, orthographischer und lexikalischer Variation oder die Erforschung diskurslinguistischer wie attitudinal-perzeptiver Fragestellungen. In diesem Beitrag geben wir Einblicke in Beispielanalysen zu Standard(schrift)sprache auf Basis des amc sowie deren Bedeutung für die Erforschung von Sprachvariation in Österreich, um das enorme Potenzial des Korpus für sprachwissenschaftliche Fragestellungen zu illustrieren.
1
Conversation is usually considered to be grammatically simple, while academic writing is often claimed to be structurally complex, associated primarily with a greater use of dependent clauses. Our goal in the present paper is to challenge these stereotypes, based on the results of large-scale corpus investigations. We argue that both conversation and professional academic writing are grammatically complex but that their complexities are dramatically different. Surprisingly, the traditional view that complexity is realized through extensive clausal embedding leads to the conclusion that conversation is more complex than academic writing. In contrast, written academic discourse is actually much more ‘compressed’ than elaborated, and the complexities of academic writing are realized mostly as phrasal embedding rather than embedded clauses.
1
This study explores the interdependence of qualitative and quantitative analysis in articulating empirically plausible and theoretically coherent generalizations about grammatical structure. I will show that the use of large electronic corpora is indispensable to the grammarian's work, serving as a rich source of semantic and contextual information, which turns out to be crucial in categorizing and explaining grammatical forms. These general concerns are illustrated by the patterns of use of Czech relative clauses (RC) with the non-declinable relativizer co, by taking a set of existing claims about these RCs and testing their accuracy on corpus material. The relevant analytic categories revolve around the referential type of the relativized noun, the interaction between relativization and deixis, and the semantic relationship between the relativized noun and the proposition expressed by the RC. The analysis demonstrates that some of the existing claims are fully invalid in the face of regularly attested semantic distinctions, while others are more or less on the right track but often not comprehensive or precise enough to capture the full richness of the facts. 1
1
Im Beitrag werden die Methodologie und die Ziele eines Projekts vorgestellt, das anstrebt, auf der Grundlage eines breiten Korpus von Texten aus allen Ländern und Regionen des zusammenhängenden deutschen Sprachgebiets die Variation in der Grammatik der geschriebenen deutschen Standardsprache zu erfassen, in einem Handbuch zu dokumentieren und damit eine Basis sowohl für Grammatiken als auch für weitergehende grammatische Untersuchungen zu schaffen. Nach einleitenden Bemerkungen zum Projekt und zu der Frage, in welcher Relation die geplante „Variantengrammatik des Standarddeutschen“ zum bereits erhältlichen „Variantenwörterbuch des Deutschen“ von Ammon et al. (2004) steht, folgt ein Forschungsüberblick zur grammatischen Variation in der Standardsprache. Dann werden Beispiele für grammatische Variabilität in verschiedenen Phänomenbereichen gegeben, und es wird anhand von zwei Fallbeispielen gezeigt, wie eine grammatische Beschreibung dieser Phänomene aussehen kann. Um Angaben zur arealen Distribution grammatischer Varianten machen zu können, wird den Analysen ein Korpus zugrunde gelegt, das sich auf den geschriebenen Standard beschränkt und darunter den Sprachgebrauch in der Presse fasst. Das Korpus, das als Basis für die Erstellung der geplanten Variantengrammatik dient, wird im Beitrag kurz vorgestellt, außerdem wird erläutert, welche Zielsetzungen mit einer solchen Grammatik verbunden sind.
10
Seit der Forschung große Datenmengen und Rechenkapazitäten zur Verfügung stehen arbeitet auch die Sprachwissenschaft zunehmend datengeleitet. Datengeleitete Forschung geht nicht von einer Hypothese aus, sondern sucht nach statistischen Auffälligkeiten in den Daten. Sprache wird dabei oft stark vereinfacht als lineare Abfolge von Wörtern betrachtet. Diese Studie zeigt erstmals, wie der zusätzliche Einbezug syntaktischer Annotationen dabei hilft, sprachliche Strukturen des Deutschen besser zu erfassen.
Als Anwendungsbeispiel dient der Vergleich der Wissenschaftssprachen von Linguistik und Literaturwissenschaft. Die beiden Fächer werden oft als Teildisziplinen der Germanistik zusammengefasst. Ihre wissenschaftliche Praxis unterscheidet sich jedoch systematisch hinsichtlich Forschungsdaten, Methoden und Erkenntnisinteressen, was sich auch in den Wissenschaftssprachen niederschlägt.
11
This article details the process of creating the Nottinghamer Korpus deutscher YouTube-Sprache ('The Nottingham German YouTube Language Corpus' - or NottDeuYTSch corpus) and outlines potential research opportunities. The corpus was compiled to analyse the online language produced by young German-speakers and offers significant opportunity for in-depth research across several linguistic fields including lexis, morphology, syntax, orthography, and conversational and discursive analysis. The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, German-speaking demographic and represent an authentic language snapshot of young German speakers. The corpus was proportionally sampled based on video category and year from a database of 112 popular German-speaking YouTube channels in the DACH region for optimal representativeness and balance and contains a considerable amount of associated metadata for each comment that enable further longitudinal cross-sectional analyses. The NottDeuYTSch corpus is available for analysis as part of the German Reference Corpus (DeReKo).
11
Neue Entwicklungen in der Korpuslandschaft der Germanistik. Beiträge zur IDS-Methodenmesse 2022
(2023)
Die in diesem Band versammelten Beiträge zur Methodenmesse der Jahrestagung 2022 des Leibniz-Instituts für Deutsche Sprache geben einen Überblick über die aktuelle Korpuslandschaft in der germanistischen Linguistik: von historischen Sammlungen authentischer Sprachdaten über aktuelle Zeitungs- und Social-Media-Korpora, Gesprächskorpora, Korpora aus Texten von Deutschlernenden bis hin zu einem Korpus mit Texten leichter Sprache und einem Gebärdensprachekorpus. Die Beiträge erläutern jeweils die Designkriterien sowie die Methodik der Datenerhebung und geben einen Einblick, wie die Daten sprachwissenschaftlich verwendet werden können.