Korpuslinguistik
Refine
Year of publication
Document Type
- Article (105) (remove)
Has Fulltext
- yes (105)
Keywords
- Korpus <Linguistik> (78)
- Deutsch (44)
- Gesprochene Sprache (17)
- Korpuslinguistik (11)
- corpus linguistics (8)
- Deutsches Referenzkorpus (DeReKo) (7)
- Textkorpus (7)
- Computerlinguistik (6)
- Institut für Deutsche Sprache <Mannheim> (6)
- Sprachdaten (6)
Publicationstate
- Veröffentlichungsversion (51)
- Zweitveröffentlichung (29)
- Postprint (9)
Reviewstate
- Peer-Review (62)
- (Verlags)-Lektorat (18)
- Peer-review (1)
- Peer-reviewed (1)
Publisher
- Institut für Deutsche Sprache (13)
- de Gruyter (10)
- Leibniz-Institut für Deutsche Sprache (IDS) (8)
- Erich Schmidt (6)
- Universitäts- und Landesbibliothek Darmstadt (6)
- Editura Academiei Române (5)
- Gesellschaft für Sprachtechnologie und Computerlinguistik (3)
- Edinburgh University Press (2)
- MDPI (2)
- Peter Lang (2)
Fußball wird nicht nur gespielt und geschaut. Über Fußball wird auch gesprochen und geschrieben, und zwar überaus ausdauernd und ausführlich. Um jedes Fußballspiel herum rankt sich eine Vielzahl von Kommunikationsereignissen, Gesprächen und Texten, in denen das eigentliche Spielgeschehen kommentiert, besprochen und gedeutet wird. Das beginnt beim Coaching am Spielfeldrand und in der Kabine, bei den Zurufen, Choreografien und Sprechchören der Fans auf den Tribünen und reicht über die Interviews mit Spielern, Trainern und Experten, die Spielberichte und -analysen in Fernsehen, Radio, Presse bis hin zu den unzähligen Alltagsgesprächen, in denen etwa die Ergebnisse vom Vortag diskutiert werden. In jüngerer Zeit haben sich zudem im Internet neue Formen des Redens über den Fußball etabliert. Liveticker informieren über die gerade laufenden Spiele, Taktikblogs wie <spielverlagerung.de> liefern ausführlichste Taktikanalysen, und auch in sozialen Netzwerken wie Twitter oder Facebook ist der Fußball eine schier unerschöpfliche thematische Ressource.
Using the Google Ngram Corpora for six different languages (including two varieties of English), a large-scale time series analysis is conducted. It is demonstrated that diachronic changes of the parameters of the Zipf–Mandelbrot law (and the parameter of the Zipf law, all estimated by maximum likelihood) can be used to quantify and visualize important aspects of linguistic change (as represented in the Google Ngram Corpora). The analysis also reveals that there are important cross-linguistic differences. It is argued that the Zipf–Mandelbrot parameters can be used as a first indicator of diachronic linguistic change, but more thorough analyses should make use of the full spectrum of different lexical, syntactical and stylometric measures to fully understand the factors that actually drive those changes.
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Institut für Deutsche Sprache ist die zentrale Sammelstelle für Korpora des Gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von etwa 50 Variations- und Gesprächskorpora aufgebaut. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
Within cognitive linguistics, there is an increasing awareness that the study of linguistic phenomena needs to be grounded in usage. Ideally, research in cognitive linguistics should be based on authentic language use, its results should be replicable, and its claims falsifiable. Consequently, more and more studies now turn to corpora as a source of data. While corpus-based methodologies have increased in sophistication, the use of corpus data is also associated with a number of unresolved problems. The study of cognition through off-line linguistic data is, arguably, indirect, even if such data fulfils desirable qualities such as being natural, representative and plentiful. Several topics in this context stand out as particularly pressing issues. This discussion note addresses (1) converging evidence from corpora and experimentation, (2) whether corpora mirror psychological reality, (3) the theoretical value of corpus linguistic studies of ‘alternations’, (4) the relation of corpus linguistics and grammaticality judgments, and, lastly, (5) the nature of explanations in cognitive corpus linguistics. We do not claim to resolve these issues nor to cover all possible angles; instead, we strongly encourage reactions and further discussion.
Editorial
(2016)
This paper is about the workflow for construction and dissemination of FOLK (Forschungs - und Lehrkorpus Gesprochenes Deutsch – Research and Teaching Corpus of Spoken German), a large corpus of authentic spoken interaction data, recorded on audio and video. Section 2 describes in detail the tools used in the individual steps of transcription, anonymization, orthographic normalization, lemmatization and POS tagging of the data, as well as some utilities used for corpus management. Section 3 deals with the DGD (Datenbank für Gesprochenes Deutsch - Database of Spoken German) as a tool for distributing completed data sets and making them available for qualitative and quantitative analysis. In section 4, some plans for further development are sketched.