OPUS 4 | Korpuslinguistik

Korpuslinguistik

275 search hits

1 to 10

Sort by

‘Representativeness’, ‘Bad Data’, and legitimate expectations. What can an electronic historical corpus tell us that we didn’t actually know already (and how)? (2015)

Durrell, Martin

The availability of electronic corpora of historical stages of languages has been wel- comed as possibly attenuating the inherent problem of diachronic linguistics, i.e. that we only have access to what has chanced to come down to us - the problem which was memorably named by Labov (1992) as one of “Bad Data”. However, such corpora can only give us access to an increased amount ot historical material and this can essentially still only be a partial and possibly distorted picture of the actual language at a particular period of history. Corpora can be improved by taking a more representative sample of extant texts if these are available (as they are in significant number for periods after the invention of printing). But, as examples from the recently compiled GerManC corpus of seventeenth and eighteenth century German show, the evidence from such corpora can still fail to yield definitive answers to our questions about earlier stages of a language. The data still require expert interpretation, and it is important to be realistic about what can legitimately be expected from an electronic historical corpus.

Überlegungen zur Zusammenstellung und Verwendung eines Korpus für ein großes interdisziplinäres Wörterbuch der deutschen Sprache (1979)

Mentrup, Wolfgang

Über Corpusgewinnung und Dokumentation im Mannheimer Institut für deutsche Sprache (1969)

Hellmann, Manfred W.

Öffentlichen Sprachgebrauch auf Facebook untersuchen. Zugänge, Probleme, Erste Hilfe (2020)

Pfurtscheller, Daniel

Für den öffentlichen Sprachgebrauch im Internet ist Facebook, das mit 15 Jahren zur älteren Generation von Social-Media-Sites zählt, nach wie vor hochrelevant. Im deutschsprachigen Raum ist es die am meisten genutzte Social-Media-Plattform (Newman et al. 2019). Zu den Diensten gehören unter anderem Facebook-Seiten (Pages), die von Unternehmen, Parteien, Medien und anderen Institutionen oder Individuen betrieben werden und als öffentliche Angebote prinzipiell auch von nicht bei Facebook angemeldeten Personen eingesehen werden können. Solche öffentlichen Facebook-Seiten sind als sites of engagement zwischen gesellschaftlichen Institutionen und Individuen reichhaltige Quellen für die linguistische Forschung. Im Vergleich zu anderen Plattformen bietet Facebook aber nur einen eingeschränkten Zugriff auf diese öffentlichen Sprach- und Interaktionsdaten (Freelon 2018). Während beispielsweise für Twitter viele Tools zur Datensammlung existieren und auch die Plattform selbst eine ausgebaute Suchmaske bietet, erschweren die limitierten Suchmöglichkeiten der Facebook-Plattform und das fehlende Angebot von einfach nutzbarer Software linguistische Projekte in Forschung und Lehre. Gleichzeitig stellen sich neben den praktischen Fragen an vielen Stellen auch forschungsethische Fragen im Umgang mit Onlinedaten.

Zur Verschmelzung von Präposition und bestimmtem Artikel im gesprochenen Deutsch (2022)

Lenort, Lisa ; Pohle, Anna ; Sakhno, Anna

Zum Verschmelzungsverhalten von definitem Artikel und Präposition in der Schriftsprache des Deutschen liegen bereits diverse Erkenntnisse vor, wohingegen die Kenntnislage für die gesprochene Sprache noch unzureichend ist. Die vorliegende Untersuchung widmet sich diesem Desiderat und analysiert Präposition-Artikel-Kombinationen anhand von Daten aus FOLK, um die linguistische Beschreibung dieser Struktur voranzutreiben. In der durchgeführten Korpusanalyse werden die Auftretenshäufigkeiten synthetischer und analytischer Präposition-Artikel-Kombinationen verglichen und Gebrauchsbesonderheiten auf syntaktisch-lexikalischer und pragmatischer Ebene herausgearbeitet.

Zur Erstellung und Interpretation der Zeitverlaufsgrafiken (2015)

Lüngen, Harald ; Keibel, Holger

Zur Erstellung und Interpretation der Zeitverlaufsgrafiken (2013)

Lüngen, Harald ; Keibel, Holger

Zur Erstellung und Interpretation der Zeitverlaufsgrafiken (2014)

Lüngen, Harald ; Keibel, Holger

Zugänge zu mündlichen Korpora für DaF und DaZ: Das ZuMult-Projekt (2023)

Ziggurat: A new data model and indexing format for large annotated text corpora (2015)

Evert, Stefan ; Hardie, Andrew

The IMS Open Corpus Workbench (CWB) software currently uses a simple tabular data model with proven limitations. We outline and justify the need for a new data model to underlie the next major version of CWB. This data model, dubbed Ziggurat, defines a series of types of data layer to represent different structures and relations within an annotated corpus; each such layer may contain variables of different types. Ziggurat will allow us to gradually extend and enhance CWB’s existing CQP-syntax for corpus queries, and also make possible more radical departures relative not only to the current version of CWB but also to other contemporary corpus-analysis software.

1 to 10

Open Access

Korpuslinguistik

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

275 search hits