Refine
Year of publication
- 2007 (82) (remove)
Document Type
- Part of a Book (46)
- Article (19)
- Conference Proceeding (15)
- Book (2)
Has Fulltext
- yes (82)
Keywords
- Deutsch (39)
- Korpus <Linguistik> (25)
- Gesprochene Sprache (7)
- Grammatik (5)
- Konversationsanalyse (5)
- Rechtschreibung (5)
- Verb (5)
- Annotation (4)
- Kollokation (4)
- Kommunikation (4)
Publicationstate
- Veröffentlichungsversion (82) (remove)
Reviewstate
Publisher
- de Gruyter (22)
- Narr (16)
- University of Birmingham (3)
- University of Illinois (3)
- Association for Computational Linguistics (2)
- Institut für Deutsche Sprache (2)
- Lang (2)
- Olms (2)
- Schmidt (2)
- Verlag für Gesprächsforschung (2)
This paper is a contribution to the ongoing discussion on treebank annotation schemes and their impact on PCFG parsing results. We provide a thorough comparison of two German treebanks: the TIGER treebank and the TüBa-D/Z. We use simple statistics on sentence length and vocabulary size, and more refined methods such as perplexity and its correlation with PCFG parsing results, as well as a Principal Components Analysis. Finally we present a qualitative evaluation of a set of 100 sentences from the TüBa- D/Z, manually annotated in the TIGER as well as in the TüBa-D/Z annotation scheme, and show that even the existence of a parallel subcorpus does not support a straightforward and easy comparison of both annotation schemes.
Im Beitrag werden korpuslinguistische Aspekte und Fragestellungen aus variationslinguistischer Perspektive diskutiert, wobei der Fokus auf der Analyse regionalsprachlicher Daten und Korpora des Deutschen liegt. Unter Regionalsprache wird hier der areal gebundene, sprechsprachliche Gesamtbereich „unterhalb“ der normierten Standardsprache verstanden, der sich von den lokalen Basisdialekten über Varietäten bzw. Sprechlagen des mittleren Bereichs bis hin zum standardnächsten Pol der Regionalsprache (Regionalakzent oder Regionalstandard) erstreckt.
Am Beginn des Beitrags steht ein Überblick über Datenklassen, die als empirische Grundlage für regionalsprachliche Fragestellungen herangezogen werden können. Eine Präsentation regionalsprachlicher Korpora, die auf den vorgestellten Datenklassen aufbauen, schließt sich an, wobei hier lediglich einige ausgewählte, online zugängliche Korpora Berücksichtigung finden (können). In einem nächsten Schritt werden die vorgestellten Korpora zur konkreten variationslinguistischen Analyse von zwei regionalsprachlichen Phänomenen aus dem lautlichen („g-Spirantisierung“) bzw. grammatischen Bereich („Rezipientenpassiv“) herangezogen und auf ihre Ergiebigkeit geprüft.