Refine
Year of publication
- 2009 (3) (remove)
Document Type
- Part of a Book (2)
- Other (1)
Has Fulltext
- yes (3)
Is part of the Bibliography
- no (3)
Keywords
- Deutsches Referenzkorpus (DeReKo) (2)
- Institut für Deutsche Sprache <Mannheim> (2)
- Korpus <Linguistik> (2)
- Annotation (1)
- Deutsch (1)
- Grammatiktheorie (1)
- Parallelismus (1)
- Schriftsprache (1)
Publicationstate
Reviewstate
Publisher
- Institut für Deutsche Sprache (1)
- Narr (1)
- de Gruyter (1)
Das Phänomen Sprache ist in Form des beobachtbaren Sprachgebrauchs fast allgegenwärtig, gleichzeitig bleibt das offenkundig Regel- und Systemhafte dieses Phänomens überraschend ungreifbar. Wegen der überwältigenden Komplexität natürlicher Sprachen entsteht bei jedem Versuch, dieses Systemhafte in einer Theorie mit explanatorischem Anspruch zu fassen, eine breite Kluft zwischen der angestrebten theoretischen Beschreibungsebene einerseits und der phänomenologisch zugänglichen Ebene des Sprachgebrauchs andererseits.
Ausgehend von allgemeinen wissenschaftstheoretischen Überlegungen, wie man angesichts dieser Kluft überhaupt zu hinreichend abgesicherten Erkenntnissen für eine explanatorische Theoriebildung kommen kann, betonen die Autoren die Notwendigkeit, sich dem Untersuchungsgegenstand Sprache mit möglichst wenigen Vorannahmen über diesen Gegenstand selbst zu nähern und sich dabei konsequent von der Empirie leiten zu lassen. Sie werben nachdrücklich für eine emergentistische Perspektive auf Sprache, der zufolge alles Regelhafte und Konventionelle in der Sprache ein Epiphänomen des Sprachgebrauchs ist und von den Sprachteilnehmern fortlaufend ausgehandelt wird. Eine treibende Kraft hierbei ist, so wird argumentiert, der Begriff der Ähnlichkeit. Auf dieser Grundlage wird schließlich ein Forschungsprogramm entworfen, das die Wirkung des Faktors Ähnlichkeit auf die Sprache nachzuzeichnen und dadurch schrittweise zu ähnlichen Generalisierungen zu gelangen versucht wie die Sprachgemeinschaft.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.