Korpuslinguistik
Refine
Year of publication
Document Type
- Article (105) (remove)
Has Fulltext
- yes (105)
Keywords
- Korpus <Linguistik> (78)
- Deutsch (44)
- Gesprochene Sprache (17)
- Korpuslinguistik (11)
- corpus linguistics (8)
- Deutsches Referenzkorpus (DeReKo) (7)
- Textkorpus (7)
- Computerlinguistik (6)
- Institut für Deutsche Sprache <Mannheim> (6)
- Sprachdaten (6)
Publicationstate
- Veröffentlichungsversion (51)
- Zweitveröffentlichung (29)
- Postprint (9)
Reviewstate
- Peer-Review (62)
- (Verlags)-Lektorat (18)
- Peer-review (1)
- Peer-reviewed (1)
Publisher
- Institut für Deutsche Sprache (13)
- de Gruyter (10)
- Leibniz-Institut für Deutsche Sprache (IDS) (8)
- Erich Schmidt (6)
- Universitäts- und Landesbibliothek Darmstadt (6)
- Editura Academiei Române (5)
- Gesellschaft für Sprachtechnologie und Computerlinguistik (3)
- Edinburgh University Press (2)
- MDPI (2)
- Peter Lang (2)
The TEI has served for many years as a mature annotation format for corpora of different types, including linguistically annotated data. Although it is based on the consensus of a large community, it does not have the legal status of a standard. During the last decade, efforts have been undertaken to develop definitive de jure standards for linguistic data that not only act as a normative basis for the exchange of language corpora but also address recent advancements in technology, such as web-based standards, and the use of large and multiply annotated corpora.
In this article we will provide an overview of the process of international standardization and discuss some of the international standards currently being developed under the auspices of ISO/TC 37, a technical committee called “Terminology and other Language and Content Resources”. After that the relationship between the TEI Guidelines and these specifications, according to their formal model, notation format, and annotation model, will be discussed. The conclusion of the paper provides recommendations for dealing with language corpora.
Deutsch ist keine isolierte Sprache. Seine heutige Gestalt ist von anderen europäischen Sprachen beeinflusst. Eine jahrhundertelange Auseinandersetzung mit antikem, italienischem, französischem und schließlich englischem Weltverständnis bescherten uns mit einem abendländischen Begriffsgefüge auch einen gemeinsamen Wortschatz, der sich vielfach von griechischen und lateinischen Wurzeln ableitet und willkommene Brücken zu anderen Sprachen baut. Diesem »lessico intellettuale europeo« (so der Titel eines europäischen Langzeitprojekts) verdankten frühere Bildungseliten die Leichtigkeit gegenseitigen Verständnisses in einem durchaus polyphonen europäischen Diskurs, in dem kulturelle und sprachliche Identitäten im nationalen und regionalen Rahmen gewahrt waren. So soll es auch in einem vereinigten Europa bleiben. Ein demokratisches Europa beruht auf der Akzeptanz unterschiedlicher Kulturräume bei gleichzeitiger Anerkennung allgemeinverbindlicher Diskursregeln. Funktionieren kann das nur, insoweit es gelingt, Mehrsprachigkeit zu verallgemeinern. Hier kommen auf die nationalen Sprachinstitute in Europa neue Aufgaben zu.
Eine angemessene, sachgemäße Diskussion über Stärken und Schwächen, Möglichkeiten und Grenzen der Korpuslinguistik ist überschattet von vielen Mythen, die sich mittlerweile eingebürgert haben und die in vielen Diskussionen – gerade unter Linguisten – immer wieder aufkommen. An dieser Stelle möchten wir einige der verbreitetsten Mythen zusammenstellen und die Hintergründe aus dieser korpuslinguistischen Perspektive erörtern.