Korpuslinguistik
Refine
Year of publication
Document Type
- Part of a Book (200)
- Conference Proceeding (161)
- Article (105)
- Book (34)
- Part of Periodical (10)
- Other (9)
- Working Paper (7)
- Review (4)
- Doctoral Thesis (3)
- Preprint (3)
Language
- German (274)
- English (265)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (457)
- Deutsch (165)
- Gesprochene Sprache (64)
- Annotation (56)
- Forschungsdaten (36)
- Computerlinguistik (33)
- Korpuslinguistik (28)
- corpus linguistics (27)
- Deutsches Referenzkorpus (DeReKo) (25)
- Grammatik (25)
Publicationstate
- Veröffentlichungsversion (322)
- Zweitveröffentlichung (142)
- Postprint (23)
- Erstveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (237)
- Peer-Review (202)
- Peer-review (5)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (5)
- Zweitveröffentlichung (3)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (2)
- Verlags-Lektorat (2)
- Peer-reviewed (1)
- Review-Status-unbekannt (1)
- Verlagslektorat (1)
Publisher
- de Gruyter (81)
- Institut für Deutsche Sprache (58)
- Narr (33)
- European Language Resources Association (ELRA) (25)
- European Language Resources Association (24)
- Leibniz-Institut für Deutsche Sprache (IDS) (20)
- Narr Francke Attempto (15)
- Leibniz-Institut für Deutsche Sprache (11)
- Linköping University Electronic Press (10)
- CLARIN (8)
Die Universität Bonn verfügt über ein elektronisches Korpus von Immanuel Kants gesammelten Schriften gemäß den Abteilungen 1–3 der Akademie-Ausgabe. Dieses Korpus bildet die Grundlage einer elektronischen Edition der Schriften Kants, auf die über die Webseite des ehemaligen Instituts für Kommunikationsforschung und Phonetik zugegriffen werden kann: http://www.ikp.uni-bonn.de/kant/. Im vorliegenden Artikel wird über den Umfang und den Zustand des Bonner Korpus und der elektronischen Edition berichtet.
The TEI has served for many years as a mature annotation format for corpora of different types, including linguistically annotated data. Although it is based on the consensus of a large community, it does not have the legal status of a standard. During the last decade, efforts have been undertaken to develop definitive de jure standards for linguistic data that not only act as a normative basis for the exchange of language corpora but also address recent advancements in technology, such as web-based standards, and the use of large and multiply annotated corpora.
In this article we will provide an overview of the process of international standardization and discuss some of the international standards currently being developed under the auspices of ISO/TC 37, a technical committee called “Terminology and other Language and Content Resources”. After that the relationship between the TEI Guidelines and these specifications, according to their formal model, notation format, and annotation model, will be discussed. The conclusion of the paper provides recommendations for dealing with language corpora.
Deutsch ist keine isolierte Sprache. Seine heutige Gestalt ist von anderen europäischen Sprachen beeinflusst. Eine jahrhundertelange Auseinandersetzung mit antikem, italienischem, französischem und schließlich englischem Weltverständnis bescherten uns mit einem abendländischen Begriffsgefüge auch einen gemeinsamen Wortschatz, der sich vielfach von griechischen und lateinischen Wurzeln ableitet und willkommene Brücken zu anderen Sprachen baut. Diesem »lessico intellettuale europeo« (so der Titel eines europäischen Langzeitprojekts) verdankten frühere Bildungseliten die Leichtigkeit gegenseitigen Verständnisses in einem durchaus polyphonen europäischen Diskurs, in dem kulturelle und sprachliche Identitäten im nationalen und regionalen Rahmen gewahrt waren. So soll es auch in einem vereinigten Europa bleiben. Ein demokratisches Europa beruht auf der Akzeptanz unterschiedlicher Kulturräume bei gleichzeitiger Anerkennung allgemeinverbindlicher Diskursregeln. Funktionieren kann das nur, insoweit es gelingt, Mehrsprachigkeit zu verallgemeinern. Hier kommen auf die nationalen Sprachinstitute in Europa neue Aufgaben zu.
Eine angemessene, sachgemäße Diskussion über Stärken und Schwächen, Möglichkeiten und Grenzen der Korpuslinguistik ist überschattet von vielen Mythen, die sich mittlerweile eingebürgert haben und die in vielen Diskussionen – gerade unter Linguisten – immer wieder aufkommen. An dieser Stelle möchten wir einige der verbreitetsten Mythen zusammenstellen und die Hintergründe aus dieser korpuslinguistischen Perspektive erörtern.
Die im Folgenden dargestellte korpusgesteuerte Methode "UWV-Analysemodell" wurde auf der Basis der Forschungen zu usuellen Wortverbindungen (UWV) (vgl. Steyer 2000, 2003, 2004, Steyer/Lauer 2007, Brunner/Steyer 2007, Steyer 2008, Steyer demn.) und zahlreicher, exhaustiver Analysen in den letzten Jahren entwickelt. Ziel war ein empirisches Vorgehensmodell, das es ermöglicht, die Differenziertheit und Vernetztheit von Wortverbindungen auf verschiedenen Abstraktionsebenen ausgehend von Kookkurrenzdaten angemessen darzustellen. Daher ging es in dieser Arbeitsphase nicht darum, usuelle Wortverbindungen des Deutschen möglichst umfassend und in großer Menge zu inventarisieren, sondern die "innere Natur" von Wortverbindungen zwischen Varianz und Invarianz mit unterschiedlichen Graden an lexikalischer Spezifiziertheit sowie ihre wechselseitigen Verbindungen im Detail zu erfassen und zu beschreiben.