Refine
Document Type
- Part of a Book (9)
- Article (2)
Has Fulltext
- yes (11)
Keywords
- Korpus <Linguistik> (11) (remove)
Publicationstate
Reviewstate
- Verlags-Lektorat (11) (remove)
Publisher
- de Gruyter (3)
- De Gruyter (2)
- Institut für Deutsche Sprache (1)
- Narr (1)
- Universitätsverlag C. Winter (1)
- Winter (1)
Eine der linguistischen Teildisziplinen, in der schon seit vielen Jahren korpusgestützt gearbeitet wird, ist die Lexikografie. Wörterbücher sind lange vor der Entstehung großer elektronischer Textsammlungen mit den entsprechenden Korpusrecherche- und -analysewerkzeugen auf der Basis von umfänglichen Belegsammlungen entstanden, die nach dem Verständnis vieler Lexikografen das Korpus (bzw. die Primärquelle) des Wörterbuches darstellen. Noch heute arbeiten verschiedene Großwörterbücher (z. B. das Oxford English Dictionary) am Ausbau ihrer Belegsammlungen und benutzen diese neben zum Teil eigens aufgebauten elektronischen Wörterbuchkorpora im engeren Sinn. Welche Chancen und Probleme sich bei korpusgestützter Arbeit an Wörterbücher ergeben, wird in diesem Beitrag an deutschsprachigen Online-Wörterbüchern aufgezeigt, wobei zunächst einige Definitionen erarbeitet werden müssen. Ein kurzer Ausblick auf die Auswirkungen korpusgestützter Arbeit an Online-Nachschlagewerken auf den lexikografischen Prozess schließt diesen Beitrag ab.
Der Artikel stellt die Projekte vor, die sich im Rahmen der Projektmesse zur „Elektronischen Lexikografie“ präsentiert haben. Diese Messe wurde begleitend zur 46. Jahrestagung des Instituts für Deutsche Sprache veranstaltet. Es wird in diesem Beitrag auf der Basis der Messepräsentationen dargelegt, inwiefern Entwicklungen der Korpuslexikografie und der Internetlexikografie die lexikografische Erfassung syntagmatischer Aspekte des deutschen Wortschatzes befördern und welche lexikografischen Internetressourcen dazu verfügbar sind.
Grammatik - explorativ
(2015)
Die am IDS aufgebauten großen Korpora ermöglichen es, vermeintlich freie und aus grammatikographischer Sicht eben dadurch problematische Varianten des Standarddeutschen systematisch in den Untersuchungsfokus zu stellen. Mit spezifischen Techniken und Werkzeugen kann die korpuslinguistische Arbeit dabei eine recht theorieunabhängige Beschreibung einzelner Varianten grammatischer Phänomene leisten und deren Häufigkeit bestimmen; damit stellt sie auch eine transparente quantitativ-statistische Basis für die Validierung von in der einschlägigen Literatur vertretenen Hypothesen bereit. Wie im Beitrag gezeigt werden soll, ist die Auswertung von Korpusdaten beträchtlichen Umfangs mit modernen computerlinguistischen und statistischen Methoden ganz besonders geeignet, grammatische und außersprachliche Faktoren zu identifizieren, deren Interaktion die Wahl zwischen den vermeintlich freien Alternativen bestimmt.
In diesem Beitrag geht es einerseits um eine Definition dessen, was korpusgestützte Lexikographie ist, und andererseits um eine Bestandsaufnahme der gegenwärtigen Praxis korpusgestützter Lexikographie. Dabei wird ein Schwerpunkt gelegt auf allgemeinsprachige Wörterbücher der Gegenwartssprache, deren Inhalt die Beschreibung von Bedeutung und Verwendung von Lexemen ist. Außerdem liegt die Einschätzung zugrunde, dass die Auswertung elektronischer Korpora die Wörterbucharbeit weitgehend positiv beeinflusst und verändert, vorausgesetzt, dass zugrunde gelegte Korpus wurde für das geplante Wörterbuch so gut wie möglich in Umfang und Zusammensetzung eingerichtet.
Die Programmbereiche „Korpuslinguistik“ und „Mündliche Korpora“ haben am IDS die Aufgabe, Grundlagen für die empirische Erforschung der deutschen Sprache zu legen. Unter anderem sammeln und erstellen sie schriftliche und mündliche Korpora, bereiten sie für eine wissenschaftliche Nutzung auf und stellen sie über Web-Oberflächen (COSMAS, DGD2 demnächst KorAP) zur Verfügung. Unser Beitrag gibt zunächst einen Überblick über Entstehungsgeschichte und aktuellen Stand dieser Arbeiten. Mit einem Blick in die Zukunft widmen wir uns auch der Frage, ob und in welcher Weise das Schlagwort ,Big Data‘ für diese Arten linguistischer Ressourcen relevant ist. In Bezug auf die schriftlichen Korpora wird dabei insbesondere über die diesjährige DEREKo-Erweiterung um über 17 Milliarden Wörter und die damit verbundenen Arbeiten berichtet. In diesem Zusammenhang werden u.a. DeReKos Design, die zugrundeliegende Akquisitionsstrategie und Überlegungen zu Dispersion und Stratifizierbarkeit diskutiert. Die spezifischen Herausforderungen, die sich beim Aufbau eines großen Gesprächskorpus stellen, werden am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) diskutiert. Dabei steht außer Frage, dass angesichts des Aufwandes, den Feldzugang sowie Erschließung der im Feld gewonnenen Audio- und Videodaten bedeuten, vergleichbare Datenmengen und Wachstumsraten wie bei Textkorpora nicht zu erreichen sind. Für den Aufbau umfangreicher mündlicher Korpora ist daher die Entwicklung eines eigenen Methodeninstrumentariums notwendig.
Valenz und Kookkurrenz
(2015)