Korpuslinguistik
Refine
Year of publication
Document Type
- Article (18) (remove)
Has Fulltext
- yes (18)
Keywords
- Korpus <Linguistik> (15)
- Deutsch (9)
- Gesprochene Sprache (3)
- Deutsches Referenzkorpus (DeReKo) (2)
- Gegenwartssprache (2)
- Institut für Deutsche Sprache <Mannheim> (2)
- Sprachdaten (2)
- Sprachgebrauch (2)
- Urheberrecht (2)
- Aufbereitung (1)
Publicationstate
- Veröffentlichungsversion (14)
- Zweitveröffentlichung (3)
- Postprint (2)
Reviewstate
- (Verlags)-Lektorat (18) (remove)
Publisher
Der Beitrag skizziert die Genese und Komplexität des Konzepts ‚Usuelle Wortverbindung‘ (UWV) vor dem Hintergrund der korpuslinguistischen Wende. Die Möglichkeit, sprachliche Massendaten untersuchen zu können, erbrachte neue Einsichten in Hinblick auf Status, Form, Funktion, Festigkeit und Variabilität dieser zentralen Wortschatzeinheiten – gleichzeitig aber auch in Hinblick auf ihre Unschärfen und vielfachen Überlappungen. Eine der folgenreichsten Erkenntnisse ist, dass UWVs auf vorgeprägten Schemata und Mustern basieren und in ein komplexes Netz von Ausdrücken ähnlicher Art eingebettet sind. Für die Aneignung sprachlichen Wissens ist das Verstehen solcher primär funktionalen Musterbildungen elementar.
Korpora sind – als idealerweise digital verfüg- und auswertbare Sammlungen von Texten – eine wertvolle empirische Grundlage linguistischer Studien. Eigene Korpora aufzubauen ist, je nach Sprachausschnitt, mit unterschiedlichen Herausforderungen verbunden. Zu allen Texten sollten Metadaten zu den Textentstehungsbedingungen (Zeit, Quelle usw.) erhoben werden, um diese als Variablen in Auswertungen einbeziehen zu können. Andere Informationen wie etwa die Themenzugehörigkeit (oder Annotationen auch unterhalb der Textebene) sind auch hilfreich, in vielerlei Hinsicht aber schwieriger pauschal taxonomisch vorzugeben, geschweige denn, operationell zu ermitteln. Jenseits der »materiellen« Verfügbarkeit der Texte und der technischen Aufbereitung sind es das Urheberrecht, vor allem Lizenz- bzw. Nutzungsrechte, sowie ethische Verantwortung und Persönlichkeitsrechte, die beachtet werden müssen, auch um zu gewährleisten, dass die Daten für die Reproduktion der Studien Dritten rechtssicher zugänglich gemacht werden dürfen. Bevor für ein Vorhaben ein neues Korpus aufgebaut wird, sollte deshalb am besten geprüft werden, ob nicht ein geeignetes bereits zur Verfügung steht. Wenn ein Korpus aufgebaut wird, sollte für eine nachhaltige Aufbewahrung und Zugänglichmachung gesorgt und die Existenz an geeigneter Stelle dokumentiert werden.
Die Gemeinsame Wissenschaftskonferenz hat den Verbund „Text+“ bewilligt. „Text+“ hat sich zum Ziel gesetzt, text- und sprachbasierte Forschungsdaten langfristig zu erhalten und ihre breite Nutzung in der Wissenschaft zu ermöglichen. Die Initiative startet somit nach mehrjähriger Vorbereitungszeit und wird zunächst für fünf Jahre durch die Deutsche Forschungsgemeinschaft gefördert.
Auf dem Weg zu einer Kartographie: automatische und manuelle Analysen am Beispiel des Korpus ISW
(2021)
Plea for a modern corpus-based German lexicography
There is an eminent research tradition within German lexicography; Grimm’s dictionary, the most impressive achievement of this scholarly work, was soon to become the model of many similar enterprises. But not only is it largely outdated by now (most entries are based on work of the 19th century): there is generally an increasing gap in German lexicographical research between what is needed and possible, on the one hand, and what is actually achieved, on the other. Several reasons for this unsatisfactory situation are discussed; the most important among these is probably that the actual practice of all larger enterprises in this field is still dominated by methods of the 19th century. The new edition of Grimm’s dictionary, which was started in the Fifties, will probably never be completed, if continued as at present. The only way to overcome this unsatisfactory situation and to approach the standards reached in other countries would be a comprehensive corpus-based lexical enterprise with highly flexible task-specific software tools.