Refine
Year of publication
- 2013 (40) (remove)
Document Type
- Part of a Book (25)
- Part of Periodical (7)
- Book (6)
- Article (1)
- Report (1)
Has Fulltext
- yes (40)
Keywords
- Deutsch (39)
- Mediensprache (15)
- Massenmedien (14)
- Russisch (8)
- Russland (6)
- Englisch (5)
- Kolloquium (5)
- Neuerscheinungen (5)
- Newsletter (5)
- Projekte (5)
Publicationstate
Reviewstate
Publisher
- Institut für Deutsche Sprache (40) (remove)
Die Abbildung und Modellierung von Varianz wird im Projekt Wechselwirkungen zwischen linguistischen Verfahren, Methoden und Algorithmen auf der sprachlichen Seite u.a. repräsentiert durch die Metalemmaliste, die Lemmata der neuhochdeutschen Standardsprache mit diachronisch und diatopisch markierten Lemmata verknüpft. Die zeitlich und regional markierten Varianten stammen aus Wörterbüchern des Trierer Wörterbuchnetzes. Die Lemmata der nhd. Standardsprache werden in einer korpusgenerierten Basislemmaliste (BLL) zur Verfügung gestellt, in der neben den Lemmata auch Angaben zu deren Wortart(en) und Gebrauchshäufigkeit verzeichnet sind. Die Lemmata der BLL bilden das Gemeinsame Dritte, auf das die Lemmata der Varietäten-Wörterbücher in der Metalemmaliste abgebildet sind, die Lemmata der BLL der nhd. Standardsprache konstituieren die Metalemmata der Metalemmaliste. Die BLL soll in ihrer Funktion als Tertium Comparationis den Sprachgebrauch im heutigen Standarddeutsch widerspiegeln. Dadurch wird sichergestellt, dass die verschiedenen Instanzen der Varietätenlemmata auf Lemmata abgebildet werden, die momentan in der Standardsprache gebräuchlich sind. Über das Metalemma lassen sich die äquivalenten Ausdrücke in den Varietäten finden, ohne dass man von deren regionalen oder historischen Ausprägungen Kenntnisse besitzt. Die Umsetzung der semasiologischen Zugriffsmöglichkeit auf sämtliche Varietätenlemmata über ein Lemma der nhd. Standardsprache erfolgt auf der Grundlage einer XML-basierten Datenbank nach aktuellen Standards der Kodierung von Lexikoneinträgen (TEI P5). Die Metalemmaliste ist dynamisch und netzartig konzipiert, so dass immer neue Teilbereiche, Verzweigungen und Ontologien angedockt werden können (vgl. TV 2). Die Anknüpfung der Varietätenlemmata an die Lemmata der nhd. Standardsprache aus der BLL erfolgt mit Hilfe von Algorithmen, die im TV 3.2. (Informatik Würzburg) implementiert wurden.
In der vorliegenden Arbeit hatte ich zum Ziel zu zeigen, wie Franz Xaver Kroetz an den zwei zeitlich auseinanderliegenden dramatischen Stücken "Heimarbeit" und "Mensch Meier" unterschiedliche soziale Wirklichkeiten darstellt. Zu diesem Zweck galt es herauszuarbeiten, welche Sprache bzw. sprachlichen Merkmale der Dramatiker bei der Gestaltung dieser dramatischen Lebenswelten verwendet hat, um zu zeigen, dass hier typische Figuren aus den "einfachen" bzw. "aufstiegsorientierten" Arbeitermilieu sprechen.
Korpora gesprochener Sprache werden mindestens seit den 1950er Jahren von Sprachwissenschaftlern und Forschern anderer Disziplinen mit verschiedensten Forschungsinteressen aufgebaut. Die technischen Möglichkeiten für die Erhebung und Bereitstellung solcher Daten haben sich seitdem fortwährend und grundlegend gewandelt. Heute kann es als Normalfall angesehen werden, dass ein Korpus gesprochener Sprache digital erhoben wird. Die wissenschaftliche Community ist außerdem auf dem Wege, sich auf gewisse Mindeststandards zu einigen, die bei der Erhebung bezüglich Dokumentation, Strukturierung und Enkodierung der Daten eingehalten werden sollten, um eine möglichst nachhaltige Nutzung der Korpora zu ermöglichen. Verschiedene Datenzentren schließlich haben sich zum Ziel gesetzt, Korpora gesprochener Sprache zu einer eben solchen Nachnutzung dauerhaft zu archivieren und in digitalen Infrastrukturen bereitzustellen. Eine der wichtigsten Aufgaben solcher Zentren ist es, Korpora aus abgeschlossenen Projekten zu übernehmen und sie so aufzubereiten, dass eine dauerhafte Archivierung und Bereitstellung überhaupt möglich wird. Dieser Leitfaden basiert auf Erfahrungen, die hinsichtlich dieser Aufgabe an zwei Standorten – dem Sonderforschungsbereich 538 ‚Mehrsprachigkeit’ bzw. dem Zentrum für Sprachkorpora (HZSK) an der Universität Hamburg, sowie dem Archiv für gesprochenes Deutsch (AGD) am Institut für Deutsche Sprache in Mannheim – gesammelt wurden.1 Am SFB 538 (Laufzeit: 1999-2011) hatte das Projekt Z2 „Computergestützte Erfassungs- und Analysemethoden“ die Aufgabe übernommen, Korpora aus den Teilprojekten des SFB nach deren Abschluss für eine Archivierung und Nachnutzung vorzubereiten (siehe dazu Schmidt/Bennöhr 2007). Die Archivierung und Bereitstellung der Daten im Gesamtumfang von 30 Korpora erfolgt nun im zum Abschluss des SFB (2011) gegründeten HZSK (Hedeland/Lehmber /Schmidt/Wörner 2011). Das Archiv für Gesprochenes Deutsch bzw. dessen Vorläufer, das Deutsche Spracharchiv (Stift/Schmidt 2014), fungiert bereits seit den 1960er Jahren als eine zentrale Sammelstelle für Korpora des gesprochenen Deutsch. Im Laufe der Jahre hat es aus IDS-internen und -externen Projekten knapp 50 Korpora übernommen, die verschiedene Stadien der Aufbereitung erfahren haben und der wissenschaftlichen Gemeinschaft nun u.a. über die Datenbank für Gesprochenes Deutsch (DGD2, Schmidt/Dickgießer/Gasch 2013) zur Verfügung gestellt werden. Das derzeitige Angebot dieser beiden Einrichtungen zeigt, dass es prinzipiell möglich ist, von den im einleitenden Zitat beschriebenen Sammlungen zu dauerhaft nachnutzbaren digitalen 1 Die Konzeption dieses Leitfadens war Gegenstand eines Arbeitspakets im Projekt „Etablierung eines Schwerpunkts ‚Mehrsprachigkeit und Gesprochene Sprache‘ am Hamburger Zentrum für Sprachkorpora“, das von der Deutschen Forschungsgemeinschaft im Rahmen des Förderprogramms „Literaturversorgungs- und Informationssysteme (LIS)“ gefördert wurde. An der Umsetzung haben sich die genannten MitarbeiterInnen des HZSK und des AGD beteiligt.4 Ressourcen zu gelangen. Die Erfahrung zeigt aber auch, dass dies oft ein langwieriger Prozess mit vielen unvorhergesehenen Hindernissen ist, an dessen Ende man sich zumindest gelegentlich die Frage stellen kann, ob Aufwand und Nutzen der Datenaufbereitung in einem angemessenen Verhältnis zueinander stehen. Zweck dieses Leitfadens ist es, Kriterien für die Beurteilung von Aufbereitungsaufwand und Nachnutzbarkeit von Korpora gesprochener Sprache zu definieren, mittels derer bereits bei der Planung eines entsprechenden Projektes eine Abschätzung der Kosten und Nutzen getroffen werden kann. Kosten bezeichnen in diesem Kontext insbesondere den zeitlichen Arbeitsaufwand, der sich nicht immer leicht in monetäre Kosten umrechnen lässt. Die Nachnutzbarkeit definiert sich vor allem darüber, wie offen oder restriktiv der Zugang zum Korpus gestaltet wird und über die Quantität und Qualität der Korpusbestandteile. Der Leitfaden gliedert sich in sechs Abschnitte, die in Form von strukturierten Fragebäumen die wichtigsten Eigenschaften einer aufzubereitenden Ressource abfragen. Den Fragebäumen sind Erläuterungen zum besseren Verständnis der einzelnen Fragen vorangestellt. Die Pfade in den Fragebäumen führen jeweils zu einem "Ampelsymbol", anhand dessen über das weitere Vorgehen bei der Aufbereitung entschieden werden kann.