430 Deutsch
Refine
Year of publication
Document Type
- Article (5)
- Part of a Book (5)
- Other (4)
- Book (2)
Keywords
- Datenbank (16) (remove)
Publicationstate
- Zweitveröffentlichung (5)
- Postprint (2)
- Veröffentlichungsversion (2)
Reviewstate
- (Verlags)-Lektorat (5)
- Peer-Review (2)
Publisher
- Institut für Deutsche Sprache (6)
- de Gruyter (2)
- Friedrich H. (1)
- Narr (1)
- Narr Francke Attempto (1)
- Niemeyer (1)
- V&R Unipress (1)
- Winter (1)
Auch Linguist*innen, die gesprochene Sprache untersuchen, kommen schon seit längerem nicht mehr ohne digitale Infrastrukturen aus. Seit Beginn der Gesprochene-Sprache-Forschung werden Gespräche aufgezeichnet und anschließend transkribiert, da die flüchtigen, innerhalb von Bruchteilen von Sekunden stattfindenden Feinheiten des Gesprochenen paradoxerweise nur durch Verschriftung im Detail untersucht werden können. Diese Detailuntersuchungen beschränkten sich im vergangenen Jahrhundert meist auf wenige Einzelbelege für ein untersuchtes Phänomen. Das heißt, die Forschenden hatten den unmittelbaren Überblick über ihre Datenkollektionen und benötigten keine elaborierten digitalen Methoden zu deren Aufbereitung, Annotation und Analyse. Dies hat sich in den letzten beiden Jahrzehnten stark geändert: Es wurden vermehrt gezielt große Datenmengen gesammelt, in Datenbanken organisiert und der Forschungsgemeinschaft zur Nutzung zur Verfügung gestellt. An erster Stelle muss hier das Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK) genannt werden (vgl. Schmidt 2014). Dieses wird seit 2008 am Leibniz-Institut für Deutsche Sprache (IDS) aufgebaut und ist heute das größte Referenzkorpus für das gesprochene Deutsch.
Die Dokumentation und Untersuchung deutscher Sprachinselvarietäten war schon immer eine der wichtigsten Aufgaben der germanistischen Sprachwissenschaft. Mittlerweile stellt sich aber immer öfter die Frage der Nachhaltigkeit der erhobenen Spachinseldaten. Insbesondere in Bezug auf die vom Sprachtod bedrohten Varietäten, wie z.B. im Fall der russlanddeutschen Dialekte aus den noch intakten Sprachinseln der ehemaligen Sowjetunion, ist es äußerst wichtig, die existierenden Audioaufnahmen systematisch und dauerhaft zu archivieren. Aber nicht nur die Archivierung, sondern auch der freie und unkomplizierte Zugang zu diesen Materialien ist ein wesentlicher Aspekt im Konzept der Nachhaltigkeit. Wie sollte dieser Zugang aber gestaltet sein und in welcher Form sollen die Daten präsentiert werden? Auf genau diese Frage ist das Projekt „Elektronisches Wörterbuch. Ein Online-Informationsangebot zu Sprache und Dialekten der Russlanddeutschen" eingegangen. In diesem Projekt wurden historische Tonaufnahmen russlanddeutscher Dialekte linguistisch aufbereitet und in Form einer strukturierten Russlanddeutschen Dialektdatenbank (RuDiDat) online veröffentlicht. Diese Datenbank ist frei verfügbar und ermöglicht die Recherche im Korpus des Russlanddeutschen. Der vorliegende Beitrag stellt die Datenbank vor und thematisiert Herausforderungen, die durch unterschiedliche Ausprägungsformen des Russlanddeutschen entstehen könnten, wenn man die im Internet freigegebenen Sprachinseldaten für vergleichende Analysen heranzieht.
Die MoCoDa 2 (https://db.mocoda2.de) ist eine webbasierte Infrastruktur für die Erhebung, Aufbereitung, Bereitstellung und Abfrage von Sprachdaten aus privater Messenger-Kommunikation (WhatsApp und ähnliche Anwendungen). Zentrale Komponenten bilden (1) eine Datenbank, die für die Verwaltung von WhatsApp-Sequenzen eingerichtet ist, die von Nutzer/innen gespendet und für linguistische Recherche- und Analysezwecke aufbereitet wurden, (2) ein Web-Frontend, das die Datenspender/innen dabei unterstützt, gespendete Sequenzen um analyserelevante Metadaten anzureichern und zu pseudonymisieren, und (3) ein Web-Frontend, über das die Daten für Zwecke in Forschung und Lehre abgefragt werden können. Der Aufbau der MoCoDa-2-Infrastruktur wurde im Rahmen des Programms „Infrastrukturelle Forderung für die Geistes- und Gesellschaftswissenschaften“ vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen gefordert. Ziel des Projekts ist es, ein aufbereitetes Korpus zur Sprache und Interaktion in der deutschsprachigen Messenger-Kommunikation bereitzustellen, das speziell auch für qualitative Untersuchungen eine wertvolle Grundlage bildet.
In der Datenbank zum Datensatz attributive_Adjektive_1.csv finden sich 1.598 Belege zu artikellosen Nominalphrasen mit je zwei attributiven Adjektiven im Dativ Singular Maskulinum oder Neutrum.
Die Datenbank attributive Adjektive enthält zu jedem Beleg neben dem Satzkontext eine Reihe von Annotationen. Dazu gehören Metadaten wie Register und regionale Zuordnung sowie Annotationen zur Phonologie, Morphosyntax, Semantik und Frequenz. Anhand dieser Annotationen lassen sich Hypothesen zur Adjektivflexion und -reihenfolge überprüfen. Nach einer Auswahl aus diesen Annotationen können Sie hier suchen. Alternativ können Sie unter „Download“ das gesamte Suchergebnis mit allen Annotationen und inklusive aller Belege, die bei der Untersuchung von Adjektivflexion und -reihenfolge als Fehlbelege eingestuft worden sind, herunterladen.
Durch die Medienrevolution des Computerzeitalters hat auch die Lexikografie tiefgreifend verändert. Es stellen sich neue Fragen: Kann aus einer Datenbasis gleichzeitig ein gedrucktes und ein elektronisches Wörterbuch entwickelt werden? Welche innovativen Funktionalitäten können den Wörterbuchbenutzern im elektronischen Medium angeboten werden? Wie kann die Erarbeitung der Daten im lexikografischen Prozess bestmöglich unterstützt werden? Die Basis für die Möglichkeiten im Umgang mit den lexikografischen Daten bildet dabei die Datenmodellierung und -aufbereitung. Daher ist für die Erarbeitung eines Wörterbuchs eine Konzeption zur Modellierung und Aufbereitung der zugrunde liegenden Daten von entscheidender Bedeutung.
Die vorliegende Arbeit stellt nachdrücklich dar, wie eine wohlüberlegte, methodisch fundierte und vor allem anwendbare Datenmodellierung zu weitreichenden Verbesserungen der lexikografischen Praxis führt. Dazu wird ein Modell für den lexikografischen Prozess entwickelt, welches die Erarbeitung der Daten und die Recherchierbarkeit sowohl für Lexikografen als auch Wörterbuchbenutzer optimiert.
This paper is about the workflow for construction and dissemination of FOLK (Forschungs - und Lehrkorpus Gesprochenes Deutsch – Research and Teaching Corpus of Spoken German), a large corpus of authentic spoken interaction data, recorded on audio and video. Section 2 describes in detail the tools used in the individual steps of transcription, anonymization, orthographic normalization, lemmatization and POS tagging of the data, as well as some utilities used for corpus management. Section 3 deals with the DGD (Datenbank für Gesprochenes Deutsch - Database of Spoken German) as a tool for distributing completed data sets and making them available for qualitative and quantitative analysis. In section 4, some plans for further development are sketched.