Korpuslinguistik
Refine
Year of publication
- 2020 (16) (remove)
Document Type
- Part of a Book (9)
- Review (2)
- Article (1)
- Conference Proceeding (1)
- Other (1)
- Report (1)
- Working Paper (1)
Language
- German (16) (remove)
Keywords
- Korpus <Linguistik> (14)
- Deutsch (3)
- Forschungsdaten (3)
- Sprachgebrauch (3)
- Computerunterstützte Kommunikation (2)
- Grammatik (2)
- Infrastruktur (2)
- Leibniz-Institut für Deutsche Sprache (IDS) (2)
- Online-Dienst (2)
- Sprachstatistik (2)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (10)
- Peer-Review (3)
Publisher
Die zentrale Aufgabenstellung des Verbundprojektes TextTransfer (Pilot) war eine Machbarkeitsprüfung für die Entwicklung eines Text-Mining-Verfahrens, mit dem Forschungsergebnisse automatisiert auf Hinweise zu Transfer- und Impactpotenzialen untersucht werden können. Das vom Projektkoordinator IDS verantwortete Teilprojekt konzentrierte sich dabei auf die Entwicklung der methodischen Grundlagen, während der Projektpartner TIB vornehmlich für die Bereitstellung eines geeigneten Datensatzes verantwortlich war. Solchen automatisierten Verfahren liegen zumeist textbasierte Daten als physisches Manifest wissenschaftlicher Erkenntnisse zugrunde, die im Falle von TextTransfer (Pilot) als empirische Grundlage herangezogen wurden. Das im Verbund zur Anwendung gebrachte maschinelle Lernverfahren stützte sich ausschließlich auf deutschsprachige Projektendberichte öffentlich geförderter Forschung. Diese Textgattung eignet sich insbesondere hinsichtlich ihrer öffentlichen Verfügbarkeit bei zuständigen Gedächtnisorganisationen und aufgrund ihrer im Vergleich zu anderen Formaten wissenschaftlicher Publikation relativen strukturellen wie sprachlichen Homogenität. TextTransfer (Pilot) ging daher grundsätzlich von der Annahme struktureller bzw. sprachlicher Ähnlichkeit in Berichtstexten aus, bei denen der Nachweis tatsächlich erfolgten Transfers zu erbringen war. Im Folgenden wird in diesen Fällen von Texten bzw. textgebundenen Forschungsergebnissen mit Transfer- und Impactpotenzial gesprochen werden. Es wurde ferner postuliert, dass sich diese Indizien von sprachlichen Eigenschaften in Texten zu Projekten ohne nachzuweisenden bzw. ggf. auch niemals erfolgtem, aber potenziell möglichem Transfer oder Impact unterscheiden lassen. Mit einer Verifizierung dieser Annahmen war es möglich, Transfer- oder Impactwahrscheinlichkeiten in großen Mengen von Berichtsdaten ohne eingehende Lektüre zu prognostizieren.
Dieser Beitrag beschreibt, welche Schritte nötig sind, um die Daten des Archivs der Grafen v. Platen (AGP) für Forschungsdateninfrastrukturen (FDI) zugänglich zu machen: die Daten konvertieren, die Metadaten extrahieren, Daten und Metadaten indizieren sowie die Datenmodelle für Daten und Metadaten so ergänzen, dass sie die Bestände des Archivs sinnvoll erfassen. Zugleich wird begründet, weshalb man überhaupt solchen Aufwand treiben sollte: nämlich, damit die Daten einem größeren Publikum zur Verfügung stehen und überdies mit Werkzeugen bearbeitet werden können, die in den Infrastrukturen zur Verfügung stehen, und damit eine weitere Verlinkung und Kombination mit externen Ressourcen erfolgen kann, sodass ein deutlicher Mehrwert entstehen kann.
Dieser Beitrag widmet sich der Beschreibung des Korpus Deutsch in Namibia (DNam), das über die Datenbank für Gesprochenes Deutsch (DGD) frei zugänglich ist. Bei diesem Korpus handelt es sich um eine neue digitale Ressource, die den Sprachgebrauch der deutschsprachigen Minderheit in Namibia sowie die zugehörigen Spracheinstellungen umfassend und systematisch dokumentiert. Wir beschreiben die Datenerhebung und die dabei angewandten Methoden (freie Gespräche, „Sprachsituationen“, semi-strukturierte Interviews), die Datenaufbereitung inklusive Transkription, Normalisierung und Tagging sowie die Eigenschaften des verfügbaren Korpus (Umfang, verfügbare Metadaten usw.) und einige grundlegende Funktionalitäten im Rahmen der DGD. Erste Forschungsergebnisse, die mithilfe der neuen Ressource erzielt wurden, veranschaulichen die vielseitige Nutzbarkeit des Korpus für Fragestellungen aus den Bereichen Kontakt-, Variations-
und Soziolinguistik.
Die Korpusanalyseplattform KorAP wird als Nachfolgesystem zu COSMAS II am Leibniz-Institut für Deutsche Sprache (IDS) entwickelt und erlaubt einen umfassenden Zugriff auf einen Teil von DeReKo (Kupietz et al. 2010). Trotz einiger noch fehlender Funktionalitäten ist KorAP bereits produktiv einsetzbar. Im Folgenden wollen wir am Beispiel der Untersuchung von Social-Media-Korpora einige neue Möglichkeiten und Besonderheiten vorstellen.
Im Projekt fussballlinguistik.de baue ich Korpora mit schriftlichen und mündlichen Texten aus dem Bereich der Fußballberichterstattung auf und mache sie über das webbasierte Tool CQPweb (Hardie 2012) der Fachöffentlichkeit zuganglich (Meier 2017). Die Korpora (www.fussballlinguistik.de/korpora) enthalten vornehmlich internetbasierte Texte wie etwa Liveticker, Spielberichte und Taktikanalysen, aber auch transkribierte Radioreportagen im Umfang von 44,8 Mio. Tokens (Stand Marz 2019) in den Sprachen Deutsch, Englisch, Niederländisch und Russisch in vollständig annotierter Form. Ein Teil der Daten ist zudem in das Deutsche Referenzkorpus (DeReKo 2018–II) eingegangen. Die seit gut 50 Jahren etablierte sprachwissenschaftliche Forschung zur Sprache des Fußballs hat dadurch eine in ihrer Themenspezifik einzigartige empirische Ressource erhalten.
Für den öffentlichen Sprachgebrauch im Internet ist Facebook, das mit 15 Jahren zur älteren Generation von Social-Media-Sites zählt, nach wie vor hochrelevant. Im deutschsprachigen Raum ist es die am meisten genutzte Social-Media-Plattform (Newman et al. 2019). Zu den Diensten gehören unter anderem Facebook-Seiten (Pages), die von Unternehmen, Parteien, Medien und anderen Institutionen oder Individuen betrieben werden und als öffentliche Angebote prinzipiell auch von nicht bei Facebook angemeldeten Personen eingesehen werden können. Solche öffentlichen Facebook-Seiten sind als sites of engagement zwischen gesellschaftlichen Institutionen und Individuen reichhaltige Quellen für die linguistische Forschung.
Im Vergleich zu anderen Plattformen bietet Facebook aber nur einen eingeschränkten Zugriff auf diese öffentlichen Sprach- und Interaktionsdaten (Freelon 2018). Während beispielsweise für Twitter viele Tools zur Datensammlung existieren und auch die Plattform selbst eine ausgebaute Suchmaske bietet, erschweren die limitierten Suchmöglichkeiten der Facebook-Plattform und das fehlende Angebot von einfach nutzbarer Software linguistische Projekte in Forschung und Lehre. Gleichzeitig stellen sich neben den praktischen Fragen an vielen Stellen auch forschungsethische Fragen im Umgang mit Onlinedaten.
Südtirol ist eine mehrsprachige italienische Provinz, in der die Verwendung unterschiedlicher Sprachen, besonders Deutsch und Italienisch, sowie der lokalen deutschen Dialekte in der mündlichen Kommunikation in formalen wie informalen Sprechsituationen einen hohen gesellschaftlichen Stellenwert hat. Mit der Frage, welche Sprachen bzw. Varietäten in der schriftlichen Alltagskommunikation verwendet werden und welche soziolinguistischen Faktoren dabei eine Rolle spielen, hat sich das Projekt DiDi befasst, in dem die Sprach- und Varietätenverwendung in Facebook-Texten näher untersucht wurden. Dabei stellte sich unter anderem heraus, dass das Schreiben im Dialekt besonders unter Jugendlichen weit verbreitet ist (Glaznieks/Frey 2018). Mithilfe des aus diesem Projekt entstandenen und für wissenschaftliche Nutzung frei zugänglichen Facebook-Korpus kann die Sprach- und Varietätenverwendung Südtiroler Facebooknutzer/innen in der internetbasierten Kommunikation aus unterschiedlichen linguistischen Perspektiven untersucht werden.
Die MoCoDa 2 (https://db.mocoda2.de) ist eine webbasierte Infrastruktur für die Erhebung, Aufbereitung, Bereitstellung und Abfrage von Sprachdaten aus privater Messenger-Kommunikation (WhatsApp und ähnliche Anwendungen). Zentrale Komponenten bilden (1) eine Datenbank, die für die Verwaltung von WhatsApp-Sequenzen eingerichtet ist, die von Nutzer/innen gespendet und für linguistische Recherche- und Analysezwecke aufbereitet wurden, (2) ein Web-Frontend, das die Datenspender/innen dabei unterstützt, gespendete Sequenzen um analyserelevante Metadaten anzureichern und zu pseudonymisieren, und (3) ein Web-Frontend, über das die Daten für Zwecke in Forschung und Lehre abgefragt werden können. Der Aufbau der MoCoDa-2-Infrastruktur wurde im Rahmen des Programms „Infrastrukturelle Forderung für die Geistes- und Gesellschaftswissenschaften“ vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen gefordert. Ziel des Projekts ist es, ein aufbereitetes Korpus zur Sprache und Interaktion in der deutschsprachigen Messenger-Kommunikation bereitzustellen, das speziell auch für qualitative Untersuchungen eine wertvolle Grundlage bildet.
Die Kernaufgabe der Projektgruppe des DWDS besteht darin, den in den Korpora enthaltenen Wortschatz lexikografisch und korpusbasiert zu beschreiben. In der modernen Lexikografie werden die Aussagen zu den sprachlichen Aspekten und Eigenschaften der beschriebenen Wörter und zu Besonderheiten ihrer Verwendung auf Korpusevidenz gestutzt. Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsachlich realisiert wird. Zu diesem Zweck bieten wir auf der DWDS-Plattform neben den zeitlich und nach Textsorten ausgewogenen Kernkorpora und den Zeitungskorpora eine Reihe von Spezialkorpora an, die hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora abweichen. Die Webkorpora bilden einen wesentlichen Bestandteil dieser Spezialkorpora.
Der Beitrag untersucht vorhandene Lösungen und neue Möglichkeiten des Korpusausbaus aus Social Media- und internetbasierter Kommunikation (IBK) für das Deutsche Referenzkorpus (DEREKO). DEREKO ist eine Sammlung gegenwartssprachlicher Schriftkorpora am IDS, die der sprachwissenschaftlichen Öffentlichkeit über die Korpusschnittstellen COSMAS II und KorAP angeboten wird. Anhand von Definitionen und Beispielen gehen wir zunächst auf die Extensionen und Überlappungen der Konzepte Social Media, Internetbasierte Kommunikation und Computer-mediated Communication ein. Wir betrachten die rechtlichen Voraussetzungen für einen Korpusausbau aus Sozialen Medien, die sich aus dem kürzlich in relevanten Punkten reformierten deutschen Urheberrecht, aus Persönlichkeitsrechten wie der europäischen Datenschutz-Grundverordnung ergeben und stellen Konsequenzen sowie mögliche und tatsächliche Umsetzungen dar. Der Aufbau von Social Media-Korpora in großen Textmengen unterliegt außerdem korpustechnologischen Herausforderungen, die für traditionelle Schriftkorpora als gelöst galten oder gar nicht erst bestanden. Wir berichten, wie Fragen der Datenaufbereitung, des Korpus-Encoding, der Anonymisierung oder der linguistischen Annotation von Social Media Korpora für DEREKO angegangen wurden und welche Herausforderungen noch bestehen. Wir betrachten die Korpuslandschaft verfügbarer deutschsprachiger IBK- und Social Media-Korpora und geben einen Überblick über den Bestand an IBK- und Social Media-Korpora und ihre Charakteristika (Chat-, Wiki Talk- und Forenkorpora) in DEREKO sowie von laufenden Projekten in diesem Bereich. Anhand korpuslinguistischer Mikro- und Makro-Analysen von Wikipedia-Diskussionen im Vergleich mit dem Gesamtbestand von DEREKO zeigen wir charakterisierende sprachliche Eigenschaften von Wikipedia-Diskussionen auf und bewerten ihren Status als Repräsentant von IBK-Korpora.