IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache
- Der Beitrag untersucht vorhandene Lösungen und neue Möglichkeiten des Korpusausbaus aus Social Media- und internetbasierter Kommunikation (IBK) für das Deutsche Referenzkorpus (DEREKO). DEREKO ist eine Sammlung gegenwartssprachlicher Schriftkorpora am IDS, die der sprachwissenschaftlichen Öffentlichkeit über die Korpusschnittstellen COSMAS II und KorAP angeboten wird. Anhand von Definitionen und Beispielen gehen wir zunächst auf die Extensionen und Überlappungen der Konzepte Social Media, Internetbasierte Kommunikation und Computer-mediated Communication ein. Wir betrachten die rechtlichen Voraussetzungen für einen Korpusausbau aus Sozialen Medien, die sich aus dem kürzlich in relevanten Punkten reformierten deutschen Urheberrecht, aus Persönlichkeitsrechten wie der europäischen Datenschutz-Grundverordnung ergeben und stellen Konsequenzen sowie mögliche und tatsächliche Umsetzungen dar. Der Aufbau von Social Media-Korpora in großen Textmengen unterliegt außerdem korpustechnologischen Herausforderungen, die für traditionelle Schriftkorpora als gelöst galten oder gar nicht erst bestanden. Wir berichten, wie Fragen der Datenaufbereitung, des Korpus-Encoding, der Anonymisierung oder der linguistischen Annotation von Social Media Korpora für DEREKO angegangen wurden und welche Herausforderungen noch bestehen. Wir betrachten die Korpuslandschaft verfügbarer deutschsprachiger IBK- und Social Media-Korpora und geben einen Überblick über den Bestand an IBK- und Social Media-Korpora und ihre Charakteristika (Chat-, Wiki Talk- und Forenkorpora) in DEREKO sowie von laufenden Projekten in diesem Bereich. Anhand korpuslinguistischer Mikro- und Makro-Analysen von Wikipedia-Diskussionen im Vergleich mit dem Gesamtbestand von DEREKO zeigen wir charakterisierende sprachliche Eigenschaften von Wikipedia-Diskussionen auf und bewerten ihren Status als Repräsentant von IBK-Korpora.
Author: | Harald Lüngen, Marc KupietzGND |
---|---|
URN: | urn:nbn:de:bsz:mh39-97052 |
DOI: | https://doi.org/10.1515/9783110679885-016 |
ISBN: | 978-3-11-067886-4 |
ISBN: | 9783110679885 (Online) |
Parent Title (German): | Deutsch in sozialen Medien: Interaktiv – multimodal – vielfältig |
Series (Serial Number): | Jahrbuch / Leibniz-Institut für Deutsche Sprache (IDS) (- 2019) |
Publisher: | de Gruyter |
Place of publication: | Berlin [u.a.] |
Editor: | Konstanze Marx, Henning Lobin, Axel Schmidt |
Document Type: | Part of a Book |
Language: | German |
Year of first Publication: | 2020 |
Date of Publication (online): | 2020/03/06 |
Publicationstate: | Zweitveröffentlichung |
Reviewstate: | (Verlags)-Lektorat |
GND Keyword: | Deutsch; Internetkommunikation; Korpus <Linguistik>; Leibniz-Institut für Deutsche Sprache (IDS); Soziale Medien |
First Page: | 319 |
Last Page: | 342 |
DDC classes: | 400 Sprache / 400 Sprache, Linguistik |
Open Access?: | ja |
Leibniz-Classification: | Sprache, Linguistik |
Linguistics-Classification: | Korpuslinguistik |
Linguistics-Classification: | Medienlinguistik |
Program areas: | S1: Korpuslinguistik |
Licence (German): | Urheberrechtlich geschützt |