@incollection{LuengenKupietz2020, author = {Harald L{\"u}ngen and Marc Kupietz}, title = {IBK- und Social Media-Korpora am Leibniz-Institut f{\"u}r Deutsche Sprache}, series = {Deutsch in sozialen Medien: Interaktiv – multimodal – vielf{\"a}ltig}, editor = {Konstanze Marx and Henning Lobin and Axel Schmidt}, publisher = {de Gruyter}, address = {Berlin [u.a.]}, isbn = {978-3-11-067886-4}, doi = {10.1515/9783110679885-016}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:mh39-97052}, pages = {319 -- 342}, year = {2020}, abstract = {Der Beitrag untersucht vorhandene L{\"o}sungen und neue M{\"o}glichkeiten des Korpusausbaus aus Social Media- und internetbasierter Kommunikation (IBK) f{\"u}r das Deutsche Referenzkorpus (DEREKO). DEREKO ist eine Sammlung gegenwartssprachlicher Schriftkorpora am IDS, die der sprachwissenschaftlichen {\"O}ffentlichkeit {\"u}ber die Korpusschnittstellen COSMAS II und KorAP angeboten wird. Anhand von Definitionen und Beispielen gehen wir zun{\"a}chst auf die Extensionen und {\"U}berlappungen der Konzepte Social Media, Internetbasierte Kommunikation und Computer-mediated Communication ein. Wir betrachten die rechtlichen Voraussetzungen f{\"u}r einen Korpusausbau aus Sozialen Medien, die sich aus dem k{\"u}rzlich in relevanten Punkten reformierten deutschen Urheberrecht, aus Pers{\"o}nlichkeitsrechten wie der europ{\"a}ischen Datenschutz-Grundverordnung ergeben und stellen Konsequenzen sowie m{\"o}gliche und tats{\"a}chliche Umsetzungen dar. Der Aufbau von Social Media-Korpora in gro{\"s}en Textmengen unterliegt au{\"s}erdem korpustechnologischen Herausforderungen, die f{\"u}r traditionelle Schriftkorpora als gel{\"o}st galten oder gar nicht erst bestanden. Wir berichten, wie Fragen der Datenaufbereitung, des Korpus-Encoding, der Anonymisierung oder der linguistischen Annotation von Social Media Korpora f{\"u}r DEREKO angegangen wurden und welche Herausforderungen noch bestehen. Wir betrachten die Korpuslandschaft verf{\"u}gbarer deutschsprachiger IBK- und Social Media-Korpora und geben einen {\"U}berblick {\"u}ber den Bestand an IBK- und Social Media-Korpora und ihre Charakteristika (Chat-, Wiki Talk- und Forenkorpora) in DEREKO sowie von laufenden Projekten in diesem Bereich. Anhand korpuslinguistischer Mikro- und Makro-Analysen von Wikipedia-Diskussionen im Vergleich mit dem Gesamtbestand von DEREKO zeigen wir charakterisierende sprachliche Eigenschaften von Wikipedia-Diskussionen auf und bewerten ihren Status als Repr{\"a}sentant von IBK-Korpora.}, language = {de} }