Refine
Year of publication
Document Type
- Part of a Book (13) (remove)
Language
- German (13) (remove)
Has Fulltext
- yes (13)
Keywords
- Korpus <Linguistik> (12)
- Deutsch (7)
- Methode (3)
- Neologismus (3)
- Datenaufbereitung (2)
- Deutsches Referenzkorpus (DeReKo) (2)
- Internet (2)
- Internetbasierte Kommunikation (2)
- Sprachgebrauch (2)
- Annotation (1)
Publicationstate
- Veröffentlichungsversion (8)
- Zweitveröffentlichung (5)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (12)
- Verlags-Lektorat (1)
Publisher
- Institut für Deutsche Sprache (4)
- de Gruyter (4)
- BBAW (1)
- Campus (1)
- De Gruyter (1)
- Narr Francke Attempto (1)
- Wilhelm Fink (1)
Das Deutsche Referenzkorpus DeReKo dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DeReKo und seine Verwendungsmöglichkeiten sowie einen Einblick in seine strategische Gesamtkonzeption, die zum Ziel hat, DeReKo trotz begrenzter Ressourcen für einerseits möglichst viele und andererseits auch für innovative und anspruchsvolle Anwendungen nutzbar zu machen. Insbesondere erläutern wir dabei Strategien zur Aufbereitung sehr großer Korpora mit notwendigerweise heuristischen Verfahren und Herausforderungen, die sich auf dem Weg zur linguistischen Erschließung solcher Korpora stellen.
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
Im Teilprojekt CI “SemDok” der DFG-Forschergruppe Texttechnologische Informationsmodellierung wurde ein Textparser für Diskursstrukturen wissenschaftlicher Zeitschriftenartikel nach der Rhetorical Structure Theory entwickelt. Die wesentlichen konzeptuellen und technischen Merkmale des Chart-Parsers und die sich daraus ergebenden Parametrisierungsmöglichkeiten für Parsing-Experimente werden beschrieben. Zudem wird HPVtz., ein Tool für die Visualisierung von Parsing-Ergebnissen (RST-Bäume in einer XML-Anwendung) und die Navigation in ihnen, vorgestellt.
Der Beitrag betrachtet das Deutsche Referenzkorpus DeReKo in Bezug auf Strategien für seinen Ausbau, den Zugriff über die Korpusanalyseplattform KorAP und seine Einbettung in Forschungsinfrastrukturen und in die deutschsprachige und europäische Korpuslandschaft. Ausgehend von dieser Bestandsaufnahme werden Perspektiven zu seiner Weiterentwicklung aufgezeigt. Zu den Zukunftsvisionen gehören die Verteilung von Korpussressourcen und die Konstruktion multilingualer vergleichbarer Korpora anhand der Bestände der National- und Referenzkorpora, eine Plattform zur Abgabe und Aufbereitung von Sprachspenden als eine Anwendung von Citizen Science sowie eine Komponente zur automatischen Identifikation von übersetzten bzw. maschinenverfassten Texten.
Der Beitrag untersucht vorhandene Lösungen und neue Möglichkeiten des Korpusausbaus aus Social Media- und internetbasierter Kommunikation (IBK) für das Deutsche Referenzkorpus (DEREKO). DEREKO ist eine Sammlung gegenwartssprachlicher Schriftkorpora am IDS, die der sprachwissenschaftlichen Öffentlichkeit über die Korpusschnittstellen COSMAS II und KorAP angeboten wird. Anhand von Definitionen und Beispielen gehen wir zunächst auf die Extensionen und Überlappungen der Konzepte Social Media, Internetbasierte Kommunikation und Computer-mediated Communication ein. Wir betrachten die rechtlichen Voraussetzungen für einen Korpusausbau aus Sozialen Medien, die sich aus dem kürzlich in relevanten Punkten reformierten deutschen Urheberrecht, aus Persönlichkeitsrechten wie der europäischen Datenschutz-Grundverordnung ergeben und stellen Konsequenzen sowie mögliche und tatsächliche Umsetzungen dar. Der Aufbau von Social Media-Korpora in großen Textmengen unterliegt außerdem korpustechnologischen Herausforderungen, die für traditionelle Schriftkorpora als gelöst galten oder gar nicht erst bestanden. Wir berichten, wie Fragen der Datenaufbereitung, des Korpus-Encoding, der Anonymisierung oder der linguistischen Annotation von Social Media Korpora für DEREKO angegangen wurden und welche Herausforderungen noch bestehen. Wir betrachten die Korpuslandschaft verfügbarer deutschsprachiger IBK- und Social Media-Korpora und geben einen Überblick über den Bestand an IBK- und Social Media-Korpora und ihre Charakteristika (Chat-, Wiki Talk- und Forenkorpora) in DEREKO sowie von laufenden Projekten in diesem Bereich. Anhand korpuslinguistischer Mikro- und Makro-Analysen von Wikipedia-Diskussionen im Vergleich mit dem Gesamtbestand von DEREKO zeigen wir charakterisierende sprachliche Eigenschaften von Wikipedia-Diskussionen auf und bewerten ihren Status als Repräsentant von IBK-Korpora.
Dieses Kapitel gibt einen Überblick über Korpora internetbasierter Kommunikation, die als digitale Ressourcen frei zur Verfügung stehen und für eigene linguistische Forschungsarbeiten genutzt werden können. In Abschnitt 1 erläutern wir korpuslinguistische Basiskonzepte, die für die Arbeit mit Korpora internetbasierter Kommunikation benötigt werden, und präzisieren die Sprachgebrauchsdomäne Internetbasierte Kommunikation, die den Gegenstand des hier beschriebenen Ressourcentyps bildet. Abschnitt 2 gibt einen Überblick zu existierenden Korpusressourcen für das Deutsche und stellt ausgewählte Korpora zu weiteren europäischen Sprachen vor. In Abschnitt 3 geben wir abschließend einen kurzen Einblick in aktuelle Forschungsfelder, die sich im Bereich der Korpuslinguistik und Sprachtechnologie in Bezug auf den Aufbau und die Aufbereitung von Korpora internetbasierter Kommunikation stellen.
Linguistische Annotationen für die Analyse von Gliederungsstrukturen wissenschaftlicher Texte
(2012)
Valenz und Kookkurrenz
(2015)
Der Beitrag beschäftigt sich mit der Frage, wie und inwieweit korpusbasierte Ansätze zur Untersuchung und Bewertung von Sprachwandel beitragen können. Die Bewertung von Sprachwandel erscheint in dieser Hinsicht interessant, da sie erstens von größerem öffentlichen Interesse ist, zweitens nicht zu den Kernthemen der Sprachwissenschaft zählt und drittens sowohl die geisteswissenschaftlichen Aspekte der Sprachwissenschaft berührt als auch die empirischen, die eher für die so genannten harten Wissenschaften typisch sind. Letzteres trifft bei der Frage nach Sprachverfall (gutem vs. schlechtem Deutsch diachron) vermutlich unbestrittener zu als bei der Frage nach richtigem vs. falschem Deutsch, da zu ihrer Beantwortung offensichtlich einerseits empirische, messbare Kriterien herangezogen werden müssen, andererseits aber auch weitere Kriterien notwendig sind und es außerdem einer Entscheidung zur Einordnung und Gewichtung der verschiedenartigen Kriterien sowie einer Begründung dieser Entscheidung bedarf. Zur Annäherung an die Fragestellung werden zunächst gängige, leicht operationalisierbare Hypothesen zu Symptomen eines potenziellen Verfalls des Deutschen auf verschiedenen DeReKo-basierten Korpora überprüft und im Hinblick auf ihre Verallgemeinerbarkeit und Tragweite diskutiert. Im zweiten Teil werden weitere empirische Ansätze zur Untersuchung von Wandel, Variation und Dynamik skizziert, die zur Diskussion spezieller Aspekte von Sprachverfall beitragen könnten. Im Schlussteil werden die vorgestellten Ansätze in den Gesamtkontext einer sprachwissenschaftlichen Untersuchung von Sprachverfall gestellt und vor dem Hintergrund seines gesellschaftlichen Diskurses reflektiert.