Refine
Year of publication
Document Type
- Part of a Book (180)
- Article (87)
- Book (26)
- Conference Proceeding (18)
- Other (13)
- Working Paper (11)
- Review (3)
- Contribution to a Periodical (2)
- Bachelor Thesis (1)
- Master's Thesis (1)
Language
- German (344) (remove)
Keywords
- Korpus <Linguistik> (344) (remove)
Publicationstate
- Veröffentlichungsversion (183)
- Zweitveröffentlichung (63)
- Postprint (4)
- Erstveröffentlichung (1)
Reviewstate
Auf dem Weg zu einer Kartographie: automatische und manuelle Analysen am Beispiel des Korpus ISW
(2021)
Dieser Beitrag präsentiert die neue multilinguale Ressource CoMParS (Collection of Multilingual Parallel Sequences). CoMParS versteht sich als eine funktional-semantisch orientierte Datenbank von Parallelsequenzen des Deutschen und anderer europäischer Sprachen, in der alle Daten neben den sprachspezifischen und universellen (im Sinne von Universal Dependencies) morphosyntaktischen Annotationen auch nach sprachübergreifenden funktional-semantischen Informationen auf der neudefinierten Annotationsebene Functional Domains annotiert und auf mehreren Ebenen (auch ebenenübergreifend) miteinander verlinkt sind. CoMParS wird in TEI P5 XML kodiert und sowohl als monolinguale wie auch als multilinguale Sprachressource modelliert.
Geeignete Such- und Visualisierungswerkzeuge, idealiter in Form von Webapplikationen, sind für den benutzerfreundlichen Zugang zu Sprachressourcen von großer Bedeutung. In diesem Beitrag stellen wir die Webapplikationen Rover und TüNDRA vor, die am CLARIN-D Zentrum Tübingen im Rahmen des BMBF-Projekts CLARIN-D entwickelt wurden.
Der Beitrag beschreibt die Motivation und Ziele des Europäischen Referenzkorpus EuReCo, einer offenen Initiative, die darauf abzielt, dynamisch definierbare virtuelle vergleichbare Korpora auf der Grundlage bestehender nationaler, Referenz- oder anderer großer Korpora bereitzustellen und zu verwenden. Angesichts der bekannten Unzulänglichkeiten anderer Arten mehrsprachiger Korpora wie Parallel- bzw. Übersetzungskorpora oder rein webbasierte vergleichbare Korpora, stellt das EuReCo eine einzigartige linguistische Ressource dar, die neue Perspektiven für germanistische und vergleichende wie angewandte Korpuslinguistik, insbesondere im europäischen Kontext, eröffnet.
Die Sprache von Lerner/-innen einer Fremdsprache unterscheidet sich auf allen linguistischen Ebenen von der Sprache von Muttersprachler/-innen. Seit einigen Jahrzehnten werden Lernerkorpora gebaut, um Lernersprache quantitativ und qualitativ zu analysieren. Hier argumentieren wir anhand von drei Fallbeispielen (zu Modifikation, Koselektion und rhetorischen Strukturen) für eine linguistisch informierte, tiefe Phänomenmodellierung und Annotation sowie für eine auf das jeweilige Phänomen passende formale und quantitative Modellierung. Dabei diskutieren wir die Abwägung von tiefer, mehrschichtiger Analyse einerseits und notwendigen Datenmengen für bestimmte quantitative Verfahren andererseits und zeigen, dass mittelgroße Korpora (wie die meisten Lernerkorpora) interessante Erkenntnisse ermöglichen, die große, flacher annotierte Korpora so nicht erlauben würden.
Sprachressourcen in digitaler Form liegen für ein immer breiteres Spektrum von Einzelsprachen vor. Linguistisch annotierte Korpora ermöglichen es, gezielt nach linguistischen Mustern auf der Wort-, Phrasen-, und Satzebene zu suchen und in quantitativer und qualitativer Hinsicht auszuwerten. In diesem Beitrag illustriere ich anhand von ausgewählten Beispielen den Mehrwert, den annotierte Textkorpora für die sprachwissenschaftliche Forschung bieten können. Viele der vorgestellten Sprachressourcen werden im Rahmen der CLARIN-Infrastruktur nachhaltig zur Verfügung gestellt. Die Korpora sind entweder durch Suchportale recherchierbar oder werden per Download zur Verfügung gestellt.
Die Korpusanalyseplattform KorAP ist von Grund auf sprachenunabhängig konzipiert. Dies gilt sowohl in Bezug auf die Lokalisierung der Benutzeroberfläche als auch hinsichtlich unterschiedlicher Anfragesprachen und der Unterstützung fremdsprachiger Korpora und ihren Annotationen. Diese Eigenschaften dienen im Rahmen der EuReCo Initiative aktuell besonders der Bereitstellung weiterer National- und Referenzkorpora neben DeReKo. EuReCo versucht, Kompetenzen beim Aufbau großer Korpora zu bündeln und durch die Verfügbarmachung vergleichbarer Korpora quantitative Sprachvergleichsforschung zu erleichtern. Hierzu bietet KorAP inzwischen, neben dem Zugang durch die Benutzeroberfläche, einen Web API Client an, der statistische Erhebungen, auch korpusübergreifend, vereinfacht.
Das Projekt InterCorp startete 2005 in Prag mit dem Ziel ein mehrsprachiges Parallelkorpus für akademische Zwecke zu entwickeln. Prinzipiell ist InterCorp eine Reihe von einsprachigen Korpora mit synchronen Texten verschiedener Genres und stellt somit ein einmaliges Instrument für sowohl kontrastive als auch intrasprachliche Untersuchungen dar. Die meisten Parallelen sind auch lemmatisiert und morpho-syntaktisch annotiert, somit lassen sich auch rasch statistische Daten über die Texte abrufen.
Das ZDL-Regionalkorpus umfasst Zeitungsartikel aus Lokal- und Regionalressorts deutschsprachiger Tageszeitungen. Es dient als empirische Grundlage für die lexikografische Beschreibung der diatopischen Variation im Digitalen Wörterbuch der deutschen Sprache (DWDS). Darüber hinaus steht es allen angemeldeten Nutzern der DWDS-Korpusplattform für die Recherche zur Verfügung. Die Abfrage kann auf bestimmte diatopische Areale oder diachrone Zeiträume beschränkt werden. Die Verteilung der Treffer über Areale und Zeiträume lässt sich in verschiedener Form darstellen; dabei werden neben absoluten Trefferzahlen auch normalisierte PPM-Werte ausgegeben.
Vitaminhaltig ist gut, vitaminreich noch besser. Eine arbeitsfreie Zeit mag entspannen, eine arbeitslose kaum. Wirken solche Aussagen sinnvoll oder doch eher sinnarm?
Die Wortbildungsproduktivität von komplexen possessiven und privativen Adjektiven erscheint praktisch grenzenlos – in der Theorie werden ihr dagegen sehr wohl Grenzen gesetzt, jedoch ohne Berücksichtigung gebrauchsbasierter, empirischer Analysen. Diesem Desiderat widmet sich dieser Band, in welchem anhand konkreter Sprachdaten Forschungslücken und Widersprüche aufgedeckt und offene Fragestellungen beantwortet werden. Zudem zeigen sich neue Bedeutungsaspekte, die den Wortbildungsprodukten bislang nicht zugeschrieben wurden. In Gänze erbringen die Analysen den nötigen Beweis, dass die korpuslinguistischen Untersuchungen bisherige morphologische Beschreibungen sowohl erweitern als auch korrigieren können und sich darüber hinaus zum Entwickeln neuer Modelle mit neuen Kategorien eignen. Die eigens für diese Zwecke korpusgestützt generierte Stichwortliste findet sich samt Anzahl an Belegtreffern im Anhang wieder.
Studenten, StudentInnen, Studierende? Aktuelle Verwendungspräferenzen bei Personenbezeichnungen
(2020)
Im Beitrag werden Meinungen und Einstellungen zur geschlechtergerechten Sprache dargestellt. Dazu werden verschiedene Möglichkeiten für die Bezeichnung von Personen, die studieren, in den Blick genommen. Diese werden zunächst beschrieben und ihre Frequenzen im Deutschen Referenzkorpus ausgewertet. Anschließend werden explizit die Meinungen und Einstellungen behandelt. Dafür werden die Daten der Deutschland-Erhebung 2008 und der Deutschland-Erhebung 2017 ausgewertet. In der aktuellen Erhebung wurden laienlinguistische Verwendungspräferenzen von Personenbezeichnungen erhoben; präferiert wird von den meisten Befragten die Partizipialform (den Studierenden). Die Verwendungspräferenzen hangen vor allem mit dem Alter der Befragten und ihrer politischen Orientierung zusammen. Insgesamt zeigt sich jedoch, dass das Thema der geschlechtergerechten Sprache für die meisten Befragten nur eine untergeordnete Rolle spielt.
Dieser Beitrag widmet sich der Beschreibung des Korpus Deutsch in Namibia (DNam), das über die Datenbank für Gesprochenes Deutsch (DGD) frei zugänglich ist. Bei diesem Korpus handelt es sich um eine neue digitale Ressource, die den Sprachgebrauch der deutschsprachigen Minderheit in Namibia sowie die zugehörigen Spracheinstellungen umfassend und systematisch dokumentiert. Wir beschreiben die Datenerhebung und die dabei angewandten Methoden (freie Gespräche, „Sprachsituationen“, semi-strukturierte Interviews), die Datenaufbereitung inklusive Transkription, Normalisierung und Tagging sowie die Eigenschaften des verfügbaren Korpus (Umfang, verfügbare Metadaten usw.) und einige grundlegende Funktionalitäten im Rahmen der DGD. Erste Forschungsergebnisse, die mithilfe der neuen Ressource erzielt wurden, veranschaulichen die vielseitige Nutzbarkeit des Korpus für Fragestellungen aus den Bereichen Kontakt-, Variations-
und Soziolinguistik.
Dieser Beitrag beschreibt, welche Schritte nötig sind, um die Daten des Archivs der Grafen v. Platen (AGP) für Forschungsdateninfrastrukturen (FDI) zugänglich zu machen: die Daten konvertieren, die Metadaten extrahieren, Daten und Metadaten indizieren sowie die Datenmodelle für Daten und Metadaten so ergänzen, dass sie die Bestände des Archivs sinnvoll erfassen. Zugleich wird begründet, weshalb man überhaupt solchen Aufwand treiben sollte: nämlich, damit die Daten einem größeren Publikum zur Verfügung stehen und überdies mit Werkzeugen bearbeitet werden können, die in den Infrastrukturen zur Verfügung stehen, und damit eine weitere Verlinkung und Kombination mit externen Ressourcen erfolgen kann, sodass ein deutlicher Mehrwert entstehen kann.
Der Beitrag untersucht vorhandene Lösungen und neue Möglichkeiten des Korpusausbaus aus Social Media- und internetbasierter Kommunikation (IBK) für das Deutsche Referenzkorpus (DEREKO). DEREKO ist eine Sammlung gegenwartssprachlicher Schriftkorpora am IDS, die der sprachwissenschaftlichen Öffentlichkeit über die Korpusschnittstellen COSMAS II und KorAP angeboten wird. Anhand von Definitionen und Beispielen gehen wir zunächst auf die Extensionen und Überlappungen der Konzepte Social Media, Internetbasierte Kommunikation und Computer-mediated Communication ein. Wir betrachten die rechtlichen Voraussetzungen für einen Korpusausbau aus Sozialen Medien, die sich aus dem kürzlich in relevanten Punkten reformierten deutschen Urheberrecht, aus Persönlichkeitsrechten wie der europäischen Datenschutz-Grundverordnung ergeben und stellen Konsequenzen sowie mögliche und tatsächliche Umsetzungen dar. Der Aufbau von Social Media-Korpora in großen Textmengen unterliegt außerdem korpustechnologischen Herausforderungen, die für traditionelle Schriftkorpora als gelöst galten oder gar nicht erst bestanden. Wir berichten, wie Fragen der Datenaufbereitung, des Korpus-Encoding, der Anonymisierung oder der linguistischen Annotation von Social Media Korpora für DEREKO angegangen wurden und welche Herausforderungen noch bestehen. Wir betrachten die Korpuslandschaft verfügbarer deutschsprachiger IBK- und Social Media-Korpora und geben einen Überblick über den Bestand an IBK- und Social Media-Korpora und ihre Charakteristika (Chat-, Wiki Talk- und Forenkorpora) in DEREKO sowie von laufenden Projekten in diesem Bereich. Anhand korpuslinguistischer Mikro- und Makro-Analysen von Wikipedia-Diskussionen im Vergleich mit dem Gesamtbestand von DEREKO zeigen wir charakterisierende sprachliche Eigenschaften von Wikipedia-Diskussionen auf und bewerten ihren Status als Repräsentant von IBK-Korpora.
Die Korpusanalyseplattform KorAP wird als Nachfolgesystem zu COSMAS II am Leibniz-Institut für Deutsche Sprache (IDS) entwickelt und erlaubt einen umfassenden Zugriff auf einen Teil von DeReKo (Kupietz et al. 2010). Trotz einiger noch fehlender Funktionalitäten ist KorAP bereits produktiv einsetzbar. Im Folgenden wollen wir am Beispiel der Untersuchung von Social-Media-Korpora einige neue Möglichkeiten und Besonderheiten vorstellen.
Im Projekt fussballlinguistik.de baue ich Korpora mit schriftlichen und mündlichen Texten aus dem Bereich der Fußballberichterstattung auf und mache sie über das webbasierte Tool CQPweb (Hardie 2012) der Fachöffentlichkeit zuganglich (Meier 2017). Die Korpora (www.fussballlinguistik.de/korpora) enthalten vornehmlich internetbasierte Texte wie etwa Liveticker, Spielberichte und Taktikanalysen, aber auch transkribierte Radioreportagen im Umfang von 44,8 Mio. Tokens (Stand Marz 2019) in den Sprachen Deutsch, Englisch, Niederländisch und Russisch in vollständig annotierter Form. Ein Teil der Daten ist zudem in das Deutsche Referenzkorpus (DeReKo 2018–II) eingegangen. Die seit gut 50 Jahren etablierte sprachwissenschaftliche Forschung zur Sprache des Fußballs hat dadurch eine in ihrer Themenspezifik einzigartige empirische Ressource erhalten.
Die MoCoDa 2 (https://db.mocoda2.de) ist eine webbasierte Infrastruktur für die Erhebung, Aufbereitung, Bereitstellung und Abfrage von Sprachdaten aus privater Messenger-Kommunikation (WhatsApp und ähnliche Anwendungen). Zentrale Komponenten bilden (1) eine Datenbank, die für die Verwaltung von WhatsApp-Sequenzen eingerichtet ist, die von Nutzer/innen gespendet und für linguistische Recherche- und Analysezwecke aufbereitet wurden, (2) ein Web-Frontend, das die Datenspender/innen dabei unterstützt, gespendete Sequenzen um analyserelevante Metadaten anzureichern und zu pseudonymisieren, und (3) ein Web-Frontend, über das die Daten für Zwecke in Forschung und Lehre abgefragt werden können. Der Aufbau der MoCoDa-2-Infrastruktur wurde im Rahmen des Programms „Infrastrukturelle Forderung für die Geistes- und Gesellschaftswissenschaften“ vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen gefordert. Ziel des Projekts ist es, ein aufbereitetes Korpus zur Sprache und Interaktion in der deutschsprachigen Messenger-Kommunikation bereitzustellen, das speziell auch für qualitative Untersuchungen eine wertvolle Grundlage bildet.
Südtirol ist eine mehrsprachige italienische Provinz, in der die Verwendung unterschiedlicher Sprachen, besonders Deutsch und Italienisch, sowie der lokalen deutschen Dialekte in der mündlichen Kommunikation in formalen wie informalen Sprechsituationen einen hohen gesellschaftlichen Stellenwert hat. Mit der Frage, welche Sprachen bzw. Varietäten in der schriftlichen Alltagskommunikation verwendet werden und welche soziolinguistischen Faktoren dabei eine Rolle spielen, hat sich das Projekt DiDi befasst, in dem die Sprach- und Varietätenverwendung in Facebook-Texten näher untersucht wurden. Dabei stellte sich unter anderem heraus, dass das Schreiben im Dialekt besonders unter Jugendlichen weit verbreitet ist (Glaznieks/Frey 2018). Mithilfe des aus diesem Projekt entstandenen und für wissenschaftliche Nutzung frei zugänglichen Facebook-Korpus kann die Sprach- und Varietätenverwendung Südtiroler Facebooknutzer/innen in der internetbasierten Kommunikation aus unterschiedlichen linguistischen Perspektiven untersucht werden.
Die Kernaufgabe der Projektgruppe des DWDS besteht darin, den in den Korpora enthaltenen Wortschatz lexikografisch und korpusbasiert zu beschreiben. In der modernen Lexikografie werden die Aussagen zu den sprachlichen Aspekten und Eigenschaften der beschriebenen Wörter und zu Besonderheiten ihrer Verwendung auf Korpusevidenz gestutzt. Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsachlich realisiert wird. Zu diesem Zweck bieten wir auf der DWDS-Plattform neben den zeitlich und nach Textsorten ausgewogenen Kernkorpora und den Zeitungskorpora eine Reihe von Spezialkorpora an, die hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora abweichen. Die Webkorpora bilden einen wesentlichen Bestandteil dieser Spezialkorpora.
Politiker und Parteien sehen sich heutzutage oft mit dem Vorwurf konfrontiert, sie heben sich kaum mehr voneinander ab, seien gar „austauschbar“. Umso größer scheint das Bedürfnis nach Abgrenzung. Diese wird kommunikativ hergestellt und ist am besten von den diskursiven Zusammenhängen und Akteurskonstellationen her, in denen sie sich aktualisiert, nachzuvollziehen.
Das Vorgehen in dieser Arbeit gliedert sich im Wesentlichen in drei Schritte: Zunächst wird eine Theorieskizze der Abgrenzung als Sprechhandlung entworfen. Hierbei geht es vor allem darum, verschiedene Lesarten zu erschließen und die Abgrenzung in einem Panorama verwandter Konzepte wie etwa Ausgrenzung, Distinktion und Distanzierung zu verorten (Teil 1). Daraufhin wird die Plenardebatte als Textsorte erschlossen und in ihren kommunikativen Spezifika erfasst, wobei besonders die Stichworte Inszeniertheit, Mehrfachadressierung und die Frage nach dem Verhältnis zwischen Mündlichkeit und Schriftlichkeit in den Blickpunkt rücken (Teil 2). Sodann wird mithilfe der pragma-semiotischen Textarbeit als Methode ganz konkret sprachliches Datenmaterial aus Plenardebatten analysiert und interpretativ ausgewertet (Teile 3 und 4). Dabei kommen auch korpuslinguistische Verfahren zum Einsatz, die jedoch letztlich im Dienste einer qualitativ orientierten Analyse stehen.
Die Analyse berücksichtigt sowohl explizite als auch implizite Formen sprachlicher Abgrenzung. Sie zeigt unter anderem, dass politische Abgrenzungshandlungen keineswegs parteispezifisch sind, sondern von allen Parteien und Akteuren mehr oder weniger konstant praktiziert werden. Dabei wird Abgrenzung hauptsächlich als Selbstpositionierung realisiert; bisweilen finden sich aber durchaus auch Fremdpositionierungen – etwa als Aufforderungen an andere Akteure, sich gegenüber Dritten abzugrenzen. Auf der Ebene der sprachlichen Formen lässt sich schließlich durch eine Art experimentelle Annäherung mit korpuslinguistischen Verfahren eine Reihe von Mehrworteinheiten ausmachen, die als Indikatoren für implizite Abgrenzung gelten können.
This chapter focuses on the formation of adverbs from a corpuslinguistic perspective, providing an overview of adverb formation patterns in German that includes frequencies and hints to productivity as well as combining quantitative methods and theoretically founded hypotheses to address questions that concern possible grammaticalization paths in domains that are formally marked by prepositional elements or inflectional morphology (in particular, superlative or superlative-derived forms). Within our collection of adverb types from the project corpus, special attention is paid to adverbs built from primary prepositions. The data suggest that generally, such adverb formation involves the saturation of the internal argument slot of the relation-denoting preposition. In morphologically regular formations with the preposition in final position, pronominal forms like da ‘there’, hier ‘here’, wo ‘where’ as well as hin ‘hither’ and her ‘thither’ serve to derive adverbs. On the other hand, morphologically irregular formations with the preposition – in particular: zu ‘to’ or vor ‘before, in front of’ – in initial posi-tion show traits of syntactic origin such as (remnants of) inflectional morphology. The pertaining adverb type dominantly saturates the internal argument slot by means of universal quantification that is part and parcel as well of the derivation of superlatives and demonstrably fuels the productivity of the pertaining formation pattern.
„Bausteine einer Korpusgrammatik des Deutschen“ ist eine neue Schriftenreihe, die am Leibniz-Institut für Deutsche Sprache in Mannheim (IDS) entsteht. Sie setzt sich zum Ziel, mit korpuslinguistischen Methoden die Vielfalt und Variabilität der deutschen Grammatik in großer Detailschärfe zu erfassen und gleichzeitig für die Validierbarkeit der Ergebnisse zu sorgen. Die erste Ausgabe enthält eine Einführung in die Reihe sowie vier als Kapitel einer neuen Grammatik gestaltete Texte: 1. Grundlegende Aspekte der Wortbildung, 2. Bau von und Umbau zu Adverbien, 3. Starke vs. schwache Flexion aufeinanderfolgender attributiver Adjektive und 4. Reihenfolge attributiver Adjektive. Die Ausgabe ist mit einer interaktiven Datenbank zu attributiven Adjektiven verknüpft.
Einleitung
(2020)
A corpus-based academic grammar of German is an enormous undertaking, especially if it aims at using state-of-the-art methodology while ensuring that its study results are verifiable. The Bausteine-series, which is being developed at the Leibniz Institute for the German Language (IDS), presents individual “building blocks” for such a grammar. In addition to the peer-reviewed texts, the series publishes the results of statistical analyses and, for selected topics, the underlying data sets.
The article focuses on the lexeme Ahnung. A lexicographic analysis shows the range of Information offered by Ahnung in selected dictionaries, aespecially monolingual DaF dictionaries, and displays how the Spectrum of meaning is represented in them. Corpus-based analyses from two samples from FOLK and DeReKo investigate exemplary form characteristics and, with regard to the written-language data, the occurrence in text types. Ahnung shows a slightly higher combinatorial potential in written-linguistic data than in spoken-linguistic data. A clear tendency to the connection keine Ahnung is however to be recognized in both data sets.
Der Band leistet eine theoretisch begründete und empirisch validierte Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech-Tagging) für Transkripte spontansprachlicher Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), das über die Datenbank für Gesprochenes Deutsch der Forschungsgemeinschaft öffentlich zugänglich ist. Dabei setzt er zwei Schwerpunkte: erstens die theoretische Aufarbeitung von Unterschieden von Transkripten gesprochener Sprache zu schriftsprachlichen Daten in Hinblick auf die Entwicklung eines Tagsets für das gesprochene Deutsch; zweitens die Darstellung der empirischen Arbeitsschritte zur Erstellung des automatisierten Part-of-Speech-Taggings, d. h. die Implementierung und Evaluierung für die Annotation des FOLK-Korpus. Der Band ist eine kritische Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Arbeit. Er gibt Einblicke über die Korpusaufbereitung von Transkripten gesprochener Sprache und stellt diese in Bezug zu Theorien über die Eigenheiten gesprochener Sprache.
Im Beitrag steht das LeGeDe-Drittmittelprojekt und der im Laufe der Projektzeit entwickelte korpusbasierte lexikografische Prototyp zu Besonderheiten des gesprochenen Deutsch in der Interaktion im Zentrum der Betrachtung. Die Entwicklung einer lexikografischen Ressource dieser Art knüpft an die vielfältigen Erfahrungen in der Erstellung von korpusbasierten Onlinewörterbüchern (insbesondere am Leibniz-Institut für Deutsche Sprache, Mannheim) und an aktuelle Methoden der korpusbasierten Lexikologie sowie der Interaktionsanalyse an und nimmt als multimedialer Prototyp für die korpusbasierte lexikografische Behandlung von gesprochensprachlichen Phänomenen eine innovative Position in der modernen Onlinelexikografie ein. Der Beitrag befasst sich im Abschnitt zur LeGeDe-Projektpräsentation ausführlich mit projektrelevanten Forschungsfragen, Projektzielen, der empirischen Datengrundlage und empirisch erhobenen Erwartungshaltungen an eine Ressource zum gesprochenen Deutsch. Die Darstellung der komplexen Struktur des LeGeDe-Prototyps wird mit zahlreichen Beispielen illustriert. In Verbindung mit der zentralen Information zur Makro- und Mikrostruktur und den lexikografischen Umtexten werden die vielfältigen Vernetzungs- und Zugriffsstrukturen aufgezeigt. Ergänzend zum abschließenden Fazit liefert der Beitrag in einem Ausblick umfangreiche Vorschläge für die zukünftige lexikografische Arbeit mit gesprochensprachlichen Korpusdaten.
This article investigates the use of überhaupt and sowieso in German and Dutch. These two words are frequently classified as particles, if only because of their pragmatic functions. The frequent use of particles is considered a specific trait common to German and Dutch, and the description of their semantics and pragmatics is notoriously difficult. It is unclear whether both particles have the same meaning in Dutch (where they are loanwords) and German, whether they can fulfil the same syntactic functions and to what extent the (semantic and pragmatic) functions of überhaupt und sowieso overlap. There has already been linguistic research on überhaupt and sowieso by Fisseni (2009) using the world-wide web and by Bruijnen and Sudhoff (2013) using the EUROPARL corpus. In the present study we critically evaluated the corpus study, integrating information on original utterance language and discussing the adequacy of this corpus. Moreover, we conducted an experimental survey collecting subjective-intuitive judgements in three dimensions, thus gathering more data on sparse and informal constructions.
By using these complementary methods, we obtain a more nuanced picture of the use of überhaupt and sowieso in both languages: On the one hand, the data show where the use of both words is more similar and on the other hand, differences between the languages can also be discerned.
Sprechen im Umbruch. Zeitzeugen erzählen und argumentieren rund um den Fall der Mauer im Wendekorpus
(2019)
Im Mittelpunkt der vorliegenden Untersuchung stehen ausgewählte deutschsprachige Werbeslogans mit hohem Wiedererkennungswert und einer Tendenz zur Usualisierung im aktuellen Sprachgebrauch. Ihre angesichts des häufigen Gebrauchs durch zahlreiche Sprecher begründete bzw. angenommene lexikalische Verfestigung wird korpusinformiert anhand umfangreicher elektronischer Korpora validiert und rekonstruiert. Für die Beschreibung ihrer Verwendungsspezifik als eigenständige satzwertige Wortschatzeinheiten außerhalb der Domäne Werbung wird das Modell der usuellen Wortverbindungen sowie die korpuslinguistische Methodologie angewendet und mit weiteren qualitativen und quantitativen Methoden gekoppelt. In den detaillierten lexikografischen Beschreibungen ausgewählter Slogans werden sprachliche, kontextuelle und funktionale Aspekte dargestellt und die Mikrodiachronie ihres Gebrauchs in Zeitverlaufsgrafiken illustriert.
Der Beitrag beschreibt ein mehrfach annotiertes Korpus deutschsprachiger Songtexte als Datenbasis für interdisziplinäre Untersuchungsszenarien. Die Ressource erlaubt empirisch begründete Analysen sprachlicher Phänomene, systemischstruktureller Wechselbeziehungen und Tendenzen in den Texten moderner Popmusik. Vorgestellt werden Design und Annotationen des in thematische und autorenspezifische Archive stratifizierten Korpus sowie deskriptive Statistiken am Beispiel des Udo-Lindenberg-Archivs.
This article investigates the transitive-oblique alternation in German that involves the preposition an ‘at, on’, e.g. ein Buch schreiben ‘write a book’ vs. an einem Buch schreiben ‘work on / write a book’ (lit. write at a book). The crucial semantic difference between the two structures is the obligatory atelic interpretation of the prepositional an-variant. Based on a corpus study for twenty verbs that were discussed in the previous work, I revisit the assumptions that were made by Filip (1999). First, the incremental theme verbs like bauen ‘build’ or essen ‘eat’ appear only seldom with an. This questions the central role of incrementality as the semantic explanation for the acceptability of the an-variant. Second, selectional preferences of verbs differ in the two argument structures. This observation challenges the assumption that the an-phrase and the direct object are alternative syntactic realizations of the same verbal argument. Overall, this first corpus-based study of the an-construction reveals complex interactions between the semantics of individual verbs, verb classes and the meaning of the preposition an.
The following article shows how several verbal argument structure patterns can build clusters or families. Argument structure patterns are conceptualised as form-meaning pairings related by family relationships. These are based on formal and / or semantic characteristics of the individual patterns making up the family. The small family of German argument structure patterns containing vor sich her and vor sich hin is selected to illustrate the process whereby pattern meaning combines with the syntactic and semantic properties of the patterns’ individual components to constitute a higher-level family or cluster of argument structure patterns. The study shows that the patterns making up the family are similar with regard to some of their formal characteristics, but differ quite clearly with respect to their meaning. The article also discusses the conditions of usage of the individual patterns of the family, the contribution of verb meaning and prepositional meaning to the overall meaning of the patterns, coercion effects, and productivity issues.
Argumentstrukturmuster. Ein elektronisches Handbuch zu verbalen Argumentstrukturen im Deutschen
(2019)
Valency-based and construction-based approaches to argument structure have been competing for quite a while. However, while valency-based approaches are backed up by numerous valency dictionaries as comprehensive descriptive resources, nothing comparable exists for construction-based approaches. The paper at hand describes the foundations of an ongoing project at the Institut für Deutsche Sprache in Mannheim. Aim of the project is the compilation of an online available description of a net of German argument structure patterns. The main purpose of this resource is to provide an empirical basis for an evaluation of the adequacy of valency- versus construction-based theories of argument structure. The paper at hand addresses the theoretical background, in particular the concepts of pattern and argument structure, and the corpus-based method of the project. Furthermore, it describes the coverage of the resource, the microstructure of the articles, and the macrostructure which is conceived of as a net of argument structure patterns based on family resemblance.
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Leibniz-Institut für Deutsche Sprache ist ein Forschungsdatenzentrum für Korpora des gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von bald 100 Variations-, Interview- und Gesprächskorpora aufgebaut, die u. a. dialektalen Sprachgebrauch, mündliche Kommunikationsformen oder die Sprachverwendung bestimmter Sprechertypen oder zu bestimmten Themen dokumentieren. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
Im Jahr 2015 ist die 7. Auflage des Duden-Aussprachewörterbuchs erschienen, für deren Bearbeitung erstmals die MitarbeiterInnen des IDS Projekts „Gesprochenes Deutsch“ verantwortlich zeichneten. Im vorliegenden Beitrag werden die konzeptionellen und inhaltlichen Veränderungen beschrieben, die in der Neuauflage umgesetzt wurden. Sie lassen sich im Wesentlichen unter dem Motto „Hinwendung zur Deskriptivität“ zusammenfassen. Neben den üblichen lexikografischen Prozeduren wie der Streichung veralteter Lemmata und der Erweiterung des Lemmabestands um bisher nicht dokumentierte Wörter sind zunächst im Einleitungsteil Kapitel ergänzt, vollständig überarbeitet oder völlig neu erstellt worden. Systematische Veränderungen wurden bei verschiedenen Transkriptionskonventionen vorgenommen (z.B. bei der Notation der Diphthonge). Die wesentlichste Neuerung ist jedoch die Einbeziehung von empirischen Daten zum deutschen Gebrauchsstandard vor allem aus dem Projektkorpus „Deutsch heute“, die es ermöglicht haben, fundierte Angaben zur regionalen Verbreitung von Aussprachevarianten zu machen.
Diachrone Wortschatzveränderungen werden in der Regel exemplarisch anhand bestimmter Phänomene oder Phänomenbereiche untersucht. Wir widmen uns der Frage, ob und wie Wandelprozesse auch auf globaler Ebene, also ohne sich auf bestimmte Wortschatzausschnitte festzulegen, messbar sind. Zur Untersuchung dieser Frage nutzen wir das Spiegel-Korpus, in dem alle Ausgaben der Wochenzeitschrift seit 1947 enthalten sind. Dabei gehen wir auf grundlegende Herausforderungen ein, die es dabei zu lösen gilt, wie die Verteilung sprachlicher Daten und die Folgen unterschiedlicher Subkorpusgrößen, d.h. im konkreten Fall die variierende Größe des Spiegelkorpus über die Zeit hinweg. Wir stellen ein Verfahren vor, mit dem wir in der Lage sind, flankiert von einem „Lackmustest“ zur Überprüfung der Ergebnisse, Wortschatzwandelprozesse bis auf die Mikroebene, d.h. zwischen zwei Monaten oder gar Wochen, quantitativ nachzuvollziehen.
In Adjektivreihungen ohne Determinierer ('in neuem korpuslinguistisch-em/-en Licht') und in Fügungen aus Pronominaladjektiv und attributivem Adjektiv ('mancher ausbildend-er/-e Betrieb') treten Schwankungen zwischen Parallel- und Wechselflexion auf, die von einem komplexen Zusammenspiel verschiedener grammatischer und außergrammatischer Faktoren beeinflusst werden. Auf der Basis einer explorativen Korpusstudie werden im vorliegenden Beitrag zunächst einschlägige Einflussgrößen identifiziert und deren Effektstärken geschätzt. Im Anschluss wird gezeigt, dass entgegen bisherigen Annahmen nach Pronominaladjektiven keine allgemeine Tendenz zur schwachen Flexion vorliegt, sondern mit Ausnahme des Kontextes Dat. Sg. Mask./Neutr. diachron eine Ausbreitung der Parallelflexion (stark/stark) beobachtbar ist.
Einleitung
(2019)
Ein sehr mächtiges Instrument für die Untersuchung von Wörtern und Verwandtschaftsbeziehungen zwischen ihnen ist die Analyse typischer Verwendungskontexte - unabhängig davon, ob die Evidenzen auf Bedeutungskonstitution, ihre Veränderung oder Verwechslung hinweisen, drei Aspekte, die alle bei der Charakterisierung von Paronymie eine Rolle spielen. Auch wenn für die Ermittlung typischer Verwendungsmuster ausgereifte Methoden zur Verfügung stehen, so sollte beim Vergleich der Analysen doch beachtet werden, dass sie diversen Einflussgrößen unterliegen. Neben der Datengrundlage und der Definition und Handhabung des relevanten Kontextes wird im Folgenden besonders darauf eingegangen, welche Rolle verschiedene Teilmengen eines Flexionsparadigmas spielen können, wenn ein Lemma als dessen Gesamtmenge als sprachliche Bezugseinheit einer Untersuchung gewählt wurde. Veranschaulicht wird die Gedankenführung an der beispielhaften Betrachtung von Paronymkandidaten.
Relativpronomenselektion und grammatische Variation: 'was' vs. 'das' in attributiven Relativsätzen
(2019)
This contribution presents a quantitative approach to speech, thought and writing representation (ST&WR) and steps towards its automatic detection. Automatic detection is necessary for studying ST&WR in a large number of texts and thus identifying developments in form and usage over time and in different types of texts. The contribution summarizes results of a pilot study: First, it describes the manual annotation of a corpus of short narrative texts in relation to linguistic descriptions of ST&WR. Then, two different techniques of automatic detection – a rule-based and a machine learning approach – are described and compared. Evaluation of the results shows success with automatic detection, especially for direct and indirect ST&WR.
In diesem Beitrag wird das Redewiedergabe-Korpus (RW-Korpus) vorgestellt, ein historisches Korpus fiktionaler und nicht-fiktionaler Texte, das eine detaillierte manuelle Annotation mit Redewiedergabeformen enthält. Das Korpus entsteht im Rahmen eines laufenden DFG-Projekts und ist noch nicht endgültig abgeschlossen, jedoch ist für Frühjahr 2019 ein Beta-Release geplant, welches der Forschungsgemeinschaft zur Verfügung gestellt wird. Das endgültige Release soll im Frühjahr 2020 erfolgen. Das RW-Korpus stellt eine neuartige Ressource für die Redewiedergabe-Forschung dar, die in dieser Detailliertheit für das Deutsche bisher nicht verfügbar ist, und kann sowohl für quantitative linguistische und literaturwissenschaftliche Untersuchungen als auch als Trainingsmaterial für maschinelles Lernen dienen.
Neues von KorAP
(2019)
Die Vermittlung von Fachsprache gewinnt in der heutigen europäischen Gesellschaft, die von 'Bewegungen' unterschiedlicher Art charakterisiert ist, immer mehr an Relevanz, aber die Lernergruppen werden immer differenzierter und die Lehrenden, die meist keine Experten auf dem Fachgebiet sind, haben Schwierigkeiten lernergerechte Kurse zu gestalten, da die Möglichkeiten zur Aus- oder Fortbildung selten sind. Fragen, die offen stehen oder nur teilweise beantwortet wurden, gibt es noch viele und eine einheitliche Antwort ist nicht immer möglich, aber wir möchten trotzdem versuchen, anstatt von Problemfällen auch Experimente und Lösungen vorzustellen. Wir möchten zeigen, wie und mit welchen Mitteln und Werkzeugen Fachsprachen beschrieben werden können und welche Auswirkungen dies im Unterricht haben kann. Nach einem Überblick über die unterschiedlichen Definitionsmöglichkeiten von 'Fachsprache', zeigen wir, welche Auswirkungen die unterschiedlichen Schwerpunkte in der Lehre haben können. Abschließend werden wir ein kleines korpuslinguistisches Experiment vorstellen (Korpus mit den Aufsätzen zum Themenschwerpunkt 'Fachsprache' ZIF 2019-1), um mögliche Anregungen zur Benutzung von Korpora zu geben, da sich Korpora in allen Phasen des Unterrichts (vor, während und danach) sowohl für Lehrende als auch für Lernende positiv auswirken können.
Persuasionsstrategien in deutschen rechtsorientierten Zeitungen. Eine korpuslinguistische Studie
(2019)
Corpus Linguistics has often proved fruitful to examine different types of discourses, also the one of refugees. Aim of the paper is to show how language usage patterns can be focused on with the help of techniques grounded in Corpus Linguistics, giving information about themes and topoi. After showing what type of words (keywords, collocations) and what type of phenomena will be considered (topoi, metaphors and frames) in the article, the focus will shift on the methodology and the adopted criteria. After presenting the primary corpus (articles from right-oriented newspapers) and the comparison corpus (articles from 'Die Zeit') the main results of the analysis are presented and reflected on.
Das Phänomen der Paronymie hat bisher weder aus Sicht der Korpuslinguistik noch aus Sicht der kognitiven Linguistik große Beachtung gefunden. Bisherige Untersuchungen und erste Definitionsversuche stützten sich nicht auf empirische Analysen, sondern auf ein differenziertes strukturalistisches Modell, das, wenn nicht ausschließlich so doch primär, mit morphologischen Kriterien operiert (vgl. Läzärescu 1999). Sprachgebrauchsbasierte Befunde blieben bislang hingegen unberücksichtigt. Hier setzt dieser Artikel an: Er skizziert aus korpusbasierter und sprachgebrauchsorientierter Perspektive erste Ergebnisse zur Bestimmung und Unterscheidung von Arten der Paronymie hinsichtlich ihrer kommunikativen Funktion, ihrer Diskurszugehörigkeit sowie ihrer semantischen Eigenschaften. Ausgangspunkt ist eine kurze Darstellung des einzigen bisher vorliegenden Klassifikationsmodells von Läzärescu. Anschließend werden unterschiedliche Typen von Paronymen vorgestellt, die im Zuge der empirischen Analysen herausgearbeitet werden konnten. Der Beitrag plädiert für eine differenzierte Betrachtung des komplexen Phänomens, denn die eindimensionale, morphologisch motivierte Klassifikation wird dem Untersuchungsgegenstand nicht gerecht, da zudem sprachgebrauchs- sowie kognitiv-orientierte Parameter für eine Definition bzw. Typologisierung herangezogen werden müssen.
Digitale Korpora haben die Voraussetzungen, unter denen sich Wissenschaftler mit der Erforschung von Sprachphänomenen beschäftigen, fundamental verändert. Umfangreiche Sammlungen geschriebener und gesprochener Sprache bilden mittlerweile die empirische Basis für mathematisch präzise Generalisierungen über zu beschreibende Wirklichkeitsausschnitte. Das Datenmaterial ist hochkomplex und besteht neben den Rohtexten aus diversen linguistischen Annotationsebenen sowie außersprachlichen Metadaten. Als unmittelbare Folge stellt sich die Konzeption adäquater Recherchelösungen als beträchtliche Herausforderung dar. Im vorliegenden Buch wird deshalb ein datenbankbasierter Ansatz vorgestellt, der sich der Problematiken multidimensionaler Korpusrecherchen annimmt. Ausgehend von einer Charakterisierung der Anforderungsmerkmale linguistisch motivierter Suchen werden Speicherungs- und Abfragestrategien für mehrfach annotierte Korpora entwickelt und anhand eines linguistischen Anforderungskatalogs evaluiert. Ein Schwerpunkt liegt dabei in der Einführung problemorientierter Segmentierung und Parallelisierung.
Dulko ist ein im Aufbau befindliches fehlerannotiertes deutsch-ungarisches Lernerkorpus an der Universität Szeged. Es wird seit Sommer 2017 von der Alexander-von-Humboldt-Stiftung gefördert im Rahmen einer Institutspartnerschaft zwischen dem IDS und dem Institut für Germanistik an der Universität Szeged („Deutsch-ungarischer Sprachvergleich: korpustechnologisch, funktional-semantisch und sprachdidaktisch (DeutUng)“). Die in Dulko erhobenen Lernerdaten setzen sich zusammen aus kontrolliert erhobenen deutschsprachigen Essays und Übersetzungen aus dem Ungarischen ins Deutsche. Die Probanden sind Studierende am Institut für Germanistik der Universität Szeged mit Ungarisch als Muttersprache und Deutsch als erster oder zweiter Fremdsprache.
In diesem Beitrag soll ein Nachschlagewerk zur arealen Variation in der Grammatik des Deutschen kurz vorgestellt werden: die in Form eines Online-Wikis erschienene „Variantengrammatik des Standarddeutschen“. Sie ist das Hauptergebnis einer langjährigen Zusammenarbeit der Projektgruppe „Variantengrammatik“ unter der Leitung der Autorin und der Autoren dieses Beitrags. Für das Projekt wurde ein areal gewichtetes und annotiertes Korpus erstellt, das aus Lokal- und Regionalteilen der Online-Ausgaben von 68 regional verbreiteten Zeitungen besteht. Die ausgewählten Zeitungen sind nach fünfzehn Arealen des zusammenhängenden deutschsprachigen Raums unterteilt. Das tokenisierte, lemmatisierte und nach Wortarten annotierte Gesamtkorpus, auf das sich die Variantengrammatik stützt, umfasst ca. 600 Millionen Wörter.
Gegenstand ist eine vergleichende empirische Korpusstudie zur Bedeutung des Ausdrucks geschäftsmäßig im (bundesdeutschen) Gemeinsprach- und juristischen Fachsprachgebrauch. Die Studie illustriert an einem aktuellen Fall strittiger Wortdeutung (hier zu § 217 StGB) die Möglichkeiten computergestützter Sprachgebrauchsanalyse für die Auslegung vor Gericht und die Normtextprognose in der Rechtsetzung.
Die Arbeiten in diesem Band zeigen anhand ausgewählter morphosyntaktischer Phänomene exemplarisch auf, wie ein korpuslinguistischer Zugang genutzt werden kann, um die Vielfalt und Variabilität des Sprachgebrauchs in einer größeren Detailschärfe zu beschreiben, als dies bisher möglich war. Ausgangspunkt ist die Überlegung, dass sprachliche Variation als integraler Bestandteil der (Standard-)Sprache anzusehen ist und somit auch deskriptiv erfasst werden muss. Dabeigeht es zunächst um eine möglichst genaue Beschreibung der Verteilung und Häufigkeit verschiedener Ausprägungen ausgewählter Variablen. Eine umfassende Beschreibung eines Variationsphänomens beinhaltet zudem die Ermittlung und Gewichtung der Faktoren, die die Distribution der Variantensteuern. In diesem Zusammenhang werden Hypothesen aus der einschlägigen Forschungsliteratur unter Verwendung moderner statistischer Verfahren überprüft. Darüber hinaus enthalten die vorliegenden Studien eine explorative Komponente, die sich mit der Aufdeckung neuer Muster, Regularitäten und linguistischer Zusammenhänge befasst. Dabei werden verschiedene korpuslinguistische und statistische Ansätze und Verfahren erprobt und evaluiert.
Der Beitrag stellt die wissenschaftlichen und methodologischen Herausforderungen für die Erstellung einer innovativen, korpusbasierten lexikografischen Ressource zur Lexik des gesprochenen Deutsch in der Interaktion vor und zeigt neue Wege für lexikografische Arbeiten auf. Neben allgemeinen Projektinformationen zu den Ausgangspunkten, der Datengrundlage, den Methoden, Zielen und dem konkreten Gegenstandsbereich werden ausgewählte Ergebnisse von zwei projektbezogenen empirischen Studien zu Erwartungshaltungen an eine lexikografische Ressource des gesprochenen Deutsch präsentiert. Für korpusbasierte quantitative Informationen werden die Möglichkeiten eines Tools, welches im Rahmen des Projekts entwickelt wurde, aufgezeigt. Außerdem wird ein Einblick in die konzeptionellen und methodologischen Überlegungen zur Mikrostruktur der geplanten Ressource gegeben.
Zur Vorbereitung eines zweisprachigen Fachworterbuchs zur Tourismusfachsprache werden korpuslinguistische Verfahren eingesetzt, um Auffalligkeiten in der jeweiligen Fachsprache im Vergleich zum allgemeinsprachlichen Gebrauch aufzuspüren. Neben den hervorstechenden Elementen des Vokabulars, den Schlüsselwortern als potentiellen Stichwortern, geht es vor allem um sprach- und fachsprachspezifische typische Formulierungen und deren Ubersetzungsaquivalente. Fur die gemeinsame, interlinguale Betrachtung des Sprachenpaars Deutsch-Italienisch wurde ein kleines Fachsprachenkorpus aufgebaut und innerhalb der Sketch Engine-Umgebung unter Zuhilfenahme der darin integrierten Referenzkorpora ausgewertet. Fur eine weitere intralinguale Untersuchung der deutschsprachigen Komponente wurde auf das Deutsche Referenzkorpus DeReKo und weitere, intern zu Verfügung stehende Instrumente des Instituts für Deutsche Sprache zuruckgegriffen. Neben üblichen Verfahren der quantitativen Ein- oder Mehrwortbewertung wird ein Ansatz ergänzend getestet, der der dunnen Datengrundlage im fachsprachlichen Bereich Rechnung trägt: Diese ergibt sich nicht nur aus der Korpusgrobe, sondern auch daraus, dass bestimmte feste Floskeln (wie ,eine Reiserücktrittsversicherung abschlieben‘) selten rekurrent, vielmehr eher nur einmal pro Text verwendet werden. Auch wenn dieser Ansatz aufgrund infrastruktureller Artefakte in Einzelfallen an seine Grenzen stößt, die hier selbstkritisch nicht verschwiegen werden sollen, so zeigt sich doch an vielen Stellen auch das grobe Potential. Abschließend wird beispielhaft illustriert, wie Evidenzen dieser und der anderen korpuslinguistischen Auswertungen lexikographisch umgesetzt wurden.
Korpuslinguistik
(2018)
Der Band nimmt eine Bestandsaufnahme zu Grundlagen, Methodik, Werkzeugen und Anwendungsfeldern der Korpuslinguistik mit Fokus auf die germanistische Sprachwissenschaft vor. Die Beiträge stellen den aktuellen Forschungsstand sowohl im Bereich schriftsprachlicher wie auch mündlicher Korpora dar und beschreiben innovative Herangehensweisen, aktuelle Herausforderungen und Desiderata zur Arbeit mit Korpora in der Sprachwissenschaft.
Lexical explorer
(2018)
Das Tool Lexical Explorer ermöglicht, die Korpus-Frequenzangaben vom FOLK (Forschung und Lehrkorpus Gesprochenes Deutsch; Schmidt 2014) und GeWiss (Gesprochene Wissenschaftssprache; Fandrych, Meißner & Wallner 2017) zu durchsuchen und abzufragen. Das Tool besteht aus Tabellen, die für die Zwecke des Projekts LeGeDe entwickelt wurden (Möhrs et al. 2017). Die Zahlen beruhen auf dem DGD-Release 2.10 (23.05.2018). Für den Vergleich zwischen Korpora der gesprochenen Sprache und DeReKo wird die DeReKo Version 2016-II (30.09.2016) ohne Subkorpora Wikipedia-Daten (Artikel, Diskussionen) und ohne Sprachliche Umbrüche (45/68) verwendet (vgl. Kupietz & Keibel 2009). Die Tabellen werden mit Hilfe von DataTables (plug-in for jQuery) präsentiert, wobei die Ajax Protokolle benutzt werden, um die Tabellen asynchron aus der Datenbank zu ziehen. Die Benutzung des Tools setzt die Vertrautheit mit der Annotation der Korpora in der DGD voraus.
Sprachliche Variation
(2018)
Der Beitrag diskutiert anhand von Kongruenzschwankungen im Zusammenhang mit Subjektreihungen verschiedene Aspekte sprachlicher Variation. Es wird gezeigt, wie mithilfe einer Korpusstudie grammatische Faktoren ermittelt werden können, die die Verteilung der Varianten steuern. Im Anschluss wird eine Analyse vorgestellt, die Variation darauf zurückführt, dass syntaktische Strukturen, die an der Schnittstelle zur Morphologie/Phonologie nicht vollständig interpretierbar sind, auf verschiedene Arten repariert werden können.
Der vorliegende Band befasst sich mit dem Stand und der Entwicklung von Forschungsinfrastrukturen für die germanistische Linguistik und einigen angrenzenden Bereichen. Einen zentralen Aspekt dabei bildet die Notwendigkeit, Kooperativität in der Wissenschaft im institutionellen Sinne, aber auch in Hinsicht auf die wissenschaftliche Praxis zu organisieren. Dies geschieht in Verbunden als Kooperationsstrukturen, wobei Sprachwissenschaft und Sprachtechnologie miteinander verbunden werden. Als zentraler Forschungsressource kommen dabei Korpora und ihrer Erschließung durch spezielle, linguistisch motivierte Informationssysteme besondere Bedeutung zu. Auf der Ebene der Daten werden durch Annotations- und Modellierungsstandards die Voraussetzung für eine nachhaltige Nutzbarkeit derartiger Ressourcen geschaffen.
Das hier vorgeführte Schienenbild ist das in Anlehnung an Wittenburg (2009) als Erweiterungsinstrument gewählte Mittel in dem Versuch, Computertechnologie, linguistische Forschung und Vernetzung am Institut für Deutsche Sprache in deren rasch wachsenden Vielschichtigkeit zu beschreiben. Hier werden u. a. drei Blickwinkel, der des Technologie entwickelnden Wissenschaftlers, des entwickelnden Nutzers und des Nutzers von Informationstechnologie in der linguistischen Forschung vereint und um eine für den Sprachvergleich neue Dimension, die sprachspezifische Parameter von Analyseinstrumenten miteinander harmonisiert, erweitert.
Sehr große Korpora – wie das Deutsche Referenzkorpus DeReKo – bieten eine breite Basis für die empirische Forschung. Sie bringen aber auch Herausforderungen mit sich, da sich weder Eigenschaften ihrer Zusammensetzung noch derer von Recherche- und Analyseergebnissen mit einfachen Mitteln erschließen lassen. Dafür bedarf es Verfahren geschickter Sortierung, Gruppierung oder des Clusterings, kurzum: strukturentdeckender Methoden. In Kombination mit Visualisierungstechniken kann so die Wahrnehmung bestimmter Eigenschaften und Zusammenhänge unterstützt und die Aufmerksamkeit auf bestimmte Phänomene, ggf. in Anlehnung an präferenzrelationale Befunde, gelenkt werden. Neben der illustrativen Funktion geht es in diesem Beitrag vor allem um das erkenntnisleitende Potenzial derartiger Verfahren in Kombination. Aus verschiedenen Bereichen werden Beispiele gezeigt, die am IDS oder in Kooperationen zum Einsatz kommen, sowohl zur dokumentarischen und reflexiven Kontrolle von Eigenschaften der Korpuszusammensetzung als auch hinsichtlich korpusanalytischer Methodik, um die qualitative Interpretation von Analysebefunden und die Abduktion von Hypothesen stimulierend zu unterstützen.
Visualisierungen spielen in den Wissenschaften eine wichtige Rolle im Forschungsprozess. Sie dienen der Illustration von gewonnener Erkenntnis, aber auch als eigenständiges Mittel der Erkenntnisgewinnung. Auch in der Linguistik sind solche Visualisierungen bedeutend. Beispielsweise in Form von Karten, Baumgraphen und Begriffsnetzen. Bei korpuslinguistischen Methoden sind explorative Visualisierungen oft ein wichtiges Mittel, um die Daten überblickbar und interpretierbar zu machen. Das Buch reflektiert die theoretischen Grundlagen wissenschaftlicher Visualisierungen in der Linguistik, zeigt Praxisbeispiele und stellt auch Visualisierungswerkzeuge vor.
Einleitung
(2018)
Die Zuschreibung 'authentisch/Authentizität' ist Ergebnis eines Authentisierungsakts, also einer auf Aushandlung und Deutung folgenden Erklärung, dass ein Sachverhalt, Objekt etc. zu Recht die mit authentischl Authentizität bezeichnete Eigenschaft zugeschrieben bekommt. In diesem Sinn rekonstruiert der folgende Beitrag die Verwendungsweisen von authentischl Authentizität, die aus korpuslinguistischen Auswertungen abgeleitet sind und die Bedeutungsfacetten deutlich machen, die in dieser Granularität nur auf der Grundlage großer Korpora erkennbar sind.
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), zugänglich über die Datenbank für Gesprochenes Deutsch (DGD), strebt den Status eines Referenzkorpus für den aktuellen mündlichen Sprachgebrauch im deutschen Sprachraum an. Es enthält einen wachsenden Bestand von Audio- und Videoaufnahmen authentischer Gespräche aus verschiedenen Bereichen des gesellschaftlichen Lebens. Die Dokumentation und Repräsentation von Interaktions- und Sprecherinformationen sind bereits seit den Anfängen des Korpusaufbaus integrale Bestandteile von FOLK. Allerdings lag bislang kein ausgearbeitetes, empirisch erprobtes und vollständig in die Korpusinfrastruktur integrierbares Stratifikationskonzept vor. Mit dem vorliegenden Artikel wird ein solches Konzept vorgeschlagen. Es knüpft an frühere Konzeptionen an und wurde anhand der vorhandenen Daten überprüft, korrigiert und erweitert. Dieser Prozess verlief parallel zur Überarbeitung des XML-Schemas zur Metadatendokumentation, um die konkrete Implementierung vorzubereiten. Im Anschluss an eine Skizzierung genereller Aspekte des Korpusdesigns werden die stratifikationsleitenden und ergänzenden Parameter vorgestellt und erläutert. Abschließend werden Ansätze und Strategien zum Korpusausbau diskutiert.
All linguistics should be media linguistics, but it is not. This thesis is presented by using linguistic landscapes as an example. LL research does not belong to the traditional core of either mainstream linguis-tics or media linguistics. This is why not everything within power has been done yet to make full use of their thematic, conceptual and methodological possibilities. Visible signs in public space, however, are an everyday phenomenon. You have to pull out all the stops to research them extensively. The distinction between linguistics and media linguistics turns out to be counterproductive. But this does not only apply to the case of linguistic landscapes. It also stands for any comprehensive investigation of language and language use. (Ex-ceptions may be very narrow questions for specific purposes.) The above thoughts are supported by a database of the project „Metro-polenzeichen“ with more than 25.000 systematically collected, ge-ocoded and tagged photographs.
In der Geschichte der Sprachwissenschaft hat das Lexikon in unterschiedlichem Maße Aufmerksamkeit erfahren. In jüngerer Zeit ist es vor allem durch die Verfügbarkeit sprachlicher Massendaten und die Entwicklung von Methoden zu ihrer Analyse wieder stärker ins Zentrum des Interesses gerückt. Dies hat aber nicht nur unseren Blick für lexikalische Phänomene geschärft, sondern hat gegenwärtig auch einen profunden Einfluss auf die Entstehung neuer Sprachtheorien, beginnend bei Fragen nach der Natur lexikalischen Wissens bis hin zur Auflösung der Lexikon-Grammatik-Dichotomie. Das Institut für Deutsche Sprache hat diese Entwicklungen zum Anlass genommen, sein aktuelles Jahrbuch in Anknüpfung an die Jahrestagung 2017 – „Wortschätze: Dynamik, Muster, Komplexität“ – der Theorie des Lexikons und den Methoden seiner Erforschung zu widmen.
In der Datenbank zum Datensatz attributive_Adjektive_1.csv finden sich 1.598 Belege zu artikellosen Nominalphrasen mit je zwei attributiven Adjektiven im Dativ Singular Maskulinum oder Neutrum.
Die Datenbank attributive Adjektive enthält zu jedem Beleg neben dem Satzkontext eine Reihe von Annotationen. Dazu gehören Metadaten wie Register und regionale Zuordnung sowie Annotationen zur Phonologie, Morphosyntax, Semantik und Frequenz. Anhand dieser Annotationen lassen sich Hypothesen zur Adjektivflexion und -reihenfolge überprüfen. Nach einer Auswahl aus diesen Annotationen können Sie hier suchen. Alternativ können Sie unter „Download“ das gesamte Suchergebnis mit allen Annotationen und inklusive aller Belege, die bei der Untersuchung von Adjektivflexion und -reihenfolge als Fehlbelege eingestuft worden sind, herunterladen.
Vorwort
(2018)
Quantitativ ausgerichtete empirische Linguistik hat in der Regel das Ziel, grose Mengen sprachlichen Materials auf einmal in den Blick zu nehmen und durch geeignete Analysemethoden sowohl neue Phanomene zu entdecken als auch bekannte Phanomene systematischer zu erforschen. Das Ziel unseres Beitrags ist es, anhand zweier exemplarischer Forschungsfragen methodisch zu reflektieren, wo der quantitativ-empirische Ansatz fur die Analyse lexikalischer Daten wirklich so funktioniert wie erhofft und wo vielleicht sogar systembedingte Grenzen liegen. Wir greifen zu diesem Zweck zwei sehr unterschiedliche Forschungsfragen heraus: zum einen die zeitnahe Analyse von produktiven Wortschatzwandelprozessen und zum anderen die Ausgleichsbeziehung von Wortstellungsvs. Wortstrukturregularitat in den Sprachen der Welt. Diese beiden Forschungsfragen liegen auf sehr unterschiedlichen Abstraktionsebenen. Wir hoffen aber, dass wir mit ihnen in groser Bandbreite zeigen konnen, auf welchen Ebenen die quantitative Analyse lexikalischer Daten stattfinden kann. Daruber hinaus mochten wir anhand dieser sehr unterschiedlichen Analysen die Moglichkeiten und Grenzen des quantitativen Ansatzes reflektieren und damit die Interpretationskraft der Verfahren verdeutlichen.
Die Diskurslinguistik hat sich in den letzten Jahren als eine linguistische Teildisziplin etabliert, die in transtextuellen Untersuchungen über sprachliche Muster gesamtgesellschaftlich rele-vante Denk- und Vorstellungswelten rekonstruiert. Die Digitalisierung hat nicht nur unsere Gesellschaft grundlegend verändert und neue Kommunikationsformen und innovative kulturelle Praktiken geprägt, sondern auch das diskurslinguistische Arbeiten maßgeblich beein-flusst. So war die Etablierung der Diskurslinguistik sowie auch der diskursorientierten Lexikographie geprägt durch die Engführung mit computergestützten Methoden (Bubenhofer 2009, Teubert/Čermáková 2007, Halliday et al. 2004), die große Textsammlungen für Diskursanalysen zugänglich machen. Da diskursanalytische Forschung in foucaultscher Tradition nicht am Einzelbeleg interessiert ist, sondern mit kontextuellen Mustern und intertextuellen Verweisstrukturen arbeitet, bietet eine korpusgestützte Analyse eine produktive Ausgangsbasis für Diskursuntersuchungen. Dies gilt insbesondere für die Diskurslexikographie, bei der auf breiter Datenbasis Wörterbücher zu kulturhistorischen Diskursen erstellt werden.
Einleitung
(2018)
Dieser Beitrag setzt sich mit Gesprächskorpora als einem besonderen Typus von Korpora gesprochener Sprache auseinander. Es werden zunächst wesentliche Eigenschaften solcher Korpora herausgearbeitet und einige der wichtigsten deutschsprachigen Gesprächskorpora vorgestellt. Der zweite Teil des Beitrags setzt sich dann mit dem Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) auseinander. FOLK hat sich zum Ziel gesetzt, ein wissenschaftsöffentliches Korpus von Interaktionsdaten aufzubauen, das methodisch und technisch dem aktuellen Forschungsstand entspricht. Die Herausforderungen, die sich beim Aufbau von FOLK in methodischer und korpustechnologischer Hinsicht stellen, werden in abschließenden Abschnitt diskutiert.
Kontexte und ihre Verteilung
(2018)
Die typischen sprachlichen Kontexte, in denen ein Wort verwendet wird, spannen den Rahmen auf, über den sowohl Sprecher als auch Forscher einer Sprache wesentliche Aspekte der Bedeutung des Wortes erschließen und vermitteln. Über große Korpora und entsprechende korpus-, aber auch computerlinguistische Methoden stehen nunmehr systematische Zugänge zu den typischen Verwendungsweisen zur Verfügung, am Institut für Deutsche Sprache etwa über die Kookkurrenzanalyse seit 1995. Auf den Ergebnissen des letztgenannten Verfahrens operieren weitere Methoden, die Bedeutungsbeziehungen zwischen Wörtern auf Ähnlichkeitsbeziehungen des Kontextverhaltens zurückfuhren. In jüngerer Zeit werden Ansätze vor allem aus der Computerlinguistik und dem information retrieval diskutiert, die mit einem ähnlichen Ziel antreten. Dieser Beitrag soll einen prinzipiellen Überblick bieten, wie die verschiedenen Forschungsstränge den Begriff Kontext interpretieren, wie sie ihn systematisch erfassen und zum Vergleich einsetzen. Neben Bedeutungsnähe wird vor allem Mehrdeutigkeit besondere Beachtung finden.
In einem der zentralen Projekte der Abteilung Grammatik des IDS, Korpusgrammatik – grammatische Variation im standardsprachlichen und standardnahen Deutsch, wird derzeit u.a. die Wortbildung bearbeitet. Es werden auch Erkenntnisse und weiterführende Fragestellungen berücksichtigt, die sich aus dem Ende 2014 abgeschlossenen Projekt zur Semantik der deutschen Konnektoren ergeben haben. Das neue Projekt stützt sich noch stärker als schon das Konnektoren-Projekt auf Korpusauswertungen. Methodik und erste Ergebnisse werden im vorliegenden Text an zwei exemplarischen Fallgruppen demonstriert: Zunächst geht es um eine Reihe konzessiver Subjunktoren der Bildungsmuster ob-/wenn-/wiewohl etc.; sodann um Bildungen auf -falls, die zu den Adverbkonnektoren gehören. Bestand und sich aus dessen Systematisierung ergebende Wortbildungsmuster werden aus Korpusbelegen vervollständigt, und unterliegende Wortbildungsverfahren (im Kontrast zu der Lage bei den Hauptwortarten) werden diskutiert. Dabei zeigen sich unerwartete Mustervarianten, die auch Hinweise auf die Produktivität der Wortbildungsverfahren geben. Schließlich werden die Varianten mit grammatikexternen Metadaten korreliert, wobei die Möglichkeiten des statistischen Tools KoGra-R genutzt werden.
Mit der Verfügbarkeit immer größerer und vielfältigerer Korpora wird im Übergang zum 21. Jahrhundert in der Lexikonforschung ein neues Kapitel aufgeschlagen. Der korpuslinguistische Zugang zum Lexikon hat die Lexikografie mit einer neuen empirischen Basis versehen und die klassische Abgrenzung zwischen Lexikon und Grammatik wird in sprachtheoretischen Debatten zunehmend in Frage gestellt. Der vorliegende Band nimmt eine Positionsbestimmung dieser Entwicklungen vor. Er setzt ein mit der Diskussion zur Rolle des Lexikons im Sprachsystem. Im zweiten Teil, “Kookkurrenz und Konstruktion”, geht es um Phänomene, die über die Ebene des einzelnen Wortes hinausgehen und seit einiger Zeit immer größeres Interesse auf sich ziehen. Mentale Prozesse und Repräsentationen des Lexikons bilden den Fokus im Teil “Kognition und Semantik”. Mit “Komplexität und Dynamik” werden im vierten Teil zwei weitere zentrale Begriffe der aktuellen linguistischen Diskussion über das Lexikon thematisiert, bevor abschließend auch auf die Implikationen für Wortschatzforschung und Lexikografie eingegangen wird.
Der CorpusExplorer v2.0 ist eine frei verfügbare Software zur korpushermeneutischen Analyse und bietet über 45 unterschiedliche Analysen/Visualisierungen für eigenes Korpusmaterial an. Dieser Praxisbericht gibt Einblicke, zeigt Fallstricke auf und bietet Lösungen an, um die tägliche Visualisierungsarbeit zu erleichtern. Zunächst wird ein kurzer Einblick in die Ideen gegeben, die zur Entwicklung des CorpusExplorers führten, einer korpuslinguistischen Software, die nicht nur vielfältige Forschungsansätze unterstützt, sondern auch mit einem Fokus auf die universitäre Lehre entwickelt wird. Der Mittelteil behandelt einen der vielen Fallstricke, die im Entwicklungsprozess auftraten: Effizienz-/Anpassungsprobleme – bzw.: Was passiert, wenn Visualisierungen an neue Begebenheiten angepasst werden müssen? Da diese Lösung Teil des CorpusExplorers v2.0 ist, wird abschließend darauf eingegangen, wie unterschiedliche Visualisierungen zu denselben Datensätzen sich auf die Rezeption/Interpretation von Daten auswirken.
Der Korpuslinguistik begegneten überwiegend introspektiv arbeitende Grammatiktheoretiker lange mit Misstrauen. Dabei kann sie, auch wenn sie selbst kein bestimmtes theoretisches Paradigma vorgibt, in sehr vielfältiger Weise zur Theoriebildung beitragen. Zum einen können mithilfe von Korpora theoretische Aussagen exemplifiziert und validiert werden. Zum anderen liefert die Korpuslinguistik große Mengen differenzierter Sprachdaten sowie Methoden, mit denen sie überschaut und analysiert werden können. Neue Daten müssen theoretisch in neuen Generalisierungen aufgearbeitet werden und auch die Datenvielfalt selbst rückt in den theoretischen Fokus. Die Grammatikforschung erfährt so eine empirische Wende, in der die Variation grammatischer Strukturen zu einem der zentralen Themen wird. Die theoretische Erfassung dieser Variation geht dabei weit über die Grenzen einer klassischen Theorie der Sprachkompetenz hinaus. Immer dringlicher wird damit eine neue wissenschaftliche Grammatik des Deutschen, die diese Entwicklung aufnimmt, sich den neuen Forschungsfragen stellt, sie mit modernen korpuslinguistischen Methoden untersucht und damit die Grundlagen für eine umfassende Theorie schafft, in der Kompetenz und Performanz (wie auch Synchronie und Diachronie) näher aneinanderrücken.
DaF-Lernende sollen – laut z. B. dem „Gemeinsamen europäischen Referenzrahmen für Sprachen“ – auf C1 Niveau über lexikalische Kompetenzen in der Interaktion verfügen und aus einem Repertoire von Diskursmitteln eine geeignete Wendung für konkrete Kommunikationsbedürfnisse auswählen können. Wir betrachten diese Annahme im vorliegenden Beitrag als Ausgangspunkt und stellen darauf aufbauend die Frage, welche Diskursmittel und lexikalischen Einheiten typisch für die mündliche Interaktion sind und daher auch spezifische Beachtung im DaF-/DaZ-Unterricht finden sollten. Zu hinter-fragen ist, wie die Anforderungen an DaF-Lernende zu lexikalischen Besonderheiten im Mündlichen in Richtlinien wie dem GeR oder „Profile Deutsch“ formuliert werden und wie diese Anforderungen in Lehr- und Nachschlagewerken für diese Zielgruppe aufgegriffen werden. Unsere Untersuchungen zeigen, dass die Möglichkeiten noch ausbaufähig sind, was aus unserer Sicht zum Beispiel über eine verstärkte Nutzung der inzwischen vorhandenen Korpora zum gesprochenen Deutsch denkbar sein kann. In diesem Zusammenhang wird auch eine direkte Verbindung zu dem Forschungsprojekt LeGeDe (IDS Mannheim) hergestellt, das u. a. die Konzipierung einer innovativen korpusbasierten Ressource zur Lexik des gesprochenen Deutsch in der Interaktion als Prototyp anvisiert und damit einen Ausschnitt aus einem Repertoire an standardnahen lexikalischen Elementen und Diskursmitteln zusammen mit lexikalisch und interaktions-linguistisch relevanten Informationen in multimedialer Form anbieten möchte. Dieses Vorhaben kommt, laut der Ergebnisse entsprechender Befragungen, u. a. auch den Erwartungen der Probanden aus der Lernerperspektive entgegen und findet daher sowohl für die Forschung als auch für die Lehre entsprechende Anwendungsmöglichkeiten.