Korpuslinguistik
Refine
Document Type
- Part of a Book (13) (remove)
Has Fulltext
- yes (13)
Keywords
- Grammatik (13) (remove)
Publicationstate
- Veröffentlichungsversion (10)
- Zweitveröffentlichung (2)
- Erstveröffentlichung (1)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (11)
- Peer-Review (2)
Publisher
- Narr (6)
- Academia (1)
- De Gruyter (1)
- European language resources association (ELRA) (1)
- Heidelberg University Publishing (1)
- Lang (1)
- Winter (1)
- de Gruyter (1)
Eine korpuslinguistische Untersuchung mit umfassender Analyse der häufiger vorkommenenden Adverbbildungsmuster des Deutschen legt nahe, dass die Sättigung des internen Argumentplatzes eines ursprünglich relationalen Ausdrucks eine wichtige Rolle bei der Adverbproduktion spielt (Brandt 2020). Eine genauere Betrachtung der Unterschiede zwischen -ermaßen- vs. -erweise-Adverbien deutet auf eine grammatische Unterscheidung zwischen Satzadverbien und Adverbien der Art und Weise: Im Fall von -ermaßen erfolgt die Sättigung über Token-Reflexivität, während der interne Slot von -erweise- Bildungen über häufigere und möglicherweise expansive Mechanismen geschlossen wird. Darüber hinaus fördert die pleonastische Qualität von Bildungen auf der Basis gerundivaler Partizipien die Produktivität von -erweise Adverbien.
In diesem Aufsatz diskutiere ich drei syntaktische Phänomene, die für die Grammatikforschung von zentraler Bedeutung sind. Ich zeige, dass Introspektion als Stütze von Theorien nicht ausreicht und entwickle Korpusanfragen für die diskutierten Fälle. Der Aufsatz schließt mit Anmerkungen zu den Grenzen der Korpuslinguistik.
The paper describes preliminary studies regarding the usage of Example-Based Querying for specialist corpora. We outline an infrastructure for its application within the linguistic domain. Example-Based Querying deals with retrieval situations where users would like to explore large collections of specialist texts semantically, but are unable to explicitly name the linguistic phenomenon they look for. As a way out, the proposed framework allows them to input prototypical everyday language examples or cases of doubt, which are automatically processed by CRF and linked to appropriate linguistic texts in the corpus.
In recent years, the availability of large annotated and searchable corpora, together with a new interest in the empirical foundation and validation of linguistic theory and description, has sparked a surge of novel and interesting work using corpus-based methods to study the grammar of natural languages. However, a look at relevant current research on the grammar of the Germanic, Romance, and Slavic languages reveals a variety of different theoretical approaches and empirical foci, which can be traced back to different philological and linguistic traditions. Still, this current state of affairs should not be seen as an obstacle but as an ideal basis for a fruitful exchange of ideas between different research paradigms.
Von Grammatikern erwartet man Auskunft darüber, wie man zu reden und zu schreiben hat, eine Erwartung, die sich auf die Annahme stutzt, es stehe grundsätzlich immer schon fest, was in Sprachen wie etwa dem Deutschen als korrekt gelten kann. Tatsächlich kann jedoch nicht einmal davon ausgegangen werden, dass es so etwas wie das Deutsche als eindeutig bestimmten Gegenstand gibt. Alles, was als Deutsch zu fassen ist, sind ungezählte schriftliche und - sofern aufgezeichnet - mündliche Äußerungen. Bis vor wenigen Jahren waren diese Daten praktisch nur unzureichend zu nutzen, weshalb Grammatikern wenig anderes übrig blieb, als auf der schmalen Basis durch Introspektion gewonnener Daten Simulationen eines allgemeinen Sprachgebrauchs zu entwickeln. Mit der Verfügung über riesige Korpora maschinenlesbarer Texte haben sich die Voraussetzungen für die Untersuchung grammatischer Strukturen entscheidend verändert. Für die Grammatikforschung ergaben sich damit neue Perspektiven: zum einen ein radikaler Bruch mit der Tradition grammatischer Analysen, der weitgehend auf eine statistische Auswertung von Kookkurrenzen setzt, zum andern - weniger radikal, mehr traditionsverbunden - die Möglichkeit, konventionell kompetenzgestutzt erarbeitete Regelhypothesen anhand von Daten zu validieren, wie sie in sehr großen Textkorpora vorliegen und dem, was als Deutsch gelten kann, so nah kommen, wie dies irgend erreichbar ist, da sie durchweg in dem Bemühen zustande kamen, sich korrekt auszudrucken.
Standardisierte statistische Auswertungen von Korpusdaten im Projekt "Korpusgrammatik" (KoGra-R)
(2017)
Wir zeigen anhand dreier Beispielanalysen, wie das im IDS-Projekt „Korpusgrammatik“ entwickelte Auswertungstool KoGra-R in der quantitativlinguistischen Forschung zur Analyse von Frequenzdaten auf mehreren linguistischen Ebenen eingesetzt werden kann. Wir demonstrieren dies anhand regionaler Präferenzen bei der Selektion von Genitivallomorphen, der Variation von Relativpronomina sowie der Verwendung bestimmter anaphorischer Ausdrucke in Abhängigkeit davon, ob sich das Antezedens im gleichen Satz befindet oder nicht. Die in KoGra-R implementierten statistischen Tests sind für jede dieser Ebenen geeignet, um mindestens einen ersten statistisch abgesicherten Eindruck der Datenlage zu erlangen.
Thema des Beitrags ist der Einsatz des Dudenkorpus in der Zusammenarbeit von Grammatikautoren und Dudenredaktion. Das annotierte Korpus und die Recherchemöglichkeiten, die es bietet, werden anhand aktueller Beispiele aus der Werkstatt einer Dudenredakteurin beschrieben. Einen Schwerpunkt bildet neben einfachen Vergleichen zwischen zwei oder drei morphologischen Varianten die komplexere Frage, ob temporales wo (der Zeitpunkt, wo; jetzt, wo) in der Dudengrammatik weiterhin als standardsprachlich bezeichnet werden soll. Zugleich wird versucht, die Attraktivität alternativer Konstruktionen (der Zeitpunkt, zu dem; jetzt, da) für Schreibende und Lesende zu messen. Diese ‘Alternativen’ verhalten sich jedoch keineswegs wie die eingangs erwähnten morphologischen Varianten zueinander – zu unterschiedlich sind semantische und syntaktische Leistungen, zu unterschiedlich die Restriktionen, die für ihre Verwendung im Satz gelten, zu unterschiedlich sind schließlich die untersuchten Texte, aus denen die mittels Hochrechnung ausgewerteten über 30 000 Sätze stammen. Zur Diskussion steht, welche Konsequenzen in einer Grammatik für ein breites Publikum zu ziehen sind. Diese Frage wird für die ‘Wortgrammatik’ anders beantwortet als für die ‘Regelgrammatik’.
This paper presents ongoing research which is embedded in an empirical-linguistic research program, set out to devise viable research strategies for developing an explanatory theory of grammar as a psychological and social phenomenon. As this phenomenon cannot be studied directly, the program attempts to approach it indirectly through its correlates in language corpora, which is justified by referring to the core tenets of Emergent Grammar. The guiding principle for identifying such corpus correlates of grammatical regularities is to imitate the psychological processes underlying the emergent nature of these regularities. While previous work in this program focused on syntagmatic structures, the current paper goes one step further by investigating schematic structures that involve paradigmatic variation. It introduces and explores a general strategy by which corpus correlates of such structures may be uncovered, and it further outlines how these correlates may be used to study the nature of the psychologically real schematic structures.
Vorgestellt werden Ziele und erste Ergebnisse des Projektes „Univerbierung“ am Institut für Deutsche Sprache. Das Projekt untersucht in verschiedenen Korpora, ob sich Prozesse der Univerbierung quantitativ belegen lassen. In Form von Univerbierungsprofilen sollen Univerbierungsverläufe dargestellt werden, d.h. die quantitativen Veränderungen, die zeitlich im Verhältnis der Getrennt- und Zusammenschreibungen eintreten (Kap. 1 und 2). Zugleich wird dabei methodologisch reflektiert, ob und inwieweit diese Korpora für solche Untersuchungen geeignet sind (Kap. 3). Exemplarisch werden einige Univerbierungsprofile vorgestellt (Kap. 4). Es handelt sich zum einen um Beispiele, bei denen sich die Normlage im Zuge der Rechtschreibreform nicht geändert hat, und zum anderen um solche, bei denen sie im Untersuchungszeitraum (1985-2008) verändert wurde. Die Untersuchungen zielen in der Perspektive darauf ab, Faktoren herauszuarbeiten, die Univerbierungsprozesse fördern bzw. hemmen, und aufzuklären, was Schreiber(-innen) als ein Wort gilt. Dies kann dazu beitragen, empirisch gestützt Komponenten des Wortkonzepts zu ermitteln (Kap. 5).