Korpuslinguistik
Refine
Year of publication
Document Type
- Part of a Book (200)
- Conference Proceeding (161)
- Article (105)
- Book (33)
- Part of Periodical (10)
- Other (9)
- Working Paper (6)
- Review (4)
- Doctoral Thesis (3)
- Preprint (3)
Language
- German (272)
- English (265)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (455)
- Deutsch (164)
- Gesprochene Sprache (64)
- Annotation (56)
- Forschungsdaten (36)
- Computerlinguistik (33)
- Korpuslinguistik (28)
- corpus linguistics (27)
- Deutsches Referenzkorpus (DeReKo) (25)
- Grammatik (25)
Publicationstate
- Veröffentlichungsversion (321)
- Zweitveröffentlichung (141)
- Postprint (23)
- Erstveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (235)
- Peer-Review (202)
- Peer-review (5)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (5)
- Zweitveröffentlichung (3)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (2)
- Verlags-Lektorat (2)
- Peer-reviewed (1)
- Review-Status-unbekannt (1)
- Verlagslektorat (1)
Publisher
- de Gruyter (81)
- Institut für Deutsche Sprache (58)
- Narr (32)
- European Language Resources Association (ELRA) (25)
- European Language Resources Association (24)
- Leibniz-Institut für Deutsche Sprache (IDS) (20)
- Narr Francke Attempto (15)
- Leibniz-Institut für Deutsche Sprache (11)
- Linköping University Electronic Press (10)
- CLARIN (8)
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), zugänglich über die Datenbank für Gesprochenes Deutsch (DGD), strebt den Status eines Referenzkorpus für den aktuellen mündlichen Sprachgebrauch im deutschen Sprachraum an. Es enthält einen wachsenden Bestand von Audio- und Videoaufnahmen authentischer Gespräche aus verschiedenen Bereichen des gesellschaftlichen Lebens. Die Dokumentation und Repräsentation von Interaktions- und Sprecherinformationen sind bereits seit den Anfängen des Korpusaufbaus integrale Bestandteile von FOLK. Allerdings lag bislang kein ausgearbeitetes, empirisch erprobtes und vollständig in die Korpusinfrastruktur integrierbares Stratifikationskonzept vor. Mit dem vorliegenden Artikel wird ein solches Konzept vorgeschlagen. Es knüpft an frühere Konzeptionen an und wurde anhand der vorhandenen Daten überprüft, korrigiert und erweitert. Dieser Prozess verlief parallel zur Überarbeitung des XML-Schemas zur Metadatendokumentation, um die konkrete Implementierung vorzubereiten. Im Anschluss an eine Skizzierung genereller Aspekte des Korpusdesigns werden die stratifikationsleitenden und ergänzenden Parameter vorgestellt und erläutert. Abschließend werden Ansätze und Strategien zum Korpusausbau diskutiert.
Neues von KorAP
(2019)
In this paper, we describe MLSA, a publicly available multi-layered reference corpus for German-language sentiment analysis. The construction of the corpus is based on the manual annotation of 270 German-language sentences considering three different layers of granularity. The sentence-layer annotation, as the most coarse-grained annotation, focuses on aspects of objectivity, subjectivity and the overall polarity of the respective sentences. Layer 2 is concerned with polarity on the word- and phrase-level, annotating both subjective and factual language. The annotations on Layer 3 focus on the expression-level, denoting frames of private states such as objective and direct speech events. These three layers and their respective annotations are intended to be fully independent of each other. At the same time, exploring for and discovering interactions that may exist between different layers should also be possible. The reliability of the respective annotations was assessed using the average pairwise agreement and Fleiss’ multi-rater measures. We believe that MLSA is a beneficial resource for sentiment analysis research, algorithms and applications that focus on the German language.
Phänomene im Bereich von Valenz, Argumentstruktur, Diathesen, Kollokationen und Phrasemen dienen von jeher zur Bestimmung der Schnittstelle zwischen Lexikon und Grammatik. Mittlerweile sind allerdings grundsätzliche Zweifel an der Berechtigung der sprachtheoretischen Zweiteilung in Lexikon und Grammatik aufgekommen, auch weil die Entwicklungen im Bereich empirischer Methodik einen zunehmend besseren Einblick in die differenzierte Natur sprachlichen Wissens ermöglichen und uns mit semiproduktiven Prozessen, graduellen Kategoriezuordnungen, instabilen sprachlichen Mustern und frequenzgesteuerten Usualisierungen eigentlich regelhafter Strukturen konfrontieren. Die strikte Grenze zwischen der Grammatik als dem Ort des syntaktisch-semantisch Regelhaften und dem Lexikon als dem Repositorium des syntaktisch-semantisch Idiosynkratischen ist damit in Frage gestellt. Die Beiträge des Bandes betrachten den Bereich, wo Regelhaftes und Idiosynkratisches miteinander verwoben sind, sie führen Kontroversen zum Status von Konstruktionen und dem Verhältnis zwischen Lexikon und Grammatik, und sie zeigen, wie empirische Methoden der Korpuslinguistik, Psycho- und Neurolinguistik und Spracherwerbsforschung zur Klärung dieser Kontroversen beitragen.
This paper analyses reply relations in computer-mediated communication (CMC), which occur between post units in CMC interactions and which describe references between posts. We take a look at existing practices in the description and annotation of such relations in chat, wiki talk, and blog corpora. We distinguish technical reply structures, indentation structures, and interpretative reply relations, which include reply relations induced by linguistic markers. We sort out the different levels of description and annotation that are involved and propose a solution for their combined representation within the TEI annotation framework.
Dieser Beitrag beschäftigt sich mit einem Vergleich der englischen wh-Clefts und deren Entsprechungen im Deutschen, den ,Sperrsätzen‘ oder ‚w-Clefts‘. Auf Grundlage einer umfangreichen Korpusstudie werden zunächst Unterschiede in der Verteilung bestimmter w/h-Cleftsatztypen ermittelt. Ein generelles quantitatives Übergewicht der englischen wh-Clefts gegenüber den deutschen w-Clefts wird mit der flexibleren Wortstellung des Deutschen in Verbindung gebracht. Spezifisch werden die beobachteten Asymmetrien durch Unterschiede in der Möglichkeit der Erfüllung bestimmter struktureller Bedingungen erklärt. Vier Motivationen für die Bildung von Cleftsätzen werden identifiziert: (i) lineare Synchronisierung von Informationsstruktur und Syntax, (ii) strukturelle Trennung von Quaestio (= im Diskurs gegebener Frage) und Responsio (= Antwort auf die Quaestio), (iii) Trennung von propositionalem Gehalt und Äußerungskommentar (,Ebenentrennung‘) und (iv) Rechtslastigkeit (Behaghels ‚Gesetz der wachsenden Glieder‘). Während all diese Faktoren die Bildung von wh-Cleftsätzen im Englischen zu begünstigen scheinen, sind deutsche w-Clefts meist durch den in (ii) genannten Faktor motiviert. Die anderen Motivationen führen seltener zur Bildung von w-Cleftsätzen als im Englischen, da die entsprechenden strukturellen Effekte auch ohne Cleftsatzbildung — z.B. in einem kanonischen Verbzweitsatz — erzielt werden können.
Am Beispiel des an der Universität Oslo entwickelten Oslo Multilingual Corpus (OMC) wird illustriert, wie ein Parallelkorpus aus Originaltexten und deren Übersetzungen zur sprachvergleichenden Erforschung von Phänomenen der Satzverbindung und der Informationsverteilung auf Satz- und Textebene eingesetzt werden kann. Nach einer Skizze der OMC-Architektur wird eine Untersuchung von Satzverknüpfungen mit dem komitativen Konnektor „wobei“ und deren Entsprechungen in norwegischen Übersetzungen und Originaltexten vorgestellt, die dazu beiträgt, Bedeutungsfacetten dieses Konnektors aufzuzeigen, die in rein intralingualen Studien nicht so einfach zu erkennen sind, und dadurch einen besseren und systematischeren Einblick in die angewandten Übersetzungsstrategien gibt. Als zweites Einsatzbeispiel wird eine explorative Untersuchung zur Elaborierung von Ereignisbeschreibungen vorgestellt, die deutsche, norwegische, englische und französische Entsprechungen von „mit“-Konstruktionen (sog. „Sätzchen“) als Ausgangspunkt nimmt. Beide Studien illustrieren, dass ein Parallelkorpus auch ohne komplexe Annotierungen nicht nur für wort-basierte quantitative Untersuchungen verwertet werden, sondern auch im Zuge weniger zielgerichteter, eher qualitativ angelegter Studien als „Augenöffner“ für komplexe linguistische Phänomene dienen kann.
In diesem Aufsatz diskutiere ich drei syntaktische Phänomene, die für die Grammatikforschung von zentraler Bedeutung sind. Ich zeige, dass Introspektion als Stütze von Theorien nicht ausreicht und entwickle Korpusanfragen für die diskutierten Fälle. Der Aufsatz schließt mit Anmerkungen zu den Grenzen der Korpuslinguistik.