Korpuslinguistik
Refine
Year of publication
- 2021 (21) (remove)
Document Type
- Conference Proceeding (10)
- Article (7)
- Book (1)
- Part of a Book (1)
- Other (1)
- Report (1)
Keywords
- Korpus <Linguistik> (19)
- Forschungsdaten (7)
- Computerlinguistik (5)
- Datenmanagement (5)
- Deutsch (5)
- Urheberrecht (5)
- corpus linguistics (4)
- Datenqualität (3)
- Gesprochene Sprache (3)
- Metadaten (3)
Publicationstate
- Veröffentlichungsversion (21) (remove)
Reviewstate
- Peer-Review (17)
- (Verlags)-Lektorat (2)
Publisher
- Linköping University Electronic Press (6)
- Leibniz-Institut für Deutsche Sprache (4)
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- CLARIN (1)
- Deutsche Gesellschaft für Sprachwissenschaft (1)
- Institute of the Polish Language (1)
- Peter Lang (1)
- Spanish Association for Corpus Linguistics (1)
- Universität Siegen (1)
This paper reports on the efforts of twelve national teams in building the International Comparable Corpus (ICC; https://korpus.cz/icc) that will contain highly comparable datasets of spoken, written and electronic registers. The languages currently covered are Czech, Finnish, French, German, Irish, Italian, Norwegian, Polish, Slovak, Swedish and, more recently, Chinese, as well as English, which is considered to be the pivot language. The goal of the project is to provide much-needed data for contrastive corpus-based linguistics. The ICC corpus is committed to the idea of re-using existing multilingual resources as much as possible and the design is modelled, with various adjustments, on the International Corpus of English (ICE). As such, ICC will contain approximately the same balance of forty percent of written language and 60 percent of spoken language distributed across 27 different text types and contexts. A number of issues encountered by the project teams are discussed, ranging from copyright and data sustainability to technical advances in data distribution.
Validating the Performativity Hypothesis to Neg-Raising using corpus data: Evidence from Polish
(2021)
Negation raising and mood. A corpus-based study of Polish sądzić ‘think’ and wierzyć ‘believe’
(2021)
The paper describes the distribution of two negation raising predicates in Polish: sądzić ‛think’ and wierzyć ‛believe’ in the National Corpus of Polish with a particular focus on their morphosyntax and the mood of their clausal complements. The aim was to examine whether there are any correlations between these two parameters, and to what extent negation raising with those verbs exhibits performative features (in terms of Prince, 1976). The results of the study support the performative approach to negation raising as per Prince (1976) only for cases with subjunctive complements. The corpus findings further imply that Polish negation raising predicates encode two different degrees of (un)certainty concerning the truth of the embedded proposition depending on the mood of their complements. Structures with indicative complements express weaker uncertainty than structures with subjunctive complements.
Das neue Onlineformat PREPCONonline führt durch die Welt der Korpusdaten und zeigt, welchen Erklärungswert authentische Sprache, die von Experten aufbereitet ist, für die eigene sprachliche Kompetenz haben kann. Dieser Ansatz folgt der Überzeugung, dass vor allem auf einem gehobenen Kompetenzniveau reale Sprachausschnitte, die für einen Aspekt des Gebrauchs besonders typisch sind, möglichst unverfälscht abrufbar sein sollten, um Sprache, so wie sie wirklich verwendet wird, versteh- und anwendbar zu machen.
Korpus
(2021)
In den Sprach- als auch Literaturwissenschaften versteht man unter Korpora (Plur. Korpora, die / Sing. Korpus, das) ganz allgemein Textsammlungen. Nach Lemnitzer und Zinsmeister (2010, S. 40) ist ein Korpus: „[…] eine Sammlung [authentischer] schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen“. Die Zusammenstellung erfolgt nach verschiedenen wissenschaftlichen Kriterien, die sich am zu untersuchenden Gegenstand orientieren (Bsp. 1: Soll strategische Kommunikation in politischen Reden analysiert werden, so wird ein Korpus aus ‚Politischen Reden‘ zusammengestellt, die strategisch/kommunikative Praktiken enthalten – Bsp. 2: Für die Analyse von Modalpartikeln im Fremdsprachenerwerb wird ein Korpus aus transkribierten Redebeiträgen verschiedener Erwerbsstufen benötigt). Prinzipiell kann ein Korpus auch analog (gedruckt) vorliegen und manuell ausgewertet werden – In der empirischen Linguistik ist ein Korpus aber i. d. R. immer ein digitales (maschinenlesbares) Korpus, das automatisiert (mittels Software) ausgewertet wird.
Korpora und Fremdsprachendidaktik haben – auch jenseits des angeleiteten oder selbstgesteuerten Arbeitens an den Daten – Berührungspunkte mit langer Tradition, durchaus mit nicht-digitalen Ausläufern, deren korpuslinguistische Dimensionen erst in den letzten Jahrzehnten erschlossen wurden. Worthäufigkeitszählungen, auch vergleichend, in beliebig großen oder auf bestimmte Bedürfnisse zugeschnittenen Datensammlungen lassen sich mit weiteren Metriken verknüpfen, die eine differenzierte Bewertung für die didaktische Relevanz ermöglichen. Kollokations-/Kookkurrenzanalysen helfen, typische Formulierungsmuster zu ermitteln. Dieser Beitrag stellt zunächst diese beiden Herangehensweisen dar. Das Manko der getrennten Betrachtung ist, dass keine der beiden isoliert ausreicht, um die Angemessenheit von Formulierungen zu bewerten hinsichtlich muttersprachlicher Natürlichkeit und Weiterentwicklung des Lernstands. Als Abhilfe wird eine Verknüpfung skizziert, die beide Perspektiven zusammenbringt.
The article focuses on determining responsible parties and the division of potential liability arising from sharing language data (LD) containing personal data (PD). A key issue here is to identify who has to make sure and guarantee the GDPR compliance. The authors aim to answer 1) whether an individual researcher is a controller and 2) whether sharing LD results in joint controllership or separate controllership (whether the data's transferee becomes the controller, the joint controller or the processor). The article also analyses the legal relations of parties involved in data sharing and potential liability. The final section outlines data sharing in the CLARIN context. The analysis serves as a preliminary analytical background for redesigning the CLARIN contractual framework for sharing data.
N-grams are of utmost importance for modern linguistics and language technology. The legal status of n-grams, however, raises many practical questions. Traditionally, text snippets are considered copyrightable if they meet the originality criterion, but no clear indicators as to the minimum length of original snippets exist; moreover, the solutions adopted in some EU Member States (the paper cites German and French law as examples) are considerably different. Furthermore, recent developments in EU law (the CJEU's Pelham decision and the new right of press publishers) also provide interesting arguments in this debate. The paper presents the existing approaches to the legal protection of n-grams and tries to formulate some clear guidelines as to the length of n-grams that can be freely used and shared.
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ist mit seinem Design bislang vornehmlich auf Nutzergruppen aus der sprachwissenschaftlichen Forschung ausgerichtet, prinzipiell aber auch hervorragend dafür geeignet, für die Nutzung im handlungsorientierten DaF- (und eventuell auch DaZ-)Unterricht fruchtbar gemacht zu werden. Lehrende und Lernende des Deutschen als Fremd- oder Zweitsprache bilden eine gesellschaftlich zunehmend relevante Zielgruppe und auch einen beträchtlichen Anteil der registrierten NutzerInnen des Korpus. Im vorliegenden Beitrag soll daher anhand eines exemplarischen Annotationsprojekts gezeigt werden, inwiefern die besonderen Ressourcen und Potentiale von FOLK für den DaF-Unterricht und dort speziell für den Aspekt des authentischen, kompetenten sprachlichen Handelns in Interaktion sinnvoll aufbereitet und schrittweise zugänglicher gemacht werden können.
This paper describes the TEI-based ISO standard 2462:2016 “Transcription of spoken language” and other formats used within CLARIN for spoken language resources. It assesses the current state of support for the standard and the interoperability between these formats and with relevant tools and services. The main idea behind the paper is that a digital infrastructure providing language resources and services to researchers should also allow the combined use of resources and/or services from different contexts. This requires syntactic and semantic interoperability. We propose a solution based on the ISO/TEI format and describe the necessary steps for this format to work as an exchange format with basic semantic interoperability for spoken language resources across the CLARIN infrastructure and beyond.