Refine
Year of publication
- 2021 (66) (remove)
Document Type
- Part of a Book (25)
- Conference Proceeding (15)
- Article (13)
- Book (5)
- Other (5)
- Course Material (1)
- Report (1)
- Review (1)
Keywords
- Korpus <Linguistik> (66) (remove)
Publicationstate
- Veröffentlichungsversion (43)
- Zweitveröffentlichung (18)
- Postprint (4)
- Erstveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (29)
- Peer-Review (28)
Publisher
- de Gruyter (13)
- Leibniz-Institut für Deutsche Sprache (IDS) (9)
- Heidelberg University Publishing (6)
- Linköping University Electronic Press (6)
- Leibniz-Institut für Deutsche Sprache (4)
- Deutsche Gesellschaft für Sprachwissenschaft (2)
- Karolinum (2)
- Association for Computational Linguistics (1)
- Benjamins (1)
- CLARIN (1)
Korpus
(2021)
In den Sprach- als auch Literaturwissenschaften versteht man unter Korpora (Plur. Korpora, die / Sing. Korpus, das) ganz allgemein Textsammlungen. Nach Lemnitzer und Zinsmeister (2010, S. 40) ist ein Korpus: „[…] eine Sammlung [authentischer] schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen“. Die Zusammenstellung erfolgt nach verschiedenen wissenschaftlichen Kriterien, die sich am zu untersuchenden Gegenstand orientieren (Bsp. 1: Soll strategische Kommunikation in politischen Reden analysiert werden, so wird ein Korpus aus ‚Politischen Reden‘ zusammengestellt, die strategisch/kommunikative Praktiken enthalten – Bsp. 2: Für die Analyse von Modalpartikeln im Fremdsprachenerwerb wird ein Korpus aus transkribierten Redebeiträgen verschiedener Erwerbsstufen benötigt). Prinzipiell kann ein Korpus auch analog (gedruckt) vorliegen und manuell ausgewertet werden – In der empirischen Linguistik ist ein Korpus aber i. d. R. immer ein digitales (maschinenlesbares) Korpus, das automatisiert (mittels Software) ausgewertet wird.
The representative full-text digitalized HetWiK corpus is composed of 140 manually annotated texts of the German Resistance between 1933 and 1945. This includes both well-known and relatively unknown documents, public writings, like pamphlets or memoranda, as well as private texts, e.g. letters, journal or prison entries and biographies. Thus the corpus represents the diverse groups as well as the heterogeneity of verbal resistance and allows the study of resistance in relation to the language usage. The HetWiK corpus can be used free of charge. A detailed register of the individual texts and further information about the tagset can be found on the project-homepage (german). In addition to the CATMA5 XML-format we provide a standoff-JSON format and CEC6-Files (CorpusExplorer) - so you can export the HetWiK corpus in different formats.
This article sketches the development of paronym dictionaries in German. These dictionaries document and describe commonly confused words which cause uncertainties because they are similar in sound, spelling and/or meaning (e.g. effektiv/effizient, sportlich/sportiv). First, an overview of existing reference guides is provided, covering different traditions. Numerous lemma lists have been collected for pedagogical purposes and there has always been an interest in the lexicological treatment of paronyms. However, only a handful of dictionaries covering commonly confused pairs and a small number of genuine paronym dictionaries have ever been compiled. I will focus on lexicographic endeavours, including Wustmann (1891), Müller (1973) and Pollmann and Wolk (2001). Secondly, I will shed light on the differences in descriptions in these dictionaries. This includes how prescriptive approaches have been replaced over time by empirical descriptive accounts and how dictionaries have moved away from restricted, static hardback editions towards dynamic e-dictionaries. Finally, an e-dictionary, “Paronyme — Dynamisch im Kontrast”, is presented with contrastive and flexible two-level consultation views. Its three key elements are its corpus-based foundation, the implementation of meta-lexicographic requirements and a consideration of users’ interests. This dictionary has implemented a user-friendly and dynamic interface and it records conventionalized patterns and preferences in authentic communication.
This paper deals with a specific type of lexeme, namely binary preposition-noun combinations containing temporal references like am Ende [at (the) end] or für Sekunden [for seconds]. The main characteristic of these combinations is the recurrent internal zero gap. Despite the fact that the omission of the determiner can often be explained by grammatical rules, the zero gaps indicate a higher degree of lexicalization. Therefore, we interpret these expressions as minimal phraseological units with holistic meanings and functions. The corpusdriven exploration of typical context patterns (e.g. using collocation profiles and the lexpan slot filler analysis) shows that a) even such minimal expressions are based on semi-abstract schemes and b) temporal expressions can also fulfill modal or discursive functions, usually with fuzzy borders and overlapping structures. In the case of modalization or pragmatization one can regard such PNs as distinct lexicon entries.
Dieser Aufsatz befasst sich mit pragmatischen Aspekten von Negationsanhebung (NA), die vor allem in Horn (1978) erörtert wurden, und mit performativischen Eigenschaften von NA-Konstruktionen, die ursprünglich in Prince (1976), vor allem mit Bezug auf französische Daten diskutiert wurden. Das Ziel ist, die Kernaussagen von Horn (1978) und Prince (1976) mit Korpusdaten im übereinzelsprachlichen Kontext zu validieren. Als Gegenstand der Untersuchung werden deutsche und polnische NA-Konstruktionen herangezogen und entsprechend zwei verschiedene monolinguale Korpora als Datenquelle benutzt.
Die Erforschung von Sprache im öffentlichen Raum (Linguistic Landscapes, LL) hat sich in den vergangen 20 Jahren als Teilgebiet der Soziolinguistik, der Semiotik und anderer Disziplinen fest etabliert. Der vorliegende Band gibt einen Überblick zu zentralen Ansätzen der LL-Forschung mit einem Bezug zur deutschen Sprache. Die Beiträge stellen aktuelle Studien aus dem deutschsprachigen Raum, zu Deutsch als Minderheitensprache sowie aus Ländern mit einer ausgeprägten DaF-Tradition vor. Sie thematisieren sprachstrukturelle und soziolinguistische ebenso wie didaktische, methodische und technologische Aspekte. Damit trägt der Band zu einer Systematisierung der deutschsprachigen LL-Forschung bei, gibt Impulse für internationale Diskussionen und benennt wichtige Desiderata.
This paper will address the challenge of creating a knowledge graph from a corpus of historical encyclopedias with a special focus on word sense alignment (WSA) and disambiguation (WSD). More precisely, we examine WSA and WSD approaches based on article similarity to link messy historical data, utilizing Wikipedia as aground-truth component – as the lack of a critical overlap in content paired with the amount of variation between and within the encyclopedias does not allow for choosing a ”baseline” encyclopedia to align the others to. Additionally, we are comparing the disambiguation performance of conservative methods like the Lesk algorithm to more recent approaches, i.e. using language models to disambiguate senses.
Das neue Onlineformat PREPCONonline führt durch die Welt der Korpusdaten und zeigt, welchen Erklärungswert authentische Sprache, die von Experten aufbereitet ist, für die eigene sprachliche Kompetenz haben kann. Dieser Ansatz folgt der Überzeugung, dass vor allem auf einem gehobenen Kompetenzniveau reale Sprachausschnitte, die für einen Aspekt des Gebrauchs besonders typisch sind, möglichst unverfälscht abrufbar sein sollten, um Sprache, so wie sie wirklich verwendet wird, versteh- und anwendbar zu machen.
„Paronyme – Dynamisch im Kontrast“ ist ein neues und neuartiges Nachschlagewerk für sprachliche Zweifelsfälle und Unsicherheiten. Erstmals werden lautlich, orthografisch und/oder semantisch ähnliche Wörter (z. B. farbig-farblich, kindlich-kindisch, universal-universell, Mehrheit-Mehrzahl) korpusbasiert in ihrem aktuellen Gebrauch untersucht und dokumentiert. Nutzer*innen können sich über die Bedeutung jedes Ausdrucks in zahlreichen Angaben und Verwendungsbeispielen informieren. Dies erfolgt kontrastiv und dynamisch in selbst wählbaren Ausschnitts- oder Vergleichsansichten, im Überblick oder im Detail.
Dieses Kapitel untersucht das Verhältnis von Genitivattributen und Präpositionalattributen mit von im Deutschen datenbasiert. Im Zentrum steht dabei die Frage danach, unter welchen Bedingungen die beiden Konstruktionen miteinander variieren können. Neben funktionaler Äquivalenz, die z. B. bei von-Attributen mit starker lokativischer oder ablativischer Semantik nicht gegeben ist, stellt dabei auch das Vorhandensein flektierender Elemente in der Attributsphase eine wichtige Voraussetzung dar.
Dieses Kapitel untersucht die Stellung adnominaler Genitive im Deutschen. Die Stellungsvariation besteht fast ausschließlich für artikellose Eigennamen, weshalb diese im Zentrum der Analyse stehen. Auf Basis von Korpusdaten kann gezeigt werden, dass die Faktoren Belebtheit und Länge des Attributs sowie Kasus der Gesamtphrase einen großen Teil der Variation erklären.
Dieses Kapitel untersucht die syntaktischen Funktionen von vollen (nicht-pronominalen) Nominalphrasen (NPs) und die Funktionen der vier Kasus des Deutschen aus quantitativer Perspektive. Es wird vorgeschlagen, das Konzept der syntaktischen Funktion in grundlegendere Merkmale zu zerlegen. Dazu gehören der Typ desjenigen Elements, dem die NP untergeordnet ist, und die Art der Beziehung zwischen der NP und dem übergeordneten Element (ganz allgemein: Komplementation vs. Modifikation).
Dieses Kapitel gibt einen Überblick über das Inventar der Ausdrücke, die zur Kategorie der Determinierer gezählt werden bzw. zumindest als Kandidaten für diese Kategorie gehandelt werden. Es untersucht ihre grammatischen Eigenschaften und überprüft ihren Determiniererstatus anhand einschlägiger morpho-syntaktischer Kriterien.
Einleitung
(2021)
Mit dem zweiten Band werden vier neue „Bausteine“ zu einer korpuslinguistisch fundierten Grammatik des Deutschen vorgelegt. Sie behandeln die Bereiche Determination, syntaktische Funktionen der Nominalphrase und Attribution. Dem Fachpublikum werden zugleich die analysierten Sprachdaten und vertiefende Zusatzuntersuchungen zugänglich gemacht.
Korpora und Fremdsprachendidaktik haben – auch jenseits des angeleiteten oder selbstgesteuerten Arbeitens an den Daten – Berührungspunkte mit langer Tradition, durchaus mit nicht-digitalen Ausläufern, deren korpuslinguistische Dimensionen erst in den letzten Jahrzehnten erschlossen wurden. Worthäufigkeitszählungen, auch vergleichend, in beliebig großen oder auf bestimmte Bedürfnisse zugeschnittenen Datensammlungen lassen sich mit weiteren Metriken verknüpfen, die eine differenzierte Bewertung für die didaktische Relevanz ermöglichen. Kollokations-/Kookkurrenzanalysen helfen, typische Formulierungsmuster zu ermitteln. Dieser Beitrag stellt zunächst diese beiden Herangehensweisen dar. Das Manko der getrennten Betrachtung ist, dass keine der beiden isoliert ausreicht, um die Angemessenheit von Formulierungen zu bewerten hinsichtlich muttersprachlicher Natürlichkeit und Weiterentwicklung des Lernstands. Als Abhilfe wird eine Verknüpfung skizziert, die beide Perspektiven zusammenbringt.
Der vorliegende Band geht aus der Arbeit des DFG-Netzwerks >Linguistik und Medizin< – Patho- und Saluto-Diskurse im Spannungsfeld von objektivierter Diagnose, interaktiver Vermittlung und medialer Konstitution (vgl. Iakushevich, Ilg & Schnedermann 2017) hervor, das Forscherinnen und Forscher aus Deutschland, der Schweiz, Österreich und Ungarn vereint (www.linguistik-medizin.net). Das Netzwerk wurde 2017 gegründet, um die Forschungstätigkeiten der verschiedenen linguistischen Disziplinen, die an den Verbindungslinien von „Sprache – Wissen – Medizin“ arbeiten, zu bündeln und die interdisziplinäre Anschlussfähigkeit zwischen linguistischen und medizinischen, psychiatrischen und salutogenetischen Forschungsbereichen auf- und auszubauen.
„Bausteine einer Korpusgrammatik des Deutschen“ ist eine Schriftenreihe, die am Leibniz-Institut für Deutsche Sprache in Mannheim (IDS) entsteht. Sie setzt sich zum Ziel, mit korpuslinguistischen Methoden die Vielfalt und Variabilität der deutschen Grammatik in großer Detailschärfe zu erfas-sen und gleichzeitig für die Validierbarkeit der Ergebnisse zu sorgen. Der zweite Band enthält eine kurze Einleitung und vier als Kapitel einer neuen Grammatik gestaltete Texte: 1. Determination in der Nominalphrase – ein Überblick, 2. Syntaktische Funktionen von Nominalphrasen und Funktio-nen der Kasus, 3. Stellung des adnominalen Genitivs und 4. Genitiv- und von-Attribute: Bestimmung des Variationsbereichs. Der Band ist mit zum Download verfügbaren Datensätzen zu Nominalphrasen sowie Genitiv- und von-Attributen verknüpft.
Selten hat ein globales Ereignis nicht nur den Alltag sehr vieler Menschen weltweit schlagartig verändert und in einem längeren Zeitraum zu nachhaltigen Änderungen der Lebensumstände geführt, sondern auch direkte Spuren im Wortschatz und der Art und Weise des Kommunizierens hinterlassen, wie dies durch die Coronakrise der Fall war. Die Beiträge in diesem Band zeichnen diese Reflexionen nach und machen die Veränderungen auf Basis unterschiedlichen Materials (z.B. Pressetexte, Social-Media-Quellen, Gespräche) und zu einem breiten Themenspektrum (Arbeit, Schule, Wirtschaft usw.) nachvollziehbar. Ein deutlicher Fokus liegt dabei auf dem lexikalischen Wandel und zahlreichen Neologismen, die rund um die Coronapandemie aufgekommen sind.
In this paper, we present an overview of freely available web applications providing online access to spoken language corpora. We explore and discuss various solutions with which the corpus providers and corpus platform developers address the needs of researchers who are working with spoken language. The paper aims to contribute to the long-overdue exchange and discussion of methods and best practices in the design of online access to spoken language corpora.
Deutsche Genitivattribute benötigen eine hinreichend overte Kasusmarkierung an abhängigen Wortarten (Determinierern, Adjektiven), mitunter in Kombination mit einer Markierung am Genitivnomen selbst. Wenn die Struktur der Attributsphrase solche Markierungen unmöglich macht, wird eine Präpositionalphrase mit von genutzt. Es gibt allerdings eine Reihe von Grenzfällen, die Genitivgebrauch erlauben, obwohl keine hinreichende Markierung möglich ist. Die vorliegende Studie liefert zu drei solchen Fällen empirische Daten: 1. Fälle, wo der unflektierte Wortstamm des Adjektivs oder des Genitivnomens einem Genitivsuffix gleicht („Pseudoflexion“), 2. Fälle, wo Determinierer und Genitivnomen schwach flektiert werden („doppelt schwache Flexion“) und 3. Fälle, wo die Determiniererposition durch einen weiteren, pränominalen Genitiv besetzt ist, der keine Kongruenz aufweisen kann („verschachtelte Genitivattribute“). Anhand umfassender Korpusuntersuchungen kann so eingeschätzt werden, welche Rolle diese Grenzfälle im System der deutschen Standardsprache spielen.
Schegloff (1996) has argued that grammars are “positionally-sensitive”, implying that the situated use and understanding of linguistic formats depends on their sequential position. Analyzing the German format Kannst du X? (corresponding to English Can you X?) based on 82 instances from a large corpus of talk-in-interaction (FOLK), this paper shows how different action-ascriptions to turns using the same format depend on various orders of context. We show that not only sequential position, but also epistemic status, interactional histories, multimodal conduct, and linguistic devices co-occurring in the same turn are decisive for the action implemented by the format. The range of actions performed with Kannst du X? and their close interpretive interrelationship suggest that they should not be viewed as a fixed inventory of context-dependent interpretations of the format. Rather, the format provides for a root-interpretation that can be adapted to local contextual contingencies, yielding situated action-ascriptions that depend on constraints created by contexts of use.
Der Datensatz enthält 16.604 Korpusbelege aus Nominalphrasen mit Genitiv- und von-Attributen (die Ideen zahlreicher Kinder, die Ideen von zahlreichen Kindern), wobei die Genitivattribute prä- oder postnominal erscheinen können (Mannheims Sehenswürdigkeiten, die Sehenswürdigkeiten Mannheims).
Für jeden Beleg sind Informationen zu Land, Dekade und Medium enthalten. Hinzu kommen Angaben zu Kopf- und/oder Attributslemma (z. B. Namentyp, Flexionsklasse), Gesamtphrase (z. B. Definitheit, Kasus) und Attributsphrase (z. B. Kasusdistinktion, Länge). Zahlreiche Sonderfälle sind ebenfalls annotiert (z. B. Genitiv bei nichtflektiertem Adjektiv wie Gebäck Mannheimer Bäckereien, Phrasen mit adjektivisch flektierendem Attributsnomen wie die Ideen Jugendlicher, die Ideen von Jugendlichen).
Der Datensatz enthält 409 Korpusbelege aus Nominalphrasen mit eingebetteten Genitivattributen, die wiederum ein eingebettetes Genitivattribut aufweisen (Petras Nachfolgers Beisein). Die Belege sind danach klassifiziert, ob die erste eingebettete Nominalphrase vor oder hinter dem Kopfnomen der Gesamtnominalphrase steht (Petras Nachfolgers Beisein vs. Beisein Petras Nachfolgers) und ob die erste eingebettete Nominalphrase neben einem Genitiv noch ein Adjektiv enthält (Beisein Petras direkten Nachfolgers). Für jeden Beleg werden zudem die Lemmas der drei Nomen in ihrer Einbettungsreihenfolge angegeben. Darüber hinaus sind Metadaten (Land, Jahr) enthalten.
Der Datensatz enthält die Gesamtheit der relevanten Belege aus dem KoGra-Untersuchungskorpus mit den im Folgenden aufgeführten Strukturen. Die Abfragen für die vier Strukturtypen führten zu 15.875 potenziellen Belegen, von denen sich bei manueller Durchsicht 409 als tatsächliche Nominalphrasen mit zweifach eingebetteten Genitivattributen erwiesen.
Der Datensatz dient der Untersuchung der Sonderfälle des Genitivattributs (Kopf 2021).
When searching large electronic corpora of the German language, one finds variation at structurally critical points of the grammatical system. Two examples from the grammar of the noun phrase show that in certain cases this variation helps to ensure the function of a standard language, so that a certain amount of variation belongs to a realistic idea of a standard language. This is shown on the one hand by techniques of expanding the central adjective vocabulary and on the other hand by the choice of morphological alternatives in the area between determiners and attributive adjectives
Over the past decade, conducting empirical research in linguistics has become increasingly popular. The first of its kind, this book provides an engaging and practical introduction to this exciting versatile field, providing a comprehensive overview of research aspects in general, and covering a broad range of subdiscipline-specific methodological approaches. Subfields covered include language documentation and descriptive linguistics, language typology, corpus linguistics, sociolinguistics and anthropological linguistics, cognitive linguistics and psycholinguistics, and neurolinguistics. The book reflects on the strengths and weaknesses of each single approach and on how they interact with one-another across the study of language in its many diverse facets. It also includes exercises, example student projects and recommendations for further reading, along with additional online teaching materials. Providing hands-on experience, and written in an engaging and accessible style, this unique and comprehensive guide will give students the inspiration they need to develop their own research projects in empirical linguistics.
The teaching slides accompany the following textbook:
Svenja Völkel & Franziska Kretzschmar (2021): Introducing linguistic research. Cambridge: Cambridge University Press.
The slides follow the structure of the book chapters and can be used for teaching in class. They include the basic information per chapter and exercises to work on in class or as homework. More detailed information, additional exercises, suggestions for research projects and recommendations for further reading can be found in the textbook.
This paper describes the TEI-based ISO standard 2462:2016 “Transcription of spoken language” and other formats used within CLARIN for spoken language resources. It assesses the current state of support for the standard and the interoperability between these formats and with relevant tools and services. The main idea behind the paper is that a digital infrastructure providing language resources and services to researchers should also allow the combined use of resources and/or services from different contexts. This requires syntactic and semantic interoperability. We propose a solution based on the ISO/TEI format and describe the necessary steps for this format to work as an exchange format with basic semantic interoperability for spoken language resources across the CLARIN infrastructure and beyond.
This paper investigates the use of linking adverbs in adversative constructions in German and Italian. In Italian those constructions are very frequently formulated with adverbs such as invece, while wordings without a lexical connective are more typical of German. Corpus data show that the syntactic und semantic conditions favouring the use of adversative adverbs are by and large the same in both languages. Lexical connectives can increase explicitness when the intended adversative interpretation is not obvious on other grounds. The higher frequency of adversative adverbs in Italian is shown to be a consequence of the more restrictive rules of the placement of prosodic accent.
The project “Paronymwörterbuch” investigates and documents easily confused words (so-called paronyms) in German with respect to their use in public discourse as documented in a large corpus. These are, for example, antik/antiquiert/antiquarisch (antique/antiquated/antiquarian) or sportlich/sportiv (sporty/athletic). The results of this work are explanatory, contrastive entries in a new dynamic e-dictionary called “Paronyme − Dynamisch im Kontrast”. The objective of this paper is twofold. Firstly, essential new usage modalities of the new dictionary will be illustrated. As it is designed for contrastive consultation processes, the comparative structure of the entries will be elucidated and we will show how this dictionary has moved away from static to dynamic presentation by incorporating flexible consultation options. Secondly, as entries contain linguistic details which are consistently paired up with conceptual-encyclopaedic information, it is shown how this reference guide combines corpus-based methods with cognitive semantics. In this way, linguistic findings correlate better with how users conceptualise language by adequately reflecting ideas such as conceptual structure, categorisation and knowledge. Consequently, appropriate contrastive corpus tools and methods are employed. This paper also emphasises the need of semiotic approaches to the analysis of linguistic data in order to provide ostensive and cognitive-oriented lexical explanations. Such approaches are also necessary to guarantee an efficient pairwise investigation of paronyms. Advantages and disadvantages of explorative self-organising feature maps will be explained in more detail.
While there is a large amount of research in the field of Lexical Semantic Change Detection, only few approaches go beyond a standard benchmark evaluation of existing models. In this paper, we propose a shift of focus from change detection to change discovery, i.e., discovering novel word senses over time from the full corpus vocabulary. By heavily fine-tuning a type-based and a token-based approach on recently published German data, we demonstrate that both models can successfully be applied to discover new words undergoing meaning change. Furthermore, we provide an almost fully automated framework for both evaluation and discovery.
Im E-Wörterbuch „Paronyme – Dynamisch im Kontrast“ werden erstmals leicht verwechselbare Ausdrücke, sogenannte Paronyme (z.B. autoritär / autoritativ, speziell / spezial), in kontrastiven und dynamischen Einträgen beschrieben. Auf zwei Beschreibungsebenen verzahnt es lexikalische Angaben mit enzyklopädischen bzw. konzeptuell-orientierten Details. Korpusanalytische Auseinandersetzungen zeigen, wie stark der Gebrauch einiger Paronyme von den Beschreibungen in traditionellen Lehr- und Nachschlagewerken abweicht. Aber Korpusdaten deuten ebenso auf sprachliche Varianz und Wandel hin, die in speziellen Rubriken festgehalten werden. Neben der Vorstellung des Wörterbuches steht die Frage im Vordergrund, wie die Informationen systematisch aus den Daten gewonnen, analysiert und redaktionell ausgewertet werden, um als Bedeutungs-, Kollokations-, Konstruktions-, Referenz- und Domänenangaben jedes Stichwort so genau wie möglich beschreiben zu können.
The German e-dictionary documenting confusables Paronyme – Dynamisch im Kontrast contains lexemes which are similar in sound, spelling and/or meaning, e.g. autoritär/autoritativ, innovativ/innovatorisch. These can cause uncertainty as to their appropriate use. The monolingual guide could be easily expanded to become a multilingual platform for commonly confused items by incorporating language modules. The value of this visionary resource is manifold. Firstly, e-dictionaries of confusables have not yet been compiled for most European languages; consequently, the German resource could serve as a model of practice. Secondly, it would be able to explain the usage of false friends. Thirdly, cognates and loan word equivalents would be offered for simultaneous consultation. Fourthly, users could find out whether, for example, a German pair is semantically equivalent to a pair in another language. Finally, it would inform users about cases where a pair of semantically similar words in one language has only one lexical counterpart in another language. This paper is an appeal for visionary projects and collaborative enterprises. I will outline the dictionary’s layout and contents as shown by its contrastive entries. I will demonstrate potential additions, which would make it possible to build up a large platform for easily misused words in different languages.
Who is we? Disambiguating the referents of first person plural pronouns in parliamentary debates
(2021)
This paper investigates the use of first person plural pronouns as a rhetorical device in political speeches. We present an annotation schema for disambiguating pronoun references and use our schema to create an annotated corpus of debates from the German Bundestag. We then use our corpus to learn to automatically resolve pronoun referents in parliamentary debates. We explore the use of data augmentation with weak supervision to further expand our corpus and report preliminary results.
In unserem Beitrag diskutieren wir Aspekte einer Forschungsdateninfrastruktur für den wissenschaftlichen Alltag auf Projektebene und argumentieren für eine Unterstützung von Projekten während der Erfassung und Bearbeitung von Daten, d. h. vor deren endgültiger Veröffentlichung. Dabei differenzieren wir zwischen Projekten, deren primäres Ziel es ist, eine Ressource aufzubauen (ressourcenschaffende Projekte, kurz RP) und solchen, die zur Beantwortung einer konkreten Forschungsfrage Daten sammeln und auswerten (Forschungsprojekte, kurz FP). Wir argumentieren dafür, dass bei den offenkundigen Unterschieden zwischen beiden Projektarten die grundsätzlichen Ansprüche an das alltägliche Forschungsdatenmanagement im Kern sehr ähnlich (wenn auch unterschiedlich akzentuiert und skaliert) sind. Diese Ähnlichkeit rührt nicht zuletzt daher, dass im Rahmen von FP gesammelte Daten in Bezug auf das Projektziel primär Mittel zum Zweck sein mögen, sie jedoch bereits im Arbeitsprozess in unterschiedlichem Maß von unterschiedlichen Beteiligten genutzt werden. Wir gehen konkret auf die Aspekte Datenorganisation und -verwaltung, Metadaten, Dokumentation und Dateiformate und deren Anforderungen in den verschiedenen Projekttypen ein. Schließlich diskutieren wir Lösungsansätze dafür, Aspekte des Forschungsdatenmanagements auch in (kleineren) Forschungsprojekten nicht post-hoc, sondern bereits in der Projektplanung als Teil der alltäglichen Arbeit zu berücksichtigen und entsprechende Unterstützung in der Forschungsinfrastruktur vorzusehen.
Die Gemeinsame Wissenschaftskonferenz hat den Verbund „Text+“ bewilligt. „Text+“ hat sich zum Ziel gesetzt, text- und sprachbasierte Forschungsdaten langfristig zu erhalten und ihre breite Nutzung in der Wissenschaft zu ermöglichen. Die Initiative startet somit nach mehrjähriger Vorbereitungszeit und wird zunächst für fünf Jahre durch die Deutsche Forschungsgemeinschaft gefördert.
Signposts for CLARIN
(2021)
An implementation of CMDI-based signposts and its use is presented in this paper. Arnold, Fisseni et al. (2020) present signposts as a solution to challenges in long-term preservation of corpora. Though applicable to digital resources in general, we focus on corpora, especially those that are continuously extended or subject to modification, e.g., due to legal injunctions, but also may overlap with respect to constituents, and may be subject to migrations to new data formats. We describe the contribution signposts can make to the CLARIN infrastructure, notably virtual collections, and document the design for the CMDI profile.
This paper presents the QUEST project and describes concepts and tools that are being developed within its framework. The goal of the project is to establish quality criteria and curation criteria for annotated audiovisual language data. Building on existing resources developed by the participating institutions earlier, QUEST also develops tools that could be used to facilitate and verify adherence to these criteria. An important focus of the project is making these tools accessible for researchers without substantial technical background and helping them produce high-quality data. The main tools we intend to provide are a questionnaire and automatic quality assurance for depositors of language resources, both developed as web applications. They are accompanied by a knowledge base, which will contain recommendations and descriptions of best practices established in the course of the project. Conceptually, we consider three main data maturity levels in order to decide on a suitable level of strictness of the quality assurance. This division has been introduced to avoid that a set of ideal quality criteria prevent researchers from depositing or even assessing their (legacy) data. The tools described in the paper are work in progress and are expected to be released by the end of the QUEST project in 2022.
CMDI Explorer
(2021)
We present CMDI Explorer, a tool that empowers users to easily explore the contents of complex CMDI records and to process selected parts of them with little effort. The tool allows users, for instance, to analyse virtual collections represented by CMDI records, and to send collection items to other CLARIN services such as the Switchboard for subsequent processing. CMDI Explorer hence adds functionality that many users felt was lacking from the CLARIN tool space.
Towards comprehensive definitions of data quality for audiovisual annotated language resources
(2021)
Though digital infrastructures such as CLARIN have been successfully established and now provide large collections of digital resources, the lack of widely accepted standards for data quality and documentation still makes re-use of research data a difficult endeavour, especially for more complex resource types. The article gives a detailed overview over relevant characteristics of audiovisual annotated language resources and reviews possible approaches to data quality in terms of their suitability for the current context. Conclusively, various strategies are suggested in order to arrive at comprehensive and adequate definitions of data quality for this specific resource type and possibly for digital language resources in general.
This report presents a corpus of articulations recorded with Schlieren photography, a recording technique to visualize aeroflow dynamics for two purposes. First, as a means to investigate aerodynamic processes during speech production without any obstruction of the lips and the nose. Second, to provide material for lecturers of phonetics to illustrates these aerodynamic processes. Speech production was recorded with 10 kHz frame rate for statistical video analyses. Downsampled videos (500 Hz) were uplodad to a youtube channel for illustrative purposes. Preliminary analyses demonstrate potential in applying Schlieren photography in research.
The article focuses on determining responsible parties and the division of potential liability arising from sharing language data (LD) containing personal data (PD). A key issue here is to identify who has to make sure and guarantee the GDPR compliance. The authors aim to answer 1) whether an individual researcher is a controller and 2) whether sharing LD results in joint controllership or separate controllership (whether the data's transferee becomes the controller, the joint controller or the processor). The article also analyses the legal relations of parties involved in data sharing and potential liability. The final section outlines data sharing in the CLARIN context. The analysis serves as a preliminary analytical background for redesigning the CLARIN contractual framework for sharing data.
N-grams are of utmost importance for modern linguistics and language technology. The legal status of n-grams, however, raises many practical questions. Traditionally, text snippets are considered copyrightable if they meet the originality criterion, but no clear indicators as to the minimum length of original snippets exist; moreover, the solutions adopted in some EU Member States (the paper cites German and French law as examples) are considerably different. Furthermore, recent developments in EU law (the CJEU's Pelham decision and the new right of press publishers) also provide interesting arguments in this debate. The paper presents the existing approaches to the legal protection of n-grams and tries to formulate some clear guidelines as to the length of n-grams that can be freely used and shared.
This paper reports on the efforts of twelve national teams in building the International Comparable Corpus (ICC; https://korpus.cz/icc) that will contain highly comparable datasets of spoken, written and electronic registers. The languages currently covered are Czech, Finnish, French, German, Irish, Italian, Norwegian, Polish, Slovak, Swedish and, more recently, Chinese, as well as English, which is considered to be the pivot language. The goal of the project is to provide much-needed data for contrastive corpus-based linguistics. The ICC corpus is committed to the idea of re-using existing multilingual resources as much as possible and the design is modelled, with various adjustments, on the International Corpus of English (ICE). As such, ICC will contain approximately the same balance of forty percent of written language and 60 percent of spoken language distributed across 27 different text types and contexts. A number of issues encountered by the project teams are discussed, ranging from copyright and data sustainability to technical advances in data distribution.
Making research data publicly available for evaluation or reuse is a fundamental part of good scientific practice. However, regulations such as copyright law can prevent this practice and thereby hamper scientific progress. In Germany, text-based research disciplines have for a long time been mostly unable to publish corpora made from material outside of the public domain, effectively excluding contemporary works. While there are approaches to obfuscate text material in a way that it is no longer covered by the original copyright, many use cases still require the raw textual context for evaluation or follow-up research. Recent changes in copyright now permit text and data mining on copyrighted works. However, questions regarding reusability and sharing of such corpora at a later time are still not answered to a satisfying degree. We propose a workflow that allows interested third parties to access customized excerpts of protected corpora in accordance with current German copyright law and the soon to be implemented guidelines of the Digital Single Market directive. Our prototype is a very lightweight web interface that builds on commonly used repository software and web standards.
In this paper, we present our experiences and decisions in dealing with challenges in developing, maintaining and operating online research software tools in the field of linguistics. In particular, we highlight reproducibility, dependability, and security as important aspects of quality management – taking into account the special circumstances in which research software
is usually created.
Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
(2021)
Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.
Contents:
1. Julien Abadji, Pedro Javier Ortiz Suárez, Laurent Romary and Benoît Sagot: "Ungoliant: An Optimized Pipeline for the Generation of a Very Large-Scale Multilingual Web Corpus", S.1-9.
2. Markus Gärtner, Felicitas Kleinkopf, Melanie Andresen and Sibylle Hermann: "Corpus Reusability and Copyright - Challenges and Opportunities", S.10-19.
3. Nils Diewald, Eliza Margaretha and Marc Kupietz: "Lessons learned in Quality Management for Online Research Software Tools in Linguistics", S.20-26.