Refine
Year of publication
- 2021 (205) (remove)
Document Type
- Article (92)
- Conference Proceeding (29)
- Part of a Book (27)
- Other (20)
- Book (11)
- Report (11)
- Part of Periodical (8)
- Review (3)
- Working Paper (2)
- Course Material (1)
Keywords
- Deutsch (77)
- Korpus <Linguistik> (43)
- Interaktion (25)
- Konversationsanalyse (25)
- Kommunikation (22)
- Grammatik (19)
- Sprachgebrauch (16)
- Sprachpolitik (16)
- Forschungsdaten (15)
- COVID-19 (13)
Publicationstate
- Veröffentlichungsversion (205) (remove)
Reviewstate
- Peer-Review (93)
- (Verlags)-Lektorat (71)
Publisher
Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
(2021)
Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.
This paper explores how attitudes affect the seemingly objective process of counting speakers of varieties using the example of Low German, Germany’s sole regional language. The initial focus is on the basic taxonomy of classifying a variety as a language or a dialect. Three representative surveys then provide data for the analysis: the Germany Survey 2008, the Northern Germany Survey 2016, and the Germany Survey 2017. The results of these surveys indicate that there is no consensus concerning the evaluation of Low German’s status and that attitudes towards Low German are related to, for example, proficiency in the language. These attitudes are shown to matter when counting speakers of Low German and investigating the status it has been accorded.
Öffentliche Sprachdiskurse, wie sie beispielsweise in den Medien stattfinden, werden typischerweise aus einer sprachkritischen Haltung heraus geführt. Inwieweit diese veröffentlichte Meinung tatsächlich die Mehrheitsmeinung der Sprecherinnen und Sprecher widerspiegelt, ist durchaus eine offene Frage. In diesem Beitrag berichten wir aus einer rezenten Erhebung über Spracheinstellungen in Deutschland. Wir zeigen, dass die Art der Frageformulierung einen starken Einfluss auf die Ergebnisse hat, und berichten, welche sprachlichen Veränderungen die Befragten in jüngerer Zeit angeben, wahrgenommen zu haben.
Bislang gibt es keine akkuraten, repräsentativen Statistiken dazu, welche Sprachen in Deutschland gesprochen werden. Zwar wird in verschiedenen Erhebungen nach Muttersprachen oder nach zuhause gesprochenen Sprachen gefragt; aufgrund einiger Mängel im Erhebungsdesign bilden die Ergebnisse der vorliegenden Erhebungen jedoch die sprachliche Realität der in Deutschland lebenden Bevölkerung nicht angemessen ab. Im Beitrag wird anhand von drei Erhebungen gezeigt, dass bereits die Instrumente zur Erhebung von Sprache von Spracheinstellungen geprägt sind und dass dadurch die Gültigkeit der Ergebnisse stark eingeschränkt wird. Diese Mängel gelten für Sprachstatistiken im Hinblick auf die gesamte Bevölkerung Deutschlands – Kinder und Jugendliche eingeschlossen.
The automatic recognition of idioms poses a challenging problem for NLP applications. Whereas native speakers can intuitively handle multiword expressions whose compositional meanings are hard to trace back to individual word semantics, there is still ample scope for improvement regarding computational approaches. We assume that idiomatic constructions can be characterized by gradual intensities of semantic non-compositionality, formal fixedness, and unusual usage context, and introduce a number of measures for these characteristics, comprising count-based and predictive collocation measures together with measures of context (un)similarity. We evaluate our approach on a manually labelled gold standard, derived from a corpus of German pop lyrics. To this end, we apply a Random Forest classifier to analyze the individual contribution of features for automatically detecting idioms, and study the trade-off between recall and precision. Finally, we evaluate the classifier on an independent dataset of idioms extracted from a list of Wikipedia idioms, achieving state-of-the art accuracy.
In order to differentiate between figurative and literal usage of verb-noun combinations for the shared task on the disambiguation of German Verbal Idioms issued for KONVENS 2021, we apply and extend an approach originally developed for detecting idioms in a dataset consisting of random ngram samples. The classification is done by implementing a rather shallow, statistics-based pipeline without intensive preprocessing and examinations on the morphosyntactic and semantic level. We describe the overall approach, the differences between the original dataset and the dataset of the KONVENS task, provide experimental classification results, and analyse the individual contributions of our feature sets.
This poster summarizes the results of the CLARIAH-DE Work Package 3: Skills Training and Promotion of Junior Researchers.
For a research field that is characterised by rapid technical development, CLARIAH-DE has to include the promotion of data literacy necessary for the efficient use of this digital research infrastructure as part of its objective. To develop, consolidate and refine a common programme in this area, work package 3 set itself the following sub goals:
- Consolidation of the activities from the previous projects into a joint service
- Cataloguing and reflecting on the methods and tools used in the research field, with the aim of identifying remaining gaps
- Skills training of, individual support for and the promotion of junior researchers
This paper presents the QUEST project and describes concepts and tools that are being developed within its framework. The goal of the project is to establish quality criteria and curation criteria for annotated audiovisual language data. Building on existing resources developed by the participating institutions earlier, QUEST also develops tools that could be used to facilitate and verify adherence to these criteria. An important focus of the project is making these tools accessible for researchers without substantial technical background and helping them produce high-quality data. The main tools we intend to provide are a questionnaire and automatic quality assurance for depositors of language resources, both developed as web applications. They are accompanied by a knowledge base, which will contain recommendations and descriptions of best practices established in the course of the project. Conceptually, we consider three main data maturity levels in order to decide on a suitable level of strictness of the quality assurance. This division has been introduced to avoid that a set of ideal quality criteria prevent researchers from depositing or even assessing their (legacy) data. The tools described in the paper are work in progress and are expected to be released by the end of the QUEST project in 2022.
CMDI Explorer
(2021)
We present CMDI Explorer, a tool that empowers users to easily explore the contents of complex CMDI records and to process selected parts of them with little effort. The tool allows users, for instance, to analyse virtual collections represented by CMDI records, and to send collection items to other CLARIN services such as the Switchboard for subsequent processing. CMDI Explorer hence adds functionality that many users felt was lacking from the CLARIN tool space.
Signposts for CLARIN
(2021)
An implementation of CMDI-based signposts and its use is presented in this paper. Arnold, Fisseni et al. (2020) present signposts as a solution to challenges in long-term preservation of corpora. Though applicable to digital resources in general, we focus on corpora, especially those that are continuously extended or subject to modification, e.g., due to legal injunctions, but also may overlap with respect to constituents, and may be subject to migrations to new data formats. We describe the contribution signposts can make to the CLARIN infrastructure, notably virtual collections, and document the design for the CMDI profile.
Playing videogames is a popular social activity; people play videogames in different places, on different media, in different situations, alone or with partners, online or offline. Unsurprisingly, they thereby share space (physically or virtually) with other playing or non-playing people. The special issue investigates through different contexts and settings how non-players become participants of the gaming interaction and how players and non-players co-construct presence. The introduction provides a problem-related context for the individual contributions and then briefly presents them.
This paper investigates situations in French videogame interactions where non-players who share the same physical space as players, participate in the gaming activities as spectators. Through a detailed multimodal and sequential analysis, we show that being a spectator is a local achievement of all co-present participants - players and non-players.
The term “pivot” usually refers to two overlapping syntactic units such that the completion of the first unit simultaneously launches the second. In addition, pivots are generally said to be characterized by the smooth prosodic integration of their syntactic parts. This prosodic integration is typically achieved by prosodic-phonetic matching of the pivot components. As research on such turns in a range of languages has illustrated, speakers routinely deploy pivots so as to be able to continue past a point of possible turn completion, in the service of implementing some additional or revised action. This article seeks to build on, and complement, earlier research by exploring two issues in more detail as follows: (1) what exactly do pivotal turn extensions accomplish on the action dimension, and (2) what role does prosodic-phonetic packaging play in this? We will show that pivot constructions not only exhibit various degrees of prosodic-phonetic (non-)integration, i.e., differently strong cesuras, but that they can be ordered on a continuum, and that this cline maps onto the relationship of the actions accomplished by the components of the pivot construction. While tighter prosodic-phonetic integration, i.e., weak(er) cesuring, co-occurs with post-pivot actions whose relationship to that of the pre-pivot tends to be rather retrospective in character, looser prosodic-phonetic integration, i.e., strong(er) cesuring, is associated with a more prospective orientation of the post-pivot’s action. These observations also raise more general questions with regard to the analysis of action.
In conversation, speakers need to plan and comprehend language in parallel in order to meet the tight timing constraints of turn taking. Given that language comprehension and speech production planning both require cognitive resources and engage overlapping neural circuits, these two tasks may interfere with one another in dialogue situations. Interference effects have been reported on a number of linguistic processing levels, including lexicosemantics. This paper reports a study on semantic processing efficiency during language comprehension in overlap with speech planning, where participants responded verbally to questions containing semantic illusions. Participants rejected a smaller proportion of the illusions when planning their response in overlap with the illusory word than when planning their response after the end of the question. The obtained results indicate that speech planning interferes with language comprehension in dialogue situations, leading to reduced semantic processing of the incoming turn. Potential explanatory processing accounts are discussed.
With recourse to a broader understanding of the concept of translation, the transfer of source texts in one variety into another variety of the same language can also be called translation. This paper focuses on the target language – or rather – the target variety “easy-to-read language”, which is meant to make texts comprehensible for people with communication limitations. Considering its origins in the disability rights movement, the aim is to inform affected persons about their rights and democratic processes, i.e. to translate especially legal texts into the so-called easy-to-read language. Although there is a whole range of rules and guidelines for formulating in easy-to-read language, ”none offers a sufficient approach for translation into easy-to-read language“ (Bredel & Maaß, 2016a, p. 109). Standardization of the variety is also still a long way off. On the one hand, the contribution takes stock of legal regulations in easy-to-read language. On the other hand, four versions of the Federal Participation Law in easy-to-read language are analysed with regard to their external features and the constructions used to explain technical terminology. The analysis shows that legal texts in easy-to-read language are (still) quite limited in number and are also difficult to find. Concerning the second part, the constructions used exhibit a great structural variance, both intra- and intertextually. It is therefore questionable whether the addressees can access the texts independently. Also, it is still necessary to make the rules, the formulations of the rules and the implementations clearer so that the translations fulfil their function.
The European language world is characterized by an ideology of monolingualism and national languages. This language-related world view interacts with social debates and definitions about linguistic autonomy, diversity, and variation. For the description of border minorities and their sociolinguistic situation, however, this view reaches its limits. In this article, the conceptual difficulties with a language area that crosses national borders are examined. It deals with the minority in East Lorraine (France) in particular. On the language-historical level, this minority is closely related to the language of its (big) neighbor Germany. At the same time, it looks back on a conflictive history with this country, has never filled a (subordinated) political–administrative unit, and has experienced very little public support. We want to address the questions of how speakers themselves reflect on their linguistic situation and what concepts and argumentative figures they bring up in relation to what (Germanic) variety. To this end, we look at statements from guideline-based interviews. In the paper, we present first observations gained through qualitative content analysis.
Forschungsprojekte erschließen, erfassen und publizieren eine große Menge digitaler Daten. Bis zur Publikation entstehen häufig Vorarbeiten oder auch Nebenprodukte des beabsichtigten Ergebnisses (beispielsweise Transkriptionen einzelner Texte oder Textzeugen, die die Grundlage z.B. für eine Edition bilden). CLARIAH-DE bietet verschiedene Möglichkeiten zur Integration von Angeboten und Inhalten aus der Community, die deren längerfristige Sicht- und Nachnutzbarkeit sicherstellt. Die vorliegende Handreichung befasst sich mit den Fragen, welche Textangebote wo und auf welche Weise archiviert werden können, sowie welche Kriterien verschiedene Arten von Daten erfüllen müssen, um grundsätzlich für eine Übernahme in den CLARIAH-DE-, Forschungsdatenmanagement- oder NFDI-Kontext geeignet zu sein.
Konvergenz und Divergenz
(2021)
The paper explores factors that influence the distribution of constituent words of compounds over the head and modifier position. The empirical basis for the study is a large database of German compounds, annotated with respect to the morphological structure of the compound and the semantic category of the constituents. The study shows that the polysemy of the constituent word, its constituent family size, and its semantic category account for tendencies of the constituent word to occur in either modifier or head position. Furthermore, the paper explores the degree to which the semantic category combination of head and modifier word, e.g., x=substance and y=artifact, indicates the semantic relation between the constituents, e.g., y_consists_of_x.
Idealerweise sollen Migrantinnen und Migranten nach ihrer Ankunft in Deutschland zunächst erfolgreich einen sprachlichen Integrationskurs absolvieren und anschließend an einer beruflichen Maßnahme teilnehmen oder je nach Alter und Berufserfahrung eine duale Ausbildung beginnen beziehungsweise gleich eine Arbeitsstelle antreten. Doch wie sieht die Realität aus? Durchlaufen alle Einwandernden tatsächlich diese Etappen? Und was passiert in den Betrieben, wenn die Migrantinnen und Migranten trotz des Besuches eines Integrationskurses eine Ausbildung beginnen und ihre Sprachkenntnisse für den Beruf (zunächst) nicht ausreichend sind? Sind die Betriebe auf solche sprachlichen und kommunikativen Herausforderungen vorbereitet? Im Folgenden werde ich auf diese Fragen in Bezug auf die jüngste Einwanderungsbewegung nach Deutschland, nämlich der durch Krieg und Vertreibung ausgelösten Migration von 2015 und 2016, eingehen. Die hier präsentierten Befunde beruhen auf den Ergebnissen unseres Projekts „Deutsch im Beruf: Die sprachlich-kommunikative Integration von Flüchtlingen", das seit 2016 am Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim durchgeführt wird.
How do people’s interactional practices change over time? Can conversation analysis identify those changes, and if so, how? In this introductory article, we scrutinize the novel insights that can be gained from examining interactional practices over time and discuss the related methodological challenges for longitudinal CA. We first retrace CA’s interest in the temporality of social interaction and then review three lines of current CA work on change over time: developmental studies, studies of sociohistorical change, and studies of joint interactional histories. Existing work shows how the execution of locally coordinated actions and their meanings change over time; how prior actions inform future actions; and how resources, practices, and structures of joint action emerge over people’s repeated interactional encounters. We conclude by arguing that the empirical analysis of the microlevel organization of social interaction, which is the hallmark of CA, can elucidate the fine-grained situated interactional infrastructure that provides for the larger-scale social dynamics that have been of interest to other lines of research.
Research on multimodal interaction has shown that simultaneity of embodied behavior and talk is constitutive for social action. In this study, we demonstrate different temporal relationships between verbal and embodied actions. We focus on uses of German darf/kann ich? (“may/can I?”) in which speakers initiate, or even complete the embodied action that is addressed by the turn before the recipient’s response. We argue that through such embodied conduct, the speaker bodily enacts high agency, which is at odds with the low deontic stance they express through their darf/kann ich?-TCUs. In doing so, speakers presuppose that the intersubjective permissibility of the action is highly probable or even certain. Moreover, we demonstrate how the speaker’s embodied action, joint perceptual salience of referents, and the projectability of the action addressed with darf/kann ich? allow for a lean syntactic design of darf/kann ich?-TCUs (i.e., pronominalization, object omission, and main verb omission). Our findings underscore the reflexive relationship between lean syntax, sequential organization and multimodal conduct.
Schegloff (1996) has argued that grammars are “positionally-sensitive”, implying that the situated use and understanding of linguistic formats depends on their sequential position. Analyzing the German format Kannst du X? (corresponding to English Can you X?) based on 82 instances from a large corpus of talk-in-interaction (FOLK), this paper shows how different action-ascriptions to turns using the same format depend on various orders of context. We show that not only sequential position, but also epistemic status, interactional histories, multimodal conduct, and linguistic devices co-occurring in the same turn are decisive for the action implemented by the format. The range of actions performed with Kannst du X? and their close interpretive interrelationship suggest that they should not be viewed as a fixed inventory of context-dependent interpretations of the format. Rather, the format provides for a root-interpretation that can be adapted to local contextual contingencies, yielding situated action-ascriptions that depend on constraints created by contexts of use.
This special issue investigates early responses—responsive actions that (start to) unfold while the production of the responded-to turn and action is still under way. Although timing in human conduct has gained intense interest in research, the early production of responsive actions has so far largely remained unexplored. But what makes early responses possible? What do such responses tell us about the complex interplay between syntax, prosody, and embodied conduct? And what sorts of actions do participants accomplish by means of such early responses? By addressing these questions, the special issue seeks to offer new advances in the systematic analysis of temporal organization in interaction, contributing to broader discussions in the language and cognitive sciences as to the social coordination of human conduct. In this introductory article, we discuss the role of temporality and sequentiality in social interaction, specifically focusing on projective and anticipatory mechanisms and the interplay between multiple semiotic resources, which are crucial for making early responses possible.
Taking the use of the esthetic term wabi sabi (Japanese compound noun) in a series of German- and English-language theater rehearsals as an example, this article studies the emergence of shared meanings and uses of an expression over an interactional history. We track how shared understandings and uses of wabi sabi develop over the course of a series of theater rehearsals. We focus on the practices by which understandings of wabi sabi are displayed, adopted, and negotiated. We discuss complexities and intransparencies of the manifestation of common ground in multiparty interactions and its relationship to the emergence of routine uses of the expression. Data are in English and German with English translation.
Our study deals with early bodily responses to directives (requests and instructions, i.e., second pair parts [SPPs]) produced before the first pair part (FPP) is complete. We show how early bodily SPPs build on the properties of an emerging FPP. Our focus is on the successive incremental coordination of components of the FPP with components of the SPP. We show different kinds of micro-sequential relationships between FPP and SPP: successive specification of the SPP building on the resources that the FPP makes available, the readjustment or repair of the SPP in response to the emerging FPP, and reflexive micro sequential adaptions of the FPP to an early SPP. This article contributes to our understanding of the origins of projection in interaction and of the relationship between sequentially and simultaneity in interaction. Data are video-recordings from interaction in German.
In this paper, we present our experiences and decisions in dealing with challenges in developing, maintaining and operating online research software tools in the field of linguistics. In particular, we highlight reproducibility, dependability, and security as important aspects of quality management – taking into account the special circumstances in which research software
is usually created.
Das Ziel des Beitrags ist es, die Merkmale von Kommunikationsstörungen in Star-Interviews aus Sicht der Befragten, also der Interviewten festzustellen und zu analysieren. Die empirische Forschungsbasis besteht aus ukrainisch- und deutschsprachigen Videointerviews aus den Jahren 2010 bis 2019, die entweder im Fernsehen gesendet oder für YouTube produziert wurden. Das Forschungsverfahren beinhaltet die integrierte Anwendung von Methoden und Techniken der kommunikativen Linguistik, insbesondere der Diskurs-Analyse. Für die Untersuchung dieser Kommunikationsstörungen wurde eine neue methodische Grundlage entwickelt, und zwar für die Rekonstruktion eines einzelnen Ereignisses in zwei diskursiven Umgebungen, das Feststellen des kommunikativen Kontextes und der Kommunikationssituation in Interviews in vergleichbaren Sprachen. Die Ergebnisse der Studie ermöglichten es, die charakteristischen Merkmale von Kommunikationsstörungen in Star-Interviews auf drei Ebenen der kommunikativen Gattung zu identifizieren: auf der außenstrukturellen, binnenstrukturellen und situativen Ebene. Sowohl gemeinsame Merkmale von Kommunikationsstörungen als auch Unterschiede in den ukrainischen und deutschsprachigen Interviews wurden bestimmt. Die Ergebnisse der Studie zeigen, dass die Arten von Kommunikationsstörungen in Interviews mit Prominenten im Ukrainischen und Deutschen universell sind, sie spiegeln jedoch die nationalen und kulturellen Besonderheiten angesichts der Merkmale beider Sprachen und jeder Sprachkultur und ihrer Realitäten, Normen, Konventionen und Maximen der Kommunikation wider. In beiden Sprachen sind kommunikative Störungen ein typischer und oft unvermeidbarer Bestandteil von Interviews.
Communicative deviations of respondents in political video interviews in Ukrainian and German
(2021)
The research has the objective to establish the peculiarities of communicative deviations as a cognitive and at the same time discursive phenomenon in Ukrainian- and German-language video interviews from the viewpoint of respondents. The procedure of the research involves the integrated application of methods and techniques of pragmatics, deviatology and communicative linguistics. A new methodological basis has been developed for the reconstruction of communicative deviations using discourse analysis, namely for the reconstruction of a single event in two discursive environments, determining the communicative context and communication of interview in compared languages. The results of the research allow us to identify the features of communicative deviations in political interviews at the external, internal structural levels and at the situational level. The conclusions of the research indicate that the types of communicative deviations in political video interviews are universal in Ukrainian and German, but reflect national and cultural specifics given the peculiarities of both languages and each linguoculture, as well as existing realias, norms, conventions, maxims and rules of communication.
Sprache im Gepäck. Von den vielfältigen Dialekten der Deutschen in der ehemaligen Sowjetunion
(2021)
Im Gepäck der etwa 2,5 Millionen der in den letzten rund dreißig Jahren in die Bundesrepublik eingewanderten (Spät-)Aussiedler aus Staaten der ehemaligen Sowjetunion befand sich ein großes immaterielles Erbe. Dieses war nicht auf alle gleichermaßen verteilt, bei dem einen mehr, bei der anderen weniger spürbar und ist immer weniger geworden. Es handelt sich dabei um die mitgebrachten »russlanddeutschen« Dialekte. Was sind das für Dialekte und wer spricht sie noch?
CLARIAH-DE cross-service search - prospects and benefits of merging subject-specific services
(2021)
CLARIAH-DE combines services and offerings of CLARIN-D and DARIAH-DE. This includes various search applications which are made directly available to researchers. These search applications are presented in this working paper based on their main characteristics and compared with a focus on possible harmonizations. Opportunities and risks of different forms of technical integration are highlighted. Identified challenges can be explained in particular considering the background of different organizational and technical frameworks as well as highly specific and discipline-dependent requirements. The integration work that has already been carried out and the experiences gained with regard to future work and possible integration of further applications are also discussed. The experiences made in CLARIAH-DE can especially be of interest for other projects in the field of digital research infrastructures.
Gerade wenn es um die Gewinnung und eine erste Bewertung von Forschungsdaten geht, ist derzeit oft vom Übergang zu citizen science die Rede. Nachdem dieses Konzept zunächst in den Lebenswissenschaften eine größere Rolle gespielt hat, findet es sich neuerdings auch in Teilen der Sprachwissenschaft. Viele einschlägige Initiativen schließen an die Tätigkeiten an, bei denen sich auch traditionell schon die professionalisierte Wissenschaft der Hilfe der ‚Laien‘ bediente, sie können allerdings jetzt die in ungeahntem Ausmaß gewachsenen Möglichkeiten elektronischer Kommunikation und elektronischen Daten-Managements nutzen. Das digitale Interagieren erweitert die Möglichkeiten der als beteiligte „Laien“ gesehenen Personen aber doch so sehr, dass sich auch qualitativ ein neues Verhältnis zwischen den am Forschungsprozess Beteiligten entwickelt. In diesem Beitrag wird diskutiert, welche Folgen diese Veränderung für die wissenschaftliche Praxis, aber auch für das Verständnis des Konzepts „Wissenschaft“ hat.
Im Beitrag werden drei sprachwissenschaftliche Zugänge zu Diagnosen vorgestellt: In der Gesprächsanalyse wird die Diagnoseherstellung in der mündlichen Arzt-Patienten-Interaktion beleuchtet. Diagnosen entstehen kollaborativ,indem Gesprächsphasen durchlaufen und charakteristische Handlungen in bestimmten Äußerungsformaten vollzogen werden. Im Blickpunkt der Text- und Kommunikationsgeschichte steht hingegen das schriftsprachliche Handeln. Das Herstellen einer Diagnose erfordert hier die nachträgliche Bearbeitung vorgängiger mündlicher Interaktionen gemäß einer etablierten Textsorte: dem Erhebungsbogen. Von diesen Formen der Diagnoseherstellung unterscheidet sich, wie ein diskurslinguistischer Zugriff zeigt, die massenmediale Faktizitätsherstellung in Diskursen wie dem Impfdiskurs, die auch für ein medizinisches Laienpublikum relevant sind. Mit dem Beitrag soll nicht nur deutlich gemacht werden, in welchengem Zusammenhang mündliche Interaktion und schriftliche Fixierung stehen, sondern auch betont werden, dass das massenmedial vermittelte medizinische Lai*innen in relative Expert*innen verwandeln kann.
Mit diesem Papier wird die neue Online-Reihe IDSopen des Leibniz-Instituts für Deutsche Sprache konzeptuell aufgelegt. Die Reihe bietet Autor/-innen und Rezipient/-innen aus allen Bereichen der Linguistik eine moderne und offene Plattform für digitales Publizieren. Mit IDSopen steht eine zeitgemäße Publikationsumgebung zur Verfügung, die schwerpunktmäßig Arbeiten veröffentlicht, die auf Ressourcen des IDS beruhen und deren Verwendungsmöglichkeiten in besonderem Maße zeigen. Gleichzeitig zeichnet sich IDSopen durch eine Öffnung für unkonventionelle Publikationsformen und -formate aus. Transparente Begutachtungsprozesse gehören dabei genauso zum Profil der Reihe wie ein offener Erscheinungsturnus und das Ansprechen unterschiedlicher Zielgruppen. IDSopen verfolgt entlang der Leitlinien des IDS und der Leibniz-Gemeinschaft (vgl. LeibnizOpen) das Open-Access-Prinzip und veröffentlicht ausschließlich digital, ohne gedruckte Form (Online-only). Diese Maßnahmen haben das Ziel, kurze Veröffentlichungszeiten für Manuskripte zu ermöglichen, einen unbeschränkten und kostenlosen Zugang zu qualitäts-geprüfter wissenschaftlicher Information rund um die IDS-Ressourcen im Internet zu bieten und liquide Publikationsprozesse zu unterstützen.
In unserem Beitrag diskutieren wir Aspekte einer Forschungsdateninfrastruktur für den wissenschaftlichen Alltag auf Projektebene und argumentieren für eine Unterstützung von Projekten während der Erfassung und Bearbeitung von Daten, d. h. vor deren endgültiger Veröffentlichung. Dabei differenzieren wir zwischen Projekten, deren primäres Ziel es ist, eine Ressource aufzubauen (ressourcenschaffende Projekte, kurz RP) und solchen, die zur Beantwortung einer konkreten Forschungsfrage Daten sammeln und auswerten (Forschungsprojekte, kurz FP). Wir argumentieren dafür, dass bei den offenkundigen Unterschieden zwischen beiden Projektarten die grundsätzlichen Ansprüche an das alltägliche Forschungsdatenmanagement im Kern sehr ähnlich (wenn auch unterschiedlich akzentuiert und skaliert) sind. Diese Ähnlichkeit rührt nicht zuletzt daher, dass im Rahmen von FP gesammelte Daten in Bezug auf das Projektziel primär Mittel zum Zweck sein mögen, sie jedoch bereits im Arbeitsprozess in unterschiedlichem Maß von unterschiedlichen Beteiligten genutzt werden. Wir gehen konkret auf die Aspekte Datenorganisation und -verwaltung, Metadaten, Dokumentation und Dateiformate und deren Anforderungen in den verschiedenen Projekttypen ein. Schließlich diskutieren wir Lösungsansätze dafür, Aspekte des Forschungsdatenmanagements auch in (kleineren) Forschungsprojekten nicht post-hoc, sondern bereits in der Projektplanung als Teil der alltäglichen Arbeit zu berücksichtigen und entsprechende Unterstützung in der Forschungsinfrastruktur vorzusehen.
In unserem Beitrag diskutieren wir Aspekte einer Forschungsdateninfrastruktur für den wissenschaftlichen Alltag auf Projektebene und argumentieren für eine Unterstützung von Projekten während der Erfassung und Bearbeitung von Daten, d. h. vor deren endgültiger Veröffentlichung. Dabei differenzieren wir zwischen Projekten, deren primäres Ziel es ist, eine Ressource aufzubauen (ressourcenschaffende Projekte, kurz RP) und solchen, die zur Beantwortung einer konkreten Forschungsfrage Daten sammeln und auswerten (Forschungsprojekte, kurz FP). Wir argumentieren dafür, dass bei den offenkundigen Unterschieden zwischen beiden Projektarten die grundsätzlichen Ansprüche an das alltägliche Forschungsdatenmanagement im Kern sehr ähnlich (wenn auch unterschiedlich akzentuiert und skaliert) sind. Diese Ähnlichkeit rührt nicht zuletzt daher, dass im Rahmen von FP gesammelte Daten in Bezug auf das Projektziel primär Mittel zum Zweck sein mögen, sie jedoch bereits im Arbeitsprozess in unterschiedlichem Maß von unterschiedlichen Beteiligten genutzt werden. Wir gehen konkret auf die Aspekte Datenorganisation und -verwaltung, Metadaten, Dokumentation und Dateiformate und deren Anforderungen in den verschiedenen Projekttypen ein. Schließlich diskutieren wir Lösungsansätze dafür, Aspekte des Forschungsdatenmanagements auch in (kleineren) Forschungsprojekten nicht post-hoc, sondern bereits in der Projektplanung als Teil der alltäglichen Arbeit zu berücksichtigen und entsprechende Unterstützung in der Forschungsinfrastruktur vorzusehen.
Evaluationsbericht: Das DTA-Basisformat als Austauschformat für kritische Editionen (Neologie)
(2021)
Dieser Bericht befasst sich mit der Anwendung des DTA-Basisformats (DTABf) auf Editionen historischer Texte. Er ist im Kontext des CLARIAH-DE-Projekts entstanden und behandelt die Frage, inwiefern das DTABf als Austauschformat für Editionen historischer Texte sinnvoll eingesetzt werden kann. Dies wird an konkreten Beispielen solider Editionspraxis überprüft. Der generelle Rahmen ist im einleitenden Text (Fisseni et al., 2021) beschrieben. Dieser Evaluationsbericht stellt die Auswertung des ersten von drei Fallbeispielen (zusammen mit Schulz, 2021a, 2021b) für die Konversion unterschiedlich komplexer Editionen in das DTABf dar. Die hier betrachteten Beispiele stammen aus der Bibliothek der Neologie (BdN).
Das vorliegende Dokument befasst sich mit der Evaluation des Basisformats des Deutschen Textarchivs (DTABf) als potenziellem Austausch- bzw. Zielformat für digitale Editionen. Der Text ist im Kontext des Projekts CLARIAH-DE entstanden und möchte die Fragen beantworten, wie und inwieweit das DTABf allgemein sinnvoll in der Editionsarbeit eingesetzt werden und in seiner aktuellen Fassung die Bedürfnisse von Edierenden bei der Textauszeichnung erfüllen kann. Ausgehend von bestehenden Editionsdaten, wird deren Auszeichnung auf ihre Interoperabilität und ihr Überführungspotenzial zum DTABf überprüft, damit gleichzeitig aber auch Kodierungsempfehlungen für die Neuanlage von Editionen abgeleitet. Im Bericht wird die angewandte Methodik erläutert, sowie die Ergebnisse der Evaluation zusammengefasst.
Auf dem Weg zu einer Kartographie: automatische und manuelle Analysen am Beispiel des Korpus ISW
(2021)
Bericht vom zweiten nationalen Best-Practice-Workshop der deutschen Open-Access-Monografienfonds
(2021)
Verbs may be attributed to higher agency than other grammatical categories. In Study 1, we confirmed this hypothesis with archival datasets comprising verbs (N = 950) and adjectives (N = 2115). We then investigated whether verbs (vs. adjectives) increase message effectiveness. In three experiments presenting potential NGOs (Studies 2 and 3) or corporate campaigns (Study 4) in verb or adjective form, we demonstrate the hypothesized relationship. Across studies, (overall N = 721) grammatical agency consistently increased message effectiveness. Semantic agency varied across contexts by either increasing (Study 2), not affecting (Study 3), or decreasing (Study 4) the effectiveness of the message. Overall, experiments provide insights in to the meta-semantic effects of verbs – demonstrating how grammar may influence communication outcomes.
Ist die Germanistik – oder besser: befinden sich die Deutschstudien insgesamt in den nordischen und baltischen Ländern ‚auf dem absteigenden Ast‘? Was die an vielen Orten der Region seit längerem rückläufige Zahl der Studierenden und die Anzahl der Deutschinstitute und -abteilungen an den Hochschulenbetrifft, kann dem in weiten Teilen kaum widersprochen werden. Aber gilt dies auch für die Qualität der Ausbildung und das sprachliche Niveau der Studienanfänger/innen? Und sägen die Deutschstudien in der Region durch zu wenig ansprechende Studienangebote nicht vielleicht selbst an dem Ast, auf dem sie sitzen? Mit diesen Fragen beschäftigt sich das Projekt UniStart Deutsch@NBL, das in diesem Beitrag vorgestellt wird.
We discuss the modal uses of the Hausa exclusive particle sai (≈ only). We argue that the distribution of sai in modal environments provides evidence for the following claims on the composition of modal meaning that have been independently made in the literature: i) Future-oriented modality involves a prospective aspect operator that can be realized covertly in some languages (e.g. English, Kratzer 2012b) and overtly in others (e.g. Gitksan, Matthewson 2012, 2013). ii) Necessity interpretations arise from exhaustifying possibilities, i.e. an exhaustivity operator applying to existential modality (e.g. Kaufmann 2012 for the case of imperatives and Leffel 2012 for a relevant analysis of necessity meaning in Masalit). We show that future-oriented necessity in Hausa decomposes into EXH((PROSP)), with sai contributing exhaustivity.
Making research data publicly available for evaluation or reuse is a fundamental part of good scientific practice. However, regulations such as copyright law can prevent this practice and thereby hamper scientific progress. In Germany, text-based research disciplines have for a long time been mostly unable to publish corpora made from material outside of the public domain, effectively excluding contemporary works. While there are approaches to obfuscate text material in a way that it is no longer covered by the original copyright, many use cases still require the raw textual context for evaluation or follow-up research. Recent changes in copyright now permit text and data mining on copyrighted works. However, questions regarding reusability and sharing of such corpora at a later time are still not answered to a satisfying degree. We propose a workflow that allows interested third parties to access customized excerpts of protected corpora in accordance with current German copyright law and the soon to be implemented guidelines of the Digital Single Market directive. Our prototype is a very lightweight web interface that builds on commonly used repository software and web standards.
Das 1901er-Regelwerk wird in einem direkten Vergleich mit dem geltenden amtlichen Regelwerk gemeinhin als defizitär eingestuft. Diese Einschätzung basiert auf der Annahme eines Primats des Regelteils. Der vorliegende Beitrag setzt hieran an und bestimmt auf der Basis der Festlegungen zur Getrennt- und Zusammenschreibung Funktion und Verhältnis von Regelteil und Wörterverzeichnis des ersten gesamtdeutschen Regelwerks in seinem historischen Entstehungskontext. Dabei zeigt sich, dass das Regelwerk von 1901 einen anderen Weg in der Kodifikation beschreitet; während im Regelteil Regularitäten aufgezeigt und Kriterien zur Schreibungsfindung an die Hand gegeben werden, erfolgt die Kodifikation rechtschreibschwieriger Fälle über das Wörterverzeichnis.
The paper presents research results emerging from the analysis of Intelligent Personal Assistants (IPA) log data. Based on the assump-tion that media and data, as part of practice, are produced and used cooperatively, the paper discusses how IPA log data can be used to analyze (1) how the IPA systems operate through their connection to platforms and infrastructures, (2) how the dialog systems are de-signed today and (3) how users integrate them into their everyday social interaction. It also asks in which everyday practical contexts the IPA are placed on the system side and on the user side, and how privacy issues in particular are negotiated. It is argued that, in order to be able to investigate these questions, the technical-institutional and the cultural-theoretical perspective on media, which is common in German media linguistics, has to be complemented by a more fun-damental, i.e. social-theoretical and interactionist perspective.
We are witnessing an emerging digital revolution. For the past 25–30 years, at an increasing pace, digital technologies—especially the internet, mobile phones and smartphones—have transformed the everyday lives of human beings. The pace of change will increase, and new digital technologies will become even more tightly entangled in human everyday lives. Artificial intelligence (AI), the Internet of Things (IoT), 6G wireless solutions, virtual reality (VR), augmented reality (AR), mixed reality (XR), robots and various platforms for remote and hybrid communication will become embedded in our lives at home, work and school.
Digitalisation has been identified as a megatrend, for example, by the OECD (2016; 2019). While digitalisation processes permeate all aspects of life, special attention has been paid to its impact on the ageing population, everyday communication practices, education and learning and working life. For example, it has been argued that digital solutions and technologies have the potential to improve quality of life, speed up processes and increase efficiency. At the same time, digitalisation is likely to bring with it unexpected trends and challenges. For example, AI and robots will doubtlessly speed up or take over many routine-based work tasks from humans, leading to the disappearance of certain occupations and the need for re-education. This, in turn, will lead to an increased demand for skills that are unique to humans and that technologies are not able to master. Thus, developing human competences in the emerging digital era will require not only the mastering of new technical skills, but also the advancement of interpersonal, emotional, literacy and problem-solving skills.
It is important to identify and describe the digitalisation phenomena—pertaining to individuals and societies—and seek human-centric answers and solutions that advance the benefits of and mitigate the possible adverse effects of digitalisation (e.g. inequality, divisions, vulnerability and unemployment). This requires directing the focus on strengthening the human skills and competences that will be needed for a sustainable digital future. Digital technologies should be seen as possibilities, not as necessities.
There is a need to call attention to the co-evolutionary processes between humans and emerging digital technologies—that is, the ways in which humans grow up with and live their lives alongside digital technologies. It is imperative to gain in-depth knowledge about the natural ways in which digital technologies are embedded in human everyday lives—for example, how people learn, interact and communicate in remote and hybrid settings or with artificial intelligence; how new digital technologies could be used to support continuous learning and understand learning processes better and how health and well-being can be promoted with the help of new digital solutions.
Another significant consideration revolves around the co-creation of our digital futures. Important questions to be asked are as follows: Who are the ones to co-create digital solutions for the future? How can humans and human sciences better contribute to digitalisation and define how emerging technologies shape society and the future? Although academic and business actors have recently fostered inclusion and diversity in their co-creation processes, more must be done. The empowerment of ordinary people to start acting as active makers and shapers of our digital futures is required, as is giving voice to those who have traditionally been silenced or marginalised in the development of digital technology. In the emerging co-creation processes, emphasis should be placed on social sustainability and contextual sensitivity. Such processes are always value-laden and political and intimately intertwined with ethical issues.
Constant and accelerating change characterises contemporary human systems, our everyday lives and the environment. Resilience thinking has become one of the major conceptual tools for understanding and dealing with change. It is a multi-scalar idea referring to the capacity of individuals and human systems to absorb disturbances and reorganise their functionality while undergoing a change. Based on the evolving new digital technologies, there is a pressing need to understand how these technologies could be utilised for human well-being, sustainable lifestyles and a better environment. This calls for analysing different scales and types of resilience in order to develop better technology-based solutions for human-centred development in the new digital era.
This white paper is a collaborative effort by researchers from six faculties and groups working on questions related to digitalisation at the University of Oulu, Finland. We have identified questions and challenges related to the emerging digital era and suggest directions that will make possible a human-centric digital future and strengthen the competences of humans and humanity in this era.
This paper will address the challenge of creating a knowledge graph from a corpus of historical encyclopedias with a special focus on word sense alignment (WSA) and disambiguation (WSD). More precisely, we examine WSA and WSD approaches based on article similarity to link messy historical data, utilizing Wikipedia as aground-truth component – as the lack of a critical overlap in content paired with the amount of variation between and within the encyclopedias does not allow for choosing a ”baseline” encyclopedia to align the others to. Additionally, we are comparing the disambiguation performance of conservative methods like the Lesk algorithm to more recent approaches, i.e. using language models to disambiguate senses.
In diesem Buch werden auf einer großen empirischen Basis die regionalen Sprechweisen von verschiedenen Bevölkerungsgruppen in einem kleinen Gebiet im alemannischen Sprachraum untersucht. Als Datengrundlage dienen aktuelle, spontansprachliche und fragebuchbasierte Daten, die einander gegenübergestellt und diachron mit den Ergebnissen des Südwestdeutschen Sprachatlas (SSA) aus den 1970er Jahren verglichen werden. Es werden vorwiegend datenaggregierende Verfahren angewendet, um die regionale und soziale Gebundenheit der vorgefundenen Variation zu erfassen. Mit Hilfe von Dialektabstandsmessungen werden ausgewählte, überwiegend phonologische Merkmale im Hinblick auf Dialektwandelprozesse untersucht. Außerdem wird gezeigt, dass mit dialektometrischen Verfahren explorative Aggregatanalysen möglich sind, die es erlauben, Sprachräume zu identifizieren und dialektologisch zu beschreiben.
There has been a long-standing interest in projection and the resources on which participants rely to produce and recognize the import and organization of turns at talk. Less attention has been paid to the character of the activity in which utterances form part and the ways in which embodied action enables the intelligibility, coordination, and in some cases, coproduction, of particular actions. In this article, we focus on specialized forms of embodied, institutional activity and focus in particular on simultaneity and the ways in which bodily action enables the progressive formation and reformation of an activity in the light of the (co)participants’ emerging contributions. We address how the routine structure of particular tasks enables participants to anticipate, prepare for, and even initiate actions in advance of the relevant activity and in turn, how participants may seek to ameliorate the interactional import of potentially premature action. The articles explores the interplay of technical practice and interactional organization and points to the distinctive character of embodied action in understanding anticipation and coordination in complex forms of institutional interaction.
Towards comprehensive definitions of data quality for audiovisual annotated language resources
(2021)
Though digital infrastructures such as CLARIN have been successfully established and now provide large collections of digital resources, the lack of widely accepted standards for data quality and documentation still makes re-use of research data a difficult endeavour, especially for more complex resource types. The article gives a detailed overview over relevant characteristics of audiovisual annotated language resources and reviews possible approaches to data quality in terms of their suitability for the current context. Conclusively, various strategies are suggested in order to arrive at comprehensive and adequate definitions of data quality for this specific resource type and possibly for digital language resources in general.
This paper describes the TEI-based ISO standard 2462:2016 “Transcription of spoken language” and other formats used within CLARIN for spoken language resources. It assesses the current state of support for the standard and the interoperability between these formats and with relevant tools and services. The main idea behind the paper is that a digital infrastructure providing language resources and services to researchers should also allow the combined use of resources and/or services from different contexts. This requires syntactic and semantic interoperability. We propose a solution based on the ISO/TEI format and describe the necessary steps for this format to work as an exchange format with basic semantic interoperability for spoken language resources across the CLARIN infrastructure and beyond.
This study investigates how driving school instructors adapt their instructions to constraints and affordances of different activity types. Adopting a Conversation Analytic approach and building on a comparative corpus of theoretical and practical driving lessons in German, it compares sequences of instructions of the execution of the “shoulder check” (i.e., checking the blind spot) in stationary theoretical versus mobile practical driving lessons. In theoretical lessons, the instructor uses vivid and humorous embodied instructions. In practical driving lessons, the instructor orients to the complex multi‐activity and delivers instructions in a succinct manner, considering the students’ previous knowledge and the embeddedness into the global tasks. The paper shows how instructional practices are sensitive to contextual contingencies which they reflect and treat by their situated design.
Der Beitrag widmet sich der Ausgestaltung von Instruktionen und Aufforderungen zum rückwärts Einparken im theoretischen und praktischen Fahrschulunterricht in Abhängigkeit von den Eigenschaften der jeweiligen Unterrichtssituation. Verglichen werden dazu Instruktionssequenzen aus drei Vermittlungstypen: 1. die Instruktion anhand einer software-gestützten Einparksimulation im Theorie-Unterricht, 2. die Instruktion anhand einer Modellautodemonstration im Fahrschulauto, und 3. der direkt angeschlossene erste praktische Übungsvorgang. Eine Untersuchung der grammatischen Ausgestaltung der Instruktionen und der verkörperten Handlungen zeigt eine besondere Funktion der Modellautodemonstration: Dieser Vermittlungstyp vereint Aspekte sowohl der Unterrichtssituation im Fahrschulraum als auch im fahrenden Auto. Die Orientierungspunkte am Modell werden mit denen des 'realen' Autos und seiner Umgebung verbunden. Dabei offenbart sich in den Instruktionen und Aufforderungen ein Kontinuum von Theorie und Praxis, dessen Ausprägungen maßgeblich von der (Ent-)Kopplung bezüglich der Anwendungssituation und der (Nicht-)Mobilität des Autos abhängen. Die Untersuchung zeigt, wie grammatische und multimodale Formen an ihren lokalen und situativen Kontext angepasst und interpretiert werden.
Weniger ist mehr! Die IDS-Goethe-Studie in den Integrationskursen und Vorschläge für die Praxis
(2021)
Der vorliegende Band geht aus der Arbeit des DFG-Netzwerks >Linguistik und Medizin< – Patho- und Saluto-Diskurse im Spannungsfeld von objektivierter Diagnose, interaktiver Vermittlung und medialer Konstitution (vgl. Iakushevich, Ilg & Schnedermann 2017) hervor, das Forscherinnen und Forscher aus Deutschland, der Schweiz, Österreich und Ungarn vereint (www.linguistik-medizin.net). Das Netzwerk wurde 2017 gegründet, um die Forschungstätigkeiten der verschiedenen linguistischen Disziplinen, die an den Verbindungslinien von „Sprache – Wissen – Medizin“ arbeiten, zu bündeln und die interdisziplinäre Anschlussfähigkeit zwischen linguistischen und medizinischen, psychiatrischen und salutogenetischen Forschungsbereichen auf- und auszubauen.
This study offers a contribution to the reception analysis of TV documentaries by focusing on viewer opinions expressed on social media. It analyses German and English comments from YouTube and Facebook in order to find out what aspects of documentaries the audience comments on. More specifically, it describes how the viewers evaluate strategies that the producers use for simplifying complex content while still creating an appealing and entertaining media product. The results imply that most viewers appreciate informative shows that are entertaining at the same time. They also show that viewers tend to focus on the music and image, rather than on the spoken text, and that documentaries where nature plays an important role are judged more positively than science and history documentaries.
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ist mit seinem Design bislang vornehmlich auf Nutzergruppen aus der sprachwissenschaftlichen Forschung ausgerichtet, prinzipiell aber auch hervorragend dafür geeignet, für die Nutzung im handlungsorientierten DaF- (und eventuell auch DaZ-)Unterricht fruchtbar gemacht zu werden. Lehrende und Lernende des Deutschen als Fremd- oder Zweitsprache bilden eine gesellschaftlich zunehmend relevante Zielgruppe und auch einen beträchtlichen Anteil der registrierten NutzerInnen des Korpus. Im vorliegenden Beitrag soll daher anhand eines exemplarischen Annotationsprojekts gezeigt werden, inwiefern die besonderen Ressourcen und Potentiale von FOLK für den DaF-Unterricht und dort speziell für den Aspekt des authentischen, kompetenten sprachlichen Handelns in Interaktion sinnvoll aufbereitet und schrittweise zugänglicher gemacht werden können.
N-grams are of utmost importance for modern linguistics and language technology. The legal status of n-grams, however, raises many practical questions. Traditionally, text snippets are considered copyrightable if they meet the originality criterion, but no clear indicators as to the minimum length of original snippets exist; moreover, the solutions adopted in some EU Member States (the paper cites German and French law as examples) are considerably different. Furthermore, recent developments in EU law (the CJEU's Pelham decision and the new right of press publishers) also provide interesting arguments in this debate. The paper presents the existing approaches to the legal protection of n-grams and tries to formulate some clear guidelines as to the length of n-grams that can be freely used and shared.
Privacy in its many aspects is protected by various legal texts (e.g. the Basic Law, Civil Code, Criminal Code, or even the Law on Copyright in artistic and photographic works (KunstUrhG), which protects image rights). Data protection law, which governs the processing of information about individuals (personal data), also serves to protect their privacy. However, some information referring to the public sphere of an individual’s life (e.g. the fact that X is a mayor of Smallville) may still be considered personal data (see below), and as such fall within the scope of data protection rules. In this sense, data protection laws concern information that is not private.
Therefore, privacy and data protection, although closely related, are distinct notions: one can violate someone else’s privacy without processing his or her personal data (e.g. simply by knocking at one’s door at night, uninvited), and vice versa: one can violate data protection rules without violating privacy.
The following handouts focus exclusively on data protection rules, and specifically on the General Data Protection Regulation (GDPR). However, please keep in mind that compliance with the GDPR is not the only aspect of protecting privacy of individuals in research projects. Other rules, such as academic ethics and community standards (such as CARE) also need to be observed.
Twitter data is used in a wide variety of research disciplines in Social Sciences and Humanities. Although most Twitter data is publicly available, its re-use and sharing raise many legal questions related to intellectual property and personal data protection. Moreover, the use of Twitter and its content is subject to the Terms of Service, which also regulate re-use and sharing. This extended abstract provides a brief analysis of these issues and introduces the new Academic Research product track, which enables authorized researchers to access Twitter API on a preferential basis.
Sometimes legal scholars get relevant but baffling questions from laypersons like: “The reference to a work is personal data, so does the GDPR actually require me to anonymise it? Or, as my voice data is personal data, does the GDPR automatically give me access to a speech recognizer using my voice sample? Or, can I say anything about myself without the GDPR requiring the web host to anonymise or remove the post? What can I say about others like politicians? And, what can researchers say about patients in a research report?” Based on these questions, the authors address the interaction of intellectual property and data protection law in the context of data minimisation and attribution rights, access rights, trade secret protection, and freedom of expression.
The article focuses on determining responsible parties and the division of potential liability arising from sharing language data (LD) containing personal data (PD). A key issue here is to identify who has to make sure and guarantee the GDPR compliance. The authors aim to answer 1) whether an individual researcher is a controller and 2) whether sharing LD results in joint controllership or separate controllership (whether the data's transferee becomes the controller, the joint controller or the processor). The article also analyses the legal relations of parties involved in data sharing and potential liability. The final section outlines data sharing in the CLARIN context. The analysis serves as a preliminary analytical background for redesigning the CLARIN contractual framework for sharing data.
Im Beitrag werden die Ergebnisse einer im Jahr 2015 durchgeführten Online-Umfrage vorgestellt, in der die Angemessenheit von Aussprachevarianten des Deutschen in formellen Sprechsituationen bewertet werden sollte. Zu diesem Zweck wurden den 1.964 Teilnehmer/-innen Aussprachevarianten von insgesamt 207 Lexemen vorgelegt, vor allem aus den Bereichen Wortakzent, Vokalquantität und Fremdwortrealisierung. Die Umfrageergebnisse werden tabellarisch aufgeführt und damit weiterer Forschung zur Verfügung gestellt.
Mit Entwicklungen in der Welt entsteht auch ein neuer Wortschatz, insbesondere in Zeiten großer gesellschaftlicher Umbrüche oder bedingt durch Krisen, denn neue Dinge, neue Umstände, »neue Normalitäten« müssen bezeichnet werden, damit darüber kommuniziert werden kann. Zugleich steigt die Gebrauchshäufigkeit älterer Wörter, weil sie aktuell für die Verständigung besonders relevant werden. Die in diesem Glossar präsentierten Begriffe thematisieren solche sprachlichen Auswirkungen der Coronakrise.
Spiele und Spielgeräte: Tamagotchi, Sudoku oder doch Puzzle? (Aus der Rubrik Neuer Wortschatz)
(2021)
This study explores how ‘gatherings’ turn into ‘encounters’ in a virtual world (VW) context. Most communication technologies enable only focused encounters between distributed participants, but in VWs both gatherings and encounters can occur. We present close sequential analysis of moments when after a silent gathering, interaction among participants in a VW is gradually resumed, and also investigate the social actions in the verbal (re-)opening turns. Our findings show that like in face-to-face situations, also in VWs participants often use different types of embodied resources to achieve the transition, rather than rely on verbal means only. However, the transition process in VWs has distinctive characteristics compared to the one in face-to-face situations. We discuss how participants in a VW use virtually embodied pre-beginnings to display what we call encounter-readiness, instead of displaying lack of presence by avatar stillness. The data comprise 40 episodes of video-recorded team interactions in a VW.
Der Datensatz enthält 409 Korpusbelege aus Nominalphrasen mit eingebetteten Genitivattributen, die wiederum ein eingebettetes Genitivattribut aufweisen (Petras Nachfolgers Beisein). Die Belege sind danach klassifiziert, ob die erste eingebettete Nominalphrase vor oder hinter dem Kopfnomen der Gesamtnominalphrase steht (Petras Nachfolgers Beisein vs. Beisein Petras Nachfolgers) und ob die erste eingebettete Nominalphrase neben einem Genitiv noch ein Adjektiv enthält (Beisein Petras direkten Nachfolgers). Für jeden Beleg werden zudem die Lemmas der drei Nomen in ihrer Einbettungsreihenfolge angegeben. Darüber hinaus sind Metadaten (Land, Jahr) enthalten.
Der Datensatz enthält die Gesamtheit der relevanten Belege aus dem KoGra-Untersuchungskorpus mit den im Folgenden aufgeführten Strukturen. Die Abfragen für die vier Strukturtypen führten zu 15.875 potenziellen Belegen, von denen sich bei manueller Durchsicht 409 als tatsächliche Nominalphrasen mit zweifach eingebetteten Genitivattributen erwiesen.
Der Datensatz dient der Untersuchung der Sonderfälle des Genitivattributs (Kopf 2021).
Dieses Kapitel untersucht die Stellung adnominaler Genitive im Deutschen. Die Stellungsvariation besteht fast ausschließlich für artikellose Eigennamen, weshalb diese im Zentrum der Analyse stehen. Auf Basis von Korpusdaten kann gezeigt werden, dass die Faktoren Belebtheit und Länge des Attributs sowie Kasus der Gesamtphrase einen großen Teil der Variation erklären.
Dieses Kapitel untersucht das Verhältnis von Genitivattributen und Präpositionalattributen mit von im Deutschen datenbasiert. Im Zentrum steht dabei die Frage danach, unter welchen Bedingungen die beiden Konstruktionen miteinander variieren können. Neben funktionaler Äquivalenz, die z. B. bei von-Attributen mit starker lokativischer oder ablativischer Semantik nicht gegeben ist, stellt dabei auch das Vorhandensein flektierender Elemente in der Attributsphase eine wichtige Voraussetzung dar.
Deutsche Genitivattribute benötigen eine hinreichend overte Kasusmarkierung an abhängigen Wortarten (Determinierern, Adjektiven), mitunter in Kombination mit einer Markierung am Genitivnomen selbst. Wenn die Struktur der Attributsphrase solche Markierungen unmöglich macht, wird eine Präpositionalphrase mit von genutzt. Es gibt allerdings eine Reihe von Grenzfällen, die Genitivgebrauch erlauben, obwohl keine hinreichende Markierung möglich ist. Die vorliegende Studie liefert zu drei solchen Fällen empirische Daten: 1. Fälle, wo der unflektierte Wortstamm des Adjektivs oder des Genitivnomens einem Genitivsuffix gleicht („Pseudoflexion“), 2. Fälle, wo Determinierer und Genitivnomen schwach flektiert werden („doppelt schwache Flexion“) und 3. Fälle, wo die Determiniererposition durch einen weiteren, pränominalen Genitiv besetzt ist, der keine Kongruenz aufweisen kann („verschachtelte Genitivattribute“). Anhand umfassender Korpusuntersuchungen kann so eingeschätzt werden, welche Rolle diese Grenzfälle im System der deutschen Standardsprache spielen.
Der Datensatz enthält 16.604 Korpusbelege aus Nominalphrasen mit Genitiv- und von-Attributen (die Ideen zahlreicher Kinder, die Ideen von zahlreichen Kindern), wobei die Genitivattribute prä- oder postnominal erscheinen können (Mannheims Sehenswürdigkeiten, die Sehenswürdigkeiten Mannheims).
Für jeden Beleg sind Informationen zu Land, Dekade und Medium enthalten. Hinzu kommen Angaben zu Kopf- und/oder Attributslemma (z. B. Namentyp, Flexionsklasse), Gesamtphrase (z. B. Definitheit, Kasus) und Attributsphrase (z. B. Kasusdistinktion, Länge). Zahlreiche Sonderfälle sind ebenfalls annotiert (z. B. Genitiv bei nichtflektiertem Adjektiv wie Gebäck Mannheimer Bäckereien, Phrasen mit adjektivisch flektierendem Attributsnomen wie die Ideen Jugendlicher, die Ideen von Jugendlichen).
The teaching slides accompany the following textbook:
Svenja Völkel & Franziska Kretzschmar (2021): Introducing linguistic research. Cambridge: Cambridge University Press.
The slides follow the structure of the book chapters and can be used for teaching in class. They include the basic information per chapter and exercises to work on in class or as homework. More detailed information, additional exercises, suggestions for research projects and recommendations for further reading can be found in the textbook.
While there is a large amount of research in the field of Lexical Semantic Change Detection, only few approaches go beyond a standard benchmark evaluation of existing models. In this paper, we propose a shift of focus from change detection to change discovery, i.e., discovering novel word senses over time from the full corpus vocabulary. By heavily fine-tuning a type-based and a token-based approach on recently published German data, we demonstrate that both models can successfully be applied to discover new words undergoing meaning change. Furthermore, we provide an almost fully automated framework for both evaluation and discovery.
Zum Geleit
(2021)
Neben den wissenschaftlichen Aufsätzen, die nach den Qualitätskriterien
der heute üblichen doppelt anonymen Begutachtung ausgewählt wurden, enthält das Heft drei Berichte – zu einer Tagung zur Mehrsprachigkeit in Tartu, zu einem interdisziplinären DaF-Projekt in Tallinn sowie zu einer Forschungsgruppe zu Sprachkompetenzen und Deutschlernmotivationen von Student/innen in den baltischen und nordischen Ländern. Das Heft wird schließlich durch zwei Rezensionen abgerundet.