Digitale Sprachwissenschaft
Refine
Year of publication
Document Type
- Part of a Book (62)
- Conference Proceeding (33)
- Article (18)
- Book (13)
- Other (3)
- Working Paper (2)
- Diploma Thesis (1)
- Review (1)
Keywords
- Korpus <Linguistik> (64)
- Deutsch (36)
- Annotation (16)
- Automatische Sprachanalyse (13)
- Computerlinguistik (13)
- Digital Humanities (12)
- Automatische Sprachverarbeitung (11)
- Gesprochene Sprache (7)
- Linguistik (7)
- Deutsches Referenzkorpus (DeReKo) (6)
Publicationstate
- Veröffentlichungsversion (94)
- Zweitveröffentlichung (31)
- Postprint (7)
- Preprint (1)
Reviewstate
Publisher
- de Gruyter (18)
- European language resources association (ELRA) (11)
- The Association for Computational Linguistics (11)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (6)
- Editura Academiei Române (5)
- De Gruyter (4)
- Heidelberg University Publishing (4)
- Institut für Deutsche Sprache (4)
- Leibniz-Institut für Deutsche Sprache (IDS) (4)
- Waxmann (4)
Das Mitschreiben scheint ein vielversprechender Gegenstand zu sein, um die Kernanalysen des SpraStu-Projekts, die auf der Diagnostik verschiedener sprachlicher Kompetenzen fußen (vgl. Kapitel 1–4), um Analysen zu einer stärker im Studium situierten Sprachhandlung zu erweitern. Was und wie schreiben (L2-)Studierende verschiedener Studienfächer mit, was denken sie über das Mitschreiben, wie schwer fällt es ihnen (und warum), wie gehen sie mit ihren Notaten nach den Vorlesungen um? Wie beeinflussen sprachliche Charakteristika der Vorlesungen das Mitgeschriebene? Wie positionieren sich Lehrende zum Mitschreiben? Solche und viele weitere Fragen drängen sich auf. Neben einem breiten Spektrum spezifischer Methoden rund um die Mitschriftenerhebung, -aufbereitung und -auswertung machen wir uns für die im Folgenden dargelegten Untersuchungen auch weitere Informationen zunutze, die zu den Teilnehmenden im Gesamtprojekt erhoben wurden (bspw. die diagnostizierten Sprachkompetenzen und Daten zur sprachbezogenen Selbstregulation, vgl. Kapitel 2, 3 und 9).
Das Projekt Sprache und Studienerfolg bei Bildungsausländer/-innen fokussiert nicht nur die Entwicklung sprachlicher Kompetenzen des Deutschen und ihren direkten Einfluss auf den Studienerfolg internationaler L2-Studierender, sondern untersucht auch zwei ausgewählte, stark sprachgeprägte Handlungen, und zwar das Schreiben von Klausuren und das Mitschreiben in Vorlesungen. Bedarfsanalysen hatten ergeben, dass diese Sprachhandlungen internationale Studierende vor erhebliche Herausforderungen stellen. Zur Untersuchung diesbezüglicher Fragen kam eine Reihe verschiedener Methoden zum Einsatz. Eine wichtige Säule der Untersuchung des Mitschreibens im Studium bildete die Erstellung des nachnutzbaren und öffentlich zugänglichen Korpus MIKO, das in diesem methodologisch ausgerichteten Kapitel gesondert beschrieben wird, während Kapitel 7 stärker inhaltlich auf das Mitschreiben eingeht. MIKO (kurz für: Mitschreiben in Vorlesungen: Ein multimodales Lehr-Lernkorpus) ist ein multimodales, wissenschaftssprachliches Vorlesungskorpus, das sprachlich-fachliche Anforderungen des Mitschreibens in Vorlesungen der Studieneingangsphase fokussiert.
Impact assessment is an evolving area of research that aims at measuring and predicting the potential effects of projects or programs on a variety of stakeholders. While measuring the impact of scientific research is a vibrant subdomain of impact assessment, a recurring obstacle in this specific area is the lack of an efficient framework that facilitates labeling and analysis of lengthy reports. To address this issue, we propose, implement, and evaluate a framework for automatically assessing the impact of scientific research projects by identifying pertinent sections in research reports that indicate potential impact. We leverage a mixed-method approach that combines manual annotation with supervised machine learning to extract these passages from project reports. We experiment with different machine learning algorithms, including traditional statistical models as well as pre-trained transformer language models. Our results show that our proposed method achieves accuracy scores up to 0.81, and that our method is generalizable to scientific research from different domains and different languages.
Linguistisches Impact-Assessment: Maschinelle Prognose mit Realitätsabgleich im Projekt TextTransfer
(2024)
Empirische Ansätze halten zunehmend Einzug in die Methodik und Herangehensweise geisteswissenschaftlicher Forschung. Die Sprachwissenschaften stützen sich zunehmend auf Forschungsdaten und Sprachmodelle, um ein digitales Bild natürlicher Sprachen zu erzeugen. Auf dieser Grundlage wird es möglich, entlang nutzerspezifischer Suchanfragen des distant reading automatisiert semantische Muster in Texten zu erkennen. Seit mithilfe solcher Modelle, etwa in Suchmaschinen, webbasierten Übersetzungs- oder Konversationstools, sprachliche Informationen maschinell in sinnhaften Zusammenhängen reproduziert werden können, sind die Implikationen sogenannter Künstlicher Intelligenz (KI) zu einem Thema im gesamtgesellschaftlichen Diskurs avanciert. Vielen Linguisten ist es deshalb ein Anliegen, ihre Erkenntnisse für neue Anwendungsfelder jenseits ihrer unmittelbaren disziplinären Umgebung zu öffnen und zu einer fundierten Debatte beizutragen. Dieser Feststellung gegenüber steht die Einsicht, dass Forschungsergebnisse aller Disziplinen zwar archiviert, aber mangels gezielter Interpretierbarkeit großer und komplexer Datenmengen häufig für diesen breiten Diskurs nicht genutzt werden. Ein nachweisbarer Impact bleibt aus. An dieser Schnittstelle erarbeitet das vom Bundesministerium für Bildung und Forschung (BMBF) finanzierte Projekt TextTransfer einen Ansatz, um per distant reading auf Art und Wahrscheinlichkeit eines gesellschaftlichen, wirtschaftlichen oder politischen Impacts textgebundenen Forschungswissens zu schließen. Zu diesem Zweck baut TextTransfer ein maschinelles Lernverfahren auf, das auf empirischem Erfahrungswissen zu Impacterfolgen von Forschungsprojekten fußt. Als wesentlicher Baustein dieses Erfahrungsgewinns gilt die Verifizierbarkeit der Lernergebnisse. Der vorliegende Artikel zeigt einen ersten Ansatz im Projekt, ein Sprachmodell in einem gesteuerten Lernverfahren mit belastbaren Lerndaten zu trainieren, um möglichst hohe Präzision im Impact-Assessment zu erreichen.
EuReCo: Not Building and Yet Using Federated Comparable Corpora for Cross-Linguistic Research
(2024)
This paper gives an overview of recent developments concerning the European Reference Corpus EuReCo, an open long-term initiative aimed at providing and using virtual and dynamically definable comparable corpora based on existing national, reference or other large corpora. Given the problems and shortcomings of other types of multilingual corpora – such as the shining-through effects in parallel corpora or the limitation to web material only in web-based comparable corpora – EuReCo constitutes a unique linguistic resource that offers new perspectives for fine-grained cross-linguistic research. The approach advocated here puts forward new solutions to notorious IPR and licensing issues, as well as to challenges of interoperability. It also addresses methodological questions concerning comparability and representativeness. While the focus of this paper is on EuReCo’s implementation-based approach to ensuring interoperability in a feasible and maintainable way, it also presents preliminary results of pilot comparative studies on light verb constructions in German, Romanian, Hungarian, Polish and Bulgarian, and reports on recent extensions and plans.
Für den Zugriff auf die IDS-Korpora wurde Anfang der 1990er Jahre am IDS das Korpusrecherche- und -analysesystem COSMAS (Corpus Search, Management and Analysis System) (al-Wadi 1994) entwickelt, welches sich bereits in seiner ersten seit 1991 bis 2003 im Betrieb befindlichen Version – COSMAS I – in der Praxis bewährt hatte. Unter den zahlreichen Funktionalitäten waren u.a. ‘virtuelle’ Korpuskomposition, statistische Kookkurrenzanalyse und morphologischer Suchassistent besonders innovativ. 2003 wurde COSMAS I durch die neuere Version COSMAS II (Bodmer 2005) ersetzt, welche vor allem für den Umgang mit Mehrfachannotationen entworfen wurde. Die Datenbasis von COSMAS II speist sich heute aus verschiedenen Quellen: Neben DeReKo sind ebenso historische und einige Projektkorpora mittels COSMAS II für die öffentliche Recherche und Analyse zugänglich gemacht worden. Derzeit hat COSMAS II weltweit ca. 19.000 registrierte Nutzer, die auf die angebotenen Ressourcen zugreifen können. Da COSMAS II jedoch bereits Anfang der 1990er Jahre konzipiert wurde und der Arbeitsaufwand, derartige Software zu erweitern, mit steigender Lebensdauer und Komplexität überproportional steigt, wird es zunehmend schwieriger, die Software an die sich rasch wandelnden Bedarfe anzupassen. Indes haben sich sowohl die technischen als auch die wissenschaftlichen Rahmenbedingungen derart stark verändert, dass es sinnvoll erschien, ein neuartiges Analyse-Tool zu entwickeln, welches neuen Anforderungen und Herausforderungen gerecht wird.
In many argumentative texts a substantial amount of knowledge remains implicit. This implicit knowledge is often crucial for a deep understanding and correct interpretation of arguments. In this work we investigate how to automatically reconstruct implicit knowledge in argumentative texts, and how the reconstruction of implicit knowledge can help in improving computational argument analysis. We point out that knowledge which stays implicit can in most cases be framed as commonsense knowledge, which has been shown to be helpful for solving many Natural Language Processing (NLP) tasks. However, it has not yet been leveraged for an in-depth analysis of arguments. This work closes this research desideratum by integrating commonsense knowledge in computational argument analysis. We explore ways to fill implicit knowledge gaps in arguments automatically by utilizing commonsense knowledge, in order to build bridges between argumentative sentences – with the ultimate goal of improving argument analysis.
Dieses Gespräch wurde am 6. Februar 2023 in den Räumlichkeiten des Marsilius-Kollegs der Universität Heidelberg aufgenommen. Es spiegelt den Austausch zwischen den beteiligten Wissenschaftlerinnen und Wissenschaftlern wider und gibt einen ersten Einblick in die Themen und Fragen, die in diesem Sammelband eine Rolle spielen. Das Gespräch wurde transkribiert und an denjenigen Stellen sprachlich überarbeitet, die es aus Gründen der Verständlich- und Lesbarkeit erforderten. Der mündliche, im Nachdenken begriffene Charakter des Gesprächs wurde gewahrt.
In diesem Beitrag beschäftigen wir uns mit moralisierenden Sprachhandlungen, worunter wir diskursstrategische Verfahren verstehen, in denen die Beschreibung von Streitfragen und erforderlichen Handlungen mit moralischen Begriffen enggeführt werden. Auf moralische Werte verweisendes Vokabular (wie beispielsweise „Freiheit“, „Sicherheit“ oder „Glaubwürdigkeit“) wird dabei verwendet, um eine Forderung durchzusetzen, die auf diese Weise unhintergehbar erscheint und keiner weiteren Begründung oder Rechtfertigung bedarf. Im Fokus unserer Betrachtungen steht dementsprechend das aus pragma-linguistischer Sicht auffällige Phänomen einer spezifischen Redepraxis der Letztbegründung oder Unhintergehbarkeit, die wir als Pragmem auffassen und beschreiben. Hierfür skizzieren wir zunächst den in der linguistischen Pragmatik verorteten Zugang zu Praktiken der Moralisierung, betrachten sprachliche Formen des Moralisierens und deren strukturelle Einbettung in den Satz oder den Text (also kotextuelle und pragmasyntaktischen Struktureinbettungen), um anschließend Hypothesen zu kontextuellen Wirkungsfunktionen aufzustellen. Darauf basierend leiten wir schließlich anhand von exemplarischen Korpusbelegen Strukturmuster des Moralisierens ab, die wir in dem philosophisch-linguistischen Fachterminus ‚Pragmem‘ verdichten und mittels qualitativer und quantitativer Analysen operationalisieren.
A constructicon, i.e., a structured inventory of constructions, essentially aims at documenting functions of lexical and grammatical constructions. Among other parameters, so-called constructional collo-profiles, as introduced by Herbst (2018, 2020), are conclusive for determining constructional meanings. They provide information on how relevant individual words are for construction slots, they hint at usage preferences of constructions and serve as a helpful indicator for semantic peculiarities of constructions. However, even though collo-profiles constitute an indispensable component of constructicon entries, they pose major challengers for constructicographers: For a constructicographic enterprise it is not feasible to conduct collostructional analyses for hundreds or even thousands of constructions. In this article, we introduce a procedure based on the large language model BERT that allows to predict collo-profiles without having to extensively annotate instances of constructions in a given corpus. Specifically, by discussing the constructions X macht Y ADJP (‘x makes Y ADJ’, e.g. he drives him crazy) and N1 PREP N1 (e.g., bumper to bumper, constructions over constructions), we show how the developed automated system generates collo-profiles based on a limited number of annotated instances. Finally, we place collo-profiles alongside other dimensions of constructional meanings included in the German Constructicon.