Volltext-Downloads (blau) und Frontdoor-Views (grau)

Linguistisches Impact-Assessment: Maschinelle Prognose mit Realitätsabgleich im Projekt TextTransfer

  • Empirische Ansätze halten zunehmend Einzug in die Methodik und Herangehensweise geisteswissenschaftlicher Forschung. Die Sprachwissenschaften stützen sich zunehmend auf Forschungsdaten und Sprachmodelle, um ein digitales Bild natürlicher Sprachen zu erzeugen. Auf dieser Grundlage wird es möglich, entlang nutzerspezifischer Suchanfragen des distant reading automatisiert semantische Muster in Texten zu erkennen. Seit mithilfe solcher Modelle, etwa in Suchmaschinen, webbasierten Übersetzungs- oder Konversationstools, sprachliche Informationen maschinell in sinnhaften Zusammenhängen reproduziert werden können, sind die Implikationen sogenannter Künstlicher Intelligenz (KI) zu einem Thema im gesamtgesellschaftlichen Diskurs avanciert. Vielen Linguisten ist es deshalb ein Anliegen, ihre Erkenntnisse für neue Anwendungsfelder jenseits ihrer unmittelbaren disziplinären Umgebung zu öffnen und zu einer fundierten Debatte beizutragen. Dieser Feststellung gegenüber steht die Einsicht, dass Forschungsergebnisse aller Disziplinen zwar archiviert, aber mangels gezielter Interpretierbarkeit großer und komplexer Datenmengen häufig für diesen breiten Diskurs nicht genutzt werden. Ein nachweisbarer Impact bleibt aus. An dieser Schnittstelle erarbeitet das vom Bundesministerium für Bildung und Forschung (BMBF) finanzierte Projekt TextTransfer einen Ansatz, um per distant reading auf Art und Wahrscheinlichkeit eines gesellschaftlichen, wirtschaftlichen oder politischen Impacts textgebundenen Forschungswissens zu schließen. Zu diesem Zweck baut TextTransfer ein maschinelles Lernverfahren auf, das auf empirischem Erfahrungswissen zu Impacterfolgen von Forschungsprojekten fußt. Als wesentlicher Baustein dieses Erfahrungsgewinns gilt die Verifizierbarkeit der Lernergebnisse. Der vorliegende Artikel zeigt einen ersten Ansatz im Projekt, ein Sprachmodell in einem gesteuerten Lernverfahren mit belastbaren Lerndaten zu trainieren, um möglichst hohe Präzision im Impact-Assessment zu erreichen.
  • Empirical approaches are increasingly finding their way into the methodology of research in the humanities. Linguistics visibly relies on research data and language models to generate a digital image of natural languages. On this basis, it becomes possible to auto-matically recognize semantic patterns in texts along user-specific search queries via distant reading. Since such models, for example in search engines, web-based translators or conversation tools, can be used to reproduce linguistic information in meaningful con-texts, the implications of so-called artificial intelligence have become a topic of discourse in society as a whole. Many linguists are therefore concerned to open up their findings to new fields of application beyond their immediate disciplinary environment and to contribute to a well-founded debate. This statement is contrasted by the insight that research results of all disciplines are indeed archived, but due to the lack of targeted inter-pretability of large and complex data sets, they are frequently not used for this broad discourse. A demonstrable impact remains missing. At this interface, the TextTransfer project, funded by the German Federal Ministry of Education and Research, is developing an approach to use a language model to infer by distant reading the type and probability of a social, economic or political impact of text-bound research knowledge. To this end, TextTransfer is building a machine learning procedure based on empirical experiential knowledge. However, an essential component of this experiential learning is the verifiability of the learning results. This article shows a first approach in the project to train a language model in a supervised machine learning procedure with robust learning data in order to achieve the highest possible precision in impact assessment.

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Norman FiedlerGND, Christoph Köller, Jutta BoppGND, Felix Schneider
URN:urn:nbn:de:bsz:mh39-127010
DOI:https://doi.org/10.21248/idsopen.7.2024.15
ISBN:978-3-948831-67-7
ISSN:2749-9855
Series (Serial Number):IDSopen: Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache (7)
Publisher:IDS-Verlag
Place of publication:Mannheim
Editor:Norman Fiedler, Katrin Hein, Siegwalt Lindenfelser, Beata Trawiński
Document Type:Book
Language:German
Year of first Publication:2024
Date of Publication (online):2024/06/11
Publishing Institution:Leibniz-Institut für Deutsche Sprache (IDS)
Publicationstate:Veröffentlichungsversion
Reviewstate:(Verlags)-Lektorat
Tag:Artificial Intelligence; Distant Reading; Impact Assessment; Impact Indikator; Interviewstudie; Korpuslinguistik; Künstliche Intelligenz; Labelling; Machine Learning; Maschinelle Lernverfahren; PESTEL; Semantische Textanalyse; Supervised Learning; Text Mining; TextTransfer; Wissenstransfer
Artificial Intelligence; Corpus Linguistics; Distant Reading; Impact Assessment; Impact Indicator; Interview Study; Knowledge Transfer; Labelling; Machine Learning; PESTEL; Semantic Text Analysis; Supervised Learning; Text Mining; TextTransfer
GND Keyword:Empirie; Forschungsergebnis; Korpus <Linguistik>; Maschinelles Lernen; Ressourcen
Page Number:52
DDC classes:400 Sprache / 400 Sprache, Linguistik
Open Access?:ja
Leibniz-Classification:Sprache, Linguistik
Linguistics-Classification:Korpuslinguistik
Program areas:Digitale Sprachwissenschaft
Licence (German):License LogoCreative Commons - CC BY-SA - Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International