OPUS 4 | Search

Wohin damit? Storing and reusing my language data: Minute Madness der Datenzentren (2023)

Präsentiert beim Workshop "Wohin damit? Storing and reusing my language data" am 22. Juni 2023 in Mannheim. Die Präsentation wurde im Kontext der Arbeit des Vereins Nationale Forschungsdateninfrastruktur (NFDI) e.V. gehalten.

Korpora modular, verteilt, vernetzt in Text+ (2023)

Leinen, Peter ; Trippel, Thorsten ; Weimer, Lukas ; Witt, Andreas

Als Teil der NFDI vernetzt Text+ ortsverteilt verschiedenste Daten und Dienste für die geisteswissenschaftliche Forschung und stellt sie der wissenschaftlichen Gemeinschaft FAIR zur Verfügung. In diesem Beitrag beschreiben wir die Umsetzung beispielhaft im Bereich der Text+ Datendomäne Sammlungen anhand von Korpora, die in verschiedenen Disziplinen Verwendung finden. Die Infrastruktur ist auf Erweiterbarkeit ausgelegt, so dass auch weitere Ressourcen über Text+ verfügbar gemacht werden können. Enthalten ist auch ein Ausblick auf weitere zu erwartende Entwicklungen. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.

Eigen- und Fremdcharakterisierung literarischer Figuren untersucht mit Sentimentanalyse (2021)

Weimer, Lukas ; Brunner, Annelen

Darstellung erster Untersuchungsergebnisse zur Eigen- und Fremdcharakterisierung literarischer Figuren mit Sentimentanalyse auf der Konferenz vDHd 2021.

CLARIAH-DE work package 5 - community engagement: outreach/dissemination and liaison (2021)

Walker, Nathalie ; Werthmann, Antonina ; Trippel, Thorsten ; Buddenbohm, Stefan ; Weimer, Lukas ; Friedrichs, Sonja

This poster summarizes the results of the CLARIAH-DE Work Package 5 - Community Engagement: Outreach/Dissemination and Liaison. Work package 5 engages with the community through dissemination activities, outreach and liaison. The work package set itself the following sub goals: - Combining the existing dissemination and outreach activities of CLARIN-D and DARIAH-DE in a meaningful way and elaborating on them. In some cases this meant continuity, in other cases a new appearance for resources. - Providing a web portal as a gateway to the CLARIAH-DE project. - Creating a common identity and corporate identity and maintaining the established level of trust users already put into CLARIN-D and DARIAH-DE. - Providing a social media presence as well as a physical presence at workshops, conferences and other meetings in the Digital Humanities.

To BERT or not to BERT – Comparing contextual embeddings in a deep learning architecture for the automatic recognition of four types of speech, thought and writing representation (2020)

Brunner, Annelen ; Tu, Ngoc Duyen Tanja ; Weimer, Lukas ; Jannidis, Fotis

We present recognizers for four very different types of speech, thought and writing representation (STWR) for German texts. The implementation is based on deep learning with two different customized contextual embeddings, namely FLAIR embeddings and BERT embeddings. This paper gives an evaluation of our recognizers with a particular focus on the differences in performance we observed between those two embeddings. FLAIR performed best for direct STWR (F1=0.85), BERT for indirect (F1=0.76) and free indirect (F1=0.59) STWR. For reported STWR, the comparison was inconclusive, but BERT gave the best average results and best individual model (F1=0.60). Our best recognizers, our customized language embeddings and most of our test and training data are freely available and can be found via www.redewiedergabe.de or at github.com/redewiedergabe.

Redewiedergabe in Heftromanen und Hochliteratur (2020)

Brunner, Annelen ; Jannidis, Fotis ; Tu, Ngoc Duyen Tanja ; Weimer, Lukas

Die vorgestellte Studie untersucht die Anteile unterschiedlicher Redewiedergabeformen im Vergleich zwischen zwei Literaturtypen von gegensätzlichen Enden des Spektrums: Hochliteratur – definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen – und Heftromanen, massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden und früher abwertend als „Romane der Unterschicht” (Nusser 1981) bezeichnet wurden. Unsere These ist, dass sich diese Literaturtypen hinsichtlich ihrer Erzählweise unterscheiden, und sich dies in den verwendeten Wiedergabeformen niederschlägt. Der Fokus der Untersuchung liegt auf der Dichotomie zwischen direkter und nicht-direkter Wiedergabe, die schon in der klassischen Rhetorik aufgemacht wurde.

Annotationsrichtlinien des Projekts "Redewiedergabe. Eine literatur- und sprachwissenschaftliche Korpusanalyse" (2020)

Brunner, Annelen ; Weimer, Lukas ; Engelberg, Stefan ; Jannidis, Fotis ; Tu, Ngoc Duyen Tanja

Corpus REDEWIEDERGABE (2020)

Brunner, Annelen ; Engelberg, Stefan ; Jannidis, Fotis ; Tu, Ngoc Duyen Tanja ; Weimer, Lukas

This article presents the corpus REDEWIEDERGABE, a German-language historical corpus with detailed annotations for speech, thought and writing representation (ST&WR). With approximately 490,000 tokens, it is the largest resource of its kind. It can be used to answer literary and linguistic research questions and serve as training material for machine learning. This paper describes the composition of the corpus and the annotation structure, discusses some methodological decisions and gives basic statistics about the forms of ST&WR found in this corpus.

Das Redewiedergabe-Korpus. Eine neue Ressource (2019)

Brunner, Annelen ; Weimer, Lukas ; Tu, Ngoc Duyen Tanja ; Engelberg, Stefan ; Jannidis, Fotis

In diesem Beitrag wird das Redewiedergabe-Korpus (RW-Korpus) vorgestellt, ein historisches Korpus fiktionaler und nicht-fiktionaler Texte, das eine detaillierte manuelle Annotation mit Redewiedergabeformen enthält. Das Korpus entsteht im Rahmen eines laufenden DFG-Projekts und ist noch nicht endgültig abgeschlossen, jedoch ist für Frühjahr 2019 ein Beta-Release geplant, welches der Forschungsgemeinschaft zur Verfügung gestellt wird. Das endgültige Release soll im Frühjahr 2020 erfolgen. Das RW-Korpus stellt eine neuartige Ressource für die Redewiedergabe-Forschung dar, die in dieser Detailliertheit für das Deutsche bisher nicht verfügbar ist, und kann sowohl für quantitative linguistische und literaturwissenschaftliche Untersuchungen als auch als Trainingsmaterial für maschinelles Lernen dienen.

Was für Enthüllungen! heulte die wohlgekleidete respektable Menge – Eine korpus-linguistische Untersuchung zur lexikalischen Vielfalt von Redeeinleitern (2019)

Tu, Ngoc Duyen Tanja ; Engelberg, Stefan ; Weimer, Lukas

Person(s)
Title
Subject
Abstract
Fulltext
Year(s)

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

13 search hits