Computerlinguistik
Refine
Year of publication
Document Type
- Conference Proceeding (323)
- Part of a Book (132)
- Article (95)
- Book (27)
- Working Paper (17)
- Other (15)
- Report (13)
- Contribution to a Periodical (7)
- Doctoral Thesis (7)
- Preprint (5)
Language
- English (451)
- German (197)
- Multiple languages (2)
- French (1)
Keywords
- Computerlinguistik (221)
- Korpus <Linguistik> (181)
- Annotation (88)
- Deutsch (78)
- Automatische Sprachanalyse (72)
- Forschungsdaten (52)
- Natürliche Sprache (52)
- Gesprochene Sprache (43)
- Digital Humanities (42)
- XML (37)
Publicationstate
- Veröffentlichungsversion (404)
- Zweitveröffentlichung (116)
- Postprint (59)
- Preprint (2)
- (Verlags)-Lektorat (1)
- Erstveröffentlichung (1)
Reviewstate
Publisher
- Association for Computational Linguistics (43)
- European Language Resources Association (33)
- European Language Resources Association (ELRA) (31)
- de Gruyter (30)
- Springer (27)
- Institut für Deutsche Sprache (23)
- Zenodo (19)
- Linköping University Electronic Press (14)
- CLARIN (11)
- Narr (11)
Dieser Beitrag präsentiert eine Vorstudie, in der geprüft wird, ob sich die Open Source Generative Künstliche Intelligenz Llama-3-8B Q4_0 instruction-tuned dazu eignet, eine Sentimentanalyse durchzuführen. Für die Untersuchung wird ein kleiner Datensatz aus Anfragen zu geschlechtergerechten Schreibung genutzt. Die Qualität der automatischen Annotationen wird gemessen, indem das Inter-Annotator-Agreement zwischen Llama 3 und drei menschlichen Annotierenden berechnet wird. Eine qualitative Analyse der Begründungen von Llama 3 für vergebene Sentimentwerte, die von denen der manuellen Annotationen abweichen, zeigt, dass die Generative Künstliche Intelligenz dazu genutzt werden kann, Annotationsrichtlinien aufzustellen oder zu verfeinern. Allerdings kann die Vorstudie nicht zeigen, dass sich Llama 3 für eine Sentimentanalyse eignet.
In a recent study, Bromham, Yaxley and Cardillo (BYC) assembled an impressive database of 1,197 languages spoken across 13,100 islands to examine how predictions from island biogeography theory (IBT) apply to linguistic diversity and whether islands act as drivers of language change. I commend the authors for the significant effort in compiling such a truly global dataset of island languages, and for quantitatively demonstrating that islands hold a disproportionately greater share of the world’s languages than expected based on their land area. However, I here contend that the core model used to test the predictions of IBT and the hypothesis that islands shape language evolution is empirically implausible and plagued by several critical issues.
In this deliverable, partner institutions describe their established workflows for data ingest into their data repositories. As these repositories predate the attempts at creating a consolidated national research data infrastructure and the Text+ project in particular, the approaches and procedures vary to some degree.
From a cross-linguistic perspective, language models are interesting because they can be used as idealised language learners that learn to produce and process language by being trained on a corpus of linguistic input. In this paper, we train different language models, from simple statistical models to advanced neural networks, on a database of 41 multilingual text collections comprising a wide variety of text types, which together include nearly 3 billion words across more than 6,500 documents in over 2,000 languages. We use the trained models to estimate entropy rates, a complexity measure derived from information theory. To compare entropy rates across both models and languages, we develop a quantitative approach that combines machine learning with semiparametric spatial filtering methods to account for both language- and document-specific characteristics, as well as phylogenetic and geographical language relationships. We first establish that entropy rate distributions are highly consistent across different language models, suggesting that the choice of model may have minimal impact on cross-linguistic investigations. On the basis of a much broader range of language models than in previous studies, we confirm results showing systematic differences in entropy rates, i.e. text complexity, across languages. These results challenge the long-held notion that all languages are equally complex. We then show that higher entropy rate tends to co-occur with shorter text length, and argue that this inverse relationship between complexity and length implies a compensatory mechanism whereby increased complexity is offset by increased efficiency. Finally, we introduce a multi-model multilevel inference approach to show that this complexity-efficiency trade-off is partly influenced by the social environment in which languages are used: languages spoken by larger communities tend to have higher entropy rates while using fewer symbols to encode messages.
The CLARIN and DARIAH European research infrastructures have a long history of collaboration and cooperation. One recent joint initiative has been to strengthen and deepen collaboration with national and major research libraries, with a particular focus on ways to facilitate the wider use of the extensive and culturally important digital datasets curated by libraries as research data. In order to further this goal, a series of workshops has beeninitiated, and a Conference of European National Librarians (CENL) Dialogue Forum has been established. Ongoing collaborative work includes a survey of existing collaborations between libraries and research infrastructures, an investigation of the potential for the creation of unique language models from digital library collections and an exploration of emerging initiatives such as the common European Data Space for Cultural Heritage.
Der vorliegende Aufsatz stellt eine Sammlung von Briefen aus dem 16. Jahrhundert von und an den Zürcher Reformator Heinrich Bullinger vor. Von Bullingers Briefwechsel sind rund 12.000 Briefe erhalten, etwa ein Viertel davon ist in Frühneuhochdeutsch verfasst und stammt von mehr als 300 Personen. Im Rahmen des laufenden Projektes „Bullinger Digital“ werden die vorhandenen Wissensquellen zusammengetragen und digital aufbereitet sowie weitere Informationen erschlossen. Bereits entwickelt wurden eigene Verfahren zur Sprachidentifikation und Normalisierung, die im vorliegenden Aufsatz kurz vorgestellt werden. Mit der Sprachidentifikation werden zuverlässig alle frühneuhochdeutschen Sätze im Briefwechsel erkannt, die Normalisierung der frühneuhochdeutschen Wortformen erhöht die Benutzerfreundlichkeit des Korpus. Der Briefwechsel ist online durchsuchbar, die Speicherung
in TEI konformem XML ermöglicht dessen Weiternutzung.
Die webbasierte Forschungsdatenbank Lernertexte (FD-LEX) ist eine stetig wachsende Datenbank, die Textprodukte samt ausgewählter Meta- und Testdaten der Probandinnen und Probanden aus verschiedenen Schreibforschungsprojekten zur wissenschaftlichen Nachnutzung bereitstellt. Die Korpora umfassen mehrere tausend Texte auf Deutsch. Weitere Texte in den Sprachen Türkisch, Russisch, Englisch und Französisch folgen in den Jahren 2022 und 2023. In unserem Beitrag wird der Aufbau der Forschungsdatenbank FD-LEX samt bereits vorhandener Korpora und Recherchemöglichkeiten vorgestellt sowie kurz auf einige Aufnahmekriterien für Daten aus weiteren Forschungsprojekte eingegangen. Außerdem erfolgt ein kurzer Einblick in ein Wortschatzprojekt, welches die in FD-LEX enthaltenen Daten für eigene Zwecke nutzt.
In the present contribution, we describe the features of the CLARIN SIS (Standards Information System) that have been designed to assist data-deposition centres in CLARIN. We also show what is needed to go beyond the originally designated target, in order to provide service to sibling and descendant research infrastructures, of which DARIAH and Text+ are taken as examples.