OPUS 4 | Search

Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus (2021)

Abadji, Julien ; Ortiz Suárez, Pedro Javier ; Romary, Laurent ; Sagot, Benoît

Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.

ELDIT (Elektronisches Lernerwörterbuch Deutsch - Italienisch) und elexiko : ein Vergleich (2008)

Abel, Andrea

Ziel des folgenden Beitrags ist eine vergleichende Gegenüberstellung der elektronischen Wörterbücher ELDIT („Elektronisches Lernerwörterbuch Deutsch-Italienisch“) und elexiko. Im Mittelpunkt der Darstellung stehen ein allgemeiner Überblick und die Beschreibungen der beiden Benutzerschnittstellen mit entsprechenden Hintergrundinformationen sowie ein technischer Vergleich der beiden Systeme in tabellarischer Form. Die Synopse zeigt, dass beide Wörterbücher einerseits eine Reihe von Gemeinsamkeiten aufweisen, die unter anderem in der modularen Struktur und im Zugang zu einzelnen Angabeklassen, aber auch in den eingesetzten Technologien und der Hypermedianutzung bestehen, andererseits unterscheiden sie sich wesentlich voneinander. Aus den möglichen Konstellationen verschiedener Parameter (Adressat, Fachgebiet, Zweck/Benutzungssituation, Medium) ergeben sich nämlich jeweils spezifische Anforderungen, die eine differenzierte Ausgestaltung nicht nur dieser, sondern ein- oder mehrsprachiger Benutzerschnittstellen im Allgemeinen auf mehreren Ebenen nötig machen.

Wörterbücher der Zukunft in Bildungskontexten der Gegenwart. Eine Fallstudie aus dem Südtiroler Schulwesen (2022)

Abel, Andrea

The focus of this paper will be on lexical information systems and the framework guidelines for the definition of the curricula within the educational system of the Autonomous Province of Bolzano/ Bozen (Italy). In Italy, the competences to be achieved at different school levels are published in the form of general guidelines. On this basis each school has to specify the general competency goals and to spell them out in a concrete curriculum. In this paper I will examine to what extent lexical information systems are represented in the framework guidelines within the German and the Italian educational system of the Autonomous Province, these being separate systems. In a second step, I will check the representations of the resources against the “Villa Vigoni Theses on Lexicography“. Finally, I will discuss the results and give an outlook for further research.

Wie misst man Textqualität im digitalen Zeitalter? (MIT.Qualität) (2019)

Abel, Andrea ; Frey, Jennifer-Carmen ; Glaznieks, Aivars ; Linthe, Maja ; Müller-Spitzer, Carolin ; Storrer, Angelika ; Wolfer, Sascha

Textqualität in Sozialen Medien (2020)

Abel, Andrea ; Glaznieks, Aivars

Wie wirkt sich das Schreiben kürzerer Texte in interaktionsorienterter Online-Kommunikation langfristig auf das Schreiben und die Qualität monologischer Texte aus? Auf diese Frage geht der Beitrag ein und präsentiert dazu empirische Daten aus einer Korpus-Vergleichsstudie, in der die Verwendung ausgewählter Konnektoren in einem Facebook-Korpus quantitativ und qualitativ analysiert und mit der Verwendung in dialogischen Texten von Wikipedia-Diskussionsseiten einerseits und in monologischen Texten wie Zeitungskommentaren und Schulertexten anderseits verglichen wurde. Die Analysen fokussieren darauf, wie Konnektoren in Online-Texten eingesetzt werden, ob sich spezifische Online-Verwendungen etablieren und ob „Spuren“ typischer Online-Verwendungen auch in normgebundener Umgebung nachweisbar sind.

Kohärenz digital: Zum Konnektorengebrauch in der Online-Kommunikation und dessen Repräsentation in Sprachressourcen (2020)

Abel, Andrea ; Glaznieks, Aivars

Heute wird mehr geschrieben als je zuvor und die digitale Kommunikation trägt wesentlich dazu bei; ein großer Teil des heutigen Schreibens ist dialogisches Schreiben im Alltag. Konsequenterweise wird die Online-Kommunikation zunehmend Thema in Bildungskontexten und in der Deutschdidaktik. Offen ist aber weiterhin, wie Texte des interaktionsorientierten Schreibens bewertet werden sollen, die sich von solchen des textorientierten Schreibens in vielerlei Hinsicht unterscheiden können. Während es für textorientiertes Schreiben Normen gibt, die in Sprachkodizes erfasst sind, ist es nicht klar, was der Bezugspunkt für interaktionsorientierte Texte sein könnte. In diesem Beitrag analysieren wir die Verwendung von Konnektoren in der Online-Kommunikation und die Repräsentation von online-spezifischen Besonderheiten in Sprachressourcen. Die Ergebnisse zeigen, dass spezifische Online-Verwendungsweisen von Konnektoren in Sprachkodizes kaum berücksichtigt und beschrieben werden.

Einführung in das Themenheft „Textqualität im digitalen Zeitalter“ (2020)

Abel, Andrea ; Glaznieks, Aivars ; Müller-Spitzer, Carolin ; Storrer, Angelika

Das Kommunizieren in Sozialen Medien und der Umgang mit Hypertexten ist im Jahr 2020 kein Randphänomen mehr. Die sprachlichen Besonderheiten internetbasierter Kommunikation und Sozialer Medien sind mittlerweile auch gut erforscht und beschrieben, allerdings werden diese bislang in deutschen Grammatiken, mit Ausnahme von Hoffmann (2014), allenfalls am Rande behandelt. Selbst neuere Ansätze zur Textanalyse, z. B. Ágel (2017), konzentrieren sich auf gestaltstabile, linear organisierte Schrifttexte. Dasselbe gilt für Ansätze, die primär für die Bewertung von Schreibprodukten in Bildungskontexten entwickelt wurden.

Einleitung: “Ihr Beitrag bitte! – Der Nutzerbeitrag im Wörterbuchprozess”. (2014)

Abel, Andrea ; Klosa, Annette

Der lexikographische Arbeitsplatz - Theorie und Praxis (2012)

Abel, Andrea ; Klosa, Annette

The changes caused by the growing automatisation of processes in the lexicographer´s workstation and in lexicographic work, together with the ensuing needs of lexicographers and their demands for adequately targeted software, have not been discussed sufficiently in meta-lexicographic research. The aim of this paper is therefore to fill this gap, with a focus on academic non-commercial lexicography. After an introduction into the general functionalities of specific dictionary writing software, with the help of a real-life example we will discuss the lexicographic working environment, the new specific demands to lexicographic software as well as different tools. The final aim is to propose some recommendations for how to structure the lexicographic working environment to meet specific project requirements.

Kann man das Texten von Popsongs lernen und lehren? Und wenn ja, wozu? (2014)

Abou-Dakn, Masen

Der "ethische" Dativ (1971)

Abraham, Werner

Wortstellung im Deutschen - theoretische Rechtfertigung, empirische Begründung (1992)

Abraham, Werner

Faszination der kontrastiven Linguistik 'DaF': der Parameter 'schwere/leichte' Sprache unter typologischer Sicht (2003)

Abraham, Werner

Zur Linguistik der Metapher (1975)

Abraham, Werner

Personalpronomina, Klitiktypologie und die Struktur des Mittelfeldes (1996)

Abraham, Werner

Personalpronomina und ihre reduzierten und klitischen Formen stehen an markanten Satzpositionen, die sich von der Position der koreferenten vollen Nomina grundsätzlich unterscheiden. Sie erscheinen allerdings in manchen Sprachen verbbezogen als Enklitika, in anderen als Proklitika. Es wird zuerst erwogen，diese enklitische bzw. proklitische Position von der grundlegenden Linearitätstypologie im greenbergschen Sinne (SVO und SOV/VSO) abhängig zu machen. Wiewohl prinzipiell richtig zwingen klitische Pronomina im Skandinavischen sowie die Klitikstellung in Nichtdeklarativen zur Annahme，nach der ersten (rechtesten) thematischen Diskursposition im strukturellen Satzschema als Ort für die schwachen Pronominalformen zu suchen. Diese Annahme erscheint für eine Reihe von nichtverwandten Sprachen als haltbar. Im Blickpunkt stehen Sprachen aus den drei greenbergschen Haupttypen: SVO als V-mittelständigen Sprachen sowie SOV/VSO als V-randständige Sprachen. Je nachdem wie nichtdeklarative Satze sich aus den zugrundegelegten Strukturen ableiten, erreicht das pronominale Klitikum eine enklitische oder eine postklitische Position，die sich dadurch auszeichnet，daß sie die rechteste diskursfunktionale Themaposition ist. Diese Einsicht macht die strukturelle Verschiebung der schwachen Pronomina systematisch ableit- und voraussagbar.

Erziehung zum Schreiben im Unterricht (1983)

Acker, Detlev

Gehören nun die Männer an den Herd? Anmerkungen zum Wandel der Rollenbilder von Mann und Frau (2015)

Ackermann, Fabian

Kontrastive Analyse von Gliederungsprinzipien in argumentativen schriftlichen Texten im Deutschen und Japanischen : am Beispiel der Textsorte Leitartikel / Kommentare (2006)

Adachi-Bähr, Satomi

In der vorliegenden Arbeit werden die Gliederungsprinzipien von schriftlichen argumentativen Texten im Deutschen und Japanischen am Beispiel der Textsorte „Leitartikel/Kommentare“ aus sprechakttheoretischer Sicht kontrastiert. Ziel der Untersuchung ist, die Gliederungsmittel zwischen satzübergreifenden Einheiten und die Verknüpfungsmittel innerhalb der Einheit in argumentativen Texten zu beschreiben. Dabei soll herausgearbeitet werden, wie ein argumentativer Text genau strukturiert ist und welche Funktionen die einzelnen satzübergreifenden Einheiten bzw. die Textkonstituenten haben. Die Untersuchung soll schließlich zur Erhellung des Zusammenhangs zwischen der Argumentationsstruktur und dem Textaufbau bzw. den Gliederungsprinzipien in deutschen und japanischen Leitartikeln/Kommentaren führen.

„Ich habe gar nicht gewusst, dass der Bündnerdialekt so unterschiedlich sein kann“. Eine perzeptionslinguistische Untersuchung der Orte Chur, Trin und Trun an der deutsch-romanischen Sprachgrenze (2020)

Adam-Graf, Noemi ; Hasse, Anja

Die sprachliche Situation im Kanton Graubünden, wo eine Vielzahl von italienischen, romanischen und deutschen Varietäten in lang andauerndem Kontakt stehen, ist bisher nur wenig beschrieben, eine wahrnehmungslinguistische Untersuchung steht noch ganz aus. Ausgehend von der Annahme, dass Salienz abhängig vom eigenen sprachlichen System und vom Sprecherwissen ist, wurde ein Experiment konzipiert, bei dem Hörer aus Graubünden und Zürich Aufnahmen aus drei Bündner Orten, in denen Rätoromanisch und Deutsch in unterschiedlichen Kontaktverhältnissen stehen, hören und kommentieren sollten. Dabei konnte gezeigt werden, dass Bündner aufgrund ihres Sprecherwissens über die Variation in Graubünden andere Merkmale wahrgenommen und die Aufnahmen anders charakterisiert haben als Zürcher.

Heiko Hausendorf, Reinhold Schmitt & Wolfgang Kesselheim (Hg.). 2016. Interaktionsarchitektur, Sozialtopographie und Interaktionsraum (Studien zur deutschen Sprache 72). Tübingen: Narr/Francke/Attempto. 448 S. [Rezension] (2017)

Adamzik, Kirsten

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

10107 search hits