OPUS 4 | Search

Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus (2021)

Abadji, Julien ; Ortiz Suárez, Pedro Javier ; Romary, Laurent ; Sagot, Benoît

Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.

Wörterbücher der Zukunft in Bildungskontexten der Gegenwart. Eine Fallstudie aus dem Südtiroler Schulwesen (2022)

Abel, Andrea

The focus of this paper will be on lexical information systems and the framework guidelines for the definition of the curricula within the educational system of the Autonomous Province of Bolzano/ Bozen (Italy). In Italy, the competences to be achieved at different school levels are published in the form of general guidelines. On this basis each school has to specify the general competency goals and to spell them out in a concrete curriculum. In this paper I will examine to what extent lexical information systems are represented in the framework guidelines within the German and the Italian educational system of the Autonomous Province, these being separate systems. In a second step, I will check the representations of the resources against the “Villa Vigoni Theses on Lexicography“. Finally, I will discuss the results and give an outlook for further research.

Kohärenz digital: Zum Konnektorengebrauch in der Online-Kommunikation und dessen Repräsentation in Sprachressourcen (2020)

Abel, Andrea ; Glaznieks, Aivars

Heute wird mehr geschrieben als je zuvor und die digitale Kommunikation trägt wesentlich dazu bei; ein großer Teil des heutigen Schreibens ist dialogisches Schreiben im Alltag. Konsequenterweise wird die Online-Kommunikation zunehmend Thema in Bildungskontexten und in der Deutschdidaktik. Offen ist aber weiterhin, wie Texte des interaktionsorientierten Schreibens bewertet werden sollen, die sich von solchen des textorientierten Schreibens in vielerlei Hinsicht unterscheiden können. Während es für textorientiertes Schreiben Normen gibt, die in Sprachkodizes erfasst sind, ist es nicht klar, was der Bezugspunkt für interaktionsorientierte Texte sein könnte. In diesem Beitrag analysieren wir die Verwendung von Konnektoren in der Online-Kommunikation und die Repräsentation von online-spezifischen Besonderheiten in Sprachressourcen. Die Ergebnisse zeigen, dass spezifische Online-Verwendungsweisen von Konnektoren in Sprachkodizes kaum berücksichtigt und beschrieben werden.

Einführung in das Themenheft „Textqualität im digitalen Zeitalter“ (2020)

Abel, Andrea ; Glaznieks, Aivars ; Müller-Spitzer, Carolin ; Storrer, Angelika

Das Kommunizieren in Sozialen Medien und der Umgang mit Hypertexten ist im Jahr 2020 kein Randphänomen mehr. Die sprachlichen Besonderheiten internetbasierter Kommunikation und Sozialer Medien sind mittlerweile auch gut erforscht und beschrieben, allerdings werden diese bislang in deutschen Grammatiken, mit Ausnahme von Hoffmann (2014), allenfalls am Rande behandelt. Selbst neuere Ansätze zur Textanalyse, z. B. Ágel (2017), konzentrieren sich auf gestaltstabile, linear organisierte Schrifttexte. Dasselbe gilt für Ansätze, die primär für die Bewertung von Schreibprodukten in Bildungskontexten entwickelt wurden.

Wortstellung im Deutschen - theoretische Rechtfertigung, empirische Begründung (1992)

Abraham, Werner

Gehören nun die Männer an den Herd? Anmerkungen zum Wandel der Rollenbilder von Mann und Frau (2015)

Ackermann, Fabian

Heiko Hausendorf, Reinhold Schmitt & Wolfgang Kesselheim (Hg.). 2016. Interaktionsarchitektur, Sozialtopographie und Interaktionsraum (Studien zur deutschen Sprache 72). Tübingen: Narr/Francke/Attempto. 448 S. [Rezension] (2017)

Adamzik, Kirsten

Spanish neologisms during the COVID-19 pandemic: changing criteria for their inclusion and representation in dictionaries (2022)

Adelstein, Andreína ; de los Ángeles Boschiroli, Victoria

The aim of this work is to describe criteria used in the process of inclusion and treatment of neologisms in dictionaries of Spanish within the framework of pandemic instability. Our starting point will be data obtained by the Antenas Neológicas Network (https://www.upf.edu/web/antenas), whose representation in three different lexicographic tools will be analyzed with the purpose of identifying problems in the methodology used to dictionarize – that is, how and what words were selected to be included in dictionaries and how they were represented in their entries – neologisms during the COVID-19 pandemic (sources and corpora of analysis, selection criteria, types of definition, among other aspects). Two of them are monolingual and COVID-19 lexical units were included as part of their updates: the Antenario, a dictionary of neologisms of Spanish varieties, and the Diccionario de la Lengua Española [DLE], a dictionary of general Spanish, published by the Real Academia Española [RAE], Spanish Royal Academy). The other is a bilingual unidirectional English-Spanish dictionary first published as a glossary, Diccionario de COVID-19 EN-ES [TREMEDICA], entirely made up of neological and non-neological lexical units related to the virus and the pandemic. Thus, the target lexis was either included in existing works or makes up the whole of a new tool located in a portal together with other lexicographic tools. Unlike other collections of COVID-19 vocabulary that kept cropping up as the pandemic unfolded, all three have been designed and written according to well-established lexicographic practices. Our working hypothesis is that the need to record and define words which were recently created impacts the criteria for inclusion and treatment of neologisms in dictionaries about Spanish, including a certain degree of overlap of some features which are traditionally thought to be specific to each type of dictionary.

Counting languages: how to do it and what to avoid. A German perspective (2020)

Adler, Astrid

The annual microcensus provides Germany’s most important official statistics. Unlike a census it does not cover the whole population, but a representative 1%-sample of it. In 2017, the German microcensus asked a question on the language of the population, i.e. ‘Which language is mainly spoken in your household?’ Unfortunately, the question, its design and its position within the whole microcensus’ questionnaire feature several shortcomings. The main shortcoming is that multilingual repertoires cannot be captured by it. Recommendations for the improvement of the microcensus’ language question: first and foremost the question (i.e. its wording, design, and answer options) should make it possible to count multilingual repertoires.

Language, or dialect, that is the question. How attitudes affect language statistics using the example of Low German (2021)

Adler, Astrid

This paper explores how attitudes affect the seemingly objective process of counting speakers of varieties using the example of Low German, Germany’s sole regional language. The initial focus is on the basic taxonomy of classifying a variety as a language or a dialect. Three representative surveys then provide data for the analysis: the Germany Survey 2008, the Northern Germany Survey 2016, and the Germany Survey 2017. The results of these surveys indicate that there is no consensus concerning the evaluation of Low German’s status and that attitudes towards Low German are related to, for example, proficiency in the language. These attitudes are shown to matter when counting speakers of Low German and investigating the status it has been accorded.

Germany's micro census of 2017: The return of the language question (2018)

Adler, Astrid

Die Frage zur Sprache der Bevölkerung im deutschen Mikrozensus 2017 (2018)

Adler, Astrid

2017 gibt es im deutschen Mikrozensus zum ersten Mal seit etwa achtzig Jahren eine Frage zur Sprache der Bevölkerung in Deutschland. Diese Frage wird dann offenbar im entsprechenden Rhythmus des Mikrozensus jährlich wiederholt werden. Der Mikrozensus ist eine seit 1957 durchgeführte, repräsentative Befragung, bei der ungefähr 830.000 Menschen (das sind ca. 1 % der Bevölkerung) in rund 370.000 Haushalten befragt werden.1 Darin werden etwa Angaben zu den soziodemographischen Daten erfragt, zur familiären Situation, zur Wohnsituation, zur Aus- und Fortbildung und zur Arbeitssituation. Für die befragten Personen besteht Auskunftspflicht. Das Stellen einer Sprachfrage sieht, aus sprachwissenschaftlicher Sicht, zunächst nach einem sinnvollen und wünschenswerten Schritt aus. Nach näherer Betrachtung der gestellten Frage zeigen sich jedoch viele Unzulänglichkeiten und das, obwohl die Antworten und statistischen Auswertungen zu dieser Frage überhaupt noch ausstehen. Die Ergebnisse werden üblicherweise in der zweiten Hälfte des Folgejahres durch das statistische Bundesamt veröffentlicht.

Die Erhebung von Sprachen im deutschen Mikrozensus. Amtliche Statistiken über Sprachen in Deutschland: Folge 1 (2023)

Adler, Astrid

The current status and use of Low German. Initial results of a representative study (2018)

Adler, Astrid ; Ehlers, Christiane ; Goltz, Reinhard ; Kleene, Andrea ; Plewnia, Albrecht

Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung (2016)

Adler, Astrid ; Ehlers, Christiane ; Goltz, Reinhard ; Kleene, Andrea ; Plewnia, Albrecht

Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache? Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.

Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung (2016)

Adler, Astrid ; Ehlers, Christiane ; Goltz, Reinhard ; Kleene, Andrea ; Plewnia, Albrecht

Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache? Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.

The current status and use of Low German. Initial results of a representative study (2018)

Adler, Astrid ; Ehlers, Christiane ; Goltz, Reinhard ; Kleene, Andrea ; Plewnia, Albrecht

Who understands Low German today and who can speak it? Who makes use of media and cultural events in Low German? What images do people in northern Germany associate with Low German and what is their view of their regional language? These and further questions are answered in this brochure with the help of representative data collected in a telephone survey of a total of 1,632 people from eight federal states (Bremen, Hamburg, Lower Saxony, Mecklenburg-West Pomerania and Schleswig-Holstein as well as Brandenburg, North Rhine-Westphalia and Saxony-Anhalt).

Dialekt und Beruf: neue Daten zu Dialekten in Deutschland. Sprache in Zahlen: Folge 7 (2022)

Adler, Astrid ; Hansen, Karolina

Dialekt und regionale Färbung im beruflichen Umfeld. Sprache in Zahlen: Folge 8 (2022)

Adler, Astrid ; Hansen, Karolina

Rettung - Pleite - Griechenland. Wortschatzstatistik in Zeiten der Finanzkrise (2017)

Adler, Astrid ; Perkuhn, Rainer ; Plewnia, Albrecht

Möglichkeiten und Grenzen der quantitativen Spracheinstellungsforschung (2018)

Adler, Astrid ; Plewnia, Albrecht

Sprecher haben (oft unbewusste) Meinungen und Einstellungen zu Sprachen und Varietäten. Ein Weg, solche Spracheinstellungen zu erfassen, führt über quantitative Verfahren (Fragebogen mit offenen und geschlossenen Fragen), mit denen man Daten großer Gruppen – im Idealfall repräsentativ – erheben kann. Im Beitrag werden solche Erhebungen, die am Institut für Deutsche Sprache durchgeführt wurden, vorgestellt, und es werden zwei Instrumente der Spracheinstellungsforschung, die dabei zum Einsatz kamen, naher erläutert: das Allgemeine Sprachbewertungsinstrument (ASBI) und die Attitudes-Towards-Languages-Skala (AToL). Außerdem wird gezeigt, wie dialektometrische Auswertungs- und Visualisierungsverfahren auf Einstellungsdaten angewendet werden können.

Was denken linguistische Laien über Sprache? Ergebnisse einer aktuellen Repräsentativerhebung zu Spracheinstellungen in Deutschland (2021)

Adler, Astrid ; Plewnia, Albrecht

Öffentliche Sprachdiskurse, wie sie beispielsweise in den Medien stattfinden, werden typischerweise aus einer sprachkritischen Haltung heraus geführt. Inwieweit diese veröffentlichte Meinung tatsächlich die Mehrheitsmeinung der Sprecherinnen und Sprecher widerspiegelt, ist durchaus eine offene Frage. In diesem Beitrag berichten wir aus einer rezenten Erhebung über Spracheinstellungen in Deutschland. Wir zeigen, dass die Art der Frageformulierung einen starken Einfluss auf die Ergebnisse hat, und berichten, welche sprachlichen Veränderungen die Befragten in jüngerer Zeit angeben, wahrgenommen zu haben.

Dialekt und Hochdeutsch im Beruf. Sprache in Zahlen: Folge 9 (2023)

Adler, Astrid ; Ribeiro Silveira, Maria

Spracheinstellungen in Deutschland - Was die Menschen in Deutschland über Sprache denken (2020)

Adler, Astrid ; Ribeiro Silveira, Maria

Welche Dialekte werden in Deutschland gesprochen? Sprache in Zahlen: Folge 2 (2021)

Adler, Astrid ; Ribeiro Silveira, Maria

Welche Fremdsprachen werden in Deutschland gesprochen? Sprache in Zahlen: Folge 6 (2022)

Adler, Astrid ; Ribeiro Silveira, Maria

Welche Dialekte werden in der Familie weitergegeben? Sprache in Zahlen: Folge 3 (2021)

Adler, Astrid ; Ribeiro Silveira, Maria

Einstellungen zu Sprachen und mehrsprachigen Kindergärten. Sprache in Zahlen: Folge 5 (2021)

Adler, Astrid ; Ribeiro Silveira, Maria

Welche Sprachen werden in Deutschland gesprochen? Sprache in Zahlen: Folge 4 (2021)

Adler, Astrid ; Ribeiro Silveira, Maria

Warum wir so wenig über die Sprachen in Deutschland wissen. Spracheinstellungen als Erkenntnisbarriere (2021)

Adler, Astrid ; Ribeiro Silveira, Maria

Bislang gibt es keine akkuraten, repräsentativen Statistiken dazu, welche Sprachen in Deutschland gesprochen werden. Zwar wird in verschiedenen Erhebungen nach Muttersprachen oder nach zuhause gesprochenen Sprachen gefragt; aufgrund einiger Mängel im Erhebungsdesign bilden die Ergebnisse der vorliegenden Erhebungen jedoch die sprachliche Realität der in Deutschland lebenden Bevölkerung nicht angemessen ab. Im Beitrag wird anhand von drei Erhebungen gezeigt, dass bereits die Instrumente zur Erhebung von Sprache von Spracheinstellungen geprägt sind und dass dadurch die Gültigkeit der Ergebnisse stark eingeschränkt wird. Diese Mängel gelten für Sprachstatistiken im Hinblick auf die gesamte Bevölkerung Deutschlands – Kinder und Jugendliche eingeschlossen.

Eine neue IDS-Erhebung zu Spracheinstellungen: Die Deutschland-Erhebung 2022. Sprache in Zahlen: Folge 10 (2023)

Adler, Astrid ; Roessel, Janin

Das Leibniz-Institut für Deutsche Sprache (IDS) führt seit den 1990er Jahren regelmäßig Repräsentativerhebungen zu sprachlichen Fragen durch. Über die letzten Umfragen, die Deutschland-Erhebung 2017 und die Erhebung Dialekt und Beruf 2019, wurde bereits in dieser Reihe berichtet. Informationen über die Deutschland-Erhebung 2017 finden sich in Folge 1 bis 6 dieser Reihe. In den Folgen 7 bis 9 wurden Ergebnisse der Erhebung Dialekt und Beruf 2019 vorgestellt. Im Winter 2022 hat das IDS eine neue Repräsentativumfrage durchgeführt: die Deutschland-Erhebung 2022. Darin wurden Einstellungen zum Deutschen und anderen Sprachen sowie die Wahrnehmung von sprachlichen Veränderungen erfasst. In dieser Folge 10 werden die Erhebung und erste Ergebnisse vorgestellt

Welche Veränderungen fallen Menschen in der deutschen Sprache auf? Sprache in Zahlen: Folge 11 (2023)

Adler, Astrid ; Roessel, Janin

Welche Sprachen finden Menschen in Deutschland sympathisch? Sprache in Zahlen: Folge 12 (2024)

Adler, Astrid ; Roessel, Janin

Funktionale Spracherklärung. Bemerkungen zu einem neuen Ansatz in der Sprachwissenschaft (1977)

Adlung, Gerd ; Brünner, Gisela ; Fiehler, Reinhard ; Schlie, Dirk

Dieser Aufsatz behandelt einige offene Fragen des funktionalistischen Ansatzes. Im 1. Abschnitt wird die von Kanngießer postulierte Matrix des funktionalistischen Ansatzes (F-Matrix) - speziell hinsichtlich ihres Erklärungsbegriffs - dargestellt. Im Abschnitt 2.1 wird gegen die Auffassung argumentiert, daß die F-Matrix über einen - methodologisch gesehen - eigenständigen Erklärungstyp verfügt. In 2.2 wird zudem gezeigt, daß es nicht sinnvoll ist, für funktionale Spracherklärungen ein funktionalistisches Erklärungsschema - wie z.B. Stegmüller (1969) es expliziert - in Anspruch zu nehmen. Im Rahmen der Argumentation in diesem 2. Abschnitt wird die Auffassung der Verfasser herausgearbeitet, daß das Spezifische des funktionalistischen Ansatzes nicht in einem eigenständigen Erklärungstyp, sondern in besonderen Gesetzen besteht. Definierend für die F-Matrix ist die Hypothese der Sprachfunktionalität bzw. eine Klasse (noch zu findender) Gesetze, die Zusammenhänge zwischen bestimmten Gesellschaftsstrukturen und spezifischen Kommunikationsbedürfnissen bzw. zwischen bestimmten Kommunikationsbedürfnissen und spezifischen Sprachsachverhalten beschreiben. Die Hypothese der Sprachfunktionalität fungiert dabei als forschungsleitende Orientierungshypothese, indem sie die Menge der möglichen Füllungen der wenn- und dann-Komponenten von Gesetzen restringiert. Abschnitt 3 zeigt die Notwendigkeit der Präzisierung, Operationalisierung und empirischen Prüfung der Hypothese der Sprachfunktionalität und diskutiert Möglichkeiten, wie dies geschehen kann. Abschnitt 4 problematisiert die Hypothese der Sprachfunktionalität in Hinsicht auf die Möglichkeit der Erklärung von Sprachentwicklung, indem der Zusammenhang von Kommunikationsbedürfnissen und Sprachsachverhalten thematisiert wird. Abschließend werden im 5. Abschnitt einige Theoriebildungen der Sprachwissenschaft, die mit dem funktionalistischen Ansatz affin sind, diskutiert, und es wird dargelegt, in welcher Hinsicht die F-Matrix ein sinnvolles Forschungsprogramm ist.

Vom Objekt zur Interaktion und zurück. Eine Diskussion mit Madeleine Akrich, Antoine Hennion und Vololona Rabeharisoa (Centre de Sociologie de l’Innovation, Paris) – moderiert durch Lorenza Mondada (2004)

Akrich, Madeleine

Das Centre de Sociologie de l’Innovation (CSI) der Ecole des Mines in Paris ist eine Hochburg der Wissenschaftssoziologie, an der die Arbeiten von Bruno Latour und Michel Callon erstellt wurden. Deren Untersuchungen haben eine Reihe von Analysen der wissenschaftlichen Praktiken ausgelöst, die manchmal – vor allem in der angelsächsischen Literatur – unter dem Begriff „Actor-Network-Theory“ (ANT) zusammengefasst werden. Dieser fundamentale Beitrag zur Wissenschaftssoziologie zeichnet sich aus durch eine gesteigerte Aufmerksamkeit sowohl gegenüber den Praktiken der Wissenschaftler, der „science in action“, den Objekten, den Artefakten und den technischen Vorrichtungen als auch gegenüber den Netzwerken, in denen sich Menschen und Nicht-Menschen zusammenfügen und im Umlauf sind. Eine Gruppe von Forschern des CSI, Madeleine Akrich, Antoine Hennion und Vololona Rabeharisoa, hat freundlicherweise eingewilligt, im folgenden Text sehr frei über die Thematik des vorliegenden ZBBS-Heftes und über die Art und Weise zu diskutieren, in der sie sich in ihren Forschungsfeldern und in ihren Arbeiten gegenüber den Fragen positionieren, die durch die Berücksichtigung der sozialen Interaktionen in wissenschaftlichen Arbeitsvollzügen aufgeworfen werden.

Zwergentechnologie, Alphamädchen, zurückleaken. Verdeckte neue Wörter des Neologismenwörterbuchs besser zugänglich machen (2013)

al-Wadi, Doris

Neuer Wortschatz. Neologismen im Deutschen seit den 90er Jahren (2006)

al-Wadi, Doris

Speed-accuracy tradeoffs in brain and behavior: testing the independence of P300 and N400 related processes in behavioral responses to sentence categorization (2019)

Alday, Phillip M. ; Kretzschmar, Franziska

Although the N400 was originally discovered in a paradigm designed to elicit a P300 (Kutas and Hillyard, 1980), its relationship with the P300 and how both overlapping event-related potentials (ERPs) determine behavioral profiles is still elusive. Here we conducted an ERP (N = 20) and a multiple-response speed-accuracy tradeoff (SAT) experiment (N = 16) on distinct participant samples using an antonym paradigm (The opposite of black is white/nice/yellow with acceptability judgment). We hypothesized that SAT profiles incorporate processes of task-related decision-making (P300) and stimulus-related expectation violation (N400). We replicated previous ERP results (Roehm et al., 2007): in the correct condition (white), the expected target elicits a P300, while both expectation violations engender an N400 [reduced for related (yellow) vs. unrelated targets (nice)]. Using multivariate Bayesian mixed-effects models, we modeled the P300 and N400 responses simultaneously and found that correlation between residuals and subject-level random effects of each response window was minimal, suggesting that the components are largely independent. For the SAT data, we found that antonyms and unrelated targets had a similar slope (rate of increase in accuracy over time) and an asymptote at ceiling, while related targets showed both a lower slope and a lower asymptote, reaching only approximately 80% accuracy. Using a GLMM-based approach (Davidson and Martin, 2013), we modeled these dynamics using response time and condition as predictors. Replacing the predictor for condition with the averaged P300 and N400 amplitudes from the ERP experiment, we achieved identical model performance. We then examined the piecewise contribution of the P300 and N400 amplitudes with partial effects (see Hohenstein and Kliegl, 2015). Unsurprisingly, the P300 amplitude was the strongest contributor to the SAT-curve in the antonym condition and the N400 was the strongest contributor in the unrelated condition. In brief, this is the first demonstration of how overlapping ERP responses in one sample of participants predict behavioral SAT profiles of another sample. The P300 and N400 reflect two independent but interacting processes and the competition between these processes is reflected differently in behavioral parameters of speed and accuracy.

Bien écrire, bien parler au XIXe siècle. Le rôle du dictionnaire dans l’apprentissage de la langue maternelle: Le cas du roumain (2022)

Aldea, Maria

In this paper, the author studies the role of the dictionary in the first language acquisition, highlighting its didactic value. Based on two Romanian lexicographical works of the 19th century, Lexiconul de la Buda (Buda, 1825) [the Lexicon of Buda] et Vocabularu romano-francesu (Bucarest, 1870) [the Romanian-French Vocabulary], the author analyses the normative information recorded in the articles in order to observe which level of language (i. e. phonetical, morphological, syntactical and lexical) is concerned. Such an approach allows to distinguish between the possible changings both at the level of the perception or at the grammatical, lexical and semantical description, i. e. the settlement of the word in the first language, and at a technical level, i. e. the making of article and of dictionary.

Am Sonntag, dem 10. Juni oder am Sonntag, den 10. Juni - Wochentage mit Datumsangabe. (aus: Grammatik in Fragen und Antworten) (2018)

Alex-Ruf, Simone

Beim Lesen stolpert man über den unscheinbaren Artikel den. Muss das nicht dem heißen? Richtig. Die lokale Angabe am Stadioneingang und die temporale Angabe am Sonntag stehen im Dativ, wie sich eindeutig an dem definiten Artikel dem erkennen lässt, der hier mit der Präposition an zu am verschmolzen ist. Und der Artikel, der nach dem Komma folgt und den ‚lockere‘ oder ‚lose Apposition‘ genannten Nachtrag einleitet, bezieht sich ebenfalls auf Stadioneingang bzw. Sonntag und sollte mit diesem Bezugsnomen kongruieren, das heißt ebenfalls im Dativ – und nicht wie in den Beispielen in im Akkusativ – stehen.

Preface (2019)

Alfter, David ; Volodina, Elena ; Borin, Lars ; Pilán, Ildikó ; Lange, Herbert

Preface (2020)

Alfter, David ; Volodina, Elena ; Pilán, Ildikó ; Lange, Herbert ; Borin, Lars

Physicists look at language (2006)

Altmann, Gabriel ; Meyer, Peter

From society to neology and lexicography. Relationships between morphology and dictionaries (2022)

Alves, Ieda Maria ; Maroneze, Bruno

This paper aims at verifying if the most important online Brazilian Portuguese dictionaries include some of the neologisms identified in texts published in the 1990s to 2000s, formed with the elements ciber-, e-, bio-, eco- and narco, which we refer to as fractomorphemes / fracto-morphèmes. Three online dictionaries were analyzed (Aulete, Houaiss and Michaelis), as well as Vocabulário Ortográfico da Língua Portuguesa (VOLP). We were able to conclude that all three dictionaries and VOLP include neologisms with these elements; Michaelis and VOLP do not include separate entries for bound morphemes, whereas Houaiss includes entries for all of them and Aulete includes entries for bio-, eco- and narco-. Aulete also describes the neological meaning of eco- and narco-, whereas Houaiss does not.

White Paper: Interim report reference (2023)

This White Paper sets out commonly agreed definitions on activities of consortia within NFDI. It aims to provide a common basis for reporting and reference regarding selected questions of cross-consortial relevance in DFG’s template for the Interim Reports. The questions were prioritised by an NFDI Task Force on Evaluation and Reporting (formerly Task Force Monitoring) as a result of discussing possible answers to the DFG template. In this process the need to agree on a generalizable meaning of terms commonly used in the context of NFDI, and reporting in particular, were identified from cross-consortial perspectives. Questions that showed the highest requirement on clarification are discussed in this White Paper. As NFDI evolves, the Task Force will likely propose further joint approaches for reporting in information infrastructures. While each of broad relevance, the questions addressed relate to substantially different aspects of consortia’s work. They are thus also structured slightly different.

White Paper: Umgang mit Zielen der BLV als Grundlage für die Strukturevaluation (2023)

In der Bund-Länder-Vereinbarung (BLV) zu Aufbau und Förderung einer Nationalen Forschungsdateninfrastruktur (NFDI) (im Folgenden BLV-NFDI) wird in §1 festgehalten, dass mit der Förderung "eine Etablierung und Fortentwicklung eines übergreifenden Forschungsdatenmanagements" und damit eine "Steigerung der Effizienz des gesamten Wissenschaftssystems verfolgt" wird. In der BLV-NFDI werden dazu sieben Ziele vorgegeben, die eine Verfeinerung dieser Hauptziele darstellen. Dieses White Paper formuliert das gemeinsame Verständnis der beteiligten Konsortien für die sieben in der BLV-NFDI vorgegebenen Ziele. Auf der Grundlage dieses Verständnisses hat die Task Force Evaluation und Reporting Vorschläge gemacht, wie das Erreichen der Ziele erfasst, beschrieben und gemessen werden kann.

Collaborative work in NFDI (2023)

The non-profit association National Research Data Infrastructure (NFDI) promotes science and research through a National Research Data Infrastructure. Its aim is to develop and establish an overarching research data management (RDM) for Germany and to increase the efficiency of the entire German science system. After a two-and-a-half year build up phase, the process of adding new consortia, each representing a different data domain, has ended in March 2023. NFDI now has 26 disciplinary consortia (and one additional basic service collaboration). Now the full extent of cross-consortial interaction is beginning to show.

Data-driven identification of idioms in song lyrics (2021)

Amin, Miriam ; Fankhauser, Peter ; Kupietz, Marc ; Schneider, Roman

The automatic recognition of idioms poses a challenging problem for NLP applications. Whereas native speakers can intuitively handle multiword expressions whose compositional meanings are hard to trace back to individual word semantics, there is still ample scope for improvement regarding computational approaches. We assume that idiomatic constructions can be characterized by gradual intensities of semantic non-compositionality, formal fixedness, and unusual usage context, and introduce a number of measures for these characteristics, comprising count-based and predictive collocation measures together with measures of context (un)similarity. We evaluate our approach on a manually labelled gold standard, derived from a corpus of German pop lyrics. To this end, we apply a Random Forest classifier to analyze the individual contribution of features for automatically detecting idioms, and study the trade-off between recall and precision. Finally, we evaluate the classifier on an independent dataset of idioms extracted from a list of Wikipedia idioms, achieving state-of-the art accuracy.

Shallow context analysis for German idiom detection (2021)

Amin, Miriam ; Fankhauser, Peter ; Kupietz, Marc ; Schneider, Roman

In order to differentiate between figurative and literal usage of verb-noun combinations for the shared task on the disambiguation of German Verbal Idioms issued for KONVENS 2021, we apply and extend an approach originally developed for detecting idioms in a dataset consisting of random ngram samples. The classification is done by implementing a rather shallow, statistics-based pipeline without intensive preprocessing and examinations on the morphosyntactic and semantic level. We describe the overall approach, the differences between the original dataset and the dataset of the KONVENS task, provide experimental classification results, and analyse the individual contributions of our feature sets.

Standard und Variation: Norm, Autorität, Legitimation (2005)

Ammon, Ulrich

Zunächst wird die verbreitete Auffassung von der regionalen Einheitlichkeit des Standarddeutschen, oder auch von Standardsprachen generell, problematisiert. Stattdessen wird die nationale und regionale Variation auch des Standarddeutschen verdeutlicht und werden die zu ihrer Beschreibung notwendigen Termini und Begriffe eingeführt. Angesichts der Variabilität des Standards stellt sich besonders dringlich die Frage, welche Sprachformen denn standardsprachlich sind und welche nicht. Hinter dieser auf Definition und Beschreibung abhebenden Frage erhebt sich die weitere, auf Erklärung abzielende, wer denn festlegt, welche Sprachformen standardsprachlich sind. Der Beitrag bemüht sich vor allem um eine Antwort auf diese letztgenannte Frage. Hierzu werden zunächst einmal vier für die Festlegung sprachlicher Standards maßgebliche soziale Kräfte identifiziert: Die Sprachkodifizierer (die den Sprachkodex erstellen), die Modellsprecher und -schreiber (an deren Texten sich die Kodifizierer orientieren), die Sprachexperten (die auf die Kodifizierer kritisch einwirken) und die Sprachnormautoritäten (welche die standardsprachlichen Normen durchsetzen). Das Zusammenspiel dieser maßgeblichen gesellschaftlichen Kräfte wird eingehend dargestellt und an Beispielen verdeutlicht. Abschließend werden die für die Einführung und den Wandel standardsprachlicher Normen ebenfalls wesentlichen Begriffe der ,Existenz‘, ,Gültigkeit (Validität)“ und ,Legitimität von Normen‘ expliziert.

Deutsch unter Druck der englischen Sprache (1990)

Ammon, Ulrich

Empirische Untersuchungen zur Stellung der deutschen Sprache in Europa in Wirtschaft, Wissenschaft und Politik (1993)

Ammon, Ulrich

Stil und Stilbegriff in der neueren Literaturwissenschaft (1995)

Anderegg, Johannes

Differences of Pitch Profiles in Germanic and Slavic Languages (2014)

Andreeva, Bistra ; Demenko, Grazyna ; Möbius, Bernd ; Zimmerer, Frank ; Jügler, Jeanin ; Oleskowicz-Popiel, Magdalena

This study investigates cross-language differences in pitch range and variation in four languages from two language groups: English and German (Germanic) and Bulgarian and Polish (Slavic). The analysis is based on large multi-speaker corpora (48 speakers for Polish, 60 for each of the other three languages). Linear mixed models were computed that include various distributional measures of pitch level, span and variation, revealing characteristic differences across languages and between language groups. A classification experiment based on the relevant parameter measures (span, kurtosis and skewness values for pitch distributions for each speaker) succeeded in separating the language groups.

Comparison of Pitch Range and Pitch Variation in Slavic and Germanic Languages (2014)

Andreeva, Bistra ; Demenko, Grazyna ; Wolska, Magdalena ; Möbius, Bernd ; Zimmerer, Frank ; Jügler, Jeanin ; Oleskowicz-Popiel, Magdalena ; Trouvain, Jürgen

This study presents the results of a large-scale comparison of various measures of pitch range and pitch variation in two Slavic (Bulgarian and Polish) and two Germanic (German and British English) languages. The productions of twenty-two speakers per language (eleven male and eleven female) in two different tasks (read passages and number sets) are compared. Significant differences between the language groups are found: German and English speakers use lower pitch maxima, narrower pitch span, and generally less variable pitch than Bulgarian and Polish speakers. These findings support the hypothesis that inguistic communities tend to be characterized by particular pitch profiles.

Linguistic Measures of Pitch Range in Slavic and Germanic Languages (2015)

Andreeva, Bistra ; Möbius, Bernd ; Demenko, Grazyna ; Zimmerer, Frank ; Jügler, Jeanin

Based on specific linguistic landmarks in the speech signal, this study investigates pitch level and pitch span differences in English, German, Bulgarian and Polish. The analysis is based on 22 speakers per language (11 males and 11 females). Linear mixed models were computed that include various linguistic measures of pitch level and span, revealing characteristic differences across languages and between language groups. Pitch level appeared to have significantly higher values for the female speakers in the Slavic than the Germanic group. The male speakers showed slightly different results, with only the Polish speakers displaying significantly higher mean values for pitch level than the German males. Overall, the results show that the Slavic speakers tend to have a wider pitch span than the German speakers. But for the linguistic measure, namely for span between the initial peaks and the non-prominent valleys, we only find the difference between Polish and German speakers. We found a flatter intonation contour in German than in Polish, Bulgarian and English male and female speakers and differences in the frequency of the landmarks between languages. Concerning “speaker liveliness” we found that the speakers from the Slavic group are significantly livelier than the speakers from the Germanic group.

Multimodal - intertextuell - heteroglossisch: Sprach-Gestalten in "Web 2.0"-Umgebungen (2010)

Androutsopoulos, Jannis

Web-Umgebungen wie virtuelle soziale Netzwerke und Videoportale sind von Tendenzen der Partizipation, Konvergenz und Multimedialität gekennzeichnet. Diese bedeuten eine Herausforderung für sprachanalytische Zugänge, die digitale Kommunikationsformen separat voneinander untersuchen und auf mikrolinguistische Phänomene bei nur geringer Beachtung ihrer komplexen soziomedialen Rahmenbedingungen abheben. Im Beitrag wird ein bildschirm-basierter Ansatz entworfen, der Web-Umgebungen als semiotische Räume begreift, die von Nutzern in ihren spezifischen soziokulturellen Umständen und vor der Folie technologischer Potenziale und Grenzen aufgefüllt und ausgestaltet werden. Sprache ist eine wesentliche, aber nicht die einzige Ressource dieses digitalen kommunikativen Handelns, und ihre Verwendung ist in der Spannung zwischen technologischer Vorprägung und situierter Medienaneignung zu untersuchen. Im Kern des Ansatzes liegt die Unterscheidung von zwei analytischen Dimensionen. Die erste unterscheidet vier Leistungen von Sprache in Web-Umgebungen: Organisation, Selbstdarstellung, Spektakel und Interaktion. Die zweite erfasst drei für Web 2.0 charakteristische Prozesse der Sprach- und Textgestaltung: Multimodalität, Intertextualität und Heteroglossie. Wie diese beiden Kategorienbündel eine Grundlage für weiterführende Fragestellungen bilden können, wird am Beispiel des Dialektgebrauchs auf einer Videoplattform diskutiert.

... und jetzt gehe ich chillen: Jugend- und Szenesprachen als lexikalische Erneuerungsquellen des Standards (2018)

Androutsopoulos, Jannis

Jugend- und Szenensprachen sind wichtige Ressourcen für den lexikalischen Wandel der Standardsprache „von unten“, dessen letzte Etappe der Eingang in ein gesamtsprachiges Wörterbuch ist. Ziele dieses Beitrags sind es. den Verbreitungsprozess jugendsprachlicher lexikalischer Innovationen zu modellieren und die Rolle der Massenmedien im lexikalischen Wandel von unten zu klären. Die Diskussion verbindet die Mikroperspektive der soziolinguistischen Akkomodations- und Netzwerktheorie mit der Makroperspektive der Massenmedien als Indikatoren der gesellschaftlichen Reichweite sprachlicher Innovationen. Drei analytische Dimensionen werden aufeinander bezogen. Zunächst wird versucht, innovationsfreudige lexikalische Kategorien zu identifizieren. Der zweite Schritt gilt der sozialen Verbreitung lexikalischer Innovationen, wobei die individuelle sprachliche Akkomodation und Imitation genauso angesprochen wird wie die Rolle der Massenmedien im Verbreitungsprozess. Auf dieser Grundlage werden „Karrieren“ jugendsprachlicher Ausdrücke in der öffentlichen Kommunikation quantitativ und qualitativ untersucht. Die zunehmende Erscheinungshäufigkeit ausgewählter lexikalischer Einheiten wird im Zeitungskorpus des IDS verfolgt. Am Beispiel chillen wird ein Entwicklungspfad herausgearbeitet, der von der metasprachlichen Thematisierung über den Gebrauch als Zitat bis hin zum Eingang des Ausdrucks in die Eigenperspektive der Journalisten führt.

Modeling Problem-Solving Methods in New KARL (1996)

Angele, Jürgen ; Decker, Stefan ; Perkuhn, Rainer ; Studer, Rudi

New KARL (Knowledge Acquisition and Representation Language) allows to specify all parts of a problem-solving method (PSM). It is a formal language with a well-defined semantics and thus allows to represent PSMs precisely and unambiguously yet abstracting from implementation detail. In this paper it is shown how the language KARL has been modified and extended to New KARL to better meet the needs for the representation of PSMs. Based on a conceptual structure of PSMs new language primitives are introduced for KARL to specify such a conceptual structure and to support the configuration of methods. An important goal for this extension was to preserve three important properties of KARL: to be (i) a conceptual, (ii) a formal, and (iii) an executable language.

Abschlußbericht der GI-Arbeitsgruppe „Vergleichende Analyse von Problemstellungen und Lösungsansätzen in den Fachgebieten Information Systems Engineering, Software Engineering und Knowledge Engineering" (1997)

Angele, Jürgen ; Perkuhn, Rainer ; Studer, Rudi ; Oberweis, Andreas ; Zimmermann, Gabriele ; Maurer, Frank ; Dellen, Barbara ; Pews, Gerd ; Stein, Wolfgang

Die Arbeitsgruppe konstituierte sich im Rahmen des Workshops „Querbezüge des Knowledge Engineering zu Methoden des Software Engineering und der Entwicklung von Informationssystemen" auf der 2. Deutschen Tagung Expertensysteme [AnS93]. Anfangs beteiligten sich zehn verschiedene Gruppen bzw. Einzelpersonen an der Arbeitsgruppe. Zur Fokussierung der Arbeiten beschloß die Arbeitsgruppe, sich primär mit den Themen Vorgehensmodelle und Methoden zu beschäftigen. Unter einem Vorgehensmodell wurde dabei die „Festlegung der bei der Entwicklung eines Systems durchzuführenden Arbeitsschritte verstanden, ... Beziehungen zwischen den Arbeitsschritten sind ebenso festzulegen wie Anforderungen an die zu erzeugenden Ergebnisse." [AL0+93]. Als eine Methode wurde eine „systematische Handlungsvorschrift zur Lösung von Aufgaben einer bestimmten Art verstanden." [AL0+93]. Dementsprechend wurde in der Arbeitsgruppe der Begriff Methodik im Sinne von Methodensammlung verwendet. Außerdem einigte man sich in der Arbeitsgruppe darauf, die Arbeiten anhand einer vergleichenden Fallstudie durchzuführen. In Abwandlung des oft verwendeten IFIP Beispiels [0SV82] wurde als Aufgabenstellung für die Fallstudie die Entwicklung eines (wissensbasierten) Systems zur Tagungsverwaltung ausgewählt. Im Rahmen ihrer Arbeit organisierte die Arbeitsgruppe noch einen weiteren Workshop „Vorgehensmodelle und Methoden zur Entwicklung komplexer Softwaresysteme", der auf der 18. Deutschen Jahrestagung für Künstliche Intelligenz durchgeführt wurde [KuS94]. Leider zeigte es sich in der laufenden Arbeit der Arbeitsgruppe, daß es insbesondere für Mitglieder aus der Wirtschaft sehr schwierig ist, sich über eine längeren Zeitraum aktiv an einer derartigen Arbeitsgruppe zu beteiligen. So blieben für die letzte Phase der Arbeitsgruppe nur noch vier Gruppen übrig, die auch in diesem Abschlußbericht vertreten sind. Von daher sollte klar sein, daß dieser Abschlußbericht keine alle Aspekte umfassende Analyse sein kann, sondern sich vielmehr auf Schlußfolgerungen beschränken muß, die auf Grund der analysierten Methodiken möglich sind. Gleichwohl beinhalten diese Methodiken aus Sicht der Autoren typische methodische Vorgehensweisen in den beteiligten Fachgebieten. Um einen systematischen Vergleich der Methodiken zu ermöglichen, erarbeitete die Arbeitsgruppe einen Kriterienkatalog, mit dem charakteristische Eigenschaften einer Methodik erfaßt werden können [Kri97]. Dieser Kriterienkatalog wird nachfolgend verwendet, um jede der vier Methodiken detailliert zu charakterisieren.

CLARIAH-DE work package 3: skills training and promotion of junior researchers (2021)

Annisius, Marie ; Bock, Sina ; Gradl, Tobias ; Schopf, Juliane ; Stegmeier, Jörn ; Werthmann, Antonina

This poster summarizes the results of the CLARIAH-DE Work Package 3: Skills Training and Promotion of Junior Researchers. For a research field that is characterised by rapid technical development, CLARIAH-DE has to include the promotion of data literacy necessary for the efficient use of this digital research infrastructure as part of its objective. To develop, consolidate and refine a common programme in this area, work package 3 set itself the following sub goals: - Consolidation of the activities from the previous projects into a joint service - Cataloguing and reflecting on the methods and tools used in the research field, with the aim of identifying remaining gaps - Skills training of, individual support for and the promotion of junior researchers

Konjunktiv I im gesprochenen Deutsch (2019)

Antonioli, Giorgio

This paper aims at investigating the usage of present subjunctive (Konjunktiv I), which is traditionally labelled as a feature of standard written language and therefore as typically occurring in communication genres based on it such as press texts and reporting, in everyday spoken German. Through an analysis of corpus data performed according to theory and method of Interactional Linguistics and encompassing private, institutional and public interactional domains, the paper will show how this particular verb form expresses different epistemic stances according to its syntactic embedment.

Nachfeldbesetzung und diskursive Strategien der Hervorhebung (2014)

Antonioli, Giorgio

Post-field syntax and focalization strategies in National Socialist political speech. This paper deals with a syntactic feature of spoken German, i.e. post-field filling, and with its occurrence in one specific discourse type – political speech – throughout one significant period of the history of German language – National Socialism. This paper aims at pointing out the communicative pragmatic function of right dislocation in the NS political speech on the basis of some collected examples.

Rhetorische Funktion von Projektorkonstruktionen mit deshalb und deswegen (2019)

Antonioli, Giorgio

This paper focuses on so called syntactic projection phenomena in the German language. This term from the German Gesprächsforschung is used to define the fact that an utterance or part of it foreshadows another one. This paper aims at pointing out how such projection phenomena are consciously exploited for rhethorical purposes. This will be observed on the basis of excerpts from the Stuttgart 21 mediation talks. The linguistic analysis carried out in this paper will focus on syntactic projection phenomena involving the use of causal adverbial connectives deshalb and deswegen.

Konnektoren im gesprochenen Deutsch. Eine Untersuchung am Beispiel der kommunikativen Gattung «autobiographisches Interview» (2016)

Antonioli, Giorgio

Dieses Buch schließt eine Lücke in der Konnektorenforschung, indem es den Gebrauch von Konnektoren im gesprochenen Deutsch untersucht. Die Fragestellung bringt Elemente aus dem traditionellen grammatischen Ansatz und aus der pragmatisch basierten Forschung zur gesprochenen Sprache zusammen. In Anlehnung an die Methode der Interaktionalen Linguistik analysiert der Autor den Gebrauch der Konjunktoren «und», «aber» und der Adverbkonnektoren «also», «dann» in zwei Korpora von autobiographischen Interviews. Die Untersuchung zeigt, wie Konnektoren zur Bewältigung von verschiedenartigen kommunikativen Aufgaben zur Stiftung von Intersubjektivität und zur Gesprächsorganisation eingesetzt werden können.

Intonation konversationeller Fragen im Deutschen: Eine korpusbasierte Fallstudie an der Schnittstelle von autosegmentaler Phonologie und interaktionaler Prosodieforschung (2020)

Antonioli, Giorgio ; Moroni, Manuela Caterina

In diesem Beitrag stellen wir die Ergebnisse einer Studie über die Intonation von Frageaktivitäten in deutschen Alltagsgesprächen vor. Unsere Untersuchung erforscht, inwieweit die Intonation zur Kontextualisierung von konversationellen Fragen beiträgt. In der Analyse stützen wir uns auf das autosegmental-metrische Modell von Peters und das taxonomische Modell der interaktionalen Prosodieforschung von Selting. Diese Modelle beschreiben jeweils phonologische oder pragmatische Aspekte der Frageintonation, zwei Dimensionen, die für sich genommen, keine vollständige Beschreibung liefern können. Auf der Grundlage authentischer Gesprächsdaten aus dem Korpus FOLK argumentieren wir für die Kompatibilität des autosegmental-metrischen Modells von Peters und des taxonomischen Modells der Frageintonation von Selting. Die Merkmale aus beiden Modellen lassen sich zu Bündeln kombinieren, die es erlauben, die Intonation von Fragen zu erfassen.

Warum gibt es normative Stilistiken? Sprachtheoretische Überlegungen zu einem scheinbar trivialen Phänomen (1995)

Antos, Gerd

Sprache im Fernsehen. Die Erwiderung des Journalisten auf die Thesen von Erich Straßner (1990)

Appel, Reinhard

“Vocabula Grammatica”: threading a digital Ariadne’s String in the labyrinth of Ancient Greek scholarship (2022)

Arapopoulou, Maria ; Kalafikis, Georgios ; Karamitsou, Dimitra ; Sarischoulis, Efstratios ; Tselikas, Sotiris

An ongoing academic and research program, the “Vocabula Grammatica” lexicon, implemented by the Centre for the Greek Language (Thessaloniki, Greece), aims at lemmatizing all the philological, grammatical, rhetorical, and metrical terms in the written texts of scholars (philologists and scholiasts) who curated the ancient Greek literature from the beginning of the Hellenistic period (4th/3rd c. BC) until the end of the Byzantine era (15th c. AD). In particular, it aspires to fill serious gaps (a) in the study of ancient Greek scholarship and (b) in the lexicography of the ancient Greek language and literature. By providing specific examples, we will highlight the typical and methodological features of the forthcoming dictionary.

Moral und Moralisierung – Werkstattgespräch der beteiligten Disziplinen (2024)

Arendes, Cord ; Becker, Maria ; Felder, Ekkehard ; Große, Sybille ; Moos, Thorsten ; Nüssel, Friederike ; Schlette, Magnus ; Schütz, Nils ; Zohlnhöfer, Reimut

Dieses Gespräch wurde am 6. Februar 2023 in den Räumlichkeiten des Marsilius-Kollegs der Universität Heidelberg aufgenommen. Es spiegelt den Austausch zwischen den beteiligten Wissenschaftlerinnen und Wissenschaftlern wider und gibt einen ersten Einblick in die Themen und Fragen, die in diesem Sammelband eine Rolle spielen. Das Gespräch wurde transkribiert und an denjenigen Stellen sprachlich überarbeitet, die es aus Gründen der Verständlich- und Lesbarkeit erforderten. Der mündliche, im Nachdenken begriffene Charakter des Gesprächs wurde gewahrt.

Bild-Makros als Motor der Facebook-Interaktion – Eine formale und interaktionale Betrachtung multimodaler Kommunikate (2016)

Arens, Katja

Bild-Makros, auch unter dem Begriff Memes bekannt, sind populäre Internetphänomene, die im Zuge der umfassenden Multimodalisierung der Medienkommunikation als Unterhaltungsangebote auf Facebook verbreitet und kommentiert werden. Dieser Beitrag betrachtet diese aus einer Kombination von Bild und Text bestehenden multimodalen Kommunikate aus einer gattungs- und gesprächsanalytischen Perspektive, da Bild- Makros sowohl in ihrer formalen und semantischen Gestaltung als auch in der interaktiven Rezeption in Form von Kommentaren und Antworten verfestigte Muster aufzuweisen scheinen. In dieser medial vermittelten Interaktion haben sich sowohl auf der strukturellen Ebene der Interaktionssequenzen als auch innerhalb einzelner, auf sequenzexterner und sequenzinterner Ebene analysierten Interaktionseinheiten verschiedene kommunikative Muster herausgebildet. Darin nehmen soziale Prozesse wie face-work und Identitätskonstruktion Einfluss auf die interaktive Aushandlung des Kommunikats.

WhatsApp: Kommunikation 2.0. Eine qualitative Betrachtung der multimedialen Möglichkeiten (2014)

Arens, Katja

Jaaaa :) alles klar!! Bis morgen hdl :-*. Der Ausdruck von Emotionen in SMS (2014)

Arens, Katja ; Nösler, Nadine

Bericht über den Auftaktworkshop "Lexik des gesprochenen Deutsch: Forschungsstand, Erwartungen und Anforderungen an die Entwicklung einer innovativen lexikografischen Ressource" am Institut fur Deutsche Sprache (Mannheim) vom 16.-17. Februar 2017 (2017)

Arens, Katja ; Torres Cajo, Sarah

Der Auftaktworkshop "Lexik des gesprochenen Deutsch: Forschungsstand, Erwartungen und Anforderungen an die Entwicklung einer innovativen lexikografischen Ressource" fand am 16. und 17. Februar 2017 am Institut fur Deutsche Sprache (IDS) in Mannheim statt. Das von der Leibniz-Gemeinschaft geforderte Projekt "Lexik des gesprochenen Deutsch" (=LeGeDe, Leibniz-Wettbewerb 2016, Forderlinie "Innovative Vorhaben") nahm im September 2016 am IDS seine Arbeit auf. Das Hauptziel ist die Erstellung einer korpusbasierten elektronischen Ressource zur Lexik des gesprochenen Deutsch auf der Grundlage von lexikologischen und gesprachsanalytischen Untersuchungen authentischer gesprochensprachlicher Daten.

Uralic multimedia corpora: ISO/TEI corpus data in the project INEL (2019)

Arkhangelskiy, Timofey ; Ferger, Anne ; Hedeland, Hanna

In this paper, we describe a data processing pipeline used for annotated spoken corpora of Uralic languages created in the INEL (Indigenous Northern Eurasian Languages) project. With this processing pipeline we convert the data into a loss-less standard format (ISO/TEI) for long-term preservation while simultaneously enabling a powerful search in this version of the data. For each corpus, the input we are working with is a set of files in EXMARaLDA XML format, which contain transcriptions, multimedia alignment, morpheme segmentation and other kinds of annotation. The first step of processing is the conversion of the data into a certain subset of TEI following the ISO standard ’Transcription of spoken language’ with the help of an XSL transformation. The primary purpose of this step is to obtain a representation of our data in a standard format, which will ensure its long-term accessibility. The second step is the conversion of the ISO/TEI files to a JSON format used by the “Tsakorpus” search platform. This step allows us to make the corpora available through a web-based search interface. As an addition, the existence of such a converter allows other spoken corpora with ISO/TEI annotation to be made accessible online in the future.

Evaluating and Assuring Research Data Quality for Audiovisual Annotated Language Data (2020)

Arkhangelskiy, Timofey ; Hedeland, Hanna ; Riaposov, Aleksandr

This paper presents the QUEST project and describes concepts and tools that are being developed within its framework. The goal of the project is to establish quality criteria and curation criteria for annotated audiovisual language data. Building on existing resources developed by the participating institutions earlier, QUEST develops tools that could be used to facilitate and verify adherence to these criteria. An important focus of the project is making these tools accessible for researchers without substantial technical background and helping them produce high-quality data. The main tools we intend to provide are the depositors’ questionnaire and automatic quality assurance, both developed as web applications. They are accompanied by a Knowledge base, which will contain recommendations and descriptions of best practices established in the course of the project. Conceptually, we split linguistic data into three resource classes (data deposits, collections and corpora). The class of a resource defines the strictness of the quality assurance it should undergo. This division is introduced so that too strict quality criteria do not prevent researchers from depositing their data.

Evaluating and assuring research data quality for audiovisual annotated language data (2021)

Arkhangelskiy, Timofey ; Hedeland, Hanna ; Riaposov, Aleksandr

This paper presents the QUEST project and describes concepts and tools that are being developed within its framework. The goal of the project is to establish quality criteria and curation criteria for annotated audiovisual language data. Building on existing resources developed by the participating institutions earlier, QUEST also develops tools that could be used to facilitate and verify adherence to these criteria. An important focus of the project is making these tools accessible for researchers without substantial technical background and helping them produce high-quality data. The main tools we intend to provide are a questionnaire and automatic quality assurance for depositors of language resources, both developed as web applications. They are accompanied by a knowledge base, which will contain recommendations and descriptions of best practices established in the course of the project. Conceptually, we consider three main data maturity levels in order to decide on a suitable level of strictness of the quality assurance. This division has been introduced to avoid that a set of ideal quality criteria prevent researchers from depositing or even assessing their (legacy) data. The tools described in the paper are work in progress and are expected to be released by the end of the QUEST project in 2022.

Die Erhebung perzeptueller Prominenz auf Silben- und Wortebene: Der Einfluss von Bewertungsskalen, Bewertungsebenen und Normalisierung (2013)

Arnold, Denis

Die vorliegende Dissertation beschäftigt sich mit verschieden Methoden zur Erhebung von perzeptuellen Prominenzurteilen von naiven Hörern im Deutschen. Es werden zwei Experimente vorgestellt, die sich zum einen mit der Verwendung von verschiedenen Skalen, zum anderen mit der Verwendung von unterschiedlichen Bewertungsebenen zur Beurteilung von perzeptueller Prominenz beschäftigen. Die Ergebnisse zeigen, dass Ergebnisse von Studien, welche auf unterschiedlichen Erhebungstechniken beruhen nicht ohne weiteres vergleichbar sind. Die Arbeit untersucht außerdem die Effekte einer Normalisierung der Prominenzurteile. Die Dissertation schließt mit einem Ausblick für zukünftige Studien. Hierbei werden hauptsächlich die vielfältigen Interaktionen von verschiedenen Quellen und dem Kontext bei der Beurteilung der perzeptuellen Prominenz adressiert.

The CMDI Explorer (2020)

Arnold, Denis ; Campbell, Ben ; Eckart, Thomas ; Fisseni, Bernhard ; Trippel, Thorsten ; Zinn, Claus

We present the CMDI Explorer, a tool that empowers users to easily explore the contents of complex CMDI records and to process selected parts of them with little effort. The tool allows users, for instance, to analyse virtual collections represented by CMDI records, and to send collection items to other CLARIN services such as the Switchboard for subsequent processing. The CMDI Explorer hence adds functionality that many users felt was lacking from the CLARIN tool space.

CMDI Explorer (2021)

Arnold, Denis ; Campbell, Ben ; Eckart, Thomas ; Fisseni, Bernhard ; Trippel, Thorsten ; Zinn, Claus

We present CMDI Explorer, a tool that empowers users to easily explore the contents of complex CMDI records and to process selected parts of them with little effort. The tool allows users, for instance, to analyse virtual collections represented by CMDI records, and to send collection items to other CLARIN services such as the Switchboard for subsequent processing. CMDI Explorer hence adds functionality that many users felt was lacking from the CLARIN tool space.

Datenübernahmerichtlinien des Leibniz-Instituts für Deutsche Sprache (2019)

Arnold, Denis ; Fankhauser, Peter ; Fisseni, Bernhard ; Kupietz, Marc ; Lüngen, Harald ; Schmidt, Thomas ; Witt, Andreas

Addressing Cha(lle)nges in Long-Term Archiving of Large Corpora (2020)

Arnold, Denis ; Fisseni, Bernhard ; Kamocki, Paweł ; Schonefeld, Oliver ; Kupietz, Marc ; Schmidt, Thomas

This paper addresses long-term archival for large corpora. Three aspects specific to language resources are focused, namely (1) the removal of resources for legal reasons, (2) versioning of (unchanged) objects in constantly growing resources, especially where objects can be part of multiple releases but also part of different collections, and (3) the conversion of data to new formats for digital preservation. It is motivated why language resources may have to be changed, and why formats may need to be converted. As a solution, the use of an intermediate proxy object called a signpost is suggested. The approach will be exemplified with respect to the corpora of the Leibniz Institute for the German Language in Mannheim, namely the German Reference Corpus (DeReKo) and the Archive for Spoken German (AGD).

Signposts for CLARIN (2020)

Arnold, Denis ; Fisseni, Bernhard ; Trippel, Thorsten

An implementation of CMDI-based signposts and its use is presented in this paper. Arnold et al. 2020 present Signposts as a solution to challenges in long-term preservation of corpora, especially corpora that are continuously extended and subject to modification, e.g., due to legal injunctions, but also may overlap with respect to constituents, and may be subject to migrations to new data formats. We describe the contribution Signposts can make to the CLARIN infrastructure and document the design for the CMDI profile.

Signposts for CLARIN (2021)

Arnold, Denis ; Fisseni, Bernhard ; Trippel, Thorsten

An implementation of CMDI-based signposts and its use is presented in this paper. Arnold, Fisseni et al. (2020) present signposts as a solution to challenges in long-term preservation of corpora. Though applicable to digital resources in general, we focus on corpora, especially those that are continuously extended or subject to modification, e.g., due to legal injunctions, but also may overlap with respect to constituents, and may be subject to migrations to new data formats. We describe the contribution signposts can make to the CLARIN infrastructure, notably virtual collections, and document the design for the CMDI profile.

Mit welchem Aufwand bekommen wir Skripte FAIR(er)? (2022)

Arnold, Denis ; Lang, Christian

In diesem Beitrag widmen wir uns der Frage, welche Schritte unternommen werden müssen, um Skripte, die bei der Aufbereitung und/oder Auswertung von Forschungsdaten Anwendung finden, so FAIR wie möglich zu gestalten. Dabei nehmen wir sowohl Reproduzierbarkeit, also den Weg von den (Roh)daten zu den Ergebnissen einer Studie, als auch Wiederverwertbarkeit, also die Möglichkeit, die Methoden einer Studie mittels des Skripts auf andere Daten anzuwenden, in den Fokus und beleuchten dabei die folgenden Aspekte: Arbeitsumgebung, Datenvalidierung, Modularisierung, Dokumentation und Lizenz.

Comparing word and syllable prominence rated by naïve listeners (2011)

Arnold, Denis ; Möbius, Bernd ; Wagner, Petra

Prominence has been widely studied on the word level and the syllable level. An extensive study comparing the two approaches is missing in the literature. This study investigates how word and syllable prominence relate to each other in German. We find that perceptual ratings based on the word level are more extreme than those based on the syllable level. The correlations between word prominence and acoustic features are greater than the correlations between syllable prominence and acoustic features.

Words from spontaneous conversational speech can be recognized with human-like accuracy by an error-driven learning algorithm that discriminates between meanings straight from smart acoustic features, bypassing the phoneme as recognition unit (2017)

Arnold, Denis ; Tomaschek, Fabian ; Sering, Konstantin ; Lopez, Florence ; Baayen, R. Harald

Sound units play a pivotal role in cognitive models of auditory comprehension. The general consensus is that during perception listeners break down speech into auditory words and subsequently phones. Indeed, cognitive speech recognition is typically taken to be computationally intractable without phones. Here we present a computational model trained on 20 hours of conversational speech that recognizes word meanings within the range of human performance (model 25%, native speakers 20–44%), without making use of phone or word form representations. Our model also generates successfully predictions about the speed and accuracy of human auditory comprehension. At the heart of the model is a ‘wide’ yet sparse two-layer artificial neural network with some hundred thousand input units representing summaries of changes in acoustic frequency bands, and proxies for lexical meanings as output units. We believe that our model holds promise for resolving longstanding theoretical problems surrounding the notion of the phone in linguistic theory.

The influence of top-down expectations on the perception of syllable prominence (2008)

Arnold, Denis ; Wagner, Petra

In our study we use the experimental framework of priming to manipulate our subjects’ expectations of syllable prominence in sentences with a well-defined syntactic and phonological structure. It shows that it is possible to prime prominence patterns and that priming leads to significant differences in the judgment of syllable prominence.

Evaluating different rating scales for obtaining judgments of syllable prominence from naïve listeners (2011)

Arnold, Denis ; Wagner, Petra ; Möbius, Bernd

Streefkerk defines prominence as the perceptually outstanding parts in spoken language. An optimal rating scale for syllable prominence has not been found yet. This paper evaluates a 4-point, an 11-point, a 31-point, and a continuous scale for the rating of syllable prominence and gives support for scales using a higher number of levels. Priming effects found by Arnold, et al., could only be replicated using the 31-point scale.

Die Sprach-Checker: Der Wörter-Sammel-Koffer oder die Eule und ihre neuen Freunde aus der Neckarstadt (2023)

Asenova, Desislava ; Atanasova, Selina ; Bilge, Elif ; D’Aguanno, Chanel ; Demir, Zehra ; Dimitrova, Angelina ; Fetov, Selina ; Jesionowska, Liliana ; Ouchem, Raed ; Schleich, Charlotte ; Steurer, Immanuel ; Faust, Anke ; Möhrs, Christine ; Schoppa-Briele, Elena

Wie die Eule erkunden große & kleine Sprach-Checker ihre Neckarstadt-West. Kommt mit auf Entdeckungsreise! Das Buch „Der Wörter-Sammel-Koffer“ ist ein Werk der Sprach-Checker. Es entstand im Rahmen des Projekts „Die Sprach-Checker - So sprechen wir in der Neckarstadt“ (Leitung: Dr. Christine Möhrs & Elena Schoppa-Briele) des Leibniz-Instituts für Deutsche Sprache (IDS), Mannheim, in Zusammenarbeit mit der Kinderbuchautorin und Illustratorin Anke Faust, dem Campus Neckarstadt-West, den Neckarstadt-Kids sowie der Alten Feuerwache Mannheim. Aus den vielen witzigen Ideen der Kinder entwickelte sich die Geschichte um die Eule, die anschließend mit Wasserfarben, Farbstiften und viel Phantasie von den Sprach-Checkern illustriert wurde.

Die Sprach-Checker: Der Wörter-Sammel-Koffer oder Eule Elli & ihre neuen Freunde aus der Neckarstadt (2023)

Asenova, Desislava ; Atanasova, Selina ; Bilge, Elif ; D‛Aguanno, Chanel ; Demir, Zehra ; Dimitrova, Angelina ; Fetov, Selina ; Jesionowska, Liliana ; Ouchem, Raed ; Schleich, Charlotte ; Steurer, Immanuel ; Faust, Anke ; Möhrs, Christine ; Schoppa-Briele, Elena

Wie die Eule Elli erkunden große & kleine Sprach-Checker ihre Neckarstadt-West. Kommt mit auf Entdeckungsreise! Das Buch „Der Wörter-Sammel-Koffer“ ist ein Werk der Sprach-Checker. Es entstand im Rahmen des Projekts „Die Sprach-Checker - So sprechen wir in der Neckarstadt“ (Leitung: Dr. Christine Möhrs & Elena Schoppa-Briele) des Leibniz-Instituts für Deutsche Sprache (IDS), Mannheim, in Zusammenarbeit mit der Kinderbuchautorin und Illustratorin Anke Faust, dem Campus Neckarstadt-West, den Neckarstadt-Kids sowie der Alten Feuerwache Mannheim. Aus den vielen witzigen Ideen der Kinder entwickelte sich die Geschichte um Eule Elli, die anschließend mit Wasserfarben, Farbstiften und viel Phantasie von den Sprach-Checkern illustriert wurde.

Korpuslinguistische Verfahren zur Optimierung lexikalisch-semantischer Beschreibungen (2007)

Asmussen, Jörg

In diesem Beitrag wird untersucht, wie mithilfe korpuslinguistischer Verfahren Erkenntnisse über den Aufbau von Bedeutungsparaphrasen in Wörterbüchern gewonnen werden können. Diese Erkenntnisse sollen dazu genutzt werden, den Aufbau von Bedeutungsparaphrasen in Wörterbüchern umfassend und systematisch zu beschreiben, z.B. im Hinblick auf eine Optimierung der Bedeutungsparaphrasen für so genannte elektronische Wörterbücher oder für die Extraktion lexikalisch-semantischer Information für NLP-Zwecke.

Zur Sprache kanadadeutscher Zeitungstexte (Zusammenfassung und Ergänzung der Forschungsergebnisse von H. Wacker) (1977)

Auburger, Leopold

Die monophthongalen Vokale des kanadischen Plautdietsch (1977)

Auburger, Leopold

Sprachvariation in der Entwicklung der makedonischen Standardsprache (mit besonderer Berücksichtigung der Entwicklung der Akzentstruktur) (1980)

Auburger, Leopold

Sprachliche Landschaften. Die Strukturierung des öffentlichen Raums durch die geschriebene Sprache (2010)

Auer, Peter

Es gehört zu den Gemeinplätzen der Linguistik, dass gesprochene Sprache situationsgebunden, geschriebene Sprache aber zumindest tendenziell situationsgelöst sei und sich über Orte und Zeitpunkte hinweg transportieren lässt, ohne ihre Bedeutung wesentlich zu verändern. Eine große Menge von schriftlichen Zeichen ist allerdings genau durch das umgekehrte Phänomen gekennzeichnet: sie sind ortsstabil und in ihrer Bedeutung von ihrem lokalen Kontext abhängig. Die Schrift auf Schildern, Plakaten und anderen öffentlichen Zeichen ist eine spezifische Form von Sprache, die den gängigen Stereotypen von Schriftlichkeit widerspricht, weil sie „ding“- bzw. „ortsfest“ ist und funktional wie auch formal anderen Regelmäßigkeiten folgt als die meist betrachtete Schrift der Texte auf transportablen Trägern wie Buch, Zeitung, elektronischem Textdokument oder E-mail. Solche Funktionen von Schrift (wie Wegweisen, Orientierung geben, Erinnern und Appellieren, Zugehörigkeit Signalisieren) sind seit deren Erfindung relevant gewesen; erst in jüngster Zeit werden aber orts- und dingfesten Zeichen unter dem Begriff der linguistic landscapes ins Blickfeld der Linguistik gerückt und systematisch untersucht. Das Forschungsinteresse liegt vor allem in der Beantwortung der Frage, wie öffentliche Zeichen Sprach-Räume konstituieren, und zwar insbesondere monolinguale oder bilinguale Räume in mehrsprachigen Gesellschaften. Der folgende Beitrag geht aber nur nebenbei auf solche Sprach-Räume ein; sein primäres Interesse gilt der Art und Weise, wie öffentliche, orts- und dingfeste Zeichen überhaupt Raum konstituieren, d.h. wie wir semiotisch dicht organisierte Räume ,lesen‘, um uns in ihnen zu orientieren.

Ethnische Marker im Deutschen zwischen Varietät und Stil (2013)

Auer, Peter

Der Beitrag zeichnet im ersten Teil die historische Entwicklung ethnischer und polyethnischer Sprechweisen im Deutschen nach und skizziert die verschiedenen Transformationen ihrer indexikalischen Bedeutung. Im zweiten Teil des Beitrags wird anhand von Daten aus Stuttgart diskutiert, ob es sich bei den heute verwendeten polyethnischen Markern um Komponenten eines sozialen Stils oder um eine emergente neue Varietät handelt.

Die Geschichte der germanistischen Soziolinguistik in Deutschland: eine Skizze (2015)

Auer, Peter

Der Beitrag versteht sich als erster Schritt zur historiographischen Rekonstruktion der Soziolinguistik in der Bundesrepublik Deutschland. Es wird gezeigt, wie in gewolltem Bruch mit der älteren germanistischen Forschung zum Thema Sprache und Gesellschaft in den späten 1960er Jahren die neue Disziplin der Soziolinguistik in Auseinandersetzung mit den Theorien Bernsteins entstand, sich die Soziolinguistik anschließend professionalisierte und das Spektrum ihrer Themen verbreiterte, schließlich auch den Anschluss an ältere Theorien insbesondere in der Dialektologie wiederfand.

Areale Variation und phonologische Theorie: Überlegungen am Beispiel der mitteldeutschen Epenthese (1997)

Auer, Peter

Anhand der vor allem in den mitteldeutschen Orts- und Regionaldialekten verbreiteten sog. Vokalepenthese wird gezeigt, wie phonologische Theorienbildung und dialektologische Beschreibung sich ergänzen und inspirieren können. Um die dialektologischen Fakten im Zusammenhang der sog. Vokalepenthese nicht nur lexikographisch und dialektkartographisch zu erfassen, sondern auch zu verstehen, ist es notwendig, sich über die Art dieses Phänomens Gedanken zu machen. Im vorliegenden Beitrag wird insbesondere diskutiert, ob und wie Modelle aus der Artikulatorischen Phonetik, der Autosegmentalen Phonologie, der Optimalitätstheorie und der zweidimensionalen Variationsphonologie zur Erklärung der Vokalepenthese dienen können.

Das Fremdwort - ein Scheinphänomen (1988)

Augst, Gerhard

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

3883 search hits