Refine
Year of publication
Document Type
- Part of a Book (1761)
- Article (1170)
- Conference Proceeding (442)
- Book (214)
- Other (100)
- Review (61)
- Working Paper (48)
- Part of Periodical (28)
- Doctoral Thesis (25)
- Report (17)
Language
- German (2834)
- English (961)
- French (22)
- Multiple languages (18)
- Russian (14)
- Spanish (11)
- Portuguese (9)
- Ukrainian (5)
- Latvian (3)
- Polish (3)
Keywords
- Deutsch (1505)
- Korpus <Linguistik> (544)
- Konversationsanalyse (208)
- Gesprochene Sprache (176)
- Wörterbuch (176)
- Grammatik (162)
- Interaktion (153)
- Kommunikation (140)
- Sprachgebrauch (139)
- Computerlinguistik (136)
Publicationstate
- Veröffentlichungsversion (3883) (remove)
Reviewstate
- (Verlags)-Lektorat (2490)
- Peer-Review (1008)
- Verlags-Lektorat (79)
- Peer-review (37)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (33)
- Review-Status-unbekannt (12)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (5)
- (Verlags-)Lektorat (4)
- Verlagslektorat (4)
- Peer-Revied (3)
Publisher
- de Gruyter (621)
- Institut für Deutsche Sprache (354)
- Leibniz-Institut für Deutsche Sprache (IDS) (223)
- Narr (206)
- IDS-Verlag (108)
- Lang (97)
- Niemeyer (90)
- De Gruyter (59)
- Verlag für Gesprächsforschung (51)
- Association for Computational Linguistics (44)
Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
(2021)
Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.
The focus of this paper will be on lexical information systems and the framework guidelines for the definition of the curricula within the educational system of the Autonomous Province of Bolzano/ Bozen (Italy). In Italy, the competences to be achieved at different school levels are published in the form of general guidelines. On this basis each school has to specify the general competency goals and to spell them out in a concrete curriculum. In this paper I will examine to what extent lexical information systems are represented in the framework guidelines within the German and the Italian educational system of the Autonomous Province, these being separate systems. In a second step, I will check the representations of the resources against the “Villa Vigoni Theses on Lexicography“. Finally, I will discuss the results and give an outlook for further research.
Heute wird mehr geschrieben als je zuvor und die digitale Kommunikation trägt wesentlich dazu bei; ein großer Teil des heutigen Schreibens ist dialogisches Schreiben im Alltag. Konsequenterweise wird die Online-Kommunikation zunehmend Thema in Bildungskontexten und in der Deutschdidaktik. Offen ist aber weiterhin, wie Texte des interaktionsorientierten Schreibens bewertet werden sollen, die sich von solchen des textorientierten Schreibens in vielerlei Hinsicht unterscheiden können. Während es für textorientiertes Schreiben Normen gibt, die in Sprachkodizes erfasst sind, ist es nicht klar, was der Bezugspunkt für interaktionsorientierte Texte sein könnte. In diesem Beitrag analysieren wir die Verwendung von Konnektoren in der Online-Kommunikation und die Repräsentation von online-spezifischen Besonderheiten in Sprachressourcen. Die Ergebnisse zeigen, dass spezifische Online-Verwendungsweisen von Konnektoren in Sprachkodizes kaum berücksichtigt und beschrieben werden.
Das Kommunizieren in Sozialen Medien und der Umgang mit Hypertexten ist im Jahr 2020 kein Randphänomen mehr. Die sprachlichen Besonderheiten internetbasierter Kommunikation und Sozialer Medien sind mittlerweile auch gut erforscht und beschrieben, allerdings werden diese bislang in deutschen Grammatiken, mit Ausnahme von Hoffmann (2014), allenfalls am Rande behandelt. Selbst neuere Ansätze zur Textanalyse, z. B. Ágel (2017), konzentrieren sich auf gestaltstabile, linear organisierte Schrifttexte. Dasselbe gilt für Ansätze, die primär für die Bewertung von Schreibprodukten in Bildungskontexten entwickelt wurden.
Gehören nun die Männer an den Herd? Anmerkungen zum Wandel der Rollenbilder von Mann und Frau
(2015)
The aim of this work is to describe criteria used in the process of inclusion and treatment of neologisms in dictionaries of Spanish within the framework of pandemic instability. Our starting point will be data obtained by the Antenas Neológicas Network (https://www.upf.edu/web/antenas), whose representation in three different lexicographic tools will be analyzed with the purpose of identifying problems in the methodology used to dictionarize – that is, how and what words were selected to be included in dictionaries and how they were represented in their entries – neologisms during the COVID-19 pandemic (sources and corpora of analysis, selection criteria, types of definition, among other aspects). Two of them are monolingual and COVID-19 lexical units were included as part of their updates: the Antenario, a dictionary of neologisms of Spanish varieties, and the Diccionario de la Lengua Española [DLE], a dictionary of general Spanish, published by the Real Academia Española [RAE], Spanish Royal Academy). The other is a bilingual unidirectional English-Spanish dictionary first published as a glossary, Diccionario de COVID-19 EN-ES [TREMEDICA], entirely made up of neological and non-neological lexical units related to the virus and the pandemic. Thus, the target lexis was either included in existing works or makes up the whole of a new tool located in a portal together with other lexicographic tools. Unlike other collections of COVID-19 vocabulary that kept cropping up as the pandemic unfolded, all three have been designed and written according to well-established lexicographic practices.
Our working hypothesis is that the need to record and define words which were recently created impacts the criteria for inclusion and treatment of neologisms in dictionaries about Spanish, including a certain degree of overlap of some features which are traditionally thought to be specific to each type of dictionary.
The annual microcensus provides Germany’s most important official statistics. Unlike a census it does not cover the whole population, but a representative 1%-sample of it. In 2017, the German microcensus asked a question on the language of the population, i.e. ‘Which language is mainly spoken in your household?’ Unfortunately, the question, its design and its position within the whole microcensus’ questionnaire feature several shortcomings. The main shortcoming is that multilingual repertoires cannot be captured by it. Recommendations for the improvement of the microcensus’ language question: first and foremost the question (i.e. its wording, design, and answer options) should make it possible to count multilingual repertoires.
This paper explores how attitudes affect the seemingly objective process of counting speakers of varieties using the example of Low German, Germany’s sole regional language. The initial focus is on the basic taxonomy of classifying a variety as a language or a dialect. Three representative surveys then provide data for the analysis: the Germany Survey 2008, the Northern Germany Survey 2016, and the Germany Survey 2017. The results of these surveys indicate that there is no consensus concerning the evaluation of Low German’s status and that attitudes towards Low German are related to, for example, proficiency in the language. These attitudes are shown to matter when counting speakers of Low German and investigating the status it has been accorded.
2017 gibt es im deutschen Mikrozensus zum ersten Mal seit etwa achtzig Jahren eine Frage zur Sprache der Bevölkerung in Deutschland. Diese Frage wird dann offenbar im entsprechenden Rhythmus des Mikrozensus jährlich wiederholt werden. Der Mikrozensus ist eine seit 1957 durchgeführte, repräsentative Befragung, bei der ungefähr 830.000 Menschen (das sind ca. 1 % der Bevölkerung) in rund 370.000 Haushalten befragt werden.1 Darin werden etwa Angaben zu den soziodemographischen Daten erfragt, zur familiären Situation, zur Wohnsituation, zur Aus- und Fortbildung und zur Arbeitssituation. Für die befragten Personen besteht Auskunftspflicht. Das Stellen einer Sprachfrage sieht, aus sprachwissenschaftlicher Sicht, zunächst nach einem sinnvollen und wünschenswerten Schritt aus. Nach näherer Betrachtung der gestellten Frage zeigen sich jedoch viele Unzulänglichkeiten und das, obwohl die Antworten und statistischen Auswertungen zu dieser Frage überhaupt noch ausstehen. Die Ergebnisse werden üblicherweise in der zweiten Hälfte des Folgejahres durch das statistische Bundesamt veröffentlicht.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache?
Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache? Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Who understands Low German today and who can speak it? Who makes use of media and cultural events in Low German? What images do people in northern Germany associate with Low German and what is their view of their regional language?
These and further questions are answered in this brochure with the help of representative data collected in a telephone survey of a total of 1,632 people from eight federal states (Bremen, Hamburg, Lower Saxony, Mecklenburg-West Pomerania and Schleswig-Holstein as well as Brandenburg, North Rhine-Westphalia and Saxony-Anhalt).
Sprecher haben (oft unbewusste) Meinungen und Einstellungen zu Sprachen und Varietäten. Ein Weg, solche Spracheinstellungen zu erfassen, führt über quantitative Verfahren (Fragebogen mit offenen und geschlossenen Fragen), mit denen man Daten großer Gruppen – im Idealfall repräsentativ – erheben kann. Im Beitrag werden solche Erhebungen, die am Institut für Deutsche Sprache durchgeführt wurden, vorgestellt, und es werden zwei Instrumente der Spracheinstellungsforschung, die dabei zum Einsatz kamen, naher erläutert: das Allgemeine Sprachbewertungsinstrument (ASBI) und die Attitudes-Towards-Languages-Skala (AToL). Außerdem wird gezeigt, wie dialektometrische Auswertungs- und Visualisierungsverfahren auf Einstellungsdaten angewendet werden können.
Öffentliche Sprachdiskurse, wie sie beispielsweise in den Medien stattfinden, werden typischerweise aus einer sprachkritischen Haltung heraus geführt. Inwieweit diese veröffentlichte Meinung tatsächlich die Mehrheitsmeinung der Sprecherinnen und Sprecher widerspiegelt, ist durchaus eine offene Frage. In diesem Beitrag berichten wir aus einer rezenten Erhebung über Spracheinstellungen in Deutschland. Wir zeigen, dass die Art der Frageformulierung einen starken Einfluss auf die Ergebnisse hat, und berichten, welche sprachlichen Veränderungen die Befragten in jüngerer Zeit angeben, wahrgenommen zu haben.
Bislang gibt es keine akkuraten, repräsentativen Statistiken dazu, welche Sprachen in Deutschland gesprochen werden. Zwar wird in verschiedenen Erhebungen nach Muttersprachen oder nach zuhause gesprochenen Sprachen gefragt; aufgrund einiger Mängel im Erhebungsdesign bilden die Ergebnisse der vorliegenden Erhebungen jedoch die sprachliche Realität der in Deutschland lebenden Bevölkerung nicht angemessen ab. Im Beitrag wird anhand von drei Erhebungen gezeigt, dass bereits die Instrumente zur Erhebung von Sprache von Spracheinstellungen geprägt sind und dass dadurch die Gültigkeit der Ergebnisse stark eingeschränkt wird. Diese Mängel gelten für Sprachstatistiken im Hinblick auf die gesamte Bevölkerung Deutschlands – Kinder und Jugendliche eingeschlossen.
Das Leibniz-Institut für Deutsche Sprache (IDS) führt seit den 1990er Jahren regelmäßig Repräsentativerhebungen zu sprachlichen Fragen durch. Über die letzten Umfragen, die Deutschland-Erhebung 2017 und die Erhebung Dialekt und Beruf 2019, wurde bereits in dieser Reihe berichtet. Informationen über die Deutschland-Erhebung 2017 finden sich in Folge 1 bis 6 dieser Reihe. In den Folgen 7 bis 9 wurden Ergebnisse der Erhebung Dialekt und Beruf 2019 vorgestellt. Im Winter 2022 hat das IDS eine neue Repräsentativumfrage durchgeführt: die Deutschland-Erhebung 2022. Darin wurden Einstellungen zum Deutschen und anderen Sprachen sowie die Wahrnehmung von sprachlichen Veränderungen erfasst. In dieser Folge 10 werden die Erhebung und erste Ergebnisse vorgestellt
Welche Veränderungen fallen Menschen in der deutschen Sprache auf? Sprache in Zahlen: Folge 11
(2023)
Dieser Aufsatz behandelt einige offene Fragen des funktionalistischen Ansatzes. Im 1. Abschnitt wird die von Kanngießer postulierte Matrix des funktionalistischen Ansatzes (F-Matrix) - speziell hinsichtlich ihres Erklärungsbegriffs - dargestellt. Im Abschnitt 2.1 wird gegen die Auffassung argumentiert, daß die F-Matrix über einen - methodologisch gesehen - eigenständigen Erklärungstyp verfügt. In 2.2 wird zudem gezeigt, daß es nicht sinnvoll ist, für funktionale Spracherklärungen ein funktionalistisches Erklärungsschema - wie z.B. Stegmüller (1969) es expliziert - in Anspruch zu nehmen. Im Rahmen der Argumentation in diesem 2. Abschnitt wird die Auffassung der Verfasser herausgearbeitet, daß das Spezifische des funktionalistischen Ansatzes nicht in einem eigenständigen Erklärungstyp, sondern in besonderen Gesetzen besteht. Definierend für die F-Matrix ist die Hypothese der Sprachfunktionalität bzw. eine Klasse (noch zu findender) Gesetze, die Zusammenhänge zwischen bestimmten Gesellschaftsstrukturen und spezifischen Kommunikationsbedürfnissen bzw. zwischen bestimmten Kommunikationsbedürfnissen und spezifischen Sprachsachverhalten beschreiben. Die Hypothese der Sprachfunktionalität fungiert dabei als forschungsleitende Orientierungshypothese, indem sie die Menge der möglichen Füllungen der wenn- und dann-Komponenten von Gesetzen restringiert. Abschnitt 3 zeigt die Notwendigkeit der Präzisierung, Operationalisierung und empirischen Prüfung der Hypothese der Sprachfunktionalität und diskutiert Möglichkeiten, wie dies geschehen kann. Abschnitt 4 problematisiert die Hypothese der Sprachfunktionalität in Hinsicht auf die Möglichkeit der Erklärung von Sprachentwicklung, indem der Zusammenhang von Kommunikationsbedürfnissen und Sprachsachverhalten thematisiert wird. Abschließend werden im 5. Abschnitt einige Theoriebildungen der Sprachwissenschaft, die mit dem funktionalistischen Ansatz affin sind, diskutiert, und es wird dargelegt, in welcher Hinsicht die F-Matrix ein sinnvolles Forschungsprogramm ist.
Das Centre de Sociologie de l’Innovation (CSI) der Ecole des Mines in Paris ist eine Hochburg der Wissenschaftssoziologie, an der die Arbeiten von Bruno Latour und Michel Callon erstellt wurden. Deren Untersuchungen haben eine Reihe von Analysen der wissenschaftlichen Praktiken ausgelöst, die manchmal – vor allem in der angelsächsischen Literatur – unter dem Begriff „Actor-Network-Theory“ (ANT) zusammengefasst werden. Dieser fundamentale Beitrag zur Wissenschaftssoziologie zeichnet sich aus durch eine gesteigerte Aufmerksamkeit sowohl gegenüber den Praktiken der Wissenschaftler, der „science in action“, den Objekten, den Artefakten und den technischen Vorrichtungen als auch gegenüber den Netzwerken, in denen sich Menschen und Nicht-Menschen zusammenfügen und im Umlauf sind. Eine Gruppe von Forschern des CSI, Madeleine Akrich, Antoine Hennion und Vololona Rabeharisoa, hat freundlicherweise eingewilligt, im folgenden Text sehr frei über die Thematik des vorliegenden ZBBS-Heftes und über die Art und Weise zu diskutieren, in der sie sich in ihren Forschungsfeldern und in ihren Arbeiten gegenüber den Fragen positionieren, die durch die Berücksichtigung der sozialen Interaktionen in wissenschaftlichen Arbeitsvollzügen aufgeworfen werden.
Although the N400 was originally discovered in a paradigm designed to elicit a P300 (Kutas and Hillyard, 1980), its relationship with the P300 and how both overlapping event-related potentials (ERPs) determine behavioral profiles is still elusive. Here we conducted an ERP (N = 20) and a multiple-response speed-accuracy tradeoff (SAT) experiment (N = 16) on distinct participant samples using an antonym paradigm (The opposite of black is white/nice/yellow with acceptability judgment). We hypothesized that SAT profiles incorporate processes of task-related decision-making (P300) and stimulus-related expectation violation (N400). We replicated previous ERP results (Roehm et al., 2007): in the correct condition (white), the expected target elicits a P300, while both expectation violations engender an N400 [reduced for related (yellow) vs. unrelated targets (nice)]. Using multivariate Bayesian mixed-effects models, we modeled the P300 and N400 responses simultaneously and found that correlation between residuals and subject-level random effects of each response window was minimal, suggesting that the components are largely independent. For the SAT data, we found that antonyms and unrelated targets had a similar slope (rate of increase in accuracy over time) and an asymptote at ceiling, while related targets showed both a lower slope and a lower asymptote, reaching only approximately 80% accuracy. Using a GLMM-based approach (Davidson and Martin, 2013), we modeled these dynamics using response time and condition as predictors. Replacing the predictor for condition with the averaged P300 and N400 amplitudes from the ERP experiment, we achieved identical model performance. We then examined the piecewise contribution of the P300 and N400 amplitudes with partial effects (see Hohenstein and Kliegl, 2015). Unsurprisingly, the P300 amplitude was the strongest contributor to the SAT-curve in the antonym condition and the N400 was the strongest contributor in the unrelated condition. In brief, this is the first demonstration of how overlapping ERP responses in one sample of participants predict behavioral SAT profiles of another sample. The P300 and N400 reflect two independent but interacting processes and the competition between these processes is reflected differently in behavioral parameters of speed and accuracy.
In this paper, the author studies the role of the dictionary in the first language acquisition, highlighting its didactic value. Based on two Romanian lexicographical works of the 19th century, Lexiconul de la Buda (Buda, 1825) [the Lexicon of Buda] et Vocabularu romano-francesu (Bucarest, 1870) [the Romanian-French Vocabulary], the author analyses the normative information recorded in the articles in order to observe which level of language (i. e. phonetical, morphological, syntactical and lexical) is concerned. Such an approach allows to distinguish between the possible changings both at the level of the perception or at the grammatical, lexical and semantical description, i. e. the settlement of the word in the first language, and at a technical level, i. e. the making of article and of dictionary.
Beim Lesen stolpert man über den unscheinbaren Artikel den. Muss das nicht dem heißen? Richtig. Die lokale Angabe am Stadioneingang und die temporale Angabe am Sonntag stehen im Dativ, wie sich eindeutig an dem definiten Artikel dem erkennen lässt, der hier mit der Präposition an zu am verschmolzen ist. Und der Artikel, der nach dem Komma folgt und den ‚lockere‘ oder
‚lose Apposition‘ genannten Nachtrag einleitet, bezieht sich ebenfalls auf Stadioneingang bzw. Sonntag und sollte mit diesem Bezugsnomen kongruieren, das heißt ebenfalls im Dativ – und nicht wie in den Beispielen in im Akkusativ – stehen.
Preface
(2019)
Preface
(2020)
Physicists look at language
(2006)
This paper aims at verifying if the most important online Brazilian Portuguese dictionaries include some of the neologisms identified in texts published in the 1990s to 2000s, formed with the elements ciber-, e-, bio-, eco- and narco, which we refer to as fractomorphemes / fracto-morphèmes. Three online dictionaries were analyzed (Aulete, Houaiss and Michaelis), as well as Vocabulário Ortográfico da Língua Portuguesa (VOLP). We were able to conclude that all three dictionaries and VOLP include neologisms with these elements; Michaelis and VOLP do not include separate entries for bound morphemes, whereas Houaiss includes entries for all of them and Aulete includes entries for bio-, eco- and narco-. Aulete also describes the neological meaning of eco- and narco-, whereas Houaiss does not.
This White Paper sets out commonly agreed definitions on activities of consortia within NFDI. It aims to provide a common basis for reporting and reference regarding selected questions of cross-consortial relevance in DFG’s template for the Interim Reports. The questions were prioritised by an NFDI Task Force on Evaluation and Reporting (formerly Task Force Monitoring) as a result of discussing possible answers to the DFG template. In this process the need to agree on a generalizable meaning of terms commonly used in the context of NFDI, and reporting in particular, were identified from cross-consortial perspectives. Questions that showed the highest requirement on clarification are discussed in this White Paper. As NFDI evolves, the Task Force will likely propose further joint approaches for reporting in information infrastructures.
While each of broad relevance, the questions addressed relate to substantially different aspects of consortia’s work. They are thus also structured slightly different.
In der Bund-Länder-Vereinbarung (BLV) zu Aufbau und Förderung einer Nationalen Forschungsdateninfrastruktur (NFDI) (im Folgenden BLV-NFDI) wird in §1 festgehalten, dass mit der Förderung "eine Etablierung und Fortentwicklung eines übergreifenden Forschungsdatenmanagements" und damit eine "Steigerung der Effizienz des gesamten Wissenschaftssystems verfolgt" wird. In der BLV-NFDI werden dazu sieben Ziele vorgegeben, die eine Verfeinerung dieser Hauptziele darstellen. Dieses White Paper formuliert das gemeinsame Verständnis der beteiligten Konsortien für die sieben in der BLV-NFDI vorgegebenen Ziele. Auf der Grundlage dieses Verständnisses hat die Task Force Evaluation und Reporting Vorschläge gemacht, wie das Erreichen der Ziele erfasst, beschrieben und gemessen werden kann.
Collaborative work in NFDI
(2023)
The non-profit association National Research Data Infrastructure (NFDI) promotes science and research through a National Research Data Infrastructure. Its aim is to develop and establish an overarching research data management (RDM) for Germany and to increase the efficiency of the entire German science system. After a two-and-a-half year build up phase, the process of adding new consortia, each representing a different data domain, has ended in March 2023. NFDI now has 26 disciplinary consortia (and one additional basic service collaboration). Now the full extent of cross-consortial interaction is beginning to show.
The automatic recognition of idioms poses a challenging problem for NLP applications. Whereas native speakers can intuitively handle multiword expressions whose compositional meanings are hard to trace back to individual word semantics, there is still ample scope for improvement regarding computational approaches. We assume that idiomatic constructions can be characterized by gradual intensities of semantic non-compositionality, formal fixedness, and unusual usage context, and introduce a number of measures for these characteristics, comprising count-based and predictive collocation measures together with measures of context (un)similarity. We evaluate our approach on a manually labelled gold standard, derived from a corpus of German pop lyrics. To this end, we apply a Random Forest classifier to analyze the individual contribution of features for automatically detecting idioms, and study the trade-off between recall and precision. Finally, we evaluate the classifier on an independent dataset of idioms extracted from a list of Wikipedia idioms, achieving state-of-the art accuracy.
In order to differentiate between figurative and literal usage of verb-noun combinations for the shared task on the disambiguation of German Verbal Idioms issued for KONVENS 2021, we apply and extend an approach originally developed for detecting idioms in a dataset consisting of random ngram samples. The classification is done by implementing a rather shallow, statistics-based pipeline without intensive preprocessing and examinations on the morphosyntactic and semantic level. We describe the overall approach, the differences between the original dataset and the dataset of the KONVENS task, provide experimental classification results, and analyse the individual contributions of our feature sets.
Zunächst wird die verbreitete Auffassung von der regionalen Einheitlichkeit des Standarddeutschen, oder auch von Standardsprachen generell, problematisiert. Stattdessen wird die nationale und regionale Variation auch des Standarddeutschen verdeutlicht und werden die zu ihrer Beschreibung notwendigen Termini und Begriffe eingeführt. Angesichts der Variabilität des Standards stellt sich besonders dringlich die Frage, welche Sprachformen denn standardsprachlich sind und welche nicht. Hinter dieser auf Definition und Beschreibung abhebenden Frage erhebt sich die weitere, auf Erklärung abzielende, wer denn festlegt, welche Sprachformen standardsprachlich sind. Der Beitrag bemüht sich vor allem um eine Antwort auf diese letztgenannte Frage. Hierzu werden zunächst einmal vier für die Festlegung sprachlicher Standards maßgebliche soziale Kräfte identifiziert: Die Sprachkodifizierer (die den Sprachkodex erstellen), die Modellsprecher und -schreiber (an deren Texten sich die Kodifizierer orientieren), die Sprachexperten (die auf die Kodifizierer kritisch einwirken) und die Sprachnormautoritäten (welche die standardsprachlichen Normen durchsetzen). Das Zusammenspiel dieser maßgeblichen gesellschaftlichen Kräfte wird eingehend dargestellt und an Beispielen verdeutlicht. Abschließend werden die für die Einführung und den Wandel standardsprachlicher Normen ebenfalls wesentlichen Begriffe der ,Existenz‘, ,Gültigkeit (Validität)“ und ,Legitimität von Normen‘ expliziert.