Refine
Year of publication
Document Type
- Part of a Book (4500)
- Article (2966)
- Book (996)
- Conference Proceeding (688)
- Part of Periodical (308)
- Review (257)
- Other (151)
- Working Paper (83)
- Doctoral Thesis (68)
- Report (35)
Language
- German (8078)
- English (1765)
- Russian (145)
- French (38)
- Multiple languages (22)
- Spanish (16)
- Portuguese (14)
- Italian (9)
- Polish (7)
- Ukrainian (5)
Keywords
- Deutsch (5140)
- Korpus <Linguistik> (940)
- Wörterbuch (605)
- Konversationsanalyse (451)
- Rezension (423)
- Grammatik (405)
- Rechtschreibung (374)
- Gesprochene Sprache (361)
- Sprachgebrauch (356)
- Interaktion (339)
Publicationstate
- Veröffentlichungsversion (3883)
- Zweitveröffentlichung (1642)
- Postprint (395)
- Preprint (10)
- Erstveröffentlichung (8)
- Ahead of Print (7)
- (Verlags)-Lektorat (4)
- Hybrides Open Access (2)
- Verlags-Lektorat (1)
- Verlagsveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (3836)
- Peer-Review (1596)
- Verlags-Lektorat (94)
- Peer-review (56)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (44)
- Review-Status-unbekannt (14)
- Peer-Revied (12)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (10)
- (Verlags-)Lektorat (9)
- Verlagslektorat (5)
Publisher
- de Gruyter (1334)
- Institut für Deutsche Sprache (1091)
- Schwann (638)
- Narr (484)
- Leibniz-Institut für Deutsche Sprache (IDS) (263)
- De Gruyter (245)
- Niemeyer (200)
- Lang (184)
- Narr Francke Attempto (170)
- IDS-Verlag (144)
Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
(2021)
Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.
Ziel des folgenden Beitrags ist eine vergleichende Gegenüberstellung der elektronischen Wörterbücher
ELDIT („Elektronisches Lernerwörterbuch Deutsch-Italienisch“) und elexiko. Im Mittelpunkt der Darstellung stehen ein allgemeiner Überblick und die Beschreibungen der beiden Benutzerschnittstellen mit entsprechenden Hintergrundinformationen sowie ein technischer Vergleich der beiden Systeme in tabellarischer Form. Die Synopse zeigt, dass beide Wörterbücher einerseits eine Reihe von Gemeinsamkeiten aufweisen, die unter anderem in der modularen Struktur und im Zugang zu einzelnen Angabeklassen, aber auch in den eingesetzten Technologien und der Hypermedianutzung bestehen, andererseits unterscheiden sie sich wesentlich voneinander. Aus den möglichen Konstellationen verschiedener Parameter (Adressat, Fachgebiet, Zweck/Benutzungssituation, Medium) ergeben sich nämlich jeweils spezifische Anforderungen, die eine differenzierte Ausgestaltung nicht nur dieser, sondern ein- oder mehrsprachiger Benutzerschnittstellen im Allgemeinen auf mehreren Ebenen nötig machen.
The focus of this paper will be on lexical information systems and the framework guidelines for the definition of the curricula within the educational system of the Autonomous Province of Bolzano/ Bozen (Italy). In Italy, the competences to be achieved at different school levels are published in the form of general guidelines. On this basis each school has to specify the general competency goals and to spell them out in a concrete curriculum. In this paper I will examine to what extent lexical information systems are represented in the framework guidelines within the German and the Italian educational system of the Autonomous Province, these being separate systems. In a second step, I will check the representations of the resources against the “Villa Vigoni Theses on Lexicography“. Finally, I will discuss the results and give an outlook for further research.
Wie wirkt sich das Schreiben kürzerer Texte in interaktionsorienterter Online-Kommunikation langfristig auf das Schreiben und die Qualität monologischer Texte aus? Auf diese Frage geht der Beitrag ein und präsentiert dazu empirische Daten aus einer Korpus-Vergleichsstudie, in der die Verwendung ausgewählter Konnektoren in einem Facebook-Korpus quantitativ und qualitativ analysiert und mit der Verwendung in dialogischen Texten von Wikipedia-Diskussionsseiten einerseits und in monologischen Texten wie Zeitungskommentaren und Schulertexten anderseits verglichen wurde. Die Analysen fokussieren darauf, wie Konnektoren in Online-Texten eingesetzt werden, ob sich spezifische Online-Verwendungen etablieren und ob „Spuren“ typischer Online-Verwendungen auch in normgebundener Umgebung nachweisbar sind.
Heute wird mehr geschrieben als je zuvor und die digitale Kommunikation trägt wesentlich dazu bei; ein großer Teil des heutigen Schreibens ist dialogisches Schreiben im Alltag. Konsequenterweise wird die Online-Kommunikation zunehmend Thema in Bildungskontexten und in der Deutschdidaktik. Offen ist aber weiterhin, wie Texte des interaktionsorientierten Schreibens bewertet werden sollen, die sich von solchen des textorientierten Schreibens in vielerlei Hinsicht unterscheiden können. Während es für textorientiertes Schreiben Normen gibt, die in Sprachkodizes erfasst sind, ist es nicht klar, was der Bezugspunkt für interaktionsorientierte Texte sein könnte. In diesem Beitrag analysieren wir die Verwendung von Konnektoren in der Online-Kommunikation und die Repräsentation von online-spezifischen Besonderheiten in Sprachressourcen. Die Ergebnisse zeigen, dass spezifische Online-Verwendungsweisen von Konnektoren in Sprachkodizes kaum berücksichtigt und beschrieben werden.
Das Kommunizieren in Sozialen Medien und der Umgang mit Hypertexten ist im Jahr 2020 kein Randphänomen mehr. Die sprachlichen Besonderheiten internetbasierter Kommunikation und Sozialer Medien sind mittlerweile auch gut erforscht und beschrieben, allerdings werden diese bislang in deutschen Grammatiken, mit Ausnahme von Hoffmann (2014), allenfalls am Rande behandelt. Selbst neuere Ansätze zur Textanalyse, z. B. Ágel (2017), konzentrieren sich auf gestaltstabile, linear organisierte Schrifttexte. Dasselbe gilt für Ansätze, die primär für die Bewertung von Schreibprodukten in Bildungskontexten entwickelt wurden.
The changes caused by the growing automatisation of processes in the lexicographer´s workstation and in lexicographic work, together with the ensuing needs of lexicographers and their demands for adequately targeted software, have not been discussed sufficiently in meta-lexicographic research. The aim of this paper is therefore to fill this gap, with a focus on academic non-commercial lexicography. After an introduction into the general functionalities of specific dictionary writing software, with the help of a real-life example we will discuss the lexicographic working environment, the new specific demands to lexicographic software as well as different tools. The final aim is to propose some recommendations for how to structure the lexicographic working environment to meet specific project requirements.
Der "ethische" Dativ
(1971)
Zur Linguistik der Metapher
(1975)
Personalpronomina und ihre reduzierten und klitischen Formen stehen an markanten Satzpositionen, die sich von der Position der koreferenten vollen Nomina grundsätzlich unterscheiden. Sie erscheinen allerdings in manchen Sprachen verbbezogen als Enklitika, in anderen als Proklitika. Es wird zuerst erwogen,diese enklitische bzw. proklitische Position von der grundlegenden Linearitätstypologie im greenbergschen Sinne (SVO und SOV/VSO) abhängig zu machen. Wiewohl prinzipiell richtig zwingen klitische Pronomina im Skandinavischen sowie die Klitikstellung in Nichtdeklarativen zur Annahme,nach der ersten (rechtesten) thematischen Diskursposition im strukturellen Satzschema als Ort für die schwachen Pronominalformen zu suchen. Diese Annahme erscheint für eine Reihe von nichtverwandten Sprachen als haltbar. Im Blickpunkt stehen Sprachen aus den drei greenbergschen Haupttypen: SVO als V-mittelständigen Sprachen sowie SOV/VSO als V-randständige Sprachen. Je nachdem wie nichtdeklarative Satze sich aus den zugrundegelegten Strukturen ableiten, erreicht das pronominale Klitikum eine enklitische oder eine postklitische Position,die sich dadurch auszeichnet,daß sie die rechteste diskursfunktionale Themaposition ist. Diese Einsicht macht die strukturelle Verschiebung der schwachen Pronomina systematisch ableit- und voraussagbar.
Gehören nun die Männer an den Herd? Anmerkungen zum Wandel der Rollenbilder von Mann und Frau
(2015)
In der vorliegenden Arbeit werden die Gliederungsprinzipien von schriftlichen argumentativen Texten im Deutschen und Japanischen am Beispiel der Textsorte „Leitartikel/Kommentare“ aus sprechakttheoretischer Sicht kontrastiert. Ziel der Untersuchung ist, die Gliederungsmittel zwischen satzübergreifenden Einheiten und die Verknüpfungsmittel innerhalb der Einheit in argumentativen Texten zu beschreiben. Dabei soll herausgearbeitet werden, wie ein argumentativer Text genau strukturiert ist und welche Funktionen die einzelnen satzübergreifenden Einheiten bzw. die Textkonstituenten haben. Die Untersuchung soll schließlich zur Erhellung des Zusammenhangs zwischen der Argumentationsstruktur und dem Textaufbau bzw. den Gliederungsprinzipien in deutschen und japanischen Leitartikeln/Kommentaren führen.
Die sprachliche Situation im Kanton Graubünden, wo eine Vielzahl von italienischen, romanischen und deutschen Varietäten in lang andauerndem Kontakt stehen, ist bisher nur wenig beschrieben, eine wahrnehmungslinguistische Untersuchung steht noch ganz aus. Ausgehend von der Annahme, dass Salienz abhängig vom eigenen sprachlichen System und vom Sprecherwissen ist, wurde ein Experiment konzipiert, bei dem Hörer aus Graubünden und Zürich Aufnahmen aus drei Bündner Orten, in denen Rätoromanisch und Deutsch in unterschiedlichen Kontaktverhältnissen stehen, hören und kommentieren sollten. Dabei konnte gezeigt werden, dass Bündner aufgrund ihres Sprecherwissens über die Variation in Graubünden andere Merkmale wahrgenommen und die Aufnahmen anders charakterisiert haben als Zürcher.
The aim of this work is to describe criteria used in the process of inclusion and treatment of neologisms in dictionaries of Spanish within the framework of pandemic instability. Our starting point will be data obtained by the Antenas Neológicas Network (https://www.upf.edu/web/antenas), whose representation in three different lexicographic tools will be analyzed with the purpose of identifying problems in the methodology used to dictionarize – that is, how and what words were selected to be included in dictionaries and how they were represented in their entries – neologisms during the COVID-19 pandemic (sources and corpora of analysis, selection criteria, types of definition, among other aspects). Two of them are monolingual and COVID-19 lexical units were included as part of their updates: the Antenario, a dictionary of neologisms of Spanish varieties, and the Diccionario de la Lengua Española [DLE], a dictionary of general Spanish, published by the Real Academia Española [RAE], Spanish Royal Academy). The other is a bilingual unidirectional English-Spanish dictionary first published as a glossary, Diccionario de COVID-19 EN-ES [TREMEDICA], entirely made up of neological and non-neological lexical units related to the virus and the pandemic. Thus, the target lexis was either included in existing works or makes up the whole of a new tool located in a portal together with other lexicographic tools. Unlike other collections of COVID-19 vocabulary that kept cropping up as the pandemic unfolded, all three have been designed and written according to well-established lexicographic practices.
Our working hypothesis is that the need to record and define words which were recently created impacts the criteria for inclusion and treatment of neologisms in dictionaries about Spanish, including a certain degree of overlap of some features which are traditionally thought to be specific to each type of dictionary.
The annual microcensus provides Germany’s most important official statistics. Unlike a census it does not cover the whole population, but a representative 1%-sample of it. In 2017, the German microcensus asked a question on the language of the population, i.e. ‘Which language is mainly spoken in your household?’ Unfortunately, the question, its design and its position within the whole microcensus’ questionnaire feature several shortcomings. The main shortcoming is that multilingual repertoires cannot be captured by it. Recommendations for the improvement of the microcensus’ language question: first and foremost the question (i.e. its wording, design, and answer options) should make it possible to count multilingual repertoires.
Seit 2017 wird im deutschen Mikrozensus eine Frage zur Sprache der Bevölkerung gestellt. Die letzte Spracherhebung in einem deutschen Zensus datiert aus dem Jahr 1939; entsprechend gibt es aktuell keine aussagekräftigen Sprachstatistiken in Deutschland. Die neue Sprachfrage des Mikrozensus weist jedoch erhebliche Mängel auf; offensichtlich wurde sie als Stellvertreterfrage zur Messung kultureller Integration konzipiert. Im vorliegenden Text werden die Fragen diskutiert und ihre ersten Ergebnisse analysiert. Daran anschließend werden andere Varianten von Sprachfragen dargestellt, dabei wird insbesondere auf die vorbildlichen Sprachfragen im kanadischen Zensus eingegangen. Abschließend wird die Sprachfrage der Deutschland-Erhebung 2018 des IDS inklusive ihrer Ergebnisse vorgestellt; die Deutschland-Erhebung 2018 stellt neben dem Mikrozensus bislang die einzige repräsentative Spracherhebung in Deutschland dar.
This paper explores how attitudes affect the seemingly objective process of counting speakers of varieties using the example of Low German, Germany’s sole regional language. The initial focus is on the basic taxonomy of classifying a variety as a language or a dialect. Three representative surveys then provide data for the analysis: the Germany Survey 2008, the Northern Germany Survey 2016, and the Germany Survey 2017. The results of these surveys indicate that there is no consensus concerning the evaluation of Low German’s status and that attitudes towards Low German are related to, for example, proficiency in the language. These attitudes are shown to matter when counting speakers of Low German and investigating the status it has been accorded.
2017 gibt es im deutschen Mikrozensus zum ersten Mal seit etwa achtzig Jahren eine Frage zur Sprache der Bevölkerung in Deutschland. Diese Frage wird dann offenbar im entsprechenden Rhythmus des Mikrozensus jährlich wiederholt werden. Der Mikrozensus ist eine seit 1957 durchgeführte, repräsentative Befragung, bei der ungefähr 830.000 Menschen (das sind ca. 1 % der Bevölkerung) in rund 370.000 Haushalten befragt werden.1 Darin werden etwa Angaben zu den soziodemographischen Daten erfragt, zur familiären Situation, zur Wohnsituation, zur Aus- und Fortbildung und zur Arbeitssituation. Für die befragten Personen besteht Auskunftspflicht. Das Stellen einer Sprachfrage sieht, aus sprachwissenschaftlicher Sicht, zunächst nach einem sinnvollen und wünschenswerten Schritt aus. Nach näherer Betrachtung der gestellten Frage zeigen sich jedoch viele Unzulänglichkeiten und das, obwohl die Antworten und statistischen Auswertungen zu dieser Frage überhaupt noch ausstehen. Die Ergebnisse werden üblicherweise in der zweiten Hälfte des Folgejahres durch das statistische Bundesamt veröffentlicht.
Language attitudes matter; they influence people’s behaviour and decisions. Therefore, it is crucial to learn more about patterns in the way that languages are evaluated. One means of doing so is using a quantitative approach with data representative of a whole population, so that results mirror dispositions at a societal level. This kind of approach is adopted here, with a focus on the situation in Germany. The article consists of two parts. First, I will present some results of a new representative survey on language attitudes in Germany (the Germany Survey 2017). Second, I will show how language attitudes penetrate even seemingly objective data collection processes by examining the German Microcensus. In 2017, for the first time in eighty years, the German Microcensus included a question on language use ‘at home’. Unfortunately, however, the question was clearly tainted by language attitudes instead of being objective. As a result, the Microcensus significantly misrepresents the linguistic reality of different migrant languages spoken in Germany.
Germany's (single) national official language is German. The dominance of German in schools, politics, the legal system, administration and the entire written public domain is so great that for a long time the lack of a coherent language policy was not seen as a problem. State restraint in this area is due, on the one hand, to historical reasons; on the other hand, it has been promoted by the federal system in Germany, which grants the federal states far-reaching responsibilities in the fields of education and culture. More recently, multilingualism among the population has increased and has resulted in a growing interest in understanding the language situation in Germany and (in particular) taking a closer look at the different minority languages. In 2017, for the first time in about 80 years, there is a question on the language of the population in the German micro census. The Institute for the German Language has also carried out various representative surveys; in the winter of 2017/201, a large representative survey with questions on the language repertoire and language attitudes is in the field.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache?
Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache? Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Who understands Low German today and who can speak it? Who makes use of media and cultural events in Low German? What images do people in northern Germany associate with Low German and what is their view of their regional language?
These and further questions are answered in this brochure with the help of representative data collected in a telephone survey of a total of 1,632 people from eight federal states (Bremen, Hamburg, Lower Saxony, Mecklenburg-West Pomerania and Schleswig-Holstein as well as Brandenburg, North Rhine-Westphalia and Saxony-Anhalt).
Studenten, StudentInnen, Studierende? Aktuelle Verwendungspräferenzen bei Personenbezeichnungen
(2020)
Im Beitrag werden Meinungen und Einstellungen zur geschlechtergerechten Sprache dargestellt. Dazu werden verschiedene Möglichkeiten für die Bezeichnung von Personen, die studieren, in den Blick genommen. Diese werden zunächst beschrieben und ihre Frequenzen im Deutschen Referenzkorpus ausgewertet. Anschließend werden explizit die Meinungen und Einstellungen behandelt. Dafür werden die Daten der Deutschland-Erhebung 2008 und der Deutschland-Erhebung 2017 ausgewertet. In der aktuellen Erhebung wurden laienlinguistische Verwendungspräferenzen von Personenbezeichnungen erhoben; präferiert wird von den meisten Befragten die Partizipialform (den Studierenden). Die Verwendungspräferenzen hangen vor allem mit dem Alter der Befragten und ihrer politischen Orientierung zusammen. Insgesamt zeigt sich jedoch, dass das Thema der geschlechtergerechten Sprache für die meisten Befragten nur eine untergeordnete Rolle spielt.
In diesem Beitrag werden neue, repräsentative Daten zur arealen Variation in Deutschland vorgestellt, die das Leibniz-Institut für Deutsche Sprache im Rahmen der Innovationsstichprobe des Sozio-ökonomischen Panels (SOEP) des Deutschen Instituts für Wirtschaftsforschung (DIW) in der Befragungsrunde 2017/2018 erhoben hat. Zum einen wurde die Dialektkompetenz abgefragt; überindividuell zeigt sich hier das bekannte Nord-Süd-Gefälle, beim individuellen Grad der Kompetenz der Dialektsprecher gibt es aber regional nur geringe Unterschiede. Zum anderen wurden die Bewertungen von Dialekten erhoben; hier werden Norddeutsch und Bayerisch besonders positiv, Sächsisch hingegen besonders negativ bewertet, wobei regionale Muster eine Rolle spielen. Auffällig ist ferner die bundesweit sehr einheitlich positive Bewertung des Hochdeutschen.
Thema des Beitrags ist die Frage, wie in einer quantitativen Herangehensweise die Spracheinstellungen von linguistischen Laien erfasst werden können. Das IDS hat 2017/18 im Rahmen des Sozio-oekonomischen Panels (SOEP) des Deutschen Instituts für Wirtschaftsforschung (DIW) eine neue bundesweite Repräsentativerhebung zu Spracheinstellungen durchgeführt. Im Beitrag präsentieren wir erste Ergebnisse dieser Erhebung und verknüpfen sie mit früheren Erhebungen. In drei Abschnitten befassen wir uns mit der Bewertung von regionalen Varietäten des Deutschen und der Bewertung des Standards, mit Meinungen zu sprachlichem Gendern sowie, aus einer methodischen Perspektive, mit der Erhebung von sprachlichen Daten im deutschen Mikrozensus.
Sprecher haben (oft unbewusste) Meinungen und Einstellungen zu Sprachen und Varietäten. Ein Weg, solche Spracheinstellungen zu erfassen, führt über quantitative Verfahren (Fragebogen mit offenen und geschlossenen Fragen), mit denen man Daten großer Gruppen – im Idealfall repräsentativ – erheben kann. Im Beitrag werden solche Erhebungen, die am Institut für Deutsche Sprache durchgeführt wurden, vorgestellt, und es werden zwei Instrumente der Spracheinstellungsforschung, die dabei zum Einsatz kamen, naher erläutert: das Allgemeine Sprachbewertungsinstrument (ASBI) und die Attitudes-Towards-Languages-Skala (AToL). Außerdem wird gezeigt, wie dialektometrische Auswertungs- und Visualisierungsverfahren auf Einstellungsdaten angewendet werden können.
Öffentliche Sprachdiskurse, wie sie beispielsweise in den Medien stattfinden, werden typischerweise aus einer sprachkritischen Haltung heraus geführt. Inwieweit diese veröffentlichte Meinung tatsächlich die Mehrheitsmeinung der Sprecherinnen und Sprecher widerspiegelt, ist durchaus eine offene Frage. In diesem Beitrag berichten wir aus einer rezenten Erhebung über Spracheinstellungen in Deutschland. Wir zeigen, dass die Art der Frageformulierung einen starken Einfluss auf die Ergebnisse hat, und berichten, welche sprachlichen Veränderungen die Befragten in jüngerer Zeit angeben, wahrgenommen zu haben.
Bislang gibt es keine akkuraten, repräsentativen Statistiken dazu, welche Sprachen in Deutschland gesprochen werden. Zwar wird in verschiedenen Erhebungen nach Muttersprachen oder nach zuhause gesprochenen Sprachen gefragt; aufgrund einiger Mängel im Erhebungsdesign bilden die Ergebnisse der vorliegenden Erhebungen jedoch die sprachliche Realität der in Deutschland lebenden Bevölkerung nicht angemessen ab. Im Beitrag wird anhand von drei Erhebungen gezeigt, dass bereits die Instrumente zur Erhebung von Sprache von Spracheinstellungen geprägt sind und dass dadurch die Gültigkeit der Ergebnisse stark eingeschränkt wird. Diese Mängel gelten für Sprachstatistiken im Hinblick auf die gesamte Bevölkerung Deutschlands – Kinder und Jugendliche eingeschlossen.
Das Leibniz-Institut für Deutsche Sprache (IDS) führt seit den 1990er Jahren regelmäßig Repräsentativerhebungen zu sprachlichen Fragen durch. Über die letzten Umfragen, die Deutschland-Erhebung 2017 und die Erhebung Dialekt und Beruf 2019, wurde bereits in dieser Reihe berichtet. Informationen über die Deutschland-Erhebung 2017 finden sich in Folge 1 bis 6 dieser Reihe. In den Folgen 7 bis 9 wurden Ergebnisse der Erhebung Dialekt und Beruf 2019 vorgestellt. Im Winter 2022 hat das IDS eine neue Repräsentativumfrage durchgeführt: die Deutschland-Erhebung 2022. Darin wurden Einstellungen zum Deutschen und anderen Sprachen sowie die Wahrnehmung von sprachlichen Veränderungen erfasst. In dieser Folge 10 werden die Erhebung und erste Ergebnisse vorgestellt
Welche Veränderungen fallen Menschen in der deutschen Sprache auf? Sprache in Zahlen: Folge 11
(2023)
Dieser Aufsatz behandelt einige offene Fragen des funktionalistischen Ansatzes. Im 1. Abschnitt wird die von Kanngießer postulierte Matrix des funktionalistischen Ansatzes (F-Matrix) - speziell hinsichtlich ihres Erklärungsbegriffs - dargestellt. Im Abschnitt 2.1 wird gegen die Auffassung argumentiert, daß die F-Matrix über einen - methodologisch gesehen - eigenständigen Erklärungstyp verfügt. In 2.2 wird zudem gezeigt, daß es nicht sinnvoll ist, für funktionale Spracherklärungen ein funktionalistisches Erklärungsschema - wie z.B. Stegmüller (1969) es expliziert - in Anspruch zu nehmen. Im Rahmen der Argumentation in diesem 2. Abschnitt wird die Auffassung der Verfasser herausgearbeitet, daß das Spezifische des funktionalistischen Ansatzes nicht in einem eigenständigen Erklärungstyp, sondern in besonderen Gesetzen besteht. Definierend für die F-Matrix ist die Hypothese der Sprachfunktionalität bzw. eine Klasse (noch zu findender) Gesetze, die Zusammenhänge zwischen bestimmten Gesellschaftsstrukturen und spezifischen Kommunikationsbedürfnissen bzw. zwischen bestimmten Kommunikationsbedürfnissen und spezifischen Sprachsachverhalten beschreiben. Die Hypothese der Sprachfunktionalität fungiert dabei als forschungsleitende Orientierungshypothese, indem sie die Menge der möglichen Füllungen der wenn- und dann-Komponenten von Gesetzen restringiert. Abschnitt 3 zeigt die Notwendigkeit der Präzisierung, Operationalisierung und empirischen Prüfung der Hypothese der Sprachfunktionalität und diskutiert Möglichkeiten, wie dies geschehen kann. Abschnitt 4 problematisiert die Hypothese der Sprachfunktionalität in Hinsicht auf die Möglichkeit der Erklärung von Sprachentwicklung, indem der Zusammenhang von Kommunikationsbedürfnissen und Sprachsachverhalten thematisiert wird. Abschließend werden im 5. Abschnitt einige Theoriebildungen der Sprachwissenschaft, die mit dem funktionalistischen Ansatz affin sind, diskutiert, und es wird dargelegt, in welcher Hinsicht die F-Matrix ein sinnvolles Forschungsprogramm ist.
Die Komposition des Satzes
(1972)
This paper outlines the generation process of a specifi computational linguistic representation termed the Multilingual Time Map, conceptually a multi-tape finit state transducer encoding linguistic data at different levels of granularity. The fi st component acquires phonological data from syllable labeled speech data, the second component define feature profiles the third component generates feature hierarchies and augments the acquired data with the define feature profiles and the fourth component displays the Multilingual Time Map as a graph.
Das Centre de Sociologie de l’Innovation (CSI) der Ecole des Mines in Paris ist eine Hochburg der Wissenschaftssoziologie, an der die Arbeiten von Bruno Latour und Michel Callon erstellt wurden. Deren Untersuchungen haben eine Reihe von Analysen der wissenschaftlichen Praktiken ausgelöst, die manchmal – vor allem in der angelsächsischen Literatur – unter dem Begriff „Actor-Network-Theory“ (ANT) zusammengefasst werden. Dieser fundamentale Beitrag zur Wissenschaftssoziologie zeichnet sich aus durch eine gesteigerte Aufmerksamkeit sowohl gegenüber den Praktiken der Wissenschaftler, der „science in action“, den Objekten, den Artefakten und den technischen Vorrichtungen als auch gegenüber den Netzwerken, in denen sich Menschen und Nicht-Menschen zusammenfügen und im Umlauf sind. Eine Gruppe von Forschern des CSI, Madeleine Akrich, Antoine Hennion und Vololona Rabeharisoa, hat freundlicherweise eingewilligt, im folgenden Text sehr frei über die Thematik des vorliegenden ZBBS-Heftes und über die Art und Weise zu diskutieren, in der sie sich in ihren Forschungsfeldern und in ihren Arbeiten gegenüber den Fragen positionieren, die durch die Berücksichtigung der sozialen Interaktionen in wissenschaftlichen Arbeitsvollzügen aufgeworfen werden.
Die Sprache in Sozialen Medien zeigt auf allen Ebenen eine hohe Variabilität und wurde daher als eine Mischung verschiedener Register (Tagliamonte/Denis 2008) analysiert, die sowohl informelle als auch formelle Formen umfassen. Im Gegensatz zu herkömmlichen schriftlichen Medien, wie z.B. Zeitungstexten, sind Soziale Medien wie Chat, Twitter, Forumsdiskussionen, Facebook oder Blogs für diverse Autor/innen zugänglich, sind spontaner, und unterliegen weniger den sprachlichen Standards. Ein Teil der in diesen Kommunikationskanälen gefundenen Variabilität wird häufig auf Fehler zurückgeführt, es gibt jedoch viele Phänomene, die eigenen Regeln folgen. In Bezug auf das Kontinuum von konzeptueller/medialer Mündlichkeit/Schriftlichkeit (Koch/Oesterreicher 1985) befinden sich die meisten Social-Media-Beitrage in der Mitte des konzeptuellen Oralitätskontinuums, obwohl deren genaue Position bisher weitgehend unbestimmt ist. Soweit Nicht-Standard-Merkmale untersucht wurden, wurde meist die Orthographie, Morphologie, das Lexikon und die Syntax (z.B. Abkürzungen, Emoticons, Ellipsis) berücksichtigt.
Im Gegensatz dazu wählen wir einen pragmatischen, diskursorientierten Standpunkt: Welche Diskursstrategien wählen Sprecher/innen in Sozialen Medien und wie unterscheiden sich diese von bisher untersuchten Medienformen?
COSMAS. Ein Computersystem für den Zugriff auf Textkorpora. Version R.1.3-1. Benutzerhandbuch
(1994)
Begegnungen mit neuen Wörtern: Zu lexikografischen Praktiken im Neologismenwörterbuch des IDS
(2017)
Wortartikel
(2014)
Wortartikel
(2013)
Das vorliegende Themenheft bündelt theoretische, methodologische und empirische Debatten an der Schnittstelle von Zeichen, Zeichensystem, Zeichenmodalität/-materialität und Medium und möchte sie weiterführen. Die Beiträge befassen sich mit Fragen der begrifflichen und empirischen Grenzziehung zwischen Zeichen und Medien und liefern so Impulse für die Erforschung des Wechselspiels der Gegenstandsbereiche Zeichenhaftigkeit, Medialität und Materialität als Manifestation multimodaler Kommunikation. Ziel des Heftes ist es, die theoretischen und empirischen Diskussionen um Multimodalität und Medialität stärker aufeinander zu beziehen.
Although the N400 was originally discovered in a paradigm designed to elicit a P300 (Kutas and Hillyard, 1980), its relationship with the P300 and how both overlapping event-related potentials (ERPs) determine behavioral profiles is still elusive. Here we conducted an ERP (N = 20) and a multiple-response speed-accuracy tradeoff (SAT) experiment (N = 16) on distinct participant samples using an antonym paradigm (The opposite of black is white/nice/yellow with acceptability judgment). We hypothesized that SAT profiles incorporate processes of task-related decision-making (P300) and stimulus-related expectation violation (N400). We replicated previous ERP results (Roehm et al., 2007): in the correct condition (white), the expected target elicits a P300, while both expectation violations engender an N400 [reduced for related (yellow) vs. unrelated targets (nice)]. Using multivariate Bayesian mixed-effects models, we modeled the P300 and N400 responses simultaneously and found that correlation between residuals and subject-level random effects of each response window was minimal, suggesting that the components are largely independent. For the SAT data, we found that antonyms and unrelated targets had a similar slope (rate of increase in accuracy over time) and an asymptote at ceiling, while related targets showed both a lower slope and a lower asymptote, reaching only approximately 80% accuracy. Using a GLMM-based approach (Davidson and Martin, 2013), we modeled these dynamics using response time and condition as predictors. Replacing the predictor for condition with the averaged P300 and N400 amplitudes from the ERP experiment, we achieved identical model performance. We then examined the piecewise contribution of the P300 and N400 amplitudes with partial effects (see Hohenstein and Kliegl, 2015). Unsurprisingly, the P300 amplitude was the strongest contributor to the SAT-curve in the antonym condition and the N400 was the strongest contributor in the unrelated condition. In brief, this is the first demonstration of how overlapping ERP responses in one sample of participants predict behavioral SAT profiles of another sample. The P300 and N400 reflect two independent but interacting processes and the competition between these processes is reflected differently in behavioral parameters of speed and accuracy.
In this paper, the author studies the role of the dictionary in the first language acquisition, highlighting its didactic value. Based on two Romanian lexicographical works of the 19th century, Lexiconul de la Buda (Buda, 1825) [the Lexicon of Buda] et Vocabularu romano-francesu (Bucarest, 1870) [the Romanian-French Vocabulary], the author analyses the normative information recorded in the articles in order to observe which level of language (i. e. phonetical, morphological, syntactical and lexical) is concerned. Such an approach allows to distinguish between the possible changings both at the level of the perception or at the grammatical, lexical and semantical description, i. e. the settlement of the word in the first language, and at a technical level, i. e. the making of article and of dictionary.
In this paper we examine the composition and interactional deployment of suspended assessments in ordinary German conversation. We define suspended assessments as lexicosyntactically incomplete assessing TCUs that share a distinct cluster of prosodic-phonetic features which auditorily makes them come off as 'left hanging' rather than cut-off (e.g., Schegloff/Jefferson/Sacks 1977; Jasperson 2002) or trailing-off (e.g., Local/Kelly 1986; Walker 2012). Using CA/IL methodology (Couper-Kuhlen/Selting 2018) and drawing on a large body of video-recorded face-to-face conversations, we highlight the verbal, vocal and bodily-visual resources participants use to render such unfinished assessing TCUs recognizably incomplete and identify six recurrent usage types. Overall, the suspension of assessing TCUs appears to either serve as a practice for circumventing the production of assessments that are interactionally inapposite, or as a practice for coping with local contingencies that render the very doing of an assessment problematic for the speaker. Data are in German with English translations.
Beim Lesen stolpert man über den unscheinbaren Artikel den. Muss das nicht dem heißen? Richtig. Die lokale Angabe am Stadioneingang und die temporale Angabe am Sonntag stehen im Dativ, wie sich eindeutig an dem definiten Artikel dem erkennen lässt, der hier mit der Präposition an zu am verschmolzen ist. Und der Artikel, der nach dem Komma folgt und den ‚lockere‘ oder
‚lose Apposition‘ genannten Nachtrag einleitet, bezieht sich ebenfalls auf Stadioneingang bzw. Sonntag und sollte mit diesem Bezugsnomen kongruieren, das heißt ebenfalls im Dativ – und nicht wie in den Beispielen in im Akkusativ – stehen.
Die Duden-Ontologie hat mittlerweile eine mehr als 10-jährige Geschichte, von denen ich hier verschiedene Aspekte vorstellen möchte. Zu Beginn stand die Vision alle Duden-Werke in einer zentralen Quelle zu speichern, aus der heraus alle bisherigen und je nach Bedarf auch neue Werke in verschiedenen Formaten und für verschiedene Medien weitgehend automatisch produziert werden können. Darüber hinaus sollten auch sprachtechnologische Produkte diese Quelle nutzen und so von einer permanenten Pflege und kontinuierlichen Überarbeitung und Ergänzung der zentralen Ressource unmittelbar profitieren können. In diesem Papier werde ich zunächst die Motivation und die Ziele erläutern, die uns zu Beginn des Projektes veranlasst haben, uns in dieses Abenteuer zu stürzen. Aus diesen Motiven und Zielen leiteten sich die Anforderungen an die Datenmodellierung ab. Das daraus resultierende Datenmodell werde ich kurz darstellen und anschließend auf die Implementierung eingehen. Zum Schluss gehe ich auf den Einsatz des Wissensnetzes in der Verlagspraxis ein.
Preface
(2019)
Preface
(2020)
Im allgemeinen ist man sich darüber einig, daß ein Zusammenhang zwischen Informationsstrukturierung (Fokus-Hintergrund-Gliederung, Topik-Kommentar-Gliederung) sowie Akzentuierung und prosodischer Phrasierung besteht (vgl. Hayes/Lahiri 1991). Gut untersucht ist die Beziehung zwischen der Unterteilung von Sätzen in prosodische Phrasen und der Fokusstruktur (vgl. Nespor/Vogel 1986). Dies trifft ebenso auf die Analyse der Akzentpositionen in Verbindung mit der Informationsstruktur zu (Féry 1993). Bezüglich der Annahmen zur prosodischen Phrasierung und ihrem Zusammenhang mit der Akzentplazierung läßt sich ein solcher minimaler Konsens nur schwer feststellen. Übereinstimmung besteht lediglich darin, daß durch Grenzsignale (Pausen, Glottisverschlußinsertion, Grenztone) die prosodische Phrasierung manifestiert wird. Ich möchte hier zeigen, daß zwischen der Akzentplazierung und der prosodischen Phrasierung ebenfalls ein Zusammenhang besteht, und Möglichkeiten erörtern, diese Verbindung sprachübergreifend und experimentell nachzuweisen.
Ich beziehe mich dabei auf Beobachtungen zur Akzentplazierung im Deutschen und Französischen und schlage darauf aufbauend eine Methode zur Determinierung prosodischer Grenzen im Russischen vor.
Physicists look at language
(2006)
This paper aims at verifying if the most important online Brazilian Portuguese dictionaries include some of the neologisms identified in texts published in the 1990s to 2000s, formed with the elements ciber-, e-, bio-, eco- and narco, which we refer to as fractomorphemes / fracto-morphèmes. Three online dictionaries were analyzed (Aulete, Houaiss and Michaelis), as well as Vocabulário Ortográfico da Língua Portuguesa (VOLP). We were able to conclude that all three dictionaries and VOLP include neologisms with these elements; Michaelis and VOLP do not include separate entries for bound morphemes, whereas Houaiss includes entries for all of them and Aulete includes entries for bio-, eco- and narco-. Aulete also describes the neological meaning of eco- and narco-, whereas Houaiss does not.
This White Paper sets out commonly agreed definitions on activities of consortia within NFDI. It aims to provide a common basis for reporting and reference regarding selected questions of cross-consortial relevance in DFG’s template for the Interim Reports. The questions were prioritised by an NFDI Task Force on Evaluation and Reporting (formerly Task Force Monitoring) as a result of discussing possible answers to the DFG template. In this process the need to agree on a generalizable meaning of terms commonly used in the context of NFDI, and reporting in particular, were identified from cross-consortial perspectives. Questions that showed the highest requirement on clarification are discussed in this White Paper. As NFDI evolves, the Task Force will likely propose further joint approaches for reporting in information infrastructures.
While each of broad relevance, the questions addressed relate to substantially different aspects of consortia’s work. They are thus also structured slightly different.
In der Bund-Länder-Vereinbarung (BLV) zu Aufbau und Förderung einer Nationalen Forschungsdateninfrastruktur (NFDI) (im Folgenden BLV-NFDI) wird in §1 festgehalten, dass mit der Förderung "eine Etablierung und Fortentwicklung eines übergreifenden Forschungsdatenmanagements" und damit eine "Steigerung der Effizienz des gesamten Wissenschaftssystems verfolgt" wird. In der BLV-NFDI werden dazu sieben Ziele vorgegeben, die eine Verfeinerung dieser Hauptziele darstellen. Dieses White Paper formuliert das gemeinsame Verständnis der beteiligten Konsortien für die sieben in der BLV-NFDI vorgegebenen Ziele. Auf der Grundlage dieses Verständnisses hat die Task Force Evaluation und Reporting Vorschläge gemacht, wie das Erreichen der Ziele erfasst, beschrieben und gemessen werden kann.
Collaborative work in NFDI
(2023)
The non-profit association National Research Data Infrastructure (NFDI) promotes science and research through a National Research Data Infrastructure. Its aim is to develop and establish an overarching research data management (RDM) for Germany and to increase the efficiency of the entire German science system. After a two-and-a-half year build up phase, the process of adding new consortia, each representing a different data domain, has ended in March 2023. NFDI now has 26 disciplinary consortia (and one additional basic service collaboration). Now the full extent of cross-consortial interaction is beginning to show.
The automatic recognition of idioms poses a challenging problem for NLP applications. Whereas native speakers can intuitively handle multiword expressions whose compositional meanings are hard to trace back to individual word semantics, there is still ample scope for improvement regarding computational approaches. We assume that idiomatic constructions can be characterized by gradual intensities of semantic non-compositionality, formal fixedness, and unusual usage context, and introduce a number of measures for these characteristics, comprising count-based and predictive collocation measures together with measures of context (un)similarity. We evaluate our approach on a manually labelled gold standard, derived from a corpus of German pop lyrics. To this end, we apply a Random Forest classifier to analyze the individual contribution of features for automatically detecting idioms, and study the trade-off between recall and precision. Finally, we evaluate the classifier on an independent dataset of idioms extracted from a list of Wikipedia idioms, achieving state-of-the art accuracy.
In order to differentiate between figurative and literal usage of verb-noun combinations for the shared task on the disambiguation of German Verbal Idioms issued for KONVENS 2021, we apply and extend an approach originally developed for detecting idioms in a dataset consisting of random ngram samples. The classification is done by implementing a rather shallow, statistics-based pipeline without intensive preprocessing and examinations on the morphosyntactic and semantic level. We describe the overall approach, the differences between the original dataset and the dataset of the KONVENS task, provide experimental classification results, and analyse the individual contributions of our feature sets.
Zunächst wird die verbreitete Auffassung von der regionalen Einheitlichkeit des Standarddeutschen, oder auch von Standardsprachen generell, problematisiert. Stattdessen wird die nationale und regionale Variation auch des Standarddeutschen verdeutlicht und werden die zu ihrer Beschreibung notwendigen Termini und Begriffe eingeführt. Angesichts der Variabilität des Standards stellt sich besonders dringlich die Frage, welche Sprachformen denn standardsprachlich sind und welche nicht. Hinter dieser auf Definition und Beschreibung abhebenden Frage erhebt sich die weitere, auf Erklärung abzielende, wer denn festlegt, welche Sprachformen standardsprachlich sind. Der Beitrag bemüht sich vor allem um eine Antwort auf diese letztgenannte Frage. Hierzu werden zunächst einmal vier für die Festlegung sprachlicher Standards maßgebliche soziale Kräfte identifiziert: Die Sprachkodifizierer (die den Sprachkodex erstellen), die Modellsprecher und -schreiber (an deren Texten sich die Kodifizierer orientieren), die Sprachexperten (die auf die Kodifizierer kritisch einwirken) und die Sprachnormautoritäten (welche die standardsprachlichen Normen durchsetzen). Das Zusammenspiel dieser maßgeblichen gesellschaftlichen Kräfte wird eingehend dargestellt und an Beispielen verdeutlicht. Abschließend werden die für die Einführung und den Wandel standardsprachlicher Normen ebenfalls wesentlichen Begriffe der ,Existenz‘, ,Gültigkeit (Validität)“ und ,Legitimität von Normen‘ expliziert.
Meine folgenden Überlegungen gehen weit über rein „linguistische Theorien und Methoden" hinaus. Sie beziehen sich auch weniger als seine auf innersprachliche Fragen und mehr auf sprachensoziologische und -politische. Allerdings entziehen sie sich auch damit nicht Poppers pauschalem Urteil, die mit „human society and human history" befassten Wissenschaften seien generell unfähig zu Prognosen - im Gegensatz zu manchen (wenn auch nicht allen) Naturwissenschaften. Abgesehen davon räume ich für das Folgende jedoch gerne Abstriche ein vom Grad der von Popper für Prognosen offenbar vorausgesetzten Zuverlässigkeit und Exaktheit. Sie entsprechen auch verbreiteten Auffassungen, dass sich die Weiterentwicklung der Technik zuverlässiger Voraussagen lässt als die der menschlichen Sozialbeziehungen, angesichts unkalkulierbarer „Anarchie und Ignoranz, die das Gefüge unserer Gesellschaft zerstören könnten" (Kaku 2016, S. 33). Bei einer solchen Abschwächung der Ansprüche im Sinne derartiger Vorbehalte erscheint es mir aber dennoch treffender, die folgenden Überlegungen, soweit sie zukunftsgerichtet sind, eher den Prognosen zuzuordnen als den bloßen Prophezeiungen, denen man ja dann - bei ihrer typischen Stütze durch „göttliche Offenbarung" - jegliche theoretische oder faktische, also wissenschaftliche Grundlage absprechen darf. Freilich verliert mit der genannten Abschwächung die Opposition zwischen den Begriffen 'Prognose' und 'Prophezeiung' ihre strenge Disjunktheit und wird in Richtung eines abgestuften oder kontinuierlichen Übergangs aufgelockert. Jedoch widerspricht dies keineswegs gängigem wissenschaftlichen Procedere. Damit nun aber genug an allgemeinen methodischen Vorüberlegungen! Im Übrigen geht es mir im Folgenden weniger um die Auseinandersetzung mit bisherigen Publikationen zum Thema, auch nicht denen des mit diesem Band Geehrten, die - bei einem nicht zu engen Verständnis - in großer Zahl vorliegen, als um die Skizzierung meiner eigenen Einschätzungen.
This study investigates cross-language differences in pitch range and variation in four languages from two language groups: English and German (Germanic) and Bulgarian and Polish (Slavic). The analysis is based on large multi-speaker corpora (48 speakers for Polish, 60 for each of the other three languages). Linear mixed models were computed that include various distributional measures of pitch level, span and variation, revealing characteristic differences across languages and between language groups. A classification experiment based on the relevant parameter measures (span, kurtosis and skewness values for pitch distributions for each speaker) succeeded in separating the language groups.
This study presents the results of a large-scale comparison of various measures of pitch range and pitch variation in two Slavic (Bulgarian and Polish) and two Germanic (German and British English) languages. The productions of twenty-two speakers per language (eleven male and eleven female) in two different tasks (read passages and number sets) are compared. Significant differences between the language groups are found: German and English speakers use lower pitch maxima, narrower pitch span, and generally less variable pitch than Bulgarian and Polish speakers. These findings support the hypothesis that inguistic communities tend to be characterized by particular pitch profiles.