Refine
Year of publication
Document Type
- Part of a Book (1424)
- Article (751)
- Conference Proceeding (317)
- Book (124)
- Review (52)
- Other (27)
- Working Paper (25)
- Doctoral Thesis (22)
- Part of Periodical (18)
- Report (6)
Language
- German (2145)
- English (559)
- French (20)
- Russian (11)
- Multiple languages (9)
- Portuguese (9)
- Spanish (8)
- Ukrainian (5)
- Latvian (3)
- Italian (2)
Is part of the Bibliography
- no (2773) (remove)
Keywords
- Deutsch (1129)
- Korpus <Linguistik> (287)
- Konversationsanalyse (148)
- Wörterbuch (134)
- Rezension (107)
- Gesprochene Sprache (100)
- Grammatik (94)
- Computerlinguistik (93)
- Kommunikation (86)
- Sprache (84)
Publicationstate
- Veröffentlichungsversion (2773) (remove)
Reviewstate
- (Verlags)-Lektorat (2001)
- Peer-Review (552)
- Verlags-Lektorat (56)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (25)
- Peer-review (19)
- Review-Status-unbekannt (9)
- (Verlags-)Lektorat (4)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (4)
- Peer Review (2)
- Peer-Revied (2)
Publisher
- de Gruyter (530)
- Institut für Deutsche Sprache (229)
- Narr (197)
- Leibniz-Institut für Deutsche Sprache (IDS) (94)
- Lang (92)
- Niemeyer (90)
- IDS-Verlag (66)
- Akademie Verlag (39)
- Stauffenburg (34)
- Association for Computational Linguistics (33)
Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
(2021)
Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.
The focus of this paper will be on lexical information systems and the framework guidelines for the definition of the curricula within the educational system of the Autonomous Province of Bolzano/ Bozen (Italy). In Italy, the competences to be achieved at different school levels are published in the form of general guidelines. On this basis each school has to specify the general competency goals and to spell them out in a concrete curriculum. In this paper I will examine to what extent lexical information systems are represented in the framework guidelines within the German and the Italian educational system of the Autonomous Province, these being separate systems. In a second step, I will check the representations of the resources against the “Villa Vigoni Theses on Lexicography“. Finally, I will discuss the results and give an outlook for further research.
Heute wird mehr geschrieben als je zuvor und die digitale Kommunikation trägt wesentlich dazu bei; ein großer Teil des heutigen Schreibens ist dialogisches Schreiben im Alltag. Konsequenterweise wird die Online-Kommunikation zunehmend Thema in Bildungskontexten und in der Deutschdidaktik. Offen ist aber weiterhin, wie Texte des interaktionsorientierten Schreibens bewertet werden sollen, die sich von solchen des textorientierten Schreibens in vielerlei Hinsicht unterscheiden können. Während es für textorientiertes Schreiben Normen gibt, die in Sprachkodizes erfasst sind, ist es nicht klar, was der Bezugspunkt für interaktionsorientierte Texte sein könnte. In diesem Beitrag analysieren wir die Verwendung von Konnektoren in der Online-Kommunikation und die Repräsentation von online-spezifischen Besonderheiten in Sprachressourcen. Die Ergebnisse zeigen, dass spezifische Online-Verwendungsweisen von Konnektoren in Sprachkodizes kaum berücksichtigt und beschrieben werden.
The aim of this work is to describe criteria used in the process of inclusion and treatment of neologisms in dictionaries of Spanish within the framework of pandemic instability. Our starting point will be data obtained by the Antenas Neológicas Network (https://www.upf.edu/web/antenas), whose representation in three different lexicographic tools will be analyzed with the purpose of identifying problems in the methodology used to dictionarize – that is, how and what words were selected to be included in dictionaries and how they were represented in their entries – neologisms during the COVID-19 pandemic (sources and corpora of analysis, selection criteria, types of definition, among other aspects). Two of them are monolingual and COVID-19 lexical units were included as part of their updates: the Antenario, a dictionary of neologisms of Spanish varieties, and the Diccionario de la Lengua Española [DLE], a dictionary of general Spanish, published by the Real Academia Española [RAE], Spanish Royal Academy). The other is a bilingual unidirectional English-Spanish dictionary first published as a glossary, Diccionario de COVID-19 EN-ES [TREMEDICA], entirely made up of neological and non-neological lexical units related to the virus and the pandemic. Thus, the target lexis was either included in existing works or makes up the whole of a new tool located in a portal together with other lexicographic tools. Unlike other collections of COVID-19 vocabulary that kept cropping up as the pandemic unfolded, all three have been designed and written according to well-established lexicographic practices.
Our working hypothesis is that the need to record and define words which were recently created impacts the criteria for inclusion and treatment of neologisms in dictionaries about Spanish, including a certain degree of overlap of some features which are traditionally thought to be specific to each type of dictionary.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache?
Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache? Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Dieser Aufsatz behandelt einige offene Fragen des funktionalistischen Ansatzes. Im 1. Abschnitt wird die von Kanngießer postulierte Matrix des funktionalistischen Ansatzes (F-Matrix) - speziell hinsichtlich ihres Erklärungsbegriffs - dargestellt. Im Abschnitt 2.1 wird gegen die Auffassung argumentiert, daß die F-Matrix über einen - methodologisch gesehen - eigenständigen Erklärungstyp verfügt. In 2.2 wird zudem gezeigt, daß es nicht sinnvoll ist, für funktionale Spracherklärungen ein funktionalistisches Erklärungsschema - wie z.B. Stegmüller (1969) es expliziert - in Anspruch zu nehmen. Im Rahmen der Argumentation in diesem 2. Abschnitt wird die Auffassung der Verfasser herausgearbeitet, daß das Spezifische des funktionalistischen Ansatzes nicht in einem eigenständigen Erklärungstyp, sondern in besonderen Gesetzen besteht. Definierend für die F-Matrix ist die Hypothese der Sprachfunktionalität bzw. eine Klasse (noch zu findender) Gesetze, die Zusammenhänge zwischen bestimmten Gesellschaftsstrukturen und spezifischen Kommunikationsbedürfnissen bzw. zwischen bestimmten Kommunikationsbedürfnissen und spezifischen Sprachsachverhalten beschreiben. Die Hypothese der Sprachfunktionalität fungiert dabei als forschungsleitende Orientierungshypothese, indem sie die Menge der möglichen Füllungen der wenn- und dann-Komponenten von Gesetzen restringiert. Abschnitt 3 zeigt die Notwendigkeit der Präzisierung, Operationalisierung und empirischen Prüfung der Hypothese der Sprachfunktionalität und diskutiert Möglichkeiten, wie dies geschehen kann. Abschnitt 4 problematisiert die Hypothese der Sprachfunktionalität in Hinsicht auf die Möglichkeit der Erklärung von Sprachentwicklung, indem der Zusammenhang von Kommunikationsbedürfnissen und Sprachsachverhalten thematisiert wird. Abschließend werden im 5. Abschnitt einige Theoriebildungen der Sprachwissenschaft, die mit dem funktionalistischen Ansatz affin sind, diskutiert, und es wird dargelegt, in welcher Hinsicht die F-Matrix ein sinnvolles Forschungsprogramm ist.
Das Centre de Sociologie de l’Innovation (CSI) der Ecole des Mines in Paris ist eine Hochburg der Wissenschaftssoziologie, an der die Arbeiten von Bruno Latour und Michel Callon erstellt wurden. Deren Untersuchungen haben eine Reihe von Analysen der wissenschaftlichen Praktiken ausgelöst, die manchmal – vor allem in der angelsächsischen Literatur – unter dem Begriff „Actor-Network-Theory“ (ANT) zusammengefasst werden. Dieser fundamentale Beitrag zur Wissenschaftssoziologie zeichnet sich aus durch eine gesteigerte Aufmerksamkeit sowohl gegenüber den Praktiken der Wissenschaftler, der „science in action“, den Objekten, den Artefakten und den technischen Vorrichtungen als auch gegenüber den Netzwerken, in denen sich Menschen und Nicht-Menschen zusammenfügen und im Umlauf sind. Eine Gruppe von Forschern des CSI, Madeleine Akrich, Antoine Hennion und Vololona Rabeharisoa, hat freundlicherweise eingewilligt, im folgenden Text sehr frei über die Thematik des vorliegenden ZBBS-Heftes und über die Art und Weise zu diskutieren, in der sie sich in ihren Forschungsfeldern und in ihren Arbeiten gegenüber den Fragen positionieren, die durch die Berücksichtigung der sozialen Interaktionen in wissenschaftlichen Arbeitsvollzügen aufgeworfen werden.