Refine
Year of publication
Document Type
- Part of a Book (3434)
- Article (2304)
- Book (738)
- Conference Proceeding (512)
- Part of Periodical (283)
- Review (232)
- Doctoral Thesis (65)
- Working Paper (49)
- Other (47)
- Report (21)
Language
- German (6414)
- English (1078)
- Russian (142)
- French (30)
- Portuguese (14)
- Spanish (12)
- Multiple languages (11)
- Italian (8)
- Polish (5)
- Ukrainian (5)
Is part of the Bibliography
- no (7727) (remove)
Keywords
- Deutsch (4226)
- Wörterbuch (497)
- Korpus <Linguistik> (479)
- Rezension (383)
- Rechtschreibung (333)
- Konversationsanalyse (314)
- Sprachgeschichte (295)
- Grammatik (274)
- Syntax (257)
- Semantik (236)
Publicationstate
- Veröffentlichungsversion (2773)
- Zweitveröffentlichung (939)
- Postprint (222)
- Preprint (7)
- (Verlags)-Lektorat (4)
- Erstveröffentlichung (4)
- Hybrides Open Access (2)
- Ahead of Print (1)
- Verlags-Lektorat (1)
- Verlagsveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (2781)
- Peer-Review (894)
- Verlags-Lektorat (60)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (36)
- Peer-review (30)
- Review-Status-unbekannt (11)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (9)
- Peer-Revied (7)
- (Verlags-)Lektorat (4)
- Zweitveröffentlichung (4)
Publisher
- Institut für Deutsche Sprache (928)
- de Gruyter (913)
- Schwann (638)
- Narr (446)
- Niemeyer (199)
- Lang (160)
- De Gruyter (130)
- Leibniz-Institut für Deutsche Sprache (IDS) (128)
- Narr Francke Attempto (89)
- IDS-Verlag (73)
Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
(2021)
Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.
Ziel des folgenden Beitrags ist eine vergleichende Gegenüberstellung der elektronischen Wörterbücher
ELDIT („Elektronisches Lernerwörterbuch Deutsch-Italienisch“) und elexiko. Im Mittelpunkt der Darstellung stehen ein allgemeiner Überblick und die Beschreibungen der beiden Benutzerschnittstellen mit entsprechenden Hintergrundinformationen sowie ein technischer Vergleich der beiden Systeme in tabellarischer Form. Die Synopse zeigt, dass beide Wörterbücher einerseits eine Reihe von Gemeinsamkeiten aufweisen, die unter anderem in der modularen Struktur und im Zugang zu einzelnen Angabeklassen, aber auch in den eingesetzten Technologien und der Hypermedianutzung bestehen, andererseits unterscheiden sie sich wesentlich voneinander. Aus den möglichen Konstellationen verschiedener Parameter (Adressat, Fachgebiet, Zweck/Benutzungssituation, Medium) ergeben sich nämlich jeweils spezifische Anforderungen, die eine differenzierte Ausgestaltung nicht nur dieser, sondern ein- oder mehrsprachiger Benutzerschnittstellen im Allgemeinen auf mehreren Ebenen nötig machen.
The focus of this paper will be on lexical information systems and the framework guidelines for the definition of the curricula within the educational system of the Autonomous Province of Bolzano/ Bozen (Italy). In Italy, the competences to be achieved at different school levels are published in the form of general guidelines. On this basis each school has to specify the general competency goals and to spell them out in a concrete curriculum. In this paper I will examine to what extent lexical information systems are represented in the framework guidelines within the German and the Italian educational system of the Autonomous Province, these being separate systems. In a second step, I will check the representations of the resources against the “Villa Vigoni Theses on Lexicography“. Finally, I will discuss the results and give an outlook for further research.
Wie wirkt sich das Schreiben kürzerer Texte in interaktionsorienterter Online-Kommunikation langfristig auf das Schreiben und die Qualität monologischer Texte aus? Auf diese Frage geht der Beitrag ein und präsentiert dazu empirische Daten aus einer Korpus-Vergleichsstudie, in der die Verwendung ausgewählter Konnektoren in einem Facebook-Korpus quantitativ und qualitativ analysiert und mit der Verwendung in dialogischen Texten von Wikipedia-Diskussionsseiten einerseits und in monologischen Texten wie Zeitungskommentaren und Schulertexten anderseits verglichen wurde. Die Analysen fokussieren darauf, wie Konnektoren in Online-Texten eingesetzt werden, ob sich spezifische Online-Verwendungen etablieren und ob „Spuren“ typischer Online-Verwendungen auch in normgebundener Umgebung nachweisbar sind.
Heute wird mehr geschrieben als je zuvor und die digitale Kommunikation trägt wesentlich dazu bei; ein großer Teil des heutigen Schreibens ist dialogisches Schreiben im Alltag. Konsequenterweise wird die Online-Kommunikation zunehmend Thema in Bildungskontexten und in der Deutschdidaktik. Offen ist aber weiterhin, wie Texte des interaktionsorientierten Schreibens bewertet werden sollen, die sich von solchen des textorientierten Schreibens in vielerlei Hinsicht unterscheiden können. Während es für textorientiertes Schreiben Normen gibt, die in Sprachkodizes erfasst sind, ist es nicht klar, was der Bezugspunkt für interaktionsorientierte Texte sein könnte. In diesem Beitrag analysieren wir die Verwendung von Konnektoren in der Online-Kommunikation und die Repräsentation von online-spezifischen Besonderheiten in Sprachressourcen. Die Ergebnisse zeigen, dass spezifische Online-Verwendungsweisen von Konnektoren in Sprachkodizes kaum berücksichtigt und beschrieben werden.
The changes caused by the growing automatisation of processes in the lexicographer´s workstation and in lexicographic work, together with the ensuing needs of lexicographers and their demands for adequately targeted software, have not been discussed sufficiently in meta-lexicographic research. The aim of this paper is therefore to fill this gap, with a focus on academic non-commercial lexicography. After an introduction into the general functionalities of specific dictionary writing software, with the help of a real-life example we will discuss the lexicographic working environment, the new specific demands to lexicographic software as well as different tools. The final aim is to propose some recommendations for how to structure the lexicographic working environment to meet specific project requirements.
Der "ethische" Dativ
(1971)
Zur Linguistik der Metapher
(1975)
In der vorliegenden Arbeit werden die Gliederungsprinzipien von schriftlichen argumentativen Texten im Deutschen und Japanischen am Beispiel der Textsorte „Leitartikel/Kommentare“ aus sprechakttheoretischer Sicht kontrastiert. Ziel der Untersuchung ist, die Gliederungsmittel zwischen satzübergreifenden Einheiten und die Verknüpfungsmittel innerhalb der Einheit in argumentativen Texten zu beschreiben. Dabei soll herausgearbeitet werden, wie ein argumentativer Text genau strukturiert ist und welche Funktionen die einzelnen satzübergreifenden Einheiten bzw. die Textkonstituenten haben. Die Untersuchung soll schließlich zur Erhellung des Zusammenhangs zwischen der Argumentationsstruktur und dem Textaufbau bzw. den Gliederungsprinzipien in deutschen und japanischen Leitartikeln/Kommentaren führen.
Die sprachliche Situation im Kanton Graubünden, wo eine Vielzahl von italienischen, romanischen und deutschen Varietäten in lang andauerndem Kontakt stehen, ist bisher nur wenig beschrieben, eine wahrnehmungslinguistische Untersuchung steht noch ganz aus. Ausgehend von der Annahme, dass Salienz abhängig vom eigenen sprachlichen System und vom Sprecherwissen ist, wurde ein Experiment konzipiert, bei dem Hörer aus Graubünden und Zürich Aufnahmen aus drei Bündner Orten, in denen Rätoromanisch und Deutsch in unterschiedlichen Kontaktverhältnissen stehen, hören und kommentieren sollten. Dabei konnte gezeigt werden, dass Bündner aufgrund ihres Sprecherwissens über die Variation in Graubünden andere Merkmale wahrgenommen und die Aufnahmen anders charakterisiert haben als Zürcher.
The aim of this work is to describe criteria used in the process of inclusion and treatment of neologisms in dictionaries of Spanish within the framework of pandemic instability. Our starting point will be data obtained by the Antenas Neológicas Network (https://www.upf.edu/web/antenas), whose representation in three different lexicographic tools will be analyzed with the purpose of identifying problems in the methodology used to dictionarize – that is, how and what words were selected to be included in dictionaries and how they were represented in their entries – neologisms during the COVID-19 pandemic (sources and corpora of analysis, selection criteria, types of definition, among other aspects). Two of them are monolingual and COVID-19 lexical units were included as part of their updates: the Antenario, a dictionary of neologisms of Spanish varieties, and the Diccionario de la Lengua Española [DLE], a dictionary of general Spanish, published by the Real Academia Española [RAE], Spanish Royal Academy). The other is a bilingual unidirectional English-Spanish dictionary first published as a glossary, Diccionario de COVID-19 EN-ES [TREMEDICA], entirely made up of neological and non-neological lexical units related to the virus and the pandemic. Thus, the target lexis was either included in existing works or makes up the whole of a new tool located in a portal together with other lexicographic tools. Unlike other collections of COVID-19 vocabulary that kept cropping up as the pandemic unfolded, all three have been designed and written according to well-established lexicographic practices.
Our working hypothesis is that the need to record and define words which were recently created impacts the criteria for inclusion and treatment of neologisms in dictionaries about Spanish, including a certain degree of overlap of some features which are traditionally thought to be specific to each type of dictionary.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache?
Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache? Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Dieser Aufsatz behandelt einige offene Fragen des funktionalistischen Ansatzes. Im 1. Abschnitt wird die von Kanngießer postulierte Matrix des funktionalistischen Ansatzes (F-Matrix) - speziell hinsichtlich ihres Erklärungsbegriffs - dargestellt. Im Abschnitt 2.1 wird gegen die Auffassung argumentiert, daß die F-Matrix über einen - methodologisch gesehen - eigenständigen Erklärungstyp verfügt. In 2.2 wird zudem gezeigt, daß es nicht sinnvoll ist, für funktionale Spracherklärungen ein funktionalistisches Erklärungsschema - wie z.B. Stegmüller (1969) es expliziert - in Anspruch zu nehmen. Im Rahmen der Argumentation in diesem 2. Abschnitt wird die Auffassung der Verfasser herausgearbeitet, daß das Spezifische des funktionalistischen Ansatzes nicht in einem eigenständigen Erklärungstyp, sondern in besonderen Gesetzen besteht. Definierend für die F-Matrix ist die Hypothese der Sprachfunktionalität bzw. eine Klasse (noch zu findender) Gesetze, die Zusammenhänge zwischen bestimmten Gesellschaftsstrukturen und spezifischen Kommunikationsbedürfnissen bzw. zwischen bestimmten Kommunikationsbedürfnissen und spezifischen Sprachsachverhalten beschreiben. Die Hypothese der Sprachfunktionalität fungiert dabei als forschungsleitende Orientierungshypothese, indem sie die Menge der möglichen Füllungen der wenn- und dann-Komponenten von Gesetzen restringiert. Abschnitt 3 zeigt die Notwendigkeit der Präzisierung, Operationalisierung und empirischen Prüfung der Hypothese der Sprachfunktionalität und diskutiert Möglichkeiten, wie dies geschehen kann. Abschnitt 4 problematisiert die Hypothese der Sprachfunktionalität in Hinsicht auf die Möglichkeit der Erklärung von Sprachentwicklung, indem der Zusammenhang von Kommunikationsbedürfnissen und Sprachsachverhalten thematisiert wird. Abschließend werden im 5. Abschnitt einige Theoriebildungen der Sprachwissenschaft, die mit dem funktionalistischen Ansatz affin sind, diskutiert, und es wird dargelegt, in welcher Hinsicht die F-Matrix ein sinnvolles Forschungsprogramm ist.
Die Komposition des Satzes
(1972)
This paper outlines the generation process of a specifi computational linguistic representation termed the Multilingual Time Map, conceptually a multi-tape finit state transducer encoding linguistic data at different levels of granularity. The fi st component acquires phonological data from syllable labeled speech data, the second component define feature profiles the third component generates feature hierarchies and augments the acquired data with the define feature profiles and the fourth component displays the Multilingual Time Map as a graph.
Das Centre de Sociologie de l’Innovation (CSI) der Ecole des Mines in Paris ist eine Hochburg der Wissenschaftssoziologie, an der die Arbeiten von Bruno Latour und Michel Callon erstellt wurden. Deren Untersuchungen haben eine Reihe von Analysen der wissenschaftlichen Praktiken ausgelöst, die manchmal – vor allem in der angelsächsischen Literatur – unter dem Begriff „Actor-Network-Theory“ (ANT) zusammengefasst werden. Dieser fundamentale Beitrag zur Wissenschaftssoziologie zeichnet sich aus durch eine gesteigerte Aufmerksamkeit sowohl gegenüber den Praktiken der Wissenschaftler, der „science in action“, den Objekten, den Artefakten und den technischen Vorrichtungen als auch gegenüber den Netzwerken, in denen sich Menschen und Nicht-Menschen zusammenfügen und im Umlauf sind. Eine Gruppe von Forschern des CSI, Madeleine Akrich, Antoine Hennion und Vololona Rabeharisoa, hat freundlicherweise eingewilligt, im folgenden Text sehr frei über die Thematik des vorliegenden ZBBS-Heftes und über die Art und Weise zu diskutieren, in der sie sich in ihren Forschungsfeldern und in ihren Arbeiten gegenüber den Fragen positionieren, die durch die Berücksichtigung der sozialen Interaktionen in wissenschaftlichen Arbeitsvollzügen aufgeworfen werden.
Die Sprache in Sozialen Medien zeigt auf allen Ebenen eine hohe Variabilität und wurde daher als eine Mischung verschiedener Register (Tagliamonte/Denis 2008) analysiert, die sowohl informelle als auch formelle Formen umfassen. Im Gegensatz zu herkömmlichen schriftlichen Medien, wie z.B. Zeitungstexten, sind Soziale Medien wie Chat, Twitter, Forumsdiskussionen, Facebook oder Blogs für diverse Autor/innen zugänglich, sind spontaner, und unterliegen weniger den sprachlichen Standards. Ein Teil der in diesen Kommunikationskanälen gefundenen Variabilität wird häufig auf Fehler zurückgeführt, es gibt jedoch viele Phänomene, die eigenen Regeln folgen. In Bezug auf das Kontinuum von konzeptueller/medialer Mündlichkeit/Schriftlichkeit (Koch/Oesterreicher 1985) befinden sich die meisten Social-Media-Beitrage in der Mitte des konzeptuellen Oralitätskontinuums, obwohl deren genaue Position bisher weitgehend unbestimmt ist. Soweit Nicht-Standard-Merkmale untersucht wurden, wurde meist die Orthographie, Morphologie, das Lexikon und die Syntax (z.B. Abkürzungen, Emoticons, Ellipsis) berücksichtigt.
Im Gegensatz dazu wählen wir einen pragmatischen, diskursorientierten Standpunkt: Welche Diskursstrategien wählen Sprecher/innen in Sozialen Medien und wie unterscheiden sich diese von bisher untersuchten Medienformen?
COSMAS. Ein Computersystem für den Zugriff auf Textkorpora. Version R.1.3-1. Benutzerhandbuch
(1994)
Wortartikel
(2014)
Wortartikel
(2013)
Although the N400 was originally discovered in a paradigm designed to elicit a P300 (Kutas and Hillyard, 1980), its relationship with the P300 and how both overlapping event-related potentials (ERPs) determine behavioral profiles is still elusive. Here we conducted an ERP (N = 20) and a multiple-response speed-accuracy tradeoff (SAT) experiment (N = 16) on distinct participant samples using an antonym paradigm (The opposite of black is white/nice/yellow with acceptability judgment). We hypothesized that SAT profiles incorporate processes of task-related decision-making (P300) and stimulus-related expectation violation (N400). We replicated previous ERP results (Roehm et al., 2007): in the correct condition (white), the expected target elicits a P300, while both expectation violations engender an N400 [reduced for related (yellow) vs. unrelated targets (nice)]. Using multivariate Bayesian mixed-effects models, we modeled the P300 and N400 responses simultaneously and found that correlation between residuals and subject-level random effects of each response window was minimal, suggesting that the components are largely independent. For the SAT data, we found that antonyms and unrelated targets had a similar slope (rate of increase in accuracy over time) and an asymptote at ceiling, while related targets showed both a lower slope and a lower asymptote, reaching only approximately 80% accuracy. Using a GLMM-based approach (Davidson and Martin, 2013), we modeled these dynamics using response time and condition as predictors. Replacing the predictor for condition with the averaged P300 and N400 amplitudes from the ERP experiment, we achieved identical model performance. We then examined the piecewise contribution of the P300 and N400 amplitudes with partial effects (see Hohenstein and Kliegl, 2015). Unsurprisingly, the P300 amplitude was the strongest contributor to the SAT-curve in the antonym condition and the N400 was the strongest contributor in the unrelated condition. In brief, this is the first demonstration of how overlapping ERP responses in one sample of participants predict behavioral SAT profiles of another sample. The P300 and N400 reflect two independent but interacting processes and the competition between these processes is reflected differently in behavioral parameters of speed and accuracy.
In this paper, the author studies the role of the dictionary in the first language acquisition, highlighting its didactic value. Based on two Romanian lexicographical works of the 19th century, Lexiconul de la Buda (Buda, 1825) [the Lexicon of Buda] et Vocabularu romano-francesu (Bucarest, 1870) [the Romanian-French Vocabulary], the author analyses the normative information recorded in the articles in order to observe which level of language (i. e. phonetical, morphological, syntactical and lexical) is concerned. Such an approach allows to distinguish between the possible changings both at the level of the perception or at the grammatical, lexical and semantical description, i. e. the settlement of the word in the first language, and at a technical level, i. e. the making of article and of dictionary.
Beim Lesen stolpert man über den unscheinbaren Artikel den. Muss das nicht dem heißen? Richtig. Die lokale Angabe am Stadioneingang und die temporale Angabe am Sonntag stehen im Dativ, wie sich eindeutig an dem definiten Artikel dem erkennen lässt, der hier mit der Präposition an zu am verschmolzen ist. Und der Artikel, der nach dem Komma folgt und den ‚lockere‘ oder
‚lose Apposition‘ genannten Nachtrag einleitet, bezieht sich ebenfalls auf Stadioneingang bzw. Sonntag und sollte mit diesem Bezugsnomen kongruieren, das heißt ebenfalls im Dativ – und nicht wie in den Beispielen in im Akkusativ – stehen.
Die Duden-Ontologie hat mittlerweile eine mehr als 10-jährige Geschichte, von denen ich hier verschiedene Aspekte vorstellen möchte. Zu Beginn stand die Vision alle Duden-Werke in einer zentralen Quelle zu speichern, aus der heraus alle bisherigen und je nach Bedarf auch neue Werke in verschiedenen Formaten und für verschiedene Medien weitgehend automatisch produziert werden können. Darüber hinaus sollten auch sprachtechnologische Produkte diese Quelle nutzen und so von einer permanenten Pflege und kontinuierlichen Überarbeitung und Ergänzung der zentralen Ressource unmittelbar profitieren können. In diesem Papier werde ich zunächst die Motivation und die Ziele erläutern, die uns zu Beginn des Projektes veranlasst haben, uns in dieses Abenteuer zu stürzen. Aus diesen Motiven und Zielen leiteten sich die Anforderungen an die Datenmodellierung ab. Das daraus resultierende Datenmodell werde ich kurz darstellen und anschließend auf die Implementierung eingehen. Zum Schluss gehe ich auf den Einsatz des Wissensnetzes in der Verlagspraxis ein.
Preface
(2019)
Preface
(2020)
Physicists look at language
(2006)
This paper aims at verifying if the most important online Brazilian Portuguese dictionaries include some of the neologisms identified in texts published in the 1990s to 2000s, formed with the elements ciber-, e-, bio-, eco- and narco, which we refer to as fractomorphemes / fracto-morphèmes. Three online dictionaries were analyzed (Aulete, Houaiss and Michaelis), as well as Vocabulário Ortográfico da Língua Portuguesa (VOLP). We were able to conclude that all three dictionaries and VOLP include neologisms with these elements; Michaelis and VOLP do not include separate entries for bound morphemes, whereas Houaiss includes entries for all of them and Aulete includes entries for bio-, eco- and narco-. Aulete also describes the neological meaning of eco- and narco-, whereas Houaiss does not.
Zunächst wird die verbreitete Auffassung von der regionalen Einheitlichkeit des Standarddeutschen, oder auch von Standardsprachen generell, problematisiert. Stattdessen wird die nationale und regionale Variation auch des Standarddeutschen verdeutlicht und werden die zu ihrer Beschreibung notwendigen Termini und Begriffe eingeführt. Angesichts der Variabilität des Standards stellt sich besonders dringlich die Frage, welche Sprachformen denn standardsprachlich sind und welche nicht. Hinter dieser auf Definition und Beschreibung abhebenden Frage erhebt sich die weitere, auf Erklärung abzielende, wer denn festlegt, welche Sprachformen standardsprachlich sind. Der Beitrag bemüht sich vor allem um eine Antwort auf diese letztgenannte Frage. Hierzu werden zunächst einmal vier für die Festlegung sprachlicher Standards maßgebliche soziale Kräfte identifiziert: Die Sprachkodifizierer (die den Sprachkodex erstellen), die Modellsprecher und -schreiber (an deren Texten sich die Kodifizierer orientieren), die Sprachexperten (die auf die Kodifizierer kritisch einwirken) und die Sprachnormautoritäten (welche die standardsprachlichen Normen durchsetzen). Das Zusammenspiel dieser maßgeblichen gesellschaftlichen Kräfte wird eingehend dargestellt und an Beispielen verdeutlicht. Abschließend werden die für die Einführung und den Wandel standardsprachlicher Normen ebenfalls wesentlichen Begriffe der ,Existenz‘, ,Gültigkeit (Validität)“ und ,Legitimität von Normen‘ expliziert.