Refine
Year of publication
Document Type
- Part of a Book (1763)
- Article (1170)
- Conference Proceeding (442)
- Book (216)
- Other (101)
- Review (61)
- Working Paper (48)
- Part of Periodical (29)
- Doctoral Thesis (25)
- Report (17)
Language
- German (2839)
- English (962)
- French (22)
- Multiple languages (18)
- Russian (14)
- Spanish (11)
- Portuguese (9)
- Ukrainian (5)
- Latvian (3)
- Polish (3)
Keywords
- Deutsch (1508)
- Korpus <Linguistik> (545)
- Konversationsanalyse (208)
- Wörterbuch (178)
- Gesprochene Sprache (176)
- Grammatik (162)
- Interaktion (153)
- Kommunikation (140)
- Sprachgebrauch (139)
- Computerlinguistik (136)
Publicationstate
- Veröffentlichungsversion (3889) (remove)
Reviewstate
- (Verlags)-Lektorat (2493)
- Peer-Review (1009)
- Verlags-Lektorat (79)
- Peer-review (37)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (33)
- Review-Status-unbekannt (12)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (5)
- (Verlags-)Lektorat (4)
- Verlagslektorat (4)
- Peer-Revied (3)
Publisher
- de Gruyter (621)
- Institut für Deutsche Sprache (354)
- Leibniz-Institut für Deutsche Sprache (IDS) (223)
- Narr (206)
- IDS-Verlag (108)
- Lang (97)
- Niemeyer (90)
- De Gruyter (59)
- Verlag für Gesprächsforschung (51)
- Association for Computational Linguistics (44)
Der Vortrag macht an einigen exemplarischen Bereichen auf sich wandelnde Formulierungsgewohnheiten der jüngsten Sprachgeschichte aufmerksam. Knapp behandelt werden zunächst auffällige Gebrauchsänderungen von engen Appositionen, nachgestellten Adjektivattributen, iterativen Triaden und Alliterationen. Genauer ausgeführt wird die - vor allem, aber nicht nur in Medientexten - immer intensiver genutzte Technik des anspielenden, variierenden Zitierens, die zur Ausbildung eines wachsenden Vorrats an Formulierungsmustern führt, die - als Halbfertigprodukte - durch einfache Variationstechniken den aktuellen Zwecken angepasst werden können.
Linguistics is facing the challenge of many other sciences as it continues to grow into increasingly complex subfields, each with its own separate or overarching branches. While linguists are certainly aware of the overall structure of the research field, they cannot follow all developments other than those of their subfields. It is thus important to help specialists but also newcomers alike to bushwhack through evolved or unknown territory of linguistic data. A considerable amount of research data in linguistics is described with metadata. While studies described and published in archived journals and conference proceedings receive a quite homogeneous set of metadata tags — e.g., author, title, publisher —, this does not hold for the empirical data and analyses that underlie such studies. Moreover, lexicons, grammars, experimental data, and other types of resources come in different forms; and to make things worse, their description in terms of metadata is also not uniform, if existing at all. These problems are well-known and there are now a number of international initiatives — e.g., CLARIN, FlareNet, MetaNet, DARIAH — to build infrastructures for managing linguistic resources. The NaLiDa project, funded by the German Research Foundation, aims at facilitating the management and access to linguistic resources originating from German research institutions. In cooperation with the German SFB 833 research center, we are developing a combination of faceted and full-text search to give integrated access through heterogeneous metadata sets. Our approach is supported by a central registry for metadata field descriptors, and a component repository for structured groups of data categories as larger building blocks.
Die Gedichte Georg Trakls gelten allgemein als semantisch schwer zugänglich und stellen Gedichtinterpretationen vor einige Herausforderungen. Im Zentrum dieses Aufsatzes steht ein einzelner satzwertiger Vers aus einem Gedicht Trakls. Ziel ist es zu zeigen, wie literaturwissenschaftliche Interpretationen dieses Verses linguistisch rekonstruiert werden können, und zwar auf der Basis von grundlegenden lexikalischen Eigenschaften, Prozessen der Bedeutungsverschiebung, pragmatisch basierten Anreicherungsprozessen, Welt- und literarischem Wissen und insbesondere detaillierten Annahmen zur Argumentstruktur. Die changierende Bedeutung des untersuchten Verses, so eine der Schlussfolgerungen dieses Aufsatzes, basiert dabei neben Uminterpretationen und Bedeutungsanreicherungen insbesondere auf der Amalgamierung verschiedener Argumentstrukturmuster.
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
Some 25 years ago, a large-scale repatriation of Russian Germans began. As a result, more than 2,5 million people that grew up in the USSR, Russia, or other post-Soviet states, became German citizens who had native or near-native command of the Russian language. The uncomfortable differences they exhibited in comparison to those who were supposed to accept them as equals, yet failed to do so, compelled them to search for self-designations that would accommodate their new identity and to bond together to form a new minority. The authors examine the attempts of Soviet/Russian Germans to redefine their ethnic identity in terms of not just blood but also language and culture, focusing on two particular cases: the use of the name Rusak in the internet forums of the repatriated immigrants; and the linguistic-cultural practices of the older generation of immigrants.
In Theaterproben entwickeln Beteiligte gemeinsam eine Inszenierung, die zur Aufführung gebracht wird. Ein wesentliches Mittel dazu ist das Vorspielen von Teilen des Stücks und das anschließende Besprechen. Dies geschieht üblicherweise in Rollenteilung: Die Schauspielenden führen Teile des Stücks vor, während die Regie zuschaut und gegebenenfalls interveniert, woran sich Besprechungen anschließen können. Dieser Teil von Theaterproben, in dem abwechselnd vorgespielt und besprochen wird, haben wir Spielprobe genannt (siehe Einleitung zu diesem Themenheft). Eine wesentliche interaktionsorganisatorische Aufgabe von Spielproben besteht für die Beteiligten darin, Schauspielaktivitäten und Besprechungsaktivitäten miteinander zu verzahnen. Dies geschieht durch Transitionspraktiken, die das Spiel entweder unterbrechen oder wieder eröffnen. Der vorliegende Beitrag untersucht Transitionspraktiken in Spielproben als ein konstitutives Moment ihrer interaktiven Organisation. Fokussiert werden Praktiken, die das Spiel unterbrechen, so genannte Interventionen. Nach einer detaillierten Fallanalyse, die eine prototypische Transition vom Spiel ins Besprechen und zurück ins Spiel veranschaulicht (Kap. 4.1/4.2), widmet sich der Rest des Beitrags der Analyse einer Kollektion von Interventionen. Es zeigt sich, dass Interventionen normativen Orientierungen unterliegen und verwendete Praktiken hinsichtlich verschiedener Dimensionen (etwa Ursache/Grund der Intervention) systematisch variieren.
We propose a Cross-lingual Encoder-Decoder model that simultaneously translates and generates sentences with Semantic Role Labeling annotations in a resource-poor target language. Unlike annotation projection techniques, our model does not need parallel data during inference time. Our approach can be applied in monolingual, multilingual and cross-lingual settings and is able to produce dependencybased and span-based SRL annotations. We benchmark the labeling performance of our model in different monolingual and multilingual settings using well-known SRL datasets. We then train our model in a cross-lingual setting to generate new SRL labeled data. Finally, we measure the effectiveness of our method by using the generated data to augment the training basis for resource-poor languages and perform manual evaluation to show that it produces high-quality sentences and assigns accurate semantic role annotations. Our proposed architecture offers a flexible method for leveraging SRL data in multiple languages.
We present WOMBAT, a Python tool which supports NLP practitioners in accessing word embeddings from code. WOMBAT addresses common research problems, including unified access, scaling, and robust and reproducible preprocessing. Code that uses WOMBAT for accessing word embeddings is not only cleaner, more readable, and easier to reuse, but also much more efficient than code using standard in-memory methods: a Python script using WOMBAT for evaluating seven large word embedding collections (8.7M embedding vectors in total) on a simple SemEval sentence similarity task involving 250 raw sentence pairs completes in under ten seconds end-to-end on a standard notebook computer.
Recent studies focussed on the question whether less-configurational languages like German are harder to parse than English, or whether the lower parsing scores are an artefact of treebank encoding schemes and data structures, as claimed by Kübler et al. (2006). This claim is based on the assumption that PARSEVAL metrics fully reflect parse quality across treebank encoding schemes. In this paper we present new experiments to test this claim. We use the PARSEVAL metric, the Leaf-Ancestor metric as well as a dependency-based evaluation, and present novel approaches measuring the effect of controlled error insertion on treebank trees and parser output. We also provide extensive past-parsing crosstreebank conversion. The results of the experiments show that, contrary to Kübler et al. (2006), the question whether or not German is harder to parse than English remains undecided.
Manual development of deep linguistic resources is time-consuming and costly and therefore often described as a bottleneck for traditional rule-based NLP. In my PhD thesis I present a treebank-based method for the automatic acquisition of LFG resources for German. The method automatically creates deep and rich linguistic presentations from labelled data (treebanks) and can be applied to large data sets. My research is based on and substantially extends previous work on automatically acquiring wide-coverage, deep, constraint-based grammatical resources from the English Penn-II treebank (Cahill et al.,2002; Burke et al., 2004; Cahill, 2004). Best results for English show a dependency f-score of 82.73% (Cahill et al., 2008) against the PARC 700 dependency bank, outperforming the best hand-crafted grammar of Kaplan et al. (2004). Preliminary work has been carried out to test the approach on languages other than English, providing proof of concept for the applicability of the method (Cahill et al., 2003; Cahill, 2004; Cahill et al., 2005). While first results have been promising, a number of important research questions have been raised. The original approach presented first in Cahill et al. (2002) is strongly tailored to English and the datastructures provided by the Penn-II treebank (Marcus et al., 1993). English is configurational and rather poor in inflectional forms. German, by contrast, features semi-free word order and a much richer morphology. Furthermore, treebanks for German differ considerably from the Penn-II treebank as regards data structures and encoding schemes underlying the grammar acquisition task. In my thesis I examine the impact of language-specific properties of German as well as linguistically motivated treebank design decisions on PCFG parsing and LFG grammar acquisition. I present experiments investigating the influence of treebank design on PCFG parsing and show which type of representations are useful for the PCFG and LFG grammar acquisition tasks. Furthermore, I present a novel approach to cross-treebank comparison, measuring the effect of controlled error insertion on treebank trees and parser output from different treebanks. I complement the cross-treebank comparison by providing a human evaluation using TePaCoC, a new testsuite for testing parser performance on complex grammatical constructions. Manual evaluation on TePaCoC data provides new insights on the impact of flat vs. hierarchical annotation schemes on data-driven parsing. I present treebank-based LFG acquisition methodologies for two German treebanks. An extensive evaluation along different dimensions complements the investigation and provides valuable insights for the future development of treebanks.
This article presents a discussion on the main linguistic phenomena which cause difficulties in the analysis of user-generated texts found on the web and in social media, and proposes a set of annotation guidelines for their treatment within the Universal Dependencies (UD) framework of syntactic analysis. Given on the one hand the increasing number of treebanks featuring user-generated content, and its somewhat inconsistent treatment in these resources on the other, the aim of this article is twofold: (1) to provide a condensed, though comprehensive, overview of such treebanks—based on available literature—along with their main features and a comparative analysis of their annotation criteria, and (2) to propose a set of tentative UD-based annotation guidelines, to promote consistent treatment of the particular phenomena found in these types of texts. The overarching goal of this article is to provide a common framework for researchers interested in developing similar resources in UD, thus promoting cross-linguistic consistency, which is a principle that has always been central to the spirit of UD.
Multinomial processing tree (MPT) models are a class of measurement models that account for categorical data by assuming a finite number of underlying cognitive processes. Traditionally, data are aggregated across participants and analyzed under the assumption of independently and identically distributed observations. Hierarchical Bayesian extensions of MPT models explicitly account for participant heterogeneity by assuming that the individual parameters follow a continuous hierarchical distribution.We provide an accessible introduction to hierarchical MPT modeling and present the user-friendly and comprehensive R package TreeBUGS, which implements the two most important hierarchical MPT approaches for participant heterogeneity—the beta-MPT approach (Smith & Batchelder, Journal of Mathematical Psychology 54:167-183, 2010) and the latent-trait MPT approach (Klauer, Psychometrika 75:70-98, 2010). TreeBUGS reads standard MPT model files and obtains Markov-chain Monte Carlo samples that approximate the posterior distribution. The functionality and output are tailored to the specific needs of MPT modelers and provide tests for the homogeneity of items and participants, individual and group parameter estimates, fit statistics, and within- and between-subjects comparisons, as well as goodness-of-fit and summary plots. We also propose and implement novel statistical extensions to include continuous and discrete predictors (as either fixed or random effects) in the latent-trait MPT model.
In this paper we present Trendi, a monitor corpus of written Slovene, which has been compiled recently as part of the SLED (Monitor corpus and related resources) project. The methodology and the contents of the corpus are presented, as well as the findings of the survey that aimed to identify the needs of potential users related to topical language use. The Trendi corpus currently contains news articles and other web content from 110 different sources, with the texts being collected and linguistically annotated on a daily basis. The corpus complements Gigafida 2.0, a 1.13-billion-word reference corpus of standard written Slovene. Also discussed are the ways in which the corpus will be integrated into various lexicographic projects, helping not only in the identification of neologisms but also in monitoring changes in already identified language phenomena.
In Studien zu pädiatrischer Interaktion wird immer wieder die niedrige Redebeteiligung der jungen Patient/innen, deren Leiden in den ärztlichen Gesprächen verhandelt werden, herausgestellt. In einigen triadisch-pädiatrischen Erstkonsultationen, die sich in mehreren Punkten signifikant von dyadischen Erstgesprächen unterscheiden, ist allerdings die Beteiligung der Patient/innen deutlich höher. Eine Kombination aus quantitativer und konversationsanalytischer Untersuchung von Erstkonsultationen in der pädiatrischen Praxis zeigt, dass der Aufforderung zur Beschwerdenschilderung dabei eine entscheidende Bedeutung zukommt, weswegen der Formulierung besondere Aufmerksamkeit geschenkt werden sollte. Doch die herausfordernde Situation birgt nicht nur Stolpersteine, sondern kann auch von allen Interaktionspartner/innen als strategisches Mittel eingesetzt werden. Eine interaktive Relevanz haben überdies elterliche Initiativen. An mehreren Beispielen wird gezeigt, welche erheblichen Konsequenzen eine Nicht-Bearbeitung oder eine nicht ausreichende Bearbeitung für die jeweilige Interaktion hat.
In Studien zu pädiatrischer Interaktion wird immer wieder die niedrige Redebeteiligung der jungen Patient/innen, deren Leiden in den ärztlichen Gesprächen verhandelt werden, herausgestellt. In einigen triadisch-pädiatrischen Erstkonsultationen, die sich in mehreren Punkten signifikant von dyadischen Erstgesprächen unterscheiden, ist allerdings die Beteiligung der Patient/innen deutlich höher. Eine Kombination aus quantitativer und konversationsanalytischer Untersuchung von Erstkonsultationen in der pädiatrischen Praxis zeigt, dass der Aufforderung zur Beschwerdenschilderung dabei eine entscheidende Bedeutung zukommt, weswegen der Formulierung besondere Aufmerksamkeit geschenkt werden sollte. Doch die herausfordernde Situation birgt nicht nur Stolpersteine, sondern kann auch von allen Interaktionspartner/innen als strategisches Mittel eingesetzt werden. Eine interaktive Relevanz haben überdies elterliche Initiativen. An mehreren Beispielen wird gezeigt, welche erheblichen Konsequenzen eine Nicht-Bearbeitung oder eine nicht ausreichende Bearbeitung für die jeweilige Interaktion hat.
Twenty-two historical encyclopedias encoded in TEI: a new resource for the Digital Humanities
(2020)
This paper accompanies the corpus publication of EncycNet, a novel XML/TEI annotated corpus of 22 historical German encyclopedias from the early 18th to early 20th century. We describe the creation and annotation of the corpus, including the rationale for its development, suggested methodology for TEI annotation, possible use cases and future work. While many well-developed annotation standards for lexical resources exist, none can adequately model the encyclopedias at hand, and we therefore suggest how the TEI Lex-0 standard may be modified with additional guidelines for the annotation of historical encyclopedias. As the digitization and annotation of historical encyclopedias are settling on TEI as the de facto standard, our methodology may inform similar projects.
Twitter Analytics
(2014)
Die Online-Forschung setzt sich in den letzten Jahren zunehmend mit Mikro-Blogs, insbesondere dem weltweit populärsten Anbieter Twitter, auseinander. Verschiedenste Disziplinen beschäftigen sich aus ihren jeweiligen Perspektiven mit der Analyse von kommunikativen Prozessen und Strukturen von Twitter und nutzen dabei eine Vielzahl an methodischen Zugängen. In diesem Artikel werden zunächst die grundlegenden Funktionen, Möglichkeiten des Zugangs zur Datenstruktur sowie Methoden der Datenerhebung und -auswertung dargelegt. Im Anschluss werden Ansätze verschiedener Fachdisziplinen vorgestellt.
This article explores a sequence organizational phenomenon that results from the use of a loosely specifiable turn format (viz., That’s + wh-clause) for launching (next) sequences while at the same time connecting back to a prior turn. Using this practice creates a sequential juncture, i.e., a pivot-like nexus between one sequence and a next. In third position, such junctures serve to accomplish seamless sequential transitions from one sequence into a next by presenting the latter as locally occasioned. The practice may, however, also be deployed in second position to launch actions that have not been made relevant or provided for by the preceding action and exhibit response relevance themselves. The sequential junctures then become retro-sequential in character: They transform the projected trajectory of the sequence in progress and create interlocking sequential structures. These findings highlight that sequence is practice, while pointing to understudied interconnections between tying and sequentiality. Data are in English.
Badania nad postrzeganiem społecznym wskazują, że osoby uśmiechające się są na licznych wymiarach postrzegane korzystniej aniżeli osoby nieuśmiechające się. Jednakże w niniejszych badaniach twierdzimy, że ta zależność nie zawsze jest pozytywna ponieważ postrzeganie uśmiechu może być zależne od kultury i takich jej wymiarów jak indywidualizm-kolektywizm czy asertywność. Eksperyment przeprowadzony w sześciu krajach (w Polsce, Niemczech, Norwegii, Iranie, USA oraz RPA) pokazał, że osoby uśmiechające się mogą być w kulturach kolektywistycznych i mało asertywnych postrzegane mniej korzystnie od osób nieuśmiechających się. W Niemczech osoby uśmiechnięte zostały ocenione jako bardziej inteligentne, a w Iranie jako mniej inteligentne niż osoby nieuśmiechnięte. Ponadto we wszystkich krajach poza Iranem osoby uśmiechnięte były postrzegane jako bardziej szczere niż osoby nieuśmiechnięte. Dyskutujemy stwierdzone efekty w kontekście zróżnicowania kultur opisanego przez Housea i zespół (2004) oraz przez Hofstedego (2001).
Typische Verwendungen
(2005)
Nachdem sich verschiedene linguistische Teildisziplinen in den vergangenen Jahren der Medialität, Materialität und ‚Multimodalität‘ von Kommunikation zugewandt haben, hat zuletzt auch die typografische Gestaltung von Texten als spezifischer Aspekt dieses Komplexes verstärkte Aufmerksamkeit im Fach gefunden. Das Thema wurde, mit entsprechend unterschiedlichen Erkenntnisinteressen, in mehreren Fachbereichen (z.B. in der Text- und Graphostilistik, der Sozialsemiotik, der Werbesprachforschung, der Schriftlinguistik, der Verständlichkeitsforschung, der Metalexikographie und der Historischen Linguistik) aufgegriffen, darüber hinaus wird es mittlerweile auch in Nachbardisziplinen wie der Literatur- und Editionswissenschaft verstärkt diskutiert. Dabei wurde gezeigt, dass paraskripturale Phänomene in mehrfacher Hinsicht (etwa als Aufmerksamkeits- und Lesesteuerungssignal, als Emblem oder als Kontextualisierungshinweis) kommunikativ relevant werden können.
Der Beitrag gibt erstens einen Einblick in dieses heterogene Feld linguistischer Forschung und versucht, die kommunikative Relevanz skripturaler Sichtbarkeit und damit auch die Relevanz des Gegenstandsbereichs für das Fach zu begründen. Zweitens diskutiert er mit Blick auf das Rahmenthema des vorliegenden Bandes die Frage, inwiefern sich (Inter-)Medialität und Visualität gegenseitig bedingen. Dabei soll weniger die kaum zu bestreitende These im Mittelpunkt stehen, dass sich die Medialität des Kommunikats in deren visueller Gestaltung niederschlägt (bzw. den Gestaltungsrahmen vorgibt), sondern es soll umgekehrt vor allem danach gefragt werden, ob und inwiefern Medialität durch (typo-)grafische Variation mitkonstruiert wird, inwiefern die Medialität also selbst das Produkt sozial verankerter kommunikativer Praktiken wie der Textgestaltung ist.
Widerstand als psychoanalytisches Konzept beschreibt die Ambivalenz von Psychotherapiepatient*innen gegenüber dem therapeutischen Veränderungsprozess. Während der*die Patient*in sich mit dem Wunsch, bestimmte Veränderungen zu erzielen, auf die Therapie einlässt, stellen sich diesem Wunsch unbewusste Kräfte entgegen, die versuchen, den Status quo aufrechtzuerhalten. Hintergrund ist die Annahme, dass Widerstand eine Schutzfunktion darstellt, um schmerzhafte Affekte abzuwehren, die integraler Bestandteil eines psychotherapeutischen Prozesses sind. Therapeut*innen sehen sich vor der Aufgabe, Widerstandsphänomene als solche zu erkennen, deren Funktion zu verstehen und einen gemeinsamen Verstehensprozess mit dem*der Patient*in zu ermöglichen. Eine gesprächsanalytische Untersuchung von Widerstand und dessen kommunikativer Bearbeitung bietet eine wertvolle Ergänzung zur psychotherapeutischen Betrachtungsweise. Ein bislang in der Literatur wenig beachtetes Widerstandsphänomen ist Verbosität, womit gemeinhin ausufernde, unfokussierte Erzählungen gemeint sind. Aufbauend auf der bisher einzigen gesprächsanalytischen Untersuchung zu Verbosität als Widerstandsphänomen von Fenner, Spranz-Fogasy und Montan (2022) ist das Ziel der vorliegenden Arbeit, herauszuarbeiten, wie Widerstandsmanagement bei Verbosität verwendet wird. Dafür werden zwei Fallbeispiele gesprächsanalytisch untersucht. Diese stammen aus einem Korpus 34 videographierter ambulanter psychodynamischer Therapiesitzungen. Anhand des ersten Fallbeispiels wird deutlich, dass Verbosität als Widerstandsphänomen nicht nur patient*innenseitig geäußert wird, sondern gemeinsam mit dem*der Therapeut*in interaktiv hergestellt und forciert werden kann. Das zweite Beispiel zeigt, wie Widerstandsmanagement zu einer Auflösung des Widerstands führen kann. Die Analysen verdeutlichen zum einen auch, dass der psychoanalytische Widerstandsbegriff aus gesprächsanalytischer Sicht kritisch zu betrachten ist und zum anderen, dass beide Disziplinen nicht unbedingt zu den gleichen Ergebnissen kommen.
Der Beitrag versucht zunächst, den linguistischen Beschreibungsgegenstand ‚Umgangssprache‘ auf der Grundlage der neueren Forschungen hierzu näher zu spezifizieren. Es geht dabei um die Frage, welche sprachlichen Erscheinungen als ‚umgangssprachlich‘ bewertet werden und wie ‚Umgangssprache‘ allgemein definiert wird. Daraus resultiert die Feststellung, daß hierüber in der Forschung kein Konsens besteht und der Terminus ‚Umgangssprache‘ durchaus mehrdeutig verwendet wird. Dieser Tatbestand wirkt sich unmittelbar auf die lexikographische Praxis aus. Hier fehlt es an einem klaren Konzept der zu differenzierenden Stilschichten, hier mangelt es auch an einheitlichen Markierungskriterien und an einer einheitlichen Markierungspraxis. Divergenzen werden erklärt als Folge zwangsläufig empirischer, auf dem Sprachgefühl des einzelnen Lexikographen beruhender Zuordnungen. Am Beispiel des Deutschen Universalwörterbuches und anderer allgemeiner Wörterbücher des Gegenwartsdeutschs wird gezeigt, welche umgangssprachlichen Elemente im Wörterbuch überhaupt behandelt werden und welche Schwierigkeiten es insbesondere im Hinblick auf die regionale Gebundenheit umgangssprachlicher lexikalischer Einheiten gibt.
Die F.A.Z. hat in den letzten Monaten mehrere Beiträge von Sprachwissenschaftlern publiziert, die einen Genus-Sexus-Bezug in Abrede stellen und damit das sogenannte generische Maskulinum als geschlechtsübergreifend legitimieren möchten. Dabei wird ignoriert, dass seit den 1990er Jahren über ein Dutzend (psycho-)linguistische Perzeptionsstudien1 durchgeführt wurden, die – mit ganz unterschiedlichen Designs und Methoden – alle zu einem ähnlichen Ergebnis gelangen: Das sogenannte generische (besser: geschlechtsübergreifende) Maskulinum ist eine Fiktion, es ruft mehrheitlich männliche Vorstellungen auf. Dies erkennt man im Alltag daran, dass vermeintlich ‚generische‘ Sätze allzu oft und unauffällig in rein männliche umkippen. Oder anders gesagt: Der Unterschied zwischen sogenanntem generischem und geschlechtsspezifischem
Maskulinum wird nicht beherrscht.
Und sieht auch noch gut aus
(1997)
Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
(2021)
Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.
Universal Dependency (UD) annotations, despite their usefulness for cross-lingual tasks and semantic applications, are not optimised for statistical parsing. In the paper, we ask what exactly causes the decrease in parsing accuracy when training a parser on UD-style annotations and whether the effect is similarly strong for all languages. We conduct a series of experiments where we systematically modify individual annotation decisions taken in the UD scheme and show that this results in an increased accuracy for most, but not for all languages. We show that the encoding in the UD scheme, in particular the decision to encode content words as heads, causes an increase in dependency length for nearly all treebanks and an increase in arc direction entropy for many languages, and evaluate the effect this has on parsing accuracy.
Gratitude is argued to have evolved to motivate and maintain social reciprocity among people, and to be linked to a wide range of positive effects—social, psychological and even physical. But is socially reciprocal behaviour dependent on the expression of gratitude, for example by saying ‘thank you’ as in English? Current research has not included cross-cultural elements, and has tended to conflate gratitude as an emotion with gratitude as a linguistic practice, as might appear to be the case in English. Here, we ask to what extent people express gratitude in different societies by focusing on episodes of everyday life where someone seeks and obtains a good, service or support from another, comparing these episodes across eight languages from five continents. We find that expressions of gratitude in these episodes are remarkably rare, suggesting that social reciprocity in everyday life relies on tacit understandings of rights and duties surrounding mutual assistance and collaboration. At the same time, we also find minor cross-cultural variation, with slightly higher rates in Western European languages English and Italian, showing that universal tendencies of social reciprocity should not be equated with more culturally variable practices of expressing gratitude. Our study complements previous experimental and culture-specific research on gratitude with a systematic comparison of audiovisual corpora of naturally occurring social interaction from different cultures from around the world.
Unserdeutsch (Rabaul Creole German) ist nach heutigem Kenntnisstand die einzige deutschbasierte Kreolsprache der Welt. Sie entstand zu Beginn des 20. Jahrhunderts an einer katholischen Missionsstation in der damaligen Kolonie Deutsch-Neuguinea im melanesischen Pazifik. Die Sprache selbst und ihre Entstehungsumstände sind in mehrfacher Hinsicht bemerkenswert. Trotzdem wäre die Chance zur Dokumentation und Erforschung von Unserdeutsch beinahe verpasst worden: Nur noch rund 100 Sprecher, alle in fortgeschrittenem Alter, leben heute verstreut in Ostaustralien und Papua-Neuguinea.
Der hier vorliegende Blickpunkt informiert über die Entstehung, Bedeutung, Forschung und Aktualität der Sprache „Unserdeutsch“ im Pazifik.