Refine
Year of publication
- 2021 (356) (remove)
Document Type
- Article (125)
- Part of a Book (115)
- Conference Proceeding (30)
- Other (25)
- Book (19)
- Part of Periodical (16)
- Report (13)
- Review (9)
- Working Paper (2)
- Course Material (1)
Language
- German (246)
- English (107)
- French (1)
- Multiple languages (1)
- Russian (1)
Keywords
- Deutsch (132)
- Korpus <Linguistik> (66)
- COVID-19 (53)
- Interaktion (44)
- Sprachgebrauch (43)
- Konversationsanalyse (42)
- Kommunikation (36)
- Neologismus (33)
- Wortschatz (30)
- Grammatik (27)
Publicationstate
- Veröffentlichungsversion (205)
- Zweitveröffentlichung (116)
- Postprint (27)
- Hybrides Open Access (2)
- Erstveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (160)
- Peer-Review (135)
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (65)
- de Gruyter (48)
- IDS-Verlag (39)
- Taylor & Francis (15)
- Verlag für Gesprächsforschung (9)
- Leibniz-Institut für Deutsche Sprache (8)
- Peter Lang (8)
- Winter (8)
- Benjamins (7)
- Zenodo (7)
- Association for Computational Linguistics (6)
- Goethe-Institut (6)
- Heidelberg University Publishing (6)
- Linköping University Electronic Press (6)
- Spektrum der Wissenschaft Verlagsgesellschaft (5)
- Deutsche Gesellschaft für Sprachwissenschaft (4)
- Erich Schmidt (4)
- CLARIAH-DE (3)
- CLARIN (3)
- Cambridge University Press (3)
- Elsevier (3)
- Leibniz-Institut für Deutsche Sprache, CLARIAH-DE (3)
- Beltz Juventa (2)
- Buske (2)
- De Gruyter (2)
- Frontiers Media SA (2)
- Karolinum (2)
- Lexical Computing CZ s.r.o. (2)
- MDPI (2)
- Narr Francke Attempto (2)
- Oxford University Press (2)
- Routledge, Taylor & Francis Group (2)
- Springer (2)
- Springer Nature (2)
- Stauffenburg (2)
- Aschendorff (1)
- Budrich (1)
- Bundeszentrale für politische Bildung (1)
- Cambridge Scholars Publishing (1)
- Centre de linguistique appliquée (1)
- Democritus University of Thrace (1)
- Der Spiegel (1)
- Deutsches Kulturforum östliches Europa e.V. (1)
- Edinburgh University Press (1)
- Erich Schmidt Verlag (1)
- Fachverlag Hans Carl (1)
- Friedrich (1)
- GOEDOC, Dokumenten- und Publikationsserver der Georg-August-Universität (1)
- GWZ (1)
- Gesellschaft für deutsche Sprache (1)
- Gesellschaft für deutsche Sprache (GfdS) (1)
- Gesellschaft für deutsche Sprache e. V. (1)
- Graphen & Netzwerke; AG des Verbandes Digital Humanities im deutschsprachigen Raum e.V. (1)
- Hogrefe (1)
- Institute of the Polish Language (1)
- International Association for Colonial and Postcolonial Linguistics (1)
- Istanbul University Press (1)
- Istituto Italiano di Studi Germanici (1)
- John Benjamins (1)
- Kyungpook National University (1)
- LINDAT/CLARIAH-CZ (1)
- Lemberger (1)
- Linguistic Convergence Laboratory, HSE University (1)
- Maria Curie-Sklodowska University Press (1)
- Mediengruppe Dr. Haas (1)
- Metropol (1)
- Olms (1)
- PUBLISSO (1)
- Pacini Editore (1)
- Regio Basiliensis (1)
- STADT.WAND.KUNST c/o Alte Feuerwache Mannheim gGmbH (1)
- Sage Publications (1)
- Schneider Verlag Hohengehren (1)
- SemDial (1)
- Spanish Association for Corpus Linguistics (1)
- Tallinn University Press (1)
- Tomsk State University (1)
- Tübingen Library Publishing (1)
- University College London and Queen Mary University of London (1)
- University of Ljubljana Press (1)
- University of Oulu (1)
- Universität Siegen (1)
- Universitäts- und Landesbibliothek Darmstadt (1)
- Universitätsbibliothek Johann Christian Senckenberg (1)
- Universitätsverlag (1)
- Universitätsverlag Göttingen (1)
- Université de Genève (1)
- V&R Unipress (1)
- V&R unipress (1)
- Wachholtz (1)
- Wiley-Blackwell (1)
- open-access-network (1)
- wbg Theiss (1)
- Éditions de la Maison des sciences de l'homme (1)
Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
(2021)
Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.
This paper explores how attitudes affect the seemingly objective process of counting speakers of varieties using the example of Low German, Germany’s sole regional language. The initial focus is on the basic taxonomy of classifying a variety as a language or a dialect. Three representative surveys then provide data for the analysis: the Germany Survey 2008, the Northern Germany Survey 2016, and the Germany Survey 2017. The results of these surveys indicate that there is no consensus concerning the evaluation of Low German’s status and that attitudes towards Low German are related to, for example, proficiency in the language. These attitudes are shown to matter when counting speakers of Low German and investigating the status it has been accorded.
Öffentliche Sprachdiskurse, wie sie beispielsweise in den Medien stattfinden, werden typischerweise aus einer sprachkritischen Haltung heraus geführt. Inwieweit diese veröffentlichte Meinung tatsächlich die Mehrheitsmeinung der Sprecherinnen und Sprecher widerspiegelt, ist durchaus eine offene Frage. In diesem Beitrag berichten wir aus einer rezenten Erhebung über Spracheinstellungen in Deutschland. Wir zeigen, dass die Art der Frageformulierung einen starken Einfluss auf die Ergebnisse hat, und berichten, welche sprachlichen Veränderungen die Befragten in jüngerer Zeit angeben, wahrgenommen zu haben.
Bislang gibt es keine akkuraten, repräsentativen Statistiken dazu, welche Sprachen in Deutschland gesprochen werden. Zwar wird in verschiedenen Erhebungen nach Muttersprachen oder nach zuhause gesprochenen Sprachen gefragt; aufgrund einiger Mängel im Erhebungsdesign bilden die Ergebnisse der vorliegenden Erhebungen jedoch die sprachliche Realität der in Deutschland lebenden Bevölkerung nicht angemessen ab. Im Beitrag wird anhand von drei Erhebungen gezeigt, dass bereits die Instrumente zur Erhebung von Sprache von Spracheinstellungen geprägt sind und dass dadurch die Gültigkeit der Ergebnisse stark eingeschränkt wird. Diese Mängel gelten für Sprachstatistiken im Hinblick auf die gesamte Bevölkerung Deutschlands – Kinder und Jugendliche eingeschlossen.
Das vorliegende Themenheft bündelt theoretische, methodologische und empirische Debatten an der Schnittstelle von Zeichen, Zeichensystem, Zeichenmodalität/-materialität und Medium und möchte sie weiterführen. Die Beiträge befassen sich mit Fragen der begrifflichen und empirischen Grenzziehung zwischen Zeichen und Medien und liefern so Impulse für die Erforschung des Wechselspiels der Gegenstandsbereiche Zeichenhaftigkeit, Medialität und Materialität als Manifestation multimodaler Kommunikation. Ziel des Heftes ist es, die theoretischen und empirischen Diskussionen um Multimodalität und Medialität stärker aufeinander zu beziehen.
In this paper we examine the composition and interactional deployment of suspended assessments in ordinary German conversation. We define suspended assessments as lexicosyntactically incomplete assessing TCUs that share a distinct cluster of prosodic-phonetic features which auditorily makes them come off as 'left hanging' rather than cut-off (e.g., Schegloff/Jefferson/Sacks 1977; Jasperson 2002) or trailing-off (e.g., Local/Kelly 1986; Walker 2012). Using CA/IL methodology (Couper-Kuhlen/Selting 2018) and drawing on a large body of video-recorded face-to-face conversations, we highlight the verbal, vocal and bodily-visual resources participants use to render such unfinished assessing TCUs recognizably incomplete and identify six recurrent usage types. Overall, the suspension of assessing TCUs appears to either serve as a practice for circumventing the production of assessments that are interactionally inapposite, or as a practice for coping with local contingencies that render the very doing of an assessment problematic for the speaker. Data are in German with English translations.