Digitale Sprachwissenschaft
Refine
Year of publication
Document Type
- Part of a Book (66)
- Conference Proceeding (42)
- Article (22)
- Book (14)
- Other (3)
- Working Paper (2)
- Diploma Thesis (1)
- Master's Thesis (1)
- Part of Periodical (1)
- Review (1)
Keywords
- Korpus <Linguistik> (73)
- Deutsch (41)
- Annotation (19)
- Computerlinguistik (17)
- Automatische Sprachanalyse (13)
- Digital Humanities (12)
- Automatische Sprachverarbeitung (11)
- Computerunterstützte Kommunikation (9)
- CLARIN (7)
- Gesprochene Sprache (7)
Publicationstate
- Veröffentlichungsversion (108)
- Zweitveröffentlichung (36)
- Postprint (11)
- Preprint (1)
Reviewstate
Publisher
- de Gruyter (19)
- European language resources association (ELRA) (11)
- The Association for Computational Linguistics (11)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (6)
- Editura Academiei Române (5)
- Benjamins (4)
- CLARIN (4)
- Clarin (4)
- De Gruyter (4)
- Heidelberg University Publishing (4)
„Es ist das meistgebrauchte Wort unserer Zeit und war das erste, das auf dem Mond fiel. Verstanden wird es in der ganzen Welt. Ein virales Wunder“ – mit diesen Worten beschreibt Uwe Ebbinghaus in der FAZ das Wort okay, als Verschriftlichung der Aussprache von O. K. [ˌəʊˈkeɪ], später auch O. k. bzw. o. k. sowie ohne Punkte als OK oder ok. Metcalf (2011) findet nicht weniger große Worte für die kleine Spracheinheit: „It’s America’s answer to Shakespeare. It’s an entire philosophy expressed in two letters“ (Metcalf 2011, S. ix). Die Beliebtheit des Wortes erklärt Metcalf (2011) auch aus linguistischer Sicht: One reason OK has spread throughout the world, [...], is that O and K are basic sounds found in most languages. [...] It is likely that many languages will have combinations that sound like OK, either complete words [...] or initials of words (Metcalf 2011, S. 90). okay ist in mündlichen Gesprächen heute beinahe allgegenwärtig, ob als kurze Frage am Ende einer Äußerung, als direkte Rückmeldung oder als international verstandenes Wort der Zustimmung. Sowohl die zunehmend häufigere Verwendung als auch die unterschiedlichen Gebrauchsmöglichkeiten sind Eigenschaften von okay, die das Wort schon vielfach zur Grundlage linguistischer Forschung gemacht haben. Das Hauptaugenmerk solcher Analysen lag vorrangig auf der Herausstellung unterschiedlicher Ge-brauchsweisen im mündlichen Diskurs. Doch okay ist keinesfalls ausschließlich ein Phänomen der gesprochenen Sprache: Der Ursprung von okay liegt in der Schrift. Die Funktion und Bedeutungvon okay im schriftsprachlichen Gebrauch stellen weitere, äußerst relevante Untersuchungsaspekte dar, da diese letztlich zu einer ganzheitlichen, wissenschaftlich fundierten Beschreibung des Wortes beitragen. So mussten bspw. durch die fehlende Intonation in Texten Entscheidungen bezüglich der Schreibweise von okay getroffen werden, was wiederum Anlass zur Entstehung vielfältiger Varianten gab. Neben der orthographischen Realisierung von okay ist gleichermaßen interessant, wie es sich seit seiner erstmaligen Verwendung in der deutschen Schriftlichkeit grammatikalisch entwickelt hat. Relevante Fragen sind hier etwa, ob okay ausschließlich als Responsiv genutzt wird, und auch, ob zwischen dem Gebrauch in text- oder interaktionsorientierter Schriftlichkeit Unterschiede festzustellen sind.
National library as corpus: introducing DeLiKo@DNB – a large synchronous German fiction corpus
(2025)
This paper introduces DeLiKo@DNB, a large, linguistically annotated, and large, freely accessible contemporary corpus of German fiction. The corpus currently comprises 2 billion words from over 26,000 books published between 2005 and the present, spanning pulp and genre fiction as well as literary award-winning works. We provide a detailed account of the corpus composition, metadata, and key features. Additionally, we outline our approach to ensuring lawful and productive access by deploying an instance of the open-source corpus analysis platform KorAP within the German National Library.
Linguistische Wikipedistik
(2018)
Die Wikipedia ist nicht nur die größte Online-Enzyklopädie weltweit, sondern auch eines der erfolgreichsten Projekte im Web 2.0: In nur 16 Jahren sind rund 48 Millionen Einträge in 295 Sprachversionen entstanden (Wikimedia 2018). Mit Rang 5 des Alexa-Rankings ist die Wikipedia eine der meistgenutzten Plattformen im Internet (Alexa 2018). Durch ihre Relevanz und Reichweite wird die Wikipedia auch intensiv beforscht. Die Seite „Wikipedistik“ (WP-Wikipedistik; Wikipedia 2018) im Metabereich der deutschsprachigen Wikipedia gibt einen Überblick über nationale und internationale Forschungsaktivitäten und -ergebnisse. Die interessierten Disziplinen, die Erkenntnisinteressen und methodischen Zugänge der Wikipedistik sind vielfältig. Hammwöhner (2007) beschäftigt sich aus informationswissenschaftlicher Perspektive mit Methoden und Ergebnissen der Qualitätsbewertung von Wikipedia-Artikeln. Pscheida (2010) untersucht die Wikipedia unter wissenssoziologischer Perspektive und begründet am Beispiel der Wikipedia interessante Thesen zur „Wissenskultur des digitalen Zeitalters“ (Pscheida 2010: 458 ff.). Stegbauer (2009) untersucht das soziale Rollengefüge und die Motivation der Akteure in der deutschen Wikipedia und gibt einen empirisch sehr gut gestützten Einblick in die sozialen Prozesse im Projekt.
In diesem Beitrag geben wir einen Überblick über die aktuelle Forschung zur Wikipedia aus der Perspektive der Sprach- und Diskursanalyse. Zunächst (Abschnitte 2.1–2.4) verdeutlichen wir das Potenzial der Wikipedia als Forschungsgegenstand an vier Themenfeldern: Text und Interaktion, Diskurslinguistik, Multimodalität, Sprach- und Kulturvergleich. Der anschließende Abschnitt 2.5 „Wikipedaktik“ beschäftigt sich mit der Wikipedia als lohnenswertem Lerngegenstand in Schule und Hochschule. Wikipedia ist nicht nur interessant als Ressource, an der sich die Besonderheiten digitaler Diskurse, multimodaler Hypertexte und kollaborativer Schreib- und Aushandlungsprozesse gut verdeutlichen lassen. Es ist auch ein Projekt des freien Wissens, das seine Daten unter Creative-Commons-Lizenzen zur Verfügung stellt und es damit ermöglicht, sehr umfangreiche Korpora zu verschiedenen Sprachen und unterschiedlichen Schreibräumen aufzubauen. Abschnitt 3 dokumentiert den umfangreichen Bestand der Wikipedia-Korpusfamilie am Institut für Deutsche Sprache (IDS) und beschreibt, wie diese Korpora für die Sprach- und Diskursforschung linguistisch aufbereitet werden. Abschnitt 4 gibt einen zusätzlichen Einblick in digitale Methoden, die direkt auf den Daten und Metadaten der Wikipedia-Sprachversionen ansetzen und zusätzliche interessante Optionen der Auswertung bieten.
In this contribution, we report on ongoing efforts in the German national research infrastructure consortium Text+ to make research data and services for text- and language-oriented disciplines FAIR, that is findable, accessible, interoperable, and reusable, as well as compliant with the CARE principles for language resources.
This paper presents results of a case study that compared the usage of OKAY across genre types (Wikipedia articles vs. talk pages), across modes (spoken vs. written language), and across languages (German vs. French CMC data from Wikipedia talkpages).The cross-genre study builds on the results of Herzberg (2016), who compared the usage of OKAY in German Wikipedia articles with its usage in Wikipedia talk pages. These results also form the basis for comparing the CMC genre of Wikipedia talk pages with occurrences of OKAY in the German spoken language corpus FOLK. Finally, we compared the results on the usage of OKAY in German Wikipedia talk pages with the usage of OKAY in French Wikipedia talk pages. With our case study, we want to demonstrate that it is worthwhile to investigate interaction signs across genres and languages,and to compare the usage in written CMC with the usage in spoken interaction.
The internationalism okay has its origin in the American English language as a deliberately misspelled abbreviation for “all correct”. Since its creation in 1839, it has spread into many languages of the world with spellings and pronunciations adapted to the respective languages. Over time, okay has developed various functions and meanings. The article aims at broadening the description of okay’s functional range in written Computer-Mediated Communication (CMC), more precisely, on Wikipedia talk pages. It sheds light on the practices of the diverse okay forms, positions and functions on the French and German Wikipedia talk pages. Moreover, it shows language-specific patterns of okay usages in both languages.
The present Special Issue features a selection of papers presented at the 10th International Contrastive Linguistics Conference (ICLC-10), held from 18 to 21 July 2023 in Mannheim, Germany (https://iclc10.ids-mannheim.de). The aim of the ICLC conference series, running since 1998, is to promote fine-grained cross-linguistic research comprising two or more languages from a broad range of theoretical and methodological perspectives.
The collection of articles included in this Special Issue of Languages in Contrast addresses central questions in the contrastive study of selected linguistic constructions as objects of investigation, equivalents to other linguistic expressions, or as diagnostics. In particular, these constructions and the related issues include: future constructions and the role of syntactic complexity in their usage; classifier and quantifier constructions as environments for distinguishing mass versus count nouns; external possession constructions with their case features, grammatical functions, distribution and semantic properties; embedded exclamative constructions as structures whose conventional meaning is claimed to be projected by their matrix clause; existential and presentational constructions and the differences between them in negative contexts; as well as converbs and their range of uses (also including a diachronic perspective).
The studies of these constructions take a variety of language pairs into account, including typologically close as well as distant languages, and in some cases, the contrastive analysis is extended to further languages. The contrasted languages are English-Norwegian, English-French, Chinese-English, Korean-Spanish, German-Russian(-Italian) and French-Polish-Czech.
All of the contributions are corpus-based and use either monolingual corpora, such as the British National Corpus (BNC), the Open American National Corpus (OANC), the Norwegian Speech Corpus, the BigBrother corpus, Wordbanks Online, Frantext, the Czech National Corpus (CNC), the German Reference Corpus DeReKo, the Russian National Corpus (RNC), the National Corpus of Polish (NKJP) or multilingual corpora, in particular parallel corpora such as OPUS, InterCorp and a self-compiled Chinese-English parallel corpus. In most cases, the corpus data are analyzed using descriptive statistical methods.
The CLARIN and DARIAH European research infrastructures have a long history of collaboration and cooperation. One recent joint initiative has been to strengthen and deepen collaboration with national and major research libraries, with a particular focus on ways to facilitate the wider use of the extensive and culturally important digital datasets curated by libraries as research data. In order to further this goal, a series of workshops has beeninitiated, and a Conference of European National Librarians (CENL) Dialogue Forum has been established. Ongoing collaborative work includes a survey of existing collaborations between libraries and research infrastructures, an investigation of the potential for the creation of unique language models from digital library collections and an exploration of emerging initiatives such as the common European Data Space for Cultural Heritage.
Introduction
(2024)