L3: Lexik empirisch und digital
Refine
Document Type
- Article (32)
- Part of a Book (25)
- Other (7)
- Preprint (4)
- Conference Proceeding (2)
- Doctoral Thesis (2)
- Book (1)
- Part of Periodical (1)
- Working Paper (1)
Keywords
- Korpus <Linguistik> (32)
- Deutsch (29)
- Wortschatz (16)
- COVID-19 (13)
- Geschlechtergerechte Sprache (10)
- Lexikostatistik (9)
- Online-Medien (9)
- Wörterbuch (9)
- Vielfalt (8)
- Datenanalyse (7)
Publicationstate
- Veröffentlichungsversion (43)
- Zweitveröffentlichung (28)
- Postprint (12)
Reviewstate
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (13)
- Wilhelm Fink (6)
- de Gruyter (6)
- IDS-Verlag (4)
- Cornell University (3)
- Erich Schmidt (3)
- Narr Francke Attempto (3)
- De Gruyter (2)
- Friedrich (2)
- LINDAT/CLARIAH-CZ (2)
Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.
Im vorliegenden Beitrag gehen wir von der Prämisse aus, dass die Angemessenheit sprachlicher Formen nicht pauschal, sondern anhand des jeweiligen Kontexts zu beurteilen ist. Anhand einer Online-Fragebogenstudie mit durch weil eingeleiteten Nebensätzen untersuchen wir die Hypothese, dass Varianten, die nicht dem Schriftstandard entsprechen, in Kommunikationsformen, die sich weniger an standard- und schriftsprachlichen Normen orientieren, als (mindestens) ebenso angemessen oder zumindest unterschiedlich wahrgenommen werden wie eine schriftstandardsprachliche Variante. Wir untersuchen dies anhand von drei Aufgaben: Rezeption, Produktion und Assoziation zu bestimmten Medien und Textsorten. Wir können zeigen, dass die schriftnormgerechte Variante durchweg als am akzeptabelsten eingeschätzt wird. In allen drei Aufgaben finden sich aber auch eindeutige und übereinstimmende Effekte, die nahelegen, dass die verschiedenen Varianten in Abhängigkeit der Textsorte doch unterschiedlich eingeschätzt, produziert und assoziiert werden.
Wir stellen eine empirische Studie vor, die der Frage nachgeht, ob und in welchem Ausmaß Wörterbücher und andere lexikographische Ressourcen die Ergebnisse von Textüberarbeitungen verbessern. Studierende wurden in unserer Studie gebeten, zwei Texte zu optimieren und waren dabei zufällig in drei unterschiedliche Versuchsbedingungen eingeteilt: 1. ein Ausgangstext ohne Hinweise auf potenzielle Fehler im Text, 2. ein Ausgangstext, bei dem problematische Stellen im Text hervorgehoben waren und 3. ein Ausgangstext mit hervorgehobenen Problemstellen zusammen mit lexikographischen Ressourcen, die zur Lösung der spezifischen Probleme verwendet werden konnten. Wir fanden heraus, dass die Teilnehmer*innen der dritten Gruppe die meisten Probleme korrigierten und die wenigsten semantischen Verzerrungen während der Überarbeitung einführten. Außerdem waren sie am effizientesten (gemessen in verbesserten Textabschnitten pro Zeit). Wir berichten in dieser Fallstudie ausführlich vom Versuchsaufbau, der methodischen Durchführung der Studie und eventuellen Limitationen unserer Ergebnisse.
Dictionary usage research views dictionaries primarily as tools for solving linguistic problems. A large proportion of dictionary use now takes place online and can thus be easily monitored using tracking technologies. Using the data gathered through tracking usage data, we hope to optimize user experiences of dictionaries and other linguistic resources. Usage statistics are also used for external evaluation of linguistic resources. In this paper, we pursue the following three questions from a quantitative perspective: (1) What new insights can we gain from collecting and analysing usage data? (2) What limitations of the data and/or the collection process do we need to be aware of? (3) How can these insights and limitations inform the development and evaluation of linguistic resources?
Dictionaries have been part and parcel of literate societies for many centuries. They assist in communication, particularly across different languages, to aid in understanding, creating, and translating texts. Communication problems arise whenever a native speaker of one language comes into contact with a speaker of another language. At the same time, English has established itself as a lingua franca of international communication. This marked tendency gives lexicography of English a particular significance, as English dictionaries are used intensively and extensively by huge numbers of people worldwide.
cOWIDplus Analyse ist eine kontinuierlich aktualisierte Ressource zu der Frage, ob und wie stark sich der Wortschatz ausgewählter deutscher Online-Pressemeldungen während der Corona-Pandemie systematisch einschränkt und ob bzw. wann sich das Vokabular nach der Krise wieder ausweitet. In diesem Artikel erläutern die Autor*innen die hinter der Ressource stehende Forschungsfrage, die zugrunde gelegten Daten, die Methode sowie die bisherigen Ergebnisse.
cOWIDplus
(2020)
Die Corona-Krise hat Einfluss auf die Sprache in deutschsprachigen Online-Medien. Wir haben die Hypothese, dass sich die Vielfältigkeit des verwendeten Vokabulars einschränkt. Wir glauben zudem, dass sich die Diversität des Vokabulars nach "überstandener" Krise wieder auf ein "Prä-Pandemie-Niveau" einpendeln wird. Diese zweite Hypothese lässt sich erst im Laufe der Zeit überprüfen.
cOWIDplus Viewer
(2020)
The coronavirus pandemic may be the largest crisis the world has had to face since World War II. It does not come as a surprise that it is also having an impact on language as our primary communication tool. In this short paper, we present three inter-connected resources that are designed to capture and illustrate these effects on a subset of the German language: An RSS corpus of German-language newsfeeds (with freely available untruncated frequency lists), a continuously updated HTML page tracking the diversity of the vocabulary in the RSS corpus and a Shiny web application that enables other researchers and the broader public to explore the corpus in terms of basic frequencies.