Refine
Year of publication
Document Type
- Article (4)
- Part of a Book (4)
- Other (3)
- Book (2)
- Conference Proceeding (1)
- Report (1)
Is part of the Bibliography
- no (15) (remove)
Keywords
- Deutsch (12)
- Korpus <Linguistik> (6)
- Automatische Sprachanalyse (2)
- Diskursanalyse (2)
- Fugenelement (2)
- Grammatik (2)
- Rezension (2)
- Anglizismus (1)
- COVID-19 (1)
- Comparable Corpus (1)
Publicationstate
- Zweitveröffentlichung (3)
- Veröffentlichungsversion (2)
- Postprint (1)
Reviewstate
Publisher
Dieser Beitrag gibt einen Überblick über CoDII, die Collection of Distributionally Idiosyncratic Items. CoDII ist eine elektronische Sammlung verschiedener Untergruppen lexikalischer Elemente, die sich durch idiosynkratische Distribution auszeichnen. Das bedeutet, dass sich die Verteilung dieser Lexeme im Text nicht alleine aufgrund ihrer syntaktischen Kategorie Vorhersagen lässt. Die Methoden, die in der Entwicklung von CoDII angewandt werden, greifen über traditionelle Fachgrenzen hinaus und umfassen Korpuslinguistik, Computerlinguistik, Phraseologie und theoretische Sprachwissenschaft. Ein wichtiger Schwerpunkt unserer Diskussion liegt auf der Darstellung, inwiefern die in CoDII gesammelten, annotierten und unter anderem mit Suchwerkzeugen abfragbaren Daten dazu beitragen können, die linguistische Theoriebildung durch die Bereitstellung sorgfältig aufbereiteter Datensammlungen bei der Überprüfung ihrer Datengrundlage zu unterstützen.
Im Corona-Diskurs prallen völlig unterschiedliche Meinungen und Positionen zur Rolle des Staates aufeinander. Die Studie untersucht diese Positionen mit korpuslinguistischen Methoden anhand der Berichterstattung von Medien und Kommentaren von Leserinnen und Lesern in der Deutschschweiz. Dabei werden auch rechte und Corona-skeptische Plattformen in die Analyse einbezogen. Grundlage des korpuspragmatischen Zugangs ist die Berechnung und Interpretation von Word Embeddings, einer Methode zur Modellierung von semantischen Räumen. Es zeigt sich, wie sich im Diskurs inkommensurable Semantiken entwickeln.
Im empirisch ausgerichteten Projekt "Grammatische Variation im Deutschen" des IDS wollen wir den Sprachgebrauch in seiner Vielfalt und die tatsächlich wirksamen Regeln darstellen. Dazu schöpfen wir die heutigen Möglichkeiten einer Korpusgrammatik aus; wir analysieren auf einer möglichst großen Datenbasis grammatische Phänomene mit konkurrierender Varietät. Meine Studie ist die erste der Pilotstudien, die ein solches Vorgehen ausloten sollen. Dazu hat Noah Bubenhofer ein Versuchskorpus mit 176.405.282 Analysen von Zusammensetzungen aus Substantiven erstellt. Auf Basis dieses Korpus beschreibe ich die sprachgebräuchlichen Varianten von Wortformen und Fugenelementen in deutschen Zusammensetzungen, zum Beispiel in Tagtraum neben Tageslicht neben Tagedieb oder in Abfahrtsmöglichkeit neben Abfahrtmöglichkeit. Obwohl solche Varianten immer wieder zu Verwendungsunsicherheiten führen und in der Forschungsliteratur auch immer wieder als auffällig thematisiert werden, ist - wie Michel (2009, S. 334) feststellt - die systematische Beschreibung solcher Varianten ein Desiderat.
In this feasibility study we aim at contributing at the practical use of domain ontologies for hypertext classification by introducing an algorithm generating potential keywords. The algorithm uses structural markup information and lemmatized word lists as well as a domain ontology on linguistics. We present the calculation and ranking of keyword candidates based on ontology relationships, word position, frequency information, and statistical significance as evidenced by log-likelihood tests. Finally, the results of our machine-driven classification are validated empirically against manually assigned keywords.
To build a comparable Wikipedia corpus of German, French, Italian, Norwegian, Polish and Hungarian for contrastive grammar research, we used a set of XSLT stylesheets to transform the mediawiki anntations to XML. Furthermore, the data has been amnntated with word class information using different taggers. The outcome is a corpus with rich meta data and linguistic annotation that can be used for multilingual research in various linguistic topics.