Refine
Year of publication
Document Type
- Part of a Book (11)
- Article (5)
- Other (4)
- Book (3)
- Conference Proceeding (1)
- Report (1)
Keywords
- Deutsch (15)
- Korpus <Linguistik> (13)
- Visualisierung (5)
- Diskursanalyse (4)
- Visual Linguistics (4)
- Linguistische Informationswissenschaft (3)
- Automatische Sprachanalyse (2)
- Datenbank (2)
- Fugenelement (2)
- Genitiv (2)
Publicationstate
- Veröffentlichungsversion (8)
- Zweitveröffentlichung (5)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (15)
- Peer-Review (1)
Publisher
- Heidelberg University Publishing (5)
- Institut für Deutsche Sprache (5)
- de Gruyter (5)
- De Gruyter (2)
- Institut für deutsche Sprache (1)
- Narr (1)
- Schneider Verlag Hohengehren (1)
- Stauffenburg (1)
- Universität Hamburg (1)
Dieser Beitrag gibt einen Überblick über CoDII, die Collection of Distributionally Idiosyncratic Items. CoDII ist eine elektronische Sammlung verschiedener Untergruppen lexikalischer Elemente, die sich durch idiosynkratische Distribution auszeichnen. Das bedeutet, dass sich die Verteilung dieser Lexeme im Text nicht alleine aufgrund ihrer syntaktischen Kategorie Vorhersagen lässt. Die Methoden, die in der Entwicklung von CoDII angewandt werden, greifen über traditionelle Fachgrenzen hinaus und umfassen Korpuslinguistik, Computerlinguistik, Phraseologie und theoretische Sprachwissenschaft. Ein wichtiger Schwerpunkt unserer Diskussion liegt auf der Darstellung, inwiefern die in CoDII gesammelten, annotierten und unter anderem mit Suchwerkzeugen abfragbaren Daten dazu beitragen können, die linguistische Theoriebildung durch die Bereitstellung sorgfältig aufbereiteter Datensammlungen bei der Überprüfung ihrer Datengrundlage zu unterstützen.
In this feasibility study we aim at contributing at the practical use of domain ontologies for hypertext classification by introducing an algorithm generating potential keywords. The algorithm uses structural markup information and lemmatized word lists as well as a domain ontology on linguistics. We present the calculation and ranking of keyword candidates based on ontology relationships, word position, frequency information, and statistical significance as evidenced by log-likelihood tests. Finally, the results of our machine-driven classification are validated empirically against manually assigned keywords.
Im empirisch ausgerichteten Projekt "Grammatische Variation im Deutschen" des IDS wollen wir den Sprachgebrauch in seiner Vielfalt und die tatsächlich wirksamen Regeln darstellen. Dazu schöpfen wir die heutigen Möglichkeiten einer Korpusgrammatik aus; wir analysieren auf einer möglichst großen Datenbasis grammatische Phänomene mit konkurrierender Varietät. Meine Studie ist die erste der Pilotstudien, die ein solches Vorgehen ausloten sollen. Dazu hat Noah Bubenhofer ein Versuchskorpus mit 176.405.282 Analysen von Zusammensetzungen aus Substantiven erstellt. Auf Basis dieses Korpus beschreibe ich die sprachgebräuchlichen Varianten von Wortformen und Fugenelementen in deutschen Zusammensetzungen, zum Beispiel in Tagtraum neben Tageslicht neben Tagedieb oder in Abfahrtsmöglichkeit neben Abfahrtmöglichkeit. Obwohl solche Varianten immer wieder zu Verwendungsunsicherheiten führen und in der Forschungsliteratur auch immer wieder als auffällig thematisiert werden, ist - wie Michel (2009, S. 334) feststellt - die systematische Beschreibung solcher Varianten ein Desiderat.
To build a comparable Wikipedia corpus of German, French, Italian, Norwegian, Polish and Hungarian for contrastive grammar research, we used a set of XSLT stylesheets to transform the mediawiki anntations to XML. Furthermore, the data has been amnntated with word class information using different taggers. The outcome is a corpus with rich meta data and linguistic annotation that can be used for multilingual research in various linguistic topics.