OPUS 4 | Search

25 search hits

1 to 10

Sort by

Jürgen Spitzmüller: Metasprachdiskurse : Einstellungen zu Anglizismen und ihre wissenschaftliche Rezeption, Berlin, New York, de Gruyter, 2005, 476 S. (2007)

Bubenhofer, Noah

"So etwas wie eine Botschaft" : korpuslinguistische Analysen der Bundestagswahl 2009 (2009)

Bubenhofer, Noah ; Dussa, Tobias ; Ebling, Sarah ; Klimke, Martin ; Rothenhäusler, Klaus ; Scharloth, Joachim ; Tamekue, Suarès ; Vola, Saskia

Lothar Lemnitzer: Von Aldianer bis Zauselquote : neue deutsche Wörter; wo sie herkommen und wofür wir sie brauchen : mit einem Vorwort von Jürgen Jonas, Tübingen, Narr, 2007, 110 S. (2009)

Bubenhofer, Noah

The Collection of Distributionally Idiosyncratic Items: An Interface between Data and Theory (2010)

Richter, Frank ; Sailer, Manfred ; Trawiński, Beata

Dieser Beitrag gibt einen Überblick über CoDII, die Collection of Distributionally Idiosyncratic Items. CoDII ist eine elektronische Sammlung verschiedener Untergruppen lexikalischer Elemente, die sich durch idiosynkratische Distribution auszeichnen. Das bedeutet, dass sich die Verteilung dieser Lexeme im Text nicht alleine aufgrund ihrer syntaktischen Kategorie Vorhersagen lässt. Die Methoden, die in der Entwicklung von CoDII angewandt werden, greifen über traditionelle Fachgrenzen hinaus und umfassen Korpuslinguistik, Computerlinguistik, Phraseologie und theoretische Sprachwissenschaft. Ein wichtiger Schwerpunkt unserer Diskussion liegt auf der Darstellung, inwiefern die in CoDII gesammelten, annotierten und unter anderem mit Suchwerkzeugen abfragbaren Daten dazu beitragen können, die linguistische Theoriebildung durch die Bereitstellung sorgfältig aufbereiteter Datensammlungen bei der Überprüfung ihrer Datengrundlage zu unterstützen.

Using a domain ontology for the semantic-statistical classification of specialist hypertexts (2010)

Schneider, Roman ; Bubenhofer, Noah

In this feasibility study we aim at contributing at the practical use of domain ontologies for hypertext classification by introducing an algorithm generating potential keywords. The algorithm uses structural markup information and lemmatized word lists as well as a domain ontology on linguistics. We present the calculation and ranking of keyword candidates based on ontology relationships, word position, frequency information, and statistical significance as evidenced by log-likelihood tests. Finally, the results of our machine-driven classification are validated empirically against manually assigned keywords.

"Sagen kann man's schon, nur schreiben tut man's selten" — Die tun-Periphrase (2011)

Brinckmann, Caren ; Bubenhofer, Noah

Tagtraum, Tageslicht, Tagedieb : ein korpuslinguistisches Experiment zu variierenden Wortformen und Fugenelementen in zusammengesetzten Substantiven. Mit einem Exkurs und zahlreichen Statistiken von Noah Bubenhofer (2011)

Donalies, Elke

Im empirisch ausgerichteten Projekt "Grammatische Variation im Deutschen" des IDS wollen wir den Sprachgebrauch in seiner Vielfalt und die tatsächlich wirksamen Regeln darstellen. Dazu schöpfen wir die heutigen Möglichkeiten einer Korpusgrammatik aus; wir analysieren auf einer möglichst großen Datenbasis grammatische Phänomene mit konkurrierender Varietät. Meine Studie ist die erste der Pilotstudien, die ein solches Vorgehen ausloten sollen. Dazu hat Noah Bubenhofer ein Versuchskorpus mit 176.405.282 Analysen von Zusammensetzungen aus Substantiven erstellt. Auf Basis dieses Korpus beschreibe ich die sprachgebräuchlichen Varianten von Wortformen und Fugenelementen in deutschen Zusammensetzungen, zum Beispiel in Tagtraum neben Tageslicht neben Tagedieb oder in Abfahrtsmöglichkeit neben Abfahrtmöglichkeit. Obwohl solche Varianten immer wieder zu Verwendungsunsicherheiten führen und in der Forschungsliteratur auch immer wieder als auffällig thematisiert werden, ist - wie Michel (2009, S. 334) feststellt - die systematische Beschreibung solcher Varianten ein Desiderat.

A comparable Wikipedia corpus: from wiki syntax to POS tagged XML (2011)

Bubenhofer, Noah ; Haupt, Stefanie ; Schwinn, Horst

To build a comparable Wikipedia corpus of German, French, Italian, Norwegian, Polish and Hungarian for contrastive grammar research, we used a set of XSLT stylesheets to transform the mediawiki anntations to XML. Furthermore, the data has been amnntated with word class information using different taggers. The outcome is a corpus with rich meta data and linguistic annotation that can be used for multilingual research in various linguistic topics.

Vorhersage von Fugenelementen in nominalen Komposita (2012)

Bubenhofer, Noah ; Hein, Katrin ; Brinckmann, Caren

„Sagen kann man's schon, nur schreiben tut man's selten“ : die tun-Periphrase (2012)

Brinckmann, Caren ; Bubenhofer, Noah