Refine
Document Type
- Part of a Book (3)
- Conference Proceeding (3)
Has Fulltext
- yes (6)
Keywords
- Deutsch (5)
- Phraseologie (3)
- Distribution <Linguistik> (2)
- Englisch (2)
- Wortverbindung (2)
- Automatische Sprachanalyse (1)
- Distributionsidiosynkrasie (1)
- Grammatiktheorie (1)
- Italienisch (1)
- Mehrworteinheit (1)
Publicationstate
Reviewstate
Dieser Beitrag gibt einen Überblick über CoDII, die Collection of Distributionally Idiosyncratic Items. CoDII ist eine elektronische Sammlung verschiedener Untergruppen lexikalischer Elemente, die sich durch idiosynkratische Distribution auszeichnen. Das bedeutet, dass sich die Verteilung dieser Lexeme im Text nicht alleine aufgrund ihrer syntaktischen Kategorie Vorhersagen lässt. Die Methoden, die in der Entwicklung von CoDII angewandt werden, greifen über traditionelle Fachgrenzen hinaus und umfassen Korpuslinguistik, Computerlinguistik, Phraseologie und theoretische Sprachwissenschaft. Ein wichtiger Schwerpunkt unserer Diskussion liegt auf der Darstellung, inwiefern die in CoDII gesammelten, annotierten und unter anderem mit Suchwerkzeugen abfragbaren Daten dazu beitragen können, die linguistische Theoriebildung durch die Bereitstellung sorgfältig aufbereiteter Datensammlungen bei der Überprüfung ihrer Datengrundlage zu unterstützen.
In diesem Aufsatz werden Wortverbindungen aus einer distributionellen Perspektive im Rahmen einer formalen lexikalistischen Grammatiktheorie betrachtet. Ausgehend von unikalen Elementen („Tácheles reden") wird ein Distributionsmodul als Teil des Lexikoneintrags motiviert. Anhand des Verbs „fackeln" wird eine analoge Distributionsanalyse für Polaritätselemente entwickelt. Da Korpora eine zentrale Datenquelle darstellen, werden die Möglichkeiten diskutiert, Distributionsanforderungen lexikalischer Elemente automatisch aus Korpora zu extrahieren. Um dem Distributionsmodul ein klareres Profil zu geben, wird seine Funktion gegenüber der von Selektion und von Konstruktionen abgegrenzt. Abschließende Überlegungen widmen sich einem Versuch, die Rolle von Gebrauchsdaten innerhalb einer formalen Grammatiktheorie zu bestimmen, was zur Skizzierung einer erfahrungsbasierten modelltheoretischen Grammatiktheorie führt.
We present two collections of lexical items with idiosyncratic distribution. The collections document the behavior of German and English bound words (BW, such as English “headway”), i.e., words which can only occur in one expression (“make headway”). BWs are a problem for both general and idiomatic dictionaries since it is unclear whether they have an independent lexical status and to what extent the expressions in which they occur are typical idiomatic expressions. We propose a system which allows us to document the information about BWs from dictionaries and linguistic literature, together with corpus data and example queries for major text corpora. We present our data structure and point to other phraseologically oriented collections. We will also show differences between the German and the English collection.
The authors present a multilingual electronic database of lexical items with idiosyncratic occurrence patterns. Currently, our database consists of: (1) a collection of 444 bound words in German; (2) a collection of 77 bound words in English; (3) a collection of 58 negative polarity items in Romanian; (4) a collection of 84 negative polarity items in German; and (5) a collection of 52 positive polarity items in German. The database is encoded in XML and is available via the Internet, offering dynamic and flexible access.
The authors describe two data sets submitted to the database of MWE evaluation resources: (1) cranberry expressions in English and (2) cranberry expressions in German. The first package contains a collection of 444 cranberry words in German (CWde.txt) and a collection of the corresponding cranberry expressions (CCde.txt). The second package consists of a collection of 77 cranberry words in English (CWen.txt) and a collection of the corresponding cranberry expressions (CCen.txt). The data included in these packages was extracted from the Collection of Distributionally Idiosyncratic Items (CoDII), an electronic linguistic resource of lexical items with idiosyncratic occurrence patterns. Each package contains a readme file, and can be downloaded from multiword.wiki.sourceforge.net/Resources.