Korpuslinguistik
Refine
Year of publication
- 2019 (3) (remove)
Document Type
- Part of a Book (2)
- Conference Proceeding (1)
Has Fulltext
- yes (3)
Is part of the Bibliography
- yes (3)
Keywords
- Deutsch (2)
- Korpus <Linguistik> (2)
- Wiedervereinigung <Deutschland> (2)
- Augenzeuge (1)
- Automatische Sprachanalyse (1)
- Biografisches Interview (1)
- Gesprochene Sprache (1)
- Phrase <Syntagma> (1)
- Revolution <1989> (1)
Publicationstate
- Veröffentlichungsversion (2)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (2)
- Peer-Review (1)
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (3) (remove)
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Leibniz-Institut für Deutsche Sprache ist ein Forschungsdatenzentrum für Korpora des gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von bald 100 Variations-, Interview- und Gesprächskorpora aufgebaut, die u. a. dialektalen Sprachgebrauch, mündliche Kommunikationsformen oder die Sprachverwendung bestimmter Sprechertypen oder zu bestimmten Themen dokumentieren. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
Vorwort
(2019)
Distributional models of word use constitute an indispensable tool in corpus based lexicological research for discovering paradigmatic relations and syntagmatic patterns (Belica et al. 2010). Recently, word embeddings (Mikolov et al. 2013) have revived the field by allowing to construct and analyze distributional models on very large corpora. This is accomplished by reducing the very high dimensionality of word cooccurrence contexts, the size of the vocabulary, to few dimensions, such as 100-200. However, word use and meaning can vary widely along dimensions such as domain, register, and time, and word embeddings tend to represent only the most prevalent meaning. In this paper we thus construct domain specific word embeddings to allow for systematically analyzing variations in word use. Moreover, we also demonstrate how to reconstruct domain specific co-occurrence contexts from the dense word embeddings.