Refine
Document Type
- Conference Proceeding (4)
- Part of a Book (1)
Has Fulltext
- yes (5)
Is part of the Bibliography
- yes (5) (remove)
Keywords
- word embeddings (5) (remove)
Publicationstate
Reviewstate
- Peer-Review (4)
- (Verlags)-Lektorat (1)
Publisher
Das Lehnwortportal Deutsch (LWPD) ist ein Online-Informationssystem zu Entlehnungen von Wörtern aus dem Deutschen in andere Sprachen. Es beruht auf einer wachsenden Zahl von lexikographischen Ressourcen zu verschiedenen Sprachen und bietet eine einfache ressourcenübergreifende Suchfunktion an. Das Poster präsentiert eine derzeit in Entwicklung befindliche onomasiologische Suchfunktion für das LWPD.
We present the use of count-based and predictive language models for exploring language use in the German Reference Corpus DeReKo. For collocation analysis along the syntagmatic axis we employ traditional association measures based on co-occurrence counts as well as predictive association measures derived from the output weights of skipgram word embeddings. For inspecting the semantic neighbourhood of words along the paradigmatic axis we visualize the high dimensional word embeddings in two dimensions using t-stochastic neighbourhood embeddings. Together, these visualizations provide a complementary, explorative approach to analysing very large corpora in addition to corpus querying. Moreover, we discuss count-based and predictive models w.r.t. scalability and maintainability in very large corpora.
In this paper we present an experimental semantic search function, based on word embeddings, for an integrated online information system on German lexical borrowings into other languages, the Lehnwortportal Deutsch (LWPD). The LWPD synthesizes an increasing number of lexicographical resources and provides basic cross-resource search options. Onomasiological access to the lexical units of the portal is a highly desirable feature for many research questions, such as the likelihood of borrowing lexical units with a given meaning (Haspelmath & Tadmor, 2009; Zeller, 2015). The search technology is based on multilingual pre-trained word embeddings, and individual word senses in the portal are associated with word vectors. Users may select one or more among a very large number of search terms, and the database returns lexical items with word sense vectors similar to these terms. We give a preliminary assessment of the feasibility, usability and efficacy of our approach, in particular in comparison to search options based on semantic domains or fields.
Kontexte und ihre Verteilung
(2018)
Die typischen sprachlichen Kontexte, in denen ein Wort verwendet wird, spannen den Rahmen auf, über den sowohl Sprecher als auch Forscher einer Sprache wesentliche Aspekte der Bedeutung des Wortes erschließen und vermitteln. Über große Korpora und entsprechende korpus-, aber auch computerlinguistische Methoden stehen nunmehr systematische Zugänge zu den typischen Verwendungsweisen zur Verfügung, am Institut für Deutsche Sprache etwa über die Kookkurrenzanalyse seit 1995. Auf den Ergebnissen des letztgenannten Verfahrens operieren weitere Methoden, die Bedeutungsbeziehungen zwischen Wörtern auf Ähnlichkeitsbeziehungen des Kontextverhaltens zurückfuhren. In jüngerer Zeit werden Ansätze vor allem aus der Computerlinguistik und dem information retrieval diskutiert, die mit einem ähnlichen Ziel antreten. Dieser Beitrag soll einen prinzipiellen Überblick bieten, wie die verschiedenen Forschungsstränge den Begriff Kontext interpretieren, wie sie ihn systematisch erfassen und zum Vergleich einsetzen. Neben Bedeutungsnähe wird vor allem Mehrdeutigkeit besondere Beachtung finden.