OPUS 4 | Search

Finding lemmas in agglutinative and inflectional language dictionaries with logical information systems. The case of Georgian verbs (2022)

Ducassé, Mireille ; Elizbarashvili, Archil

Looking up for an unknown word is the most frequent use of a dictionary. For languages both agglutinative and inflectional, such as Georgian, this can be quite challenging because an inflected form can be very far from the lemmas used by the target dictionary. In addition, there is no consensus among Georgian lexicographers on which lemmas represent a verb in dictionaries. It further complicates dictionaries access. Kartu-Verbs is a base of inflected forms of Georgian verbs accessible by a logical information system. It currently contains more than 5 million inflected forms related to more than 16,000 verbs for 11 tenses; each form can have 11 properties; there are more than 80 million links in the base. This demonstration shows how, from any inflected form, we can find the relevant lemma to access any dictionary. Kartu-Verbs can thus be used as a front-end to any Georgian dictionary.

Integration of multi-word expressions into the Digital Dictionary of German Language (DWDS). Towards a lexicographic representation of phraseological variation (2022)

Ermakova, Maria ; Geyken, Alexander ; Lemnitzer, Lothar ; Roll, Bernhard

One central goal of the project ‘Zentrum für digitale Lexikographie der deutschen Sprache’ (Center for digital lexicography for the German Language, www.zdl.org) is to provide a corpus-based lexicographic component of common German multi-word expressions (MWE), including idioms, for DWDS (www.dwds.de), a general language dictionary of contemporary German. As a central challenge of this task, we have identified an adequate lexicographic representation of such common properties of MWE as variation and modification. To document the variation, we have developed a special entry-clustering model, which we call hub-node entry. This model comprises a core hub entry headed by a short nuclear form of the MWE and several node entries, which represent the most common variants in their full lexical forms.

Sobre algunos conflictos en la 'pre'-lexicografía: la selección de corpus para la elaboración de un diccionario contrastivo alemán-español (2015)

González Ribao, Vanessa

This article is concerned with the choice of a corpus to be used as the empirical basis of a bilingual, bidirectional and conceptual learner dictionary of German and Spanish. Several standard corpora as well as web corpora for German and Spanish will be compared with respect to their size, the variety of genres they contain, the time span and geographical areas covered and what kind of search facilities they allow (e.g. word queries based on lemmata rather than on word forms). It will be argued that, when standard corpora fail to meet a particular requirement, web data may provide a useful alternative for lexicographical purposes provided they are both linguistically (i.e. morpho-syntactically) and meta-linguistically tagged.

Das Bedeutungsspektrum (2005)

Haß, Ulrike

Das Wort in der Korpuslinguistik. Chancen und Probleme empirischer Lexikologie (2002)

Haß-Zumkehr, Ulrike

Der lange Weg zur Stichwortliste. Aspekte der Stichwortselektion für ein allgemeinsprachliches Neologismenwörterbuch (2002)

Herberg, Dieter

Wortgruppenartikel in elexiko: Ein neuer Artikeltyp im Onlinewörterbuch (2015)

Klosa, Annette

Semantic and Thematic Navigation in Electronic Encyclopedias (1999)

Lobin, Henning ; Witt, Andreas

Emissionsverben und Argumentstrukturmuster. Empirie und lexikographische Kodifizierung im DaF-Umfeld (2016)

Meliss, Meike

Der Beitrag beschäftigt sich mit einigen Emissionsverben (EV) und ihrer lexikographischen Kodifizierung. Anhand von empirischen Daten aus dem deutschen Referenzkorpus DEREKO sollen die unterschiedlichen Argumentstrukturmuster (ASTRM) und Argumentrealisierungsmuster (ARM) dieser Verben genauer untersucht und ihre entsprechende lexikographische Kodifizierung sowohl in zwei allgemeinsprachlichen Wörterbüchern (AWB) des Deutschen als auch in drei einsprachigen Lernerwörterbüchern (LWB) für DaF überprüft werden. Von Interesse sind im besonderen Maße die Fragen, ob die ausgewählten Wörterbücher (WB) den empirisch belegten Sprachgebrauch kodifizieren und welche der lexikographischen Funktionen (Sprachdokumentation, Sprachkonsultation u.a. für das Umfeld Deutsch als Fremdsprache) sie erfüllen.

Creating a list of headwords for a lexical resource of spoken German (2018)

Meliss, Meike ; Möhrs, Christine ; Batinić, Dolores ; Perkuhn, Rainer

Except for some recent advances in spoken language lexicography (cf. Verdonik & Sepesy Maučec 2017, Hansen & Hansen 2012, Siepmann 2015), traditional lexicographic work is mainly oriented towards the written language. In this paper, we describe a method we used to identify relevant headword candidates for a lexicographic resource for spoken language that is currently being developed at the Institute for the German Language (IDS, Mannheim). We describe the challenges of the headword selection for a dictionary of spoken language, and having made considerations regarding our headword concept, we present the corpus-based procedures that we used in order to facilitate the headword selection. After presenting the results regarding the selection of one-word lemmas, we discuss the opportunities and limitations of our approach.

Ödem - Diuretikum - Natrium (1984)

Mentrup, Wolfgang

The microstructure of a lexicographical resource of spoken German: meanings and functions of the lemma eben (2020)

Möhrs, Christine ; Torres Cajo, Sarah

This paper presents the corpus-based lexicographical prototype that was developed within the framework of the project Lexik des gesprochenen Deutsch (=LeGeDe) as a thirdparty funded project. Research results regarding the information offered in dictionaries have shown that there is a necessity for information on spoken lexis and its interactional functions. The resulting LeGeDe-prototype is based on these needs and desiderata and is thus an innovative example for the adequate representation of spoken language in online dictionaries. It is available online since September 2019 (https://www.owid.de/legede/). In the following sections, after first focusing on the presentation of the project’s goals, the data basis, the intended end user, and the applied methods, we will illustrate the microstructure of the prototype and the information provided in a dictionary entry based on the lemma eben. Finally, we will summarize innovative aspects that are important for the implementation of such a resource.

Die Modellierung lexikografischer Daten und ihre Rolle im lexikografischen Prozess (2005)

Müller-Spitzer, Carolin

Scrabble-Scribble: Hundnase, Schwanzhund und Quallenknödel (2020)

Münzberg, Franziska

Einzigartigkeiten: Pluralrestriktionen im Wörterbuch (2012)

Münzberg, Franziska

Wer eine korpusgestützte Untersuchung anstellt, ist zu Recht stolz auf hohe Belegzahlen und statistische Aussagekraft. Aber auch das Seltene und das Einzigartige hat einen Reiz, und darauf konzentrieren sich die folgenden Recherchen und Vorschläge. Selbst das Nichtvorhandene kann morgen schon belegbar sein - zum Beispiel Pluralformen zu Lemmata, die in Wörterbüchern Grammatikangaben wie „ohne Plural“ erhalten. Am Beispiel von Pluralformen besonders zu Feminina mit Derivationssuffix -heit/-(ig)keit werden unterschiedliche Möglichkeiten diskutiert, wie man mit dem Seltenen, mit dem Einzigartigen und mit dem Nichtvorhandenen oder Noch-nicht-Nachweisbaren in der Lexikografie und in sprachtechnologischen Anwendungen umgehen kann. Für Anregungen und Korrekturen danke ich herzlich Vilmos Ágel, Peter Eisenberg, Peter Gallmann, Klaus Mackowiak, Damaris Nübling, Werner Scholze-Stubenrecht, Anatol Stefanowitsch und Lutz Wind. Die Idee zu diesem Versuch gab mir die Mitarbeit an der 7. Auflage des Duden-Universalwörterbuchs, DDUW (2011), unter der Leitung von Werner Scholze-Stubenrecht, und am Vollformenprojekt meiner Kollegen aus der Duden-Sprachtechnologie.

Das Deutsch-russische Neologismenwörterbuch ist da. Zu den Spezifika des Wortartikelaufbaus (2016)

Nikitina, Olga ; Steffens, Doris

Zweisprachige Neologismenwörterbücher, die den neuen Wortschatz der Ausgangssprache eines bestimmten Zeitraumes erfassen und Bedeutungserklärungen und/oder Äquivalente in der Zielsprache anbieten, können dem Deutschlerner beim Sprachenerwerb eine große Hilfe sein. Sie präsentieren den Wortschatz, der in zweisprachigen Gesamtwörterbüchern in der Regel noch nicht erfasst ist, und unterstützen damit den Lerner bei der Textrezeption. Auch für die Textproduktion sind sie geeignet, wenn der Darstellung von Bedeutung und Gebrauch angemessen Raum gegeben wird. Diese Möglichkeiten werden am Beispiel des Deutsch-russischen Neologismenwörterbuches erläutert. Das Wörterbuch umfasst den Zeitraum 1991 – 2010. Es ist mit seinen knapp 2000 Stichwörtern für den neuen Wortschatz im Deutschen primär als passives Wörterbuch angelegt, d.h. es richtet sich in erster Linie an deutschlernende bzw. -beherrschende russischsprachige Benutzer. Es bietet zwei Vorteile: Zum einen finden die Benutzer hier den neuen Wortschatz, den sie in allgemeinen zweisprachigen Wörterbüchern in der Regel vergeblich suchen. Zum anderen ist dem allgemein großen Informationsbedarf durch eine explizite Beschreibung Rechnung getragen, weil das Platzangebot hier aufgrund der – im Vergleich zu einem allgemeinsprachlichen Gesamtwörterbuch – geringeren Stichwortzahl relativ großzügig bemessen ist. Die Spezifika des Wortartikelaufbaus, die auch durch den besonderen Charakter des zweisprachigen Neologismenwörterbuches bestimmt sind, werden näher erläutert. Die Autoren haben die Erwartung, dass das zweisprachige Neologismenwörterbuch bei den Deutschlernern den Wunsch weckt, Neues im deutschen Wortschatz nachzuschlagen, und dass es dazu beiträgt, die interkulturelle Kompetenz zu fördern.

New loan words in the Neologismenwörterbuch: corpus-based development of lexicographic information for an online dictionary of contemporary German (2020)

Park, Maike

The majority of new words in dictionaries are included following a certain period of time during which they have become more frequent in use and established morphosyntactic and orthographic features consistent with the language system they are borrowed into. In case of borrowed new words, inclusion often takes place at a transitional state of assimilation to the language system, where delayed orthographic or phonetic change cannot be ruled out and the differentiation between standard-conforming and non-standard orthographic word forms of a lemma oftentimes depends on the proximity between the writing systems of the donor and the recipient language. Following a brief overview of loan words and their lexicographical description in the Neologismenwörterbuch, a specialized online dictionary for neologisms in contemporary German, this paper presents findings of an investigative case study on dictionary entries for a neologism borrowed from a logographic language system and discusses the potential of a corpus-based description of new loan words.

IAA-Werbung, Frankfurt 2015 - oder: der Retro-Brockhaus zum Selberschreiben (2018)

Sassen, Claudia

Die Internationale Auto-Ausstellung (IAA) wurde 2015 mit einer Enzyklopädie beworben, die genau drei Einträge bereithält: ‚Stau‘, ‚Auffahrunfall‘ und ‚Einparken‘. Die mit äußerster Beflissenheit vorgenommene Ausgestaltung dieser Einträge scheint eine Parodie authentischer Nachschlagewerke zu sein, bildet diese jedoch exakter ab, als man zu hoffen wagt.

Entwicklung eines lexikographischen Modells: Ein neuer Ansatz (2001)

Schmidt, Ingrid ; Müller-Spitzer, Carolin

Wie viele Paronympaare gibt es eigentlich? Das Zusammenspiel aus korpuslinguistischen und redaktionellen Verfahren zur Ermittlung einer Paronymstichwortliste (2015)

Schnörch, Ulrich

Die Stichwortliste bildet eine tragende Säule von gedruckten als auch von Online-Wörterbüchern. Daher ist die Konzeption und Erarbeitung einer Stichwortliste auch eine zentrale Aufgabe in der Anfangsphase des am IDS in Angriff genommenen Paronymwörterbuchs. Welche Überlegungen dabei angestellt, welche Ideen entwickelt und welche Pläne bzw. Entscheidungen schließlich umgesetzt wurden, wird in dem Beitrag aufgezeigt.

Semantische Paraphrasen und Kurzetikettierungen (2005)

Storjohann, Petra

Neue Wege in der Lexikographie des politisch-ideologischen Wortschatzes (1988)

Strauß, Gerhard

Aspekte des Sprachausschnitts 'Politik' im einsprachigen Wörterbuch. Politisch-ideologische Ismen - lexikographisch betrachtet (1982)

Strauß, Gerhard

Der folgende Beitrag unternimmt den Versuch, aus der lexikologischen Feststellung einiger Eigenschaften von politischen Wörtern und aus der kritischen Analyse ihrer Behandlung in einsprachigen Wörterbüchern der deutschen Gegenwartssprache einen Thesenkatalog zu entwickeln, der Anhaltspunkte für ein semantisch-pragmatisches Wörterbuchkonzept zu ihrer systematischen lexikographischen Beschreibung bietet, das abschließend anhand eines als praktischer Vorschlag aufzufassenden Wörterbuchartikels begründet und auf seine möglicherweise generelle Brauchbarkeit für den ideologiegebundenen Wortschatz befragt wird.

Methoden zur Erstellung von Bedeutungsparaphrasenangaben (2014)

Töpel, Antje

Once a new word or a new meaning is added to a monolingual dictionary, the lexicographer is to provide a definition of this item. This paper focuses on the methodological challenges in writing such definitions. After a short discussion of the central terminology (method and definition), the article describes factors which inform this process: linguistic theories, linguistic and lexicographical methods, and types of definitions. Using the example of elexiko, a dictionary project of the Institute for the German language (IDS) in Mannheim, Germany, the paper finally showcases the compilation of definitions in a monolingual online dictionary of contemporary German.

Introducing DeReKoGram: A novel frequency dataset with lemma and part-of-speech information for German (2023)

Wolfer, Sascha ; Koplenig, Alexander ; Kupietz, Marc ; Müller-Spitzer, Carolin

We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is divided into 16 parts based on 16 corpus folds. We describe how the dataset was created and structured. By evaluating the distribution over the 16 folds, we show that it is possible to work with a subset of the folds in many use cases (e.g., to save computational resources). In a case study, we investigate the growth of vocabulary (as well as the number of hapax legomena) as an increasing number of folds are included in the analysis. We cross-combine this with the various cleaning stages of the dataset. We also give some guidance in the form of Python, R, and Stata markdown scripts on how to work with the resource.

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

25 search hits