Refine
Year of publication
Document Type
- Part of a Book (61)
- Article (47)
- Conference Proceeding (12)
- Other (6)
- Book (2)
- Preprint (2)
Keywords
- Deutsch (41)
- Computerunterstützte Lexikographie (37)
- Wörterbuch (33)
- Korpus <Linguistik> (17)
- Wortschatz (16)
- Geschlechtergerechte Sprache (13)
- Benutzer (11)
- Internet (11)
- COVID-19 (10)
- computerunterstützte Lexikographie (10)
Publicationstate
- Veröffentlichungsversion (67)
- Zweitveröffentlichung (23)
- Postprint (11)
Reviewstate
- (Verlags)-Lektorat (44)
- Peer-Review (30)
- Verlags-Lektorat (7)
- Peer-review (2)
- (Verlags)Lektorat (1)
- Verlagslektorat (1)
Publisher
- de Gruyter (18)
- De Gruyter (14)
- Leibniz-Institut für Deutsche Sprache (IDS) (10)
- Institut für Deutsche Sprache (8)
- IDS-Verlag (4)
- Narr (4)
- Benjamins (3)
- MDPI (3)
- Wilhelm Fink (3)
- Buro van die WAT (2)
Das Thema genderinklusive Sprache ist mittlerweile nicht nur Gegenstand regelmäßiger Umfragen, Presseartikel oder Talksendungen, sondern auch von Volksinitiativen. In Baden-Württemberg beispielsweise veranstaltet Klaus Hekking, Initiator des Volksbegehrens Stoppt Gendern in Baden-Württemberg, eine Radtour gegen Gendern, um Unterschriften zu sammeln (die Initiative wurde allerdings vom Innenministerium gestoppt). Auch in Hamburg lief 2023 eine Volksinitiative namens „Schluss mit Gendersprache in Verwaltung und Bildung“, die vom „Verein Deutsche Sprache“ initiiert und von der Hamburger CDU unterstützt wurde. Die Initiative hat fast 17.000 Unterschriften gesammelt und überregionale mediale Aufmerksamkeit bekommen.
Less than one percent of words would be affected by gender-inclusive language in German press texts
(2024)
Research on gender and language is tightly knitted to social debates on gender equality and non-discriminatory language use. Psycholinguistic scholars have made significant contributions in this field. However, corpus-based studies that investigate these matters within the context of language use are still rare. In our study, we address the question of how much textual material would actually have to be changed if non-gender-inclusive texts were rewritten to be gender-inclusive. This quantitative measure is an important empirical insight, as a recurring argument against the use of gender-inclusive German is that it supposedly makes written texts too long and complicated. It is also argued that gender-inclusive language has negative effects on language learners. However, such effects are only likely if gender-inclusive texts are very different from those that are not gender-inclusive. In our corpus-linguistic study, we manually annotated German press texts to identify the parts that would have to be changed. Our results show that, on average, less than 1% of all tokens would be affected by gender-inclusive language. This small proportion calls into question whether gender-inclusive German presents a substantial barrier to understanding and learning the language, particularly when we take into account the potential complexities of interpreting masculine generics.
This paper focuses on language change based on shifting social norms, in particular with regard to the debate on language and gender. It is a recurring argument in this debate that language develops "naturally" and that "severe interventions" - such as gender-inclusive language is often claimed to be - in the allegedly "organic" language system are inappropriate and even "dangerous". Such interventions are, however, not unprecedented. Socially motivated processes of language change are neither unusual nor new. We focus in our contribution on one important political-social space in Germany, the German Bundestag. Taking other struggles about language and gender in the plenaries of the Bundestag as a starting point, our article illustrates that language and gender has been a recurring issue in the German Bundestag since the 1980s. We demonstrate how this is reflected in linguistic practices of the Bundestag, by the use of a) designations for gays and lesbians; b) pair forms such as Bürgerinnen und Bürger (female and male citizens); and c) female forms of addresses and personal nouns ('Präsidentin' in addition to 'Präsident'). Lastly, we will discuss implications of these earlier language battles for the currently very heated debate about gender-inclusive language, especially regarding new forms with gender symbols like the asterisk or the colon (Lehrer*innen, Lehrer:innen; male*female teachers) which are intended to encompass all gender identities.
In many countries of the world, perspectives on gender equality and racism have changed in recent decades. One result has been more attention being devoted to traces of androcentric and racist language in society. This also affects dictionaries. In lexicography there are discussions about whether or to what extent social asymmetries are inscribed in dictionaries and if this is still acceptable. The issue of the nature of description plays an important role in this discussion. If sexist usages are often found in language use, i.e. in the corpus data on which the dictionary is based, does the dictionary also have to show them? How is this, in turn, compatible with the normative power of dictionaries? Do dictionaries contribute to the perpetuation of gender stereotypes by showcasing them under the banner of descriptive principles? And what roles do lexicographers play in this process? The article deals with these questions on the basis of individual lexicographical examples and current discussions in the lexicographic and public community.
We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is divided into 16 parts based on 16 corpus folds. We describe how the dataset was created and structured. By evaluating the distribution over the 16 folds, we show that it is possible to work with a subset of the folds in many use cases (e.g., to save computational resources). In a case study, we investigate the growth of vocabulary (as well as the number of hapax legomena) as an increasing number of folds are included in the analysis. We cross-combine this with the various cleaning stages of the dataset. We also give some guidance in the form of Python, R, and Stata markdown scripts on how to work with the resource.
Filtern, Explorieren, Vergleichen: neue Zugriffsstrukturen und instruktive Potenziale von OWIDplus
(2023)
OWIDplus, das Zusatzangebot zur Wörterbuchplattform OWID, vereint verschiedenste lexikalische Datenbanken, Korpustools und visuell aufbereitete Analysen, die mithilfe von Textsuche und Kategorienfiltern so sortiert werden können, dass Benutzer*innen leicht die für sie interessanten Projekte entdecken können. Eine tiefergehende Beschäftigung mit den Einzelprojekten zeigt, wie bei aller oberflächlicher Ähnlichkeit oder gemeinsamen Themenbereichen ganz unterschiedliche methodische Zugänge zu sprachlichen Daten gewählt worden sind und wie Methodik und Forschungsfrage stets aufeinander abgestimmt werden müssen. Die Vielzahl potenzieller Forschungsfragen führt so unweigerlich zu einer Diversität von Projekten und somit einer Heterogenität, die, so hoffen die Autor*innen, in OWIDplus greifbar wird.
Annotated dataset consisting of personal designations found on websites of 42 German, Austrian, Swiss and South Tyrolean cities. Our goal is to re-evaluate the websites every year in order to see how the use of gender-fair language develops over time. The dataset contains coordinates for the creation of map material.
Der Anlass dieser Untersuchung war zunächst anekdotische Evidenz: Eines der Kinder der Autor*innen macht 2022 Abitur und las in ihrer gesamten gymnasialen Laufbahn genau eine ›Ganzschrift‹ einer Autorin: Die Judenbuche von Annette von Droste-Hülshoff. Zweifellos ein lesenswerter Text, aber konnte es wirklich sein, dass man in Deutschland 2022 Abitur macht, sogar Deutsch-Leistungskurs gewählt hat und sonst kein Buch einer Autorin im Deutschunterricht liest? Auch in den Pflichtlektüren für das Deutschabitur ist im entsprechenden Bundesland bei den empfohlenen Texten kein Roman und kein Drama einer Verfasserin verzeichnet. Neugierig geworden, recherchierten wir nach einer Liste, welche Literatur für den Deutschunterricht an Gymnasien in Baden-Württemberg (wo die Anekdote sich ereignete) insgesamt empfohlen wurde, und fanden auf den Seiten des Kultusministeriums eine umfangreiche Liste, auf der 298 Werke verzeichnet sind. Eine Auswertung nach dem Geschlecht der Verfasser*innen ergab, dass von den Einträgen auf dieser Liste 31 Titel bzw. Autor*innen (von) Frauen sind, d.h. rund 10 %.
Dictionaries are often a reflection of their time; their respective (socio-)historical context influences how the meaning of certain lexical units is described. This also applies to descriptions of personal terms such as man or woman. Lexicographers have a special responsibility to comprehensively investigate current language use before describing it in the dictionary. Accordingly, contemporary academic dictionaries are usually corpus-based. However, it is important to acknowledge that language is always embedded in cultural contexts. Our case study investigates differences in the linguistic contexts of the use of man and woman, drawing from a range of language collections (in our case fiction books, popular magazines and newspapers). We explain how potential differences in corpus construction would therefore influence the “reality” depicted in the dictionary. In doing so, we address the far-reaching consequences that the choice of corpus-linguistic basis for an empirical dictionary has on semantic descriptions in dictionary entries.Furthermore, we situate the case study within the context of gender-linguistic issues and discuss how lexicographic teams can engage with how dictionaries might perpetuate traditional role concepts when describing language use.
Olaf Scholz gendert. Eine Analyse von Personenbezeichnungen in Weihnachts- und Neujahrsansprachen
(2022)
Schlagzeilen wie die in unserer Überschrift blieben im Januar 2022 aus. Dabei enthielt die erste Neujahrsansprache von Olaf Scholz kein einziges generisches Maskulinum, sondern Doppelformen (Mitbürgerinnen und Mitbürger, Expertinnen und Experten), geschlechtsabstrahierende Ausdrücke (Eltern, Familien, Geimpfte, Menschen) und Personalisierungen bzw. Umschreibungen wie uns allen, es haben sich 60 Millionen […] impfen lassen, oder ich möchte allen danken. Die Rede nutzt somit durchgängig verschiedene Formen geschlechtergerechter Sprache, wohl aber so unauffällige Formen, dass dies keine mediale Aufmerksamkeit auf sich gezogen hat. Nebenbei: Dies zeigt, dass es bei den hitzigen öffentlichen Diskussionen rund um das Thema nicht um alle Formen geschlechtergerechter Sprache geht, sondern eigentlich nur um bestimmte Formen, wie z.B. die Verwendung des Gendersterns. Wir stellen hier einige Beobachtungen basierend auf einem annotierten Korpus von Ansprachen vor, die Sie selbst anhand einer Online-App nachvollziehen können.
Dictionaries are often a reflection of their time; their respective (socio-)historical context influences how the meaning of certain lexical units is described. This also applies to descriptions of personal terms such as man or woman. Lexicographers have a special responsibility to comprehensively investigate current language use before describing it in the dictionary. Accordingly, contemporary academic dictionaries are usually corpus-based. However, it is important to acknowledge that language is always embedded in cultural contexts. Our case study investigates differences in the linguistic contexts of the use of man and woman, drawing from a range of language collections (in our case fiction books, popular magazines and newspapers). We explain how potential differences in corpus construction would therefore influence the “reality”1 depicted in the dictionary. In doing so, we address the far-reaching consequences that the choice of corpus-linguistic basis for an empirical dictionary has on semantic descriptions in dictionary entries.
Furthermore, we situate the case study within the context of gender-linguistic issues and discuss how lexicographic teams can engage with how dictionaries might perpetuate traditional role concepts when describing language use.
Der folgende Leitfaden bietet eine grundlegende Übersicht darüber, welche Schritte bei der Konzeption und Durchführung einer empirischen Untersuchung in der germanistischen Linguistik zu beachten sind. Wir werden den grundlegenden Ablauf und die zugrunde liegenden Konzepte allgemein bzw. modellhaft beschreiben und sie anhand von einfachen Beispielen illustrieren. Eine stärkere Ausgestaltung anhand von Beispielen zu verschiedenen linguistischen Forschungsfragen und -feldern und damit auch mehr Illustrationen, wie die einzelnen Schritte für bestimmte Forschungsfragen umzusetzen sind, finden Sie in den Fallstudien im —> Teil III dieses Bandes. Detailliertere Ausführungen zu den zentralen Konzepten des empirischen Arbeitens in der Linguistik finden Sie in —> Teil VI dieses Bandes. Weiterführende Literatur findet sich am Ende des Beitrags.
Einführung
(2022)
Wir stellen eine empirische Studie vor, die der Frage nachgeht, ob und in welchem Ausmaß Wörterbücher und andere lexikographische Ressourcen die Ergebnisse von Textüberarbeitungen verbessern. Studierende wurden in unserer Studie gebeten, zwei Texte zu optimieren und waren dabei zufällig in drei unterschiedliche Versuchsbedingungen eingeteilt: 1. ein Ausgangstext ohne Hinweise auf potenzielle Fehler im Text, 2. ein Ausgangstext, bei dem problematische Stellen im Text hervorgehoben waren und 3. ein Ausgangstext mit hervorgehobenen Problemstellen zusammen mit lexikographischen Ressourcen, die zur Lösung der spezifischen Probleme verwendet werden konnten. Wir fanden heraus, dass die Teilnehmer*innen der dritten Gruppe die meisten Probleme korrigierten und die wenigsten semantischen Verzerrungen während der Überarbeitung einführten. Außerdem waren sie am effizientesten (gemessen in verbesserten Textabschnitten pro Zeit). Wir berichten in dieser Fallstudie ausführlich vom Versuchsaufbau, der methodischen Durchführung der Studie und eventuellen Limitationen unserer Ergebnisse.
Wissenschaftlich basierte allgemeine Wörterbücher des Deutschen werden heute meist korpusbasiert erarbeitet, d. h. die in ihnen beschriebene Sprache wird vor der lexikografischen Beschreibung empirisch erforscht. Diese Korpora sind allerdings, wie die großen linguistischen Textsammlungen zum Deutschen allgemein, durch Zeitungstexte dominiert. Daher beruhen die in Wörterbüchern beschriebenen Kollokationen und typischen Verwendungskontexte zumindest teilweise auf dieser Textsorte. Wir untersuchen in unserem Beitrag anhand einer Fallstudie zu Mann und Frau, wie stark sich die Beschreibung solcher Kollokationssets ändern würde, wenn als Korpusgrundlage nicht Zeitungen, sondern Publikumszeitschriften oder belletristische Texte herangezogen würden und wie unterschiedlich demnach Geschlechterstereotype dargestellt würden. Damit diskutieren wir auch die Frage, ob Zeitungstexte in diesem Fall ein adäquates und vielseitiges Abbild des Gebrauchsstandards zeigen. Auf einer allgemeineren Ebene wird dadurch ein grundlegendes Problem korpuslinguistischer Forschungsarbeiten tangiert, nämlich die Frage, inwieweit durch Korpora überhaupt ein ‚objektives‘ Bild der sprachlichen Wirklichkeit gezeichnet werden kann.
Zumutung, Herausforderung, Notwendigkeit? Zum Stand der Forschung zu geschlechtergerechter Sprache
(2022)
cOWIDplus Analyse ist eine kontinuierlich aktualisierte Ressource zu der Frage, ob und wie stark sich der Wortschatz ausgewählter deutscher Online-Pressemeldungen während der Corona-Pandemie systematisch einschränkt und ob bzw. wann sich das Vokabular nach der Krise wieder ausweitet. In diesem Artikel erläutern die Autor*innen die hinter der Ressource stehende Forschungsfrage, die zugrunde gelegten Daten, die Methode sowie die bisherigen Ergebnisse.
Dictionary usage research views dictionaries primarily as tools for solving linguistic problems. A large proportion of dictionary use now takes place online and can thus be easily monitored using tracking technologies. Using the data gathered through tracking usage data, we hope to optimize user experiences of dictionaries and other linguistic resources. Usage statistics are also used for external evaluation of linguistic resources. In this paper, we pursue the following three questions from a quantitative perspective: (1) What new insights can we gain from collecting and analysing usage data? (2) What limitations of the data and/or the collection process do we need to be aware of? (3) How can these insights and limitations inform the development and evaluation of linguistic resources?
Um das Thema Gendern oder geschlechtergerechte Sprache hat sich eine hitzige gesellschaftliche Debatte entwickelt. Seit Anfang des Jahres ist die Diskussion um geschlechtergerechte Sprache medial wieder besonders präsent. Anlass ist u.a. die Überarbeitung der Bedeutungsbeschreibungen im Duden online. Vor kurzem widmete sogar Der Spiegel dem Thema den Hefttitel und einen Leitartikel (vgl. Bohr et al. 2021). Allerdings erschöpft sich die Diskussion leicht in Pro- und Kontra-Positionen, dabei gibt es eine ganze Bandbreite von Aspekten rund um das Thema ‚geschlechtergerechte Sprache‘ zu betrachten, die eine differenziertere Diskussion ermöglichen können. Ziel dieses Beitrags ist es, einige dieser Aspekte knapp und möglichst verständlich in die Debatte einzubringen.
Aus diesem Grunde haben wir uns empirisch der Frage genähert, wie oder ob bestimmte Gruppen heute überhaupt noch Wörterbücher nutzen und ob sie sie bewusst von anderen sprachbezogenen Daten im Web unterscheiden. Es sollten empirische Daten gesammelt werden, um zu erfahren, wie DaF-Lernende tatsächlich arbeiten (und nicht was sie dazu retrospektiv sagen), vor allem um eine bessere empirische Basis für den Unterricht zur Verfügung zu haben. Zentrale Fragen dabei waren:
• Wie nutzen DaF-Lernende heutzutage lexikografische Ressourcen?
• Welche Suchstrategien wenden sie an?
• Differenzieren sie zwischen den unterschiedlichen Ressourcen?
• Welche Strategien erweisen sich als besonders erfolgreich?
Die Corona-Pandemie betrifft fast alle Facetten des öffentlichen Lebens und hat nicht nur erhebliche Auswirkungen auf den persönlichen Umgang miteinander, sondern beherrscht auch die Berichterstattung im großen Stil. In unserem Beitrag wollen wir zeigen, welche lexikalischen Spuren oder Trends der Coronakrise wir in der deutschen Online-Nachrichtenberichterstattung beobachten können, obwohl wir uns noch mitten in der Pandemie zu befinden scheinen. „Lexikalische Spuren“ bedeutet, dass wir z.B. die am häufigsten verwendeten Wörter, Wortbildungsprodukte rund um „Corona“ oder Häufigkeitskurven einzelner Wortformen analysieren. Auf der Grundlage von Online-Nachrichtenberichten aus 13 deutschsprachigen Quellen, die seit Anfang 2020 gesammelt wurden, zeigen wir unter anderem, wie über wöchentliche Übersichten der am häufigsten verwendeten Wörter zu sehen ist, wann die Corona-Pandemie zum dominierenden Thema in der Nachrichtenberichterstattung wird; wie eine wahre Explosion von Wortbildungsprodukten mit „Corona“ wie „Vor-Corona-Gesellschaft“ oder „Post-Corona Zukunft“ beobachtet werden kann, wie andere Themen – z.B. der Fußball – durch Corona verdrängt werden, wie sich die Diskussion um Auswege aus dem Lockdown in den Daten widerspiegelt, oder wie prominente Virolog/-innen in die gleiche „Frequenzliga“ wie Politiker/-innen aufsteigen.
The coronavirus pandemic may be the largest crisis the world has had to face since World War II. It does not come as a surprise that it is also having an impact on language as our primary communication tool. In this short paper, we present three inter-connected resources that are designed to capture and illustrate these effects on a subset of the German language: An RSS corpus of German-language newsfeeds (with freely available untruncated frequency lists), a continuously updated HTML page tracking the diversity of the vocabulary in the RSS corpus and a Shiny web application that enables other researchers and the broader public to explore the corpus in terms of basic frequencies.
Studying Lexical Dynamics and Language Change via Generalized Entropies: The Problem of Sample Size
(2020)
Recently, it was demonstrated that generalized entropies of order α offer novel and important opportunities to quantify the similarity of symbol sequences where α is a free parameter. Varying this parameter makes it possible to magnify differences between different texts at specific scales of the corresponding word frequency spectrum. For the analysis of the statistical properties of natural languages, this is especially interesting, because textual data are characterized by Zipf’s law, i.e., there are very few word types that occur very often (e.g., function words expressing grammatical relationships) and many word types with a very low frequency (e.g., content words carrying most of the meaning of a sentence). Here, this approach is systematically and empirically studied by analyzing the lexical dynamics of the German weekly news magazine Der Spiegel (consisting of approximately 365,000 articles and 237,000,000 words that were published between 1947 and 2017). We show that, analogous to most other measures in quantitative linguistics, similarity measures based on generalized entropies depend heavily on the sample size (i.e., text length). We argue that this makes it difficult to quantify lexical dynamics and language change and show that standard sampling approaches do not solve this problem. We discuss the consequences of the results for the statistical analysis of languages.
Im vorliegenden Beitrag gehen wir von der Prämisse aus, dass die Angemessenheit sprachlicher Formen nicht pauschal, sondern anhand des jeweiligen Kontexts zu beurteilen ist. Anhand einer Online-Fragebogenstudie mit durch weil eingeleiteten Nebensätzen untersuchen wir die Hypothese, dass Varianten, die nicht dem Schriftstandard entsprechen, in Kommunikationsformen, die sich weniger an standard- und schriftsprachlichen Normen orientieren, als (mindestens) ebenso angemessen oder zumindest unterschiedlich wahrgenommen werden wie eine schriftstandardsprachliche Variante. Wir untersuchen dies anhand von drei Aufgaben: Rezeption, Produktion und Assoziation zu bestimmten Medien und Textsorten. Wir können zeigen, dass die schriftnormgerechte Variante durchweg als am akzeptabelsten eingeschätzt wird. In allen drei Aufgaben finden sich aber auch eindeutige und übereinstimmende Effekte, die nahelegen, dass die verschiedenen Varianten in Abhängigkeit der Textsorte doch unterschiedlich eingeschätzt, produziert und assoziiert werden.
Das Kommunizieren in Sozialen Medien und der Umgang mit Hypertexten ist im Jahr 2020 kein Randphänomen mehr. Die sprachlichen Besonderheiten internetbasierter Kommunikation und Sozialer Medien sind mittlerweile auch gut erforscht und beschrieben, allerdings werden diese bislang in deutschen Grammatiken, mit Ausnahme von Hoffmann (2014), allenfalls am Rande behandelt. Selbst neuere Ansätze zur Textanalyse, z. B. Ágel (2017), konzentrieren sich auf gestaltstabile, linear organisierte Schrifttexte. Dasselbe gilt für Ansätze, die primär für die Bewertung von Schreibprodukten in Bildungskontexten entwickelt wurden.
cOWIDplus Analyse ist eine kontinuierlich aktualisierte Ressource zu der Frage, ob und wie stark sich der Wortschatz ausgewählter deutscher Online-Pressemeldungen während der Corona-Pandemie systematisch einschränkt und ob bzw. wann sich das Vokabular nach der Krise wieder ausweitet. In diesem Artikel erläutern die Autor*innen die hinter der Ressource stehende Forschungsfrage, die zugrunde gelegten Daten, die Methode sowie die bisherigen Ergebnisse.
cOWIDplus Viewer
(2020)
cOWIDplus
(2020)
Die Corona-Krise hat Einfluss auf die Sprache in deutschsprachigen Online-Medien. Wir haben die Hypothese, dass sich die Vielfältigkeit des verwendeten Vokabulars einschränkt. Wir glauben zudem, dass sich die Diversität des Vokabulars nach "überstandener" Krise wieder auf ein "Prä-Pandemie-Niveau" einpendeln wird. Diese zweite Hypothese lässt sich erst im Laufe der Zeit überprüfen.
Lexikographische und lexikalische Ressourcen zum Deutschen werden an vielen unterschiedlichen Institutionen erarbeitet. Zum einen im Dudenverlag, der mit den gedruckten Wörterbüchern der Duden-Reihe und mit „Duden online“ die meistkonsultierten gegenwartssprachlichen Wörterbücher zum Deutschen erstellt, dann die Union deutscher Akademien, unter deren Dach an verschiedenen einzelnen Akademien zahlreiche historische wie auch synchrone Wörterbücher zum Deutschen erstellt werden (z. B. das „Digitale Wörterbuch der deutschen Sprache“, das „Wörterbuchnetz“ sowie das geplante Informationssystem des neuen „Zentrums für digitale Lexikographie der deutschen Sprache“). Auch am Institut für Deutsche Sprache in Mannheim werden wissenschaftliche wortschatzbezogene Ressourcen zum Deutschen erarbeitet und der (Fach-)Öffentlichkeit unter dem Dach von OWID, dem „Online-Wortschatz-Informationssystem Deutsch“, präsentiert. Obwohl wir uns in OWID auf Ressourcen zu spezialisierten Wortschatzbereichen konzentriert haben, erreichen wir Nutzerinnen und Nutzer in verschiedensten Ländern der Welt. Wir wollen hier die Gelegenheit wahrnehmen, den ZGL-Leserinnen und -Lesern unsere Ressourcen in OWID und OWIDplus näher vorzustellen.
In the past two decades, more and more dictionary usage studies have been published, but most of them deal with the question what users appreciate about dictionaries, which dictionaries they use and which information they need in specific situations. These studies presuppose that users indeed consult lexicographic resources. However, language teachers and lecturers of linguistics often have the impression that students use too few high-quality dictionaries in their every-day work. Against this background, we started an international cooperation project to collect empirical data evaluating that impression. Our aim was to evaluate what students (here from the Romance language area) actually do when they correct language problems. We used a new methodological setting to do this (screen recording with a thinking-aloud task). The empirical data we gained offers a broad insight into what language users really do when solving language-related tasks today.
Studying Lexical Dynamics and Language Change via Generalized Entropies: The Problem of Sample Size
(2019)
Recently, it was demonstrated that generalized entropies of order α offer novel and important opportunities to quantify the similarity of symbol sequences where α is a free parameter. Varying this parameter makes it possible to magnify differences between different texts at specific scales of the corresponding word frequency spectrum. For the analysis of the statistical properties of natural languages, this is especially interesting, because textual data are characterized by Zipf’s law, i.e., there are very few word types that occur very often (e.g., function words expressing grammatical relationships) and many word types with a very low frequency (e.g., content words carrying most of the meaning of a sentence). Here, this approach is systematically and empirically studied by analyzing the lexical dynamics of the German weekly news magazine Der Spiegel (consisting of approximately 365,000 articles and 237,000,000 words that were published between 1947 and 2017). We show that, analogous to most other measures in quantitative linguistics, similarity measures based on generalized entropies depend heavily on the sample size (i.e., text length). We argue that this makes it difficult to quantify lexical dynamics and language change and show that standard sampling approaches do not solve this problem. We discuss the consequences of the results for the statistical analysis of languages.
Diachrone Wortschatzveränderungen werden in der Regel exemplarisch anhand bestimmter Phänomene oder Phänomenbereiche untersucht. Wir widmen uns der Frage, ob und wie Wandelprozesse auch auf globaler Ebene, also ohne sich auf bestimmte Wortschatzausschnitte festzulegen, messbar sind. Zur Untersuchung dieser Frage nutzen wir das Spiegel-Korpus, in dem alle Ausgaben der Wochenzeitschrift seit 1947 enthalten sind. Dabei gehen wir auf grundlegende Herausforderungen ein, die es dabei zu lösen gilt, wie die Verteilung sprachlicher Daten und die Folgen unterschiedlicher Subkorpusgrößen, d.h. im konkreten Fall die variierende Größe des Spiegelkorpus über die Zeit hinweg. Wir stellen ein Verfahren vor, mit dem wir in der Lage sind, flankiert von einem „Lackmustest“ zur Überprüfung der Ergebnisse, Wortschatzwandelprozesse bis auf die Mikroebene, d.h. zwischen zwei Monaten oder gar Wochen, quantitativ nachzuvollziehen.
This paper presents the results of a survey on dictionary use in Europe, the largest survey of dictionary use to date with nearly 10,000 participants in nearly thirty countries. The paper focuses on the comparison of the results of the Slovenian participants with the results of the participants from other European countries. The comparisons are made both with the European averages, and with the results from individual countries, in order to determine in which aspects Slovenian participants share similarities with other dictionary users (and non-users) around Europe, and in which aspects they differ. The findings show that in many ways the Slovenian users are similar to their European counterparts, with some noticeable exceptions, including (much) stronger preference for digital dictionaries over print ones, above-average reliance on other people when dictionary does not contain the relevant information, and the largest difference between the price of a dictionary and the amount willing to spend on it.
The article presents the results of a survey on dictionary use in Europe, focusing on general monolingual dictionaries. The survey is the broadest survey of dictionary use to date, covering close to 10,000 dictionary users (and non-users) in nearly thirty countries. Our survey covers varied user groups, going beyond the students and translators who have tended to dominate such studies thus far. The survey was delivered via an online survey platform, in language versions specific to each target country. It was completed by 9,562 respondents, over 300 respondents per country on average. The survey consisted of the general section, which was translated and presented to all participants, as well as country-specific sections for a subset of 11 countries, which were drafted by collaborators at the national level. The present report covers the general section.
We present ESDexplorer (https://owid.shinyapps.io/ESDexplorer), a browser application which allows the user to explore the data from a large European survey on dictionary use and culture. We built ESDexplorer with several target groups in mind: our cooperation partners, other researchers, and a more general public interested in the results. Also, we present in detail the architecture and technological realisation of the application and discuss some legal aspects of data protection that motivated some architectural choices.
In the past two decades, more and more dictionary usage studies have been published, but most of them deal with questions related to what users appreciate about dictionaries, which dictionaries they use and what type of information they need in specific situations — presupposing that users actually consult lexicographic resources. However, language teachers and lecturers in linguistics often have the impression that students do not use enough high-quality dictionaries in their everyday work. With this in mind, we launched an international cooperation project to collect empirical data to evaluate what it is that students actually do while attempting to solve language problems. To this end, we applied a new methodological setting: screen recording in conjunction with a thinking-aloud task. The collected empirical data offers a broad insight into what users really do while they attempt to solve language-related tasks online.
Quantitativ ausgerichtete empirische Linguistik hat in der Regel das Ziel, grose Mengen sprachlichen Materials auf einmal in den Blick zu nehmen und durch geeignete Analysemethoden sowohl neue Phanomene zu entdecken als auch bekannte Phanomene systematischer zu erforschen. Das Ziel unseres Beitrags ist es, anhand zweier exemplarischer Forschungsfragen methodisch zu reflektieren, wo der quantitativ-empirische Ansatz fur die Analyse lexikalischer Daten wirklich so funktioniert wie erhofft und wo vielleicht sogar systembedingte Grenzen liegen. Wir greifen zu diesem Zweck zwei sehr unterschiedliche Forschungsfragen heraus: zum einen die zeitnahe Analyse von produktiven Wortschatzwandelprozessen und zum anderen die Ausgleichsbeziehung von Wortstellungsvs. Wortstrukturregularitat in den Sprachen der Welt. Diese beiden Forschungsfragen liegen auf sehr unterschiedlichen Abstraktionsebenen. Wir hoffen aber, dass wir mit ihnen in groser Bandbreite zeigen konnen, auf welchen Ebenen die quantitative Analyse lexikalischer Daten stattfinden kann. Daruber hinaus mochten wir anhand dieser sehr unterschiedlichen Analysen die Moglichkeiten und Grenzen des quantitativen Ansatzes reflektieren und damit die Interpretationskraft der Verfahren verdeutlichen.
Wie nun bereits seit einigen Jahren üblich, wurde die IDS-Jahrestagung auch dieses Jahr wieder von einer Methodenmesse begleitet, auf der sich passend zum Tagungsthema anwendungsorientierte Projekte mit Bezug zur Lexikonforschung präsentierten. Die Bandbreite der dargebotenen Themen war sehr groß: innovative methodische Ansätze im Bereich der Translationswissenschaft, Tools zur Analyse und Beschreibung lexikalischer Muster oder zur Detektion von Neologismen, neue lexikografische Ressourcen bis hin zu Infrastrukturaktivitäten und einem Kooperationsprojekt zwischen Schüler/innen und Wissenschaftler/innen zur Wortschatzanalyse. Im Folgenden sollen die einzelnen Projekte, die sich auf der Messe präsentiert haben, auf der Basis der eingereichten Abstracts der Messeteilnehmer/innen kurz vorgestellt werden.
Consistency of reference structures is an important issue in lexicography and dictionary research, especially with respect to information on sense-related items. In this paper, the systematic challenges of this area (e.g. ‘non-reversed reference’, bidirectional linking being realised as unidirectional structures) will be outlined, and the problems which can be caused by these challenges for both lexicographers and dictionary users will be discussed. The paper also discusses how text-technological Solutions may help to provide Support for the consistency of sense-related pairings during the process of compiling a dictionary.
Many studies on dictionary use presuppose that users do indeed consult lexicographic resources. However, little is known about what users actually do when they try to solve language problems on their own. We present an observation study where learners of German were allowed to browse the web freely while correcting erroneous German sentences. In this paper, we are focusing on the multi-methodological approach of the study, especially the interplay between quantitative and qualitative approaches. In one example study, we will show how the analysis of verbal protocols, the correction task and the screen recordings can reveal the effects of intuition, language (learning) awareness, and determination on the accuracy of the corrections. In another example study, we will show how preconceived hypotheses about the problem at hand might hinder participants from arriving at the correct solution.
Eine europaweite Umfrage zu Wörterbuchbenutzung und -kultur. Ergebnisse der deutschen Teilnehmenden
(2018)
Gebrauchsgegenstand, Streitschlichter, Spielzeug, Nationalsymbol, Arbeitshilfe oder doch nur etwas, für das sich hauptsächlich Akademikerinnen und Akademiker interessieren? Welche Rolle spielen einsprachige Wörterbücher heute? Um unter anderen diesen Fragen nachzugehen, koordinierten wir gemeinsam mit Iztok Kosem (Universität Ljubljana) und Robert Lew (Adam-Mickiewicz Universität Poznań) die bis dato größte europaweite Umfrage zur Wörterbuchbenutzung und -kultur. Gemeinsam mit 26 ‚lokalen‘ Partnerinnen und Partnern aus ganz Europa führten wir im Rahmen des European Network of e-Lexicography (ENeL) diese Umfrage durch. Die Ergebnisse der Studie versprechen neue Einsichten in den gesellschaftlichen Status von Wörterbüchern in vielen europäischen Ländern. Durch die möglichst parallele Erhebung der Daten in den teilnehmenden Ländern werden außerdem interessante Vergleiche der lokalen ‚Wörterbuchkulturen‘ möglich sein. Im Fokus der Befragung standen allgemeine einsprachige Wörterbücher in der oder den jeweiligen Landessprache(n).
We present an empirical study addressing the question whether, and to which extent, lexicographic writing aids improve text revision results. German university students were asked to optimise two German texts using (1) no aids at all, (2) highlighted problems, or (3) highlighted problems accompanied by lexicographic resources that could be used to solve the specific problems. We found that participants from the third group corrected the largest number of problems and introduced the fewest semantic distortions during revision. Also, they reached the highest overall score and were most efficient (as measured in points per time). The second group with highlighted problems lies between the two other groups in almost every measure we analysed. We discuss these findings in the scope of intelligent writing environments, the effectiveness of writing aids in practical usage situations and teaching dictionary skills.
Durch die Medienrevolution des Computerzeitalters hat auch die Lexikografie tiefgreifend verändert. Es stellen sich neue Fragen: Kann aus einer Datenbasis gleichzeitig ein gedrucktes und ein elektronisches Wörterbuch entwickelt werden? Welche innovativen Funktionalitäten können den Wörterbuchbenutzern im elektronischen Medium angeboten werden? Wie kann die Erarbeitung der Daten im lexikografischen Prozess bestmöglich unterstützt werden? Die Basis für die Möglichkeiten im Umgang mit den lexikografischen Daten bildet dabei die Datenmodellierung und -aufbereitung. Daher ist für die Erarbeitung eines Wörterbuchs eine Konzeption zur Modellierung und Aufbereitung der zugrunde liegenden Daten von entscheidender Bedeutung.
Die vorliegende Arbeit stellt nachdrücklich dar, wie eine wohlüberlegte, methodisch fundierte und vor allem anwendbare Datenmodellierung zu weitreichenden Verbesserungen der lexikografischen Praxis führt. Dazu wird ein Modell für den lexikografischen Prozess entwickelt, welches die Erarbeitung der Daten und die Recherchierbarkeit sowohl für Lexikografen als auch Wörterbuchbenutzer optimiert.
Dictionary usage research is a topic of increasing importance within the field of lexicography. At the beginning of the new millennium, the dictionary user was still relatively unknown. However, in the last ten years, more and more user studies have been published. Consequently, methods, data and the conclusions which can be drawn were successively refined. Also, new possibilities of web-based data collection, e.g., the analysis of log files, enriched this field of research. This contribution aims to describe the state of the art in dictionary usage research in the digital era. I begin by providing a short overview of methodological and terminological basics and then place a special focus on three different methods of collecting empirical data on dictionary use: online questionnaires, eye tracking and the analysis of log-files. All these methods are illustrated on user studies conducted at the Institute for the German Language in Mannheim.
The constantly changing requirements of today’s media landscape demand a new concept for literary editions. Such a forward-looking model should be SGML/XML-based, and should acknowledge the central importance of topic maps. In this respect, the Thomas Mann project combines in a unique way the work of one of the most famous authors of the 20th century with an innovative way of information organization.
Languages employ different strategies to transmit structural and grammatical information. While, for example, grammatical dependency relationships in sentences are mainly conveyed by the ordering of the words for languages like Mandarin Chinese, or Vietnamese, the word ordering is much less restricted for languages such as Inupiatun or Quechua, as these languages (also) use the internal structure of words (e.g. inflectional morphology) to mark grammatical relationships in a sentence. Based on a quantitative analysis of more than 1,500 unique translations of different books of the Bible in almost 1,200 different languages that are spoken as a native language by approximately 6 billion people (more than 80% of the world population), we present large-scale evidence for a statistical trade-off between the amount of information conveyed by the ordering of words and the amount of information conveyed by internal word structure: languages that rely more strongly on word order information tend to rely less on word structure information and vice versa. Or put differently, if less information is carried within the word, more information has to be spread among words in order to communicate successfully. In addition, we find that–despite differences in the way information is expressed–there is also evidence for a trade-off between different books of the biblical canon that recurs with little variation across languages: the more informative the word order of the book, the less informative its word structure and vice versa. We argue that this might suggest that, on the one hand, languages encode information in very different (but efficient) ways. On the other hand, content-related and stylistic features are statistically encoded in very similar ways.
Das Online-Wortschatz-Informationssystem Deutsch (OWID) ist ein digitales Wörterbuchportal des Instituts für Deutsche Sprache. Alle darin zusammengeführten lexikografischen Daten sind auf XML-Basis feingranular strukturiert. Speicherung, Verwaltung und Retrieval dieser Daten übernimmt das Orade-basierte Electronic Dictionary Administration System (EDAS). Der vorliegende Beitrag erläutert die XML-basierte Modellierung der Daten, XML-spezifische Fragen der Speicherung, sowie das Retrieval mit XPath und SQL/XML.
Wiktionary is increasingly gaining influence in a wide variety of linguistic fields such as NLP and lexicography, and has great potential to become a serious competitor for publisher-based and academic dictionaries. However, little is known about the "crowd" that is responsible for the content of Wiktionary. In this article, we want to shed some light on selected questions concerning large-scale cooperative work in online dictionaries. To this end, we use quantitative analyses of the complete edit history files of the English and German Wiktionary language editions. Concerning the distribution of revisions over users, we show that — compared to the overall user base — only very few authors are responsible for the vast majority of revisions in the two Wiktionary editions. In the next step, we compare this distribution to the distribution of revisions over all the articles. The articles are subsequently analysed in terms of rigour and diversity, typical revision patterns through time, and novelty (the time since the last revision). We close with an examination of the relationship between corpus frequencies of headwords in articles, the number of article visits, and the number of revisions made to articles.
We present an empirical study addressing the question whether, and to which extent, lexicographic writing aids improve text revision results. German university students were asked to optimise two German texts using (1) no aids at all, (2) highlighted problems, or (3) highlighted problems accompanied by lexicographic resources that could be used to solve the specific problems. We found that participants from the third group corrected the largest number of problems and introduced the fewest semantic distortions during revision. Also, they reached the highest overall score and were most efficient (as measured in points per time). The second group with highlighted problems lies between the two other groups in almost every measure we analysed. We discuss these findings in the scope of intelligent writing environments, the effectiveness of writing aids in practical usage situations and teaching dictionary skills.
Datenmodellierung
(2016)
Wiegand’s opus magnum „Wörterbuchforschung“ ends with a chapter on the state and the relevant taslcs for research into dictionary use in the middle of the 1990s. This article aims at reflecting the taste and the relevance of dictionary usage research 20 years later. I will argue that the fundamentally changed lexicographic landscape makes it necessary to shift the focus of research. In my view, the most important aim of research into dictionary use can no longer be limited to improving dictionaries. Research into dictionary use should also raise more awareness for user- orientation in general and should provide methodological reflection to enlighten the increasingly important usage statistics for online dictionaries. Another goal should be to look behind the scenes of collaborative dictionaries in order to provide background data to classify their relevance in relation to dictionaries elaborated by lexicographic experts. The crisis of lexicography makes it also necessary to broaden our view and concentrate on situations in which linguistic questions arise. In this context, we could examine in which of these situations the consultation of lexicographic data helps. In summary, the aim of research into dictionary use is to identify the fields where sound lexicographic work is really helpful for potential users.
In order to demonstrate why it is important to correctly account for the (serial dependent) structure of temporal data, we document an apparently spectacular relationship between population size and lexical diversity: for five out of seven investigated languages, there is a strong relationship between population size and lexical diversity of the primary language in this country. We show that this relationship is the result of a misspecified model that does not consider the temporal aspect of the data by presenting a similar but nonsensical relationship between the global annual mean sea level and lexical diversity. Given the fact that in the recent past, several studies were published that present surprising links between different economic, cultural, political and (socio-)demographical variables on the one hand and cultural or linguistic characteristics on the other hand, but seem to suffer from exactly this problem, we explain the cause of the misspecification and show that it has profound consequences. We demonstrate how simple transformation of the time series can often solve problems of this type and argue that the evaluation of the plausibility of a relationship is important in this context. We hope that our paper will help both researchers and reviewers to understand why it is important to use special models for the analysis of data with a natural temporal ordering.
In this contribution, we present a novel approach for the analysis of cross-reference structures in digital dictionaries on the basis of the complete dictionary database. Using paradigmatic items in the German Wiktionary as an example, we show how analyses based on graph theory can be fruitfully applied in this context, e. g. to gain an overview of paradigmatic references as a whole or to detect closely connected groups of headwords. Furthermore, we connect information about cross-reference structures with corpus frequencies and log file statistics. In this way, we can answer questions such as the following ones: Are frequent words paradigmatically linked more closely than others? Are closely linked headwords or headwords that stand more solitary in the dictionary visited significantly more often?
Electronic corpora play an ever growing role in lexicography. On the one hand, new access to linguistic usage is made possible through the use of text corpora and intelligent corpus-based query tools; however, the final results are still interpreted and described by lexicographers. In this case corpora are used for data acquisition. On the other hand, there are also projects that provide purely automatically acquired data in the form of "dictionaries". Lexicographers play only a minor role here. This latter type of corpus use creates a completely new kind of electronic dictionary. This article addresses the questions as to what extent these dictionaries differ from lexicographic tradition and whether they must be considered in metalexicography. Starting from previously compiled electronic dictionary typologies, we try to supplement the formulation of lexicographic data as a distinguishing feature. Finally, based on the findings of the project elexiko (Institute for the German Language - IDS), we demonstrate that the distinction between electronic versus man-made lexicographic data is also relevant to lexicographical practice.
The development of user-adapted views of lexicographic data is frequently in demand by dictionary research on electronic reference works and hypertext information systems. In the printed dictionary it has been indispensable to develop a complete dictionary relative to a user group and using situations. In contrast, for any electronic presentation of lexicographic data there are possibilities to define user-specific views of an initially user-unspecific resource. However, research on the use of dictionaries in general, still has to answer several open questions as far as this subject is concerned. This paper will firstly provide an overview of the present state of research on dictionary use with respect to electronic lexicography. Subsequently, explanations of further prerequisites for a possible user-adapted access to data are followed, as exemplified by OWID, the Online Vocabulary Information System of the Institut für Deutsche Sprache. Finally, it will be outlined what results on the subject have been accomplished so far. Also the prospects of potential user-adapted presentations of lexicographic data will be highlighted.
Der Einsatz einer maßgeschneiderten, feingranularen XML-Modellierung im lexikografischen Prozess
(2011)
In diesem Papier wird kurz der Stand der lexikografischen Theorie und Praxis bezüglich des Themas „Illustrationen in der Lexikografie“ zusammengefasst, um daraus Vorschläge für den Umgang mit Illustrationen in elexiko abzuleiten. Dazu wird zunächst Grundsätzliches zum Thema referiert, um dann Arten von Illustrationen vorzustellen, wie sie in der lexikografischen Theorie unterschie-den werden. Anhand von Beispielen wird dabei die lexikografische Praxis aus dem Bereich der Printlexikografie illustriert. Die letzten beiden Abschnitte beschäftigen sich mit den Möglichkeiten der Illustrierung für elexiko, wobei unterschieden wird in die Illustrierung des Demonstrationswortschatzes und in weitere Perspektiven für elexiko.
Der Beitrag behandelt konzeptionelle und methodische Fragen aus einem Projekt, in dem eine neue Referenzausgabe des Thomas Mannschen Gesamtwerks für die Publikation in zwei Medien aufbereitet wird: als Buch und als elektronische Ausgabe. Die Basis dafür bildet ein Informationspool, in dem die Texte SGML/XML-basiert vorgehalten und durch eine Topic Map verknüpft werden. Der Beitrag skizziert die Architektur des Systems sowie die dahinter stehenden technischen und konzeptionellen Überlegungen. Es wird gezeigt, wie gerade die elektronische Version neue Wege beschreitet, damit ein Arbeitswerkzeug für Literaturwissenschaftler entsteht, das völlig neuartige Zugriffsmöglichkeiten auf das Werk Thomas Manns bietet.
Lexicographic data are normally linked with each other in a complex manner. Especially, within the electronic lexicographic context, the following issues are addressed: How to encode these cross-reference structures so that both the lexicographers‘ editorial work with the linking-up is easy to handle and the options of the presentation are adequately flexible. The objective of this paper is to elucidate the presentation of an XML-modelling of cross-reference structures as part of a complete modelling concept. Thereby, the modelling potential of the XML-connected standard XLink and a new lexicographic concept will be brought together with cross-project guidelines for the modelling of link-structures.
The Online-Wortschatz-Informationssystem Deutsch (OWID Online German Lexical Information System) is a lexicographic Internet portal for various electronic dictionary resources that are being compiled at the Institute for the German Language (Institut für Deutsche Sprache, IDS). The main emphasis of OWID is on academic lexicographic resources of contemporary German. Presently, the following dictionaries are included in OWID: a dictionary of contemporary German called elexiko, a dictionary of neologisms, a small dictionary of collocations, and a discourse dictionary covering the lexemes that establish the discourse about “guilt” in the early post-war era 1945-1955. In the near future (2010/2011), several additional dictionaries will be published in OWID: a Textbook of German Communication Verbs, a Valency Dictionary of German Verbs, two further discourse dictionaries – one about the “democracy” discourse around 1968, the other covering the keywords of the German reunification 1989/1990. Moreover, 300 entries from a corpus-based project on proverbs will be integrated into OWID. Thereby, OWID is a constantly growing resource for academic lexicographic work of the German language.
Altogether, OWID is a special kind of dictionary portal owing to its content and its design, namely the integration of the various dictionaries, the access possibilities and the presentation features. With OWID, we try to establish a dictionary net where the different resources are jointly accessible not only by headwords, but also on the microstructural level. Prerequisite for these common access- and navigation-possibilities across the various dictionaries is the same concept for the lexicographic data model which we put into practice in OWID. Data from all dictionaries in OWID are structured according to a tailor-made, fine-granular, XML-based data model. In this data model, similar content is modelled similarly, dictionary related differences are preserved.
The main tasks for the future are to enhance OWID with further dictionary resources, to improve the inner access structures so that they exhaust the possibilities of the data model, and to customize the layout of the dictionaries as well as the search options according to the user’s needs
What makes a good online dictionary? Empirical insights from an interdisciplinary research project
(2011)
This paper presents empirical fmdings from two online surveys on the use of online dictionaries, in which more than 1,000 participants took part. The aim of these studies was to clarify general questions of online dictionary use (e.g. which electronic devices are used for online dictionaries or different types of usage situations) and to identify different demands regarding the use of online dictionaries. We will present some important results ofthis ongoing research project by focusing on the latter. Our analyses show that neither knowledge of the participants’ (scientific or academic) background, nor the language Version of the online survey (German vs. English) allow any significant conclusions to be drawn about the participant’s individual user demands. Subgroup analyses only reveal noteworthy differences when the groups are clustered statistically. Taken together, our fmdings shed light on the general lexicographical request both for the development of a user-adaptive interface and the incorporation of multimedia elements to make online dictionaries more user-friendly and innovative.
The representation of semantic relations between word senses of different entries in a dictionary is subject to a number of consistency requirements. This paper discusses the issue of maintaining and accessing consistent information on cross-references between sense-related items in electronic dictionaries from a mainly text-technological point of view. We present a number of consistency criteria for cross-referencing related senses and propose a practical approach to handling sense relations in an online dictionary. Our proposal is currently being tested in a large ongoing online dictionary project for German called elexiko. We focus on three different aspects of the dictionary development and editing process where consistency is an important issue: lexicographic data modelling, implementation of a lexicographic database system for an electronic dictionary, and development of practical tools for the lexicographer’s workbench.
The project elexiko compiles an extensive, monolingual dictionary of Contemporary German. This contribution deals with the grammatical data in this dictionary; it is not only described how these are arranged content-wise depending on corpus data, but also how they were modelled.
Das Projekt elexiko erarbeitet ein umfangreiches, einsprachiges Wörterbuch des Gegenwartsdeutschen. In diesem Beitrag geht es um die grammatischen Angaben in diesem Wörterbuch; es wird nicht nur erläutert, wie diese inhaltlich in Abhängigkeit vom Prinzip der Korpusbasiertheit gestaltet sind, sondern auch, wie sie modelliert wurden.
Die Benutzung von Onlinewörterbüchern ist bislang wenig erforscht. Am Institut für Deutsche Sprache in Mannheim wurde versucht, diese Forschungslücke mit einem Projekt zur Benutzungsforschung zumindest zum Teil schließen (s. www.benutzungsforschung.de). Die empirischen Studien wurden methodisch sowohl in Form von Onlinefragebögen, die neben befragenden auch experimentelle Elemente enthielten, als auch anhand eines Labortests (mit Eyetracking-Verfahren) durchgeführt. Die erste Studie untersuchte generell die Anlässe und sozialen Situationen der Verwendung von Onlinewörterbüchern sowie die Ansprüche, die Nutzer an Onlinewörterbücher stellen. An der zweisprachigen Onlinestudie (deutsch/englisch) nahmen international fast 700 Probanden teil. Durch die hohe Resonanz auf die erste Studie und den daraus folgenden Wunsch, die gewonnenen Informationen empirisch zu vertiefen, richtet sich auch die die zweite Studie an ein internationales Publikum und schloss inhaltlich an die erste Studie an. Später konzentrierten sich die Studien auf monolinguale deutsche Onlinewörterbücher wie elexiko (Studien 3 und 4), sowie auf das Wörterbuchportal OWID (Studie 5). Im Vortrag werden ausgewählte Ergebnisse der verschiedenen Studien vorgestellt.
This paper is a project report of the lexicographic Internet portal OWID, an Online Vocabulary Information System of German which is being built at the Institute of German Language in Mannheim (IDS). Overall, the contents of the portal and its technical approaches will be presented. The lexical database is structured in a granular way which allows to extend possible search options for lexicographers. Against the background of current research on using electronic dictionaries, the project OWID is also working on first ideas of useradapted access and user-adapted views of the lexicographic data. Due to the fact that the portal OWID comprises dictionaries which are available online it is possible to change the design and functions of the website easily (in comparison to printed dictionaries). Ideas of implementing user-adapted views of the lexicographic data will be demonstrated by using an example taken from one of the dictionaries of the portal, namely elexiko.
Das elexiko-Portal: Ein neuer Zugang zu lexikografischen Arbeiten am Institut für Deutsche Sprache
(2007)
Das elexiko-Portal soll verschiedene lexikografische Projekte des IDS in einem Verbund zusammenführen und - soweit das die Inhalte zulassen - gemeinsame Recherchemöglichkeiten über verschiedene lexikografische Produkte hinweg bieten. In diesem Aufsatz geht es v. a. darum zu zeigen, wie die XML-basierte Modellierung für das Portal aufgebaut ist, um zum einen die Basis für diese flexiblen Zugriffsstrukturen zu legen und zum anderen der Verschiedenheit der beteiligten Projekte Rechnung zu tragen. Gleichzeitig werden Perspektiven für eine flexiblere Darstellung der Daten und für die zukünftige Weiterentwicklung von Recherchemöglichkeiten aufgezeigt.
Introduction
(2015)
In dem Beitrag präsentieren und diskutieren die Autoren zunächst einige Untersuchungen aus der Benutzungsforschung zu elektronischen Wörterbüchern, die sich mit der nutzerseitigen Beurteilung des Mehrwerts multimedialer und benutzeradaptiver Elemente befassen (Kap. 1. In einem zweiten Teil versuchen sie, ausgehend von den Stärken und Schwächen vorhandener Ansätze in diesem Bereich, Antworten auf die Frage zu finden, welche Anforderungen an Visualisierungstechniken und ‑strategien in elektronischen Wörterbüchern gestellt werden müssen, um einen solchen Mehrwert zu erhalten (Kap. 2). Abschließend stellen sie als praktisches Beispiel für eine mögliche Umsetzung solcher Anforderungen den Prototyp einer Software zur interaktiven Erkundung von Wortbildungsangaben im Wörterbuch vor.
Der Artikel stellt die Projekte vor, die sich im Rahmen der Projektmesse zur „Elektronischen Lexikografie“ präsentiert haben. Diese Messe wurde begleitend zur 46. Jahrestagung des Instituts für Deutsche Sprache veranstaltet. Es wird in diesem Beitrag auf der Basis der Messepräsentationen dargelegt, inwiefern Entwicklungen der Korpuslexikografie und der Internetlexikografie die lexikografische Erfassung syntagmatischer Aspekte des deutschen Wortschatzes befördern und welche lexikografischen Internetressourcen dazu verfügbar sind.
We present studies using the 2013 log files from the German version of Wiktionary. We investigate several lexicographically relevant variables and their effect on look-up frequency: Corpus frequency of the headword seems to have a strong effect on the number of visits to a Wiktionary entry. We then consider the question of whether polysemic words are looked up more often than monosemic ones. Here, we also have to take into account that polysemic words are more frequent in most languages. Finally, we present a technique to investigate the time-course of look-up behaviour for specific entries. We exemplify the method by investigating influences of (temporary) social relevance of specific headwords.
Digital or electronic lexicography has gained in importance in the last few years. This can be seen in the growing list of publications focusing on this field. In the OBELEX bibliography (http://www.owid.de/obelex/engl), the research contributions in this field are consolidated and are searchable by different criteria. The idea for OBELEX originated in the context of the dictionary portal OWID, which incorporates several dictionaries from the Institute for German Language (www.owid.de). OBELEX has been available online free of charge since December 2008. OBELEX includes articles, monographs, anthologies and reviews published since 2000 that relate to electronic lexicography, as well as some relevant older works. Our particular focus is on works about online lexicography. Systematically evaluated sources are relevant journals like International Journal of Lexicography, Lexicographica, Dictionaries, Lexikos; furthermore Euralex-Proceedings, proceedings of the International Symposium on Lexicography in Copenhagen as well as relevant monographs and anthologies. Information on dictionaries is currently not included in OBELEX; the main focus is on metalexicography. However, we are working on a database with information on online dictionaries as a supplement to OBELEX. All entries of OBELEX are stored in a database. Thus, all parts of the bibliographic entry (such as person, title, publication or year) are searchable. Furthermore, all publications are associated with our keyword list; therefore, a thematic search is possible. The subject language is also noted. With this type of content, the OBELEX bibliography supplements in a useful way other bibliographic projects such as the printed ‘Internationale Bibliographie zur germanistischen Lexikographie und Wörterbuchforschung’ by H. E. Wiegand (Wiegand 2006/2007), the ‘Bibliography of Lexicography’ by R. R. K. Hartmann (Hartmann 2007), and the ‘International Bibliography of Lexicography’ of Euralex (cf. also DeCesaris and Bernal 2006). OBELEX differs from all these bibliographic projects by its strong focus on electronic lexicography and its ability to retrieve bibliographic information.