Refine
Year of publication
Document Type
- Part of a Book (51)
- Article (43)
- Other (6)
- Preprint (4)
- Book (3)
- Conference Proceeding (3)
- Part of Periodical (1)
- Report (1)
Keywords
- Deutsch (38)
- Korpus <Linguistik> (33)
- Wortschatz (23)
- Wörterbuch (17)
- Sprachstatistik (16)
- COVID-19 (11)
- Datenanalyse (11)
- Lexikostatistik (10)
- Online-Medien (9)
- Lexikografie (8)
Publicationstate
- Veröffentlichungsversion (57)
- Zweitveröffentlichung (45)
- Postprint (14)
Reviewstate
- (Verlags)-Lektorat (48)
- Peer-Review (44)
Publisher
- de Gruyter (26)
- Leibniz-Institut für Deutsche Sprache (IDS) (9)
- Oxford University Press (5)
- Erich Schmidt (4)
- IDS-Verlag (4)
- Springer Nature (4)
- Wilhelm Fink (4)
- Cornell University (3)
- De Gruyter (3)
- Frank & Timme (3)
Quantitativ ausgerichtete empirische Linguistik hat in der Regel das Ziel, grose Mengen sprachlichen Materials auf einmal in den Blick zu nehmen und durch geeignete Analysemethoden sowohl neue Phanomene zu entdecken als auch bekannte Phanomene systematischer zu erforschen. Das Ziel unseres Beitrags ist es, anhand zweier exemplarischer Forschungsfragen methodisch zu reflektieren, wo der quantitativ-empirische Ansatz fur die Analyse lexikalischer Daten wirklich so funktioniert wie erhofft und wo vielleicht sogar systembedingte Grenzen liegen. Wir greifen zu diesem Zweck zwei sehr unterschiedliche Forschungsfragen heraus: zum einen die zeitnahe Analyse von produktiven Wortschatzwandelprozessen und zum anderen die Ausgleichsbeziehung von Wortstellungsvs. Wortstrukturregularitat in den Sprachen der Welt. Diese beiden Forschungsfragen liegen auf sehr unterschiedlichen Abstraktionsebenen. Wir hoffen aber, dass wir mit ihnen in groser Bandbreite zeigen konnen, auf welchen Ebenen die quantitative Analyse lexikalischer Daten stattfinden kann. Daruber hinaus mochten wir anhand dieser sehr unterschiedlichen Analysen die Moglichkeiten und Grenzen des quantitativen Ansatzes reflektieren und damit die Interpretationskraft der Verfahren verdeutlichen.
In der Geschichte der Sprachwissenschaft hat das Lexikon in unterschiedlichem Maße Aufmerksamkeit erfahren. In jüngerer Zeit ist es vor allem durch die Verfügbarkeit sprachlicher Massendaten und die Entwicklung von Methoden zu ihrer Analyse wieder stärker ins Zentrum des Interesses gerückt. Dies hat aber nicht nur unseren Blick für lexikalische Phänomene geschärft, sondern hat gegenwärtig auch einen profunden Einfluss auf die Entstehung neuer Sprachtheorien, beginnend bei Fragen nach der Natur lexikalischen Wissens bis hin zur Auflösung der Lexikon-Grammatik-Dichotomie. Das Institut für Deutsche Sprache hat diese Entwicklungen zum Anlass genommen, sein aktuelles Jahrbuch in Anknüpfung an die Jahrestagung 2017 – „Wortschätze: Dynamik, Muster, Komplexität“ – der Theorie des Lexikons und den Methoden seiner Erforschung zu widmen.
One of the fundamental questions about human language is whether all languages are equally complex. Here, we approach this question from an information-theoretic perspective. We present a large scale quantitative cross-linguistic analysis of written language by training a language model on more than 6500 different documents as represented in 41 multilingual text collections consisting of ~ 3.5 billion words or ~ 9.0 billion characters and covering 2069 different languages that are spoken as a native language by more than 90% of the world population. We statistically infer the entropy of each language model as an index of what we call average prediction complexity. We compare complexity rankings across corpora and show that a language that tends to be more complex than another language in one corpus also tends to be more complex in another corpus. In addition, we show that speaker population size predicts entropy. We argue that both results constitute evidence against the equi-complexity hypothesis from an information-theoretic perspective.
This study aims to establish what lexical factors make it more likely for dictionary users to consult specific articles in a dictionary using the English Wiktionary log files, which include records of user visits over the course of 6 years. Recent findings suggest that lexical frequency is a significant factor predicting look-up behavior, with the more frequent words being more likely to be consulted. Three further lexical factors are brought into focus: (1) age of acquisition; (2) lexical prevalence; and (3) degree of polysemy operationalized as the number of dictionary senses. Age of acquisition and lexical prevalence data were obtained from recent published studies and linked to the list of visited Wiktionary lemmas, whereas polysemy status was derived from Wiktionary entries themselves. Regression modeling confirms the significance of corpus frequency in explaining user interest in looking up words in the dictionary. However, the remaining three factors also make a contribution whose nature is discussed and interpreted. Knowing what makes dictionary users look up words is both theoretically interesting and practically useful to lexicographers, telling them which lexical items should be prioritized in lexicographic work.
This study assesses the effectiveness of ChatGPT versus the Longman Dictionary of Contemporary English (LDOCE) in supporting English language learners in lexically challenging receptive and productive lexical tasks. With a sample of 223 university students at B2 to C1 proficiency levels, this research investigates whether a leading AI-driven chatbot or a high-quality learners’ dictionary better assists learners in accurately understanding and producing English. The results reveal ChatGPT’s superior performance in both task types. Efficiency, in terms of consultation speed, also favoured ChatGPT, though only in the production task. This study advocates for an integrated approach that leverages both AI, with its interactive and immediate feedback, and more traditional lexicographic tools that may foster learner autonomy and linguistic proficiency.
Wir schreiben das Jahr 2002 und die besten Herrenmannschaften messen sich in Südkorea und Japan bei der Fußballweltmeisterschaft. In Deutschland wird der Bundestrainer zur Melodie von Guantanamera lauthals besungen: Ein’ Rudi Völler / es gibt nur ein’ Rudi Völler / ein’ Rudi Völlaaa hallt es durch alle Straßen.
Ganz abgesehen davon, ob das stimmt – und man mag sich gar nicht ausmalen, welche Qualen die zweifelsohne vorhandenen Namensvettern des Bundestrainers damals über sich ergehen lassen mussten – behaupteten die Fans, dass es nicht zwei oder gar noch mehr Rudi Völlers gibt, sondern genau einen. Wir haben es hier also mit einer verkürzten Form von einen (in meiner Verschriftlichung signalisiert durch das Apostroph am Ende) zu tun. Wenn im Jahr 2005 der damalige ZDF-Sportchef Gruschwitz sagt, dass „ein Rudi Völler mit seiner Sympathie und Persönlichkeit […] natürlich ein Thema für den Sender“ (Berliner Zeitung, 14.02.2005) sei, ist das ein anderes ein, nämlich der omnipräsente unbestimmte Artikel: ein Mensch, ein Auto, ein Kuchen und ein Rudi Völler eben. Doch ob das tatsächlich alles dasselbe ist, und welche Funktion der unbestimmte Artikel vor Rudi Völler in der obigen Aufzählung eigentlich hat, dieser Frage möchte ich in diesem Beitrag nachgehen.
In a previous study, Claessens, Kyritsis, and Atkinson (CKA) demonstrated the importance of controlling for geographic proximity and cultural similarity in cross-national analyses. Based on a simulation study, CKA showed that methods commonly used to control for spatial and cultural non-independence are insufficient in reducing false positives while maintaining the ability to detect true effects. CKA strongly advocate the use of Bayesian random effect models in such situations, arguing that among the studied model types, they are the only ones that reduced false positives while maintaining high statistical power. However, in this comment, we argue that the apparent superiority of such models is overstated by CKA due to a form of methodological circularity called 'leakage' in statistics and machine learning, because the same proximity matrix is used both to generate the simulated data and as an input to only the Bayesian models for comparison. When this leakage is controlled for, we show that Bayesian models do not outperform most other methods.