Quantitative Linguistik
Refine
Year of publication
Document Type
- Article (23)
- Part of a Book (19)
- Other (3)
- Doctoral Thesis (1)
- Working Paper (1)
Keywords
- Sprachstatistik (17)
- Deutsch (14)
- Wortschatz (12)
- Korpus <Linguistik> (11)
- Lexikostatistik (10)
- COVID-19 (8)
- Online-Medien (8)
- Vielfalt (8)
- Sprachwandel (6)
- Statistik (6)
Publicationstate
- Veröffentlichungsversion (28)
- Zweitveröffentlichung (18)
- Postprint (9)
Reviewstate
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (8)
- Wilhelm Fink (6)
- de Gruyter (4)
- De Gruyter (3)
- MDPI (3)
- Institut für Deutsche Sprache (2)
- Springer Nature (2)
- Benjamins (1)
- Buske (1)
- Erich Schmidt (1)
In a recent study, I demonstrated that large numbers of L2 (second language) speakers do not appear to influence the morphological or information-theoretic complexity of natural languages. This paper has three primary aims: First, I address recent criticisms of my analyses, showing that the points raised by my critics were already explicitly considered and analysed in my original work. Furthermore, I show that the proposed alternative analyses fail to withstand detailed examination. Second, I introduce new data on the information-theoretic complexity of natural languages, with the estimates derived from various language models—ranging from simple statistical models to advanced neural networks—based on a database of 40 multilingual text collections that represent a wide range of text types. Third, I re-analyse the information-theoretic and morphological complexity data using novel methods that better account for model uncertainty in parameter estimation, as well as the genealogical relatedness and geographic proximity of languages. In line with my earlier findings, the results show no evidence that large numbers of L2 speakers have an effect on natural language complexity.
In diesem Jahr geht die neue, überarbeitete Abfrage von zu Hause gesprochenen Sprachen im deutschen Mikrozensus in die vierte Runde. Der Mikrozensus ist eine amtliche Zählung der Bevölkerung in Deutschland. Dafür wird lediglich ein Teil der Bevölkerung befragt. Im Jahr 2021 enthielt diese repräsentative Stichprobe 880.137 Personen, das entspricht einem Prozent der Gesamtbevölkerung Deutschlands. Die Ergebnisse gelten für die Gesamtbevölkerung und können auf sie hochgerechnet werden. Es gibt jetzt also für die letzten drei Jahre 2021, 2022 und 2023 amtliche Zahlen über die in Deutschland zu Hause gesprochenen Sprachen. Die Ergebnisse über die Sprachen der Menschen in Deutschland sind in ihrer Art und ihrem Umfang singulär. Das letzte Mal sind 1950 sprachliche Informationen über die gesamte Bevölkerung in einer amtlichen Statistik erhoben worden. Jetzt sind wieder einigermaßen detaillierte Informationen über die Sprache der Bevölkerung verfügbar. Die Auswertung dieser Daten ist somit von besonderer Bedeutung. In diesem Beitrag werden die Ergebnisse dieser Erhebungsjahre beschrieben und verglichen. Das Statistische Bundesamt veröffentlicht die Ergebnisse pro Erhebungsjahr in digitalen Datensammlungen (Statistische Berichte). Ausgewählte Ergebnisse werden in Pressemitteilungen vorgestellt. Für diesen Beitrag wurden aus den digitalen Datensammlungen die relevanten Angaben zu den Sprachen extrahiert und zusammengestellt. Dann wurden relative Anteile und die Veränderungen der Angaben zwischen den drei betrachteten Jahren berechnet. Die Ergebnisse dieser Aufarbeitungsprozesse werden hier beschrieben und in der Abbildung und der Tabelle dargestellt.
Computational language models (LMs), most notably exemplified by the widespread success of OpenAI's ChatGPT chatbot, show impressive performance on a wide range of linguistic tasks, thus providing cognitive science and linguistics with a computational working model to empirically study different aspects of human language. Here, we use LMs to test the hypothesis that languages with more speakers tend to be easier to learn. In two experiments, we train several LMs—ranging from very simple n-gram models to state-of-the-art deep neural networks—on written cross-linguistic corpus data covering 1293 different languages and statistically estimate learning difficulty. Using a variety of quantitative methods and machine learning techniques to account for phylogenetic relatedness and geographical proximity of languages, we show that there is robust evidence for a relationship between learning difficulty and speaker population size. However, contrary to expectations derived from previous research, our results suggest that languages with more speakers tend to be harder to learn.
One of the fundamental questions about human language is whether all languages are equally complex. Here, we approach this question from an information-theoretic perspective. We present a large scale quantitative cross-linguistic analysis of written language by training a language model on more than 6500 different documents as represented in 41 multilingual text collections consisting of ~ 3.5 billion words or ~ 9.0 billion characters and covering 2069 different languages that are spoken as a native language by more than 90% of the world population. We statistically infer the entropy of each language model as an index of what we call average prediction complexity. We compare complexity rankings across corpora and show that a language that tends to be more complex than another language in one corpus also tends to be more complex in another corpus. In addition, we show that speaker population size predicts entropy. We argue that both results constitute evidence against the equi-complexity hypothesis from an information-theoretic perspective.
In der Korpuslinguistik und der Quantitativen Linguistik werden ganz verschiedenartige formale Maße verwendet, mit denen die Gebrauchshäufigkeit eines Wortes, eines Ausdrucks oder auch abstrakter oder komplexer sprachlicher Elemente in einem gegebenen Korpus gemessen und ggf. mit anderen Gebrauchshäufigkeiten verglichen werden kann. Im Folgenden soll für eine Auswahl dieser Maße (absolute Häufigkeit, relative Häufigkeit, Wahrscheinlichkeitsverteilung, Differenzenkoeffizient, Häufigkeitsklasse) zusammengefasst werden, wie sie definiert sind, welche Eigenschaften sie haben und unter welchen Bedingungen sie (sinnvoll) anwendbar und interpretierbar sind – dabei kann eine Rolle spielen, ob das Häufigkeitsmaß auf ein Korpus als Ganzes angewendet wird oder auf einzelne Teilkorpora. Zusätzlich zu den bei den einzelnen Häufigkeitsmaßen genannten Einschränkungen gilt generell der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt und je kleiner dieses Korpus ist, desto stärker hängt die beobachtete Gebrauchshäufigkeit des Wortes von zufälligen Faktoren ab, d.h., desto geringer ist die statistische Zuverlässigkeit der Beobachtung.
Wenn alle Forschungsfragen gestellt, alle Hypothesen formuliert, alle Korpora kompiliert und alle Daten von Proband*innen gesammelt wurden, befinden Sie sich auf einer der letzten Etappen Ihrer linguistischen Studie: der Analyse der Daten. In diesem Kapitel werden Sie einige Werkzeuge kennenlernen, die Sie dabei unterstützen können. Hier nehmen wir an, dass Sie in irgendeiner Form eine quantitative statistische Auswertung vornehmen möchten, denn für qualitative Analysen sind die Werkzeuge, die wir Ihnen vorstellen werden, weniger bis gar nicht geeignet.
Transkriptionswerkzeuge sind spezialisierte Softwaretools für die Transkription und Annotation von Audio- oder Videoaufzeichnungen gesprochener Sprache. Dieses Kapitel erklärt einleitend, worin der zusätzliche Nutzen solcher Werkzeuge gegenüber einfacher Textverarbeitungssoftware liegt, und gibt dann einen Überblick über grundlegende Prinzipien und einige weitverbreitete Tools dieser Art. Am Beispiel der Editoren FOLKER und OrthoNormal wird schließlich der praktische Einsatz zweier Werkzeuge in den Arbeitsabläufen eines Korpusprojekts illustriert.
Was darf die sprachwissenschaftliche Forschung? Juristische Fragen bei der Arbeit mit Sprachdaten
(2022)
Sich in der Linguistik mit rechtlichen Themen beschäftigen zu müssen, ist auf den ersten Blick überraschend. Da jedoch in den Sprachwissenschaften empirisch gearbeitet wird und Sprachdaten, insbesondere Texte und Ton- und Videoaufnahmen sowie Transkripte gesprochener Sprache, in den letzten Jahren auch verstärkt Sprachdaten internetbasierter Kommunikation, als Basis für die linguistische Forschung dienen, müssen rechtliche Rahmenbedingungen für jede Art von Datennutzung beachtet werden. Natürlich arbeiten auch andere Wissenschaften, wie z. B. die Astronomie oder die Meteorologie, empirisch. Jedoch gibt es einen grundsätzlichen Unterschied der empirischen Basis: Im Gegensatz zu Temperaturen, die gemessen, oder Konstellationen von Himmelskörpern, die beobachtet werden, basieren Sprachdaten auf schriftlichen, mündlichen oder gebärdeten Äußerungen von Menschen, wodurch sich juristisch begründete Beschränkungen ihrer Nutzung ergeben.
Sobald eine statistische Datenanalyse abgeschlossen ist, müssen in einem weiteren Schritt die Untersuchungsergebnisse aufbereitet und dargestellt werden. Hierzu gibt es verschiedene Möglichkeiten, die davon abhängig sind, welche Art von Analyse man durchgeführt hat. Aus diesem Grund ist der Beitrag gegliedert in die Aufbereitung von Ergebnissen für deskriptive, also beschreibende statistische Analysen (Abschnitt 2) und in die Ergebnisdarstellung von inferenzstatistischen (= schließenden) Auswertungen (Abschnitt 3). Wir gehen dabei auf die Aufbereitung der Daten in Tabellenform ein, werden an einem Beispiel zeigen, wie man die Ergebnisse von statistischen Tests berichtet und einige Visualisierungsmöglichkeiten vorstellen.