400 Sprache, Linguistik
Refine
Document Type
- Article (2)
Has Fulltext
- yes (2)
Keywords
- Komplexität (2) (remove)
Publicationstate
Reviewstate
- Peer-Review (2)
Publisher
- Franz Steiner (1)
- Springer Nature (1)
One of the fundamental questions about human language is whether all languages are equally complex. Here, we approach this question from an information-theoretic perspective. We present a large scale quantitative cross-linguistic analysis of written language by training a language model on more than 6500 different documents as represented in 41 multilingual text collections consisting of ~ 3.5 billion words or ~ 9.0 billion characters and covering 2069 different languages that are spoken as a native language by more than 90% of the world population. We statistically infer the entropy of each language model as an index of what we call average prediction complexity. We compare complexity rankings across corpora and show that a language that tends to be more complex than another language in one corpus also tends to be more complex in another corpus. In addition, we show that speaker population size predicts entropy. We argue that both results constitute evidence against the equi-complexity hypothesis from an information-theoretic perspective.
Dieser Aufsatz diskutiert die Frage, inwieweit Unserdeutsch sich aus soziohistorischer und sprachstruktureller Perspektive in die Kategorie Kreolsprache einfügt. Als tertium comparationis dienen dabei Merkmale, die in der einschlägigen Literatur prominent als charakteristisch für Kreolsprachen angenommen werden. Es zeigt sich, dass Unserdeutsch trotz einer Reihe atypischer Entstehungsumstände, die auf den ersten Blick eine große strukturelle Nähe zum deutschen Superstrat, damit ein relativ akrolektales Kreol erwarten ließen, verhältnismäßig gut mit dem Muster eines Average Creole, wie es sich etwa aufgrund der Daten des „Atlas of Pidgin and Creole Language Structures“ (Michaelis et al. 2013) abzeichnet, harmoniert. Eine mögliche Erklärung findet diese augenfällige Diskrepanz in der primären Funktion von Unserdeutsch als Identitätsmarker und der linguistischen Struktur seiner Substratsprache Tok Pisin.