Refine
Document Type
- Part of a Book (7)
- Article (1)
- Book (1)
- Other (1)
Language
- German (10)
Is part of the Bibliography
- yes (10) (remove)
Keywords
- Korpus <Linguistik> (7)
- Visual Linguistics (4)
- Visualisierung (4)
- Deutsch (3)
- Linguistische Informationswissenschaft (3)
- Diskursanalyse (2)
- Sprachdaten (2)
- Sprachstatistik (2)
- Akteure (1)
- Algorithmus (1)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (8)
- Peer-Review (1)
Publisher
- Heidelberg University Publishing (4)
- De Gruyter (2)
- Institut für Deutsche Sprache (1)
- Stauffenburg (1)
- de Gruyter (1)
Einleitung
(2018)
The variation of the strong genitive marker of the singular noun has been treated by diverse accounts. Still there is a consensus that it is to a large extent systematic but can be approached appropriately only if many heterogeneous factors are taken into account. Over thirty variables influencing this variation have been proposed. However, it is actually unclear how effective they can be, and above all, how they interact. In this paper, the potential influencing variables are evaluated statistically in a machine learning approach and modelled in decision trees in order to predict the genitive marking variants. Working with decision trees based exclusively on statistically significant data enables us to determine what combination of factors is decisive in the choice of a marking variant of a given noun. Consequently the variation factors can be assessed with respect to their explanatory power for corpus data and put in a hierarchized order.
Visualisierungen spielen in den Wissenschaften eine wichtige Rolle im Forschungsprozess. Sie dienen der Illustration von gewonnener Erkenntnis, aber auch als eigenständiges Mittel der Erkenntnisgewinnung. Auch in der Linguistik sind solche Visualisierungen bedeutend. Beispielsweise in Form von Karten, Baumgraphen und Begriffsnetzen. Bei korpuslinguistischen Methoden sind explorative Visualisierungen oft ein wichtiges Mittel, um die Daten überblickbar und interpretierbar zu machen. Das Buch reflektiert die theoretischen Grundlagen wissenschaftlicher Visualisierungen in der Linguistik, zeigt Praxisbeispiele und stellt auch Visualisierungswerkzeuge vor.
Kultur ist nicht nur zu einem Schlüsselbegriff der Geisteswissenschaften geworden, sondern wird auch entterminologisiert als Alltagsbegriff benutzt. In diesem Beitrag wird untersucht, wie der Ausdruck Kultur (einschließlich Derivationen und Komposita) in der mündlichen Interaktion verwendet wird. Auf Basis von 82 Instanzen im Korpus FOLK des IDS Mannheim wurde festgestellt, dass der Ausdruck von SprecherInnen in zumeist semiformellen bis formellen Interaktionstypen benutzt wird. Es findet sich ein breites Spektrum unterschiedlicher, teils ineinander übergehender Bedeutungen, welches dem der wissenschaftlichen Literatur der Kulturtheorie ähnlich ist. Dabei lassen sich jeweils relevante Kernbedeutungen identifizieren, mit denen mehr oder weniger vage assoziierte Bedeutungen verbunden sind. Kultur zeigt sich als kontroverser Begriff: Die Referenz von Kultur, die Wertung und seine Relevanz als Erklärungsressource sind häufig umstritten.
Die ansprechende und geeignete Visualisierung linguistischer Daten gewinnt analog zum steigenden Einfluss quantitativer Methoden in der Linguistik immer mehr an Bedeutung. R ist eine flexible und freie Entwicklungsumgebung zur Umsetzung von statistischen Analysen, die zahlreiche Optionen zur Datenvisualisierung bereithält und sehr gut für große Datensätze geeignet ist. Statistische Analysen und Visualisierungen von Daten werden auf diese Weise in einer Umgebung verzahnt. Durch die zahlreichen Zusatzpakete stehen auch weiterhin zeitgemäße Methoden zur Verfügung, um (linguistische) Daten zu analysieren und darzustellen.
Der Beitrag vermittelt einen stark anwendungsorientierten Einstieg in das Programm und legt mithilfe von vielen praktischen Übungen und Anwendungsbeispielen die Grundlagen für ein eigenständiges Weiterentwickeln der individuellen Fähigkeiten im Umgang mit der Software. Neben einer kurzen, eher theoretisch angelegten Einleitung zu explorativen und explanatorischen Visualisierungsstrategien von Daten werden verschiedene Pakete vorgestellt, die für die Visualisierung in R benutzt werden können.
Sehr große Korpora – wie das Deutsche Referenzkorpus DeReKo – bieten eine breite Basis für die empirische Forschung. Sie bringen aber auch Herausforderungen mit sich, da sich weder Eigenschaften ihrer Zusammensetzung noch derer von Recherche- und Analyseergebnissen mit einfachen Mitteln erschließen lassen. Dafür bedarf es Verfahren geschickter Sortierung, Gruppierung oder des Clusterings, kurzum: strukturentdeckender Methoden. In Kombination mit Visualisierungstechniken kann so die Wahrnehmung bestimmter Eigenschaften und Zusammenhänge unterstützt und die Aufmerksamkeit auf bestimmte Phänomene, ggf. in Anlehnung an präferenzrelationale Befunde, gelenkt werden. Neben der illustrativen Funktion geht es in diesem Beitrag vor allem um das erkenntnisleitende Potenzial derartiger Verfahren in Kombination. Aus verschiedenen Bereichen werden Beispiele gezeigt, die am IDS oder in Kooperationen zum Einsatz kommen, sowohl zur dokumentarischen und reflexiven Kontrolle von Eigenschaften der Korpuszusammensetzung als auch hinsichtlich korpusanalytischer Methodik, um die qualitative Interpretation von Analysebefunden und die Abduktion von Hypothesen stimulierend zu unterstützen.
ln einer korpuspragmatischen Sicht auf Sprachgebrauch werden sogenannte Sprachgebrauchsmuster, die typisch für bestimmte Sprachausschnitte sind, datengeleitet berechnet. Solche Sprachgebrauchsmuster können z.B. diskursanalytisch gedeutet werden; noch relativ unerforscht ist aber ein konstruktionsgrammatischer Blick auf solche Muster. An zwei Beispielen wird gezeigt, wie mit der Berechnung von typischen n-Grammen (auf der Basis von Wortformen, sowie komplexer auf der Basis von Wortformen und Wortartkategorien) Sprachgebrauchsmuster berechnet werden können: Beim ersten Beispiel werden typische Formulierungsmuster in Leserbriefen, beim zweiten Beispiel aus einem politischen Diskurs (Wulff-Affäre), untersucht. Der Beitrag zielt in der Folge darauf ab, diese Muster dem usage-based-approach der KxG folgend als Konstruktionen zu deuten, die soziopragmatischen Verwendungsbedingungen gehorchen.
Fragen der Verdatung sind Bestandteil der digitalen Diskursanalyse und keine Vorarbeiten. Die Analyse digital(isiert)er Diskurse setzt im Unterschied zur Auswertung nicht-digital repräsentierter Sprache und Kommunikation notwendig technische Verfahren und Praktiken, Algorithmen und Software voraus, die den Untersuchungsgegenstand als digitales Datum konstituieren. Die nachfolgenden Abschnitte beschreiben kurz und knapp wiederkehrende Aspekte dieser Verdatungstechniken und -praktiken, insbesondere mit Blick auf Erhebung und Transformation (Abschnitt 2), Korpuskompilierung (Abschnitt 3), Annotation (Abschnitt 4) und Wege der analytischen Datenerschließung (Abschnitt 5). Im Fazit wird die Relevanz der Verdatungsarbeit für den Analyseprozess zusammengefasst (6).