Refine
Document Type
- Part of a Book (4)
- Other (2)
- Article (1)
- Doctoral Thesis (1)
- Preprint (1)
Has Fulltext
- yes (9)
Keywords
- Korpus <Linguistik> (9) (remove)
Publicationstate
- Veröffentlichungsversion (9) (remove)
Reviewstate
Publisher
Fragen der Verdatung sind Bestandteil der digitalen Diskursanalyse und keine Vorarbeiten. Die Analyse digital(isiert)er Diskurse setzt im Unterschied zur Auswertung nicht-digital repräsentierter Sprache und Kommunikation notwendig technische Verfahren und Praktiken, Algorithmen und Software voraus, die den Untersuchungsgegenstand als digitales Datum konstituieren. Die nachfolgenden Abschnitte beschreiben kurz und knapp wiederkehrende Aspekte dieser Verdatungstechniken und -praktiken, insbesondere mit Blick auf Erhebung und Transformation (Abschnitt 2), Korpuskompilierung (Abschnitt 3), Annotation (Abschnitt 4) und Wege der analytischen Datenerschließung (Abschnitt 5). Im Fazit wird die Relevanz der Verdatungsarbeit für den Analyseprozess zusammengefasst (6).
Less than one percent of words would be affected by gender-inclusive language in German press texts
(2024)
Research on gender and language is tightly knitted to social debates on gender equality and non-discriminatory language use. Psycholinguistic scholars have made significant contributions in this field. However, corpus-based studies that investigate these matters within the context of language use are still rare. In our study, we address the question of how much textual material would actually have to be changed if non-gender-inclusive texts were rewritten to be gender-inclusive. This quantitative measure is an important empirical insight, as a recurring argument against the use of gender-inclusive German is that it supposedly makes written texts too long and complicated. It is also argued that gender-inclusive language has negative effects on language learners. However, such effects are only likely if gender-inclusive texts are very different from those that are not gender-inclusive. In our corpus-linguistic study, we manually annotated German press texts to identify the parts that would have to be changed. Our results show that, on average, less than 1% of all tokens would be affected by gender-inclusive language. This small proportion calls into question whether gender-inclusive German presents a substantial barrier to understanding and learning the language, particularly when we take into account the potential complexities of interpreting masculine generics.
Dictionaries are often a reflection of their time; their respective (socio-)historical context influences how the meaning of certain lexical units is described. This also applies to descriptions of personal terms such as man or woman. Lexicographers have a special responsibility to comprehensively investigate current language use before describing it in the dictionary. Accordingly, contemporary academic dictionaries are usually corpus-based. However, it is important to acknowledge that language is always embedded in cultural contexts. Our case study investigates differences in the linguistic contexts of the use of man and woman, drawing from a range of language collections (in our case fiction books, popular magazines and newspapers). We explain how potential differences in corpus construction would therefore influence the “reality”1 depicted in the dictionary. In doing so, we address the far-reaching consequences that the choice of corpus-linguistic basis for an empirical dictionary has on semantic descriptions in dictionary entries.
Furthermore, we situate the case study within the context of gender-linguistic issues and discuss how lexicographic teams can engage with how dictionaries might perpetuate traditional role concepts when describing language use.
Dictionaries are often a reflection of their time; their respective (socio-)historical context influences how the meaning of certain lexical units is described. This also applies to descriptions of personal terms such as man or woman. Lexicographers have a special responsibility to comprehensively investigate current language use before describing it in the dictionary. Accordingly, contemporary academic dictionaries are usually corpus-based. However, it is important to acknowledge that language is always embedded in cultural contexts. Our case study investigates differences in the linguistic contexts of the use of man and woman, drawing from a range of language collections (in our case fiction books, popular magazines and newspapers). We explain how potential differences in corpus construction would therefore influence the “reality” depicted in the dictionary. In doing so, we address the far-reaching consequences that the choice of corpus-linguistic basis for an empirical dictionary has on semantic descriptions in dictionary entries.Furthermore, we situate the case study within the context of gender-linguistic issues and discuss how lexicographic teams can engage with how dictionaries might perpetuate traditional role concepts when describing language use.
Olaf Scholz gendert. Eine Analyse von Personenbezeichnungen in Weihnachts- und Neujahrsansprachen
(2022)
Schlagzeilen wie die in unserer Überschrift blieben im Januar 2022 aus. Dabei enthielt die erste Neujahrsansprache von Olaf Scholz kein einziges generisches Maskulinum, sondern Doppelformen (Mitbürgerinnen und Mitbürger, Expertinnen und Experten), geschlechtsabstrahierende Ausdrücke (Eltern, Familien, Geimpfte, Menschen) und Personalisierungen bzw. Umschreibungen wie uns allen, es haben sich 60 Millionen […] impfen lassen, oder ich möchte allen danken. Die Rede nutzt somit durchgängig verschiedene Formen geschlechtergerechter Sprache, wohl aber so unauffällige Formen, dass dies keine mediale Aufmerksamkeit auf sich gezogen hat. Nebenbei: Dies zeigt, dass es bei den hitzigen öffentlichen Diskussionen rund um das Thema nicht um alle Formen geschlechtergerechter Sprache geht, sondern eigentlich nur um bestimmte Formen, wie z.B. die Verwendung des Gendersterns. Wir stellen hier einige Beobachtungen basierend auf einem annotierten Korpus von Ansprachen vor, die Sie selbst anhand einer Online-App nachvollziehen können.
Der CorpusExplorer v2.0 ist eine frei verfügbare Software zur korpushermeneutischen Analyse und bietet über 45 unterschiedliche Analysen/Visualisierungen für eigenes Korpusmaterial an. Dieser Praxisbericht gibt Einblicke, zeigt Fallstricke auf und bietet Lösungen an, um die tägliche Visualisierungsarbeit zu erleichtern. Zunächst wird ein kurzer Einblick in die Ideen gegeben, die zur Entwicklung des CorpusExplorers führten, einer korpuslinguistischen Software, die nicht nur vielfältige Forschungsansätze unterstützt, sondern auch mit einem Fokus auf die universitäre Lehre entwickelt wird. Der Mittelteil behandelt einen der vielen Fallstricke, die im Entwicklungsprozess auftraten: Effizienz-/Anpassungsprobleme – bzw.: Was passiert, wenn Visualisierungen an neue Begebenheiten angepasst werden müssen? Da diese Lösung Teil des CorpusExplorers v2.0 ist, wird abschließend darauf eingegangen, wie unterschiedliche Visualisierungen zu denselben Datensätzen sich auf die Rezeption/Interpretation von Daten auswirken.
Korpus
(2021)
In den Sprach- als auch Literaturwissenschaften versteht man unter Korpora (Plur. Korpora, die / Sing. Korpus, das) ganz allgemein Textsammlungen. Nach Lemnitzer und Zinsmeister (2010, S. 40) ist ein Korpus: „[…] eine Sammlung [authentischer] schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen“. Die Zusammenstellung erfolgt nach verschiedenen wissenschaftlichen Kriterien, die sich am zu untersuchenden Gegenstand orientieren (Bsp. 1: Soll strategische Kommunikation in politischen Reden analysiert werden, so wird ein Korpus aus ‚Politischen Reden‘ zusammengestellt, die strategisch/kommunikative Praktiken enthalten – Bsp. 2: Für die Analyse von Modalpartikeln im Fremdsprachenerwerb wird ein Korpus aus transkribierten Redebeiträgen verschiedener Erwerbsstufen benötigt). Prinzipiell kann ein Korpus auch analog (gedruckt) vorliegen und manuell ausgewertet werden – In der empirischen Linguistik ist ein Korpus aber i. d. R. immer ein digitales (maschinenlesbares) Korpus, das automatisiert (mittels Software) ausgewertet wird.
Ziel dieser Arbeit war es, eine Software zu entwickeln, die quantitative und qualitative korpuslinguistische Methoden miteinander verbindet. Die Gesamtarbeit besteht daher aus zwei Teilen: einer Open-Source-Software und dem schriftlichen Teil. Der hier vorgelegte schriftliche Teil ist eine vollständige Dokumentation (Handbuch), ergänzt um eigene Publikationen, die im Rahmen des Dissertationsprojekts entstanden. In Kapitel 1.2 Korpora und beispielhafte Fragestellungen (S. 8) erfolgt eine Illustration beispielhafter Forschungsfragen anhand bereitgestellter und im Corpus- Explorer integrierter Korpora. Außerdem werden unter "?? ?? (S. ??)" Analysen mit verschiedensten prototypischen Forschungsfragen verknüpft, die sowohl quantitative als auch qualitative Perspektiven einnehmen. Der CorpusExplorer wurde besonders nutzerfreundlich gestaltet. Dabei ist die Zielgruppe der Software sehr breit defniert: Die Nutzung soll sowohl in der Forschung als auch in der Lehre möglich sein. Daher richtet sich der CorpusExplorer gleichermaßen an Studierende und Forschende mit ihren jeweils spezifschen Bedürfnissen. Die Nutzung für die Forschung zeigt sich (A) an den integrierten Artikeln sowie daran, dass (B) andere Forschende den CorpusExplorer bereits für ihre Arbeit aufgegriffen haben. Der Nutzen für die Lehre wurde mehrfach selbst erprobt und optimiert. Im Lehr-Einsatz ist es wichtig, dass Korpora mit wenigen Mausklicks analysefertig sind und verschiedene Analysen und Visualisierungen direkt genutzt werden können. Studierende erhalten so die Möglichkeit, eigenes Korpusmaterial direkt und selbst auszuwerten. Für Forschende bietet der CorpusExplorer ein sehr breites Funktionsspektrum. Im Vergleich zu anderer (öffentlich verfügbarer) korpuslinguistischer Software verfügt er aktuell über das wohl breiteste Anwendungsspektrum (51 Analysemodule (inkl. weiterentwickelter Verfahren), über 100 unterstützte Dateiformate für Im- und Export, unterschiedliche Tagger mit 69 unterstützten Sprachmodellen). Er kann so in bestehende Skripte, Toolchains und Workflows für sehr unterschiedliche Forschungsfragen integriert werden. Im CorpusExplorer wurden nicht nur bestehende Funktionen gebündelt, es wurden auch bisherige Verfahren weiterentwickelt. Hierzu zählen z. B. (1) die Entwicklung einer eigenen, an korpuslinguistischen Bedürfnissen ausgerichteten Datenbank- Struktur, (2) die Weiterentwicklung bzw. Optimierung des Verfahrens der Kookkurrenz- Analyse hin zu einer quantitativen Kookkurrenz-Analyse (keine Parameter wie Suchfenstergröße oder Suchwort nötig, Berechnung aller Kookkurrenzen zu allen Token in einem Korpus) und (3) die Verknüpfung unterschiedlicher Analyseressourcen, wie z. B. der NGram- und der Kookkurrenz-Analyse.
Dieser Werkstattbericht zeigt anhand verschiedener korpusbasierter Ressourcen, wie Fragen zu sprachlichen Phänomenen, die für Sprachlernende nicht oder nur unzureichend dokumentiert sind, empirisch beantwortet werden können. Besonderes Augenmerk wird dabei auf OWIDplusLIVE gelegt. Hierbei handelt es sich um ein Werkzeug zur tagesaktuellen Analyse von Token (einzelne Wortformen/Lemmata) und Bi-/Trigrammen (zwei bzw. drei direkt aufeinander folgende Token). Über eine Anbindung an KorAP können zudem Belege aus dem DeReKo (Deutsches Referenzkorpus) abgerufen und analysiert werden.