Refine
Document Type
- Other (18) (remove)
Keywords
- Korpus <Linguistik> (18) (remove)
Publicationstate
- Veröffentlichungsversion (18) (remove)
Reviewstate
- (Verlags)-Lektorat (6)
- Peer-Review (1)
- Review-Status-unbekannt (1)
Tagset und Richtlinie für das PoSTagging von Sprachdaten aus Genres internetbasierter Kommunikation
(2015)
Der Datensatz enthält 10.113 Korpusbelege für Konstruktionen, in denen ein Substantiv mit einem dass-Satz oder einem zu-Infinitiv auftritt (das Versprechen, dass man sich irgendwann wiedersieht vs. das Versprechen, sich irgendwann wiederzusehen).
Die Daten wurden erhoben aus:
1. dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II.
2. dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012).
Aus Platzgründen musste in der Druckfassung des Artikels „Beobachtungen zu Frequenz und Funktionen von ja in deutscher Spontansprache“ (in: Deutsche Sprache 50, S. 336–363; https://doi.org/10.37307/j.1868-775X.2022.04.04) auf den Abdruck der illustrierenden Abbildungen 2–18 im Abschnitt 5.2 verzichtet werden. Das entsprechende Kapitel inklusive aller Abbildungen ist hier abrufbar.
In der Korpuslinguistik und der Quantitativen Linguistik werden ganz verschiedenartige formale Maße verwendet, mit denen die Gebrauchshäufigkeit eines Wortes, eines Ausdrucks oder auch abstrakter oder komplexer sprachlicher Elemente in einem gegebenen Korpus gemessen und ggf. mit anderen Gebrauchshäufigkeiten verglichen werden kann. Im Folgenden soll für eine Auswahl dieser Maße (absolute Häufigkeit, relative Häufigkeit, Wahrscheinlichkeitsverteilung, Differenzenkoeffizient, Häufigkeitsklasse) zusammengefasst werden, wie sie definiert sind, welche Eigenschaften sie haben und unter welchen Bedingungen sie (sinnvoll) anwendbar und interpretierbar sind – dabei kann eine Rolle spielen, ob das Häufigkeitsmaß auf ein Korpus als Ganzes angewendet wird oder auf einzelne Teilkorpora. Zusätzlich zu den bei den einzelnen Häufigkeitsmaßen genannten Einschränkungen gilt generell der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt und je kleiner dieses Korpus ist, desto stärker hängt die beobachtete Gebrauchshäufigkeit des Wortes von zufälligen Faktoren ab, d.h., desto geringer ist die statistische Zuverlässigkeit der Beobachtung.
Der Datensatz enthält 409 Korpusbelege aus Nominalphrasen mit eingebetteten Genitivattributen, die wiederum ein eingebettetes Genitivattribut aufweisen (Petras Nachfolgers Beisein). Die Belege sind danach klassifiziert, ob die erste eingebettete Nominalphrase vor oder hinter dem Kopfnomen der Gesamtnominalphrase steht (Petras Nachfolgers Beisein vs. Beisein Petras Nachfolgers) und ob die erste eingebettete Nominalphrase neben einem Genitiv noch ein Adjektiv enthält (Beisein Petras direkten Nachfolgers). Für jeden Beleg werden zudem die Lemmas der drei Nomen in ihrer Einbettungsreihenfolge angegeben. Darüber hinaus sind Metadaten (Land, Jahr) enthalten.
Der Datensatz enthält die Gesamtheit der relevanten Belege aus dem KoGra-Untersuchungskorpus mit den im Folgenden aufgeführten Strukturen. Die Abfragen für die vier Strukturtypen führten zu 15.875 potenziellen Belegen, von denen sich bei manueller Durchsicht 409 als tatsächliche Nominalphrasen mit zweifach eingebetteten Genitivattributen erwiesen.
Der Datensatz dient der Untersuchung der Sonderfälle des Genitivattributs (Kopf 2021).
Der Datensatz enthält 16.604 Korpusbelege aus Nominalphrasen mit Genitiv- und von-Attributen (die Ideen zahlreicher Kinder, die Ideen von zahlreichen Kindern), wobei die Genitivattribute prä- oder postnominal erscheinen können (Mannheims Sehenswürdigkeiten, die Sehenswürdigkeiten Mannheims).
Für jeden Beleg sind Informationen zu Land, Dekade und Medium enthalten. Hinzu kommen Angaben zu Kopf- und/oder Attributslemma (z. B. Namentyp, Flexionsklasse), Gesamtphrase (z. B. Definitheit, Kasus) und Attributsphrase (z. B. Kasusdistinktion, Länge). Zahlreiche Sonderfälle sind ebenfalls annotiert (z. B. Genitiv bei nichtflektiertem Adjektiv wie Gebäck Mannheimer Bäckereien, Phrasen mit adjektivisch flektierendem Attributsnomen wie die Ideen Jugendlicher, die Ideen von Jugendlichen).
Olaf Scholz gendert. Eine Analyse von Personenbezeichnungen in Weihnachts- und Neujahrsansprachen
(2022)
Schlagzeilen wie die in unserer Überschrift blieben im Januar 2022 aus. Dabei enthielt die erste Neujahrsansprache von Olaf Scholz kein einziges generisches Maskulinum, sondern Doppelformen (Mitbürgerinnen und Mitbürger, Expertinnen und Experten), geschlechtsabstrahierende Ausdrücke (Eltern, Familien, Geimpfte, Menschen) und Personalisierungen bzw. Umschreibungen wie uns allen, es haben sich 60 Millionen […] impfen lassen, oder ich möchte allen danken. Die Rede nutzt somit durchgängig verschiedene Formen geschlechtergerechter Sprache, wohl aber so unauffällige Formen, dass dies keine mediale Aufmerksamkeit auf sich gezogen hat. Nebenbei: Dies zeigt, dass es bei den hitzigen öffentlichen Diskussionen rund um das Thema nicht um alle Formen geschlechtergerechter Sprache geht, sondern eigentlich nur um bestimmte Formen, wie z.B. die Verwendung des Gendersterns. Wir stellen hier einige Beobachtungen basierend auf einem annotierten Korpus von Ansprachen vor, die Sie selbst anhand einer Online-App nachvollziehen können.