Refine
Year of publication
Document Type
- Part of a Book (316)
- Book (157)
- Article (4)
- Conference Proceeding (4)
- Doctoral Thesis (1)
- Other (1)
Keywords
- Deutsch (306)
- Korpus <Linguistik> (47)
- Grammatik (38)
- Konversationsanalyse (38)
- Wortbildung (32)
- Wörterbuch (29)
- Lexikographie (22)
- Interaktion (19)
- Semantik (19)
- Gesprochene Sprache (17)
Publicationstate
- Veröffentlichungsversion (206)
- Zweitveröffentlichung (83)
- Erstveröffentlichung (2)
- Postprint (2)
- Verlags-Lektorat (1)
Reviewstate
- (Verlags)-Lektorat (279)
- Verlags-Lektorat (14)
- Zweitveröffentlichung (3)
- (Verlags-) Lektorat (1)
- (Verlags-)Lektorat (1)
- Peer-Review (1)
- Veröffentlichungsversion (1)
Publisher
- Narr (484) (remove)
Einleitung
(2023)
Neue Entwicklungen in der Korpuslandschaft der Germanistik. Beiträge zur IDS-Methodenmesse 2022
(2023)
Die in diesem Band versammelten Beiträge zur Methodenmesse der Jahrestagung 2022 des Leibniz-Instituts für Deutsche Sprache geben einen Überblick über die aktuelle Korpuslandschaft in der germanistischen Linguistik: von historischen Sammlungen authentischer Sprachdaten über aktuelle Zeitungs- und Social-Media-Korpora, Gesprächskorpora, Korpora aus Texten von Deutschlernenden bis hin zu einem Korpus mit Texten leichter Sprache und einem Gebärdensprachekorpus. Die Beiträge erläutern jeweils die Designkriterien sowie die Methodik der Datenerhebung und geben einen Einblick, wie die Daten sprachwissenschaftlich verwendet werden können.
This article details the process of creating the Nottinghamer Korpus deutscher YouTube-Sprache ('The Nottingham German YouTube Language Corpus' - or NottDeuYTSch corpus) and outlines potential research opportunities. The corpus was compiled to analyse the online language produced by young German-speakers and offers significant opportunity for in-depth research across several linguistic fields including lexis, morphology, syntax, orthography, and conversational and discursive analysis. The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, German-speaking demographic and represent an authentic language snapshot of young German speakers. The corpus was proportionally sampled based on video category and year from a database of 112 popular German-speaking YouTube channels in the DACH region for optimal representativeness and balance and contains a considerable amount of associated metadata for each comment that enable further longitudinal cross-sectional analyses. The NottDeuYTSch corpus is available for analysis as part of the German Reference Corpus (DeReKo).
Einleitung
(2023)
Dieser Beitrag beschreibt die Prozesse der Datenerhebung, -aufbereitung und geplanten Veröffentlichung eines Teilkorpus des vom österreichischen Wissenschaftsfonds (FWF) finanzierten Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation – Kontakt – Perzeption“ (FWF F060). Die Daten werden v. a. aus variationslinguistischer, kontaktlinguistischer wie auch perzeptionslinguistischer Perspektive analysiert, wofür eigene Tools entwickelt wurden, die – ebenso wie das Korpus selbst – mittelfristig der interessierten Öffentlichkeit zur Verfügung gestellt werden.
Das Austrian Media Corpus (amc) ist mit derzeit rund 11 Mrd. Token eines der größten deutschsprachigen Korpora journalistischer Prosa. Es bietet damit weitreichende Analysemöglichkeiten für eine Vielzahl sprachwissenschaftlicher Aspekte, wie z. B. die Analyse grammatischer, orthographischer und lexikalischer Variation oder die Erforschung diskurslinguistischer wie attitudinal-perzeptiver Fragestellungen. In diesem Beitrag geben wir Einblicke in Beispielanalysen zu Standard(schrift)sprache auf Basis des amc sowie deren Bedeutung für die Erforschung von Sprachvariation in Österreich, um das enorme Potenzial des Korpus für sprachwissenschaftliche Fragestellungen zu illustrieren.
In diesem Beitrag wird anhand von per Telefon gedolmetschten Gesprächen zwischen einer deutschsprechenden Asylverfahrensberaterin und arabischsprechenden KlientInnen die Notwendigkeit eines reflektierten computergestützten Transkriptionsverfahrens für interaktionsbezogene Untersuchungen diskutiert. Gesprächstranskription erfordert die Verwendung eines romanisierten, rechtsläufigen Schriftsystems für die schriftliche und grafische Darstellung der zeitlichen Dimensionen, d. h. die Synchronizität, Simultaneität und Reziprozität des sprachlichen Handelns. Durch die Entwicklung einer transparenten Systematik zur Romanisierung und Übersetzung von Gesprächsdaten wird ihre Opazität sowohl für LeserInnen ohne Arabischkenntnisse als auch für Sprachkundige ohne Kenntnisse über die rekonstruierten Varietäten reduziert und ansatzweise eine Lesbarkeit auch für Nicht-Sprachkundige geschaffen. Dies ist für die Datenkuratierung und etwaige Nachnutzungen von besonderer Bedeutung.
Seit der Forschung große Datenmengen und Rechenkapazitäten zur Verfügung stehen arbeitet auch die Sprachwissenschaft zunehmend datengeleitet. Datengeleitete Forschung geht nicht von einer Hypothese aus, sondern sucht nach statistischen Auffälligkeiten in den Daten. Sprache wird dabei oft stark vereinfacht als lineare Abfolge von Wörtern betrachtet. Diese Studie zeigt erstmals, wie der zusätzliche Einbezug syntaktischer Annotationen dabei hilft, sprachliche Strukturen des Deutschen besser zu erfassen.
Als Anwendungsbeispiel dient der Vergleich der Wissenschaftssprachen von Linguistik und Literaturwissenschaft. Die beiden Fächer werden oft als Teildisziplinen der Germanistik zusammengefasst. Ihre wissenschaftliche Praxis unterscheidet sich jedoch systematisch hinsichtlich Forschungsdaten, Methoden und Erkenntnisinteressen, was sich auch in den Wissenschaftssprachen niederschlägt.
Die Arbeiten in diesem Band zeigen anhand ausgewählter morphosyntaktischer Phänomene exemplarisch auf, wie ein korpuslinguistischer Zugang genutzt werden kann, um die Vielfalt und Variabilität des Sprachgebrauchs in einer größeren Detailschärfe zu beschreiben, als dies bisher möglich war. Ausgangspunkt ist die Überlegung, dass sprachliche Variation als integraler Bestandteil der (Standard-)Sprache anzusehen ist und somit auch deskriptiv erfasst werden muss. Dabeigeht es zunächst um eine möglichst genaue Beschreibung der Verteilung und Häufigkeit verschiedener Ausprägungen ausgewählter Variablen. Eine umfassende Beschreibung eines Variationsphänomens beinhaltet zudem die Ermittlung und Gewichtung der Faktoren, die die Distribution der Variantensteuern. In diesem Zusammenhang werden Hypothesen aus der einschlägigen Forschungsliteratur unter Verwendung moderner statistischer Verfahren überprüft. Darüber hinaus enthalten die vorliegenden Studien eine explorative Komponente, die sich mit der Aufdeckung neuer Muster, Regularitäten und linguistischer Zusammenhänge befasst. Dabei werden verschiedene korpuslinguistische und statistische Ansätze und Verfahren erprobt und evaluiert.
Variation im Sprachgebrauch - 'angenommen' und 'vorausgesetzt' als einbettende Prädikatsausdrücke
(2019)
Einleitung
(2019)
Relativpronomenselektion und grammatische Variation: 'was' vs. 'das' in attributiven Relativsätzen
(2019)
Das Wort
(2018)
Die kompetente Verwendung von Wörtern im Kontext einer Sprache stellt ein hochspezialisiertes Fähigkeitssystem dar, das wir unbewusst beherrschen. Ebenso verfügen wir über eine implizite Kenntnis der Regeln, die den inneren Aufbau von Wörtern bestimmen. Der unbewusste Charakter sprachlichen Wissens erschwert jedoch dessen Vermittlung in Schule und Universität. Der vorliegende Überblick über wesentliche morphologische Phänomene des Deutschen sowie einschlägige grammatische Begriffe und Analysemethoden berücksichtigt dieses Problem des Grammatikunterrichts und begegnet ihm mit einer Synthese von sprachwissenschaftlicher und sprachdidaktischer Perspektive.
Verstehen und Motivieren: semantische Fluchtpunkte deutscher und italienischer Lexeme mit -log-
(2017)
Schriften
(2017)
Juristische Texte sind schwer zu verstehen, insbesondere – aber nicht nur – für juristische Laien. Dieser Band beleuchtet diese These ausgehend von linguistischen Verständlichkeitsmodellen und kognitionswissenschaftlichen Modellen der menschlichen Textverarbeitung. Anhand von Aufzeichnungen von Blickbewegungen beim Lesen, einem sogenannten Lesekorpus, werden umfangreiche statistische Modelle berechnet. Diese geben Auskunft über Fragen psycholinguistischer Grundlagenforschung auf der Wort-, Satz- und Textebene. Ferner wird untersucht, wie sich Reformulierungen auf den Verstehensprozess auswirken. Dabei stehen bekannte Komplexitätsmarker deutscher juristischer Texte im Fokus: Nominalisierungen, komplexe Nominalphrasen und syntaktisch komplexe Texte.
Was macht Stickel?
(2017)
Es muss Ende der 1980er/Anfang der 1990er Jahre gewesen sein, dass Gerhard Stickel seiner Umgebung erklärt hat, ein Projekt sei per definitionem etwas, das ein Ende hat. Damals begann das Denken in Projekten und ihren zeitlichen Limitierungen die sprachwissenschaftliche Forschung zu dominieren. Heute nun wollen wir beweisen, dass Projekte ihr Ende überleben können. Dies gilt insbesondere für das deutsch-litauisch-lettisch-estnische Projekt KoGloss (Kollaboratives korpusbasiertes Konstruktions-Glossar), das von Januar 2011 bis Dezember 2012 von der EU im Programm Lifelong Learning gefördert wurde. Gerhard Stickel hat es als Experte begleitet. Das Weiterleben des Projekts über sein Finanzierungsende hinaus wird in diesem Beitrag beschrieben.
Begegnungen mit neuen Wörtern: Zu lexikografischen Praktiken im Neologismenwörterbuch des IDS
(2017)
Loblied auf Gerhard Stickel
(2017)
Vorwort
(2017)
Die Beschreibung und Modellierung grammatischer Variation, d.h. von Instanzen, in denen eine Funktion oder Bedeutung durch mehrere, miteinander konkurrierende Formtypen ausgedrückt werden kann, stellt eine Herausforderung sowohl für Grammatikografie als auch Grammatiktheorie dar. Die vorliegende Doppelstudie zur starken Genitivflexion und ihrem Wegfall entwickelt neue korpusorientierte Zugänge zu dieser Problematik. Quantitative und inferenzstatistische Methoden ermöglichen nicht nur eine detaillierte und empirisch fundierte Beschreibung der Distribution der einschlägigen Markierungsvarianten (-s, -es, -ens, -Ø, Apostroph). Sie sind auch das geeignete Rüstzeug, die Hypothesen der bisherigen Forschung zu evaluieren und die sehr zahlreichen sprachlichen und außersprachlichen Einflussfaktoren präzise zu hierarchisieren, um einem konsistenten Gesamtmodell der Variation in diesem Teilbereich der Grammatik näher zu kommen.
In dem Beitrag stellt der Autor dar, welchen Einfluss die personale emotionale Identität auf die Kommunikation von Emotionen in der Interaktion hat (Abschnitt 5). Hierzu erläutert er zunächst, was er unter emotionaler Identität versteht (Abschnitt 2), um dann sein Verständnis von Erleben und Emotionen zu explizieren (Abschnitt 3) und Modellvorstellungen zur Kommunikation von Emotionen darzulegen (Abschnitt 4), die erforderlich sind, um den Einfluss der emotionalen Identität zu beschreiben.
Lexikalisch-semantische Graduonymie. Eine empirisch basierte Arbeit zur lexikalischen Semantik
(2016)
Diese Arbeit befasst sich mit der Problematik gradueller Bedeutungsbeziehungen in der Sprache. Sie verfolgt das Ziel, die aufgrund der graduellen Opposition in Paradigmen formierten Wörter als eigenständigen Relationstyp der lexikalischen Semantik zu unterscheiden, ihn theoretisch herauszuarbeiten und empirisch zu fundieren. Diese Relation wird analog der terminologischen Tradition der "-nymie"-Relationen als Graduonymie bezeichnet. Mit verschiedenen empirischen Methoden wie der webbasierten Sprecherbefragung, Korpusanalysen, systematischen Tests und Kontrastierung mit dem Usbekischen werden die Validität und Stabilität der Daten überprüft und somit Erkenntnisse zum Phänomen der Graduonymie gewonnen. Dies bildet den Kernpunkt der Untersuchung. Dabei werden unterschiedliche Aspekte der Graduonymie betrachtet und analysiert. Der Vergleich der Methoden eröffnet neue Perspektiven auf die semantischen Relationen, die Vorgehensweise hat sich methodisch als erfolgreich erwiesen. Die Ergebnisse der Arbeit erbringen interessante Einsichten nicht nur in den Phänomenbereich der Graduonymie, sondern ergänzen den aktuellen Stand der lexikalischen Semantik sowohl in theoretischer Hinsicht als auch durch die methodenpluralistische Behandlung semantischer Relationen.
Vorwort
(2016)
Einleitung
(2015)
KonfeThe volume contains 23 papers read at the international conference “Historical Corpora 2012”, which was hosted by the LOEWE Research Cluster “Digital Humanities” of the State of Hesse at the University of Frankfurt on December 6-8, 2012. All in all, the conference comprised 27 individual papers plus five keynote speeches, three of which have been integrated in the present volume, too.
The contributions, which have been duly updated, take a broad variety of perspectives on “historical corpora”, including their structuring, their management, and various facets of the increase of knowledge they can provide. In addition to this, the papers cover a large amount of different languages, German – in nearly all its historical facettes – being the most widely addressed; however, the range of vernaculars treated extends far beyond that, across the Romance languages into the Caucasus and from the recent past down into antiquity. Differences also concern the linguistic interests prevailing in the papers, which may focus on syntactic, semantic, pragmatic, lexicological or other phenomena.
Wenn sich ein Partizip II in Bedeutung und Gebrauch verselbstständigt, dann sprechen Linguisten von einer Lexikalisierung. Es entsteht ein Pseudo-Partizip, das nicht mehr als Verbform identifiziert werden kann. Doch wie systematisch lassen sich Partizipien erfassen, deren Verhalten teilweise auf Lexikalisierung schließen lässt, die aber zugleich eine transparente verbale Basis im Gegenwartsdeutschen aufzuweisen scheinen?
Dieser Band beschreibt Partizipien II von Experiencer-Objekt-Verben wie verwirrt, frustriert oder begeistert auf Grundlage ihrer besonderen Semantik und analysiert den Gebrauch von 21 ausgewählten Exemplaren mit korpuslinguistischen Mitteln sowohl qualitativ als auch quantitativ. Im Mittelpunkt stehen die Verwendungen in Kombination mit den Kopula- oder Passivhilfsverben sein und werden sowie mit dem Kausativverb machen, in denen die Partizipialformen in verbalem und/oder adjektivischem Gebrauch vorliegen. Dabei ergeben sich einige bemerkenswerte Ergebnisse und bisher nicht wahrgenommene Korrelationen.
The relative order of dative and accusative objects in older German is less free than it is today. The reason for this could be that speakers of the direct predecessor of Old High German organized the referents according to the Thematic Hierarchy. If one applies a Case Hierarchy Nom>Acc>Dat to this, the order Nom - Dat - Acc falls out. It becomes apparent that the status of the Thematic Hierarchy is not a factor governing underlying word order, but a factor inducing scrambling. Arguments from binding theory, whose validity is discussed, indicate that the underlying order is ‘accusative before dative’
Multi-faceted alignment. Toward automatic detection of textual similarity in Gospel-derived texts
(2015)
Ancient Germanic Bible-derived texts stand in as test material for producing computational means for automatically determining where textual contamination and linguistic interference have influenced the translation process. This paper reports on the results of research efforts that produced a text corpus; a method for decomposing the texts involved into smaller, more directly comparable thematically-related chunks; a database of relationships between these chunks; and a user-interface allowing for searches based on various referential criteria. Finally, the state of the product at the end of the project is discussed, namely as it was handed over to another researcher who has extended it to automatically find semantic and syntactic similarities within comparable chunks.
In this paper we present some preliminary considerations concerning the possibility of automatic parsing an annotated corpus for N-N compounds. This should in prin- ciple be possible at least for relational and stereotype compounds, if the lemmatization of the corpus connects the lemmata with lexical entries as described in Höhle (1982). These lexical entries then supply the necessary information about the argument structure of a relational noun or about the stereotypical purpose associated with the noun’s referent which can be used to establish a relation between the first and the head constituent of the compound.
The availability of electronic corpora of historical stages of languages has been wel- comed as possibly attenuating the inherent problem of diachronic linguistics, i.e. that we only have access to what has chanced to come down to us - the problem which was memorably named by Labov (1992) as one of “Bad Data”. However, such corpora can only give us access to an increased amount ot historical material and this can essentially still only be a partial and possibly distorted picture of the actual language at a particular period of history. Corpora can be improved by taking a more representative sample of extant texts if these are available (as they are in significant number for periods after the invention of printing). But, as examples from the recently compiled GerManC corpus of seventeenth and eighteenth century German show, the evidence from such corpora can still fail to yield definitive answers to our questions about earlier stages of a language. The data still require expert interpretation, and it is important to be realistic about what can legitimately be expected from an electronic historical corpus.