Refine
Year of publication
Document Type
- Other (12)
- Book (11)
- Conference Proceeding (2)
- Doctoral Thesis (1)
- Report (1)
- Working Paper (1)
Language
- German (19)
- English (7)
- Multiple languages (2)
Has Fulltext
- no (28) (remove)
Keywords
- Korpus <Linguistik> (28) (remove)
Publicationstate
Reviewstate
Publisher
- Institut für Deutsche Sprache (5)
- Leibniz-Institut für Deutsche Sprache (IDS) (4)
- LINDAT/CLARIAH-CZ (3)
- Peter Lang (2)
- Winter (2)
- de Gruyter (2)
- Cambridge University Press (1)
- De Gruyter (1)
- ELRA (1)
- European Language Resources Association (1)
Sprichwörter im Gebrauch
(2017)
Sprichwörter im Gebrauch
(2015)
Over the past decade, conducting empirical research in linguistics has become increasingly popular. The first of its kind, this book provides an engaging and practical introduction to this exciting versatile field, providing a comprehensive overview of research aspects in general, and covering a broad range of subdiscipline-specific methodological approaches. Subfields covered include language documentation and descriptive linguistics, language typology, corpus linguistics, sociolinguistics and anthropological linguistics, cognitive linguistics and psycholinguistics, and neurolinguistics. The book reflects on the strengths and weaknesses of each single approach and on how they interact with one-another across the study of language in its many diverse facets. It also includes exercises, example student projects and recommendations for further reading, along with additional online teaching materials. Providing hands-on experience, and written in an engaging and accessible style, this unique and comprehensive guide will give students the inspiration they need to develop their own research projects in empirical linguistics.
This paper presents three electronic collections of polarity items: (i) negative polarity items in Romanian, (ii) negative polarity items in German, and (iii) positive polarity items in German. The presented collections are a part of a linguistic resource on lexical units with highly idiosyncratic occurrence patterns. The motivation for collecting and documenting polarity items was to provide a solid empirical basis for linguistic investigations of these expressions. Our databe provides general information about the collected items, specifies their syntactic properties, and describes the environment that licenses a given item. For each licensing context, examples from various corpora and the Internet are introduced. Finally, the type of polarity (negative or positive) and the class (superstrong, strong, weak or open) associated with a given item is speci ed. Our database is encoded in XML and is available via the Internet, offering dynamic and exible access.
„Paronyme – Dynamisch im Kontrast“ ist ein neues und neuartiges Nachschlagewerk für sprachliche Zweifelsfälle und Unsicherheiten. Erstmals werden lautlich, orthografisch und/oder semantisch ähnliche Wörter (z. B. farbig-farblich, kindlich-kindisch, universal-universell, Mehrheit-Mehrzahl) korpusbasiert in ihrem aktuellen Gebrauch untersucht und dokumentiert. Nutzer*innen können sich über die Bedeutung jedes Ausdrucks in zahlreichen Angaben und Verwendungsbeispielen informieren. Dies erfolgt kontrastiv und dynamisch in selbst wählbaren Ausschnitts- oder Vergleichsansichten, im Überblick oder im Detail.
Das neue Onlineformat PREPCONonline führt durch die Welt der Korpusdaten und zeigt, welchen Erklärungswert authentische Sprache, die von Experten aufbereitet ist, für die eigene sprachliche Kompetenz haben kann. Dieser Ansatz folgt der Überzeugung, dass vor allem auf einem gehobenen Kompetenzniveau reale Sprachausschnitte, die für einen Aspekt des Gebrauchs besonders typisch sind, möglichst unverfälscht abrufbar sein sollten, um Sprache, so wie sie wirklich verwendet wird, versteh- und anwendbar zu machen.
The representative full-text digitalized HetWiK corpus is composed of 140 manually annotated texts of the German Resistance between 1933 and 1945. This includes both well-known and relatively unknown documents, public writings, like pamphlets or memoranda, as well as private texts, e.g. letters, journal or prison entries and biographies. Thus the corpus represents the diverse groups as well as the heterogeneity of verbal resistance and allows the study of resistance in relation to the language usage. The HetWiK corpus can be used free of charge. A detailed register of the individual texts and further information about the tagset can be found on the project-homepage (german). In addition to the CATMA5 XML-format we provide a standoff-JSON format and CEC6-Files (CorpusExplorer) - so you can export the HetWiK corpus in different formats.
CorpusExplorer
(2018)
Software for corpus linguists and text/data mining enthusiasts. The CorpusExplorer combines over 45 interactive visualizations under a user-friendly interface. Routine tasks such as text acquisition, cleaning or tagging are completely automated. The simple interface supports the use in university teaching and leads users/students to fast and substantial results. The CorpusExplorer is open for many standards (XML, CSV, JSON, R, etc.) and also offers its own software development kit (SDK).
This dissertation investigates discourse-pragmatic differences between variably linked arguments appearing in alternating argument structure constructions in the sense of Goldberg (1995) and Kay (manuscript). The properties that are studied include givenness, pragmatic relation (topic/focus), salience of referents, animacy, and others. They derive from the literature on sentence-type constructions such as topicalization and from research on the referential properties of NP form types.
The research carried out here has multiple uses. At the most basic level, it serves as an empirical check on existing characterizations of the pragmatic properties of the relevant arguments that are the result of syntactic and semantic analysis based on introspection alone. For instance, for the epistemic raising alternation involving verbs like seem, the predicted topicality difference between the subjects of the raised and unraised constructions (Langacker 1995) could not be confirmed.
This dissertation also addresses the question what kinds of pragmatic factors, if any, are relevant to argument structure constructions. Based on the evidence of the dative alternation, it does not seem to be the case that the kind of pragmatic influences on argument structure constructions are different or limited compared to the ones found to be relevant to sentence-type constructions.
The kind of research undertaken here can also inform the syntactic and semantic analysis of constructions. In the case of the dative alternation, the discourse-pragmatic characteristics of the variably linked arguments provide evidence that Basilico’s (1998) analysis of the difference between the alternates in terms of VP-shells and a difference between thetic and categorical ‘inner’ predication, on the one hand does not account for all the data and on the other can be re-stated in pragmatic terms other than the thetic-categorical distinction.
In addition to studies of valence alternations, this dissertation also discusses various null instantiation phenomena, which provide further evidence for the need to specify discourse-pragmatic properties as part of argument structure constructions and lexical entries.
Finally, it is suggested that the use of randomly sampled corpus data and statistical modelling throughout this dissertation improves both empirical and analytical coverage.
Korpuslinguistik
(2012)
Annotated dataset consisting of personal designations found on websites of 42 German, Austrian, Swiss and South Tyrolean cities. Our goal is to re-evaluate the websites every year in order to see how the use of gender-fair language develops over time. The dataset contains coordinates for the creation of map material.
The newest generation of speech technology caused a huge increase of audio-visual data nowadays being enhanced with orthographic transcripts such as in automatic subtitling in online platforms. Research data centers and archives contain a range of new and historical data, which are currently only partially transcribed and therefore only partially accessible for systematic querying. Automatic Speech Recognition (ASR) is one option of making that data accessible. This paper tests the usability of a state-of-the-art ASR-System on a historical (from the 1960s), but regionally balanced corpus of spoken German, and a relatively new corpus (from 2012) recorded in a narrow area. We observed a regional bias of the ASR-System with higher recognition scores for the north of Germany vs. lower scores for the south. A detailed analysis of the narrow region data revealed – despite relatively high ASR-confidence – some specific word errors due to a lack of regional adaptation. These findings need to be considered in decisions on further data processing and the curation of corpora, e.g. correcting transcripts or transcribing from scratch. Such geography-dependent analyses can also have the potential for ASR-development to make targeted data selection for training/adaptation and to increase the sensitivity towards varieties of pluricentric languages.
Diese Monografie setzt sich neu mit Laiengedanken zur deutschen Sprache auseinander. Mit einem kleinen, aber aussagekräftigen Korpus von rund 480 schriftlichen Äußerungen muttersprachlicher und nichtmuttersprachlicher Laien zwischen 1992 und 2023 fokussiert sie sich durch viele Detailanalysen erstens auf Themen, die Laien bewegen, zweitens auf Argumente, die Laien zur Bekräftigung ihrer Ansichten anführen, und drittens auf Ausdruckstopoi, mit denen Laien argumentieren.
Die Monografie ist Ideengeber vor allem für linguistische, soziolinguistische, psychologische und gesellschaftspolitische Projekte zum Laiendiskurs im öffentlichen Raum, speziell für Projekte zu brisanten, aktuell heftig diskutierten Themen wie Antirassismus und Gendern, für Projekte zu Anglizismen, für Projekte zu Sprachwandel, Sprachverfall, Sprachpflege und Sprachpurismus, für Projekte zu Jugendsprache und Generation sowie für Projekte zur Sprache als Herrschaftsinstrument.
Diese Monografie setzt sich neu mit Sprachanfragen auseinander. Mit einem kleinen, aber aussagekräftigen Korpus von rund 300 schriftlichen Anfragen zwischen 1997 und 2022 fokussiert sie sich durch viele Detailanalysen auf den Charakter der Anfragenden und die Charakteristik der Anfragen: Wer sind die Anfragenden? Wen fragen sie? Wie fragen sie? Was fragen sie? Warum fragen sie? Und wie hängt all das zusammen?
Die Monografie versteht sich als Anregung vor allem für größer angelegte Studien mit einem größeren, repräsentativen Korpus. Darüber hinaus kann sie Ideengeber sein etwa für soziolinguistische Studien zur Persönlichkeit von Sprachanfragenden, für Studien zum Laiendiskurs über Sprache, zu muttersprachlichen versus nichtmuttersprachlichen Interessen oder zu angefragten Themen: Welche Aspekte der Themen werden erfragt; welche sind relevant, welche sind brisant?
KoralQuery 0.3
(2015)
KoralQuery is a general corpus query protocol (i.e. independent of research tasks and corpus formats), serialized in JSON-LD [1]. KoralQuery focuses on simplicity of implementation rather than human readibility and writability. Support for a growing number of query languages is granted by the Koral serialization processor.
Dieses Buch stellt die Gesprächsanalyse als Methodik zur Erforschung linguistischer Fragestellungen dar. Ihr Ziel ist die umfassende Analyse sprachlicher Phänomene in ihren formalen, funktionalen und kontextuellen Dimensionen. Grundlegende Eigenschaften der verbalen Interaktion werden zunächst auf ihre sprachtheoretischen Konsequenzen befragt. Sodann werden aus ihnen methodologische Prinzipien für die Erhebung und Analyse von Gesprächskorpora entwickelt. Das methodische Vorgehen wird an einer grammatischen und einer semantischen Fragestellung demonstriert. Untersucht werden freie Infinitivkonstruktionen im gesprochenen Deutsch und die Effekte von Kontrastierungsaktivitäten auf die Semantik von Ausdrücken im Gespräch. Theoretische Basis bildet hier die Integration der Gesprächsanalyse mit der construction grammar und der kognitiven Linguistik.
The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, German-speaking demographic and represents an authentic language snapshot of young German speakers. The corpus was proportionally sampled based on video category and year from a database of 112 popular German-speaking YouTube channels in the DACH region for optimal representativeness and balance and contains a considerable amount of associated metadata for each comment that enable further longitudinal cross-sectional analyses.
Dieses Buch schließt eine Lücke in der Konnektorenforschung, indem es den Gebrauch von Konnektoren im gesprochenen Deutsch untersucht. Die Fragestellung bringt Elemente aus dem traditionellen grammatischen Ansatz und aus der pragmatisch basierten Forschung zur gesprochenen Sprache zusammen. In Anlehnung an die Methode der Interaktionalen Linguistik analysiert der Autor den Gebrauch der Konjunktoren «und», «aber» und der Adverbkonnektoren «also», «dann» in zwei Korpora von autobiographischen Interviews. Die Untersuchung zeigt, wie Konnektoren zur Bewältigung von verschiedenartigen kommunikativen Aufgaben zur Stiftung von Intersubjektivität und zur Gesprächsorganisation eingesetzt werden können.
Die Beiträge dieses Tagungsbandes thematisieren die Erstellung digitaler historischer Zeitungskorpora, Merkmale und Entwicklungstendenzen der Sprache der Zeitungen auf verschiedenen Ebenen und auf der Grundlage einzelner Korpora sowie die Bewertung der Zeitungssprache aus zeitgenössischer Sicht.
Die Vorträge gehen zurück auf den Workshop "Die Zeitung als das Medium der neueren Sprachgeschichte? Korpora, Analyse und Wirkung" am Institut für Deutsche Sprache (IDS) - in Zusammenarbeit mit dem Europäischen Zentrum für Sprachwissenschaften (EZS) - am 20./21.11.2014 in Mannheim.
Die Erforschung von Sprache im öffentlichen Raum (Linguistic Landscapes, LL) hat sich in den vergangen 20 Jahren als Teilgebiet der Soziolinguistik, der Semiotik und anderer Disziplinen fest etabliert. Der vorliegende Band gibt einen Überblick zu zentralen Ansätzen der LL-Forschung mit einem Bezug zur deutschen Sprache. Die Beiträge stellen aktuelle Studien aus dem deutschsprachigen Raum, zu Deutsch als Minderheitensprache sowie aus Ländern mit einer ausgeprägten DaF-Tradition vor. Sie thematisieren sprachstrukturelle und soziolinguistische ebenso wie didaktische, methodische und technologische Aspekte. Damit trägt der Band zu einer Systematisierung der deutschsprachigen LL-Forschung bei, gibt Impulse für internationale Diskussionen und benennt wichtige Desiderata.