Refine
Year of publication
Document Type
- Part of a Book (8)
- Article (7)
- Book (2)
- Conference Proceeding (2)
- Review (2)
- Doctoral Thesis (1)
- Report (1)
Keywords
- Schriftsprache (23) (remove)
Publicationstate
- Veröffentlichungsversion (23) (remove)
Reviewstate
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- de Gruyter (3)
- Narr (2)
- Aschendorff (1)
- Association for Computational Linguistics (1)
- Bielefeld University (1)
- Buske (1)
- Dipartimento di Lingue e Letterature Straniere e Culture Moderne (1)
- Gesellschaft für Sprachtechnologie und Computerlinguistik (1)
- Institut für Deutsche Sprache (1)
This paper aims at investigating the usage of present subjunctive (Konjunktiv I), which is traditionally labelled as a feature of standard written language and therefore as typically occurring in communication genres based on it such as press texts and reporting, in everyday spoken German. Through an analysis of corpus data performed according to theory and method of Interactional Linguistics and encompassing private, institutional and public interactional domains, the paper will show how this particular verb form expresses different epistemic stances according to its syntactic embedment.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.
Linguistische Studien arbeiten häufig mit einer Differenzierung zwischen gesprochener und geschriebener Sprache bzw. zwischen Kommunikation der Nähe und Distanz. Die Annahme eines Kontinuums zwischen diesen Polen bietet sich für eine Verortung unterschiedlichster Äußerungsformen an, inklusive unkonventioneller Textsorten wie etwa Popsongs. Wir konzipieren, implementieren und evaluieren ein automatisiertes Verfahren, das mithilfe unkorrelierter Entscheidungsbäume entsprechende Vorhersagen auf Textebene durchführt. Für die Identifizierung der Pole definieren wir einen Merkmalskatalog aus Sprachphänomenen, die als Markierer für Nähe/Mündlichkeit bzw. Distanz/Schriftlichkeit diskutiert werden, und wenden diesen auf prototypische Nähe-/Mündlichkeitstexte sowie prototypische Distanz-/Schrifttexte an. Basierend auf der sehr guten Klassifikationsgüte verorten wir anschließend eine Reihe weiterer Textsorten mithilfe der trainierten Klassifikatoren. Dabei erscheinen Popsongs als „mittige Textsorte“, die linguistisch motivierte Merkmale unterschiedlicher Kontinuumsstufen vereint. Weiterhin weisen wir nach, dass unsere Modelle mündlich kommunizierte, aber vorab oder nachträglich verschriftlichte Äußerungen wie Reden oder Interviews vollkommen anders verorten als prototypische Gesprächsdaten und decken Klassifikationsunterschiede für Social-Media-Varianten auf. Ziel ist dabei nicht eine systematisch-verbindliche Einordung im Kontinuum, sondern eine empirische Annäherung an die Frage, welche maschinell vergleichsweise einfach bestimmbaren Merkmale („shallow features“) nachweisbar Einfluss auf die Verortung haben.
Für künftige Philologen und ihre Ausbilder stellt der Band ein didaktisch orientiertes analytisches Verfahren vor, mit dessen Hilfe die Konfigurationalität von Signalen erfasst werden kann, die in den Texten der deutsche Sprache in regulären Koinzidenzrelationen (Kookkurenzen) auftreten. Die Kookkurrenzanalyse gestattet es, die verschiedenen Phrasentypen differenziert und exakt aufzufächern. Eine detaillierte Darstellung des terminologischen Apparats, zahlreiche Diagramme und Beispiele sowie exemplarische Analysen erleichtern den Einstieg in das diskutierte Modell.
Im Beitrag werden drei sprachwissenschaftliche Zugänge zu Diagnosen vorgestellt: In der Gesprächsanalyse wird die Diagnoseherstellung in der mündlichen Arzt-Patienten-Interaktion beleuchtet. Diagnosen entstehen kollaborativ,indem Gesprächsphasen durchlaufen und charakteristische Handlungen in bestimmten Äußerungsformaten vollzogen werden. Im Blickpunkt der Text- und Kommunikationsgeschichte steht hingegen das schriftsprachliche Handeln. Das Herstellen einer Diagnose erfordert hier die nachträgliche Bearbeitung vorgängiger mündlicher Interaktionen gemäß einer etablierten Textsorte: dem Erhebungsbogen. Von diesen Formen der Diagnoseherstellung unterscheidet sich, wie ein diskurslinguistischer Zugriff zeigt, die massenmediale Faktizitätsherstellung in Diskursen wie dem Impfdiskurs, die auch für ein medizinisches Laienpublikum relevant sind. Mit dem Beitrag soll nicht nur deutlich gemacht werden, in welchengem Zusammenhang mündliche Interaktion und schriftliche Fixierung stehen, sondern auch betont werden, dass das massenmedial vermittelte medizinische Lai*innen in relative Expert*innen verwandeln kann.
In literalen Gesellschaften umfasst das Sprachvermögen sowohl das Sprechen wie auch das Schreiben. Dies gilt für die Muttersprache ebenso wie für Fremdsprachen. Sprechen und Schreiben sind dabei recht unterschiedliche Tätigkeiten, so dass zu erwarten wäre, dass sie im Fremdsprachen- wie auch im DaF-Unterricht zu gleichen Anteilen berücksichtigt werden. Die Unterrichtspraxis zeigt jedoch, dass die Schriftsprache dominant vertreten ist und die gesprochene Sprache ein Schattendasein führt. In diesem Beitrag benenne ich fünf Gründe, warum die gesprochene Sprache in dieser Weise im Hintergrund steht und ein sperriger, schwer zu handhabender Gegenstand ist (Abschnitt 2). Im Anschluss versuche ich zu verdeutlichen, wie weitreichend die Unterschiede zwischen gesprochener und geschriebener Sprache sind (Abschnitt 3). Abschließend formuliere ich einige Konsequenzen, die sich hieraus für den Fremdsprachen- und DaF-Unterricht ergeben, und plädiere dafür, sich die Schwierigkeiten, die mit einer Berücksichtigung der gesprochenen Sprache verbunden sind, bewusst zu machen und sich ihnen zu stellen, denn gesprochene Sprache ist m.E.ein unverzichtbarer Bestandteil des fremdsprachlichen Unterrichts.
Concurrent standardization as a necessity: The genesis of the new official orthographic guidelines
(2009)
The new official orthographic guidelines were brought into force by the official state authorities on August 1st, 1998 and its principle goals were a standardized representation of the guidelines and a «gentle simplification in respect of content». This regulation was not supported by the public and in fact it was the starting point for a struggle for conceptual solutions and a quest for the achievement of' a consensus between different possible norms. Since orthography is an officially codified standard taking up a prominent position among linguistic standards, it is of particular socio-political importance. It was the foremost task of the Council for German Orthography (Rat für deutsche Rechtschreibung), instituted in December 2004, to elaborate a compromise in order to bring the «Orthographical war» (Die Zeit) to an end, which was led enthusiastically for more than a decade. - The concern of this article is to classify historically the agreement reached in 2006. Against this background, it can be stated that official guidelines will only be accepted, if they are based upon the usage in writing and if they take into account the interests of the reader. Both principles are characterizing the proposal made by the Council for German Orthography. An outlook on the Council's activities concerning orthographic standardization expected in the future will conclude this article.
This paper explores speakers’ notions of the situational appropriacy of linguistic variants. We conducted a web-based survey in which we collected ratings of the appropriacy of variants of linguistic variables in spoken German. A range of quantitative methods (cluster analysis, factor analysis and various forms of visualization techniques) is applied in order to analyze metalinguistic awareness and the differences in the evaluation of written vs. spoken stimuli. First, our data show that speakers’ ratings of the appropriacy of linguistic variants vary reliably with two rough clusters representing formal and informal speech situations and genres. The findings confirm that speakers adhere to a notion of spoken standard German which takes genre and register-related variation into account. Secondly, our analysis reveals a written language bias: metalinguistic awareness is strongly influenced by the physical mode of the presentation of linguistic items (spoken vs. written).
Einleitung
(2018)
Das Projekt „Bürgernahe Sprache in der Finanzverwaltung“ verfolgt das Ziel, Texte aus dem Bereich der Steuerverwaltung in bürgernaher Sprache umzusetzen. Im September 2020 hat das IDS in enger Rückbindung an den Lenkungskreis des Projektes begonnen, eine Pilotstudie zu entwickeln. Hierin wurden ausgewählte Texte (Textbausteine) in einem Online-Umfrageformat mit verschiedenen Bewertungsskalen aufbereitet. Die Beispieltexte in der Studie stammen aus den Erläuterungstexten zum Einkommensteuerbescheid sowie den Ausfüllanleitungen zur Grundsteuer. Die Testpersonen sollten in mehreren unterschiedlichen Aufgabenblöcken ausgewählte Texte in Vorher- und/oder Nachher-Versionen über die Bewertungsskala bewerten. Zusätzlich konnten sie auf jeder Aufgabenseite Anmerkungen in einem Freifeld notieren. Das Ziel der Umfrage ist es, Bürgerinnen und Bürger zu ihren Eindrücken zu befragen und aus den Ergebnissen Rückschlüsse auf die Verständlichkeit der Texte zu ziehen. Ein wichtiges übergeordnetes Ziel der Pilotstudie ist es, die eigentlichen Adressatinnen und Adressaten der Texte in die Projektarbeit mit einzubeziehen. Die Einschätzungen und Anmerkungen der Beteiligten geben für den weiteren Projektverlauf hilfreiche Hinweise und werden in die weiteren Überlegungen und praktischen Umsetzungen einfließen. Dieser Bericht fasst die Ergebnisse aus der Pilotstudie zusammen. Er gibt zu den verschiedenen Blöcken, die die Probandinnen und Probanden bearbeitet haben, Einblick, wie die Testpersonen die ihnen präsentierten Texte bewertet haben. Dabei werden die quantitativ ausdrückbaren Ergebnisse durch grafische Darstellungen visualisiert und in textueller Form zusammengefasst. Die Antworten auf die offenen Fragen geben einen qualitativen Eindruck der Anmerkungen, die die Probandinnen und Probanden in Freifeldern hinterlassen haben.
Schriftlich-Mündlich
(1990)
Im Zentrum der Dissertation steht der Begriff Informationsmodellierung oder genauer der Begriff der "textuellen Informationsmodellierung", wobei auf einer bereits vorgeschlagenen Unterscheidung einer primären und einer sekundären Ebene der Informationsstrukturierung aufgebaut wird. Der Gegenstand der primären Ebene sind die textuellen Daten selbst sowie ihre Strukturierung, wohingegen die sekundäre Ebene beschreibt, wie die für die primären Ebenen verwendeten Regelwerke mit alternativen Regelwerken in Beziehung gesetzt werden können. Der Einteilung in eine primäre und eine sekundäre Informationsstrukturierung wird in der Dissertation das Konzept der multiplen Informationsstrukturierung nebengeordnet. Dieses Konzept ist so zu verstehen, dass die primäre Ebene bei Bedarf vervielfacht wird - jedoch bezieht sich jede dieser Ebenen auf dieselbe Datengrundlage. Hierbei ergeben sich auch Auswirkungen auf die sekundäre Informationsstrukturierung. Die Informationsmodellierung erfolgt mit Auszeichnungssprachen. Die Standard Generalized Markup Language (SGML) stellt hierfür einen Rahmen dar, jedoch wurde dieser Formalismus seit seiner 1986 erfolgten Standardisierung nicht nur weiterentwickelt, sondern es wurde mit der Extensible Markup Language (XML) im Jahr 1998 eine wesentlich einfachere Untermenge dieser Sprache definiert, die zudem das derzeitige Zentrum weiterer Entwicklungen auf dem Gebiet der Auszeichnungssprachen darstellt. Der entwickelte Ansatz zur Modellierung linguistischer Information basiert auf der Extensible Markup Language (XML), wobei die weitergehenden Möglichkeiten von SGML selbstverständlich ebenfalls dargestellt und diskutiert werden. Mittels XML können Informationen, die sich nicht in bestimmten Hierarchien (mittels mathematischer Bäume) strukturieren lassen, nicht in einer natürlichen Weise repräsentiert werden. Eine Lösung dieses Problems liegt in der Aufteilung der Strukturierung auf verschiedene Ebenen. Diese neue Lösung wird dargestellt, diskutiert und modelliert.
This paper reports on the efforts of twelve national teams in building the International Comparable Corpus (ICC; https://korpus.cz/icc) that will contain highly comparable datasets of spoken, written and electronic registers. The languages currently covered are Czech, Finnish, French, German, Irish, Italian, Norwegian, Polish, Slovak, Swedish and, more recently, Chinese, as well as English, which is considered to be the pivot language. The goal of the project is to provide much-needed data for contrastive corpus-based linguistics. The ICC corpus is committed to the idea of re-using existing multilingual resources as much as possible and the design is modelled, with various adjustments, on the International Corpus of English (ICE). As such, ICC will contain approximately the same balance of forty percent of written language and 60 percent of spoken language distributed across 27 different text types and contexts. A number of issues encountered by the project teams are discussed, ranging from copyright and data sustainability to technical advances in data distribution.
Die Beiträge des Bandes konzentrieren sich auf die Fragen: Was umfasst der Begriff 'Standardsprache', wie hat sich die deutsche Standardsprache seit dem 19. Jh. entwickelt, wie ist ihr gegenwärtiger Zustand sprachwissenschaftlich angemessen zu beschreiben und welche längerfristigen Entwicklungstendenzen lassen sich erkennen? Die Antworten reflektieren auch Notwendigkeit und Grenzen von Normativität.