Textlinguistik / Schriftsprache
Refine
Year of publication
- 2022 (6) (remove)
Document Type
- Article (2)
- Part of a Book (2)
- Conference Proceeding (1)
- Other (1)
Has Fulltext
- yes (6)
Is part of the Bibliography
- yes (6)
Keywords
- Fallstudie (2)
- Handschrift (2)
- Schriftzeichen (2)
- Variation (2)
- Annotation (1)
- Brüder Grimm (1)
- Buchstabe (1)
- Codierung (1)
- Deontische Logik (1)
- Deutsch (1)
- Deutsches Wörterbuch (Grimm) (1)
- Direkte Rede (1)
- Document Images (1)
- Dokument (1)
- Gefühl (1)
- Graphem (1)
- Graphemik (1)
- Grimm, Jacob (1)
- Historische Sprachwissenschaft (1)
- Hochliteratur (1)
- Indirekte Rede (1)
- Information Extraction (1)
- Kategorisierung (1)
- Korpus <Linguistik> (1)
- Literaturgattung (1)
- Multi-modality (1)
- Nationalsozialismus (1)
- Nationalsozialistische Deutsche Arbeiterpartei (1)
- Natural Language Processing (1)
- OCR (1)
- Optische Zeichenerkennung (1)
- Politische Sprache (1)
- Quantitative Linguistik (1)
- Redeerwähnung (1)
- Romanheft (1)
- Schreibung (1)
- Schriftsprache (1)
- Schriftstück (1)
- Semantik (1)
- Silbenstruktur (1)
- Sprachgebrauch (1)
- Texttechnologie (1)
- Umlaut (1)
- Umlautbuchstabe (1)
- Wortschatz (1)
- complex graphemes (1)
- graphematics (1)
- graphetics (1)
- handwriting (1)
- writing (1)
Publicationstate
- Veröffentlichungsversion (3)
- Zweitveröffentlichung (3)
- Postprint (2)
Reviewstate
- (Verlags)-Lektorat (3)
- Peer-Review (3)
Publisher
- Wilhelm Fink (2)
- Helmut Buske (1)
- La Rochelle University (1)
- Leibniz-Institut für Deutsche Sprache (1)
- de Gruyter (1)
We present a simple tool for extracting text and markup information from printouts of (not only) scientific documents. While the heavy-lifting OCR is done by off-the-shelf tesseract, our focus is on detection, extraction, and basic categorization of color-highlighted text sections, as well as on providing a framework for downstream processing of extraction results. The tool can be useful for document analysis tasks that must, or benefit from being able to, use printed paper.
The question of whether a letter is a grapheme or not is a perennial issue in writing research. The answer depends on which criteria are used to differentiate between letters and graphemes and, ultimately,how the unit ‘grapheme’ is defined. This problem is particularly relevant to complex graphemes, i.e. sequences of letters that behave like a single grapheme in certain respects. Typical for German is the ‹ch›. This paper argues for a scalar concept of graphemes, which compares the grapheme status of each of the units under investigation. For this purpose, new criteria for the identification of complex graphemes are used, which originate from handwriting analysis. There, it is shown that complex graphemes are connected with each other disproportionately often and also have deviating letter forms disproportionately often.
In contrast to printed letters, handwritten texts show a larger amount of variation regarding letter shape and letter contact. This variation though might not be totally random but could follow a certain grammatical or structural function. By analysing a corpus of 10.117 graphs written by four writers, this paper explores which structures and which functions correlate. More precisely, it will be shown that the shape of certain letters might indicate syllabic, morphologic od prosodic structures. In addition, it will be shown that handwritten texts present the words’ structure better than printed texts could do. Overall, this paper points out how handwritten scripts show the graphematic principles known from printing even better than printed texts do.
Der Beitrag lässt sich hinsichtlich seines Gegenstands dem Bereich ,Sprache und Emotion' zuordnen. Seine Fragestellung bezieht sich auf die Kodierung von Gefühlen und auf deontisch markierte Ausdrücke. Datengrundlage sind Texte, die bisher von der Linguistik noch nicht erschlossen wurden. Es sind Berichte von Nationalsozialist*innen, die ihren Weg zur NSDAP schildern, in die sie in der späten Weimarer Republik eintraten. Der Beitrag analysiert diese Texte mit einem quantitativ-qualitativen Ansatz, indem er danach fragt, welche Gefühlsbezeichnungen in den untersuchten Texten verwendet werden und worauf sie referieren. Die Beantwortung dieser Fragen besteht in der Darstellung der lexikalisch-semantischen Kodierung von Gefühlen seitens der positiv und negativ emotionalisierten NS-affinen Mitglieder der Gesellschaft. Er leistet damit einen linguistischen Beitrag zur Entstehungsgeschichte des Nationalsozialismus.
Diese Fallstudie untersucht die quantitative Verteilung von direkten und nicht-direkten Formen von Redewiedergabe im Vergleich zwischen zwei Literaturtypen: Hochliteratur - definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen - und Heftromanen - massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden. Die Studie geht von manuell annotierten Daten aus und überprüft daran die Verlässlichkeit automatischer Annotationswerkzeuge, die im Anschluss eingesetzt werden, um eine Untersuchung von insgesamt 250 Volltexten durchzuführen. Es kann nachgewiesen werden, dass sich die Literaturtypen sowie auch unterschiedliche Genres von Heftromanen hinsichtlich der verwendeten Wiedergabeformen unterscheiden.