Refine
Year of publication
Document Type
- Part of a Book (20)
- Article (6)
- Conference Proceeding (5)
- Book (3)
- Master's Thesis (1)
- Other (1)
- Part of Periodical (1)
Language
- German (27)
- English (7)
- Portuguese (2)
- Italian (1)
Keywords
- Textlinguistik (37) (remove)
Publicationstate
- Veröffentlichungsversion (37) (remove)
Reviewstate
Publisher
- de Gruyter (9)
- European Language Resources Association (ELRA) (4)
- Lang (3)
- Nova Fronteira (2)
- Associació de Germanistes de Catalunya (1)
- Association for Computational Linguistics (1)
- Deutsche Gesellschaft für Sprachwissenschaft (1)
- Deutscher Akademischer Austauschdienst (1)
- Erich Schmidt (1)
- Firenze University Press (1)
The present article describes the first stage of the KorAP project, launched recently at the Institut für Deutsche Sprache (IDS) in Mannheim, Germany. The aim of this project is to develop an innovative corpus analysis platform to tackle the increasing demands of modern linguistic research. The platform will facilitate new linguistic findings by making it possible to manage and analyse primary data and annotations in the petabyte range, while at the same time allowing an undistorted view of the primary linguistic data, and thus fully satisfying the demands of a scientific tool. An additional important aim of the project is to make corpus data as openly accessible as possible in light of unavoidable legal restrictions, for instance through support for distributed virtual corpora, user-defined annotations and adaptable user interfaces, as well as interfaces and sandboxes for user-supplied analysis applications. We discuss our motivation for undertaking this endeavour and the challenges that face it. Next, we outline our software implementation plan and describe development to-date.
The present thesis introduces KoralQuery, a protocol for the generic representation of queries to linguistic corpora. KoralQuery defines a set of types and operations which serve as abstract representations of linguistic entities and configurations. By combining these types and operations in a nested structure, the protocol may express linguistic structures of arbitrary complexity. It achieves a high degree of neutrality with regard to linguistic theory, as it provides flexible structures that allow for the setting of certain parameters to access several complementing and concurrent sources and layers of annotation on the same textual data. JSON-LD is used as a serialisation format for KoralQuery, which allows for the well-defined and normalised exchange of linguistic queries between query engines to promote their interoperability. The automatic translation of queries issued in any of three supported query languages to such KoralQuery serialisations is the second main contribution of this thesis. By employing the introduced translation module, query engines may also work independently of particular query languages, as their backend technology may rely entirely on the abstract KoralQuery representations of the queries. Thus, query engines may provide support for several query languages at once without any additional overhead. The original idea of a general format for the representation of linguistic queries comes from an initiative called Corpus Query Lingua Franca (CQLF), whose theoretic backbone and practical considerations are outlined in the first part of this thesis. This part also includes a brief survey of three typologically different corpus query languages, thus demonstrating their wide variety of features and defining the minimal target space of linguistic types and operations to be covered by KoralQuery.
Apresentação
(2009)
Die das perspektivische Subjekt, den „Reflektor“ der erlebten Rede bezeichnenden drittpersonigen Personalpronomina entsprechen nicht der Außensicht des Erzählers, sondern artikulieren bei aller grammatischen Drittpersonigkeit die Perspektive des Reflektors, d.h. sind innenperspektivische Ausdrücke. Der Aufsatz versucht, diesen innenperspektivischen Charakter anhand des grammatischen Benehmens des Reflektorpronomens genauer nachzuweisen, indem er zeigt, dass sich diese drittpersonigen Pronomina in dreierlei Hinsicht, nämlich bzgl. ihrer Nichtersetzbarkeit, bzgl. der von ihnen ausgelösten Relativpronomina und bzgl. ihrer „transitiven“ Verwendbarkeit, wie erst- und zweitpersonige Ausdrücke verhalten und nicht wie „normale“ drittpersonige anaphorische Pronomina.
This paper introduces the recently started DRuKoLA-project that aims at providing mechanisms to flexibly draw virtual comparable corpora from the German Reference Corpus DeReKo and the Reference Corpus of Contemporary Romanian Language CoRoLa in order to use these virtual corpora as empirical basis for contrastive linguistic research.
KorAP is a corpus search and analysis platform, developed at the Institute for the German Language (IDS). It supports very large corpora with multiple annotation layers, multiple query languages, and complex licensing scenarios. KorAP’s design aims to be scalable, flexible, and sustainable to serve the German Reference Corpus DEREKO for at least the next decade. To meet these requirements, we have adopted a highly modular microservice-based architecture. This paper outlines our approach: An architecture consisting of small components that are easy to extend, replace, and maintain. The components include a search backend, a user and corpus license management system, and a web-based user frontend. We also describe a general corpus query protocol used by all microservices for internal communications. KorAP is open source, licensed under BSD-2, and available on GitHub.
La guida turistica
(2018)
Erpresserbriefe werden häufig mit elliptischen Formulierungen verbunden, welche durch ausgeschnittene, auf einem Stück Papier aufgeklebte Buchstaben realisiert werden. Betrachtet man allerdings authentische Erpresserbriefe, stellt man fest, dass viele wie ein Geschäftsbrief aussehen und verwaltungssprachliche Elemente aufweisen. Welche Formen der Verwaltungssprache sind das und warum werden diese in Schreiben illegalen Charakters verwendet? Der vorliegende Beitrag befasst sich mit diesen Fragestellungen. Anhand einer Stichprobe aus der Tatschreibensammlung des BKA werden Formen der Verwaltungssprache in Erpresserbriefen empirisch untersucht, Erklärungsansätze entwickelt und deren Relevanz für die Autorenerkennung erläutert.
This article examines the contrasts and commonalities between languages for specific purposes (LSP) and their popularizations on the one hand and the frequency patterns of LSP register features in English and German on the other. For this purpose corpora of expertexpert and expert-lay communication are annotated for part-of-speech and phrase structure information. On this basis, the frequencies of pre- and post-modifications in complex noun phrases are statistically investigated and compared for English and German. Moreover, using parallel and comparable corpora it is tested whether English-German translations obey the register norms of the target language or whether the LSP frequency patterns of the source language Ñshine throughì. The results provide an empirical insight into language contact phenomena involving specialized communication.
Der Musikclip gehört seit den 1980er Jahren zum Forschungsbereich diverser Disziplinen und gilt Vielen als intermediales Phänomen schlechthin. Als problematisch erweist sich allerdings nach wie vor, dass das klangliche Material des Clips, populäre Musik, eine Herausforderung nicht nur für die Musikwissenschaften darstellt – greifbar wird dies mit Blick auf die anhaltenden Diskussionen um einen adäquaten Begriff der populären Musik. Darüber hinaus gilt Musik allgemein als ‚Sonderfall‘ für den Bereich der Medien-, Sprach- und Kulturwissenschaften, da an ihr weder rein medienästhetische noch kommunikations- und informationstheoretische Begriffe in ausreichender Weise greifen. Die Entwicklung eines transdisziplinär nachvollziehbaren Objektverständnisses des Musikclips bleibt daher desiderabel.
Der Beitrag zum Thema „Bild-Text-Ton-Analysen“ resultiert aus einer intensivierten Begegnung von Medienwissenschaft und Musikwissenschaft. Im Artikel wird die Konstitution von Bedeutung im intermedialen Zusammenspiel von Sprache/Text, Stimme und Musik fokussiert. Dies geschieht auf Grundlage einer näheren Bestimmung der Analysekriterien, die im Hinblick auf den speziellen Fall des popmusikalischen Umgangs mit Sprache erforderlich sind. Ziel ist es, die Bedeutungssedimente von vokaler Performanz im Kontext von populärer Musik offenzulegen. Für die Betrachtung des Musikclips ist dies ein wesentlicher Zwischenschritt. Anhand der Darstellung der klanglich-materiellen Vorprägungen gilt es, die Möglichkeitsbedingungen der (nachträglichen) intermedialen Transformation von Sprache auf die Bildebene auszuloten. In finaler Wendung ist es dann möglich, das inter- bzw. plurimediale Amalgam von Text-Stimme-Musik als Generator von Bedeutungsüberschüssen einzufassen.
Funktionsverbgefüge stehen seit jeher in der Sprachkritik, die sich nun auch auf digitale Räume ausbreitet. Vertreten wird dort die These, Funktionsverbgefüge und ihre entsprechenden Basisverben seien äquivalent und könnten in allen Kontexten durch die verbalen Entsprechungen ersetzt werden. Dies kann durch die vorliegende korpusbasierte und textlinguistische Studie am Beispiel des Gefüges Frage stellen widerlegt werden. Anhand eines extensiven Datenmaterials aus den Wikipedia-Artikel-Korpora des IDS zeige ich die semantischen, grammatischen und textlinguistischen Unterschiede zwischen dem Basisverb und dem Funktionsverbgefüge im Gebrauch auf, die sich in der Anreicherung, Verdichtung, Perspektivierung, Gewichtung und Wiederaufnahme von Informationen im Text manifestieren.
This paper presents a compositional annotation scheme to capture the clusivity properties of personal pronouns in context, that is their ability to construct and manage in-groups and out-groups by including/excluding the audience and/or non-speech act participants in reference to groups that also include the speaker. We apply and test our schema on pronoun instances in speeches taken from the German parliament. The speeches cover a time period from 2017-2021 and comprise manual annotations for 3,126 sentences. We achieve high inter-annotator agreement for our new schema, with a Cohen’s κ in the range of 89.7-93.2 and a percentage agreement of > 96%. Our exploratory analysis of in/exclusive pronoun use in the parliamentary setting provides some face validity for our new schema. Finally, we present baseline experiments for automatically predicting clusivity in political debates, with promising results for many referential constellations, yielding an overall 84.9% micro F1 for all pronouns.
Die Macht des Definierens. Eine diskurslinguistische Typologie am Beispiel des Burnout-Phänomens
(2021)
Wo verläuft die Grenze zwischen psychischer Gesundheit und Krankheit, und wie wird diese im öffentlichen und fachlichen Diskurs ausgehandelt und definiert? Die vorliegende Arbeit untersucht am Beispiel des Burnout-Diskurses, mit welchen Sprachgebrauchsformen und kommunikativen Praktiken in Fach-, Medien- und Vermittlungstexten ein spezifikationsbedürftiges Phänomen des Bereichs psychischer Gesundheit und Krankheit definiert wird. Im Mittelpunkt der Analyse steht die Macht diskursiver Praktiken des Definierens und die These, dass sich diese Praktiken nicht nur punktuell in bewussten Definitionshandlungen einzelner Textautor/-innen zeigen, sondern dass Definieren in einem Diskurs auch als teilweise unbewusster, überindividueller, transtextueller Prozess begriffen und analysiert werden muss. Die Exemplifizierung dieser These mündet in ein 11-Punkte-Modell der diskursiven Praxis des Definierens. Durch den diskurslinguistisch-praxeologischen Ansatz eröffnet die Arbeit neue Perspektiven für die linguistische Terminologie- und Definitionsforschung.
In this paper, we describe preliminary results from an ongoing experiment wherein we classify two large unstructured text corpora—a web corpus and a newspaper corpus—by topic domain (or subject area). Our primary goal is to develop a method that allows for the reliable annotation of large crawled web corpora with meta data required by many corpus linguists. We are especially interested in designing an annotation scheme whose categories are both intuitively interpretable by linguists and firmly rooted in the distribution of lexical material in the documents. Since we use data from a web corpus and a more traditional corpus, we also contribute to the important field of corpus comparison and corpus evaluation. Technically, we use (unsupervised) topic modeling to automatically induce topic distributions over gold standard corpora that were manually annotated for 13 coarse-grained topic domains. In a second step, we apply supervised machine learning to learn the manually annotated topic domains using the previously induced topics as features. We achieve around 70% accuracy in 10-fold cross validations. An analysis of the errors clearly indicates, however, that a revised classification scheme and larger gold standard corpora will likely lead to a substantial increase in accuracy.
Nachdem sich verschiedene linguistische Teildisziplinen in den vergangenen Jahren der Medialität, Materialität und ‚Multimodalität‘ von Kommunikation zugewandt haben, hat zuletzt auch die typografische Gestaltung von Texten als spezifischer Aspekt dieses Komplexes verstärkte Aufmerksamkeit im Fach gefunden. Das Thema wurde, mit entsprechend unterschiedlichen Erkenntnisinteressen, in mehreren Fachbereichen (z.B. in der Text- und Graphostilistik, der Sozialsemiotik, der Werbesprachforschung, der Schriftlinguistik, der Verständlichkeitsforschung, der Metalexikographie und der Historischen Linguistik) aufgegriffen, darüber hinaus wird es mittlerweile auch in Nachbardisziplinen wie der Literatur- und Editionswissenschaft verstärkt diskutiert. Dabei wurde gezeigt, dass paraskripturale Phänomene in mehrfacher Hinsicht (etwa als Aufmerksamkeits- und Lesesteuerungssignal, als Emblem oder als Kontextualisierungshinweis) kommunikativ relevant werden können.
Der Beitrag gibt erstens einen Einblick in dieses heterogene Feld linguistischer Forschung und versucht, die kommunikative Relevanz skripturaler Sichtbarkeit und damit auch die Relevanz des Gegenstandsbereichs für das Fach zu begründen. Zweitens diskutiert er mit Blick auf das Rahmenthema des vorliegenden Bandes die Frage, inwiefern sich (Inter-)Medialität und Visualität gegenseitig bedingen. Dabei soll weniger die kaum zu bestreitende These im Mittelpunkt stehen, dass sich die Medialität des Kommunikats in deren visueller Gestaltung niederschlägt (bzw. den Gestaltungsrahmen vorgibt), sondern es soll umgekehrt vor allem danach gefragt werden, ob und inwiefern Medialität durch (typo-)grafische Variation mitkonstruiert wird, inwiefern die Medialität also selbst das Produkt sozial verankerter kommunikativer Praktiken wie der Textgestaltung ist.
Der Beitrag nimmt die verbreitete Annahme einer besonderen Überzeugungskraft von Bildern zum Anlass, nach dem Ort einer solchen medienspezifischen Wirkungsweise im Rahmen einer pragmatischen Linguistik zu fragen. In exemplarischen Analysen wird gezeigt, wie Fotografien in journalistischen Printmedien eingesetzt werden, um Bedeutungen, die ihnen durch die umstehenden Texte ‚zugeschrieben‘ und so stabilisiert werden, ein besonderes Maß an Plausibilität zu verleihen. Dieser intermediale Evidenzeffekt wird als Prägnanz bezeichnet. Zu seiner theoretischen Begründung wird der Peircesche Begriff der Ikonizität mit dem Konzept der ‚ikonischen Differenz‘ aus der phänomenologischen Bildtheorie Gottfried Boehms verbunden. Denn beide stellen heraus, dass die wahrnehmbaren Eigenschaften der Zeichenform ein notwendiges Komplement zu symbolischen Schematisierungen im Prozess der Sinnkonstitution bilden. Diese Verschränkung zwischen Ikonizität und Symbolizität prägt sowohl die Konstitution dessen, was ein gegenständliches Bild in seinen Teilen wiedererkennbar zeigt, als auch dessen, was es als Ganzes – durch die Anordnung von Elementen auf einer begrenzten Fläche – darstellt. Die sichtbare Form dieser Anordnung wird als Grundlage für das besondere Prägnanzpotenzial von Bildern in der Zusammenstellung mit Texten identifiziert. Gestützt auf Beispiele wird zwischen einer schematischen und ikonischen Variante der Prägnanz unterschieden und das methodische Vorgehen reflektiert. Die pragmatische ‚Effektivität‘ der wahrnehmbaren Zeichenform, die in den Varianten der Prägnanz fassbar wird, ist allerdings nicht auf die intermediale Konstellation von Text und Bild beschränkt, weswegen der Beitrag mit dem Ausblick auf eine linguistische Phänomenologie der Textgestalt schließt.
Ausdrücke wie Globalisierung und Wirtschaftskrise sind Teil unserer öffentlichen Alltagssprache. Sie stehen für politische und soziokulturell brisante Debatten und ihre semantische Analyse zeigt den engen Zusammenhang zwischen Sprache und Gesellschaft. Der alltägliche Gebrauch solcher Ausdrücke etabliert gemeingesellschaftliche Diskurse, die mit korpuslinguistischen Verfahren analysierbar sind. In diesem Beitrag wird der Diskurs der Finanz- und Wirtschaftskrise in der öffentlichen Sprache von Zeitungstexten betrachtet. Zentrales Diskursobjekt ist der lexikalische Ausdruck Wirtschaftskrise selbst. Die Ermittlung relevanter Kontextbeziehungen, wie sie in Kollokationen vorhanden sind, und regelhafter Verwendungsmuster spielt für seine Beschreibung die wichtigste Rolle, da diese Indikatoren zum einen typische Thematisierungen sind und zum anderen Lexikalisierungen mit Bewertungspotenzial darstellen. Abschließend erfolgt eine kurze kritische Betrachtung der Dokumentation diskurs-relevanter Ausdrücke in deutschen Wörterbüchern der Gegenwartssprache.
Bislang bezeichnet der Ausdruck „Hypertext“ eher verschiedene Visionen von künftigen Schreib- und Lesetechnologien als ein klares Konzept. In diesem Aufsatz wird der Versuch unternommen, die mit Hypertext verbundenen innovativen Ideen aus textwissenschaftlicher Perspektive zu beschreiben und zu bewerten und damit zur Präzisierung des Hypertext-Konzepts beizutragen. In Abschnitt 2 werden zunächst die verschiedenen Bestimmungen des Verhältnisses von Text und Hypertext, die in der Literatur zu finden sind, erläutert und systematisiert. Auf dieser Basis werden in Abschnitt 3 begriffliche Differenzierung eingeführt, die es ermöglichen, Hypertexte als textuelle Gebilde mit ganz spezifischen Eigenschaften an einen pragmatisch und funktional fundierten Textbegriff anzubinden und damit textlinguistische Erkenntnisse und Kategorien für die interdisziplinär zu entwickelnde Hypertext-Rhetorik nutzbar zu machen. Abschnitt 4 setzt sich mit der sog. „Nicht- Linearität“ von Hypertexten auseinander. Ausgehend von Überlegungen zum Stellenwert der Sequenzierung von Teiltexten für die Erreichung kommunikativer Handlungsziele, führe ich eine terminologische Unterscheidung zwischen medialer und konzeptueller Linearität ein, die dem Merkmal „nicht-linear“ größere begriffliche Schärfe verleiht und es ermöglicht, Vorteile und Einsatzmöglichkeiten des Mediums „Hypertext“ im Vergleich zum Medium „Buch“ präzise zu fassen.
The paper deals with the conversion of linear text into non-linear hypertext. It discusses the following issues from a textlinguistic viewpoint: How to segment linear text into hypertext units? What are the guidelines for interrelating these hypertext units by hyperlinks? A two-stage conversion method will be proposed and illustrated by examples from the GRAMMIS project in which a German grammar book is transformed into hypertext: Within the first methodical stage (functional-holistic text analysis) the linear text is segmented and analyzed with regard to its structural properties. Within the second stage the resulting text segments are transformed into hypertext units and interrelated by hyperlinks in accordance with the results of the functional-holistic text analyses. The method is particularly useful for non-standardized text types, which cannot be converted automatically on the basis of form-oriented features.
Datenmanagement wird durch die Forschungsföderungsorganisationen (etwa in Horizon 2020 der EU, die Allianz der deutschen Wissenschaftsorganisationen oder in DFG geförderten Projekten) mehr und mehr Teil der Forschungslandschaft. Für die Computerlinguistik ist das Forschungsdatenmanagement aber auch Teil des Forschungsgebietes: Datenmodellierung und Transformation für die nachhaltige Datenspeicherung gehören in den Bereich der Texttechnologie und Textlinguistik, ebenso die Modellierung der beschreibenden Daten zu Datensätzen.
Die Erforschung von Sprache im öffentlichen Raum (Linguistic Landscapes, LL) hat sich in den vergangen 20 Jahren als Teilgebiet der Soziolinguistik, der Semiotik und anderer Disziplinen fest etabliert. Der vorliegende Band gibt einen Überblick zu zentralen Ansätzen der LL-Forschung mit einem Bezug zur deutschen Sprache. Die Beiträge stellen aktuelle Studien aus dem deutschsprachigen Raum, zu Deutsch als Minderheitensprache sowie aus Ländern mit einer ausgeprägten DaF-Tradition vor. Sie thematisieren sprachstrukturelle und soziolinguistische ebenso wie didaktische, methodische und technologische Aspekte. Damit trägt der Band zu einer Systematisierung der deutschsprachigen LL-Forschung bei, gibt Impulse für internationale Diskussionen und benennt wichtige Desiderata.