Refine
Year of publication
- 2019 (361) (remove)
Document Type
- Article (124)
- Part of a Book (110)
- Conference Proceeding (39)
- Book (34)
- Review (25)
- Part of Periodical (14)
- Other (9)
- Working Paper (4)
- Doctoral Thesis (1)
- Report (1)
Language
- German (250)
- English (106)
- Multiple languages (2)
- Ukrainian (2)
- Chinese (1)
Keywords
- Deutsch (144)
- Korpus <Linguistik> (65)
- Gesprochene Sprache (26)
- Sprache (19)
- Konversationsanalyse (17)
- Rezension (16)
- Automatische Sprachanalyse (15)
- Grammatik (15)
- Interaktion (15)
- Kommunikation (15)
Publicationstate
- Zweitveröffentlichung (164)
- Veröffentlichungsversion (137)
- Postprint (29)
- Erstveröffentlichung (2)
Reviewstate
- Peer-Review (148)
- (Verlags)-Lektorat (145)
- (Verlags-)Lektorat (2)
- Peer review (1)
- Peer-review (1)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (1)
Publisher
- de Gruyter (66)
- Leibniz-Institut für Deutsche Sprache (IDS) (33)
- Leibniz-Institut für Deutsche Sprache (20)
- Erich Schmidt (18)
- Narr Francke Attempto (11)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (9)
- Stauffenburg (8)
- Winter (8)
- Institut für Deutsche Sprache (7)
- Lang (6)
恩格尔巴特的梦:计算机是如何减轻我们阅读和写作负担的?
(2019)
In diesem Beitrag soll ein Nachschlagewerk zur arealen Variation in der Grammatik des Deutschen kurz vorgestellt werden: die in Form eines Online-Wikis erschienene „Variantengrammatik des Standarddeutschen“. Sie ist das Hauptergebnis einer langjährigen Zusammenarbeit der Projektgruppe „Variantengrammatik“ unter der Leitung der Autorin und der Autoren dieses Beitrags. Für das Projekt wurde ein areal gewichtetes und annotiertes Korpus erstellt, das aus Lokal- und Regionalteilen der Online-Ausgaben von 68 regional verbreiteten Zeitungen besteht. Die ausgewählten Zeitungen sind nach fünfzehn Arealen des zusammenhängenden deutschsprachigen Raums unterteilt. Das tokenisierte, lemmatisierte und nach Wortarten annotierte Gesamtkorpus, auf das sich die Variantengrammatik stützt, umfasst ca. 600 Millionen Wörter.
Dieser Beitrag zeigt, inwieweit im Projekt „Paronymwörterbuch“ korpuslinguistische und kognitiv-semantische Elemente bei der Entwicklung einer neuen Online-Ressource berücksichtigt wurden. Damit sollen lexikologische und lexikografische Aspekte miteinander erfolgreich verbunden und die Kluft zwischen linguistischer Theorie und redaktioneller Praxis etwas geschlossen werden. Konzeptuell ausgerichtete Angaben, die linguistische und enzyklopädische Informationen eng miteinander verknüpfen, werden in Korpusdaten ermittelt, interpretiert und z. T. abstrahiert. Sprachliches und außersprachliches Wissen lassen sich gemeinsam abspeichern. Dadurch ist es möglich, kontextuell abhängige sprachliche Informationen mit konzeptuellen Realisierungen und mit diskursiv-thematischen Besonderheiten zusammen nachzuschlagen. Darüber hinaus werden in diesem Beitrag anhand eines Beispiels wichtige dynamische Funktionalitäten des neuen Nachschlagewerkes „Paronyme – Dynamisch im Kontrast“ vorgestellt. So wird gezeigt, wie Artikelanordnungen variieren und verschiedene Perspektiven auf linguistische Phänomene eingenommen werden können. Um Informationen bedarfsgerecht und interessenspezifisch abrufen zu können, wurde eine multifunktionale Ressource geschaffen, die sehr flexibel auf verschiedene Nachschlagesituationen reagieren kann und den Bedürfnissen der Nutzer/innen gerechter wird.
Im Streit um Migration soll der Gebrauch von Disclaimern in erster Linie ein positives Bild des Produzenten liefern oder wenigstens Ansprüche auf die Berechtigung seiner kritischen Stellungnahme erheben, ohne dass der Produzent als Rassist abgestempelt wird. Im vorliegenden Beitrag werden die Ergebnisse einer Fallstudie über den Gebrauch eines solchen Disclaimers in Deutschland und in Italien zusammengefasst, nämlich von „Ich bin kein Rassist, aber“ und seiner italienischen Entsprechung „Non sono razzista, ma“. Es wird gezeigt, (i) wie diese Disclaimer zum Ausdruck ausländerkritischer Stellungnahmen verwendet werden und (ii) wie ihre Verwendung in der Öffentlichkeit wahrgenommen wird.
Der Beitrag beschreibt ein mehrfach annotiertes Korpus deutschsprachiger Songtexte als Datenbasis für interdisziplinäre Untersuchungsszenarien. Die Ressource erlaubt empirisch begründete Analysen sprachlicher Phänomene, systemischstruktureller Wechselbeziehungen und Tendenzen in den Texten moderner Popmusik. Vorgestellt werden Design und Annotationen des in thematische und autorenspezifische Archive stratifizierten Korpus sowie deskriptive Statistiken am Beispiel des Udo-Lindenberg-Archivs.
Статтю присвячено дослідженню комунікативних невдач у мовленнєвому жанрі відеоінтерв’ю крізь призму української національної ідентичності. Визначено тематику, типи і жанрово-мовну специфіку українського відеоінтерв’ю як зразка діалогічного мовлення. Встановлено специфіку комунікативних невдач у цьому жанрі (зі спортсменами, політиками і культурними діячами) з огляду на позиції комунікантів, структурні рівні досліджуваного жанру та максими спілкування.
Ein sehr mächtiges Instrument für die Untersuchung von Wörtern und Verwandtschaftsbeziehungen zwischen ihnen ist die Analyse typischer Verwendungskontexte - unabhängig davon, ob die Evidenzen auf Bedeutungskonstitution, ihre Veränderung oder Verwechslung hinweisen, drei Aspekte, die alle bei der Charakterisierung von Paronymie eine Rolle spielen. Auch wenn für die Ermittlung typischer Verwendungsmuster ausgereifte Methoden zur Verfügung stehen, so sollte beim Vergleich der Analysen doch beachtet werden, dass sie diversen Einflussgrößen unterliegen. Neben der Datengrundlage und der Definition und Handhabung des relevanten Kontextes wird im Folgenden besonders darauf eingegangen, welche Rolle verschiedene Teilmengen eines Flexionsparadigmas spielen können, wenn ein Lemma als dessen Gesamtmenge als sprachliche Bezugseinheit einer Untersuchung gewählt wurde. Veranschaulicht wird die Gedankenführung an der beispielhaften Betrachtung von Paronymkandidaten.
Der Sprachwissenschaft und der Soziologie eröffnen sich angesichts der Digitalisierung vielversprechende Räume zur produktiven Zusammenarbeit. In unserem Beitrag zeigen wir, dass eine sozialstrukturelle Perspektive auf die Online-Kommunikation neue Erkenntnisse uber das Verhältnis von sprachlichem Kapital und sozialer Ungleichheit generieren kann. In Teilen der Sozialtheorie dominiert die Auffassung, dass die sprachliche Praxis ein überwiegend eigendynamisches, von sozialstrukturellen Determinanten weitestgehend unabhängiges System sei. Fur ein umfassendes Verständnis der neuen digitalen Interaktionssphären erscheint jedoch eine systematische Berücksichtigung lagebedingter sprachlicher Fähigkeiten notwendig. Der Beitrag wird dies am Beispiel sozialer Medien veranschaulichen.
The article deals with communicative failures of journalists in “YouTube” celebrity video interviews in the Ukrainian and German linguacultures from the point of view of social interaction and the theory of speech genres at all structural levels of the communicative genre construction, establishing common and distinctive features in both linguacultures. The analysis made it possible to conclude that behind a language (speech) failure there is a violation caused by a journalist, a respondent, or an external noise.
Im vorliegenden Beitrag werden auf der Grundlage authentischer Alltagsinteraktionen die Funktionsspektren der Modalpartikeln 'eben' und 'halt' beschrieben. Es wird dargelegt, dass die Partikeln keinesfalls synonym verwendet werden, sondern distinktive Verwendungen aufweisen. Für 'halt' zeigen sich die drei prominenten Verwendungsweisen i) der Kohärenzherstellung, ii) der Verweis auf gemeinsames Wissen und iii) der Einsatz zur informationsstrukturellen (Beitrags-)Gliederung. 'Eben' wird ebenfalls häufig zur Kohärenzherstellung eingesetzt, und trägt darüber hinaus besonders häufig als strategische Ressource zur rhetorischen Verstärkung einer Argumentation oder Schlussfolgerung bei. Abschließend werden die in der Literatur oft behauptete Ersetzbarkeit von 'halt' durch 'eben' und umgekehrt sowie die häufig zugeschriebene Konnotation von Unabänderlichkeit und Sprecherresignation diskutiert.
Zwischen Perspektiven
(2019)
This article investigates the transitive-oblique alternation in German that involves the preposition an ‘at, on’, e.g. ein Buch schreiben ‘write a book’ vs. an einem Buch schreiben ‘work on / write a book’ (lit. write at a book). The crucial semantic difference between the two structures is the obligatory atelic interpretation of the prepositional an-variant. Based on a corpus study for twenty verbs that were discussed in the previous work, I revisit the assumptions that were made by Filip (1999). First, the incremental theme verbs like bauen ‘build’ or essen ‘eat’ appear only seldom with an. This questions the central role of incrementality as the semantic explanation for the acceptability of the an-variant. Second, selectional preferences of verbs differ in the two argument structures. This observation challenges the assumption that the an-phrase and the direct object are alternative syntactic realizations of the same verbal argument. Overall, this first corpus-based study of the an-construction reveals complex interactions between the semantics of individual verbs, verb classes and the meaning of the preposition an.
Innerhalb der für das Paronymprojekt aufgestellten Stichwortliste lassen sich zahlreiche Wortbildungsmuster erkennen. Deren Übereinstimmung von theoretischer Wortbildung und praktischem Sprachgebrauch soll in diesem Beitrag anhand von zehn auf -freit-los endender Paronympaare untersucht werden. Es wird gezeigt, dass diese Wortbildungsgruppe in vielfacher Hinsicht in sich heterogen ist. So lässt sich weder eine Präferenz für eine Endung ausmachen, noch entsprechen die Endungen einer einheitlichen Bedeutung. Auch werden die Paronyme mal synonym, mal teil-synonym und mal semantisch gänzlich unabhängig voneinander verwendet. In diesem Beitrag wird anhand von konkreten Korpusbeispielen gezeigt, wie unterschiedlich sich die einzelnen, mit gleichen Endungen gebildeten Paronympaare kontextuell verhalten.
In German linguistics, a traditional distinction is made between (i) prepositional objects (POs) and prepositional adverbials, and (ii), among the latter, between adverbial complements and adjuncts. As a contribution to the debate on points of contact and possible syntheses between valency-based and construction-based approaches to verb argument structure, a corpus-based constructionist account of German PO and PP adverbial verb argument structures involving the preposition vor ‘in front of’ is developed. It is argued that ‘desemanticised’ PO-uses of vor are markers of inherently meaningful verb argument structure constructions that form a transparently motivated network comprising both PO and PP adverbial patterns. Analyses are presented for five interrelated families of vor constructions within the overall network thus defined. Their meanings are shown to reflect an interplay of more concrete spatial meanings of the preposition and the lexical semantics of verbal fillers of these constructions. Once conventionalised, they are subject to regular processes of metaphorical and metonymic semantic extension that are tentatively unravelled to create an integrated semantic map of verbal vor-constructions in present day German.
This paper investigates two verbal constructions containing the German verb verdienen (‘to earn / deserve’), e.g. er verdient sich sein Brot ‘he earns his living’ (lit. he earns himself his bread) und er verdient gewürdigt zu werden ‘he deserves to be appreciated". It is shown that the notion of analogy allows for motivating some important features of particular constructions with verdienen. Two interpretations of analogy are employed: analogy in the sense of non-hierarchical family resemblance on the one hand, and analogy leading to changes by mapping a structure from one domain to another on the other hand. It is suggested that both verdienen in combination with sich and verdienen in combination with a verbal complement can be accounted for by focusing on their formal and semantic similarities connecting them to other constructions coming from the same construction family. Moreover, it is shown that versprechen and vermögen could be regarded as analogical models for verdienen.
Central complements: good arguments are self-explanatory.
Together with its central complements, verbs model basic patterns of interaction. The constellations of these complements in turn correspond to central patterns of the argument structure. Nominative and accusative complements formally occupy the first and second positions (subject and object), but they also have certain semantic preferences. The formal function of the dative is less pronounced, where it occurs (ditransitive verbs) the semantic imprint of the frame („transfer“) is very strong. This corresponds to the meaning of a core group of corresponding verbs. Other verbs that allow this pattern are used more often in other valence structures and the ditransitive use appears as a systematic way of personal extension of object‑related activities. This will be discussed with reference to the verbs zeigen and (in a different way) lehren.
The article shows how the topic of dictionaries can be dealt with in German language teaching and how this subject has the potential to acquaint learners with a descriptive and data-driven perspective on language. The project Denkwerk, realized as cooperation among the Institute for German Language, the University of Mannheim and two regional secondary schools, fostered the students’ intellectual
curiosity and their interest in discovering linguistic details. Using empirical methods like corpus analysis, pupils learned both how to write wiki-based dictionary articles on their own and how to publish them in the Denktionary, the dictionary of the project. Our contribution describes the didactic and organisational framework of the project, its aims and contents, its schedule of events, as well as the structure of dictionary articles in the Denktionary, and the observed advantages of such a wikibased system.
In this paper we present the results of a survey conducted among students of German Philology at Adam Mickiewicz University in Poznań in the years 2015–2017. The target group was composed of first-semester students from whom we collected data about their lexicographical competence at the start of the program. The results contain some interesting findings, e.g. students prefer online dictionaries, but the number of students using print dictionaries is comparable and we have also observed the rising number of students who use smartphone applications. The aim of the survey is to provide information for university instructors who teach German as a foreign language (DaF) and lexicography.
Wörterbuchartikel
(2019)
Diachrone Wortschatzveränderungen werden in der Regel exemplarisch anhand bestimmter Phänomene oder Phänomenbereiche untersucht. Wir widmen uns der Frage, ob und wie Wandelprozesse auch auf globaler Ebene, also ohne sich auf bestimmte Wortschatzausschnitte festzulegen, messbar sind. Zur Untersuchung dieser Frage nutzen wir das Spiegel-Korpus, in dem alle Ausgaben der Wochenzeitschrift seit 1947 enthalten sind. Dabei gehen wir auf grundlegende Herausforderungen ein, die es dabei zu lösen gilt, wie die Verteilung sprachlicher Daten und die Folgen unterschiedlicher Subkorpusgrößen, d.h. im konkreten Fall die variierende Größe des Spiegelkorpus über die Zeit hinweg. Wir stellen ein Verfahren vor, mit dem wir in der Lage sind, flankiert von einem „Lackmustest“ zur Überprüfung der Ergebnisse, Wortschatzwandelprozesse bis auf die Mikroebene, d.h. zwischen zwei Monaten oder gar Wochen, quantitativ nachzuvollziehen.
Wissenschaftspropädeutik und Lexikografie. Schüler machen Wörterbücher – Wörterbücher machen Schule
(2019)
Wird aus Sprache Gewalt?
(2019)
Nach dem Mord am Kasseler Regierungspräsidenten Walter Lübcke und weiteren Mordanschlägen in der jüngsten Vergangenheit wurde in Kommentaren und Stellungnahmen immer wieder behauptet, dass hier Sprache in Gewalt umgeschlagen sei. Dies ist einerseits naheliegend vor dem Hintergrund dessen, was wir über die Täter und ihre Äußerungen wissen. Was aber sagt die Wissenschaft dazu? Wie ist aus sprach- und kommunikationswissenschaftlicher Sicht dieser angenommene Zusammenhang zu bewerten?
This paper reports on the latest developments of the European Reference Corpus EuReCo and the German Reference Corpus in relation to three of the most important CMLC topics: interoperability, collaboration on corpus infrastructure building, and legal issues. Concerning interoperability, we present new ways to access DeReKo via KorAP on the API and on the plugin level. In addition we report about advancements in the EuReCo- and ICC-initiatives with the provision of comparable corpora, and about recent problems with license acquisitions and our solution approaches using an indemnification clause and model licenses that include scientific exploitation.
Forms of verbal violence, such as Hate Speech and Cyberbullying, currently are issues with high societal relevance. In the social discourse they are associated with brutalization of social interaction. Against this background it is necessary to integrate the topic into school lessons. This chapter outlines a teaching unit on verbal violence in the digital age. It has been developed together with students and can therefore be used in German classes but it is also relevant for use in academic teaching.
Im Mittelpunkt der vorliegenden Untersuchung stehen ausgewählte deutschsprachige Werbeslogans mit hohem Wiedererkennungswert und einer Tendenz zur Usualisierung im aktuellen Sprachgebrauch. Ihre angesichts des häufigen Gebrauchs durch zahlreiche Sprecher begründete bzw. angenommene lexikalische Verfestigung wird korpusinformiert anhand umfangreicher elektronischer Korpora validiert und rekonstruiert. Für die Beschreibung ihrer Verwendungsspezifik als eigenständige satzwertige Wortschatzeinheiten außerhalb der Domäne Werbung wird das Modell der usuellen Wortverbindungen sowie die korpuslinguistische Methodologie angewendet und mit weiteren qualitativen und quantitativen Methoden gekoppelt. In den detaillierten lexikografischen Beschreibungen ausgewählter Slogans werden sprachliche, kontextuelle und funktionale Aspekte dargestellt und die Mikrodiachronie ihres Gebrauchs in Zeitverlaufsgrafiken illustriert.
In this paper, we present WebAnno-MM, an extension of the popular web-based annotation tool WebAnno, which is designed for the linguistic annotation of transcribed spoken data with time aligned media files. Several new features have been implemented for our current use case: a novel teaching method based on pair-wise manual annotation of transcribed video data and systematic comparison of agreement between students. To enable the annotation of transcribed spoken language data, apart from technical and data model related challenges, WebAnno-MM offers an additional view to data: a (musical) score view for the inspection of parallel utterances, which is relevant for various methodological research questions regarding the analysis of interactions of spoken content.
Vorwort
(2019)
Vorwort
(2019)
Die Kategorie „Shitstorm“ ist eine Zuschreibung, die aus dem Diskurs unter den Interagierenden einerseits und den boulevardjournalistischen Berichten andererseits heraus entsteht. Die nachweislich heterogene Konstitution des diskursiven Phänomens scheint bei den Shitstorm-Etikettierungen vernachlässigt zu werden, vielmehr rücken die gezeigten negativen Emotionen in den Fokus. Im vorhegenden Aufsatz wird zunächst anhand einiger exemplarischer Shitstorms gezeigt, dass diese aus verschiedenen sprachlichen Handlungen und unterschiedlichen Werturteilen bestehen. Im Anschluss wird auf die mediale Berichterstattung eingegangen, die Äußerungen mit hohem Beleidigungspotenzial pars pro toto für den Diskurs behandelt und es werden mögliche Auswirkungen dieser Vorgehensweise skizziert, etwa im Hinblick auf die Wahrnehmung berechtigter Kritik.
Das Kombinieren von Daten aus verschiedenen diachronen Korpora bringt besondere methodische Herausforderungen mit sich, die in den vorliegenden Untersuchungen beleuchtet werden. Dazu gehört der Abgleich von Metadaten und ihrer Kategorisierungen, das Verhalten bekannter Phänomene über sich zeitlich überschneidende Korpora hinweg und die Formulierung vergleichbarer Suchabfragen. Anhand von sechs Fallstudien zu graphematischen, lexikalischen, morphologischen und syntaktischen Phänomenen in Korpora des (Früh-) Neuhochdeutschen werden Möglichkeiten und Probleme des diachron korpusübergreifenden Arbeitens herausgearbeitet.
Im vorliegenden Beitrag werden Sagbarkeitsphänomene aus dem Social Web vorgestellt, die als brisante Daten eingestuft werden. Dabei werden intraterritoriale Selbstoffenbarungsphänomene von extraterritorialen Phänomenen unterschieden, die dazu beitragen, andere Personen zu diskreditieren und zu verleumden. Angesicht der spezifischen Kommunikationsbedingungen im World Wide Web wird der Sagbarkeitsraum kontinuierlich erweitert. Dabei spielt die Diffusion der beiden Aktionsräume Handlungsraum und Zeigeraum eine prominente Rolle. Als Aufgabe für die Linguistik wird herausgearbeitet, die Konturen dieser Räume für die Wahrnehmung der Sprachbenutzer*innen zu schärfen.
Nach dem Mord am Kasseler Regierungspräsidenten Walter Lübcke und weiteren Mordanschlägen in der jüngsten Vergangenheit wurde in Kommentaren und Stellungnahmen immer wieder behauptet, dass hier Sprache in Gewalt umgeschlagen sei. Dies ist einerseits naheliegend vor dem Hintergrund dessen, was wir über die Täter und ihre Äußerungen wissen. Was aber sagt die Wissenschaft dazu?
Die 21. Arbeitstagung zur Gesprächsforschung mit dem Rahmenthema „Vergleichende Gesprächsforschung“ fand vom 21.–23. März 2018 am Institut für Deutsche Sprache in Mannheim statt. Das Ziel der Tagung war es, Forscherinnen und Forscher zusammenzubringen, die authentische Interaktionsdaten aus vergleichender Perspektive untersuchen. Das Rahmenthema der Tagung ergab sich aus dem steigenden Interesse an vergleichenden Fragestellungen innerhalb konversations- und gesprächsanalytischer Untersuchungen. Die Tagung nahm gezielt Vorgehensweisen und Methoden bei der Durchführung vergleichender Untersuchungen in den Blick. Die Vorträge, Projektpräsentationen und Datensitzungen erörterten 1. das Vergleichen als analytische Grundoperation der Konversations- und Gesprächsanalyse, 2. Vergleiche alternativer Ressourcen und Praktiken für spezifische Handlungen und Aktivitäten in der Interaktion sowie 3. methodologische Herausforderungen einer vergleichenden Gesprächsforschung.
In this paper, we investigate the temporal interpretation of propositional attitude complement clauses in four typologically unrelated languages: Washo (language isolate), Medumba (Niger-Congo), Hausa (Afro-Asiatic), and Samoan (Austronesian). Of these languages, Washo and Medumba are optional-tense languages, while Hausa and Samoan are tenseless. Just like in obligatory-tense languages, we observe variation among these languages when it comes to the availability of so-called simultaneous and backward-shifted readings of complement clauses. For our optional-tense languages, we argue that a Sequence of Tense parameter is active in these languages, just as in obligatory-tense languages. However, for completely tenseless clauses, we need something more. We argue that there is variation in the degree to which languages make recourse to res-movement, or a similar mechanism that manipulates LF structures to derive backward-shifted readings in tenseless complement clauses. We additionally appeal to cross-linguistic variation in the lexical semantics of perfective aspect to derive or block certain readings. The result is that the typological classification of a language as tensed, optionally tensed, or tenseless, does not alone determine the temporal interpretation possibilities for complement clauses. Rather, structural parameters of variation cross-cut these broad classes of languages to deliver the observed cross-linguistic picture.
Variation im Sprachgebrauch - 'angenommen' und 'vorausgesetzt' als einbettende Prädikatsausdrücke
(2019)
In this paper, we describe a data processing pipeline used for annotated spoken corpora of Uralic languages created in the INEL (Indigenous Northern Eurasian Languages) project. With this processing pipeline we convert the data into a loss-less standard format (ISO/TEI) for long-term preservation while simultaneously enabling a powerful search in this version of the data. For each corpus, the input we are working with is a set of files in EXMARaLDA XML format, which contain transcriptions, multimedia alignment, morpheme segmentation and other kinds of annotation. The first step of processing is the conversion of the data into a certain subset of TEI following the ISO standard ’Transcription of spoken language’ with the help of an XSL transformation. The primary purpose of this step is to obtain a representation of our data in a standard format, which will ensure its long-term accessibility. The second step is the conversion of the ISO/TEI files to a JSON format used by the “Tsakorpus” search platform. This step allows us to make the corpora available through a web-based search interface. As an addition, the existence of such a converter allows other spoken corpora with ISO/TEI annotation to be made accessible online in the future.
Der Beitrag ist die Verschriftlichung der Laudatio, die die Autorin anlässlich des Festaktes zum 90. Geburtstag von Prof. Dr. Dr. h.c. mult. Ulrich Engel am Leibniz‑Institut für Deutsche Sprache (=IDS) gehalten hat. Es handelt sich um eine persönliche Sicht auf fast drei Dekaden Forschungsarbeit, in denen zwischen Engel und der Germanistischen Abteilung der Universität Santiago de Compostela eine sehr enge Forschungskooperation bestand.
Umfrage zu Sprachen und Dialekten in Pfalzdorf, Louisendorf und Neulouisendorf. Erste Ergebnisse
(2019)
This paper presents types and annotation layers of reply relations in computer- mediated communication (CMC). Reply relations hold between post units in CMC interactions and describe references from one given post to a previous post. We classify three types of reply relations in CMC interactions: first, technical replies, i. e. the possibility to reply directly to a previous post by clicking a ‘reply’ button; second, indentations, e. g. in wiki talk pages in which users insert their contributions in the existing talk page by indenting them and third, interpretative reply relations, i. e. the reply action is not realised formally but signalled by other structural or linguistics means such as address markers ‘@’, greetings, citations and/or Q-A structures. We take a look at existing practices in the description and representation of such relations in corpora and examples of chat, Wikipedia talk pages, Twitter and blogs. We then provide an annotation proposal that combines the different levels of description and representation of reply relations and which adheres to the schemas and practices for encoding CMC corpus documents within the TEI framework as defined by the TEI CMC SIG. It constitutes a prerequisite for correctly identifying higher levels of interactional relations such as dialogue acts or discussion trees.
We propose a Cross-lingual Encoder-Decoder model that simultaneously translates and generates sentences with Semantic Role Labeling annotations in a resource-poor target language. Unlike annotation projection techniques, our model does not need parallel data during inference time. Our approach can be applied in monolingual, multilingual and cross-lingual settings and is able to produce dependencybased and span-based SRL annotations. We benchmark the labeling performance of our model in different monolingual and multilingual settings using well-known SRL datasets. We then train our model in a cross-lingual setting to generate new SRL labeled data. Finally, we measure the effectiveness of our method by using the generated data to augment the training basis for resource-poor languages and perform manual evaluation to show that it produces high-quality sentences and assigns accurate semantic role annotations. Our proposed architecture offers a flexible method for leveraging SRL data in multiple languages.
We report on a new project building a Natural Language Processing resource for Zulu by making use of resources already available. Combining tagging results with the results of morphological analysis semi-automatically, we expect to reduce the amount of manual work when generating a finely-grained gold standard corpus usable for training a tagger. From the tagged corpus, we plan to extract verb-argument pairs with the aim of compiling a verb valency lexicon for Zulu.
Tourlex: ein deutsch-italienisches Fachwörterbuch zur Tourismussprache für italienische DaF-Lerner
(2019)
Tourlex is a specialized bilingual online dictionary under construction hosted at the University of Mannheim with a particular focus on collocations and multi-word units. The languages included are German and Italian, but because of the need for online dictionaries of tourism language (Flinz 2015: 56) the framework is open to the inclusion of other languages. Tourlex is a corpus-based dictionary, i.e. the primary sources will be corpora, in particular a proper bilingual comparable corpus analysed with the tools Sketch Engine and Lexpan, and the freely accessible corpus DeReKo. The aim of this paper is to give an overview of the main actions (already done but also in planning), according to the phases of the lexicographical process of a dictionary under construction. The description of each phase will be enriched by examples taken from the project, showing also how the decisions taken to satisfy the needs of the user, the Italian learner of German as a foreign language, had influenced the microstructure of the entries. We conclude with a final reflection on the data, facts, and ongoing problems.