Refine
Year of publication
- 2018 (152) (remove)
Document Type
- Article (71)
- Part of a Book (46)
- Conference Proceeding (21)
- Review (7)
- Book (4)
- Part of Periodical (2)
- Periodical (1)
Keywords
- Deutsch (49)
- Korpus <Linguistik> (29)
- Konversationsanalyse (16)
- Gesprochene Sprache (13)
- Interaktion (13)
- Multimodalität (11)
- Grammatik (10)
- Computerlinguistik (9)
- Interaktionsanalyse (9)
- conversation analysis (8)
Publicationstate
- Veröffentlichungsversion (90)
- Zweitveröffentlichung (50)
- Postprint (27)
Reviewstate
- Peer-Review (152) (remove)
Publisher
- de Gruyter (16)
- European language resources association (ELRA) (13)
- Erich Schmidt (11)
- Verlag für Gesprächsforschung (8)
- Znanstvena založba Filozofske fakultete Univerze v Ljubljani / Ljubljana University Press, Faculty of Arts (7)
- Heidelberg University Publishing (5)
- Springer (5)
- Association for Computational Linguistics (4)
- Institut für Deutsche Sprache (4)
- Cambridge University Press (3)
In Beispielen wie
(1) Du hast scheints / Weiß Gott nichts begriffen.
(2) It cost £200, give or take.
(3) Qu’est ce qu’il a dit?
werden verbale Konstruktionen (kurz: VK, hier jeweils die fett gesetzten Teile) in einer Weise gebraucht, die der Grammatik verbaler Konstruktionen zuwiderläuft. In (1) und (2) wird die verbale Konstruktion wie ein Adverb/eine Partikel gebraucht bzw. wie ein Ausdruck in der Funktion eines (adverbialen) Adjunkts/ Supplements. In (3) ist die verbale Konstruktion zum Bestandteil einer periphrastischen interrogativen Konstruktion geworden. Wie sind solche ‘Umfunktionalisierungen’ – wie ich das Phänomen zunächst vortheoretisch bezeichnen möchte – einzuordnen? Handelt es sich um Lexikalisierung oder um Grammatikalisierung? Oder um ein Phänomen der dritten Art? Die Umfunktionalisierung verbaler Syntagmen bzw. Konstruktionen – ich gebrauche die Abkürzung UVK für ‘umfunktionalisierte verbale Konstruktion(en)’ – ist ein bisher weniger gut untersuchtes Phänomen, etwa gegenüber der Umfunktionalisierung von Präpositionalphrasen, die sprachübergreifend zu komplexen, „sekundären“ Präpositionen werden können (man vergleiche DEU auf Grund + Genitiv / von, ENG on top of, FRA à cause de).
All linguistics should be media linguistics, but it is not. This thesis is presented by using linguistic landscapes as an example. LL research does not belong to the traditional core of either mainstream linguis-tics or media linguistics. This is why not everything within power has been done yet to make full use of their thematic, conceptual and methodological possibilities. Visible signs in public space, however, are an everyday phenomenon. You have to pull out all the stops to research them extensively. The distinction between linguistics and media linguistics turns out to be counterproductive. But this does not only apply to the case of linguistic landscapes. It also stands for any comprehensive investigation of language and language use. (Ex-ceptions may be very narrow questions for specific purposes.) The above thoughts are supported by a database of the project „Metro-polenzeichen“ with more than 25.000 systematically collected, ge-ocoded and tagged photographs.
Am Beispiel von zwei Fallstudien wird die Frage der Generalisierbarkeit von an einer Einzelsprache gewonnenen Erkenntnissen über Verknüpfungselemente (Konnektoren) und konnektorale Strukturen aufgeworfen. Empirisch geht es zum einen um die Topologie von Adverbkonnektoren, zum anderen um das Verhältnis zwischen Adverbkonnektoren, Subjunktoren (bzw. Untersatzeinleitern) und den ihnen zugrundeliegenden Präpositionen. Methodischer Ausgangspunkt sind jeweils die Analysen und Klassifikationen des HDK, also ein dezidiert auf das Deutsche bezogener Ansatz. Es soll gezeigt werden, dass die feinkörnige einzelsprachliche Analyse, wie sie das HDK bietet, mit Gewinn auch auf andere europäische Sprachen, hier Englisch, Französisch und am Rande auch Polnisch, adaptiert werden kann, wenn die Rahmenbedingungen stimmen, also zugrundeliegende funktionale komparative Konzepte und sprachspezifische Strukturprinzipien beachtet werden. Dann ist auch ein Zugewinn für die Beschreibung des Deutschen zu erwarten.
Just like most varieties of West Germanic, virtually all varieties of German use a construction in which a cognate of the English verb 'do' (standard German 'tun') functions as an auxiliary and selects another verb in the bare infinitive, a construction known as 'do'-periphrasis or 'do'-support. The present paper provides an Optimality Theoretic (OT) analysis of this phenomenon. It builds on a previous analysis by Bader and Schmid (An OT-analysis of 'do'-support in Modern German, 2006) but (i) extends it from root clauses to subordinate clauses and (ii) aims to capture all of the major distributional patterns found across (mostly non-standard) varieties of German. In so doing, the data are used as a testing ground for different models of German clause structure. At first sight, the occurrence of 'do' in subordinate clauses, as found in many varieties, appears to support the standard CP-IP-VP analysis of German. In actual fact, however, the full range of data turn out to challenge, rather than support, this model. Instead, I propose an analysis within the IP-less model by Haider (Deutsche Syntax - generativ. Vorstudien zur Theorie einer projektiven Grammatik, Narr, Tübingen, 1993 et seq.). In sum, the 'do'-support data will be shown to have implications not only for the analysis of clause structure but also for the OT constraints commonly assumed to govern the distribution of 'do', for the theory of non-projecting words (Toivonen in Non-projecting words, Kluwer, Dordrecht, 2003) as well as research on grammaticalization.
Digitale Medien haben zu einer folgenreichen Veränderung politischer Diskurse beigetragen: Bürgerinnen und Bürger haben nunmehr die Möglichkeit eines direkten und permanenten Dialogs mit politisch Agierenden. Diese wiederum haben soziale Netzwerke als „wirkungsvolle Kommunikationsform für sich entdeckt“ (Kneuer 2017, S.46). Damit haben sich auch die politischen Partizipationsmöglichkeiten verändert. Neben den konventionellen Partizipationsformen erfahren die Bürgerinnen und Bürger nach der Erweiterung in den 1960er Jahren durch nicht institutionalisierte Formen (Woyke 2013) heute eine weitere Form der politischen Teilhabe durch digitale Medien.
Dieser Beitrag stellt einen Versuch dar, ein graphematisches Prinzip auf Handschriften anzuwenden und argumentiert, dass die Betrachtung von Handschriften unterstützende Evidenzen für graphematische Theorien liefern kann. Exemplarisch wird dazu die graphematische Längenhierarchie ausgewählt. Die Längenhierarchie ist ein gut beschriebenes Phänomen in der deutschen Schriftsprache. Bislang wurde sie jedoch nur für Druckschriften aufgestellt. Der vorliegende Artikel untersucht die Möglichkeit, eine Längenhierarchie für Handschriften aufzustellen und stützt sich dabei besonders auf die Schulausgangsschriften. Insbesondere werden Unterschriften betrachtet, die als eine Extremform der Handschriftlichkeit interpretiert werden. Ich gehe davon aus, dass nichts so häufig handgeschrieben wird wie die eigene Unterschrift und dass deshalb dort Prinzipien eines „ökonomischen Schreibens“ am deutlichsten auftreten werden, d.h. dass die Schreibungen, die besonders wichtig für das Lesen sind auch besonders deutlich geschrieben werden und die rezeptiv vernachlässigbaren Strukturen weniger deutlich. Hierzu wird die Alltagsbeobachtung analysiert, dass in Unterschriften oft die langen Buchstaben besonders deutlich und die kompakten Buchstaben eher undeutlich produziert werden, sie werden nivelliert. Es zeigt sich, dass die Häufigkeiten der Nivellierungen jedes Buchstabens auf eine skalare Verteilung der Buchstaben hindeuten. Damit wird die Idee einer Längenhierarchie und einer graphematischen Silbe als Leseerleichterung gestützt.
Contents:
1. Christoph Kuras, Thomas Eckart, Uwe Quasthoff and Dirk Goldhahn: Automation, management and improvement of text corpus production, S. 1
2. Thomas Krause, Ulf Leser, Anke Lüdeling and Stephan Druskat: Designing a re-usable and embeddable corpus search library, S. 6
3. Radoslav Rábara, Pavel Rychlý and Ondřej Herman: Distributed corpus search, S. 10
4. Adrien Barbaresi and Antonio Ruiz Tinoco: Using elasticsearch for linguistic analysis of tweets in time and space, S. 14
5. Marc Kupietz, Nils Diewald and Peter Fankhauser: How to Get the Computation Near the Data: Improving data accessibility to, and reusability of analysis functions in corpus query platforms, S. 20
6. Roman Schneider: Example-based querying for specialist corpora, S. 26
7. Paul Rayson: Increasing interoperability for embedding corpus annotation pipelines in Wmatrix and other corpus retrieval tools, S. 33
Der Beitrag beschäftigt sich mit der Interaktion zwischen blinden und sehenden Personen bei der kooperativen Anfertigung einer Audiodeskription. Eine Audio-deskription ist die verbale Beschreibung visueller Inhalte für Sehbeeinträchtigte und stellt eine Sonderform der Translation dar. Auf der Basis von Videodaten wird die Kooperation eines Dreierteams mit den Verfahren der multimodalen Interaktionsanalyse untersucht. Ein Charakteristikum dieser Kooperation besteht darin, dass eines der Teammitglieder blind ist und die beiden anderen sehen können. Das Erkenntnisinteresse richtet sich besonders auf die professionelle Beteiligung des blinden Teammitglieds an der Interaktion. Die Analyse zeigt, wie Blindheit als Ressource für die kooperative Herstellung der Audiodeskription genutzt wird und wie die Beteiligten in einer visuell asymmetrischen Situation interagieren. Der Beitrag ist eine der seltenen Untersuchungen, die sich mit professioneller Interaktion zwischen Blinden und Sehenden beschäftigen. Er diskutiert Aspekte von genereller Relevanz für die weitere Entwicklung der empirischen Interaktionsforschung, vor allem in Bezug auf eine Erweiterung von Beteiligungsperspektiven in Richtung Inklusion.
In the past two decades, more and more dictionary usage studies have been published, but most of them deal with questions related to what users appreciate about dictionaries, which dictionaries they use and what type of information they need in specific situations — presupposing that users actually consult lexicographic resources. However, language teachers and lecturers in linguistics often have the impression that students do not use enough high-quality dictionaries in their everyday work. With this in mind, we launched an international cooperation project to collect empirical data to evaluate what it is that students actually do while attempting to solve language problems. To this end, we applied a new methodological setting: screen recording in conjunction with a thinking-aloud task. The collected empirical data offers a broad insight into what users really do while they attempt to solve language-related tasks online.
Die „21. Arbeitstagung zur Gesprächsforschung“ mit dem Rahmenthema „Vergleichende Gesprächsforschung“ fand vom 21.-23. März 2018 am Institut für Deutsche Sprache in Mannheim statt. Das Ziel der Tagung war es, Forscherinnen und Forscher zusammenzubringen, die authentische Interaktionsdaten aus vergleichender Perspektive untersuchen. Das Rahmenthema der Tagung ergab sich aus dem steigenden Interesse an vergleichenden Fragestellungen innerhalb konversations- und gesprächsanalytischer Untersuchungen. Die Tagung nahm gezielt Vorgehensweisen und Methoden bei der Durchführung vergleichender Untersuchungen in den Blick. Die Vorträge1, Projektpräsentationen und Datensitzungen erörterten 1. das Vergleichen als analytische Grundoperation der Konversations- und Gesprächsanalyse, 2. Vergleiche alternativer Ressourcen und Praktiken für spezifische Handlungen und Aktivitäten in der Interaktion sowie 3. methodologische Herausforderungen einer vergleichenden Gesprächsforschung.
We present ESDexplorer (https://owid.shinyapps.io/ESDexplorer), a browser application which allows the user to explore the data from a large European survey on dictionary use and culture. We built ESDexplorer with several target groups in mind: our cooperation partners, other researchers, and a more general public interested in the results. Also, we present in detail the architecture and technological realisation of the application and discuss some legal aspects of data protection that motivated some architectural choices.
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), zugänglich über die Datenbank für Gesprochenes Deutsch (DGD), strebt den Status eines Referenzkorpus für den aktuellen mündlichen Sprachgebrauch im deutschen Sprachraum an. Es enthält einen wachsenden Bestand von Audio- und Videoaufnahmen authentischer Gespräche aus verschiedenen Bereichen des gesellschaftlichen Lebens. Die Dokumentation und Repräsentation von Interaktions- und Sprecherinformationen sind bereits seit den Anfängen des Korpusaufbaus integrale Bestandteile von FOLK. Allerdings lag bislang kein ausgearbeitetes, empirisch erprobtes und vollständig in die Korpusinfrastruktur integrierbares Stratifikationskonzept vor. Mit dem vorliegenden Artikel wird ein solches Konzept vorgeschlagen. Es knüpft an frühere Konzeptionen an und wurde anhand der vorhandenen Daten überprüft, korrigiert und erweitert. Dieser Prozess verlief parallel zur Überarbeitung des XML-Schemas zur Metadatendokumentation, um die konkrete Implementierung vorzubereiten. Im Anschluss an eine Skizzierung genereller Aspekte des Korpusdesigns werden die stratifikationsleitenden und ergänzenden Parameter vorgestellt und erläutert. Abschließend werden Ansätze und Strategien zum Korpusausbau diskutiert.
Two empirical studies were carried out in the project „Lexik des gesprochenen Deutsch” (LeGeDe) at the Institute for the German Language (IDS) in Mannheim. The main goal of these studies was to shed light on people’s expectations of the planned lexicographical online-resource. In the first study, selected experts were interviewed in the form of a guided interview. In the second study, a broader online survey was conducted, which should reach a wider range of potential users. This contribution introduces the basic concepts of the project LeGeDe, outlines the two studies and presents selected results on four subject blocks: (i) sociodemographic data, (ii) personal use of (online) dictionaries, (iii) individual experience with the lexis of spoken language and (iv) expectations concerning a lexicographical online-resource for spoken German.
Using the Google Ngram Corpora for six different languages (including two varieties of English), a large-scale time series analysis is conducted. It is demonstrated that diachronic changes of the parameters of the Zipf–Mandelbrot law (and the parameter of the Zipf law, all estimated by maximum likelihood) can be used to quantify and visualize important aspects of linguistic change (as represented in the Google Ngram Corpora). The analysis also reveals that there are important cross-linguistic differences. It is argued that the Zipf–Mandelbrot parameters can be used as a first indicator of diachronic linguistic change, but more thorough analyses should make use of the full spectrum of different lexical, syntactical and stylometric measures to fully understand the factors that actually drive those changes.
Instruction practices in German driving lessons: Differential uses of declaratives and imperatives
(2018)
Building on а corpus of 70 hours of German driving lessons, this paper studies the use of declaratives vs. imperatives for instruction. It shows how these linguistic resources are adapted to different praxeological, temporal and participant-related environments. Declaratives are used for first instructions, task-setting and post- trial discussions. They exhibit complex syntax and do not call for immediate compliance. Their high degree of explicitness conveys how the action is to be carried out. Imperative instructions overwhelmingly correct ongoing actions of students or respond to their failure to produce expected actions. They exhibit minimal argument structure. They are reminders which presuppose that the student monitors the scene and can perform the action unproblematically. They index that requests have to be complied with immediately or even urgently.
Mit dem hier besprochenen Band liegt eine Monographie zu Pennsylvania Dutch(Pennsylvania German, Pennsylvania-Deutsch; im Weiteren auch PD) vor, die sowohl die Entstehungsbedingungen und -verläufe und den soziohistorischen, soziopolitischen und religionsbezogenen Kontext seiner Entwicklung als auch seine sprachlichen und literarischen Formen, seine historische und heutige gesellschaftliche Stellung und Verwendung umfassend und gründlich darstellt. Louden wendet sich dabei nicht nur an ein linguistisches Fachpublikum, sondern auch an LeserInnen ohne eine speziell linguistische Vorbildung. Dementsprechend werden für die Darstellung relevante linguistische Konzepte eingeführt und erklärt. Ein umfassendes Stichwortverzeichnis macht die Monographie gut erschließbar, und die umfangreiche Bibliographie ermöglicht es, sich weitergehend zu allen angesprochenen Themen zu informieren. Die Endnoten werden strategisch gut eingesetzt, da sie nicht nur fachwissenschaftliche ‚Unterfütterung‘ bieten, sondern auch dazu genutzt werden, alle zitierten Quellentexte sowohl auf Englisch als auch in der (pennsylvania-)deutschen Originalfassung zur Verfügung zu stellen.
Der folgende Beitrag fokussiert die kommunikative Praktik „Fragen“ im Beratungsformat Führungskräfte-Coaching. Fragen stellen laut Praxis-Literatur und Ausbildungsmanualen zu Coaching ein, wenn nicht das, zentrale Interventionsinstrumentarium dar. Trotz dieser formulierten Omnipräsenz und Omnirelevanz gibt es bis dato kaum empirische Erkenntnisse über die tatsächliche Verwendung von Fragen im Coaching. Fragen sind weder in der quantitativ operierenden, psychologischen Wirksamkeits- bzw. Outcome-Forschung noch in der qualitativ operierenden, linguistischen Prozessforschung (zentraler) Forschungsgegenstand. Diese Forschungslücke gilt es im Austausch mit der Praxis und unter Einbezug aller relevanten Disziplinen und Methoden zu schließen. In einem ersten vorbereitenden Schritt macht es sich der vorliegende programmatische Beitrag zur Aufgabe, das Phänomen „Fragen im Coaching“ als Forschungsgegenstand der linguistischen
Gesprächsanalyse zu etablieren. Fragen im Coaching werden dabei sowohl bezüglich ihrer Form, ihrer Funktion als auch als institutionsspezifische soziale Praktik diskutiert, wobei Erkenntnisse zur Verwendung von Fragen in benachbarten professionellen Gesprächen wie Psychotherapie oder Arzt-Patient-Kommunikation als erste Orientierung herangezogen werden. Im Zentrum der gesprächsanalytischen Diskussion steht der Beitrag, den Frage-Sequenzen zur Veränderung und damit zur lokalen Wirksamkeit von Coaching leisten. Der Artikel endet mit einer kritischen Evaluation der Möglichkeiten einer gesprächsanalytischen Erforschung von Frage-Sequenzen und skizziert den Mehrwert von interprofessioneller und interdisziplinärer, insbesondere linguistischer und psychologischer, Forschung für die Coaching-Praxis.
Anglizismen sind im Wortschatz der deutschen Gegenwartssprache allgegenwärtig und durchdringen mittlerweile alle Bereiche der Gesellschaft. Dabei bezeichnen sie sowohl einen grundlegenden gesellschaftlichen wie einen sprachlichen Wandel, der sich auch in der Orthografie niederschlägt. Der Beitrag analysiert den Schreibusus in professioneller und informeller Schriftlichkeit vor allem von neueren Anglizismen der letzten 20 Jahre und beschreibt anhand paradigmatischer Beispiele auf der Basis der derzeit umfangreichsten digitalen Textkorpora die aktuellen Entwicklungen von Fremdwortschreibung und Fremdwortgebrauch im Spannungsfeld von Isolation und Integration.
Drawing on research from conversation analysis and developmental psychology, we point to the existence of “supporters” of morally responsible agency in everyday interaction: causes of our behavior that we are often unaware of, but that would make goodenough reasons for our actions, were we made aware of them.
This paper investigates the conditions that govern the choice between the German neuter singular relative pronouns das ‘that’ and was ‘what’. We show that das requires a lexical head noun, while in all other cases was is usually the preferred option; therefore, the distribution of das and was is most successfully captured by an approach that does not treat was as an exception but analyzes it as the elsewhere case that applies when the relativizer fails to pick up a lexical gender feature from the head noun. We furthermore show how the non-uniform behavior of different types of nominalized adjectives (positives allow both options, while superlatives trigger was) can be attributed to semantic differences rooted in syntactic structure. In particular, we argue that superlatives select was due to the presence of a silent counterpart of the quantifier alles ‘all’ that is part of the superlative structure.
Der vorliegende Aufsatz untersucht Ausbildungsinteraktionen in zwei beruflichen Qualifizierungsmaßnahmen für Flüchtlinge. Solche Maßnahmen werden seit 2015 verstärkt angeboten, um die Geflüchteten möglichst umfassend und zügig auf eine Arbeitsaufnahme in Deutschland vorzubereiten. Im Kontext einer ethnografischen Studie untersuchen wir mit Methoden der multimodalen Interaktionsanalyse, a) wie in Anleitungsgesprächen Verständigungsprobleme zwischen deutschen Anleitern und auszubildenden Flüchtlingen entstehen und b) welche sprachlich-kommunikativen Praktiken zu ihrer Bearbeitung eingesetzt werden. Dabei lassen sich ebenso gelungene wie Probleme erzeugende Kommunikationspraktiken feststellen. Da die meisten Geflüchteten zu Beginn der untersuchten Maßnahmen noch keine Integrationskurse besucht hatten und nur über wenige Deutschkenntnisse verfügten, liegt der primäre Fokus der Analyse auf der Beteiligungsweise der Ausbilder, betrachtet diese aber im sequenziellen Kontext der Interaktionsbeteiligung der auszubildenden Flüchtlinge. Die Untersuchung beruht auf 22 Stunden Videoaufnahmen praktischer Ausbildungen.
Response particles manage intersubjectivity. This conversation analytic study describes German eben (“exactly”). With eben, speaker A locally agrees with the immediately prior turn of B (the “confirmable”) and establishes a second indexical link: A relates B’s confirmable to a position A herself had already displayed (the “anchor”). Through claiming temporal priority, eben speakers treat a just-formulated position as self-evident and mark independence. Further evidence for the three-part structure “anchor-confirmable-eben” that eben sets in motion retrospectively comes from instances where eben speakers supply a missing/opaque anchor via a postpositioned display of independent access. Data are in German with English translation.
This paper studies the morphological productivity of German N+N compounding patterns from a diachronic perspective. It argues that the productivity of compounds increases due to syntactic influence from genitive constructions (“improper compounds”) in Early New High German. Both quantitative and qualitative productivity measures are adapted from derivational morphology and tested on compound data from the Mainz Corpus of (Early) New High German (1500–1710).
Deutschland sieht sich in den nächsten Jahren vor enorme Herausforderungen gestellt. Mit der Fluchtmigration von knapp 1,5 Millionen Menschen alleine zwischen den Jahren 2014 und 2017 stehen nahezu in jedem gesellschaftlichen Bereich, und hier insbesondere in den Sektoren Bildung und Arbeit, große Integrationsaufgaben an. Steven Vertovec (2015), der Leiter des Max-Planck-Instituts zur Erforschung multireligiöser und multiethnischer Gesellschaften, bezeichnet die Fluchtmigration von 2015 auch deshalb als die „zweite Wende“ für Deutschland, die das Land nachhaltig verändern wird. Nach seiner Einschätzung sind die erwartbaren gesellschaftlichen Transformationen von solch einer Größenordnung, dass die Formulierung „seit der Flüchtlingskrise“ eine ebenso geläufige Redewendung sein wird wie die Formulierung „seit der Wende“. Um diese gegenwärtigen Migrations- und Integrationsprozesse von Anfang an dokumentieren und analysieren zu können, wurde am Institut für Deutsche Sprache (IDS) zu Beginn des Jahres 2016 das Projekt „Deutsch im Beruf: Die sprachlich-kommunikative Integration von Flüchtlingen“ gestartet, dessen erste Ergebnisse das vorliegende Themenheft präsentiert.
Grammar and corpora 2016
(2018)
In recent years, the availability of large annotated and searchable corpora, together with a new interest in the empirical foundation and validation of linguistic theory and description, has sparked a surge of novel and interesting work using corpus-based methods to study the grammar of natural languages. However, a look at relevant current research on the grammar of the Germanic, Romance, and Slavic languages reveals a variety of different theoretical approaches and empirical foci, which can be traced back to different philological and linguistic traditions. Still, this current state of affairs should not be seen as an obstacle but as an ideal basis for a fruitful exchange of ideas between different research paradigms.
Das hier zu besprechende Buch, das Ergebnisse einer gleichnamigen Tagung zusammenfasst, die im Juni 2013 in Zürich stattfand, macht eines offenkundig: Wer in jenem Sommer nicht dabei war, hat etwas verpasst. Umso glücklicher darf man sein, dass Angelika Linke und Juliane Schröter die Arbeit, die mit der Herausgabe eines Sammelbandes verbunden ist, auf sich genommen haben. Mehr noch: In einem programmatischen ersten Kapitel geben sie einen systematischen Einblick in das tragfähige Forschungsfeld „Sprachliche Relationalität“ (vgl. S. 1–6), das ganz im Sinne der emotiven Wende in der Sprachwissenschaft konkrete theoretische Anschlussfähigkeit signalisiert, wo bislang eine „fast unübersehbare Menge an Veröffentlichungen“ (Schwarz-Friesel 2013: 16) zwar zeigte, wie attraktiv die Thematik ist, aber auch wie unstrukturiert sich die Zuwendung dazu gestaltet. Dass der Band nun weitere „exemplarische Besetzungen“ (S. 21) des Forschungsfeldes zur Diskussion stellt, wird hier keinesfalls als Nachteil angesehen, sondern als methodisch folgerichtiger empirischer Zugang zur Erschließung eines Forschungsfeldes unter den zielsetzenden Leitfragen „Wie werden im Medium von Sprachgebrauch und Sprache Konzeptualisierungen, Kategorisierungen und Differenzierungen menschlicher Beziehungen ausgebildet, verfestigt und auch wieder verändert?“ und „Welche sprachgeformten Beziehungskonzepte, -kategorien und -unterschiede sind typisch für bestimmte historische Epochen bzw. für bestimmte soziale Gruppierungen?“
Mit dem hier besprochenen Band liegt eine Monographie zu Pennsylvania Dutch (Pennsylvania German, Pennsylvania-Deutsch; im Weiteren auch PD) vor, die sowohl die Entstehungsbedingungen und -verläufe und den soziohistorischen, soziopolitischen und religionsbezogenen Kontext seiner Entwicklung als auch seine sprachlichen und literarischen Formen, seine historische und heutige gesellschaftliche Stellung und Verwendung umfassend und gründlich darstellt. Louden wendet sich dabei nicht nur an ein linguistisches Fachpublikum, sondern auch an LeserInnen ohne eine speziell linguistische Vorbildung. Dementsprechend werden für die Darstellung relevante linguistische Konzepte eingeführt und erklärt. Ein umfassendes Stichwortverzeichnis macht die Monographie gut erschließbar, und die umfangreiche Bibliographie ermöglicht es, sich weitergehend zu allen angesprochenen Themen zu informieren. Die Endnoten werden strategisch gut eingesetzt, da sie nicht nur fachwissenschaftliche ‚Unterfütterung‘ bieten, sondern auch dazu genutzt werden, alle zitierten Quellentexte sowohl auf Englisch als auch in der (pennsylvania-)deutschen Originalfassung zur Verfügung zu stellen.
International Journal of Applied Linguistics: Special Issue on Instructions in Driving Lessions
(2018)
We study German affixoids, a type of morpheme in between affixes and free stems. Several properties have been associated with them – increased productivity; a bleached semantics, which is often evaluative and/or intensifying and thus of relevance to sentiment analysis; and the existence of a free morpheme counterpart – but not been validated empirically. In experiments on a new data set that we make available, we put these key assumptions from the morphological literature to the test and show that despite the fact that affixoids generate many low-frequency formations, we can classify these as affixoid or non-affixoid instances with a best F1-score of 74%.
In this paper we use methods for creating a large lexicon of verbal polarity shifters and apply them to German. Polarity shifters are content words that can move the polarity of a phrase towards its opposite, such as the verb “abandon” in “abandon all hope”. This is similar to how negation words like “not” can influence polarity. Both shifters and negation are required for high precision sentiment analysis. Lists of negation words are available for many languages, but the only language for which a sizable lexicon of verbal polarity shifters exists is English. This lexicon was created by bootstrapping a sample of annotated verbs with a supervised classifier that uses a set of data- and resource-driven features. We reproduce and adapt this approach to create a German lexicon of verbal polarity shifters. Thereby, we confirm that the approach works for multiple languages. We further improve classification by leveraging cross-lingual information from the English shifter lexicon. Using this improved approach, we bootstrap a large number of German verbal polarity shifters, reducing the annotation effort drastically. The resulting German lexicon of verbal polarity shifters is made publicly available.
The present submission reports on a pilot project conducted at the Institute for the German Language (IDS), aiming at strengthening the connection between ISO TC37SC4 “Language Resource Management” and the CLARIN infrastructure. In terminology management, attempts have recently been made to use graph-theoretical analyses to get a better understanding of the structure of terminology resources. The project described here aims at applying some of these methods to potentially incomplete concept fields produced over years by numerous researchers serving as experts and editors of ISO standards. The main results of the project are twofold. On the one hand, they comprise concept networks dynamically generated from a relational database and browsable by the user. On the other, the project has yielded significant qualitative feedback that will be offered to ISO. We provide the institutional context of this endeavour, its theoretical background, and an overview of data preparation and tools used. Finally, we discuss the results and illustrate some of them.
The actual or anticipated impact of research projects can be documented in scientific publications and project reports. While project reports are available at varying level of accessibility, they might be rarely used or shared outside of academia. Moreover, a connection between outcomes of actual research project and potential secondary use might not be explicated in a project report. This paper outlines two methods for classifying and extracting the impact of publicly funded research projects. The first method is concerned with identifying impact categories and assigning these categories to research projects and their reports by extension by using subject matter experts; not considering the content of research reports. This process resulted in a classification schema that we describe in this paper. With the second method which is still work in progress, impact categories are extracted from the actual text data.
In recent years, the availability of large annotated and searchable corpora, together with a new interest in the empirical foundation and validation of linguistic theory and description, has sparked a surge of novel and interesting work using corpus-based methods to study the grammar of natural languages. However, a look at relevant current research on the grammar of the Germanic, Romance, and Slavic languages reveals a variety of different theoretical approaches and empirical foci, which can be traced back to different philological and linguistic traditions. Still, this current state of affairs should not be seen as an obstacle but as an ideal basis for a fruitful exchange of ideas between different research paradigms.
We present a study on gaps in spoken language interaction as a potential candidate for syntactic boundaries. On the basis of an online annotation experiment, we can show that there is an effect of gap duration and gap type on its likelihood of being a syntactic boundary. We discuss the potential of these findings for an automation of the segmentation process.
A syntax-based scheme for the annotation and segmentation of German spoken language interactions
(2018)
Unlike corpora of written language where segmentation can mainly be derived from orthographic punctuation marks, the basis for segmenting spoken language corpora is not predetermined by the primary data, but rather has to be established by the corpus compilers. This impedes consistent querying and visualization of such data. Several ways of segmenting have been proposed,
some of which are based on syntax. In this study, we developed and evaluated annotation and segmentation guidelines in reference to the topological field model for German. We can show that these guidelines are used consistently across annotators. We also investigated the influence of various interactional settings with a rather simple measure, the word-count per segment and unit-type. We observed that the word count and the distribution of each unit type differ in varying interactional settings and that our developed segmentation and annotation guidelines are used consistently across annotators. In conclusion, our syntax-based segmentations reflect interactional properties that are intrinsic to the social interactions that participants are involved in. This can be used for further analysis of social interaction and opens the possibility for automatic segmentation of transcripts.
A general concept of perspective is proposed, using the mathematical notion of vector spaces as metaphor. The concept is applied to different phenomena which use perspective: spatiotemporal perspective, lexical semantics (prototypes and features), perspectivation in syntax and lexical inferences. Criteria for constructing a superordinate perspective for two given perspectives are developed.
How can we measure the impact – such as awareness for economic, ecological, and political matters – of information, such as scientific publications, user-generated content, and reports from the public administration, based on text data? This workshop brings together research from different theoretical paradigms and methodologies for the extraction of impact-relevant indicators from natural language text data and related meta-data. The papers in this workshop represent different types of expertise in different methods for analyzing text data; spanning the whole spectrum of qualitative, quantitative, and mixed methods techniques, as well as domain expertise in the field of impact measurement. The program was built to create an interdisciplinary half-day workshop where we discuss possibilities, limitations, and synergistic effects of different approaches.
New exceptions for Text and Data Mining and their possible impact on the CLARIN infrastructure
(2018)
The proposed paper discusses new exceptions for Text and Data Mining that have recently been adopted in some EU Member States, and probably will soon be adopted also at the EU level. These exceptions are of great significance for language scientists, as they exempt those who compile corpora from the obligation to obtain authorisation from rightholders. However, corpora compiled on the basis of such exceptions cannot be freely shared, which in a long run may have serious consequences for Open Science and the functioning of research infrastructure such as CLARIN ERIC.
This abstract discusses the possibility to adopt a CLARIN Data Protection Code of Conduct pursuant art. 40 of the General Data Protection Regulation. Such a code of conduct would have important benefits for the entire language research community. The final section of this abstract proposes a roadmap to the CLARIN Data Protection Code of Conduct, listing various stages of its drafting and approval procedures.
This presentation introduces a new collaborative project: the International Comparable Corpus (ICC) (https://korpus.cz/icc), to be compiled from European national, standard(ised) languages, using the protocols for text categories and their quantities of texts in the International Corpus of English (ICE).
We address the detection of abusive words. The task is to identify such words among a set of negative polar expressions. We propose novel features employing information from both corpora and lexical resources. These features are calibrated on a small manually annotated base lexicon which we use to produce a large lexicon. We show that the word-level information we learn cannot be equally derived from a large dataset of annotated microposts. We demonstrate the effectiveness of our (domain-independent) lexicon in the crossdomain detection of abusive microposts.