Refine
Year of publication
- 2018 (212) (remove)
Document Type
- Part of a Book (90)
- Article (59)
- Book (28)
- Conference Proceeding (15)
- Other (9)
- Working Paper (6)
- Review (3)
- Periodical (1)
- Part of Periodical (1)
Language
Keywords
- Deutsch (62)
- Korpus <Linguistik> (40)
- Grammatik (15)
- Konversationsanalyse (15)
- Gesprochene Sprache (14)
- Interaktion (13)
- Interaktionsanalyse (13)
- Linguistik (13)
- Multimodalität (12)
- Computerlinguistik (11)
Publicationstate
- Veröffentlichungsversion (212) (remove)
Reviewstate
Publisher
- Institut für Deutsche Sprache (50)
- de Gruyter (42)
- Heidelberg University Publishing (15)
- European language resources association (ELRA) (13)
- Verlag für Gesprächsforschung (8)
- Znanstvena založba Filozofske fakultete Univerze v Ljubljani / Ljubljana University Press, Faculty of Arts (7)
- Association for Computational Linguistics (4)
- De Gruyter (4)
- Hungarian Academy of Sciences (3)
- Leibniz-Zentrum allgemeine Sprachwissenschaft (ZAS); Humboldt-Universität zu Berlin (3)
Seit einigen Jahren beschäftigt sich der sprachwissenschaftliche Ansatz der „Linguistic Landscapes“ mit der systematischen Erforschung von sprachlichen und anderen Zeichen in der Öffentlichkeit. Welche Sprachen sehen wir wo? Welche Zeichen drücken politische Meinungen aus? Wie schafft Werbung Realitäten? Wo gibt es Gegenreaktionen zu offiziell sanktionierten sprachlichen Ausdrucksweisen?
Статтю присвячено комунікативним девіаціям (невдачам) на матеріалі українських і німецьких телеінтерв’ю з П. Порошенком та А. Меркель. Встановлено, що спілкування осіб з різними комунікативними цілями і стратегіями – головні причини девіацій. Проаналізовано комунікативні невдачі, враховуючи позиції адресанта й адресата, а також глядача даних інтерв’ю, визначено спільні та відмінні стратегії у випадку комунікативних девіацій в українській і німецькій лінгвокультурах.
Unserdeutsch (Rabaul Creole German) entstand um 1900 an einer katholischen Missionsstation in Vunapope auf der Insel New Britain im Bismarck-Archipel. Seine dominante Substratsprache ist Tok Pisin, das melanesische Pidgin-Englisch, seine Superstratsprache Deutsch. Der Aufsatz versucht das sprachliche Superstrat von Unserdeutsch näher zu bestimmen, d. h. die Frage zu beantworten, welches Deutsch von den Missionaren in Vunapope um 1900, am Ort und zum Zeitpunkt der Entstehung von Unserdeutsch, gesprochen wurde. Zu diesem Zweck werden die als Superstrattransfer aus dem Deutschen erklärbaren, regional markierten linguistischen Strukturmerkmale in Unserdeutsch untersucht und im geschlossenen Sprachgebiet sprachgeografisch lokalisiert. Ergänzt wird diese linguistische Evidenz durch extra- und metalinguistische Evidenz aus einschlägigen, zeitgenössischen Quellen. Die Ergebnisse deuten auf ein vorwiegend nordwestdeutsch-westfälisch geprägtes, insgesamt jedoch heterogenes, standardnahes sprachliches Superstrat hin und widerlegen somit frühere diesbezügliche Aussagen in der einschlägigen Fachliteratur. Und sie zeigen zugleich auch, dass die Analyse von kolonialen und sonstigen Auswanderervarietäten, besonders von solchen, die – wie Unserdeutsch – im Laufe ihrer späteren Geschichte den Kontakt zum sprachlichen Mutterland vollständig verloren haben, zur Rekonstruktion historischer Mündlichkeit wertvolle Daten liefern kann.
Der Artikel widmet sich den politischen Fernsehinterviews im Ukrainischen und Deutschen aus der Perspektive der Persönlichkeit des Interviewers und der Schwierigkeiten, die vor und während des Fernsehinterviews auftreten. Kommunikative Abweichungen (Deviationen) werden als Unterschiede in den Erwartungen des Interviewers im Vergleich zu den Erwartungen des Befragten und des Adressaten aufgezeigt und analysiert. Besonderes Augenmerk wird auf das Beziehungsdreieck, bestehend aus Interviewer, Befragter und Adressat, gelegt. Bei der Beziehung zwischen diesen drei Größen spielen die Elemente Alter, Geschlecht, Status, Wissen, Interessen und Erwartungen eine wichtige Rolle und tragen zum Erfolg des Interviews bei. Dementsprechend übernimmt der Journalist drei Rollen: als Vertreter des Publikums, als Promotor des Eingeladenen (des Befragten) oder als Vertreter von sich selbst. Durch kommunikative Deviationen werden die Unterschiede in den Erwartungen der Kommunikatoren in einem Interview verstanden. In diesem Artikel wird nur auf die Abweichungen in den Fernsehinterviews in beiden Sprachen eingegangen, wenn der Interviewer andere Erwartungen an das Interview hat als der Befragte oder der Adressat (der Zuschauer), was für das erste ein Misserfolg ist, d.h. für den Interviewer. Es werden kommunikative Abweichungen des Interviewers gegenüber dem Befragten und dem Adressaten skizziert und die Strategien zur Überwindung von Misserfolgen eines Fernsehinterviews vorgeschlagen. Kommunikative Abweichungen als Verstöße gegen die Erwartungen des Interviewers in all seinen Erscheinungsformen können vermieden oder zumindest reduziert werden, wenn alle Elemente der Kommunikation auf informativer und emotionaler und sehr oft auf kommunikativ-situativer Ebene samt technischen Besonderheiten berücksichtigt werden.
The workshop presents ATHEN 1 (Annotation and Text Highlighting Environment), an extensible desktop-based annotation environment which supports more than just regular annotation. Besides being a general purpose annotation environment, ATHEN supports indexing and querying support of your data as well as the ability to automatically preprocess your data with Meta information. It is especially suited for those who want to extend existing general purpose annotation tools by implementing their own custom features, which cannot be fulfilled by other available annotation environments. On the according gitlab, we provide online tutorials, which demonstrate the use of specific features of ATHEN
Projektvorstellung – Redewiedergabe. Eine literatur- und sprachwissenschaftliche Korpusanalyse
(2018)
Das laufende DFG-Projekt „Redewiedergabe“ stellt einen Anwendungsfall quantitativer Sprach-und Literaturwissenschaft dar und beschäftigt sich mit dem Phänomen „Redewiedergabe“ auf der Grundlage großer Datenmengen. Zu diesem Zweck wird zum einen ein Korpus manuell mit Redewiedergabeformen annotiert, zum anderen werden Verfahren zur automatischen Erkennung des Phänomens entwickelt. Ziel ist es, Forschungsfragen nach der Entwicklung von Redewiedergabe vor allem im 19. Jahrhundert zu beantworten.
Wer trägt die Schuld am Ersten Weltkrieg? Wer trägt die Schuld am für Deutschland und andere Staaten folgenschweren Ausgang des Kriegs? … Fragen wie diese sind und bleiben aktuell. Die vorliegende Arbeit gibt keine Antworten auf diese Fragen. Sie versucht hingegen aufzudecken, welche sprachlichen, d. h. lexikalischen Strategien Akteure in den frühen wissenschaftlichen und öffentlichen Debatten dieser Zeit wählen, um ihren Mentalitäten, ihrem Denken, Fühlen, Wollen/Sollen im Akt des Schuldzuschreibens oder Schuld-von-sich-Weisens Ausdruck zu verleihen. Die Analyse und Darstellung der heterogenen Mentalitäten der verschiedenen Akteure zeigt, wie komplex das Konzept »Schuld« (nicht nur) im zeitlich-thematischen Rahmen des Ersten Weltkriegs ist und warum die zuvor exemplarisch aufgeführten Fragen nicht an Aktualität verlieren.
Digitale Medien haben zu einer folgenreichen Veränderung politischer Diskurse beigetragen: Bürgerinnen und Bürger haben nunmehr die Möglichkeit eines direkten und permanenten Dialogs mit politisch Agierenden. Diese wiederum haben soziale Netzwerke als „wirkungsvolle Kommunikationsform für sich entdeckt“ (Kneuer 2017, S.46). Damit haben sich auch die politischen Partizipationsmöglichkeiten verändert. Neben den konventionellen Partizipationsformen erfahren die Bürgerinnen und Bürger nach der Erweiterung in den 1960er Jahren durch nicht institutionalisierte Formen (Woyke 2013) heute eine weitere Form der politischen Teilhabe durch digitale Medien.
Learning new languages has a high relevance in today’s society with a globalized economy and the freedom to move abroad for work, study or other reasons. In this context new methods to teach and learn languages with the help of modern technology are becoming more relevant besides traditional language classes.
This work presents a new approach to combine a traditional language class with a modern computer-based approach for teaching. As a concrete example a web application to help teach and learn Latin was developed.
MULLE is a tool for language learning that focuses on teaching Latin as a foreign language. It is aimed for easy integration into the traditional classroom setting and syllabus, which makes it distinct from other language learning tools that provide standalone learning experience. It uses grammar-based lessons and embraces methods of gamification to improve the learner motivation. The main type of exercise provided by our application is to practice translation, but it is also possible to shift the focus to vocabulary or morphology training.
We present a language learning application that relies on grammars to model the learning outcome. Based on this concept we can provide a powerful framework for language learning exercises with an intuitive user interface and a high reliability. Currently the application aims to augment existing language classes and support students by improving the learner attitude and the general learning outcome. Extensions beyond that scope are promising and likely to be added in the future.
Controlled Natural Languages (CNLs) have many applications including document authoring, automatic reasoning on texts and reliable machine translation, but their application is not limited to these areas. We explore a new application area of CNLs, the use of CNLs in computer-assisted language learning. In this paper we present a a web application for language learning using CNLs as well as a detailed description of the properties of the family of CNLs it uses.
We present WOMBAT, a Python tool which supports NLP practitioners in accessing word embeddings from code. WOMBAT addresses common research problems, including unified access, scaling, and robust and reproducible preprocessing. Code that uses WOMBAT for accessing word embeddings is not only cleaner, more readable, and easier to reuse, but also much more efficient than code using standard in-memory methods: a Python script using WOMBAT for evaluating seven large word embedding collections (8.7M embedding vectors in total) on a simple SemEval sentence similarity task involving 250 raw sentence pairs completes in under ten seconds end-to-end on a standard notebook computer.
Erzählen multimodal
(2018)
Cette contribution s'intéresse aux co-constructions d'un tour de parole en interaction, plus spécifiquement, à la manière dont la complétion d'un énoncé de la part d'un co-participant est ensuite réceptionnée par le locuteur dont le tour a été complété. Malgré l'intérét certain porté par l'analyse conversationnelle et la linguistique interactionnelle à la co-énonciation, l'évaluation de cette pratique par le premier locuteur n’a pas fait l’objet d’analyses approfondies. Dans ce qui suit, nous nous focalisons plus particulièrement sur les pratiques interactionnelles qui permettent aux participants de valider une co-construction. Ce travail est issu du projet ANR SPIM (« L'imitation dans la parole »), dans le cadre duquel nous nous sommes interrogée sur la fonction de l'hétéro-répétition (le fait de répéter un énoncé d'un autre locuteur ou une partie de celui-ci, opposée à l'auto-répétition) dans des séquences de co-construction d'un tour de parole. Dans la partie analytique, nous contrastons deux possibilités de validation d'une complétion collaborative, à savoir l'acquiescement simple (« oui ») et l'hétéro-répétition simple. Sur la base d’enregistrements vidéo de conversations naturelles, nous montrons que ces deux pratiques ne valident pas la complétion collaborative de la même manière, mais qu'elles permettent aux locuteurs d’évaluer finement le caractère plus ou moins adéquat des éléments co-construits.
Cette contribution propose une analyse qualitative et quantitative des reformulations sur des données interactionnelles. Pour la constitution du corpus d’étude, nous nous appuyons sur un outil de détection automatique des hétéro-répétitions, considérées comme indices de reformulation. Après avoir illustré les éléments qui ont présidé à la conception de l’outil, nous présentons le paramétrage de cette ressource, que nous avons testée sur quatre enregistrements de la base de données CLAPI. Cette étude souligne la pertinence de l’approche interactionnelle dans l’analyse des hétéro-répétitions, en en montrant les fonctionnalités multiples, notamment dans les pratiques de reformulation dans la conversation.
Der vorliegende Beitrag befasst sich mit Erzählen in seiner massenmedialen Vermittlung in einer Unterhaltungsendung im Fernsehen. Ziel ist es, anhand einer multimodalen und medienlinguistischen Analyse eines exemplarischen Ausschnitts aus der TV-Unterhaltungssendung "Zimmer frei" die Spezifik solcher massenmedialen Erzählungen herauszuarbeiten. Zum einen wird aufgezeigt, dass sich massenmediales Erzählen in seinem sequenziellen Auf- und Ausbau aufgrund seiner Einbindung in ein mediales Unterhaltungsformat in systematischer Weise von Alltagserzählungen unterscheidet. Zum anderen wird veranschaulicht, inwieweit theatrale Inszenierungs- und Aufführungsmittel der Fernsehproduktion die Aktivität des Erzählens mitkonstituieren. Erzählungen im Fernsehen, so die analyseleitende Prämisse, können nicht schlicht als durch das Fernsehen übertragene narrative Aktivitäten konzeptualisiert werden. Vielmehr sind sie durch eine mediale Theatralität mitgeprägt. (Para)verbale, körperliche und mediale Inszenierungs- und Aufführungsverfahren greifen konzertiert ineinander, um Erzählungen als "dramas to an audience" (Goffman 1974:508) hervorzubringen.
Bisherige linguistische Studien zum mündlichen Erzählen beziehen sich vornehmlich auf die Beschreibung verbaler und vokaler Verfahren. Erzählen findet jedoch häufig unter den Bedingungen der zeitlich-räumlichen Ko-Präsenz der SprecherInnen statt, die den Gebrauch von körperlichen und materiellen Ressourcen ermöglicht. Der vorliegende einleitende Beitrag des Themenheftes modelliert Erzählen daher als körpergebundene und verkörperlichte Praktik, die es im Rahmen von interaktionalen und sequenzorientierten Analyseansätzen zu beschreiben gilt. Im Anschluss an die Darstellung von Entwicklungslinien der soziolinguistischen und interaktional-gesprächsanalytischen Untersuchung konversationellen Erzählens wird ein Überblick über bisherige Befunde zur multimodalen Ausgestaltung des Erzählens in der face-to-face-Interaktion gegeben. Abschließend werden grundlegende Fragestellungen skizziert, deren Beantwortung im Rahmen einer multimodalen Erzählanalyse die tatsächliche Alltagspraxis des Erzählens umfassender zu erschließen vermag.
This study investigates the language used by six German Gangsta rappers to establish and maintain their identity and authenticity as rappers, in songs released between 2015 and 2016. Gangsta rap is a subgenre of Hip-Hop that emphasises ‘the rappers’ street credibility in texts describing tough [urban] neighbourhoods, violence, misogyny, and the achievement of material wealth’ (Bower 379). The culture of Gangsta rap attracts overwhelmingly negative mainstream media coverage (Muggs; Roper) and is often accused of corrupting ‘standard’ language (Krummheuer). The lyrical content of the songs is indeed controversial and has been previously covered by many academics (Byrd; Littlejohn and Putnam; Bower; Rollefson), as has the emergence of Hip-Hop in Germany (Elflein; Pennay; Nitzsche and Grünzweig).
Datenmanagement wird durch die Forschungsföderungsorganisationen (etwa in Horizon 2020 der EU, die Allianz der deutschen Wissenschaftsorganisationen oder in DFG geförderten Projekten) mehr und mehr Teil der Forschungslandschaft. Für die Computerlinguistik ist das Forschungsdatenmanagement aber auch Teil des Forschungsgebietes: Datenmodellierung und Transformation für die nachhaltige Datenspeicherung gehören in den Bereich der Texttechnologie und Textlinguistik, ebenso die Modellierung der beschreibenden Daten zu Datensätzen.
This paper aims to describe different patterns of syntactic extensions of turns-at-talk in mundane conversations in Czech. Within interactional linguistics, same-speaker continuations of possibly complete syntactic structures have been described for typologically diverse languages, but have not yet been investigated for Slavic languages. Based on previously established descriptions of various types of extensions (Vorreiter 2003; Couper-Kuhlen & Ono 2007), our initial description shall therefore contribute to the cross-linguistic exploration of this phenomenon. While all previously described forms for continuing a turn-constructional unit seem to exist in Czech, some grammatical features of this language (especially free word order and strong case morphology) may lead to problems in distinguishing specific types of syntactic extensions. Consequently, this type of language allows for critically evaluating the cross-linguistic validity of the different categories and underlines the necessity of analysing syntactic phenomena within their specific action contexts.
Data Management is one of the core activities of all CLARIN centres providing data and services for the academia. In PARTHENOS, European initiatives and projects in the area of the humanities and social sciences assembled to compare policies and procedures. One of the areas of interest is data management. The data management landscape shows a lot of proliferation, for which an abstraction level is introduced to help centres, such as CLARIN centres, in the process of providing the best possible services to users with data management needs.
In diesem Panel geht es um die Förderung der geisteswissenschaftlichen Forschung durch eine planvolle Erhebung, Archivierung, Veröffentlichung und die dadurch ermöglichte Nachnutzung von Forschungsdaten, die sowohl zur Qualitätssicherung in der Forschung beitragen als auch nicht zuletzt neue Fragestellungen erlauben. Aus unterschiedlichen Perspektiven soll in dem Panel beleuchtet werden, welchen Mehrwert das Datenmanagement für die Forschung in den digitalen Geisteswissenschaften hat, wie man diesen Mehrwert erreicht und auch die Veröffentlichung der Forschungsdaten als ein selbstverständliches Element der Dissemination der Forschungsergebnisse etabliert und wie man gleichzeitig den Aufwand für die Forschung abschätzen kann.
The transfer of research data management from one institution to another infrastructural partner is all but trivial, but can be required,for instance, when an institution faces reorganisation or closure. In a case study, we describe the migration of all research data, identify the challenges we encountered, and discuss how we addressed them. It shows that the moving of research data management to another institution is a feasible, but potentially costly enterprise. Being able to demonstrate the feasibility of research data migration supports the stance of data archives that users can expect high levels of trust and reliability when it comes to data safety and sustainability.
Grußwort
(2018)
Grußwort/Welcome address
(2018)
“To cleanse and at the same time enrich your mother tongue is the task of the brightest people.”
With this quote Goethe, the famous German poet, seemed to have described the work of EFNIL today. But is our task really that easy? Do we “cleanse” our language by deleting superfluous elements? Do we not lose the rich abundance of a language in so doing? Or is Goethe asking for other languages to be prevented from influencing his mother tongue? Would this even be feasible in a globalised world?
Rudi Carrell, a famous entertainer on German TV, once said:
“When I came to Germany I only spoke English. But the German language contains so many English words nowadays that I am now fluent in German!”
His opinion is probably shared by many people learning German.
My daily job is to support around 100,000 schools abroad that offer German as a foreign language. We ask ourselves daily: which German language should we be offering young people today? The classical German of literature? Or practical German which will enable young people to join the workforce of many German companies worldwide? And most of all: how do we motivate young people to learn German? Or any other foreign language?
Yes, English, French, German, Spanish – these languages are in competition in many schools. But the most important fact is: the benefit lies in learning a foreign language, no matter which. Because by learning a foreign language we start to understand foreign cultures and other people. And THAT is what matters.
What is a sentient agent?
(2018)
This paper offers an exploratory Interactional Linguistic account of the role that inferences play in episodes of ordinary conversational interaction. To this end, it systematically reconsiders the conversational practice of using the lexico-syntactic format oh that’s right to implicitly claim “just-now” recollection of something previously known, but momentarily confused or forgotten. The analyses reveal that this practice typically occurs as part of a larger sequential pattern that the participants orient to and which serves as a procedure for dealing with, and generating an account for, one participant’s production of an inapposite action. As will be shown, the instantiation and progressive realization of this sequential procedure requires local inferential work from the participants. While some facets of this inferential work appear to be shaped by the particular context of the ongoing interaction, others are integral to the workings of the sequence as such. Moreover, the analyses suggest that participants’ understanding of oh that’s right as embodying an implicit memory claim rests on an inference which is based on a kind of semanticpragmatic compositionality. The paper thus illustrates how inferences in conversational interaction can be systematically studied and points to the merits of combining an interactional and a linguistic perspective.
Der CorpusExplorer v2.0 ist eine frei verfügbare Software zur korpushermeneutischen Analyse und bietet über 45 unterschiedliche Analysen/Visualisierungen für eigenes Korpusmaterial an. Dieser Praxisbericht gibt Einblicke, zeigt Fallstricke auf und bietet Lösungen an, um die tägliche Visualisierungsarbeit zu erleichtern. Zunächst wird ein kurzer Einblick in die Ideen gegeben, die zur Entwicklung des CorpusExplorers führten, einer korpuslinguistischen Software, die nicht nur vielfältige Forschungsansätze unterstützt, sondern auch mit einem Fokus auf die universitäre Lehre entwickelt wird. Der Mittelteil behandelt einen der vielen Fallstricke, die im Entwicklungsprozess auftraten: Effizienz-/Anpassungsprobleme – bzw.: Was passiert, wenn Visualisierungen an neue Begebenheiten angepasst werden müssen? Da diese Lösung Teil des CorpusExplorers v2.0 ist, wird abschließend darauf eingegangen, wie unterschiedliche Visualisierungen zu denselben Datensätzen sich auf die Rezeption/Interpretation von Daten auswirken.
Präpositionalphrasen
(2018)
Wortarten
(2018)
Konnektoren
(2018)
In Studien zu pädiatrischer Interaktion wird immer wieder die niedrige Redebeteiligung der jungen Patient/innen, deren Leiden in den ärztlichen Gesprächen verhandelt werden, herausgestellt. In einigen triadisch-pädiatrischen Erstkonsultationen, die sich in mehreren Punkten signifikant von dyadischen Erstgesprächen unterscheiden, ist allerdings die Beteiligung der Patient/innen deutlich höher. Eine Kombination aus quantitativer und konversationsanalytischer Untersuchung von Erstkonsultationen in der pädiatrischen Praxis zeigt, dass der Aufforderung zur Beschwerdenschilderung dabei eine entscheidende Bedeutung zukommt, weswegen der Formulierung besondere Aufmerksamkeit geschenkt werden sollte. Doch die herausfordernde Situation birgt nicht nur Stolpersteine, sondern kann auch von allen Interaktionspartner/innen als strategisches Mittel eingesetzt werden. Eine interaktive Relevanz haben überdies elterliche Initiativen. An mehreren Beispielen wird gezeigt, welche erheblichen Konsequenzen eine Nicht-Bearbeitung oder eine nicht ausreichende Bearbeitung für die jeweilige Interaktion hat.
Verbalkomplex
(2018)
The General Data Protection Regulation (hereinafter: GDPR), EU Regulation 2016/679 of 27 April 2016, will become applicable on 25 May 2018 and repeal the Personal Data Directive of 24 October 1995.
Unlike a directive, which requires transposition into national laws (while leaving the choice of “forms and methods” to the Member States), a regulation is binding and directly applicable in all Member States. This means that when the GDPR becomes applicable, all the EU countries will have the same rules regarding the protection of personal data — at least in principle, since some details (including in the area of research — see below) are expressly left to the discretion of the Member States.
The GDPR is a particularly ambitious piece of legislation (consisting of 99 articles and 173 recitals) whose intended territorial scope extends beyond the borders of the European Union. Its main concepts and principles are essentially similar to those of the Personal Data Directive, but enriched with interpretation developed through the case law of the CJEU and the opinions of the Article 29 Data Protection Working Party (hereinafter: WP29).
This White Paper will discuss the main principles of data protection and their impact on language resources, as well as special rules regarding research under the GDPR and the standardisation mechanisms recognized by the Regulation.
La guida turistica
(2018)
Who understands Low German today and who can speak it? Who makes use of media and cultural events in Low German? What images do people in northern Germany associate with Low German and what is their view of their regional language?
These and further questions are answered in this brochure with the help of representative data collected in a telephone survey of a total of 1,632 people from eight federal states (Bremen, Hamburg, Lower Saxony, Mecklenburg-West Pomerania and Schleswig-Holstein as well as Brandenburg, North Rhine-Westphalia and Saxony-Anhalt).
Valenz und Dependenz. Theorie und Praxis. Festschrift für Professor Ulrich Engel zum 90. Geburtstag
(2018)
In this paper we discuss a type of copular clause – specificational copular clauses – in which subject properties may be split between two nominative noun phrases. In particular, while the first noun phrase occupies the canonical preverbal subject position, in some languages the finite verb can agree with the postverbal nominative. Such agreement might be expected, on some theoretical assumptions, to show person restrictions. We discuss this phenomenon in two SVO Germanic languages – Icelandic and Faroese – and present new data from Faroese showing that the person effect here follows from the existence of distinct probes for Number and Person agreement.
We study German affixoids, a type of morpheme in between affixes and free stems. Several properties have been associated with them – increased productivity; a bleached semantics, which is often evaluative and/or intensifying and thus of relevance to sentiment analysis; and the existence of a free morpheme counterpart – but not been validated empirically. In experiments on a new data set that we make available, we put these key assumptions from the morphological literature to the test and show that despite the fact that affixoids generate many low-frequency formations, we can classify these as affixoid or non-affixoid instances with a best F1-score of 74%.
In this paper we use methods for creating a large lexicon of verbal polarity shifters and apply them to German. Polarity shifters are content words that can move the polarity of a phrase towards its opposite, such as the verb “abandon” in “abandon all hope”. This is similar to how negation words like “not” can influence polarity. Both shifters and negation are required for high precision sentiment analysis. Lists of negation words are available for many languages, but the only language for which a sizable lexicon of verbal polarity shifters exists is English. This lexicon was created by bootstrapping a sample of annotated verbs with a supervised classifier that uses a set of data- and resource-driven features. We reproduce and adapt this approach to create a German lexicon of verbal polarity shifters. Thereby, we confirm that the approach works for multiple languages. We further improve classification by leveraging cross-lingual information from the English shifter lexicon. Using this improved approach, we bootstrap a large number of German verbal polarity shifters, reducing the annotation effort drastically. The resulting German lexicon of verbal polarity shifters is made publicly available.
Both for psychology and linguistics, emotion concepts are a continuing challenge for analysis in several respects. In this contribution, we take up the language of emotion as an object of study from several angles. First, we consider how frame semantic analyses of this domain by the FrameNet project have been developing over time, due to theory-internal as well as application-oriented goals, towards ever more fine-grained distinctions and greater within-frame consistency. Second, we compare how FrameNet’s linguistically oriented analysis of lexical items in the emotion domain compares to the analysis by domain experts of the experiences that give rise (directly or indirectly) to the lexical items. And finally, we consider to what extent frame semantic analysis can capture phenomena such as connotation and inference about attitudes, which are important in the field of sentiment analysis and opinion mining, even if they do not involve the direct evocation of emotion.
We present the pilot edition of the GermEval Shared Task on the Identification of Offensive Language. This shared task deals with the classification of German tweets from Twitter. It comprises two tasks, a coarse-grained binary classification task and a fine-grained multi-class classification task. The shared task had 20 participants submitting 51 runs for the coarse-grained task and 25 runs for the fine-grained task. Since this is a pilot task, we describe the process of extracting the raw-data for the data collection and the annotation schema. We evaluate the results of the systems submitted to the shared task. The shared task homepage can be found at https://projects.cai. fbi.h-da.de/iggsa/
Offensive language in social media is a problem currently widely discussed. Researchers in language technology have started to work on solutions to support the classification of offensive posts. We present the pilot edition of the GermEval Shared Task on the Identification of Offensive Language. This shared task deals with the classification of German tweets from Twitter. GermEval 2018 is the fourth workshop in a series of shared tasks on German processing.