Refine
Year of publication
- 2017 (370) (remove)
Document Type
- Part of a Book (161)
- Article (101)
- Conference Proceeding (43)
- Book (33)
- Part of Periodical (13)
- Other (7)
- Working Paper (6)
- Report (4)
- Doctoral Thesis (2)
Keywords
- Deutsch (154)
- Korpus <Linguistik> (64)
- Gesprochene Sprache (30)
- Grammatik (22)
- Sprachvariante (22)
- Englisch (14)
- Linguistik (14)
- Sprache (14)
- Diskursanalyse (13)
- Interaktion (13)
Publicationstate
- Veröffentlichungsversion (163)
- Zweitveröffentlichung (87)
- Postprint (20)
- Erstveröffentlichung (1)
- Preprint (1)
Reviewstate
- (Verlags)-Lektorat (135)
- Peer-Review (114)
- Peer-review (12)
- (Verlags-)Lektorat (2)
- Peer-Revied (2)
- (Verlags-)lektorat (1)
- Peer Review (1)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (1)
Publisher
- Institut für Deutsche Sprache (56)
- de Gruyter (50)
- Narr Francke Attempto (39)
- Narr (19)
- De Gruyter (17)
- Verlag für Gesprächsforschung (11)
- Stauffenburg (10)
- Hempen (9)
- Springer (6)
- TUDpress (6)
Sprichwörter im Gebrauch
(2017)
In the management of cooperation, the fit of a requested action with what the addressee is presently doing is a pervasively relevant consideration. We present evidence that imperative turns are adapted to, and reflexively create, contexts in which the other person is committed to the course of action advanced by the imperative. This evidence comes from systematic variation in the design of imperative turns, relative to the fittedness of the imperatively mandated action to the addressee’s ongoing trajectory of actions, what we call the “dine of commitment”. We present four points on this dine: Responsive imperatives perform an operation on the deontic dimension of what the addressee has announced or already begun to do (in particular its permissibility); local-project imperatives formulate a new action advancing a course of action in which the addressee is already actively engaged; global-project-imperatives target a next task for which the addressee is available on the grounds of their participation in the overall event, and in the absence of any competing work; and competitive imperatives draw on a presently otherwise engaged addressee on the grounds of their social commitment to the relevant course of actions. These four turn shapes are increasingly complex, reflecting the interactional work required to bridge the increasing distance between what the addressee is currently doing, and what the imperative mandates. We present data from German and Polish informal and institutional settings.
Mit diesem Bild beschreibt Hermann Unterstöger in einem „Sprachlabor“- Artikel der Süddeutschen Zeitung vom 23.3.2013 die Erfolgsgeschichte, die das Substantiv (das) Narrativ in den letzten 30 Jahren vorgelegt hat. Während Unterstöger feinsinnig den intertextuellen Bezug zum „Narrenschiff“ des Sebastian Brant oder dem gleichnamigen Roman von Katherine Ann Porter bemüht, wird Matthias Heine, der Autor von „Seit wann hat geil nichts mehr mit Sex zu tun? 100 deutsche Wörter und ihre erstaunlichen Karrieren“ in einem Artikel in der WELT vom 13.11.2016, wie nach diesem Buchtitel zu erwarten, eher grob: Dort heißt es: „Hinz und Kunz schwafeln heutzutage vom ,Narrativ‘“.
In German there are about twenty-five elements (like gemäß, nahe, voll) that seem to be used as a preposition along with their use as an adjective. In former approaches the preposition is interpreted as the product of grammaticalizing (and/or reanalyzing) the adjective. It is argued that the two criteria these approaches rely on, namely change of linear position and change of case government, are insufficient. In this paper, seven criteria for distinguishing adjectives form prepositions in German are put forward. What is most important is that these criteria have to be evaluated on the token level as well as on the level of type and word class/syntactic category. It can be shown that the individual ‘adjective-prepositions' as types possess a specific mixture of adjective-like and preposition-like features. On the token level, occurring as part of a postnominal restrictive attribute is indicative for preposition-like status in German. The comparison of German with English and Italian adjective-prepositions (like near, far, due and vicino, lontano) reveals a lot of differences, which counts as evidence for the language-specific nature of word classes. Nevertheless, Lehmanns functional-typological approach uncovers a fundamental functional similarity between complement governing adjectives and prepositions: the primary function of the phrases, i.e., adjective/preposition + complement, is to modify a nominal or a verbal concept, respectively. This insight explains why adjective-prepositions can be found cross-linguistically. The question whether we should propose one type or two types for gemäß and its cognates is of minor importance only.
Emoticons erfreuen sich auf der ganzen Welt großer Beliebtheit, vor allem in der alltäglichen elektronischen Kommunikation wie E-Mail, SMS, Forumsdiskussionen, Instant Messaging, Facebook oder Twitter. Zum ersten Mal in der Geschichte wurde 2015 von den Sprachbeobachtern der britischen Oxford Dictionaries ein Emoticon zum Wort des Jahres gewählt: das Grinsegesicht, dem die Freudentränen aus den Augen spritzen (vgl.<www.sueddeutsche.de/kultur/britisches-wortdes-jahres-was-haben wir-gelacht-1.2740952>, Stand: 8.11.2017). Die Jury begründete ihre Wahl wie folgt: „[E]moji have come to embody a core aspect of living in a digital world that is visually driven, emotionally expressive, and obsessively immediate.“
Localism
(2017)
Localist hypothesis
(2017)
Juristische Texte sind schwer zu verstehen, insbesondere – aber nicht nur – für juristische Laien. Dieser Band beleuchtet diese These ausgehend von linguistischen Verständlichkeitsmodellen und kognitionswissenschaftlichen Modellen der menschlichen Textverarbeitung. Anhand von Aufzeichnungen von Blickbewegungen beim Lesen, einem sogenannten Lesekorpus, werden umfangreiche statistische Modelle berechnet. Diese geben Auskunft über Fragen psycholinguistischer Grundlagenforschung auf der Wort-, Satz- und Textebene. Ferner wird untersucht, wie sich Reformulierungen auf den Verstehensprozess auswirken. Dabei stehen bekannte Komplexitätsmarker deutscher juristischer Texte im Fokus: Nominalisierungen, komplexe Nominalphrasen und syntaktisch komplexe Texte.
Loblied auf Gerhard Stickel
(2017)
Die Guidelines sind eine Erweiterung des STTS (Schiller et al. 1999) für die Annotation von Transkripten gesprochener Sprache. Dieses Tagset basiert auf der Annotation des FOLK-Korpus des IDS Mannheim (Schmidt 2014) und es wurde gegenüber dem STTS erweitert in Hinblick auf typisch gesprochensprachliche Phänomene bzw. Eigenheiten der Transkription derselben. Es entstand im Rahmen des Dissertationsprojekts „POS für(s) FOLK – Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten“ (Westpfahl 2017 (i.V.)).
Wie können Diskursmarker in einem Korpus gesprochener Sprache auffindbar gemacht werden? Was ist Part-of-Speech-Tagging und wie funktioniert es? In diesem Artikel soll anhand der POS-Kategorie Diskursmarker dargestellt werden, wie für das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ein Part-of-Speech-Tagging entwickelt wurde, das auf die Annotation typisch gesprochen-sprachlicher Phänomene ausgerichtet ist. Diskursmarker sollen dafür aus der Sicht maschineller Sprachverarbeitung dargestellt werden, d. h. wie eine POS-Kategorie Diskursmarker so definiert werden kann, dass sie automatisch annotiert werden kann. Schließlich soll gezeigt werden, wie man auch weitere Diskursmarker in der Datenbank auffinden kann
Die kontinental-westgermanischen Sprachen und Dialekte zeichnen sich durch das Vorkommen von mehrteiligen Verbformen in einem satzfinalen Verbalkomplex (im Folgenden VK) aus. Charakteristisch für diesen VK ist sein hohes Maß an Stellungsvariation, wie sie sich bei drei oder mehr Verben bereits innerhalb des Standarddeutschen zeigt (vgl. Duden 2005, 481-482, § 684). Im vorliegenden Beitrag werden Aspekte des VKs im Ostpommerschen untersucht, jenem ostniederdeutschen Dialekt, der bis 1945 östlich der Oder im heutigen Polen gesprochen wurde. Dies geschieht anhand spontansprachlicher Aufnahmen aus der Mitte des 20. Jahrhunderts; der Beitrag ist also als eine sprachhistorische Untersuchung zu verstehen.
Wie die meisten westgermanischen Varietäten kennen auch die niederdeutschen Dialekte eine Konstruktion, in der das Verb 'tun' (niederdeutsch meist 'doon') als Hilfsverb fungiert und einen Infinitiv regiert - die sog. 'tun'-Periphrase ('Lesen tut sie gerne', 'Sie tut gerne lesen'). Allerdings weicht die niederdeutsche 'tun'-Periphrase sehr deutlich von den aus anderen Sprachen bekannten Mustern ab: Viele niederdeutsche Dialekte zeigen eine auffällige und erklärungsbedürftige Tendenz, die Periphrase auf Nebensätze mit Verbletztstellung zu beschränken ('dass sie lesen tut'). Zudem unterscheiden sich niederdeutsche Dialekte z.T. erheblich darin, wie weit die Periphrase obligatorisiert ist bzw. welche Faktoren bei der Variation zwischen der Periphrase und der einfachen Form ('dass sie liest') ausschlaggebend sind.
In dieser Monographie werden diese und andere grammatische Eigenschaften der Konstruktion auf der Grundlage von umfangreichen Korpusrecherchen und eigenen Erhebungen herausgearbeitet. Die Befunde werden mit dem Instrumentarium der Grammatiktheorie erklärt und in einen typologischen und diachronen Zusammenhang gestellt.
Interview mit Ulrich Engel
(2017)
Ausgangspunkt der Überlegungen ist die Beobachtung, dass bestimmte Verwendungsweisen der deutschen Sprache zwar grammatisch und lexikalisch richtig sind, aber dennoch in einem bestimmten Kontext für einen Muttersprachler merkwürdig klingen und gewöhnlich nicht gebraucht werden. Man findet diese Formen der Variation zum Beispiel bei sehr fortgeschrittenen Lernern des Deutschen und auch in Übersetzungen, die sich der Originaltreue verpflichtet sehen. In dem Beitrag soll gezeigt werden, dass Abweichungen dieser Art auf eine Komponente unseres sprachlichen Wissens verweisen, die man als Prinzipien der Informationsorganisation bezeichnen kann. Es wird argumentiert, dass solche sprachspezifischen Prinzipien, die sich u.a. auf Informationswahl, Perspektivensetzung und Kohärenzmuster beziehen, aus Eigenschaften der einzelsprachlichen Grammatik abzuleiten sind. Gezeigt werden soll dies am Beispiel von empirischen Daten zum Ausdruck von Bewegungsereignissen und zum Textaufbau in unterschiedlichen Sprachen und in Lernersprachen.
Bis heute und weltweit genießt der „Mechanismus der menschlichen Sprache“ des Wolfgang von Kempelen unter Kennern einen beinahe legendären Ruf. In Methodik und Argumentation zählte dieses Buch seinerzeit zur wissenschaftlichen Avantgarde der erst im Entstehen begriffenen Phonetik. Heute jedoch ist seine Rezeption mit erheblichen Hürden verbunden: Insbesondere seine altertümliche Sprache und die Frakturschrift behindern eine intensive Auseinandersetzung. Zudem fehlte bislang eine englische Übersetzung.
Bis heute und weltweit genießt der „Mechanismus der menschlichen Sprache“ des Wolfgang von Kempelen unter Kennern einen beinahe legendären Ruf. In Methodik und Argumentation zählte dieses Buch seinerzeit zur wissenschaftlichen Avantgarde der erst im Entstehen begriffenen Phonetik. Heute jedoch ist seine Rezeption mit erheblichen Hürden verbunden: Insbesondere seine altertümliche Sprache und die Frakturschrift behindern eine intensive Auseinandersetzung. Zudem Fehlte bislang eine englische Übersetzung.
Am 12. Mai 1965 nahmen der Staat Israel und die Bundesrepublik Deutschland offiziell diplomatische Beziehungen auf. Damit kam über 15 Jahre nach der Konstitution der beiden Länder und 20 Jahre nach dem Ende der Shoah ein komplexer Prozess der langsamen politischen Annäherung zu einem keineswegs selbstverständlichen Abschluss. Das fünfzigjährige Jubiläum dieses Ereignisses im Jahr 2015 war weltweit, vor allem aber in Israel und Deutschland, Anlass für zahlreiche Veranstaltungen, über die eine offizielle bilaterale Webseite <www.de50il.org/> (Stand: 6.11.2017) Auskunft gibt. Im Rahmen des Jubiläums wurde am 30. September 2015 in einer feierlichen Abendveranstaltung im Jüdischen Museum Berlin offiziell das „Wörterbuch deutscher Lehnwörter im Hebräischen“ von Uriel Adiv in einer ersten Fassung im „Lehnwortportal Deutsch“ des IDS freigeschaltet. Eine von Koautor Jakob Mendel erheblich überarbeitete und verbesserte zweite Version ging im Mai 2017 online. Der vorliegende Beitrag möchte einige Hintergründe zum deutschen Lehnwortschatz im modernen Hebräischen darstellen sowie die Entstehungsgeschichte des Werks und seinen Platz in der lehnwortlexikografischen Publikationsplattform „Lehnwortportal Deutsch“ <http://lwp.ids-mannheim.de/> (Stand: 6.11.2017) beleuchten.
Corpus researchers, along with many other disciplines in science are being put under continual pressure to show accountability and reproducibility in their work. This is unsurprisingly difficult when the researcher is faced with a wide array of methods and tools through which to do their work; simply tracking the operations done can be problematic, especially when toolchains are often configured by the developers, but left largely as a black box to the user. Here we present a scheme for encoding this ‘meta data’ inside the corpus files themselves in a structured data format, along with a proof-of-concept tool to record the operations performed on a file.
Die Behandlung der Euro-Krise in der deutschen Presse ist typisch für die Art und Weise, wie sich die Beschreibung komplexer Phänomene der Wirtschaft im letzten Jahrzehnt entwickelt hat: Fachberichte schwinden allmählich zugunsten von neuen Erzählformen, in denen rhetorische Figuren die Oberhand gewinnen. Darunter sind vor allem Metaphern zu finden, die hauptsächlich konventioneller Natur sind, aber auch gern kreativ fortgesetzt werden. Sie spielen meist eine zentrale Rolle auf der Textebene, indem sie wesentlich zur Kohärenz eines Abschnitts bzw. eines ganzen Artikels beitragen. Diese innovativen Kommunikationsformen mögen zwar das Interesse des breiten Publikums an wirtschaftlichen Debatten wecken, aber sie führen oft zu einer groben Vereinfachung, die den technischen Aspekt der Euro-Krise völlig beiseite lässt. Außerdem sind die benutzten Bilder in der Regel sehr negativ gefärbt, was die Angst der Öffentlichkeit vor einem weltweiten Zusammenbruch der Finanzmärkte sicherlich noch verstärkt und dem Vertrauen der Bürger in Europa nicht gerade dient. Die Vorliebe der Massenmedien für düstere Szenarien enthüllt somit eine bewusste Strategie der Dramatisierung, die immer mehr zum „Storytelling“ tendiert.
Am Anfang ist das Wort
(2017)
This paper argues for using authentic data not only as an empirical basis for linguistic generalizations but also for exemplification purposes in monolingual and particularly in bi- and multilingual contrastive studies. It shows that parallel data extracted from the available parallel corpora can - after enrichment with semantic-functional information while maintaining the available contextual, register-related and linguistic information - serve as a perfect data source for multilingual exemplification. Moreover, the analysis of semantic-functionally equivalent parallel sequences allows the investigation and exemplification of similarities and differences in how different languages express similar meaning from both a semasiological and an onomasiological perspective.
Ziel einer größer angelegten Studie – die Grundlage dieses Beitrags ist – war es, anhand der „Gassigespräche“ auf gattungsspezifische Ordnungsprinzipien und Familienähnlichkeiten miteinander verwandter Alltagsgattungen einzugehen, die vor allem in westlichen Kulturen etabliert zu sein scheinen. Die ihnen zugrundeliegenden kommunikativen Muster beschreiben wir als mehr oder weniger stark verfestigte Elemente. Mit diesem Beitrag wollen wir einen Einblick in die gattungsanalytische Betrachtung von Alltagskommunikation am Beispiel der Gassigespräche bieten.
Der vorliegende Beitrag beschreibt auf der Basis authentischer Alltagsinteraktionen das Formen- und Funktionsspektrum der äußerungsmodalisierenden Kommen-tarphrase ohne Scheiß im gesprochenen Deutsch. Die Konstruktion wird von Inter-agierenden insbesondere als Ressource zur Steigerung des Geltungsanspruchs einer Bezugsäußerung genutzt, wodurch diese als wahr und/oder ernstgemeint modali-siert wird. Damit leistet ohne Scheiß einen wichtigen Beitrag zur Bearbeitung des Erwartungsmanagements durch den/die SprecherIn sowie zur Herstellung von In-tersubjektivität. Die Konstruktion ist syntaktisch variabel und kann somit Äußerun-gen sowohl prospektiv als auch retraktiv modalisieren. Zudem wird mit der Wahl des Lexem Scheiß ein nähesprachliches Register aktiviert, was in Verbindung mit weiteren (prosodischen und/oder lexikalischen) Elementen zu affektiver Aufladung führen kann. Eine abschließende Darstellung häufiger lexikalischer Kookkurrenz-partner und deren funktionaler Bedeutung sowie ein Abgleich zu intrakonstruktio-nalen Varianten wie ohne Witz/ohne Spaß zeigt die Produktivität der Konstruktion im alltäglichen Sprachgebrauch auf.
Vom 14. bis 16. März fand im Congress Center Rosengarten in Mannheim die 53. Jahrestagung des Instituts für Deutsche Sprache (IDS) statt, die sich in diesem Jahr mit dem Lexikon und dessen Komplexität und Dynamik beschäftigte. Im Mittelpunkt standen neue Perspektiven auf das Lexikon und die Lexikonforschung nach der empirischen Wende, die das Bild vom Wortschatz deutlich verändert und den Blick darauf erweitert hat. Lexikontheoretiker und Lexikografen arbeiten heute u.a. mit quantitativen korpuslinguistischen Methoden und berücksichtigen Forschungsergebnisse und -methoden angrenzender Disziplinen wie der Psycholinguistik, wodurch auch neuartige Konzepte ins Blickfeld rücken. Das Inventar lexikalischer Einheiten beschränkt sich nicht mehr nur auf Wörter, sondern wurde durch konstruktionsartige Einheiten und semiabstrakte lexikalische Muster ergänzt.
Grammis is a web-based information system on German grammar, hosted by the Institute for the German Language (IDS). It is human-oriented and features different theoretical perspectives on grammar. Currently, the terminology component of grammis is being redesigned for this theoretical diversity to play a more prominent role in the data model. This also opens opportunities for implementing some machine-oriented features. In this paper, we present the re-design of both data model and knowledge base. We explore how the addition of machine-oriented features to the data model impacts the knowledge base; in particular, how this addition shifts some of the textual complexity into the data model. We show that our resource can easily be ported to a SKOS-XL representation, which makes it available for data science, knowledge-based NLP applications, and LOD in the context of digital humanities.
Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be filtered. This study briefly discusses the impact of web spam on corpus usability and emphasizes the importance of removing computer generated text from web corpora.
The paper also presents a keyword comparison of an unfiltered corpus with the same collection of texts cleaned by a supervised classifier trained using FastText. The classifier was able to recognize 71% of web spam documents similar to the training set but lacked both precision and recall when applied to short texts from another data set.
Für die mediale Dimension grammatischer Variation spielt die Unterscheidung von Gespräch und Text eine wichtige Rolle. Implizit wird dabei die Kategorie Text mit schriftlich realisierter Sprache und die Kategorie Gespräch mit mündlich realisierter Sprache identifiziert. Diese Zuordnung wird in Anbetracht der mediatisierten, hypermedialen Präsentations- und Kommunikationsformen im Internet zunehmend fragwürdig. Der Beitrag zeichnet die Diskussion um die varietätenlinguistische Einordnung der internetbasierten Kommunikation nach und führt das Oppositionspaar „textorientiert“ vs. „interaktionsorientiert“ ein, das es ermöglicht, auf der schriftlichen (medial graphischen) Ebene zwischen zwei Konstellation zu unterscheiden, in denen nähesprachliche Sprachmerkmale gehäuft auftreten: (1) Das interaktionsorientierte Schreiben in der internetbasierten Kommunikation und (2) die fingierte Mündlichkeit in literarischen Texten, die dem textorientierten Schreiben zuzuordnen ist. Am Fallbeispiel der interaktiven Einheit HM wird illustriert, wie frei verfügbare Korpusressourcen genutzt werden können, um die Gemeinsamkeiten, Unterschiede und Interferenzen zwischen der Verwendungen interaktiver Einheiten in Gespräch, Text und internetbasierter Kommunikation zu untersuchen.
Lexicographic meaning descriptions of German lexical items which are formally and semantically similar and therefore easily confused (so-called paronyms) often do not reflect their current usage of lexical items. They can even contradict one’s personal intuition or disagree with lexical usage as observed in public discourse. The reasons are manifold. Language data used for compiling dictionaries is either outdated, or lexicographic practice is rather conventional and does not take advantage of corpus-assisted approaches to semantic analysis. Despite of various modern electronic or online reference works speakers face uncertainties when dealing with easily confusable words. These are for example sensibel/sensitiv (sensitive) or kindisch/kindlich (childish/childlike). Existing dictionaries often do not provide satisfactory answers as to how to use these sets correctly. Numerous questions addressed in online forums show where uncertainties with paronyms are and why users demand further assistance concerning proper contextual usage (cf. Storjohann 2015). There are different reasons why users misuse certain items or mix up words which are similar in form and meaning. As data from written and more spontaneous language resources suggest, some confusions arise due to ongoing semantic change in the current use of some paronyms. This paper identifies shortcomings of contemporary German Dictionaries and discusses innovative ways of empirical lexicographic work that might pave the way for a new data-driven, descriptive reference work of confusable German terms. Currently, such a guide is being developed at the Institute for German Language in Mannheim implementing corpora and diverse corpus-analytical methods. Its objective is to compile a dictionary with contrastive entries which is a useful reference tool in situation of language doubt. At the same time, it aims at sensitizing users of context dependency and language change.
This paper discusses how cognitive aspects can be incorporated into lexicographic meaning descriptions based on corpus-driven analysis. The new German Online dictionary “Paronyme − Dynamisch im Kontrast” is concerned with easily confused words such as effektiv/effizient, sensibel/sensitiv. It is currently in the process of being developed and it aims at adopting a more conceptual and encyclopedic approach to meaning. Contrastive entries emphasize usage, comparing conceptual categories and indicating the mapping of knowledge. Adaptable access to lexicographic details offers different perspectives on information, and authentic examples reflect prototypical structures.
Some of the cognitive features are demonstrated with the help of examples. Firstly, I will outline how patterns of usage imply conceptual categories as central ideas instead of sufficiently logical criteria of semantic distinction. In this way, linguistic findings correlate better with how users conceptualize language. Secondly, it is pointed out how collocates are family members and fillers in contexts. Thirdly, I will demonstrate how contextual structure and function are included by summarizing referential information. Details are drawn from corpus data; they are usage-based patterns illustrating conversational interaction and semantic negotiation in contemporary public discourse. Finally, I will show flexible consultation routines where the focus on structural knowledge changes.
This paper discusses changes of lexicographic traditions with respect to approaches to meaning descriptions towards more cognitive perspectives. I will uncover how cognitive aspects can be incorporated into meaning descriptions based on corpus-driven analysis. The new German Online dictionary “Paronyme − Dynamisch im Kontrast” (Storjohann 2014; 2016) is concerned with easily confused words such as effektiv/effizient, sensibel/sensitiv. It is currently in the process of being developed and it aims at adopting a more conceptual and encyclopaedic approach to meaning by incorporating cognitive features. As a corpus-guided reference work it strives to adequately reflect ideas such as conceptual structure, categorisation and knowledge. Contrastive entries emphasise aspects of usage, comparing conceptual categories and indicate the (metonymic) mapping of knowledge. Adaptable access to lexicographic details and variable search options offer different foci and perspectives on linguistic information, and authentic examples reflect prototypical structures. Some of the cognitive features are demonstrated with the help of examples. Firstly, I will outline how patterns of usage imply conceptual categories as central ideas instead of sufficiently logical criteria of semantic distinction. In this way, linguistic findings correlate better with how users conceptualise language. Secondly, it is pointed out how collocates are treated as family members and fillers in contexts. Thirdly, I will demonstrate how contextual structure and functions are included summarising referential information. Details are drawn from corpus data, they are usage-based linguistic patterns illustrating conversational interaction and semantic negotiations in contemporary public discourse. Finally, I will outline consultation routines which activate different facets of structural knowledge, e.g. through changes of the ordering of information or through the visualisation of semantic networks.
Historical sociolinguistics in colonial New Guinea: The Rhenish mission society in the Astrolabe Bay
(2017)
The Rhenish Mission Society, a German Protestant mission, was active in a small part of northern New Guinea, the Astrolabe Bay, between 1887 and 1932. Up until 1914, this region was under German colonial rule. The German dominance was also reflected in rules on language use in official contexts such as schools and administration.
Missionaries were strongly affected by such rules as their most important tool in mission work was language. In addition, they were also responsible for school education as most schools in the German colonial areas in the Pacific were mission-run. Thus, mission societies had to make decisions about what languages to use, considering their own needs, their ideological convictions, and the colonial government’s requirements. These considerations were framed by the complex setting of New Guinea’s language wealth where several hundred languages were, and still are, spoken.
This paper investigates a small set of original documents from the Rhenish Mission Society to trace what steps were taken and what considerations played a major role in the process of agreeing on a suitable means of communication with the people the missionaries wanted to reach, thereby touching upon topics such as language attitudes, language policies and politics, practical considerations of language learning and language spread, and colonial actions impacting local language ecologies.
In my talk, I present an empirical approach to detecting and describing proverbs as frozen sentences with specific functions in current language use. We have developed this approach in the EU project ‘SprichWort’ (based on the German Reference Corpus). The first chapter illustrates selected aspects of our complex, iterative procedure to validate proverb candidates. Based on our corpus-driven lexpan methodology of slot analysis I then discuss semantic restrictions of proverb patterns. Furthermore, I show different degrees of proverb quality ranging from genuine proverbs to non-proverb realizations of the same abstract pattern. On the one hand, the corpus validation reveals that proverbs are definitely perceived and used as relatively fixed entities and often as sentences. On the other hand, proverbs are not only interpreted as an interesting unique phenomenon but also as part of the whole lexicon, embedded in networks of different lexical items.
This paper deals with the creation of the first morphological treebank for German by merging two pre-existing linguistic databases. The first of these is the linguistic database CELEX which is a standard resource for German morphology. We build on its refurbished and modernized version. The second resource is GermaNet, a lexical-semantic network which also provides partial markup for compounds. We describe the state of the art and the essential characteristics of both databases and our latest revisions. As the merging involves two data sources with distinct annotation schemes, the derivation of the morphological trees for the unified resource is not trivial. We discuss how we overcome problems with the data and format, in particular how we deal with overlaps and complementary scopes. The resulting database comprises about 100,000 trees whose format can be chosen according to the requirements of the application at hand. In our discussion, we show some future directions for morphological treebanks. The Perl script for the generation of the data from the sources will be made publicly available on our website.
Neologismen, im Folgenden konkret die, die seit den 90er Jahren aufgekommen, in die Allgemeinsprache eingegangen und in einem Neologismenwörterbuch (www.owid.de) umfassend beschrieben sind, dienen der Anpassung des Wortschatzes an neue Gegebenheiten und Sachverhalte. Insofern lassen Neologismen in erster Linie an Wortschatzerweiterung denken. Dazu tragen auch Pseudoanglizismen bei, die scheinbar als lexikalische Einheiten aus dem Englischen entlehnt, tatsächlich im Deutschen mit Mitteln der Wortbildung entstanden sind (z.B. Beniner) oder im Deutschen eine neue Bedeutung bekommen haben (z.B. Public Viewing). Konträr zur Wortschatzerweiterung stehen die Kurzzeitwörter, das heißt Neologismen, die innerhalb des genannten relativ kurzen Erfassungszeitraums aus unterschiedlichen Gründen wieder außer Gebrauch kommen (z.B. Praxisgebühr, Gauckbehörde).
Intention des Kooperationsprojektes „Grammatische Kenntnisse in der Sekundarstufe II“ (GramKid-SII) des Instituts für Deutsche Sprache (IDS) und der Ruhr-Universität Bochum ist, die deutschdidaktische Behauptung, Grammatikunterricht bis in die Sekundarstufe II führe zu besseren expliziten und nachhaltigen Grammatikkenntnissen des Deutschen, empirisch in Form einer longitudinalen Interventionsstudie mit Kontrollgruppendesign zu untersuchen.
Das Projekt GramKidSII (Grammatische Kenntnisse in der Sekundarstufe II) hat zum Ziel, die deutschdidaktische Behauptung, Grammatikunterricht bis in die Sekundarstufe II führe zu besseren und langfristig anhaltenden Grammatikkenntnissen, empirisch in Form einer longitudinalen Interventionsstudie mit Kontrollgruppendesign zu überprüfen. Im vorliegenden Beitrag stellen wir eine Pilotierungsstudie vor, die die Anwendungsmöglichkeiten einer Selbstlerneinheit für die geplante Interventionsstudie testet. Anhand der Ergebnisse zeigen wir, dass die von uns entworfene Selbstlerneinheit insbesondere dann schwer zur Vermittlung der deutschen Grammatik einsetzbar ist, wenn die von Grammatiken empfohlenen Regeln mit dem Sprachgefühl der Probanden konfligieren.
Forms of committed relationships, including formal marriage arrangements between men and women, exist in almost every culture (Bell, 1997). Yet, similarly to many other psychological constructs (Henrich et al., 2010), marital satisfaction and its correlates have been investigated almost exclusively in Western countries (e.g., Bradbury et al., 2000). Meanwhile, marital relationships are heavily guided by culturally determined norms, customs, and expectations (for review see Berscheid, 1995; Fiske et al., 1998). While we acknowledge the differences existing both between- and within-cultures, we measured marital satisfaction and several factors that might potentially correlate with it based on self-report data from individuals across 33 countries. The purpose of this paper is to introduce the raw data available for anybody interested in further examining any relations between them and other country-level scores obtained elsewhere. Below, we review the central variables that are likely to be related to marital satisfaction.
Am Institut für Deutsche Sprache in Mannheim fand vom 17. bis 19.11.2016 die sechste Tagung des Netzwerks „Diskurs – interdisziplinär“ statt, diesmal zum Thema „Diskurs – kontrastiv“. An der Tagung nahmen Teilnehmerinnen und Teilnehmer aus Bosnien-Herzegowina, Deutschland, England, Polen, Serbien, Schweiz, Schweden, der Slowakei und Slowenien teil. Die 18 Vorträge waren fünf Sektionen zugeordnet: Prinzipien des Kontrastiven, Internationale Vergleiche, Metaphorik im internationalen Vergleich, kontrastive Semantik, Kulturen und Stereotype – transnational. Die Beiträge fokussierten dabei immer wieder folgende Fragestellungen: Wie werden gleiche Themen in unterschiedlichen Gesellschaften konstituiert und erörtert? Welche sprachlichen Auswirkungen haben die jeweiligen gesellschaftlichen und politischen Bedingungen, unter denen formal gleichwertige Diskursbeteiligte (z. B. außerparlamentarische Opposition, Bürgerinitiativen, Interessengruppen) in Bezug auf identische Diskursgegenstände sprachlich agieren? Inwiefern lassen sich ähnliche Diskurse als je spezifische Zeitphänomene darstellen? Inwiefern besteht strukturelle Identität/Similarität bzw. Differenz z. B. hinsichtlich der Verwendung vergleichbarer bzw. abweichender Leit- und Schlüsselwörter, Metaphern, Argumentationsmuster etc.? Neben Vorträgen, die sich derlei Fragestellungen widmeten, gab es zudem Beiträge, die sich auf empirischer Basis mit Methoden kontrastiver Diskursforschung auseinandersetzten.
The present paper examines the rise and fall of Modern High German loanwords in English from 1600 until 2000, principally making use of the record of borrowing documented by the Oxford English Dictionary (OED) in its Third Edition (online version, in revision 2000-). Groups of loanwords are analysed by century, with reference to the changing social and cultural landscape characterising relationships between the relevant nations over this period. This is not a simple picture: each language grows over the period in different ways, and the speakers of English look to German at different times for different types of borrowing, as the political and intellectual balance alters.
Wenn wir unseren persönlichen Kanon, die Bücher, die für uns wichtig sind oder gewesen sind, durchgehen, kommt sicher ein schönes, gattungsreiches, multikulturelles, individuelles Sammelsurium zusammen. Wenn man sich vor die Aufgabe gestellt sieht, Goethe zu kommentieren und zu übersetzen, sollte man sich auf folgende Überlegungen einlassen: Wie steht es heute um bestimmte Figuren aus dem tradierten Kanon? Wie steht es zum Beispiel um Goethe? Auf ihn möchte ich mich jetzt sozusagen exemplarisch beschränken. Welche Position hat Goethe in Spanien? Gehört er zum eigenen, persönlichen Kanon eines (nicht einmal) wichtigen Teils der Leser? Kann er das überhaupt? Wer liest noch Die Leiden des jungen Werther, zum Beispiel, wenn es nicht gerade Pflicht in der Schule oder im Germanistikstudium ist? Oder gar Wilhelm Meisters Wanderjahre, die nirgendwo Pflichtlektüre sind? Baut heute noch jemand Goethes Werke in seine Identitätskonstruktion ein?
An der Börse sind zwei und zwei nie vier, sondern fünf ‒ minus eins. Es kommt schließlich zur Vier, aber nie direkt.1 Das geflügelte Wort André Kostolanys unterliegt einer narrativen Schemabildung: Kontinuität wird nicht nach dem Muster der aufsteigenden Zahlenreihe hergestellt, sondern gleichsam epizyklisch, also auf Umwegen. Wie seine berühmtere Metapher vom Spaziergänger (Wirtschaft) mit Hund (Börse), so beschreibt auch die Zahlenversion derselben die Vorstellung einer letztlich doch linearen Aufwärtsbewegung, in der der Mensch Herr und behaust bleiben kann. Das neue Jahrtausend stellt diese Beherrschbarkeitsnarratio offenbar in Frage. Der Beitrag untersucht drei narrative Modelle im Bereich der Wirtschaftskommunikation: das lineare Modell des „homo oeconomicus“, das nichtlineare Modell des „Schwarzen Schwans“ und den synthetischen Versuch der „Antifragilität“ nach Nassim Taleb.
Introduction
(2017)
We present a major step towards the creation of the first high-coverage lexicon of polarity shifters. In this work, we bootstrap a lexicon of verbs by exploiting various linguistic features. Polarity shifters, such as ‘abandon’, are similar to negations (e.g. ‘not’) in that they move the polarity of a phrase towards its inverse, as in ‘abandon all hope’. While there exist lists of negation words, creating comprehensive lists of polarity shifters is far more challenging due to their sheer number. On a sample of manually annotated verbs we examine a variety of linguistic features for this task. Then we build a supervised classifier to increase coverage. We show that this approach drastically reduces the annotation effort while ensuring a high-precision lexicon. We also show that our acquired knowledge of verbal polarity shifters improves phrase-level sentiment analysis.
Sprachwissenschaft geht logozentrisch vor, konzentriert sich also aufs geschriebene und seit einigen Jahrzehnten auch aufs gesprochene Wort. Das ist verständlich und sinnvoll (Schuster, bleib bei deinen Leisten!), setzt sich aber auch Scheuklappen auf und übersieht bedeutsame Erscheinungen am Rande.
Die Autoren beschäftigen sich mit Aspekten von Unterrichtskommunikation, die in der Regel übersehen oder in ihrer Relevanz nicht hinreichend fokussiert werden. Sie verdeutlichen exemplarisch, welche Erkenntnisse damit verbunden sind, wenn man Unterrichtsgeschehen nicht sofort als institutionelle Interaktion verengt und vorschnell auf Wissensvermittlung verkürzt, sondern trotz der faktischen Relevanz dieser beiden Aspekte das Geschehen im Klassenraum hinsichtlich basaler, interaktionskonstitutiver Anforderungen befragt. Unterricht als gemeinsame Herstellung der Beteiligten betrachtet und als raumbasiertes Unternehmen konzeptualisiert.
Das Konzept De-facto-Didaktik ist der theoretische Rahmen, in dem wir aus multimodal-interaktionsanalytischer Sicht Unterrichtskommunikation analysieren. Es integriert neue Entwicklungen im Bereich Interaktionstheorie, empirische Interaktionsanalyse und Raumlinguistik. Aus einer dezidiert interaktionistischen Perspektive fokussiert das Konzept zunächst bewusst allgemeine Anforderungen der Interaktionskonstitution, um spezifische Aspekte der Unterrichtskommunikation - im konkreten Fall primär das didaktische Handeln der Lehrer - neu perspektivieren zu können. Wie immer man das Geschehen im Unterricht auch konzeptualisieren mag, es ist und bleibt in seiner grundlegenden Struktur und - jenseits seiner institutionellen Prägung und Bedingtheit - ein Ereignis, das in der konkreten Interaktionsarchitektur des Klassenraums, sequenziell-simultan durch das multimodale Verhalten aller Anwesenden gemeinsam hervorgebracht wird. Dabei unterliegen alle Beteiligten ungeachtet ihrer besonderen Beteiligungsrolle den Bedingungen der Interaktionskonstitution.
Wir werden nachfolgend die interaktionstheoretischen Grundlagen skizzieren, auf der unsere Methode der de-facto-didaktisehen Analyse basiert, und führen dann an einem ausgewählten Beispiel vor, wodurch sich dieser analytische Zugang auszeichnet. Zum Abschluss weisen wir nach einem fallspezifischen Resümee auf die anwendungsbezogene Relevanz de-facto-didaktischer Analysen hin.
This article explores how close one can come to a cultural-scientific perspective on the basis of a constitution-analytical methodology. We do this on the basis of a comparison of the celebration of Totensonntag in Zotzenbach (Southern Hesse) and Sarepta (Wolgograd). In both places, there are protestant churches that perform this ritual to commemorate the dead on this “Sunday of the Dead” as a part of their church service. Our scientific interest lies in the reconstruction of the rituality produced during the in situ execution. In both services, the names of the deceased are read out and a candle is lit for each deceased person. In Zotzenbach the priest reads out the names and an assistant ignites the candles for the deceased, whereas in Sarepta the bereaved are responsible for this. Since the ritual is organised in very different ways in terms of architecture-for-interaction (statically in Zotzenbach, spatially dynamic in Sarepta), we can reconstruct two completely different models of rituality: a demonstrative one (Zotzenbach) and a participative one (Sarepta). The demonstrative model works on the basis of a finely tuned coordination between the two church representatives and is aimed at a dignified execution. The model in Sarepta is not suitable for the production of formality due to its participatory structure. Here, however, the focus is also on the aspect of socialization, which goes beyond the church service and offers the Russian-German worshipers the opportunity to situationally constitute as a culturally homogeneous group.
In diesem Aufsatz wird einzelfallanalytisch der Frage nachgegangen, wie die Struktur einer Kirchenbesichtigung aussieht. Im theoretischen Rahmen, der die Kirchenbesichtigung als kulturelle Praktik konzeptualisiert, wird „Objektkonstitution“ als eine aktive Leistung des Kirchenbesichtigers in den Blick genommen. Bei den Aufnahmen zum Kirchenbesichtigungskorpus wurden die Besichtiger nicht nur bei ihrem Gang durch den Kirchenraum und der visuellen Wahrnehmung bestimmter Raumaspekte gefilmt. Sie wurden vielmehr darum gebeten, ihre visuelle Wahrnehmung durch begleitendes Sprechen auch zu kommentieren. Aufgezeichnet wurde das Besichtigungskorpus mit zwei Kameras: einer Actionkamera, die den Wahrnehmungsraum der Besichtiger dokumentiert, und einer Kontextkamera, die ihnen bei ihrem Weg durch den Raum folgt.
Dieses experimentelle Erhebungsdesign, bei dem exothetisches Sprechen bewusst als wissenschaftliche Erhebungsmethode eingesetzt wird, macht es möglich, das Besichtigungskonzept der Personen als dynamisches Zusammenspiel ihrer visuellen Wahrnehmung des Kirchenraums und ihrer wahrnehmungsbegleitenden Exothese zu rekonstruieren. Dass Objektkonstitution eine aktive Herstellung ist, durch die der Kirchenraum in den Relevanzen seines Betrachters teilweise neu entsteht, zeigt die Fallanalyse in exemplarischer Klarheit: Anton, der analysierte Besichtiger, der sich ausführlich mit zwei großen Gemälden beschäftigt, konstituiert diese de facto als „Bilderrahmen“, ohne überhaupt auf die dargestellten Szenen einzugehen.
We present an approach to making existing CLARIN web services usable for spoken language transcriptions. Our approach is based on a new TEI-based ISO standard for such transcriptions. We show how existing tool formats can be transformed to this standard, how an encoder/decoder pair for the TCF format enables users to feed this type of data through a WebLicht tool chain, and why and how web services operating directly on the standard format would be useful.
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Institut für Deutsche Sprache ist die zentrale Sammelstelle für Korpora des Gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von etwa 50 Variations- und Gesprächskorpora aufgebaut. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
Interaktion und Medien
(2017)
TV-Formate
(2017)
Harold Garfinkel, Begründer der Ethnomethodologie, wäre dieses Jahr 100 Jahre alt geworden, seine Studies in Ethnomethodology werden 50 Jahre. Grund genug diesen doppelten Geburtstag mit einer Tagung zur "deutschsprachigen Vorge-schichte, Wirkung und Rezeption des Werkes und der Person zu würdigen" (so der Ankündigungstext zur Tagung), die nicht ganz zufällig in Konstanz stattfand, lange Zeit und nach wie vor eine Hochburg rekonstruktiver Sozialforschung (auch) ethnomethodologischer Prägung. Die Tagung Harold Garfinkel's 'Studies in Ethnomethodolgy' – Fifty Years After vom 26.-28.10.2017 an der Universität Konstanz, ausgerichtet vom Lehrstuhl für Allgemeine Soziologie und Kultursoziologie und organisiert von Jörg Bergmann, Christian Meyer und Erhard Schüttpelz, tat dies in einer gebührlichen und beson-deren Weise: Die acht Kapitel der Studies in Ethnomethodology (im Folgenden kurz Studies), ein Konvolut aus Essays und Artikeln, die 1967 erschienen sind, dienten als Grundlage zur Strukturierung der Tagung und als Ausgangspunkt der einzelnen Vorträge.
Theateraufführungen sind ohne Zuschauer nicht denkbar. Zugleich erweisen sich Proben aber als öffentlichkeitsabgeschirmte und intime Vorgänge, da eine (zu frühe) Orientierung an möglichen Publikums-Effekten den kreativen Prozess stört. Auf der Grundlage von über 30 Stunden Videoaufnahmen von Theaterproben zeige ich an ausgewählten Ausschnitten, wie Theatermachende sich sprachlich und körperlich im Probenprozess auf das Publikum beziehen, wie dies interaktiv realisiert wird und welche Rückschlüsse das auf die Weisen der Publikumskonstruktion im Kontext von Proben zulässt.
This paper presents a survey on hate speech detection. Given the steadily growing body of social media content, the amount of online hate speech is also increasing. Due to the massive scale of the web, methods that automatically detect hate speech are required. Our survey describes key areas that have been explored to automatically recognize these types of utterances using natural language processing. We also discuss limits of those approaches.
Ungefähr 5,8 Mio. Menschen in der Welt sprechen heute die dänische Sprache - die meisten davon in Dänemark. Dänisch hat seine Wurzeln im Germanischen und begann sich zwischen den Jahren 800 und 1000 aus dem Urnordischen als selbständige Sprache zu entwickeln. Noch heute weist Dänisch viele gemeinsame Züge mit dem Norwegischen und Schwedischen auf. Besonders für Deutsche sollte die dänische Schriftsprache eigentlich leicht verständlich sein. Durch die vielen politischen, wirtschaftlichen und kulturellen Kontakte zwischen den beiden Nachbarländern, vermittelt z.B. durch die Hanse im Ostseeraum, haben sich viele deutsche, insbesondere niederdeutsche Wörter und Redewendungen in der dänischen Sprache eingebürgert, und man kann noch heute dänische Sätze bilden, in denen alle inhaltstragende Wörter aus dem Deutschen entliehen sind. Im Folgenden wird eine Untersuchung des aktuellen Wortschatzes anhand eines dänischen Wörterbuchs aufgezeigt. Anschließend wird ein Blick auf das offizielle nationale dänische Sprachinstitut geworfen und deren empirische Grundlagen der offiziellen Rechtschreibung genauer geschildert.
Die Idee hinter dem Projekt – einen schnellen und einfachen Einstieg in die Analyse großer Korpusdaten mittels CorpusExplorer geben. Diese frei verfügbare Software bietet aktuell über 45 Analysen/Visualisierungen für vielfältige korpuslinguistische Zwecke und ist durch ihre Nutzerfreundlichkeit auch für den Einsatz in der universitären Lehre geeignet. Als Beispiel dient das EuroParl-Korpus, man kann aber auch eigenes Textmaterial (z. B. Textdateien, eBooks, Xml, Twitter, Blogs, etc.) mit dem CorpusExplorer annotieren, analysieren und visualisieren. Die Videos zeigen Schritt-für-Schritt die einzelnen Funktionen.
Überspannt werden die Videos von einer kleinen zweistufigen Aufgabe: Zuerst sollten ein paar Fragen/Thesen/Annahmen überlegt werden, die sich mit den Plenarprotokollen des EuroParl auswerten lassen – einige Videos geben auch explizite Anregungen oder man nutzt die Inspiration der anderen Beiträge im Issue #3. Die einfachsten Fragen/Thesen lassen sich bereits mit den hier vorgestellten Videos beantworten. Sobald es komplexer wird, betritt man den zweiten – reflexiven Teil der überspannenden Aufgabe: Es ist zu überlegen, wie durch (mehrfache) Kombination der einzelnen Video-/Wissensbausteine das Ziel erreicht werden kann (ein Beispiel – siehe Script). Im Zweifelsfall stehen außerdem ein Handbuch und ein E-Mail Support zur Verfügung.
The Manatee corpus management system on which the Sketch Engine is built is efficient, but unable to harness the power of today’s multiprocessor machines. We describe a new, compatible implementation of Manatee which we develop in the Go language and report on the performance gains that we obtained.
Unknown words are a challenge for any NLP task, including sentiment analysis. Here, we evaluate the extent to which sentiment polarity of complex words can be predicted based on their morphological make-up. We do this on German as it has very productive processes of derivation and compounding and many German hapax words, which are likely to bear sentiment, are morphologically complex. We present results of supervised classification experiments on new datasets with morphological parses and polarity annotations.
Social agency and grammar
(2017)
Interindividuelle Unterschiede bei der Verarbeitung sprachlicher Strukturen haben bei experimentellen Untersuchungen zur Sprachverarbeitung mittels neurobasierter Verfahren lange Zeit keine oder bestenfalls eine untergeordnete Rolle gespielt. Während individuelle Verarbeitungsstrategien in Abhängigkeit von experimentellen Faktoren (z.B. Aufgabenstellung) relativ gut belegt sind (z.B. probandenspezifisches strategisches Verhalten bei der Verarbeitung von semantischen Relationen; Roehm et al. 2007), wurde der Einfluss von Variation in der Grammatik des Standarddeutschen in Korrelation zu Hirnprozessen bisher kaum berücksichtigt. In diesem Beitrag werde ich auf der Basis dreier EEG-Experimente aus unterschiedlichen Bereichen (Synästhesie, semantische Relationen, Auxiliarselektion bei intransitiven Verben) Beispiele für Verarbeitungskorrelate interindividueller Variation vorstellen und diskutieren.
Verstehen und Motivieren: semantische Fluchtpunkte deutscher und italienischer Lexeme mit -log-
(2017)
In diesem Beitrag argumentiere ich, dass das grammatische Regelwerk „Lücken“ hat und dass „realistische“ Grammatikschreibung das in Theorie und Praxis berücksichtigen muss; insbesondere sind eventuelle Äußerungen in Lückensituationen außergrammatisch zu modellieren. Diese Konzeption wird anhand morphologischer und syntaktischer so genannter Zweifelsfälle intuitiv plausibilisiert und ihr Nutzen für die Grammatikschreibung in vergleichender Auseinandersetzung mit prominenten „lücken-losen“ Analysen von zwei Beispielen - ‚Right Node Raising‘- und gewissen Ersatzinfinitiv-Strukturen - nachgewiesen.
Die folgenden Ausführungen zur Maskierung basieren auf den Erfahrungen bei der Aufbereitung der Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für die Veröffentlichung in der Datenbank für Gesprochenes Deutsch (DGD). Sie sollen anderen Forschern und Forschungsprojekten als praktische Hilfestellung für die Maskierung von Aufnahmen dienen, können aber selbstverständlich nicht die gesamte Bandbreite von Einzelfallentscheidungen und Pflichten der Forschenden abdecken.
Es werden sowohl allgemeine Hinweise zur Maskierung von Audio- und Videoaufnahmen gegeben als auch praktische Tipps zur Umsetzung der Maskierung mit dem Transkriptionseditor FOLKER.
Die in den Ausführungen geschilderten arbeitsteiligen Prozesse in größeren Projekten können in kleineren Projekten einzelner Forscher selbstverständlich auch von einer einzelnen Person ausgeführt werden.
Universal Dependency (UD) annotations, despite their usefulness for cross-lingual tasks and semantic applications, are not optimised for statistical parsing. In the paper, we ask what exactly causes the decrease in parsing accuracy when training a parser on UD-style annotations and whether the effect is similarly strong for all languages. We conduct a series of experiments where we systematically modify individual annotation decisions taken in the UD scheme and show that this results in an increased accuracy for most, but not for all languages. We show that the encoding in the UD scheme, in particular the decision to encode content words as heads, causes an increase in dependency length for nearly all treebanks and an increase in arc direction entropy for many languages, and evaluate the effect this has on parsing accuracy.
We introduce a method for error detection in automatically annotated text, aimed at supporting the creation of high-quality language resources at affordable cost. Our method combines an unsupervised generative model with human supervision from active learning. We test our approach on in-domain and out-of-domain data in two languages, in AL simulations and in a real world setting. For all settings, the results show that our method is able to detect annotation errors with high precision and high recall.
Catching the common cause: extraction and annotation of causal relations and their participants
(2017)
In this paper, we present a simple, yet effective method for the automatic identification and extraction of causal relations from text, based on a large English-German parallel corpus. The goal of this effort is to create a lexical resource for German causal relations. The resource will consist of a lexicon that describes constructions that trigger causality as well as the participants of the causal event, and will be augmented by a corpus with annotated instances for each entry, that can be used as training data to develop a system for automatic classification of causal relations. Focusing on verbs, our method harvested a set of 100 different lexical triggers of causality, including support verb constructions. At the moment, our corpus includes over 1,000 annotated instances. The lexicon and the annotated data will be made available to the research community.
In the NLP literature, adapting a parser to new text with properties different from the training data is commonly referred to as domain adaptation. In practice, however, the differences between texts from different sources often reflect a mixture of domain and genre properties, and it is by no means clear what impact each of those has on statistical parsing. In this paper, we investigate how differences between articles in a newspaper corpus relate to the concepts of genre and domain and how they influence parsing performance of a transition-based dependency parser. We do this by applying various similarity measures for data point selection and testing their adequacy for creating genre-aware parsing models.
In the NLP literature, adapting a parser to new text with properties different from the training data is commonly referred to as domain adaptation. In practice, however, the differences between texts from different sources often reflect a mixture of domain and genre properties, and it is by no means clear what impact each of those has on statistical parsing. In this paper, we investigate how differences between articles in a newspaper corpus relate to the concepts of genre and domain and how they influence parsing performance of a transition-based dependency parser. We do this by applying various similarity measures for data point selection and testing their adequacy for creating genre-aware parsing models.