Refine
Year of publication
- 2012 (28) (remove)
Document Type
- Part of a Book (11)
- Conference Proceeding (9)
- Article (4)
- Book (3)
- Other (1)
Keywords
- Korpus <Linguistik> (28) (remove)
Publicationstate
- Veröffentlichungsversion (18)
- Postprint (3)
- Zweitveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (15)
- Peer-Review (5)
- Peer-review (1)
- Review-Status-unbekannt (1)
Publisher
- de Gruyter (4)
- De Gruyter (2)
- Eigenverlag ÖGAI (2)
- European Language Resources Association (2)
- European Language Resources Association (ELRA) (2)
- ACM (1)
- Benjamins (1)
- Campus (1)
- Ediçoes Colibri (1)
- Fink (1)
Die gesprächsanalytische Studie untersucht Gespräche im Spannungsfeld von institutioneller und interkultureller Kommunikation. Dazu werden Interaktionen zwischen deutschen Polizeibeamten und Immigranten, die nicht über muttersprachliche Kenntnisse des Deutschen verfügen, in natürlichen Zeugen- und Beschuldigtenvernehmungen sowie Erst-Kontakt-Situationen an der Anmeldung der Polizeiinspektion analysiert. Die Interaktionen werden zum einen auf institutioneller Ebene hinsichtlich der Asymmetrien sowie dem Umgang der Beteiligten mit den für die Institution typischen Schemata untersucht. Zum anderen rücken auf interkultureller Ebene die Verstehenssicherung und kulturbedingte Kommunikationsstörungen in den Fokus. Dabei zeigt sich, dass die Klienten teilweise über ein (kulturell) anderes Rahmenwissen verfügen und sich daher Divergenzen hinsichtlich des Verständnisses des Kommunikationstyps ‚Vernehmung‘ zwischen Beamten und Klienten auftun.
Ce chapitre s’intéresse à la façon dont les changements de langue dans des réunions sont gérés par les parties co-présentes qui les traitent comme posant des problèmes de participation, en s’orientant vers le fait que le choix d’une langue particulière peut avoir comme effet d’augmenter ou bien de diminuer la participation de certains ou de tous les membres co-présents. Le choix d’une langue plutôt que d’une autre est étudié comme répondant à un problème des membres et comme une décision prise par eux, exhibant la manière dont ils s’orientent vers ses conséquences et dont ils élaborent sa justification et légitimité. Dans ce sens, le choix de l’anglais ou de plusieurs langues co-existantes voire alternantes n’a pas en soi une valeur positive ou négative en termes de participation, d’adéquation ou d’efficacité, mais a une valeur qui est située et occasionnée, dépendant des formats spécifiques de participation, des compétences reconnues localement et de la manière dont l’interaction est organisée. Afin d’explorer de manière systématique cette articulation entre choix de langue et participation, nous allons nous pencher sur un phénomène particulier et récurrent. Il s’agit de l’annonce qui projette un changement de langue et qui peut prendre une forme telle que “now we will switch into English so that you can participate”. Nous l’analyserons en tenant compte de la position séquentielle où elle est produite, de son format, de la façon dont elle est adressée à une partie ou à la totalité des co-présents, et de l’action spécifique qui y est accomplie. Nous étudierons aussi la manière dont elle est reçue, ses effets sur le cadre de participation, ainsi que les catégorisations qui en découlent. On montrera ainsi la relation de configuration mutuelle qui s’établit entre choix de langue et cadre de participation. Nos analyses seront développées sur la base de plusieurs corpus de rencontres professionnelles internationales enregistrées en audio et en vidéo sur plusieurs terrains. Les données vidéo nous invitent à considérer non seulement la dimension linguistique des cadres participatifs et des changements de langue, mais aussi leur organisation multimodale : l’organisation incarnée (embodied) du code-switching n’a pratiquement pas encore été explorée et la participation incarnée reste sous-étudiée, ainsi que son lien avec des espaces interactionnels spécifiques. Ce chapitre montre que les détails multimodaux sont cruciaux pour la compréhension des liens entre plurilinguisme et participation en tant que dynamiques occasionnées, contingentes et émergentes.
This article discusses questions concerning the creation, annotation and sharing of spoken language corpora. We use the Hamburg Map Task Corpus (HAMATAC), a small corpus in which advanced learners of German were recorded solving a map task, as an example to illustrate our main points. We first give an overview of the corpus creation and annotation process including recording, metadata documentation, transcription and semi-automatic annotation of the data. We then discuss the manual annotation of disfluencies as an example case in which many of the typical and challenging problems for data reuse – in particular the reliability of interpretative annotations – are revealed.
In this paper, we describe MLSA, a publicly available multi-layered reference corpus for German-language sentiment analysis. The construction of the corpus is based on the manual annotation of 270 German-language sentences considering three different layers of granularity. The sentence-layer annotation, as the most coarse-grained annotation, focuses on aspects of objectivity, subjectivity and the overall polarity of the respective sentences. Layer 2 is concerned with polarity on the word- and phrase-level, annotating both subjective and factual language. The annotations on Layer 3 focus on the expression-level, denoting frames of private states such as objective and direct speech events. These three layers and their respective annotations are intended to be fully independent of each other. At the same time, exploring for and discovering interactions that may exist between different layers should also be possible. The reliability of the respective annotations was assessed using the average pairwise agreement and Fleiss’ multi-rater measures. We believe that MLSA is a beneficial resource for sentiment analysis research, algorithms and applications that focus on the German language.
We present a gold standard for semantic relation extraction in the food domain for German. The relation types that we address are motivated by scenarios for which IT applications present a commercial potential, such as virtual customer advice in which a virtual agent assists a customer in a supermarket in finding those products that satisfy their needs best. Moreover, we focus on those relation types that can be extracted from natural language text corpora, ideally content from the internet, such as web forums, that are easy to retrieve. A typical relation type that meets these requirements are pairs of food items that are usually consumed together. Such a relation type could be used by a virtual agent to suggest additional products available in a shop that would potentially complement the items a customer has already in their shopping cart. Our gold standard comprises structural data, i.e. relation tables, which encode relation instances. These tables are vital in order to evaluate natural language processing systems that extract those relations.
In this paper, we examine methods to automatically extract domain-specific knowledge from the food domain from unlabeled natural language text. We employ different extraction methods ranging from surface patterns to co-occurrence measures applied on different parts of a document. We show that the effectiveness of a particular method depends very much on the relation type considered and that there is no single method that works equally well for every relation type. We also examine a combination of extraction methods and also consider relationships between different relation types. The extraction methods are applied both on a domain-specific corpus and the domain-independent factual knowledge base Wikipedia. Moreover, we examine an open-domain lexical ontology for suitability.
Korpuslinguistik
(2012)
Dieser Beitrag versucht, eine Einschätzung der Einsatzmöglichkeiten für automatische Analysemethoden aus der aktuellen computerlinguistischen Forschung für die sprachvergleichende Grammatikforschung vorzunehmen. Zur Illustration werden die Ergebnisse einer computerlinguistischen Studie für die vergleichende Untersuchung von Spaltsatzkonstruktionen in verschiedenen Sprachen wiedergegeben und ausführlich diskutiert. Der Korpuszugang erfolgt in diesem Rahmen auf Basis einer vollautomatischen syntaktischen Analyse, die dann noch zusätzlich durch eine statistische Wortalignierung kontrastiv auf Parallelkorpora beleuchtet werden kann. Neben der Vorstellung der bereits bestehenden automatischen Annotationsmöglichkeiten, die in meinen Augen vielversprechende Wege für den sprachwissenschaftlichen Korpuszugang eröffnen, ist die Hoffnung, dass dieser Beitrag durch die abschließende Diskussion zu dem Bewusstsein beiträgt, dass eine tiefere, organischere Verbindung der beiden sprachwissenschaftlichen Disziplinen möglich ist: dann nämlich, wenn der Korpuszugang nicht mit statischen, vordefinierten Werkzeugen erfolgt, deren Verhalten durch die Grammatikforscherin oder den Grammatikforscher nicht beeinflusst werden kann, sondern wenn ein interaktiver Werkzeuggebrauch erfolgt, der von den vielfältigen Anpassungsmöglichkeiten mit den zugrunde liegenden maschinellen Lernverfahren Gebrauch macht.
Dieser Beitrag beschäftigt sich mit einem Vergleich der englischen wh-Clefts und deren Entsprechungen im Deutschen, den ,Sperrsätzen‘ oder ‚w-Clefts‘. Auf Grundlage einer umfangreichen Korpusstudie werden zunächst Unterschiede in der Verteilung bestimmter w/h-Cleftsatztypen ermittelt. Ein generelles quantitatives Übergewicht der englischen wh-Clefts gegenüber den deutschen w-Clefts wird mit der flexibleren Wortstellung des Deutschen in Verbindung gebracht. Spezifisch werden die beobachteten Asymmetrien durch Unterschiede in der Möglichkeit der Erfüllung bestimmter struktureller Bedingungen erklärt. Vier Motivationen für die Bildung von Cleftsätzen werden identifiziert: (i) lineare Synchronisierung von Informationsstruktur und Syntax, (ii) strukturelle Trennung von Quaestio (= im Diskurs gegebener Frage) und Responsio (= Antwort auf die Quaestio), (iii) Trennung von propositionalem Gehalt und Äußerungskommentar (,Ebenentrennung‘) und (iv) Rechtslastigkeit (Behaghels ‚Gesetz der wachsenden Glieder‘). Während all diese Faktoren die Bildung von wh-Cleftsätzen im Englischen zu begünstigen scheinen, sind deutsche w-Clefts meist durch den in (ii) genannten Faktor motiviert. Die anderen Motivationen führen seltener zur Bildung von w-Cleftsätzen als im Englischen, da die entsprechenden strukturellen Effekte auch ohne Cleftsatzbildung — z.B. in einem kanonischen Verbzweitsatz — erzielt werden können.