Refine
Year of publication
- 2012 (262) (remove)
Document Type
- Part of a Book (115)
- Article (82)
- Conference Proceeding (35)
- Book (14)
- Part of Periodical (11)
- Doctoral Thesis (2)
- Other (2)
- Review (1)
Is part of the Bibliography
- no (262) (remove)
Keywords
- Deutsch (116)
- Korpus <Linguistik> (26)
- Konversationsanalyse (18)
- Computerlinguistik (16)
- Englisch (11)
- Interaktion (10)
- Kontrastive Grammatik (10)
- Sprachgebrauch (10)
- Diskursanalyse (9)
- Sprachkontakt (9)
Publicationstate
- Veröffentlichungsversion (100)
- Zweitveröffentlichung (23)
- Postprint (12)
Reviewstate
Publisher
- de Gruyter (37)
- Institut für Deutsche Sprache (31)
- Narr (16)
- European Language Resources Association (8)
- Lang (8)
- De Gruyter (7)
- European Language Resources Association (ELRA) (5)
- Verl. für Gesprächsforschung (5)
- Akademie Verlag (4)
- Springer (4)
This special issue of the Journal on Ethnopolitics and Minority Issues in Europe (JEMIE) brings together some of the participants of the symposium Political and Economic Resources and Obstacles of Minority Language Maintenance organized by the Language Survival Network ‘POGA’ at Tallinn University, Estonia, in December 2010. More than 20 scholars representing linguistics, anthropology, social sciences and law participated in the symposium, to present papers and discuss questions related to minority language loss, maintenance and revitalization. The six case studies contained in this special issue look at different minorities and regions in the European Union, Russia and the US. The linguistic communities discussed are the Russian-, Võru/Seto- and Latgalian-speaking minorities of Estonia and Latvia; the Welsh- and Breton-speaking communities of the Celtic language; the Russian Finno-Ugrian people with regional autonomies; and the native American groups of the Delaware/Cherokee and the Oneida. The reader will find articles relating to interdisciplinary research approaches in and on minority languages and minority language communities.
When we first started the project of looking at minority languages through a linguistic landscape lens, we felt that the visibility of minority languages in public space had been insufficiently dealt with in traditional minority language research. A linguistic landscape approach, as it had developed over the last years, would constitute a valuable path to explore, by looking at the ‘same old issues’ of language contact and language conflict from a specific angle. We were convinced that fresh linguistic landscape data would be able to provide innovative and useful insights into ‘patterns of language […] use, official language policies, prevalent language attitudes, [and] power relations between different linguistic groups’ (Backhaus 2007, p. 11). The linguistic landscape approach, as presented by the different authors in this volume, has clearly proven to be a heuristic appropriate and relevant for a wide range of minority language situations. More specifically, the ideas and analyses in the different chapters do contribute to a further understanding of minority languages and their speakers. They deepen our comprehension of language policies, power relations and ideologies in minority language settings.
Für die Grammatikschreibung des Deutschen ist die Negation eine Herausforderung. Das betrifft schon das Inventar der Negationsausdrücke wie nicht, kein oder niemand. In welchem Verhältnis stehen sie zueinander, und wann wird welcher Negationsausdruck gewählt? Die Negationspartikel nicht kann in den meisten Sätzen unterschiedliche Stellungen einnehmen, womit subtile Bedeutungsunterschiede einhergehen. Welchen genauen syntaktischen Status nicht hat, ist bis heute umstritten. Die Negation interagiert auch eng mit der Informationsstruktur, die unter anderem durch Intonation und Akzentuierung ausgedrückt wird. Die Intonation negierter Äußerungen und ihre Auswirkungen auf die Bedeutung werden in diesem Buch besonders gründlich behandelt. Schließlich sind zur Bedeutung der Negation selbst noch wichtige Fragen zu klären, unter anderem die, welche semantischen Objekte überhaupt negiert werden können und was genau durch ihre Negation bewirkt wird.
Das Buch versucht eine Gesamtschau der Grammatik der Negation im Deutschen, die für Fachwissenschaftler, für Studierende und für allgemein Sprachinteressierte, etwa für Lehrende des Deutschen als Mutter- und Fremdsprache, zugänglich sein soll. Die begrifflichen und methodischen Voraussetzungen aller Teile werden leserfreundlich eingeführt. Dadurch ist das Buch auch als Lehrwerk für die Gebiete Syntax, Informationsstruktur und Satzsemantik des Deutschen im Linguistikstudium verwendbar.
This chapter explores the Linguistic Landscape of six medium-size towns in the Baltic States with regard to languages of tourism and to the role of English and Russian as linguae francae. A quantitative analysis of signs and of tourism web sites shows that, next to the state languages, English is the most dominant language. Yet, interviews reveal that underneath the surface, Russian still stands strong. Therefore, possible claims that English might take over the role of the main lingua franca in the Baltic States cannot be maintained. English has a strong position for attracting international tourists, but only alongside Russian which remains important both as a language of international communication and for local needs.
Was halten die Deutschen von ihrer Muttersprache? Wie denken sie über andere Sprachen und deutsche Dialekte (siehe auch Schoel / Stahlberg in diesem Band)? Wie nehmen sie Veränderungen ihrer Sprache wahr und was halten sie von fremdsprachlichen Einflüssen, wie z. B. der Verwendung von Anglizismen? Sind Deutsche, umgekehrt betrachtet, besonders kritisch, wenn andere Deutsche Englisch sprechen? Und wie bewerten sie andere Personen, die z.B. einen französischen oder russischen Akzent im Deutschen besitzen? Mit all diesen Fragen hat sich das vorliegende Teilprojekt im Rahmen dieses von der Volkswagenstiftung geförderten Forschungsprojekts beschäftigt. Ausgehend von sozialpsychologischen Theorien und Methoden, wurden Spracheinstellungen in Deutschland näher untersucht.
Towards a part-of-speech ontology: encoding morphemic units of two South African Bantu languages
(2012)
This article describes the design of an electronic knowledge base, namely a morpho-syntactic database structured as an ontology of linguistic categories, containing linguistic units of two related languages of the South African Bantu group: Northern Sotho and Zulu. These languages differ significantly in their surface orthographies, but are very similar on the lexical and sub-lexical levels. It is therefore our goal to describe the morphemes of these languages in a single common database in order to outline and interpret commonalities and differences in more detail. Moreover, the relational database which is developed defines the underlying morphemic units (morphs) for both languages. It will be shown that the electronic part-of-speech ontology goes hand in hand with part-of-speech tagsets that label morphemic units. This database is designed as part of a forthcoming system providing lexicographic and linguistic knowledge on the official South African Bantu languages.
Electronic dictionaries should support dictionary users by giving them guidance in text production and text reception, alongside a user-definable offer of lexicographic data for cognitive purposes. In this article, we sketch the principles of an interactive and dynamic electronic dictionary aimed at text production and text reception guiding users in innovative ways, especially with respect to difficult, complicated or confusing issues. The lexicographer has to do a very careful analysis of the nature of the possible problems to suggest an optimal solution for a specific problem. We are of the opinion that there are numerous complex situations where users need more detailed support than currently available in e-dictionaries, enabling them to make valid and correct choices. For highly complex situations, we suggest guidance through a decision tree-like device. We assume that the solutions proposed here are not specific to one language only but can, after careful analysis, be applied to e-dictionaries in different languages across the world.
Providing an innovative approach to the written displays of minority languages in public space this volume explores minority language situations through the lens of linguistic landscape research. Based on very tangible data it explores the 'same old issues' of language contact and language conflict in new ways.
Over the past decades, problems related to linguistic minorities and their well-being, as well as to minority languages and their maintenance, have developed as an independent branch of minority studies. Studies of language in society and sociolinguistics, strategies of minority language survival and the empowerment of their speakers have produced a considerable output of case studies and theoretical writings.In this multifaceted field of investigation, language use, language practices, language policies and language politics represent interrelated aspects of social and linguistic relations that cannot be meaningfully addressed from a point of view of one scientific discipline only. This is specially the case when one wants to understand processes of language loss and maintenance, or the revitalization and empowerment of a language community. Such processes are linguistic expressions of complex social settings, and reflect group and individual identities that in turn express changing systems of collective values, human networks, fashions and social practices.
This article discusses the situation of the Latgalian language in Latvia today. It first provides an overview of languages in Latvia, followed by a historical and contemporary sketch of the societal position of Latgalian and by an account of current Latgalian language activism. On this basis, the article then applies schemes of language functions and of evaluations of the societal position of minority languages to Latgalian. Given the range of functions that Latgalian fulfils today and the wishes and attempts by activists to expand these functions, the article argues that it is surprising that so little attention is given to Latgalian in mainstream Latvian and international sociolinguistic publications. In this light, the fate of the language is difficult to prognose, but a lot depends on whether the Latvian state will clarify its own unclear perception of policies towards Latgalian and on how much attention it will receive in the future.
In Fachsprache 1–2/2011 Czicza and Hennig proposed a model that explains correlations between grammatical features and pragmatic conditions in communication in sciences. This model now serves as a basis for the practical analysis of the scientific degree of any written text. The authors present a method of analyzing written texts concerning the four parameters ‚economy’‚ precision’, ‚impersonalization’ and ‚discussion’. The method is being developed by the analysis of a prototypical scientific article on the one hand and a non-scientific text on the other hand. The two texts serve as the two poles of the scale of scientificity. Finally, the applicability of the model and its operationalization is being illustrated by the analysis of two examples of texts that are located between the two poles (one popular scientific text and one juridical teaching article).
Inhaltlich unveränderte Neuauflage. Die Arbeit von Pamela Pachl entdeckt ein Feld künstlerischer Formen, die sich längst jenseits der anwendungsbezogenen Graphik als Sammlerobjekte in hochdifferenzierten Subkulturen etabliert haben. Thema dieser Arbeit sind Skatesticker. Skatesticker sind graphisch gestaltete Aufkleber, die im Besonderen in der Subkultur der Skater gesammelt, gehandelt und verehrt werden. Hergestellt werden die Sticker von Skatecompanys. Ursprünglich zu Werbezwecken produziert, wurden die Sticker zu einem autonomen Ausdruckszeichen des Skater-Lifestyles. Aufgrund der Qualität der graphischen und ästhetischen Gestaltung verlangt dieses Phänomen der Neuzeit geradezu nach einer wissenschaftlichen Untersuchung. Pamela Pachl hat hier ein neues, bisher nicht institutionell legitimiertes Feld entdeckt, seine Konturen und verschiedene Aspekte seiner internen Struktur beschrieben. Dieses Buch richtet sich sowohl an Wissenschaftler verschiedenster Fachrichtungen, wie Kunstwissenschaft, Germanistik und Soziologie als auch an Skater und an der Skateboardkultur Interessierte.
In this chapter, I will focus on the phenomenon of drop out, i.e., withdrawal from the turn due to overlapping talk, in order to reflect on the link between “unfinished” turns and participation framework. With the help of a sequential and multimodal analysis inspired by the conversation analytical approach, I will show that dropping out from a turn is strongly linked to the availability displayed by potential recipients of a turn-at-talk. Although conversation analysis has described in detail the systematics of overlapping talk, especially of its onset (Jefferson 1973, 1983, 1986) and its resolution (Scheg-loff 2000; Jefferson 2004), the phenomenon of withdrawal from a turn due to simultaneous talk has not been investigated in detail. While it seems to bedifficult to describe this interactional practice by referring exclusively to syntactic features (incompleteness of the turn), I suggest looking at turn withdrawal from a multimodal perspective (e.g. Goodwin 1980, 1981; Mondada2007a; Schmitt 2005), taking into account visible resources like gaze or gesture. The problem of continuing or stopping a turn-in-progress in overlapping talk can be closely linked to the participation framework (Goodwin and Goodwin 2004), as speakers do visibly take into account their recipient’s availability and coordinate their turn construction with the dynamic changes of the participation framework and the interactional space.
Ce chapitre s’intéresse à la façon dont les changements de langue dans des réunions sont gérés par les parties co-présentes qui les traitent comme posant des problèmes de participation, en s’orientant vers le fait que le choix d’une langue particulière peut avoir comme effet d’augmenter ou bien de diminuer la participation de certains ou de tous les membres co-présents. Le choix d’une langue plutôt que d’une autre est étudié comme répondant à un problème des membres et comme une décision prise par eux, exhibant la manière dont ils s’orientent vers ses conséquences et dont ils élaborent sa justification et légitimité. Dans ce sens, le choix de l’anglais ou de plusieurs langues co-existantes voire alternantes n’a pas en soi une valeur positive ou négative en termes de participation, d’adéquation ou d’efficacité, mais a une valeur qui est située et occasionnée, dépendant des formats spécifiques de participation, des compétences reconnues localement et de la manière dont l’interaction est organisée. Afin d’explorer de manière systématique cette articulation entre choix de langue et participation, nous allons nous pencher sur un phénomène particulier et récurrent. Il s’agit de l’annonce qui projette un changement de langue et qui peut prendre une forme telle que “now we will switch into English so that you can participate”. Nous l’analyserons en tenant compte de la position séquentielle où elle est produite, de son format, de la façon dont elle est adressée à une partie ou à la totalité des co-présents, et de l’action spécifique qui y est accomplie. Nous étudierons aussi la manière dont elle est reçue, ses effets sur le cadre de participation, ainsi que les catégorisations qui en découlent. On montrera ainsi la relation de configuration mutuelle qui s’établit entre choix de langue et cadre de participation. Nos analyses seront développées sur la base de plusieurs corpus de rencontres professionnelles internationales enregistrées en audio et en vidéo sur plusieurs terrains. Les données vidéo nous invitent à considérer non seulement la dimension linguistique des cadres participatifs et des changements de langue, mais aussi leur organisation multimodale : l’organisation incarnée (embodied) du code-switching n’a pratiquement pas encore été explorée et la participation incarnée reste sous-étudiée, ainsi que son lien avec des espaces interactionnels spécifiques. Ce chapitre montre que les détails multimodaux sont cruciaux pour la compréhension des liens entre plurilinguisme et participation en tant que dynamiques occasionnées, contingentes et émergentes.
The current state of the art for metadata provision allows for a very flexible approach, catering for the needs of different archives and communities, referring to common data category registries that describe the meaning of a data category at least to authors of metadata. Component models for metadata provisions are for example used by CLARIN and META-SHARE, but there is also an increased flexibility in other metadata schemas such as Dublin Core, which is usually not seen as appropriate for meaningful description of language resources.
Making resources available for others and putting this to a second use in other projects has never been more widely accepted as a sensible efficient way to avoid a waste of efforts and resources. However, when it comes to the details, there is still a vast number of problems. This workshop has aimed at being a forum to address issues and challenges in the concrete work with metadata for LRs, not restricted to a single initiative for archiving LRs. It has allowed for exchange and discussion and we hope that the reader finds the articles here compiled interesting and useful.
This paper describes the ongoing work to integrate WebLicht into the CLARIN infrastructure. It introduces the CLARIN infrastructure for scholars in the humanities and social sciences as well as WebLicht - an orchestration and execution environment that is built upon Service Oriented Architecture principles. The integration of WebLicht into the CLARIN infrastructure involves adapting it to the standards and practices used within CLARIN, including distributed repositories, CMDI metadata, and persistent identifiers.
The ISOcat registry reloaded
(2012)
The linguistics community is building a metadata-based infrastructure for the description of its research data and tools. At its core is the ISOcat registry, a collaborative platform to hold a (to be standardized) set of data categories (i.e., field descriptors). Descriptors have definitions in natural language and little explicit interrelations. With the registry growing to many hundred entries, authored by many, it is becoming increasingly apparent that the rather informal definitions and their glossary-like design make it hard for users to grasp, exploit and manage the registry’s content. In this paper, we take a large subset of the ISOcat term set and reconstruct from it a tree structure following the footsteps of schema.org. Our ontological re-engineering yields a representation that gives users a hierarchical view of linguistic, metadata-related terminology. The new representation adds to the precision of all definitions by making explicit information which is only implicitly given in the ISOcat registry. It also helps uncovering and addressing potential inconsistencies in term definitions as well as gaps and redundancies in the overall ISOcat term set. The new representation can serve as a complement to the existing ISOcat model, providing additional support for authors and users in browsing, (re-)using, maintaining, and further extending the community’s terminological metadata repertoire.
Creating and maintaining metadata for various kinds of resources requires appropriate tools to assist the user. The paper presents the metadata editor ProFormA for the creation and editing of CMDI (Component Metadata Infrastructure) metadata in web forms. This editor supports a number of CMDI profiles currently being provided for different types of resources. Since the editor is based on XForms and server-side processing, users can create and modify CMDI files in their standard browser without the need for further processing. Large parts of ProFormA are implemented as web services in order to reuse them in other contexts and programs.
This paper presents the system architecture as well as the underlying workflow of the Extensible Repository System of Digital Objects (ERDO) which has been developed for the sustainable archiving of language resources within the Tübingen CLARIN-D project. In contrast to other approaches focusing on archiving experts, the described workflow can be used by researchers without required knowledge in the field of long-term storage for transferring data from their local file systems into a persistent repository.
The paper’s purpose is to give an overview of the work on the Component Metadata Infrastructure (CMDI) that was implemented in the CLARIN research infrastructure. It explains, the underlying schema, the accompanying tools and services. It also describes the status and impact of the CMDI developments done within the CLARIN project and past and future collaborations with other projects.
The Component Metadata Infrastructure (CMDI) in a project on sustainable linguistic resources
(2012)
The sustainable archiving of research data for predefined time spans has become increasingly important to researchers and is stipulated by funding organizations with the obligatory task of being observed by researchers. An important aspect in view of such a sustainable archiving of language resources is the creation of metadata, which can be used for describing, finding and citing resources. In the present paper, these aspects are dealt with from the perspectives of two projects: the German project for Sustainability of Linguistic Data at the University of Tubingen (NaLiDa, cf. http://www.sfs.uni-tuebingen.de/nalida) and the Dutch-Flemish HLT Agency hosted at the Institute for Dutch Lexicology (TST-Centrale, cf.http://www.inl.nl/tst-centrale). Both projects unfold their approaches to the creation of components and profiles using the Component Metadata Infrastructure (CMDI) as underlying metadata schema for resource descriptions, highlighting their experiences as well as advantages and disadvantages in using CMDI.
This paper describes the status of the standardization efforts of a Component Metadata approach for describing Language Resources with metadata. Different linguistic and Language & Technology communities as CLARIN, META-SHARE and NaLiDa use this component approach and see its standardization of as a matter for cooperation that has the possibility to create a large interoperable domain of joint metadata. Starting with an overview of the component metadata approach together with the related semantic interoperability tools and services as the ISOcat data category registry and the relation registry we explain the standardization plan and efforts for component metadata within ISO TC37/SC4. Finally, we present information about uptake and plans of the use of component metadata within the three mentioned linguistic and L&T communities.
In two eye-tracking experiments, we investigated the relationship between the subject preference in the resolution of subject-object ambiguities in German embedded clauses and semantic word order constraints (i.e., prominence hierarchies relating to the specificity/referentiality of noun phrases, case assignment and thematic role assignment). Our central research question concerned the timecourse with which prominence information is used and particularly whether it modulates the subject preference. In both experiments, we replicated previous findings of reanalysis effects for object-initial structures. Our findings further suggest that noun phrase prominence does not alter initial parsing strategies (viz., the subject preference), but rather modulates the ease of later reanalysis processes. In Experiment 1, the object case assigned by the verb did not affect the ease of reanalysis. However, the syntactic reanalysis was rendered more difficult when the order of the two arguments violated the specificity/referentiality hierarchy. Experiment 2 revealed that the initial subject preference also holds for verbs favoring an object-initial base order (i.e., dative object-experiencer verbs). However, the advantage for subject-initial sentences is neutralized in relatively late processing stages when the thematic role hierarchy and the specificity hierarchy converge to promote scrambling.
„XYZ hat dich angestupst". Romantische Erstkontakte bei Facebook - ein Schnittstellenphänomen?
(2012)
Am Kontaktaufnahmeverhalten in Sozialen Netzwerken - so die These des vorliegenden Aufsatzes - kann nachvollzogen werden, wie kommunikative Verhaltensformen in romantischen Kontexten aus On- und Offline-Welt Zusammenwirken und einander ergänzen. Anders als Online-Kontaktbörsen dienen Soziale Netzwerke in erster Linie der Pflege bereits offline bestehender sozialer Kontakte. Dennoch werden sie auch genutzt, um neue Kontakte zu etablieren, und als eine virtuelle Erweiterung einer Offline-Lebenswelt begriffen, in der fremde, aber als attraktiv kategorisierte Profilidentitäten' kontaktiert werden können. Mit (sprachlichen) Strategien wird einerseits das für Offline-Situationen typische Flirtverhalten simuliert, andererseits aber auf das charakteristische Vorgehen in Online-Kontaktbörsen zurückgegriffen. Auf der Basis solcher Beobachtungen werden Soziale Netzwerke als neuer Kommunikationsraum gedeutet, in dem Online- und Offline-Welt diffundieren - eine These, die aufschlussreich ist für eine Theorie kirchlicher Praxis in den Kommunikationsräumen des Web 2.0.
Numerus
(2012)
Corpora with high-quality linguistic annotations are an essential component in many NLP applications and a valuable resource for linguistic research. For obtaining these annotations, a large amount of manual effort is needed, making the creation of these resources time-consuming and costly. One attempt to speed up the annotation process is to use supervised machine-learning systems to automatically assign (possibly erroneous) labels to the data and ask human annotators to correct them where necessary. However, it is not clear to what extent these automatic pre-annotations are successful in reducing human annotation effort, and what impact they have on the quality of the resulting resource. In this article, we present the results of an experiment in which we assess the usefulness of partial semi-automatic annotation for frame labeling. We investigate the impact of automatic pre-annotation of differing quality on annotation time, consistency and accuracy. While we found no conclusive evidence that it can speed up human annotation, we found that automatic pre-annotation does increase its overall quality.
Zur Erforschung der generationsbedingten Variation im pfälzischen Sprachinseldialekt am Niederrhein
(2012)
Knowledge Acquisition with Natural Language Processing in the Food Domain: Potential and Challenges
(2012)
In this paper, we present an outlook on the effectiveness of natural language processing (NLP) in extracting knowledge for the food domain. We identify potential scenarios that we think are particularly suitable for NLP techniques. As a source for extracting knowledge we will highlight the benefits of textual content from social media. Typical methods that we think would be suitable will be discussed. We will also address potential problems and limits that the application of NLP methods may yield.
In this paper, we examine methods to extract different domain-specific relations from the food domain. We employ different extraction methods ranging from surface patterns to co-occurrence measures applied on different parts of a document. We show that the effectiveness of a particular method depends very much on the relation type considered and that there is no single method that works equally well for every relation type. As we need to process a large amount of unlabeled data our methods only require a low level of linguistic processing. This has also the advantage that these methods can provide responses in real time.
In this paper, we describe MLSA, a publicly available multi-layered reference corpus for German-language sentiment analysis. The construction of the corpus is based on the manual annotation of 270 German-language sentences considering three different layers of granularity. The sentence-layer annotation, as the most coarse-grained annotation, focuses on aspects of objectivity, subjectivity and the overall polarity of the respective sentences. Layer 2 is concerned with polarity on the word- and phrase-level, annotating both subjective and factual language. The annotations on Layer 3 focus on the expression-level, denoting frames of private states such as objective and direct speech events. These three layers and their respective annotations are intended to be fully independent of each other. At the same time, exploring for and discovering interactions that may exist between different layers should also be possible. The reliability of the respective annotations was assessed using the average pairwise agreement and Fleiss’ multi-rater measures. We believe that MLSA is a beneficial resource for sentiment analysis research, algorithms and applications that focus on the German language.
We present a gold standard for semantic relation extraction in the food domain for German. The relation types that we address are motivated by scenarios for which IT applications present a commercial potential, such as virtual customer advice in which a virtual agent assists a customer in a supermarket in finding those products that satisfy their needs best. Moreover, we focus on those relation types that can be extracted from natural language text corpora, ideally content from the internet, such as web forums, that are easy to retrieve. A typical relation type that meets these requirements are pairs of food items that are usually consumed together. Such a relation type could be used by a virtual agent to suggest additional products available in a shop that would potentially complement the items a customer has already in their shopping cart. Our gold standard comprises structural data, i.e. relation tables, which encode relation instances. These tables are vital in order to evaluate natural language processing systems that extract those relations.
In this paper, we examine methods to automatically extract domain-specific knowledge from the food domain from unlabeled natural language text. We employ different extraction methods ranging from surface patterns to co-occurrence measures applied on different parts of a document. We show that the effectiveness of a particular method depends very much on the relation type considered and that there is no single method that works equally well for every relation type. We also examine a combination of extraction methods and also consider relationships between different relation types. The extraction methods are applied both on a domain-specific corpus and the domain-independent factual knowledge base Wikipedia. Moreover, we examine an open-domain lexical ontology for suitability.
In this paper, we compare three different generalization methods for in-domain and cross-domain opinion holder extraction being simple unsupervised word clustering, an induction method inspired by distant supervision and the usage of lexical resources. The generalization methods are incorporated into diverse classifiers. We show that generalization causes significant improvements and that the impact of improvement depends on the type of classifier and on how much training and test data differ from each other. We also address the less common case of opinion holders being realized in patient position and suggest approaches including a novel (linguistically-informed) extraction method how to detect those opinion holders without labeled training data as standard datasets contain too few instances of this type.
We present an experimental approach to determining natural dimensions of story comparison. The results show that untrained test subjects generally do not privilege structural information. When asked to justify sameness ratings, they may refer to content, but when asked to state differences, they mostly refer to style, concrete events, details and motifs. We conclude that adequate formal models of narratives must represent such non-structural data.
Korpuslinguistik
(2012)
Deutsch hat neben dem definiten Artikel und dem indefiniten Artikel noch zwei weitere indefinite Artikel, bzw. Gebrauchsweisen von Ausdrücken, die einem Artikelgebrauch sehr nahe kommen: (i) der indefinite Gebrauch des Demonstratives „dies“ und (ii) das aus „so“ und dem indefiniten Artikel verschmolzene „son“. In der vorliegenden Arbeit werden die referenziellen Eigenschaften dieser beiden indefiniten Demonstrativpronomen bezüglich ihrer Referentialität, Spezifizität und Diskursprominenz mit denen des indefiniten Artikels verglichen. Es kann gezeigt werden, dass indefinite Demonstrativpronomen deutlich stärkere referenzielle Eigenschaften in diesen Bereichen haben als der indefinite Artikel. Abschließend wird die Untersuchung auf Demonstrative weiterer Sprachen ausgedehnt, um so nach sprachübergreifenden Prinzipien dieser Ausdrücke und ihrer indefiniten Gebrauchsweisen zu suchen.
Der nachfolgende Beitrag untersucht Form-Funktionsbeziehungen in einem spezifischen Bereich adverbialer Modifikation im Deutschen und Türkischen, nämlich bei den ereignisinternen Adjunkten. Abschnitt 1 entwickelt — mit übereinzelsprachlichem Gültigkeitsanspruch — die Begrifflichkeiten, anhand derer die Untersuchung vorgenommen wird. Abschnitt 2 wendet diese auf das Deutsche und das Türkische an. Abschnitt 3 formuliert ein kontrastives Zwischenergebnis, das in Abschnitt 4 mittels des Versuchs der Identifikation typologischer Korrelate der festgestellten Unterschiede zu einer typologischen Hypothese erweitert wird.
Der Beitrag ist dem holistischen sprachtypologischen Programm verpflichtet, das die Systematiken aufzeigen will, die den identifizierten sprachlichen Strukturen unterliegen und das diese Systematiken als Instanzen allgemeinerer Prinzipien der Variation und Übereinstimmung von sprachlichen Systemen darstellen will. Es wird beschreibend vorgegangen; aus der Beschreibung soll ein Verständnis des Gegenstands erzielt werden. Als deskriptives Werkzeug dienen die Begrifflichkeiten der funktionalen Typologie und der Semantik.
Die Auseinandersetzung mit dem Untersuchungsgegenstand „ereignisinterne Adjunkte“ geschieht in dem für typologische Untersuchungen höchst engen Rahmen der Untersuchung von nur zwei Sprachen. Dies hat Vorteile, die sich insbesondere auf die angelegte Breite und den primär semantischen Ausgangspunkt der Untersuchung beziehen. Es hat gleichzeitig Nachteile, die sich vor allem auf die Verallgemeinerbarkeit oder implikative Kraft der identifizierten Zusammenhänge beziehen. Die Vorteile gilt es zu nutzen, die Nachteile zu beachten.
Wortstellung und Satztypmarkierung im Deutschen und im Ungarischen. Parallelen und Diskrepanzen
(2012)
Das Deutsche und das Ungarische stellen für die kontrastive Grammatikforschung in der europäischen Linguistik insofern besonders interessante Vergleichssprachen dar, als sie einerseits genealogisch und typologisch große Unterschiede aufweisen, andererseits aber in den letzten Tausend Jahren durch das enge Zusammenleben im mitteleuropäischen Kulturraum auch auffällige Konvergenztendenzen zeigen, die mehrheitlich mit der unidirektionalen Wirkung des Deutschen auf das Ungarische zu erklären sind (vgl. Kiss 2003).
Im vorliegenden Beitrag werden nach einem überblicksartigen Vergleich relevanter Wortstellungstypen der beiden Sprachen besonders ausgewählte Interrogativsatztypen kontrastiert, die sowohl typologisch bedingte Diskrepanzen als auch bestimmte, auf einer abstrakten Ebene nachweisbare Parallelen aufweisen. Neben dem systematischen Vergleich werden exemplarisch auch mit Hilfe ausgewählter Korpusbelege veranschaulichte Performanzphänomene behandelt, um Konvergenzen im Sprachgebrauch zu zeigen.
In der linguistischen Forschung wird häufig auf die besondere informationsstrukturelle Funktion der Randpositionen des Satzes hingewiesen: Diese sind nicht nur für die Gewichtung des satzinternen Materials nach Hintergrund und Vordergrund relevant, sondern tragen auch zur Sicherung der Kohärenz im Diskurs bei. Dabei wird vor allem mit Hinweis auf kognitive und funktionale Prinzipien die universelle Gültigkeit der Topik-Fokus-Abfolge betont, mit der initialen (oder frühen) Platzierung des kontextuell verankerten Satzgegenstandes (des so genannten Topiks) und der späteren Erwähnung der Kernaussage (des Fokus).
In dem vorliegenden Artikel wird die Relevanz des linken Satzrandes für die Herstellung des Diskurszusammenhanges und die Universalität der Topik-Fokus-Ordnung überprüft. Zum einen scheint die Funktion des Satzanfangs komplex: Mit dem ersten Glied der Aussagesätze wird nämlich in vielen Sprachen nicht nur an etwas Gesagtes angeschlossen, sondern kann auch etwas Wichtiges hervorgehoben werden. Zum anderen sind die Unterschiede zwischen den Sprachen beträchtlich, was auf den Einfluss struktureller Gegebenheiten hindeutet.
Zur Lösung der Probleme wird ein neues informationsstrukturelles Prinzip vorgeschlagen, das auf der „C-Markiertheit“ (Kohärenzmarkiertheit) der Konstituenten aufbaut. Demnach sind nicht nur kontextuell gegebene, sondern auch kontrastive Elemente relevant für die Herstellung der Kohärenz (und somit C-markiert), da diese die Zuordnung zu ähnlichen oder identischen Mengen bzw. Skalen voraussetzen. Als universelle Strategie der pragmatischen Ordnung ist somit der so genannte „C-Constraint“ zu betrachten, der die initiale Platzierung der C-markierten Konstituenten vorschreibt, unabhängig von ihrem Topik- oder Fokusstatus.
Der typologischen Vielfalt bezüglich der Besetzung des linken Satzrandes wird durch die Beachtung relevanter struktureller Parameter in sieben genetisch und typologisch unterschiedlichen europäischen Sprachen (Deutsch, Englisch, Schwedisch, Französisch, Russisch, Finnisch, Ungarisch) — und durch die Aufstellung der so genannten „C-Hierarchie“ — Rechnung getragen. Deren drei Hauptkategorien weisen bezüglich der Zulassung von C-markierten kontrastiven Elementen und von unterschiedlichen Typen nicht C-markierter Fokusglieder am Satzanfang eine bedeutende Variation auf.
Dieser Beitrag versucht, eine Einschätzung der Einsatzmöglichkeiten für automatische Analysemethoden aus der aktuellen computerlinguistischen Forschung für die sprachvergleichende Grammatikforschung vorzunehmen. Zur Illustration werden die Ergebnisse einer computerlinguistischen Studie für die vergleichende Untersuchung von Spaltsatzkonstruktionen in verschiedenen Sprachen wiedergegeben und ausführlich diskutiert. Der Korpuszugang erfolgt in diesem Rahmen auf Basis einer vollautomatischen syntaktischen Analyse, die dann noch zusätzlich durch eine statistische Wortalignierung kontrastiv auf Parallelkorpora beleuchtet werden kann. Neben der Vorstellung der bereits bestehenden automatischen Annotationsmöglichkeiten, die in meinen Augen vielversprechende Wege für den sprachwissenschaftlichen Korpuszugang eröffnen, ist die Hoffnung, dass dieser Beitrag durch die abschließende Diskussion zu dem Bewusstsein beiträgt, dass eine tiefere, organischere Verbindung der beiden sprachwissenschaftlichen Disziplinen möglich ist: dann nämlich, wenn der Korpuszugang nicht mit statischen, vordefinierten Werkzeugen erfolgt, deren Verhalten durch die Grammatikforscherin oder den Grammatikforscher nicht beeinflusst werden kann, sondern wenn ein interaktiver Werkzeuggebrauch erfolgt, der von den vielfältigen Anpassungsmöglichkeiten mit den zugrunde liegenden maschinellen Lernverfahren Gebrauch macht.
Zur Standortbestimmung der Kontrastiven Linguistik innerhalb der vergleichenden Sprachwissenschaft
(2012)
Das Programm der Kontrastiven Linguistik wurde in den sechziger und siebziger Jahren mit der Zielsetzung formuliert, durch systematische Einbeziehung von Gemeinsamkeiten und Kontrasten zwischen Muttersprache und zu erlernender Fremdsprache den Fremdsprachenunterricht effektiver zu gestalten. Nach einigen Jahren enthusiastischer Aufnahme und Bearbeitung setzte jedoch eine allgemeine Ernüchterung und Enttäuschung ein, so dass dieses Programm eher eine bescheidene Randexistenz im Rahmen der vergleichenden Sprachwissenschaft führte und erst in den letzten Jahren unter etwas veränderten Vorzeichen wieder aufgenommen wurde. Drei Gründe waren meiner Meinung nach für diese Desillusionierung verantwortlich: (a) Die Kontrastive Linguistik wurde als Theorie des Zweitspracherwerbs gesehen und somit mit völlig unrealistischen Erwartungen verknüpft, (b) In der Erstellung der deskriptiven Grundlagen dieses Programms, d.h. in der Erstellung umfassender vergleichender Grammatiken für relevante Sprachenpaare, wurden nur wenig überzeugende Fortschritte gemacht, (c) Es fehlte eine Standortbestimmung der Kontrastiven Linguistik im Rahmen der vergleichenden Sprachwissenschaft, aus der deutlich hervorgeht, was die Möglichkeiten und Grenzen dieses Typs von Sprachvergleich sind. Nachdem sich heute die Situation bezüglich der beiden ersten Punkte erheblich verbessert hat (u.a. auch durch einschlägige Arbeiten des IDS), widme ich mich in meinem Beitrag dem dritten Punkt: Durch eine systematische Gegenüberstellung der Kontrastiven Sprachwissenschaft mit den anderen Spielarten der vergleichenden Sprachwissenschaft sollen die Erkenntnismöglichkeiten und Grenzen der verschiedenen Ansätze zum Vergleich von Sprachen bestimmt werden, so dass die Kontrastive Linguistik durch diese Gegenüberstellung klare Konturen erhält. Im Rahmen dieser Gegenüberstellung wird eine Vielzahl von Beobachtungen zum Deutschen aus der Sicht des Englischen und anderer Sprachen gemacht. Für die Kontrastive Linguistik (KL) ergibt sich abschließend das folgende Profil:
— Synchronie: Die KL ist primär synchron orientiert.
— Granularität: Ihr Gegenstand sind feinkörnige Beobachtungen zu Kontrasten zwischen Sprachen.
— Skopus: Die KL beschäftigt sich vor allem mit umfassenden Vergleichen von Sprachpaaren.
— Perspektivierung: Ihr Mehrwert besteht u.a. darin, dass eine Sprache aus der Perspektive einer anderen beschrieben wird. Aus dieser Perspektivenwahl ergeben sich neue Beobachtungen.
— Zielsetzung: Ihre Zielsetzung sind weitreichende, falsifizierbare Verallgemeinerungen über Kontraste. Die Wahl eines theoretischen Rahmens ist sekundär.
Im vorliegenden Beitrag werden einige zentrale Aspekte der kontrastiven Wortbildungsforschung anhand von Beispielen aus dem niederländisch-deutschen Sprachvergleich besprochen. Als nah verwandte Sprachen zeigen das Niederländische und das Deutsche zwar vergleichbare Strukturen der Komposition und der Derivation, bei näherem Hinsehen sind es aber vor allem die vielfältigen Divergenzen, die ins Auge fallen. Im ersten Teil des Artikels werden verschiedenartige Beispiele für solche Divergenzen besprochen. Anschließend geht es um gegenläufige Entwicklungen, die zu Konvergenz zwischen beiden Sprachen führen. Anhand einer Analyse von Zusammensetzungen vom Typ „wassergekühlt“ (ndl. „watergekoeld“) wird für eine stärkere Berücksichtigung von Konvergenzfaktoren in der kontrastiven Linguistik plädiert. Der zweite Teil des Artikels enthält eine detaillierte Fallstudie zur Adjektivbildung mit dem niederländischen Suffix „-achtig“ und dem deutschen „-haft“, die den Zusammenhang von diachronen Entwicklungen und synchronen Kontrasten aufzeigt. Zudem zeigt sie Konsequenzen und Implikationen der vergleichenden Analyse für die Theorie des Lexikons und der Wortbildung auf. Im Mittelpunkt stehen dabei Rainers (2003) Idee der ,semantischen Fragmentierung‘ von Wortbildungsmustern und die Konzeption eines ,hierarchischen Lexikons‘, wie sie unter anderem von Jackendoff (2008) oder Booij (2010) vertreten wird.
Die genaue Charakterisierung der möglichen Wechselwirkungen zwischen Syntax und Morphologie stellt eine der zentralen Forschungsfragen der Sprachwissenschaft dar. Die hier betrachteten Verschmelzungsformen bieten sich als Fallstudie für die Syntax-Morphologie-Schnittstelle an, da Verschmelzungsformen von Präposition und Artikel wie „du“/ „au“ im Französischen oder „am“/ „zum“ im Deutschen paradigmatisch Sequenzen gegenüberstehen, in denen eine nicht-reduzierte Präposition mit einem vollen Artikel kombiniert wird („de la“/ „à la“; bzw. „an dem“/ „zu dem“). Für die Analyse dieser Formen muss also untersucht werden, inwiefern die Verwendung von Verschmelzungsformen gegenüber unreduzierten Abfolgen Änderungen in der Syntax nach sich zieht. In diesem Beitrag werde ich zeigen, dass die Wechselbeziehungen zwischen Verschmelzungsform und Syntax im Französischen und Deutschen unterschiedlicher Natur sind. Französische und deutsche Verschmelzungsformen unterscheiden sich in ihren morphologischen, semantischen und syntaktischen Eigenschaften. Hier sollen zwei Eigenschaften genauer untersucht werden: (i) die Kombinierbarkeit von Verschmelzungsformen und Nominalphrasen mit restriktiven Relativsätzen im Deutschen („?im/in dem Haus, das gerade renoviert wird“), und (ii) die Koordinationsmöglichkeiten von Präpositionalphrasen mit Verschmelzungsformen im Französischen und im Deutschen. Es ist bekannt, dass Verschmelzungsformen im Französischen die Koordinationsmöglichkeiten der beteiligten Nominalphrasen einschränken. Vergleichbare Wechselwirkungen zwischen Verschmelzungsform und Koordination sind im Deutschen jedoch nicht zu beobachten, wie anhand von Koordinationsdaten aus dem COSMAS II-Korpus belegt werden kann.
Dieser Beitrag beschäftigt sich mit einem Vergleich der englischen wh-Clefts und deren Entsprechungen im Deutschen, den ,Sperrsätzen‘ oder ‚w-Clefts‘. Auf Grundlage einer umfangreichen Korpusstudie werden zunächst Unterschiede in der Verteilung bestimmter w/h-Cleftsatztypen ermittelt. Ein generelles quantitatives Übergewicht der englischen wh-Clefts gegenüber den deutschen w-Clefts wird mit der flexibleren Wortstellung des Deutschen in Verbindung gebracht. Spezifisch werden die beobachteten Asymmetrien durch Unterschiede in der Möglichkeit der Erfüllung bestimmter struktureller Bedingungen erklärt. Vier Motivationen für die Bildung von Cleftsätzen werden identifiziert: (i) lineare Synchronisierung von Informationsstruktur und Syntax, (ii) strukturelle Trennung von Quaestio (= im Diskurs gegebener Frage) und Responsio (= Antwort auf die Quaestio), (iii) Trennung von propositionalem Gehalt und Äußerungskommentar (,Ebenentrennung‘) und (iv) Rechtslastigkeit (Behaghels ‚Gesetz der wachsenden Glieder‘). Während all diese Faktoren die Bildung von wh-Cleftsätzen im Englischen zu begünstigen scheinen, sind deutsche w-Clefts meist durch den in (ii) genannten Faktor motiviert. Die anderen Motivationen führen seltener zur Bildung von w-Cleftsätzen als im Englischen, da die entsprechenden strukturellen Effekte auch ohne Cleftsatzbildung — z.B. in einem kanonischen Verbzweitsatz — erzielt werden können.
In diesem Aufsatz geht es um einen Vergleich der Prinzipien der Wortschreibung im Englischen und Deutschen. Konkret werden Schreibdiphthonge und Doppelkonsonanten behandelt. Beide Phänomene eignen sich gut, um Prinzipien zu verstehen, nach denen die Wortschreibung funktioniert: So lassen sich Schreibdiphthonge nicht immer so aussprechen, wie es die einzelnen Vokalbuchstaben suggerieren, das heißt, sie sind nicht immer über die entsprechenden Graphem-Phonem-Korrespondenzen der einzelnen Segmente zu interpretieren, etwa <ei> für /ai/ im Deutschen und <ea> für /i/ im Englischen. Auf einer ,höheren‘ Ebene (der silbischen) zeigen sich aber systematische Züge, die in beiden Sprachen vergleichbar sind. Auch die Schreibungen der Doppelkonsonanten sind nicht einfach auf der Segmentebene zu verstehen, sondern sie ergeben sich aus einem Zusammenspiel der silbischen, der suprasegmentalen und der morphologischen Ebene. In beiden Sprachen wirken Prinzipien auf allen diesen Ebenen, aber zum Teil auf unterschiedliche Art und Weise.
Am Beispiel des an der Universität Oslo entwickelten Oslo Multilingual Corpus (OMC) wird illustriert, wie ein Parallelkorpus aus Originaltexten und deren Übersetzungen zur sprachvergleichenden Erforschung von Phänomenen der Satzverbindung und der Informationsverteilung auf Satz- und Textebene eingesetzt werden kann. Nach einer Skizze der OMC-Architektur wird eine Untersuchung von Satzverknüpfungen mit dem komitativen Konnektor „wobei“ und deren Entsprechungen in norwegischen Übersetzungen und Originaltexten vorgestellt, die dazu beiträgt, Bedeutungsfacetten dieses Konnektors aufzuzeigen, die in rein intralingualen Studien nicht so einfach zu erkennen sind, und dadurch einen besseren und systematischeren Einblick in die angewandten Übersetzungsstrategien gibt. Als zweites Einsatzbeispiel wird eine explorative Untersuchung zur Elaborierung von Ereignisbeschreibungen vorgestellt, die deutsche, norwegische, englische und französische Entsprechungen von „mit“-Konstruktionen (sog. „Sätzchen“) als Ausgangspunkt nimmt. Beide Studien illustrieren, dass ein Parallelkorpus auch ohne komplexe Annotierungen nicht nur für wort-basierte quantitative Untersuchungen verwertet werden, sondern auch im Zuge weniger zielgerichteter, eher qualitativ angelegter Studien als „Augenöffner“ für komplexe linguistische Phänomene dienen kann.