Refine
Year of publication
- 2012 (100) (remove)
Document Type
- Part of a Book (51)
- Conference Proceeding (24)
- Article (22)
- Book (1)
- Other (1)
- Part of Periodical (1)
Is part of the Bibliography
- no (100) (remove)
Keywords
- Deutsch (31)
- Korpus <Linguistik> (18)
- Computerlinguistik (9)
- Konversationsanalyse (8)
- Englisch (7)
- Kontrastive Grammatik (7)
- Sprachpolitik (7)
- Metadaten (6)
- Annotation (5)
- Datenmanagement (5)
Publicationstate
- Veröffentlichungsversion (100) (remove)
Reviewstate
- (Verlags)-Lektorat (66)
- Peer-Review (31)
- Peer-review (1)
- Verlags-Lektorat (1)
Publisher
This special issue of the Journal on Ethnopolitics and Minority Issues in Europe (JEMIE) brings together some of the participants of the symposium Political and Economic Resources and Obstacles of Minority Language Maintenance organized by the Language Survival Network ‘POGA’ at Tallinn University, Estonia, in December 2010. More than 20 scholars representing linguistics, anthropology, social sciences and law participated in the symposium, to present papers and discuss questions related to minority language loss, maintenance and revitalization. The six case studies contained in this special issue look at different minorities and regions in the European Union, Russia and the US. The linguistic communities discussed are the Russian-, Võru/Seto- and Latgalian-speaking minorities of Estonia and Latvia; the Welsh- and Breton-speaking communities of the Celtic language; the Russian Finno-Ugrian people with regional autonomies; and the native American groups of the Delaware/Cherokee and the Oneida. The reader will find articles relating to interdisciplinary research approaches in and on minority languages and minority language communities.
When we first started the project of looking at minority languages through a linguistic landscape lens, we felt that the visibility of minority languages in public space had been insufficiently dealt with in traditional minority language research. A linguistic landscape approach, as it had developed over the last years, would constitute a valuable path to explore, by looking at the ‘same old issues’ of language contact and language conflict from a specific angle. We were convinced that fresh linguistic landscape data would be able to provide innovative and useful insights into ‘patterns of language […] use, official language policies, prevalent language attitudes, [and] power relations between different linguistic groups’ (Backhaus 2007, p. 11). The linguistic landscape approach, as presented by the different authors in this volume, has clearly proven to be a heuristic appropriate and relevant for a wide range of minority language situations. More specifically, the ideas and analyses in the different chapters do contribute to a further understanding of minority languages and their speakers. They deepen our comprehension of language policies, power relations and ideologies in minority language settings.
Towards a part-of-speech ontology: encoding morphemic units of two South African Bantu languages
(2012)
This article describes the design of an electronic knowledge base, namely a morpho-syntactic database structured as an ontology of linguistic categories, containing linguistic units of two related languages of the South African Bantu group: Northern Sotho and Zulu. These languages differ significantly in their surface orthographies, but are very similar on the lexical and sub-lexical levels. It is therefore our goal to describe the morphemes of these languages in a single common database in order to outline and interpret commonalities and differences in more detail. Moreover, the relational database which is developed defines the underlying morphemic units (morphs) for both languages. It will be shown that the electronic part-of-speech ontology goes hand in hand with part-of-speech tagsets that label morphemic units. This database is designed as part of a forthcoming system providing lexicographic and linguistic knowledge on the official South African Bantu languages.
Electronic dictionaries should support dictionary users by giving them guidance in text production and text reception, alongside a user-definable offer of lexicographic data for cognitive purposes. In this article, we sketch the principles of an interactive and dynamic electronic dictionary aimed at text production and text reception guiding users in innovative ways, especially with respect to difficult, complicated or confusing issues. The lexicographer has to do a very careful analysis of the nature of the possible problems to suggest an optimal solution for a specific problem. We are of the opinion that there are numerous complex situations where users need more detailed support than currently available in e-dictionaries, enabling them to make valid and correct choices. For highly complex situations, we suggest guidance through a decision tree-like device. We assume that the solutions proposed here are not specific to one language only but can, after careful analysis, be applied to e-dictionaries in different languages across the world.
Providing an innovative approach to the written displays of minority languages in public space this volume explores minority language situations through the lens of linguistic landscape research. Based on very tangible data it explores the 'same old issues' of language contact and language conflict in new ways.
Over the past decades, problems related to linguistic minorities and their well-being, as well as to minority languages and their maintenance, have developed as an independent branch of minority studies. Studies of language in society and sociolinguistics, strategies of minority language survival and the empowerment of their speakers have produced a considerable output of case studies and theoretical writings.In this multifaceted field of investigation, language use, language practices, language policies and language politics represent interrelated aspects of social and linguistic relations that cannot be meaningfully addressed from a point of view of one scientific discipline only. This is specially the case when one wants to understand processes of language loss and maintenance, or the revitalization and empowerment of a language community. Such processes are linguistic expressions of complex social settings, and reflect group and individual identities that in turn express changing systems of collective values, human networks, fashions and social practices.
This article discusses the situation of the Latgalian language in Latvia today. It first provides an overview of languages in Latvia, followed by a historical and contemporary sketch of the societal position of Latgalian and by an account of current Latgalian language activism. On this basis, the article then applies schemes of language functions and of evaluations of the societal position of minority languages to Latgalian. Given the range of functions that Latgalian fulfils today and the wishes and attempts by activists to expand these functions, the article argues that it is surprising that so little attention is given to Latgalian in mainstream Latvian and international sociolinguistic publications. In this light, the fate of the language is difficult to prognose, but a lot depends on whether the Latvian state will clarify its own unclear perception of policies towards Latgalian and on how much attention it will receive in the future.
Ce chapitre s’intéresse à la façon dont les changements de langue dans des réunions sont gérés par les parties co-présentes qui les traitent comme posant des problèmes de participation, en s’orientant vers le fait que le choix d’une langue particulière peut avoir comme effet d’augmenter ou bien de diminuer la participation de certains ou de tous les membres co-présents. Le choix d’une langue plutôt que d’une autre est étudié comme répondant à un problème des membres et comme une décision prise par eux, exhibant la manière dont ils s’orientent vers ses conséquences et dont ils élaborent sa justification et légitimité. Dans ce sens, le choix de l’anglais ou de plusieurs langues co-existantes voire alternantes n’a pas en soi une valeur positive ou négative en termes de participation, d’adéquation ou d’efficacité, mais a une valeur qui est située et occasionnée, dépendant des formats spécifiques de participation, des compétences reconnues localement et de la manière dont l’interaction est organisée. Afin d’explorer de manière systématique cette articulation entre choix de langue et participation, nous allons nous pencher sur un phénomène particulier et récurrent. Il s’agit de l’annonce qui projette un changement de langue et qui peut prendre une forme telle que “now we will switch into English so that you can participate”. Nous l’analyserons en tenant compte de la position séquentielle où elle est produite, de son format, de la façon dont elle est adressée à une partie ou à la totalité des co-présents, et de l’action spécifique qui y est accomplie. Nous étudierons aussi la manière dont elle est reçue, ses effets sur le cadre de participation, ainsi que les catégorisations qui en découlent. On montrera ainsi la relation de configuration mutuelle qui s’établit entre choix de langue et cadre de participation. Nos analyses seront développées sur la base de plusieurs corpus de rencontres professionnelles internationales enregistrées en audio et en vidéo sur plusieurs terrains. Les données vidéo nous invitent à considérer non seulement la dimension linguistique des cadres participatifs et des changements de langue, mais aussi leur organisation multimodale : l’organisation incarnée (embodied) du code-switching n’a pratiquement pas encore été explorée et la participation incarnée reste sous-étudiée, ainsi que son lien avec des espaces interactionnels spécifiques. Ce chapitre montre que les détails multimodaux sont cruciaux pour la compréhension des liens entre plurilinguisme et participation en tant que dynamiques occasionnées, contingentes et émergentes.
The current state of the art for metadata provision allows for a very flexible approach, catering for the needs of different archives and communities, referring to common data category registries that describe the meaning of a data category at least to authors of metadata. Component models for metadata provisions are for example used by CLARIN and META-SHARE, but there is also an increased flexibility in other metadata schemas such as Dublin Core, which is usually not seen as appropriate for meaningful description of language resources.
Making resources available for others and putting this to a second use in other projects has never been more widely accepted as a sensible efficient way to avoid a waste of efforts and resources. However, when it comes to the details, there is still a vast number of problems. This workshop has aimed at being a forum to address issues and challenges in the concrete work with metadata for LRs, not restricted to a single initiative for archiving LRs. It has allowed for exchange and discussion and we hope that the reader finds the articles here compiled interesting and useful.
This paper describes the ongoing work to integrate WebLicht into the CLARIN infrastructure. It introduces the CLARIN infrastructure for scholars in the humanities and social sciences as well as WebLicht - an orchestration and execution environment that is built upon Service Oriented Architecture principles. The integration of WebLicht into the CLARIN infrastructure involves adapting it to the standards and practices used within CLARIN, including distributed repositories, CMDI metadata, and persistent identifiers.
Creating and maintaining metadata for various kinds of resources requires appropriate tools to assist the user. The paper presents the metadata editor ProFormA for the creation and editing of CMDI (Component Metadata Infrastructure) metadata in web forms. This editor supports a number of CMDI profiles currently being provided for different types of resources. Since the editor is based on XForms and server-side processing, users can create and modify CMDI files in their standard browser without the need for further processing. Large parts of ProFormA are implemented as web services in order to reuse them in other contexts and programs.
This paper presents the system architecture as well as the underlying workflow of the Extensible Repository System of Digital Objects (ERDO) which has been developed for the sustainable archiving of language resources within the Tübingen CLARIN-D project. In contrast to other approaches focusing on archiving experts, the described workflow can be used by researchers without required knowledge in the field of long-term storage for transferring data from their local file systems into a persistent repository.
The paper’s purpose is to give an overview of the work on the Component Metadata Infrastructure (CMDI) that was implemented in the CLARIN research infrastructure. It explains, the underlying schema, the accompanying tools and services. It also describes the status and impact of the CMDI developments done within the CLARIN project and past and future collaborations with other projects.
The Component Metadata Infrastructure (CMDI) in a project on sustainable linguistic resources
(2012)
The sustainable archiving of research data for predefined time spans has become increasingly important to researchers and is stipulated by funding organizations with the obligatory task of being observed by researchers. An important aspect in view of such a sustainable archiving of language resources is the creation of metadata, which can be used for describing, finding and citing resources. In the present paper, these aspects are dealt with from the perspectives of two projects: the German project for Sustainability of Linguistic Data at the University of Tubingen (NaLiDa, cf. http://www.sfs.uni-tuebingen.de/nalida) and the Dutch-Flemish HLT Agency hosted at the Institute for Dutch Lexicology (TST-Centrale, cf.http://www.inl.nl/tst-centrale). Both projects unfold their approaches to the creation of components and profiles using the Component Metadata Infrastructure (CMDI) as underlying metadata schema for resource descriptions, highlighting their experiences as well as advantages and disadvantages in using CMDI.
This paper describes the status of the standardization efforts of a Component Metadata approach for describing Language Resources with metadata. Different linguistic and Language & Technology communities as CLARIN, META-SHARE and NaLiDa use this component approach and see its standardization of as a matter for cooperation that has the possibility to create a large interoperable domain of joint metadata. Starting with an overview of the component metadata approach together with the related semantic interoperability tools and services as the ISOcat data category registry and the relation registry we explain the standardization plan and efforts for component metadata within ISO TC37/SC4. Finally, we present information about uptake and plans of the use of component metadata within the three mentioned linguistic and L&T communities.
In two eye-tracking experiments, we investigated the relationship between the subject preference in the resolution of subject-object ambiguities in German embedded clauses and semantic word order constraints (i.e., prominence hierarchies relating to the specificity/referentiality of noun phrases, case assignment and thematic role assignment). Our central research question concerned the timecourse with which prominence information is used and particularly whether it modulates the subject preference. In both experiments, we replicated previous findings of reanalysis effects for object-initial structures. Our findings further suggest that noun phrase prominence does not alter initial parsing strategies (viz., the subject preference), but rather modulates the ease of later reanalysis processes. In Experiment 1, the object case assigned by the verb did not affect the ease of reanalysis. However, the syntactic reanalysis was rendered more difficult when the order of the two arguments violated the specificity/referentiality hierarchy. Experiment 2 revealed that the initial subject preference also holds for verbs favoring an object-initial base order (i.e., dative object-experiencer verbs). However, the advantage for subject-initial sentences is neutralized in relatively late processing stages when the thematic role hierarchy and the specificity hierarchy converge to promote scrambling.
Numerus
(2012)
Corpora with high-quality linguistic annotations are an essential component in many NLP applications and a valuable resource for linguistic research. For obtaining these annotations, a large amount of manual effort is needed, making the creation of these resources time-consuming and costly. One attempt to speed up the annotation process is to use supervised machine-learning systems to automatically assign (possibly erroneous) labels to the data and ask human annotators to correct them where necessary. However, it is not clear to what extent these automatic pre-annotations are successful in reducing human annotation effort, and what impact they have on the quality of the resulting resource. In this article, we present the results of an experiment in which we assess the usefulness of partial semi-automatic annotation for frame labeling. We investigate the impact of automatic pre-annotation of differing quality on annotation time, consistency and accuracy. While we found no conclusive evidence that it can speed up human annotation, we found that automatic pre-annotation does increase its overall quality.
Knowledge Acquisition with Natural Language Processing in the Food Domain: Potential and Challenges
(2012)
In this paper, we present an outlook on the effectiveness of natural language processing (NLP) in extracting knowledge for the food domain. We identify potential scenarios that we think are particularly suitable for NLP techniques. As a source for extracting knowledge we will highlight the benefits of textual content from social media. Typical methods that we think would be suitable will be discussed. We will also address potential problems and limits that the application of NLP methods may yield.
In this paper, we describe MLSA, a publicly available multi-layered reference corpus for German-language sentiment analysis. The construction of the corpus is based on the manual annotation of 270 German-language sentences considering three different layers of granularity. The sentence-layer annotation, as the most coarse-grained annotation, focuses on aspects of objectivity, subjectivity and the overall polarity of the respective sentences. Layer 2 is concerned with polarity on the word- and phrase-level, annotating both subjective and factual language. The annotations on Layer 3 focus on the expression-level, denoting frames of private states such as objective and direct speech events. These three layers and their respective annotations are intended to be fully independent of each other. At the same time, exploring for and discovering interactions that may exist between different layers should also be possible. The reliability of the respective annotations was assessed using the average pairwise agreement and Fleiss’ multi-rater measures. We believe that MLSA is a beneficial resource for sentiment analysis research, algorithms and applications that focus on the German language.
We present a gold standard for semantic relation extraction in the food domain for German. The relation types that we address are motivated by scenarios for which IT applications present a commercial potential, such as virtual customer advice in which a virtual agent assists a customer in a supermarket in finding those products that satisfy their needs best. Moreover, we focus on those relation types that can be extracted from natural language text corpora, ideally content from the internet, such as web forums, that are easy to retrieve. A typical relation type that meets these requirements are pairs of food items that are usually consumed together. Such a relation type could be used by a virtual agent to suggest additional products available in a shop that would potentially complement the items a customer has already in their shopping cart. Our gold standard comprises structural data, i.e. relation tables, which encode relation instances. These tables are vital in order to evaluate natural language processing systems that extract those relations.
In this paper, we examine methods to automatically extract domain-specific knowledge from the food domain from unlabeled natural language text. We employ different extraction methods ranging from surface patterns to co-occurrence measures applied on different parts of a document. We show that the effectiveness of a particular method depends very much on the relation type considered and that there is no single method that works equally well for every relation type. We also examine a combination of extraction methods and also consider relationships between different relation types. The extraction methods are applied both on a domain-specific corpus and the domain-independent factual knowledge base Wikipedia. Moreover, we examine an open-domain lexical ontology for suitability.
Deutsch hat neben dem definiten Artikel und dem indefiniten Artikel noch zwei weitere indefinite Artikel, bzw. Gebrauchsweisen von Ausdrücken, die einem Artikelgebrauch sehr nahe kommen: (i) der indefinite Gebrauch des Demonstratives „dies“ und (ii) das aus „so“ und dem indefiniten Artikel verschmolzene „son“. In der vorliegenden Arbeit werden die referenziellen Eigenschaften dieser beiden indefiniten Demonstrativpronomen bezüglich ihrer Referentialität, Spezifizität und Diskursprominenz mit denen des indefiniten Artikels verglichen. Es kann gezeigt werden, dass indefinite Demonstrativpronomen deutlich stärkere referenzielle Eigenschaften in diesen Bereichen haben als der indefinite Artikel. Abschließend wird die Untersuchung auf Demonstrative weiterer Sprachen ausgedehnt, um so nach sprachübergreifenden Prinzipien dieser Ausdrücke und ihrer indefiniten Gebrauchsweisen zu suchen.
Der nachfolgende Beitrag untersucht Form-Funktionsbeziehungen in einem spezifischen Bereich adverbialer Modifikation im Deutschen und Türkischen, nämlich bei den ereignisinternen Adjunkten. Abschnitt 1 entwickelt — mit übereinzelsprachlichem Gültigkeitsanspruch — die Begrifflichkeiten, anhand derer die Untersuchung vorgenommen wird. Abschnitt 2 wendet diese auf das Deutsche und das Türkische an. Abschnitt 3 formuliert ein kontrastives Zwischenergebnis, das in Abschnitt 4 mittels des Versuchs der Identifikation typologischer Korrelate der festgestellten Unterschiede zu einer typologischen Hypothese erweitert wird.
Der Beitrag ist dem holistischen sprachtypologischen Programm verpflichtet, das die Systematiken aufzeigen will, die den identifizierten sprachlichen Strukturen unterliegen und das diese Systematiken als Instanzen allgemeinerer Prinzipien der Variation und Übereinstimmung von sprachlichen Systemen darstellen will. Es wird beschreibend vorgegangen; aus der Beschreibung soll ein Verständnis des Gegenstands erzielt werden. Als deskriptives Werkzeug dienen die Begrifflichkeiten der funktionalen Typologie und der Semantik.
Die Auseinandersetzung mit dem Untersuchungsgegenstand „ereignisinterne Adjunkte“ geschieht in dem für typologische Untersuchungen höchst engen Rahmen der Untersuchung von nur zwei Sprachen. Dies hat Vorteile, die sich insbesondere auf die angelegte Breite und den primär semantischen Ausgangspunkt der Untersuchung beziehen. Es hat gleichzeitig Nachteile, die sich vor allem auf die Verallgemeinerbarkeit oder implikative Kraft der identifizierten Zusammenhänge beziehen. Die Vorteile gilt es zu nutzen, die Nachteile zu beachten.
Wortstellung und Satztypmarkierung im Deutschen und im Ungarischen. Parallelen und Diskrepanzen
(2012)
Das Deutsche und das Ungarische stellen für die kontrastive Grammatikforschung in der europäischen Linguistik insofern besonders interessante Vergleichssprachen dar, als sie einerseits genealogisch und typologisch große Unterschiede aufweisen, andererseits aber in den letzten Tausend Jahren durch das enge Zusammenleben im mitteleuropäischen Kulturraum auch auffällige Konvergenztendenzen zeigen, die mehrheitlich mit der unidirektionalen Wirkung des Deutschen auf das Ungarische zu erklären sind (vgl. Kiss 2003).
Im vorliegenden Beitrag werden nach einem überblicksartigen Vergleich relevanter Wortstellungstypen der beiden Sprachen besonders ausgewählte Interrogativsatztypen kontrastiert, die sowohl typologisch bedingte Diskrepanzen als auch bestimmte, auf einer abstrakten Ebene nachweisbare Parallelen aufweisen. Neben dem systematischen Vergleich werden exemplarisch auch mit Hilfe ausgewählter Korpusbelege veranschaulichte Performanzphänomene behandelt, um Konvergenzen im Sprachgebrauch zu zeigen.
In der linguistischen Forschung wird häufig auf die besondere informationsstrukturelle Funktion der Randpositionen des Satzes hingewiesen: Diese sind nicht nur für die Gewichtung des satzinternen Materials nach Hintergrund und Vordergrund relevant, sondern tragen auch zur Sicherung der Kohärenz im Diskurs bei. Dabei wird vor allem mit Hinweis auf kognitive und funktionale Prinzipien die universelle Gültigkeit der Topik-Fokus-Abfolge betont, mit der initialen (oder frühen) Platzierung des kontextuell verankerten Satzgegenstandes (des so genannten Topiks) und der späteren Erwähnung der Kernaussage (des Fokus).
In dem vorliegenden Artikel wird die Relevanz des linken Satzrandes für die Herstellung des Diskurszusammenhanges und die Universalität der Topik-Fokus-Ordnung überprüft. Zum einen scheint die Funktion des Satzanfangs komplex: Mit dem ersten Glied der Aussagesätze wird nämlich in vielen Sprachen nicht nur an etwas Gesagtes angeschlossen, sondern kann auch etwas Wichtiges hervorgehoben werden. Zum anderen sind die Unterschiede zwischen den Sprachen beträchtlich, was auf den Einfluss struktureller Gegebenheiten hindeutet.
Zur Lösung der Probleme wird ein neues informationsstrukturelles Prinzip vorgeschlagen, das auf der „C-Markiertheit“ (Kohärenzmarkiertheit) der Konstituenten aufbaut. Demnach sind nicht nur kontextuell gegebene, sondern auch kontrastive Elemente relevant für die Herstellung der Kohärenz (und somit C-markiert), da diese die Zuordnung zu ähnlichen oder identischen Mengen bzw. Skalen voraussetzen. Als universelle Strategie der pragmatischen Ordnung ist somit der so genannte „C-Constraint“ zu betrachten, der die initiale Platzierung der C-markierten Konstituenten vorschreibt, unabhängig von ihrem Topik- oder Fokusstatus.
Der typologischen Vielfalt bezüglich der Besetzung des linken Satzrandes wird durch die Beachtung relevanter struktureller Parameter in sieben genetisch und typologisch unterschiedlichen europäischen Sprachen (Deutsch, Englisch, Schwedisch, Französisch, Russisch, Finnisch, Ungarisch) — und durch die Aufstellung der so genannten „C-Hierarchie“ — Rechnung getragen. Deren drei Hauptkategorien weisen bezüglich der Zulassung von C-markierten kontrastiven Elementen und von unterschiedlichen Typen nicht C-markierter Fokusglieder am Satzanfang eine bedeutende Variation auf.
Dieser Beitrag versucht, eine Einschätzung der Einsatzmöglichkeiten für automatische Analysemethoden aus der aktuellen computerlinguistischen Forschung für die sprachvergleichende Grammatikforschung vorzunehmen. Zur Illustration werden die Ergebnisse einer computerlinguistischen Studie für die vergleichende Untersuchung von Spaltsatzkonstruktionen in verschiedenen Sprachen wiedergegeben und ausführlich diskutiert. Der Korpuszugang erfolgt in diesem Rahmen auf Basis einer vollautomatischen syntaktischen Analyse, die dann noch zusätzlich durch eine statistische Wortalignierung kontrastiv auf Parallelkorpora beleuchtet werden kann. Neben der Vorstellung der bereits bestehenden automatischen Annotationsmöglichkeiten, die in meinen Augen vielversprechende Wege für den sprachwissenschaftlichen Korpuszugang eröffnen, ist die Hoffnung, dass dieser Beitrag durch die abschließende Diskussion zu dem Bewusstsein beiträgt, dass eine tiefere, organischere Verbindung der beiden sprachwissenschaftlichen Disziplinen möglich ist: dann nämlich, wenn der Korpuszugang nicht mit statischen, vordefinierten Werkzeugen erfolgt, deren Verhalten durch die Grammatikforscherin oder den Grammatikforscher nicht beeinflusst werden kann, sondern wenn ein interaktiver Werkzeuggebrauch erfolgt, der von den vielfältigen Anpassungsmöglichkeiten mit den zugrunde liegenden maschinellen Lernverfahren Gebrauch macht.
Zur Standortbestimmung der Kontrastiven Linguistik innerhalb der vergleichenden Sprachwissenschaft
(2012)
Das Programm der Kontrastiven Linguistik wurde in den sechziger und siebziger Jahren mit der Zielsetzung formuliert, durch systematische Einbeziehung von Gemeinsamkeiten und Kontrasten zwischen Muttersprache und zu erlernender Fremdsprache den Fremdsprachenunterricht effektiver zu gestalten. Nach einigen Jahren enthusiastischer Aufnahme und Bearbeitung setzte jedoch eine allgemeine Ernüchterung und Enttäuschung ein, so dass dieses Programm eher eine bescheidene Randexistenz im Rahmen der vergleichenden Sprachwissenschaft führte und erst in den letzten Jahren unter etwas veränderten Vorzeichen wieder aufgenommen wurde. Drei Gründe waren meiner Meinung nach für diese Desillusionierung verantwortlich: (a) Die Kontrastive Linguistik wurde als Theorie des Zweitspracherwerbs gesehen und somit mit völlig unrealistischen Erwartungen verknüpft, (b) In der Erstellung der deskriptiven Grundlagen dieses Programms, d.h. in der Erstellung umfassender vergleichender Grammatiken für relevante Sprachenpaare, wurden nur wenig überzeugende Fortschritte gemacht, (c) Es fehlte eine Standortbestimmung der Kontrastiven Linguistik im Rahmen der vergleichenden Sprachwissenschaft, aus der deutlich hervorgeht, was die Möglichkeiten und Grenzen dieses Typs von Sprachvergleich sind. Nachdem sich heute die Situation bezüglich der beiden ersten Punkte erheblich verbessert hat (u.a. auch durch einschlägige Arbeiten des IDS), widme ich mich in meinem Beitrag dem dritten Punkt: Durch eine systematische Gegenüberstellung der Kontrastiven Sprachwissenschaft mit den anderen Spielarten der vergleichenden Sprachwissenschaft sollen die Erkenntnismöglichkeiten und Grenzen der verschiedenen Ansätze zum Vergleich von Sprachen bestimmt werden, so dass die Kontrastive Linguistik durch diese Gegenüberstellung klare Konturen erhält. Im Rahmen dieser Gegenüberstellung wird eine Vielzahl von Beobachtungen zum Deutschen aus der Sicht des Englischen und anderer Sprachen gemacht. Für die Kontrastive Linguistik (KL) ergibt sich abschließend das folgende Profil:
— Synchronie: Die KL ist primär synchron orientiert.
— Granularität: Ihr Gegenstand sind feinkörnige Beobachtungen zu Kontrasten zwischen Sprachen.
— Skopus: Die KL beschäftigt sich vor allem mit umfassenden Vergleichen von Sprachpaaren.
— Perspektivierung: Ihr Mehrwert besteht u.a. darin, dass eine Sprache aus der Perspektive einer anderen beschrieben wird. Aus dieser Perspektivenwahl ergeben sich neue Beobachtungen.
— Zielsetzung: Ihre Zielsetzung sind weitreichende, falsifizierbare Verallgemeinerungen über Kontraste. Die Wahl eines theoretischen Rahmens ist sekundär.
Im vorliegenden Beitrag werden einige zentrale Aspekte der kontrastiven Wortbildungsforschung anhand von Beispielen aus dem niederländisch-deutschen Sprachvergleich besprochen. Als nah verwandte Sprachen zeigen das Niederländische und das Deutsche zwar vergleichbare Strukturen der Komposition und der Derivation, bei näherem Hinsehen sind es aber vor allem die vielfältigen Divergenzen, die ins Auge fallen. Im ersten Teil des Artikels werden verschiedenartige Beispiele für solche Divergenzen besprochen. Anschließend geht es um gegenläufige Entwicklungen, die zu Konvergenz zwischen beiden Sprachen führen. Anhand einer Analyse von Zusammensetzungen vom Typ „wassergekühlt“ (ndl. „watergekoeld“) wird für eine stärkere Berücksichtigung von Konvergenzfaktoren in der kontrastiven Linguistik plädiert. Der zweite Teil des Artikels enthält eine detaillierte Fallstudie zur Adjektivbildung mit dem niederländischen Suffix „-achtig“ und dem deutschen „-haft“, die den Zusammenhang von diachronen Entwicklungen und synchronen Kontrasten aufzeigt. Zudem zeigt sie Konsequenzen und Implikationen der vergleichenden Analyse für die Theorie des Lexikons und der Wortbildung auf. Im Mittelpunkt stehen dabei Rainers (2003) Idee der ,semantischen Fragmentierung‘ von Wortbildungsmustern und die Konzeption eines ,hierarchischen Lexikons‘, wie sie unter anderem von Jackendoff (2008) oder Booij (2010) vertreten wird.
Dieser Beitrag beschäftigt sich mit einem Vergleich der englischen wh-Clefts und deren Entsprechungen im Deutschen, den ,Sperrsätzen‘ oder ‚w-Clefts‘. Auf Grundlage einer umfangreichen Korpusstudie werden zunächst Unterschiede in der Verteilung bestimmter w/h-Cleftsatztypen ermittelt. Ein generelles quantitatives Übergewicht der englischen wh-Clefts gegenüber den deutschen w-Clefts wird mit der flexibleren Wortstellung des Deutschen in Verbindung gebracht. Spezifisch werden die beobachteten Asymmetrien durch Unterschiede in der Möglichkeit der Erfüllung bestimmter struktureller Bedingungen erklärt. Vier Motivationen für die Bildung von Cleftsätzen werden identifiziert: (i) lineare Synchronisierung von Informationsstruktur und Syntax, (ii) strukturelle Trennung von Quaestio (= im Diskurs gegebener Frage) und Responsio (= Antwort auf die Quaestio), (iii) Trennung von propositionalem Gehalt und Äußerungskommentar (,Ebenentrennung‘) und (iv) Rechtslastigkeit (Behaghels ‚Gesetz der wachsenden Glieder‘). Während all diese Faktoren die Bildung von wh-Cleftsätzen im Englischen zu begünstigen scheinen, sind deutsche w-Clefts meist durch den in (ii) genannten Faktor motiviert. Die anderen Motivationen führen seltener zur Bildung von w-Cleftsätzen als im Englischen, da die entsprechenden strukturellen Effekte auch ohne Cleftsatzbildung — z.B. in einem kanonischen Verbzweitsatz — erzielt werden können.
In diesem Aufsatz geht es um einen Vergleich der Prinzipien der Wortschreibung im Englischen und Deutschen. Konkret werden Schreibdiphthonge und Doppelkonsonanten behandelt. Beide Phänomene eignen sich gut, um Prinzipien zu verstehen, nach denen die Wortschreibung funktioniert: So lassen sich Schreibdiphthonge nicht immer so aussprechen, wie es die einzelnen Vokalbuchstaben suggerieren, das heißt, sie sind nicht immer über die entsprechenden Graphem-Phonem-Korrespondenzen der einzelnen Segmente zu interpretieren, etwa <ei> für /ai/ im Deutschen und <ea> für /i/ im Englischen. Auf einer ,höheren‘ Ebene (der silbischen) zeigen sich aber systematische Züge, die in beiden Sprachen vergleichbar sind. Auch die Schreibungen der Doppelkonsonanten sind nicht einfach auf der Segmentebene zu verstehen, sondern sie ergeben sich aus einem Zusammenspiel der silbischen, der suprasegmentalen und der morphologischen Ebene. In beiden Sprachen wirken Prinzipien auf allen diesen Ebenen, aber zum Teil auf unterschiedliche Art und Weise.
Am Beispiel des an der Universität Oslo entwickelten Oslo Multilingual Corpus (OMC) wird illustriert, wie ein Parallelkorpus aus Originaltexten und deren Übersetzungen zur sprachvergleichenden Erforschung von Phänomenen der Satzverbindung und der Informationsverteilung auf Satz- und Textebene eingesetzt werden kann. Nach einer Skizze der OMC-Architektur wird eine Untersuchung von Satzverknüpfungen mit dem komitativen Konnektor „wobei“ und deren Entsprechungen in norwegischen Übersetzungen und Originaltexten vorgestellt, die dazu beiträgt, Bedeutungsfacetten dieses Konnektors aufzuzeigen, die in rein intralingualen Studien nicht so einfach zu erkennen sind, und dadurch einen besseren und systematischeren Einblick in die angewandten Übersetzungsstrategien gibt. Als zweites Einsatzbeispiel wird eine explorative Untersuchung zur Elaborierung von Ereignisbeschreibungen vorgestellt, die deutsche, norwegische, englische und französische Entsprechungen von „mit“-Konstruktionen (sog. „Sätzchen“) als Ausgangspunkt nimmt. Beide Studien illustrieren, dass ein Parallelkorpus auch ohne komplexe Annotierungen nicht nur für wort-basierte quantitative Untersuchungen verwertet werden, sondern auch im Zuge weniger zielgerichteter, eher qualitativ angelegter Studien als „Augenöffner“ für komplexe linguistische Phänomene dienen kann.
Die Aufbauprinzipien europäischer Possessionssysteme basieren viel öfter als gemeinhin angenommen auf gespaltener Possession. Dieses im Deutschen nicht prominente Phänomen wird anhand von Daten aus ausgewählten Beispielsprachen als in Europa durchaus etablierte Erscheinung vorgestellt. Die mit ihm verbundenen semantischen und morphosyntaktischen Aspekte werden anhand von qualitativen Korpusdaten diskutiert. Die Restriktionen, denen sie unterliegen, sind ebenfalls Gegenstand der Diskussion. In den Schlussfolgerungen wird dafür plädiert, künftig der Possession bei vergleichenden Studien zu europäischen Sprachen mehr Beachtung zu schenken.
Anhand einer Auswahl historischer Reden je dreier prominenter Deutscher und Polen wird eine signalphonetisch gestützte sprachvergleichende Analyse der glottalen Markierung vokalinitialer Wörter durchgeführt.
Generell erweist sich die glottale Markierung als variabel entlang eines Kontinuums zwischen einem echten glottalen Verschlusslaut (harter Stimmeinsatz) des Initialvokals über zeitlich nicht exakt koordinierte Glottalisierungen (Knarrstimme) und leichte Reflexe im Grundfrequenzverlauf bis hin zum völligen Fehlen einer Markierung.
Insgesamt zeigen sich im Polnischen gegenüber dem Deutschen seltener glottale Markierungen sowie eine sprachübergreifende schwache Abhängigkeit der Markierungshäufigkeit vom Sprechtempo (weniger bei Sprechtempoerhöhung).
Die Auftretenshäufigkeit glottaler Markierung wird sprachabhängig zudem durch unterschiedliche Faktoren beeinflusst: Für das Deutsche zeigen sich signifikante Einflüsse sowohl des Worttyps (Inhaltswörter mit häufigerer Markierung gegenüber Funktionswörtern) als auch der Betonung (betonte Silben mit häufigerer Markierung gegenüber unbetonten), während im Polnischen hier kein Einfluss sichtbar ist. Dafür zeigt das Polnische gegenüber dem Deutschen einen signifikanten Einfluss der Position innerhalb der Phrase (häufigere glottale Markierung in phraseninitialen im Gegensatz zu phrasenmedialen Wörtern). Diese sprachspezifischen Unterschiede können mit den prosodischen Charakteristika beider Sprachen Zusammenhängen. Im Unterschied zum Deutschen mit einem freien Wortakzent fällt dieser im Polnischen auf die Penultima, ist somit vorhersagbar und bedarf demzufolge keiner zusätzlichen glottalen Markierung im Sprachsignal.
Beide Sprachen hingegen zeigen übereinstimmend einen klar ausgeprägten Effekt der Vokalhöhe auf das Auftreten der glottalen Markierung (tiefe Vokale > mittlere Vokale > hohe Vokale).
This paper presents Release 2.0 of the SALSA corpus, a German resource for lexical semantics. The new corpus release provides new annotations for German nouns, complementing the existing annotations of German verbs in Release 1.0. The corpus now includes around 24,000 sentences with more than 36,000 annotated instances. It was designed with an eye towards NLP applications such as semantic role labeling but will also be a useful resource for linguistic studies in lexical semantics.
This paper presents the application of the <tiger2/> format to various linguistic scenarios with the aim of making it the standard serialisation for the ISO 24615 [1] (SynAF) standard. After outlining the main characteristics of both the SynAF metamodel and the <tiger2/> format, as extended from the initial Tiger XML format [2], we show through a range of different language families how <tiger2/> covers a variety of constituency and dependency based analyses.
Current work on sentiment analysis is characterized by approaches with a pragmatic focus, which use shallow techniques in the interest of robustness but often rely on ad-hoc creation of data sets and methods. We argue that progress towards deep analysis depends on a) enriching shallow representations with linguistically motivated, rich information, and b) focussing different branches of research and combining ressources to create synergies with related work in NLP. In the paper, we propose SentiFrameNet, an extension to FrameNet, as a novel representation for sentiment analysis that is tailored to these aims.
This paper presents an extension to the Stuttgart-Tübingen TagSet, the standard part-of-speech tag set for German, for the annotation of spoken language. The additional tags deal with hesitations, backchannel signals, interruptions, onomatopoeia and uninterpretable material. They allow one to capture phenomena specific to spoken language while, at the same time, preserving inter-operability with already existing corpora of written language.
Proceeding from the central ideas of the papers contained in this volume, the closing article sets out to achieve a unified theory of the syntax and semantics of verum focus, to be illustrated for the sentence and clause types of present day German. In German, verum focus is realized phonologically by means of pitch accents on morphosyntactic exponents of various classes: finite verb forms, complementizers and subordinators, interrogative and relative phrases, and modal particles. In the first half of the article, these constituents - most of which reside in the left periphery of the sentence or clause - are shown to share the gramma-tical function of distinguishing between sentence moods and other categories of clauses. This observation gives rise to the assumption that verum focus should be explicable as contrastive focus on semantically distinctive features or components of sentence mood and clause type. In the second half of the article this assumption is spelt out for the sentence and clause types of German. We propose a universal semantic structure of sentence meaning which makes it possible to reduce the most typical cases of verum focus and their diverse contextual interpretations to highlighting the connection between the sentence/clause and its textual or dis-course environment. This connection is syntactically implemented by an element occupying the head position of CP: either a finite verb form or a complementizer/subordinator. Realizations of verum focus on prefield constituents in wh- and relative clauses are explained as phonetic remedies deployed when a connecting element in C° is missing. Focusing of modal particles in the middle field and of verb forms in the right periphery of the clause are shown to differ semantically from verum focus stricto sensu, although they have similar pragmatic effects. The theory is built exclusively on assumptions needed for independent reasons and dispenses with the problematic verum operator assumed in most traditional accounts.
Opening/Eröffnung/Aperture
(2012)
I nationale og curopa’iskc sprogpolitiske undersogelser savner man orte et tilt'redsstiIlende cmpirisk grundlag. De tilgsngelige data om den aktuelle Situation for sprogene i de forskelligc lande er heterogene. ufuldstEndige og delvist foraddede og derfor vanskelige at sammenligne over tid. EKNIL’s curoptciskc sprogbarometer. KLM, er et forsog pä al afhjxlpe denne Situation. KLM er baseret pä et omfattende spor- geskema om en bred vifte al’sproglige forhold som er egnet til at danne et billede at'sprogenes Status og sprogpolitiske praksisser i hvert enkelt land. fx sprogencs juridiske Status, sprogenes Status i undervis- ning og forskning, Situationen for minoritetssprog, sprogene i kulturen og i erhvervslivet. KLM gennem- tores med fä ärs mellemrum. Naervjerende artikel beskriver baggrunden og resultateme af KLM 2 (2007- 2011) som omfatler 23 europa’iske lande
Other than linguistic laymen, most linguists avoid Statements concerning the general state of a language or its future. Despite some theoretical scruples, I shall, after some assessing comments on present German, make speculations on the further development of this language. Three scenarios of possible States of the German language at the end of this Century will be sketched and discussed in comparison. These speculations are but plausible considerations based on observations of the Contemporary language. In view of the looming partial loss of domains of German and other European Standard languages, I will then discuss how the further development of German can be positively influenccd within the context of multilingual Europe.
The instructions under which raters quantify syllable prominence perception need to be simple in order to maintain immediate reactions. This leads to noise in the rating data that can be dealt with by normalization, e.g. setting central tendency = 0 and dispersion = 1 (as in Z-score normalization). Questions arise such as: Which parameter is adequate here to capture central tendency? Which reference distribution should the normalization be based on? In this paper 16 different normalization methods are evaluated. In a perception experiment using German read speech (prose and poetry), syllable prominence ratings were collected. From the rating data 16 complete “mirror” data-sets were computed according to the 16 methods. Each mirror data-set was correlated with the same set of measures from the underlying acoustic data, focusing on raw syllable duration which is seen as a rather straightforward acoustic aspect of syllable prominence. Correlation coefficients could be raised considerably by selected methods.
The perception of syllable prominence depends to a limited extent on the acoustic properties of the speech signal in question. Psychoacoustic factors are involved as well. Thus, research often relies on two types of data: subjective prominence ratings collected in perception experiments and acoustic measures. A problem with the rating data is noise resulting from individual approaches to the rating task. This paper addresses the question of how this noise can be reduced by normalization, evaluating 12 normalization methods. In a perception experiment, prominence ratings concerning German read speech were collected. From the raw rating data 12 different ‘mirror’ data-sets were computed according to the 12 methods. Each mirror data-set was correlated with the same set of underlying acoustic data. The multiple regression setup included raw syllable duration as well as within-syllable maximum F0 and intensity. Adjusted r2-values could beraised considerably with selected methods.
This paper presents an annotation scheme for English modal verbs together with sense-annotated data from the news domain. We describe our annotation scheme and discuss problematic cases for modality annotation based on the inter-annotator agreement during the annotation. Furthermore, we present experiments on automatic sense tagging, showing that our annotations do provide a valuable training resource for NLP systems.
Recht haben im Sprachunterricht. Wie besteht man bei Meinungsgegensätzen auf seinem Standpunkt?
(2012)
„Den eigenen Standpunkt begründen und verteidigen" gehört zu den Kann-Beschreibungen im Europäischen Referenzrahmen für Sprachen. Um seinen Standpunkt verteidigen zu können, muss man unter anderem in der Lage sein, darauf hinzuweisen, dass man selber Recht hat, wie auch, einem Kommunikationspartner zu widersprechen. Der folgende Aufsatz untersucht intonatorische Sprachmittel, die ein Sprecher des Deutschen hierzu einsetzen kann: Betonung des finiten Verbs, einer Partikel wie wohl oder doch oder eines Negationsausdrucks wie nicht oder kein. In der Linguistik spricht man von Verumfokus und Negationsfokus. Der Aufsatz erklärt, was unter Fokus zu verstehen ist, und gibt Beispiele dafür, wie er in gesprochener und geschriebener Sprache funktioniert. Er zeigt auf, welchen Stellenwert Intonation im Sprachunterricht haben kann und sollte, und schließt mit einigen praktischen Übungsvorschlägen.