Refine
Year of publication
- 2014 (462) (remove)
Document Type
- Part of a Book (207)
- Article (141)
- Conference Proceeding (52)
- Book (35)
- Part of Periodical (12)
- Working Paper (7)
- Other (6)
- Preprint (2)
Keywords
- Deutsch (149)
- Korpus <Linguistik> (50)
- Institut für Deutsche Sprache <Mannheim> (36)
- Linguistik (29)
- Germanistik (25)
- Computerunterstützte Lexikographie (23)
- Wörterbuch (19)
- Gesprochene Sprache (18)
- Institut für Deutsche Sprache (18)
- Konversationsanalyse (16)
Publicationstate
- Veröffentlichungsversion (173)
- Zweitveröffentlichung (23)
- Postprint (11)
Reviewstate
- (Verlags)-Lektorat (140)
- Peer-Review (64)
- Verlags-Lektorat (7)
- Peer-review (6)
- Review-Status-unbekannt (2)
- (Verlags)Lektorat (1)
- (Verlags-)Lektorat (1)
- Peer-Revied (1)
- Preprint (1)
Publisher
- Institut für Deutsche Sprache (98)
- De Gruyter (88)
- de Gruyter (36)
- Stauffenburg (12)
- European Language Resources Association (ELRA) (11)
- Lang (10)
- Benjamins (6)
- Springer (6)
- Winter (6)
- Cambridge Scholars Publ. (5)
This article presents preliminary results indicating that speakers have a different pitch range when they speak a foreign language compared to the pitch variation that occurs when they speak their native language. To this end, a learner corpus with French and German speakers was analyzed. Results suggest that speakers indeed produce a smaller pitch range in the respective L2. This is true for both groups of native speakers. A possible explanation for this finding is that speakers are less confident in their productions, therefore, they concentrate more on segments and words and subsequently refrain from realizing pitch range more native-like. For language teaching, the results suggest that learners should be trained extensively on the more pronounced use of pitch in the foreign language.
Das Konzept,Textgrammatik' wird einer kritischen Prüfung unterzogen. Die Hypothese, für die argumentiert wird, ist, dass eine strikte Auslegung im Sinne der Annahme, Texte hätten eine spezifische Grammatik, wie Sätze eine spezifische Grammatik haben, nicht aufrecht erhalten werden kann. Grundlegende Eigenschaften, nämlich die Existenz eines hierarchisch aufgebauten Regelsystems, eine spezifische Form von Gegliedertheit und Formbezogenheit, sind anders als auf Satzebene beim Text nicht gegeben. Exemplarisch werden die Phänomene Anaphorik sowie, ausführlicher, Erscheinungsformen der Ellipse bzw. aus dem elliptischen Formenkreis diskutiert. Das Fazit ist: ,Textgrammatik‘ sollte - wenn überhaupt gebraucht - nur als Verweis auf die Textsensibilität der Satzgrammatik dienen.
Der Blick zurück nach vorn
(2014)
Topologisches Satzmodell
(2014)
We start by trying to answer a question that has already been asked by de Schryver et al. (2006): Do dictionary users (frequently) look up words that are frequent in a corpus. Contrary to their results, our results that are based on the analysis of log files from two different online dictionaries indicate that users indeed look up frequent words frequently. When combining frequency information from the Mannheim German Reference Corpus and information about the number of visits in the Digital Dictionary of the German Language as well as the German language edition of Wiktionary, a clear connection between corpus and look-up frequencies can be observed. In a follow-up study, we show that another important factor for the look-up frequency of a word is its temporal social relevance. To make this effect visible, we propose a de-trending method where we control both frequency effects and overall look-up trends.
Gegenstand des Aufsatzes sind Sätze mit so genannten inneren Objekten, das sind Akkusativobjekte, die im Wesentlichen intransitive Verben gelegentlich zu sich nehmen. Sie weisen die Besonderheit auf, dass das Objektsnomen und das Verb morphologisch, etymologisch und/oder semantisch miteinander verwandt sind. Aufgrund von Form- und vor allem Bedeutungsunterschieden lassen sich in beiden Sprachen verschiedene Gruppen von inneren Objekten ausmachen, die genauer beschrieben und unter sprachvergleichenden Gesichtspunkten betrachtet werden. Dazu werden u.a. die syntaktischen Eigenschaften von Sätzen mit inneren Objekten herangezogen. Einige auffallende sprachbezogene Unterschiede werden beschrieben, beispielsweise ist im Rumänischen bei einigen Verben ein präpositionaler Anschluss möglich, wo im Deutschen das innere Objekt ausschließlich im Akkusativ stehen kann. Sätze mit inneren Objekten können als ein Typ von Argumentstrukturmustern betrachtet werden. In diesem Sinne sind sie Form-Bedeutungs-Paare, deren Beziehungen untereinander innerhalb eines Konzepts von Familienähnlichkeiten dargestellt werden, wie man sie auch innerhalb anderer Cluster von Argumentstrukturmustern beobachten kann.
Ablautreihe
(2014)
Ablaut
(2014)
Automatic Food Categorization from Large Unlabeled Corpora and Its Impact on Relation Extraction
(2014)
We present a weakly-supervised induction method to assign semantic information to food items. We consider two tasks of categorizations being food-type classification and the distinction of whether a food item is composite or not. The categorizations are induced by a graph-based algorithm applied on a large unlabeled domain-specific corpus. We show that the usage of a domain-specific corpus is vital. We do not only outperform a manually designed open-domain ontology but also prove the usefulness of these categorizations in relation extraction, outperforming state-of-the-art features that include syntactic information and Brown clustering.
We examine the task of separating types from brands in the food domain. Framing the problem as a ranking task, we convert simple textual features extracted from a domain-specific corpus into a ranker without the need of labeled training data. Such method should rank brands (e.g. sprite) higher than types (e.g. lemonade). Apart from that, we also exploit knowledge induced by semi-supervised graph-based clustering for two different purposes. On the one hand, we produce an auxiliary categorization of food items according to the Food Guide Pyramid, and assume that a food item is a type when it belongs to a category unlikely to contain brands. On the other hand, we directly model the task of brand detection using seeds provided by the output of the textual ranking features. We also harness Wikipedia articles as an additional knowledge source.
We report on the two systems we built for Task 1 of the German Sentiment Analysis Shared Task, the task on Source, Subjective Expression and Target Extraction from Political Speeches (STEPS). The first system is a rule-based system relying on a predicate lexicon specifying extraction rules for verbs, nouns and adjectives, while the second is a translation-based system that has been obtained with the help of the (English) MPQA corpus.
Part-of-speech tagging (POS-tagging) of spoken data requires different means of annotation than POS-tagging of written and edited texts. In order to capture the features of German spoken language, a distinct tagset is needed to respond to the kinds of elements which only occur in speech. In order to create such a coherent tagset the most prominent phenomena of spoken language need to be analyzed, especially with respect to how they differ from written language. First evaluations have shown that the most prominent cause (over 50%) of errors in the existing automatized POS-tagging of transcripts of spoken German with the Stuttgart Tübingen Tagset (STTS) and the treetagger was the inaccurate interpretation of speech particles. One reason for this is that this class of words is virtually absent from the current STTS. This paper proposes a recategorization of the STTS in the field of speech particles based on distributional factors rather than semantics. The ultimate aim is to create a comprehensive reference corpus of spoken German data for the global research community. It is imperative that all phenomena are reliably recorded in future part-of-speech tag labels.
Communication across all language barriers has long been a goal of humankind. In recent years, new technologies have enabled this at least partially. New approaches and different methods in the field of Machine Translation (MT) are continuously being improved, modified, and combined, as well. Significant progress has already been achieved in this area; many automatic translation tools, such as Google Translate and Babelfish, can translate not only short texts, but also complete web pages in real time. In recent years, new advances are being made in the mobile area; Googles Translate app for Android and iOS, for example, can recognize and translate words within photographs taken by the mobile device (to translate a restaurant menu, for instance). Despite this progress, a “perfect” machine translation system seems to be an impossibility because a machine translation system, however advanced, will always have some limitations. Human languages contain many irregularities and exceptions, and consequently go through a constant process of change, which is difficult to measure or to be processed automatically. This paper gives a short introduction of the state of the art of MT. It examines the following aspects: types of MT, the most conventional and widely developed approaches, and also the advantages and disadvantages of these different paradigms.
Eine syntaktische Besonderheit der kontinentalwestgermanischen Sprachen ist die Bildung satzfinaler Verbalkomplexe (" ... dass sie das Buch gelesen haben muss"), für die ein hohes Maß an sprach- bzw. dialektübergreifender und idiolektaler Verbstellungsvariation charakteristisch ist. Der niederdeutsche Verbalkomplex gilt in Überblicksdarstellungen als streng kopffinal, wobei bisher – anders als für niederländische und hochdeutsche (besonders: oberdeutsche) Mundarten – kaum empirische Studien vorliegen. Der Aufsatz präsentiert eine deskriptive Analyse des zweigliedrigen Verbalkomplexes im Märkisch-Brandenburgischen, dem südöstlichsten der niederdeutschen Dialektverbände.
Im Gegensatz zum Standarddeutschen und anderen niederdeutschen Mundarten wie dem Nordniederdeutschen, weist das Brandenburgische selbst bei nur zwei verbalen Elementen in der rechten Satzklammer Variation auf ("dass sie lesen kann/kann lesen"). Anhand von Tonaufnahmen aus dem bisher kaum erschlossenen DDR-Korpus wird folgenden Fragen nachgegangen: Welche Verbstellungsvarianten sind in welchen Syntagmen möglich bzw. werden präferiert? Welche Unterschiede bestehen zwischen Haupt- und Nebensatzkomplexen? Wie verhält sich der brandenburgische Verbalkomplex in Bezug auf nicht-verbale Intervenierer (sog. Verb Projection Raising)? Wie verhalten sich Modal- und andere infinitivregierende Verben unter Perfekteinbettung (d.h. in stddt. Ersatzinfinitivkontexten)?
Am Ende steht eine erste typologische Einordnung des brandenburgischen Verbalkomplexes im Vergleich mit anderen kontinentalwestgermanischen Varietäten, wobei sich areallinguistisch interessante Ähnlichkeiten mit dem südlich angrenzenden Ostmitteldeutschen zeigen.
Faktivität
(2014)
Einleitende Bemerkungen
(2014)
Growing globalisation of the world draws attention to cultural differences between people from different countries or from different cultures within the countries. Notwithstanding the diversity of people’s worldviews, current cross-cultural research still faces the challenge of how to avoid ethnocentrism; comparing Western-driven phenomena with like variables across countries without checking their conceptual equivalence clearly is highly problematic. In the present article we argue that simple comparison of measurements (in the quantitative domain) or of semantic interpretations (in the qualitative domain) across cultures easily leads to inadequate results. Questionnaire items or text produced in interviews or via open-ended questions have culturally laden meanings and cannot be mapped onto the same semantic metric. We call the culture-specific space and relationship between variables or meanings a ’cultural metric’, that is a set of notions that are inter-related and that mutually specify each other’s meaning. We illustrate the problems and their possible solutions with examples from quantitative and qualitative research. The suggested methods allow to respect the semantic space of notions in cultures and language groups and the resulting similarities or differences between cultures can be better understood and interpreted.
Ebenen der Verknüpfung
(2014)
Kausale Konnektoren
(2014)
Konditionale Konnektoren
(2014)
Large classes at universities(> 1600 students) create their own challenges for teaching and learning. Audience feedback is lacking and fine tuning of lectures, courses and exam preparation to address individual needs is very difficult to achieve. At RWTH Aachen University, a course concept and a knowledge map learning tool aimed to support individual students to prepare for exams in information science through theme-based exercises were developed and evaluated. The tool was grounded in the notion of self-regul ated learning with the goal of enabling students to learn
independently.
The chapter provides a review of research literature on the use of electronic dictionaries. Because the central terms electronic dictionary and research into dictionaiy use are sometimes used in different ways in the research, it is necessary first of all to examine these more closely, in Order to clarify their use in this research review. The main chapter presents several individual studies in chronological order.
Once a new word or a new meaning is added to a monolingual dictionary, the lexicographer is to provide a definition of this item. This paper focuses on the methodological challenges in writing such definitions. After a short discussion of the central terminology (method and definition), the article describes factors which inform this process: linguistic theories, linguistic and lexicographical methods, and types of definitions. Using the example of elexiko, a dictionary project of the Institute for the German language (IDS) in Mannheim, Germany, the paper finally showcases the compilation of definitions in a monolingual online dictionary of contemporary German.
Seit Jahrzehnten fordern zahlreiche Metalexikografen und Lexikografen immer wieder eine umfangreichere Beschäftigung mit Wörterbüchern im muttersprachlichen Deutschunterricht, auch in der gymnasialen Oberstufe. Trotzdem spielen die Wortschatzarbeit und der Umgang mit Wörterbüchern in Lehrplänen, Didaktiken und Lehrwerken in den meisten Fällen allenfalls eine marginale Rolle. Im Anschluss an eine überblicksartige Bestandsaufnahme dazu untersucht der vorliegende Beitrag, inwieweit elexiko, ein Onlinewörterbuch zur deutschen Gegenwartssprache, sinnvoll in den muttersprachlichen Deutschunterricht der Sekundarstufe II integriert werden könnte. Am Beispiel des Angabebereichs der Bedeutungserläuterung wird überprüft, ob Schüler der gymnasialen Oberstufe als Zielgruppe für elexiko infrage kommen und für welche linguistischen Themen sich die Wortschatzarbeit mit den semantischen Paraphrasen für elexiko anbietet.
Measuring the quality of metadata is only possible by assessing the quality of the underlying schema and the metadata instance. We propose some factors that are measurable automatically for metadata according to the CMD framework, taking into account the variability of schemas that can be defined in this framework. The factors include among others the number of elements, the (re-)use of reusable components, the number of filled in elements. The resulting score can serve as an indicator of the overall quality of the CMD instance, used for feedback to metadata providers or to provide an overview of the overall quality of metadata within a repository. The score is independent of specific schemas and generalizable. An overall assessment of harvested metadata is provided in form of statistical summaries and the distribution, based on a corpus of harvested metadata. The score is implemented in XQuery and can be used in tools, editors and repositories.
Aus der Perspektive der Sprachbenutzerinnen ist der Genitiv vom Sprachverfall bedroht. Jedoch lässt sich in der Geschichte des Deutschen kein geradliniger Abbau nachweisen. Die kurze Genitivendung -s (aus -es) setzte sich zwar schon im Frühneuhochdeutschen als die häufigere Variante durch, im weiteren Sprachwandel entwickelte sich dann aber eine komplex gesteuerte Variation beider Endungen. Mit dem Abbau des verbalen und attributiven Genitivs gehen zwar wichtige Funktionsbereiche verloren, doch zeichnet sich in der neuesten Sprachgeschichte ein unerwarteter Aufbau des Genitivs als Präpositionalkasus ab. In diesem Beitrag wird dafür plädiert, dass die formale und funktionale Entwicklung des Genitivs stark durch sprachliche Unsicherheit beeinflusst wurde und wird, die eine Reaktion auf bestehende Varianz darstellt. Es wird dafür argumentiert, dass die stilistische Aufwertung der langen Genitivform und des Genitivs gegenüber dem Dativ den Sprach-wandel aufhält bzw. sogar in eine andere Richtung lenkt.
Der Beitrag verortet die internetbasierten Kommunikationsformen in einem größeren sprach- und varietätengeschichtlichen Rahmen und macht deutlich, dass sich die neuen interaktionsorientierten Schreibformen — chatten, posten, twittern, skypen etc. — in einem Bereich etablieren, in dem bislang überwiegend mündlich kommuniziert wurde. Auf dieser Basis wird gezeigt, dass es bislang keine empirische Evidenz dafür gibt, dass der interaktionsorientierte Schreibstil auf das textorientierte Schreiben „abfärbt“, dass vielmehr kompetente Schreiber und selbst Jugendliche durchaus dazu in der Lage sind, situationsangemessen zwischen verschiedenen Schreibhaltungen und -stilen zu wechseln. Abschließend werden Desiderate für die korpusgestützte Begleitforschung zu diesen Entwicklungen formuliert und die Herausforderungen erläutert, die sich durch das Nebeneinander von interaktions- und textorientiertem Schreiben für die schulische Sprach- und Schreibförderung ergeben.
German lexical items with similar or related morphological roots and similar meaning potential are easily confused by native speakers and language learners. These include so-called paronyms such as effektiv/effizient , sensitive/sensibel, formell/formal/förmlich . Although these are generally not regarded as synonyms, empirical studies suggest that in some cases items of a paronym set have undergone meaning change and developed synonymous notions. In other cases, they remain similar in meaning, but show subtle differences in definition and restrictions of usage. Whereas the treatment of synonyms has received attention from corpus-linguists (cf. Partington 1998; Taylor 2003), the subject of paronyms has not been revisited with empirical, data-driven methods neither in terms of semantic theory nor in terms of practical lexicography. As a consequence, we also need to search for suitable corpus methods for detailed semantic investigation. Lexicographically, some German paronyms have been documented in printed dictionaries (e.g. Müller 1973; Pollmann & Wolk 2010). However, there is no corpus-assisted reference guide describing paronyms empirically and enabling readers to find the correct contemporary usage. Therefore, solutions to some lexicographic challenges are required.
Dieser Beitrag zeigt, wie allgemeinsprachige Wörterbücher mit Angaben zur Sinn- und Sachverwandtschaft umgehen sollten, damit sie als geeignetes Hilfsmittel bei der Wortschatzarbeit sowohl im muttersprachlichen als auch im fremdsprachlichen Unterricht eingesetzt werden können. Anhand einiger Beispiele aus dem elexiko-Wörterbuch sollen Möglichkeiten aufgezeigt werden, wie kombinierte lexikalisch-semantische Informationen einen Beitrag zur gezielten Wortschatzerweiterung leisten könnten. Für eine effektive Verankerung sprachlichen und außersprachlichen Wissens sollten Erkenntnisse über das Mentale Lexikon in die Darstellung und Beschreibung von Sprache im Wörterbuch eingebunden werden. Konkrete Vorschläge illustrieren, wie Nachschlagewerke möglicherweise gestaltet werden sollten, um besser als Lehrwerke und Quellen für die Wortschatzarbeit geeignet zu sein. Dafür ist es erforderlich, dass die Dokumentation sprachlicher Zusammenhänge auf unterschiedlichen Ebenen, die angemessene Visualisierung kontextueller Phänomene und explizite Erläuterungen eine entscheidende Rolle spielen
Sprache macht stark!
(2014)
By way of migration, large numbers of German-speaking settlers arrived in Pennsylvania between roughly 1700 and 1750. Pennsylvania German, as a distinct variety, developed through levelling processes from L1 varieties of these migrants who came mainly from the southwestern regions of the German speaking area. Pennsylvania German is still spoken today by specific religious groups (primarily Amish and Menonnite groups) for many of whom it is an identity marker. My paper focuses on those Pennsylvania Germans who are not part of these religious groups but have the same migration history. Due to their being closer to the cultural values of American mainstream society, they were integrated into it, and during the 20th century their use of Pennsylvania German was continually diminishing. A revival of this heritage language has occurred over the past c. three decades, including language courses offered at community colleges, public libraries, etc., where ethnic Pennsylvania Germans wish to (re-)learn the language of their grandparents. Written Pennsylvania German data from four points in time between the 1860s and the 1990s were analysed in this study. Based on these linguistic analyses, differences between the data sets are shown that point towards a diachronic change in the language contact situation of Pennsylvania German speakers. Sociolinguistic and extralinguistic factors are considered that influence the role of PG and make their speakers heritage speakers much in the sense of recent immigrant heritage speakers, although delayed by 200 years.
Zwischen 1884 und 1914 standen verschiedene Regionen Afrikas und des Pazifiks unter der Kolonialherrschaft des deutschen Kaiserreichs. Teil dieses kolonialen Herrschaftsanspruches war es, Deutsch als Sprache der allgemeinen Kommunikation einzuführen. Um Deutschkenntnisse zu vermitteln, gab es gesetzliche Vorgaben, die den Umfang des Deutschunterrichts in den Schulen näher bestimmten.
Following a welcome in Lithuanian and English to the guests and members on the occa- sion of the 10"’ anniversary of EFNIL, the history of this European language Organization is sketched. A brief survey of the sociolinguistic themes treated at previous Conferences and the state of the inajor projects is given, followed by an introduction (in German) to the general topic of the present Conference. The importance that translation and interpretation have for European language diversity and the individual national languages beside foreign language education of all Europeans is being stressed.
Vorwort
(2014)
This contribution presents the newest version of our ’Wortverbindungsfelder’ (fields of multi-word expressions), an experimental lexicographic resource that focusses on aspects of MWEs that are rarely addressed in traditional descriptions: Contexts, patterns and interrelations. The MWE fields use data from a very large corpus of written German (over 6 billion word forms) and are created in a strictly corpus-based way. In addition to traditional lexicographic descriptions, they include quantitative corpus data which is structured in new ways in order to show the usage specifics. This way of looking at MWEs gives insight in the structure of language and is especially interesting for foreign language learners.
Der Beitrag diskutiert ausgehend von einem historischen Sprachbeispiel die Korrelation zwischen lexikalisierten Wortverbindungen, die durch bestimmte außersprachliche Faktoren zu solchen geworden sind, und Wortschatzeinheiten ähnlicher Art, die ihrerseits Muster konstituieren. Es wird gezeigt, dass unauffällige Syntagmen zu verfestigten Wortschatzeinheiten werden können, dass dies aber gleichzeitig nicht im luftleeren Formulierungsraum geschieht. Vielmehr liegt auch hier syntagmatische Musterhaftigkeit in einem Netz graduell verfestigter Einheiten des Lexikons zugrunde. Solche Netze sind immer durch fragmentarischen Gebrauch und Überlappung von spezifischen Komponenten geprägt. Je nach Kommunikationssituation und -bedürfnissen werden Teilstrukturen fokussiert und aktualisiert, während andere im Hintergrund bleiben.
Hugo-Moser-Stiftung
(2014)
In diesem Wörterbuch finden sich von App bis Zickenalarm mehr als 570 Stichwörter, die die aktuelle Wortschatzerweiterung im Deutschen als Ausdruck der Anpassung des Wortschatzes an neue Gegebenheiten und Sachverhalte spiegeln. Erfasst und in umfangreichen Wortartikeln beschrieben und dokumentiert sind die Neulexeme und Neubedeutungen, die im Zeitraum von 2001 bis 2010 aufgekommen sind und sich weitgehend im allgemeinsprachlichen Teil des Wortschatzes der deutschen Standardsprache etabliert haben.
In diesem Wörterbuch finden sich von App bis Zickenalarm mehr als 570 Stichwörter, die die aktuelle Wortschatzerweiterung im Deutschen als Ausdruck der Anpassung des Wortschatzes an neue Gegebenheiten und Sachverhalte spiegeln. Erfasst und in umfangreichen Wortartikeln beschrieben und dokumentiert sind die Neulexeme und Neubedeutungen, die im Zeitraum von 2001 bis 2010 aufgekommen sind und sich weitgehend im allgemeinsprachlichen Teil des Wortschatzes der deutschen Standardsprache etabliert haben.
Die Basislemmaliste (BLL) der neuhochdeutschen (nhd.) Standardsprache ist eine korpusbasierte, frequenzsortierte Lemmaliste mit mehr als 325.000 Einträgen. Jedes Lemma wird ergänzt durch Wortarten- und Häufigkeitsangaben. Die im Folgenden vorgestellte Version 1.0 der BLL wurde aus DeReKo, dem Deutschen Referenzkorpus des Instituts für Deutsche Sprache, mit 5 Milliarden Wortformen erstellt. Weitere Sprachressourcen sind linguistische Korpusannotationen, die von linguistischen Annotationswerkzeugen wie Lemmatisierern, Part-of-Speech-Taggern oder Parsern stammen. Für die Erstellung der BLL ist das Lemma und das Part-of-Speech-Tag relevant. Die Distanz zwischen lexikografischen Konventionen und maschineller Realität in Form von automatisch vergebenen Lemma-Annotationen erfordert einen Abgleich der aus den Korpusannotationen automatisch generierten Lemmalisten mit der digital verfügbaren Lemmastrecke eines Wörterbuches. Zum einen, um die Vollständigkeit der Einträge frequenter Wörter und das Vorkommen seltener Simplizia in der BLL zu gewährleisten, zum anderen, um die Lemmaform und die Lemmagranularität an die Erwartungen anzupassen, die ein menschlicher Benutzer an ein lexikalisches Verzeichnis der neuhochdeutschen Standardsprache stellt.
In diesem Beitrag werden zentrale methodische Fragen der Erstellung mündlicher Sprachkorpora anhand des Mannheimer FOLK-Korpus diskutiert, teils im Hinblick auf gesprochensprachliche Korpora insgesamt, teil im Vergleich zum Leipziger GeWiss-Korpus. Bei FOLK steht keine bestimmte thematisch-institutionelle Domäne im Mittelpunkt des Korpusaufbaus, sondern das Ziel, ein ausgewogenes Korpus authentischer Gespräche unterschiedlicher Sprecher/innen in Alltag, Institutionen und Medien für eine Vielzahl von Forschungsfragen und Verwendungskontexten bereitzustellen. Der Artikel stellt das Vorgehen bei der Korpus-Akquise, die Anlage der Metadaten, den Workflow des Projekts sowie die Transkriptionskonventionen und die orthografische Normalisierung der Transkriptionen ausführlich vor und beschreibt Korpusaufbau und -stratifikation sowie die Einbindung von FOLK in die Datenbank für Gesprochenes Deutsch 2.0 des IDS.
Forschungsstelle Freiburg
(2014)
Sprachliche Kommunikation ist Grundlage jeder Gesellschaft. Die Möglichkeit, mittels Sprache Gedanken und Gefühle auszudrücken, gehört zu den wichtigsten geistigen und sozialen Fähigkeiten des Menschen. Alle wesentlichen sozialen Interaktionen, Strukturen und Institutionen basieren auf sprachlichen Prozessen. Sprachliche Äußerungen vermitteln allgemeine und individuelle Kenntnisse, speichern kollektives Wissen, ermöglichen komplexe Denkprozesse, Gedankenaustausch und Bezugnahme auf die Welt. Die Sprache ist in einer Gemeinschaft das bei allen individuellen Unterschieden und subjektiven Ausrichtungen menschlicher Existenzen von allen gemeinsam benutzte, überindividuell verstandene Kenntnis- und Kodierungssystem. Sowohl im privaten wie auch im sozialen Leben wäre ein Miteinander ohne Sprache nicht vorstellbar.
Wenn wir uns mit der Sprache beschäftigen, stellen wir Fragen nach uns selbst, unserem Geist, unseren Fähigkeiten, unserer Wesensart, unserer Interaktion mit anderen Menschen, unserer Onto- und Phylogenese.
Sprache ist somit immer ein Fenster zur Welt, weil wir durch Sprache etwas über die äußere Realität erfahren. Sprache ist zugleich eine Straße in den Geist, da sprachliche Äußerungen immer auch Einblick in Denk- und Meinungsprozesse, Einstellungen oder Motive geben - sie sind also Spuren unserer kognitiven Aktivität.
Previous accounts addressing the question what semantic properties of a matrix predicate determine the possible clause type of the embedded clause have not provided a general answer (e.g. Grimshaw 1979, Zifonun et al. 1997, Ginzburg & Sag 2000). This paper proposes that clause-embedding predicates fulfill characteristic logical conditions, so-called consistency conditions, which rule the syntactic potential of the matrix clause: for instance, the clause type of the embedded clause (declarative, ob- and/or wh-interrogative) and the correlate type, the matrix predicate can co-occur with (es and/or ProPP). Furthermore, they predict the logical forms of legitimate constructions with embedded ob- or wh-interrogatives, respectively, and how a legitimate optional correlate modifies the meaning of the matrix predicate.
Previous accounts addressing the question what semantic properties of a matrix predicate determine the possible clause type of the embedded clause have not provided a general answer (e.g. Grimshaw 1979, Zifonun et al. 1997, Ginzburg & Sag 2000). This paper proposes that clause-embedding predicates fulfill characteristic logical conditions, so-called consistency conditions, which rule the syntactic potential of the matrix clause: for instance, the clause type of the embedded clause (declarative, ob- and/or wh-interrogative) and the correlate type, the matrix predicate can co-occur with (es and/or ProPP). Furthermore, they predict the logical forms of legitimate constructions with embedded ob- or wh-interrogatives, respectively, and how a legitimate optional correlate modifies the meaning of the matrix predicate.
Johann Leo Weisgerbers bekannter Titel bezieht sich auf Humboldts Energeia-Begriff, also auf die Sprache als wirkende Kraft. Auch in diesem Beitrag soll den wirkenden Kräften nachgegangen werden, freilich nicht als Unterstellung eines wesenhaften Sprachvermögens, sondern als Versuch, die wirksamen Motive der sprachkritischen Einstellungen, Publikationen und publizistischen Erscheinungen an einem Raster sozialwissenschaftlicher Begriffe darzulegen. An einigen ausgewählten Presseberichten und grammatischen Beispielen (Veränderungen im Bereich der deutschen Zeitenfolge) wird zunächst gezeigt, dass sich Sprachkritik oft schon von ihrem Gegenstand, der deutschen Sprache, weitgehend gelöst hat. Auch angesichts neuer Formen von substandardsprachlichen Erscheinungen (z.B. Jugendsprache, Jargon, Kiezsprache usw.) kann oft nachgewiesen werden, dass es sich in vielen Fällen um kommunikativ funktionale Sprachformen handelt. Um es schlagwortartig zusammenzufassen: Es gibt Sprachkritik ohne Sprache. Die „wirkenden Kräfte“ der Sprachkritik sichern vielmehr die Wahrnehmung gesellschaftlicher Differenzen und machen damit das Gefüge unterschiedlicher Lebensformen deutlich. Sie werden hier mit systemtheoretischen Begrifflichkeiten nach Niklas Luhmanns Theorie sozialer Systeme beschrieben und damit auch erklärt. Während das für die 80er-Jahre des vorigen Jahrhunderts charakteristische Programm der „Kritik der Sprachkritik“ auf eine sprachwissenschaftliche Aufklärung zielt, scheint heute vielmehr eine soziologische Aufklärung diese metakritische Funktion erfüllen zu können. Es könnte sich aber auch zeigen, dass Sprachkritik ihren Beitrag zur Stabilisierung des gesellschaftlichen Zusammenwirkens leistet — wenn man sie nicht als Sprachkritik im engeren Sinn versteht.
Communication of stereotypes in the classroom: biased language use of German and Turkish adolescents
(2014)
Little is known about the linguistic transmission and maintenance of mutual stereotypes in interethnic contexts. This field study, therefore, investigated the linguistic expectancy bias (LEB) and the linguistic intergroup bias (LIB) among German and Turkish adolescents (13 to 20 years) in the school context. The LEB refers to the general phenomenon of describing stereotypes more abstractly. The LIB is the tendency to use language abstraction for in-group protective reasons. Results revealed an unmoderated LEB, whereas the LIB only occurred when foreigners were in the numerical majority, the classroom composition was perceived as a learning disadvantage, or the interethnic conflict frequency was high. These findings provide first evidence for the use of both LEB and LIB in an interethnic classroom setting.
Bezeichnungen für Personen, die sich nicht in ihrem Heimatland aufhalten (z.B. Migrant, Ausländer, Flüchtling) werden in der Sprachgemeinschaft häufig wertend und kontrovers verwendet. In dem Beitrag wird gezeigt, dass die allgemeinsprachige Lexikografie diesen Aspekt bislang nicht angemessen berücksichtigt – weder in der korpusgestützten, methodischen Erfassung und Analyse von Sprachdaten noch in der beschreibenden Darstellung. Am Beispiel von elexiko werden Ansätze vorgestellt, die das Potenzial besitzen, dieses Desiderat einzulösen.
We present a novel NLP resource for the explanation of linguistic phenomena, built and evaluated exploring very large annotated language corpora. For the compilation, we use the German Reference Corpus (DeReKo) with more than 5 billion word forms, which is the largest linguistic resource worldwide for the study of contemporary written German. The result is a comprehensive database of German genitive formations, enriched with a broad range of intra- und extralinguistic metadata. It can be used for the notoriously controversial classification and prediction of genitive endings (short endings, long endings, zero-marker). We also evaluate the main factors influencing the use of specific endings. To get a general idea about a factor’s influences and its side effects, we calculate chi-square-tests and visualize the residuals with an association plot. The results are evaluated against a gold standard by implementing tree-based machine learning algorithms. For the statistical analysis, we applied the supervised LMT Logistic Model Trees algorithm, using the WEKA software. We intend to use this gold standard to evaluate GenitivDB, as well as to explore methodologies for a predictive genitive model.
Recipient Design
(2014)
Grundlage der Studie zur multimodalen Interaktionsanalyse ist der Vortrag der beiden Autoren auf der Arbeitstagung Gesprächsforschung 2014. Sie haben bei der Überarbeitung für die Publikation die Studie auf die empirische Basis einer Kollektion von 6 Fällen gestellt. Die Ausarbeitung ist deswegen umfangreicher geworden, weil das Vortragsmanuskript zu einer prototypischen, multimodalen Auseinandersetzung mit einem etablierten, verbal basierten Konzept ausgebaut wurde. Solche empirisch basierten, methodologisch orientierten Konzeptreflexionen sind unverzichtbarer Bestandteil der Profilierung des multimodal-interaktionsanalytischen Ansatzes als eigenständiger Zugang der Analyse von Interaktion.
EXMARaLDA
(2014)
Dieser Beitrag stellt das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) und die Datenbank für Gesprochenes Deutsch (DGD) als Instrumente gesprächsanalytischer Arbeit vor. Nach einer allgemeinen Einführung in FOLK und DGD im zweiten Abschnitt werden im dritten Abschnitt die methodischen Beziehungen zwischen Korpuslinguistik und Gesprächsforschung und die Herausforde-rungen, die sich bei der Begegnung dieser beiden Herangehensweisen an authenti-sches Sprachmaterial stellen, kurz skizziert. Der vierte Abschnitt illustriert dann ausgehend vom Beispiel der Formel ich sag mal, wie eine korpus- und datenbankgesteuerte Analyse zur Untersuchung von Gesprächsphänomenen beitragen kann.
"FOLK is the ""Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK)"" (eng.: research and teaching corpus of spoken German). The project has set itself the aim of building a corpus of German conversations which a) covers a broad range of interaction types in private, institutional and public settings, b) is sufficiently large and diverse and of sufficient quality to support different qualitative and quantitative research approaches, c) is transcribed, annotated and made accessible according to current technological standards, and d) is available to the scientific community on a sound legal basis and without unnecessary restrictions of usage. This paper gives an overview of the corpus design, the strategies for acquisition of a diverse range of interaction data, and the corpus construction workflow from recording via transcription an annotation to dissemination."
The Database for Spoken German (Datenbank für Gesprochenes Deutsch, DGD2, http://dgd.ids-mannheim.de) is the central platform for publishing and disseminating spoken language corpora from the Archive of Spoken German (Archiv für Gesprochenes Deutsch, AGD, http://agd.ids-mannheim.de) at the Institute for the German Language in Mannheim. The corpora contained in the DGD2 come from a variety of sources, some of them in-house projects, some of them external projects. Most of the corpora were originally intended either for research into the (dialectal) variation of German or for studies in conversation analysis and related fields. The AGD has taken over the task of permanently archiving these resources and making them available for reuse to the research community. To date, the DGD2 offers access to 19 different corpora, totalling around 9000 speech events, 2500 hours of audio recordings or 8 million transcribed words. This paper gives an overview of the data made available via the DGD2, of the technical basis for its implementation, and of the most important functionalities it offers. The paper concludes with information about the users of the database and future plans for its development.