400 Sprache
Refine
Year of publication
Document Type
- Part of a Book (43)
- Article (33)
- Book (18)
- Conference Proceeding (18)
- Part of Periodical (12)
- Working Paper (5)
- Contribution to a Periodical (2)
- Review (2)
- Doctoral Thesis (1)
- Other (1)
Keywords
- Deutsch (36)
- Korpus <Linguistik> (28)
- Linguistik (13)
- Germanistik (12)
- Corpus linguistics (11)
- Gesprochene Sprache (9)
- Englisch (7)
- Corpus technology (6)
- Deutschland (6)
- Europa (6)
Publicationstate
- Veröffentlichungsversion (63)
- Zweitveröffentlichung (12)
- Postprint (4)
Reviewstate
- Peer-Review (42)
- (Verlags)-Lektorat (33)
- (Verlags-)Lektorat (1)
- Peer Review (1)
- Peer-Revied (1)
- Peer-review (1)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (1)
Publisher
- Institut für Deutsche Sprache (25)
- de Gruyter (8)
- Heidelberg University Publishing (6)
- De Gruyter (4)
- Peter Lang (4)
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- Narr (3)
- Narr Francke Attempto (3)
- Retorika (3)
- Stauffenburg (3)
Die normgerechte Kommasetzung ist im Deutschen deklarativ und sehr elegant von Beatrice Primus (1993, 2007) erfasst worden. Sie bindet Kommas primär an syntaktische Konzepte wie ‚Satzgrenze‘ und ‚Subordination‘. Nun gibt es allerdings ein Komma, das sich nicht ins System fügen will, das aber immer häufiger wird: das Vorfeldkomma wie in Gegen so eine starke Übermacht, konnten die deutschen Truppen nichts mehr ausrichten. Dieser Beleg stammt aus einer rezenten Abiturarbeit. Hier wird – entgegen den geltenden Rechtschreibregeln – das Vorfeld der Sätze mit einem Komma abgetrennt; es handelt sich um systematische Abweichungen von der Norm. Wir können die Faktoren, die ihre Verteilung steuern, empirisch gut erfassen. Weit weniger klar ist, ob diese Beobachtungen theoretische Konsequenzen haben sollten, und wenn ja, welche. Das soll in diesem Beitrag diskutiert werden, neben einigen anderen Problemfällen, die die Empirie der Theorie beschert.
In der wissenschaftlichen Auseinandersetzung spielen derzeit Entwicklungen in den theoretischen und empirischen Erkenntnissen zur Orthographie(entwicklung), zum Schrift- und Orthographieerwerb und zur Orthographiedidaktik sowie aktuelle Entwicklungen im Schreibgebrauch eine zentrale Rolle. Globalisierung und Internationalisierung befördern in der gesprochenen und der geschriebenen Sprache die Aufnahme zahlreicher neuer Fremdwörter, vor allem Entlehnungen aus dem anglo-amerikanischen Sprachraum, in den deutschen Fach- und Allgemeinwortschatz und damit Entwicklungen im Schreibgebrauch. Auch neue digitale Medien begünstigen veränderte, nutzungsorientierte Vermittlungsstrategien orthographischer Inhalte. Und nicht zuletzt stellt die intensiv geführte Debatte über gendersensible Schreibung unter Verwendung von Sonderzeichen (wie Asterisk oder Doppelpunkt im Wortinneren) die Schreibgemeinschaft vor Herausforderungen.
Thema der 59. Jahrestagung des Leibniz-Instituts für Deutsche Sprache war vom 14. bis zum 16. März 2023 erstmals nach mehreren Jahrzehnten wieder die Orthografie des Deutschen, und zwar „in Wissenschaft und Gesellschaft“. Einen unmittelbaren Anlass dafür bildete der bevorstehende Abschluss der siebenjährigen Arbeitsphase des Rats für deutsche Rechtschreibung Ende 2023, dessen Tätigkeit das IDS seit seiner Gründung wissenschaftlich begleitet. Aber auch die Orthografieforschung selbst hat sich seit der Rechtschreibreform im Jahr 1996 in einer Weise entwickelt, dass die Wahl dieses schriftlinguistischen Querschnittsthemas angezeigt erschien.
Oralität ist gegenüber Literalität historisch primär, und der Übergang hin zur Literalität ist sprach- wie kulturwissenschaftlich einschneidend. Unserdeutsch (Rabaul Creole German), eine erst knapp über 100 Jahre junge, originär ausschließlich mündlich verwendete Kreolsprache, befindet sich gegenwärtig an der Schwelle hin zur Verschriftung. Eine Sammlung von rund 180 spontan schriftlich produzierten Äußerungen dieser noch auf allen Ebenen unnormierten Sprache zeigt von den Unserdeutsch-SchreiberInnen intuitiv zugrunde gelegte Graphem-Phonem-Korrespondenzen. Die Schriftbelege lassen dabei Rückschlüsse zu auf graphematische Kontakteinflüsse sowie auf die mentale Repräsentation von Wörtern bei den SprecherInnen. Diese Erkenntnisse sind, neben ihrer sprachtheoretischen Relevanz, vor allem auch für die noch ausstehende Erarbeitung einer Orthographie von Unserdeutsch von Bedeutung.
In der Bund-Länder-Vereinbarung (BLV) zu Aufbau und Förderung einer Nationalen Forschungsdateninfrastruktur (NFDI) (im Folgenden BLV-NFDI) wird in §1 festgehalten, dass mit der Förderung "eine Etablierung und Fortentwicklung eines übergreifenden Forschungsdatenmanagements" und damit eine "Steigerung der Effizienz des gesamten Wissenschaftssystems verfolgt" wird. In der BLV-NFDI werden dazu sieben Ziele vorgegeben, die eine Verfeinerung dieser Hauptziele darstellen. Dieses White Paper formuliert das gemeinsame Verständnis der beteiligten Konsortien für die sieben in der BLV-NFDI vorgegebenen Ziele. Auf der Grundlage dieses Verständnisses hat die Task Force Evaluation und Reporting Vorschläge gemacht, wie das Erreichen der Ziele erfasst, beschrieben und gemessen werden kann.
Der folgende Beitrag befasst sich mit Phänomenen, die sich eher am Rande der festen Wortverbindungen befinden, aber eben dort, wo die (Pseudo-)Freiheit trügerisch ist und für manche Sprecher/Schreiber zum Handicap werden kann. Fremdsprachenlerner, die sich der Grenzen ihrer Freiheit bewusst sind und dann Wörterbücher heranziehen, stoßen nämlich bei der Suche nach Definitionen oder nach dem „passenden Wort" meistens auf Ungenauigkeiten oder Gleichsetzungen, die ihnen den Eindruck einer oft unübersichtlichen, arbiträren oder gar chaotischen Lage vermitteln und ihnen jedenfalls selten aus dem Labyrinth der Synonymie heraushelfen. Ich möchte hier an einigen adjektivischen Beispielen zeigen, wie dieses Labyrinth aussieht und für den Wörterbuchnutzer bald zum Teufelskreis wird, um dann auf einige Parameter der Adjektiv-Nomen-Verbindungen einzugehen. Meine Ausgangshypothese ist, dass im Zeitalter der großen Korpora Wörterbücher sich auch bei der Beschreibung der einzelnen Lexeme unbedingt auf den heutigen konkreten Gebrauch stützen sollen, d.h. dass sowohl die Präferenzen der Wortverbindungen bei der Bedeutungsbeschreibung als auch ihre Usualität bei den angeführten Beispielen zu berücksichtigen sind. Durch die Untersuchung einiger Problemfälle werden abschließend mögliche Auswege aufgezeigt.
Die Gedichte Georg Trakls gelten allgemein als semantisch schwer zugänglich und stellen Gedichtinterpretationen vor einige Herausforderungen. Im Zentrum dieses Aufsatzes steht ein einzelner satzwertiger Vers aus einem Gedicht Trakls. Ziel ist es zu zeigen, wie literaturwissenschaftliche Interpretationen dieses Verses linguistisch rekonstruiert werden können, und zwar auf der Basis von grundlegenden lexikalischen Eigenschaften, Prozessen der Bedeutungsverschiebung, pragmatisch basierten Anreicherungsprozessen, Welt- und literarischem Wissen und insbesondere detaillierten Annahmen zur Argumentstruktur. Die changierende Bedeutung des untersuchten Verses, so eine der Schlussfolgerungen dieses Aufsatzes, basiert dabei neben Uminterpretationen und Bedeutungsanreicherungen insbesondere auf der Amalgamierung verschiedener Argumentstrukturmuster.
The shortening of linguistic expressions naturally involves some sort of correspondence between short forms and (some portion of) the respective full forms. Based mostly on data from English and Hebrew this article explores the hypothesis that such correspondence concerns necessary sameness of symbolic form, referring either to graphemic or to a specific level of phonological representation. That level indicates a degree of abstractness defined by language-specific contrastiveness (i.e. “phonemic”). Reference to written form can be shown to be highly systematic in certain contexts, including cases where full forms consist of multiple stems. Specific asymmetries pertaining to the targeting of material by correspondence (e.g. initial vs. non-initial position) appear to be alike for both types of representation, a claim supported by a study based on a nomenclature strictly confined to writing (chemical element symbols).
Brief
(2022)
Der folgende Beitrag untersucht Briefe aus der Zeitspanne des Nationalsozialismus, die von unterschiedlichen Akteur*innen in unterschiedlichen Beteiligungsrollen verfasst worden sind. Es handelt sich um von Soldaten und ihren Angehörigen verfasste Feldpost-, um von Gegner*innen des Nationalsozialismus geschriebene Haftbriefe sowie um Eingaben an Staats- und Parteiinstanzen, die Teil des institutionellen Briefverkehrs sind. Alle diese Formen des Briefschreibens besitzen eine längere Tradition. Ihre Nutzung während der NS-Zeit ist jedoch durch spezifische Ausprägungen gekennzeichnet, die in den jeweiligen Abschnitten beleuchtet werden.
Kampf
(2022)
In darauf aufbauender, aber auch sich davon differenzierender Art und Weise, findet das Konzept Kampf ebenso im politischen Diskurs des Nationalsozialismus Anwendung. Während im Zweiten Weltkrieg vor allem die Bedeutung von ›Kampf als Gefecht‹ im militärischen Kontext hervorgebracht wurde, sind die Verwendungen von ›Kampf als Bemühung‹, ›Kampf als Engagement‹ bis hin zu ›Kampf als Heroismus‹ (vgl. Klemperer 2018: 13), verknüpft mit ›Kampf als Kontroverse‹, vordergründig für das Verständnis der politischen Bedeutung des Kampfkonzepts im Nationalsozialismus. Im Folgenden werden nach einer einführenden begriffsgeschichtlichen Betrachtung ausgehend von diskursiv realisierten Wortformen der Lexeme Kampf und kämpfen konzeptkonstituierende Gebrauchsweisen für die verschiedenen Akteursklassen NS-Apparat, integrierte Gesellschaft, Ausgeschlossene und Widerstand dargelegt.
Selten hat ein globales Ereignis nicht nur den Alltag sehr vieler Menschen weltweit schlagartig verändert und in einem längeren Zeitraum zu nachhaltigen Änderungen der Lebensumstände geführt, sondern auch direkte Spuren im Wortschatz und der Art und Weise des Kommunizierens hinterlassen, wie dies durch die Coronakrise der Fall war. Die Beiträge in diesem Band zeichnen diese Reflexionen nach und machen die Veränderungen auf Basis unterschiedlichen Materials (z.B. Pressetexte, Social-Media-Quellen, Gespräche) und zu einem breiten Themenspektrum (Arbeit, Schule, Wirtschaft usw.) nachvollziehbar. Ein deutlicher Fokus liegt dabei auf dem lexikalischen Wandel und zahlreichen Neologismen, die rund um die Coronapandemie aufgekommen sind.
Deutsch ins Grundgesetz? Verbot für Fremdwörter? Gendern oder nicht? Deutsch in der EU? Sprachpolitik hat sich in den letzten Jahren als ein lohnendes Politikfeld etabliert. Von den Sprachschlachten im 17. Jahrhundert bis zu aktuellen sprachpolitischen Verschwörungstheorien - dieses Buch analysiert die Auseinandersetzungen zum Thema Sprache und Politik. Es zeigt, welchen hohen Stellenwert das Thema Sprache im Programm der AfD einnimmt. Was steckt dahinter? Und was kann der Vereinnahmung der Sprache für politische Zwecke entgegengesetzt werden? „Auf 160 Seiten setzt Lobin sich vor allem mit derjenigen Variante des „Sprachkampfes“ auseinander, die er treffend als „nationalidentitär“ bezeichnet. Und womöglich das Verdienstvollste an seinem Buch ist die Begründung für diese Auswahl. Kurz zusammengefasst: Zwar gibt es eine Indienstnahme von Sprache und Sprachkritik für identitätspolitische Zwecke sowohl auf der äußersten rechten als auch auf der linken Seite des politischen Spektrums. Aber feministische oder antirassistische „Sprachpolitik“ trägt selbst dann, wenn sie mal ins sprachlich Fragwürdige überschießt, noch den emanzipatorischen Impetus in sich, der prinzipiell auf Gleichberechtigung zielt. Die nationalidentitäre Ideologie mitsamt ihren Forderungen an die Sprache folgt dagegen gerade einem exklusiven, bestimmte gesellschaftliche Gruppen ausschließenden Wegweiser“ (Frankfurter Rundschau)
Who is we? Disambiguating the referents of first person plural pronouns in parliamentary debates
(2021)
This paper investigates the use of first person plural pronouns as a rhetorical device in political speeches. We present an annotation schema for disambiguating pronoun references and use our schema to create an annotated corpus of debates from the German Bundestag. We then use our corpus to learn to automatically resolve pronoun referents in parliamentary debates. We explore the use of data augmentation with weak supervision to further expand our corpus and report preliminary results.
Das vorliegende Themenheft bündelt theoretische, methodologische und empirische Debatten an der Schnittstelle von Zeichen, Zeichensystem, Zeichenmodalität/-materialität und Medium und möchte sie weiterführen. Die Beiträge befassen sich mit Fragen der begrifflichen und empirischen Grenzziehung zwischen Zeichen und Medien und liefern so Impulse für die Erforschung des Wechselspiels der Gegenstandsbereiche Zeichenhaftigkeit, Medialität und Materialität als Manifestation multimodaler Kommunikation. Ziel des Heftes ist es, die theoretischen und empirischen Diskussionen um Multimodalität und Medialität stärker aufeinander zu beziehen.
Ist der Explorator ein Störfaktor? Zu den methodischen Grenzen festgeschriebener Aufnahmedesigns
(2021)
Im vorliegenden Beitrag soll das Störpotenzial des Explorators in festgeschriebenen Aufnahmedesigns näher beleuchtet werden. Dabei soll der Frage nachgegangen werden, wann und unter welchen Bedingungen ein Explorator stört bzw. stören kann, und ob es sich tatsächlich um eine Störung handelt oder ob er nicht vielleicht auch positive Funktionen und Folgen für eine Datenerhebung mit sich bringt.
In the present article we argue that all communication is medial in the sense that every human sign-based interaction is shaped by medial aspects from the outset. We propose a dynamic, semiotic concept of media that focuses on the process-related aspect of mediality, and we test the applicability of this concept using as an example the second presidential debate between Clinton and Trump in 2016. The analysis shows in detail how the sign processing during the debate is continuously shaped by structural aspects of television and specific traits of political communication in television. This includes how the camerawork creates meaning and how the protagonists both use the affordances of this special mediality. Therefore, it is not adequate in our view to separate the technical aspects of the medium, the ‘hardware’, from the processual aspects and the structural conditions of communication. While some aspects of the interaction are directly constituted by the medium, others are more indirectly shaped and influenced by it, especially by its institutional dimension – we understand them as second-order media effects. The whole medial procedure with its specific mediality is a necessary, but not a sufficient condition of meaning-making. We distinguish the medial procedure from the semiotic modes employed, the language games played and the competence of the players involved.
Effiziertes Objekt
(2020)
„Bausteine einer Korpusgrammatik des Deutschen“ ist eine neue Schriftenreihe, die am Leibniz-Institut für Deutsche Sprache in Mannheim (IDS) entsteht. Sie setzt sich zum Ziel, mit korpuslinguistischen Methoden die Vielfalt und Variabilität der deutschen Grammatik in großer Detailschärfe zu erfassen und gleichzeitig für die Validierbarkeit der Ergebnisse zu sorgen. Die erste Ausgabe enthält eine Einführung in die Reihe sowie vier als Kapitel einer neuen Grammatik gestaltete Texte: 1. Grundlegende Aspekte der Wortbildung, 2. Bau von und Umbau zu Adverbien, 3. Starke vs. schwache Flexion aufeinanderfolgender attributiver Adjektive und 4. Reihenfolge attributiver Adjektive. Die Ausgabe ist mit einer interaktiven Datenbank zu attributiven Adjektiven verknüpft.
Einleitung
(2020)
A corpus-based academic grammar of German is an enormous undertaking, especially if it aims at using state-of-the-art methodology while ensuring that its study results are verifiable. The Bausteine-series, which is being developed at the Leibniz Institute for the German Language (IDS), presents individual “building blocks” for such a grammar. In addition to the peer-reviewed texts, the series publishes the results of statistical analyses and, for selected topics, the underlying data sets.
This chapter focuses on the formation of adverbs from a corpuslinguistic perspective, providing an overview of adverb formation patterns in German that includes frequencies and hints to productivity as well as combining quantitative methods and theoretically founded hypotheses to address questions that concern possible grammaticalization paths in domains that are formally marked by prepositional elements or inflectional morphology (in particular, superlative or superlative-derived forms). Within our collection of adverb types from the project corpus, special attention is paid to adverbs built from primary prepositions. The data suggest that generally, such adverb formation involves the saturation of the internal argument slot of the relation-denoting preposition. In morphologically regular formations with the preposition in final position, pronominal forms like da ‘there’, hier ‘here’, wo ‘where’ as well as hin ‘hither’ and her ‘thither’ serve to derive adverbs. On the other hand, morphologically irregular formations with the preposition – in particular: zu ‘to’ or vor ‘before, in front of’ – in initial posi-tion show traits of syntactic origin such as (remnants of) inflectional morphology. The pertaining adverb type dominantly saturates the internal argument slot by means of universal quantification that is part and parcel as well of the derivation of superlatives and demonstrably fuels the productivity of the pertaining formation pattern.
This chapter begins with a sketch of the specifics of our approach, an overview of the contents of the chapters on word formation and some methodological notes. It then discusses the general characteristics of word formations and of their overall inventory, comparing word formations to primary words. Furthermore, the chapter explores the relative frequencies of word formations in different vocabulary areas and traces the word formation profiles of individual parts of speech. Finally, it compiles the characteristic word formation rules for different parts of speech.
Dieses Büchlein ist die zweite Auflage meiner 1959/60 geschriebenen und 1961 erschienenen Schrift „Sprachliche Bildung in der höheren Schule“. Der damalige Titel war gewählt worden im Blick auf eine geplante Schriftenreihe zum Gymnasialunterricht, die auch meine Arbeit einbeziehen sollte. Da die Schriftenreihe dann nicht zustande kam, scheint es mir richtig, jetzt wieder auf den ursprünglichen, einfacheren Titel zurückzugreifen.
Der Text konnte im wesentlichen beibehalten werden, nur einige Einzelheiten habe ich auf Grund der seitherigen Erfahrungen geändert. Die summarischen Literaturangaben, die im Vorwort gegeben waren, habe ich nun an den Schluß gestellt (S. 120-121); doch erstreben diese Hinweise, dem praktischen Zweck des Büchleins entsprechend, keinerlei Vollständigkeit, sondern wollen nur einige Möglichkeiten zur Vertiefung und zur kritischen Überprüfung des hier Gegebenen nennen. Als Anhang sind die „Hamburger Empfehlungen zur Sprachlehre in der Volksschule“ abgedruckt, die 1961-1963 erarbeitet wurden; sie mögen zeigen, wie das in diesem Büchlein für die Grundschule Skizzierte von einem breiteren Kreis von Fachleuten aufgenommen wurde.
Ich danke allen Freunden und Fachgenossen, die mir bei der Ausarbeitung der ersten Auflage geholfen haben, vor allem durch freundliche Überprüfung der lateinischen, französischen und englischen Beispiele. Ebenso danke ich allen kritischen Lesern, insbesondere denen, die die gezeigten Möglichkeiten ausprobiert und darüber berichtet haben. Das Ganze ist ja keine ausgeführte Methodik, sondern nur eine Skizze, die dem Lehrer helfen soll, sich der heute gegebenen sprachwissenschaftlichen Möglichkeiten bei seiner täglichen Arbeit mit möglichst viel Erfolg zu bedienen.
The present article shows an experimental subject investigation on elements of video telephony in relation to experiencing and feeling connectedness and intimacy within private interpersonal communication. Particular interests are questions about possible relationships between image detail, angle of view or perspective as well as image format or the foreign and personal perception of the communicators. Central to this is the question of whether the practices and interactions of users in dealing with communication technology can be used to derive possible conclusions on negotiation measures or even adaptation services. The obtained results are presented on the basis of an introductory theoretical discussion. It is followed by a summary and analysis as well as an outlook on the further use and significance of the results.
This thesis investigates temporal and aspectual reference in the typologically unrelated African languages Hausa (Chadic, Afro–Asiatic) and Medumba (Grassfields Bantu).
It argues that Hausa is a genuinely tenseless language and compares the interpretation of temporally unmarked sentences in Hausa to that of morphologically tenseless sentences in Medumba, where tense marking is optional and graded.
The empirical behavior of the optional temporal morphemes in Medumba motivates an analysis as existential quantifiers over times and thus provides new evidence suggesting that languages vary in whether their (past) tense is pronominal or quantificational (see also Sharvit 2014).
The thesis proposes for both Hausa and Medumba that the alleged future tense marker is a modal element that obligatorily combines with a prospective future shifter (which is covert in Medumba). Cross-linguistic variation in whether or not a future marker is compatible with non-future interpretation is proposed to be predictable from the aspectual architecture of the given language.
Der folgende Beitrag bietet einen typologischen Überblick über helfende Berufe bzw. helfende Interaktionen. Die helfenden Elemente dieser professionellen Interaktionen - die diskursive Konstitution und Vermittlung von Wissen sowie die emotionale (Unter-)Stützung - realisieren sich in und durch das spezifische Gespräch zwischen der Hilfe suchenden und der Hilfe gebenden Person und werden gleichzeitig durch die besondere Beziehung zwischen den Beteiligten ermöglicht und getragen. Während Beziehungsgestaltung und Generierung sowie Vermittlung von Wissen zur Lösung des Anliegens bzw. des Problems des/der Hilfesuchenden dialogische Kernaufgaben helfender Interaktion sui generis darstellen, können einzelne Typen helfender Interaktion entlang der Beziehungsdimension (mehr oder weniger patienten- bzw. klientenzentriert bzw. mehr oder weniger expertenzentriert) und der Wissensdimension (faktisches Erkenntniswissen vs. subjektives Erfahrungswissen) und der daraus resultierenden Handlungsstrukturen differenziert werden. Im Fokus des Beitrags steht dabei ein generisch-gegenstandsbezogener Überblick bezogen auf die Handlungstypik und die Wissensbezüge relevanter professionell-helfender Interaktionstypen (Beratung, Arzt-Patient-Gespräch, Psychotherapie, Supervision und Coaching), nicht aber ein Überblick über diskursanalytische Forschung zu den verschiedenen Beratungsformaten.
Wissen im Gespräch
(2018)
Dieser Artikel gibt einen Überblick darüber, wie grundlegend Wissen als Voraussetzung, Gegenstand und Produkt von Verständigungsprozessen für die Organisation von Gesprächen ist. Zunächst wird ein kognitivistischer Zugang zu Wissen mit einem sozialkonstruktivistischen kontrastiert. Es werden zum einen kommunikative Gattungen, die auf die Kommunikation von Wissen spezialisiert sind, dargestellt; zum anderen wird gezeigt, wie Wissen auch dann die Gestaltung der Interaktion bestimmt, wenn der primäre Gesprächszweck nicht in Wissensvermittlung besteht. Vier Dimensionen werden angesprochen: a) Das mit dem Adressaten geteilte Wissen (common ground) ist Grundlage des Adressatenzuschnitts von Äußerungen (recipient design); b) geteiltes Wissen wird in Verständigungsprozessen konstituiert; c) der relative epistemische Status der Gesprächspartner zueinander wird durch Praktiken des epistemic stance-taking verdeutlicht und bestimmt selbst die Interpretation von Äußerungsformaten; d) epistemischer Status, soziale Identität und Beziehungskonstitution sind eng miteinander durch moralische Anspruchs- und Erwartungsstrukturen verknüpft.
Mit dem "Handbuch der deutschen Sprachminderheiten in Übersee" liegt nun ein komplementärer Band zum "Handbuch der deutschen Sprachminderheiten in Mittel- und Osteuropa" vor. Es bietet einen konzentrierten Überblick über die Situation der deutschsprachigen Minderheiten außerhalb Europas. Acht Länderartikel (USA, Texas, Südamerika, die Mennoniten, Namibia, Südafrika, Australien, ehemalige Kolonialgebiete in der Südsee) liefern ausführliche Informationen über die historischen Entwicklungen der jeweiligen Sprachinseln, über die politische und rechtliche Lage der Minderheiten und ihre demographische Situation. Dabei wird für jedes Land eine Dokumentation der Kompetenz- und Sprachgebrauchssituation, eine Beschreibung und Analyse der soziolinguistischen Situation mit ihren je spezifischen Standard-Substandard-Verteilungen und eine Untersuchung der Spracheinstellungen der Sprecher geboten.
Das Handbuch Europäische Sprachkritik Online liefert eine vergleichende Perspektive auf Sprachkritik in europäischen Sprachkulturen (im Speziellen auf die Sprachkritik im Deutschen, Englischen, Französischen, Italienischen und Kroatischen). In dem Handbuch werden zentrale Konzepte der Sprachkritik deskriptiv behandelt. Das Ziel ist demnach, eine Konzeptgeschichte der europäischen Sprachkritik zu präsentieren. Zum einen liefert das Handbuch einen spezifischen Blick auf die jeweiligen Sprachkulturen. Zum anderen werden diese vergleichend in den Blick genommen. Das multilinguale Handbuch erscheint periodisch in Bänden. Das Handbuch umfasst einzelsprachliche Artikel und sprachübergreifende Vergleichsartikel. Alle Artikel sind in deutscher Sprache zu lesen. Die einzelsprachlichen Artikel, die die Sprachkritik im Englischen, Französischen, Italienischen und Kroatischen beleuchten, sind in der deutschen Sprache und in der Sprache, auf die sich der Artikel bezieht, zu lesen (also in deutscher/englischer, deutscher/französischer, deutscher/italienischer oder deutscher/kroatischer Sprache).
Konzepte des Authentischen
(2018)
Das Handbuch Europäische Sprachkritik Online liefert eine vergleichende Perspektive auf Sprachkritik in europäischen Sprachkulturen (im Speziellen auf die Sprachkritik im Deutschen, Englischen, Französischen, Italienischen und Kroatischen). In dem Handbuch werden zentrale Konzepte der Sprachkritik deskriptiv behandelt. Das Ziel ist demnach, eine Konzeptgeschichte der europäischen Sprachkritik zu präsentieren. Zum einen liefert das Handbuch einen spezifischen Blick auf die jeweiligen Sprachkulturen. Zum anderen werden diese vergleichend in den Blick genommen. Das multilinguale Handbuch erscheint periodisch in Bänden.
Wir setzen mit diesem Text unsere gemeinsamen Analysen des Zusammenhangs von Gottesdienst und Kirchenraum fort. Methodologisch entwickeln wir mit der sozial-räumlichen Positionierung ein Konzept, bei dem Interaktionsarchitektur-, Sozialtopographie- und Interaktionsraumanalyse zusammenkommen. Es handelt sich um einen ersten systematischen Versuch, fallbasiert das Konzept "Positionierung" zu entmetaphorisieren und es im engsten Wortsinne erstmalig und primär im Raum zu verankern. Das zentrale Argument für die Ent-Metaphorisierung des Konzeptes besteht in der Tatsache, dass bereits lange bevor das erste Wort gesprochen wird, Personen im institutionellen Funktionsraum (hier Kirche) durch die Einnahme bestimmter Positionen soziale Ansprüche stellen und ihre Präsenz sozial aufladen. Es ist zudem empirisch evident, dass in dem von uns analysierten Fall die Beteiligten durch ihr Positionierungsverhalten (und zwar ausschließlich darüber!) neben der gemeinsamen verbalen Bearbeitung thematisch-pragmatischer Relevanzen jeweils eigene und durchaus konkurrenzielle Ziele auf der "Beziehungsebene" verfolgen.
Researchers interested in the sounds of speech or the physical gestures of Speakers make use of audio and video recordings in their work. Annotating these recordings presents a different set of requirements to the annotation of text. Special purpose tools have been developed to display video and audio Signals and to allow the creation of time-aligned annotations. This chapter reviews the most widely used of these tools for both manual and automatic generation of annotations on multimodal data.
The paper reviews the results of work done in the context of TEI-Lex0, a joint ENeL / DARIAH / PARTHENOS initiative aimed at formulating guidelines for the encoding of retrodigitized dictionaries by streamlining and simplifying the recommendations of the “Print Dictionaries” chapter of the TEI Guidelines. TEI-Lex0 work is performed by teams concentrating on each of the main components of dictionary entries. The work presented here concerns proposals for constraining TEI-based encoding of orthographic, phonetic, and grammatical information on written and spoken forms of the lemma (headword), including auxiliary inflected forms. We also adduce examples of handling various types of orthographic and phonetic variants, as well as examples of handling the representation of inflectional paradigms, which have received less attention in the TEI Guidelines but which are nonetheless essential for properly exposing data content to the various uses that digitized lexica may have.
Vorwort
(2017)
Bis heute und weltweit genießt der „Mechanismus der menschlichen Sprache“ des Wolfgang von Kempelen unter Kennern einen beinahe legendären Ruf. In Methodik und Argumentation zählte dieses Buch seinerzeit zur wissenschaftlichen Avantgarde der erst im Entstehen begriffenen Phonetik. Heute jedoch ist seine Rezeption mit erheblichen Hürden verbunden: Insbesondere seine altertümliche Sprache und die Frakturschrift behindern eine intensive Auseinandersetzung. Zudem Fehlte bislang eine englische Übersetzung.
Bis heute und weltweit genießt der „Mechanismus der menschlichen Sprache“ des Wolfgang von Kempelen unter Kennern einen beinahe legendären Ruf. In Methodik und Argumentation zählte dieses Buch seinerzeit zur wissenschaftlichen Avantgarde der erst im Entstehen begriffenen Phonetik. Heute jedoch ist seine Rezeption mit erheblichen Hürden verbunden: Insbesondere seine altertümliche Sprache und die Frakturschrift behindern eine intensive Auseinandersetzung. Zudem fehlte bislang eine englische Übersetzung.
The German Historical Institute Washington (GHI) is in the development phase of German History Digital (GH-D), a transatlantic digital initiative to meet the scholarly needs of historians and their students facing new historiographical and technological challenges. In the proposed paper we will discuss the research goals, methodology, prototyping, and development strategy of GH-D as infrastructure to facilitate transnational historical knowledge co-creation for the large community of researchers and students already relying on digital resources of the GHI and for the growing constituency of citizen scholars.
Our paper describes an experiment aimed to assessment of lexical coverage in web corpora in comparison with the traditional ones for two closely related Slavic languages from the lexicographers’ perspective. The preliminary results show that web corpora should not be considered ― inferior, but rather ― different.
Contents:
1. Andreas Dittrich: Intra-connecting a small exemplary literary corpus with semantic web technologies for exploratory literary studies, S. 1
2. John Kirk, Anna Čermáková: From ICE to ICC: The new International Comparable Corpus, S. 7
3. Dawn Knight, Tess Fitzpatrick, Steve Morris, Jeremy Evas, Paul Rayson, Irena Spasic, Mark Stonelake, Enlli Môn Thomas, Steven Neale, Jennifer Needs, Scott Piao, Mair Rees, Gareth Watkins, Laurence Anthony, Thomas Michael Cobb, Margaret Deuchar, Kevin Donnelly, Michael McCarthy, Kevin Scannell: Creating CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh), S. 13
4. Marc Kupietz, Andreas Witt, Piotr Bański, Dan Tufiş, Dan Cristea, Tamás Váradi: EuReCo - Joining Forces for a European Reference Corpus as a sustainable base for cross-linguistic research, S. 15
5. Harald Lüngen, Marc Kupietz: CMC Corpora in DeReKo, S. 20
6. David McClure, Mark Algee-Hewitt, Douris Steele, Erik Fredner, Hannah Walser: Organizing corpora at the Stanford Literary Lab, S. 25
7. Radoslav Rábara, Pavel Rychlý ,Ondřej Herman: Accelerating corpus search using multiple cores, S. 30
8. John Vidler, Stephen Wattam: Keeping Properties with the Data: CL-MetaHeaders – An Open Specification, S. 35
9. Vladimir Benko: Are Web Corpora Inferior? The Case of Czech and Slovak, S. 43
10. Edyta Jurkiewicz-Rohrbacher, Zrinka Kolaković, Björn Hansen: Web Corpora – the best possible solution for tracking phenomena in underresourced languages: clitics in Bosnian, Croatian and Serbian, S. 49
11. Vít Suchomel: Removing Spam from Web Corpora Through Supervised Learning Using FastText, S. 56
Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be filtered. This study briefly discusses the impact of web spam on corpus usability and emphasizes the importance of removing computer generated text from web corpora.
The paper also presents a keyword comparison of an unfiltered corpus with the same collection of texts cleaned by a supervised classifier trained using FastText. The classifier was able to recognize 71% of web spam documents similar to the training set but lacked both precision and recall when applied to short texts from another data set.
Complex linguistic phenomena, such as Clitic Climbing in Bosnian, Croatian and Serbian, are often described intuitively, only from the perspective of the main tendency. In this paper, we argue that web corpora currently offer the best source of empirical material for studying Clitic Climbing in BCS. They thus allow the most accurate description of this phenomenon, as less frequent constructions can be tracked only in big, well-annotated data sources. We compare the properties of web corpora for BCS with traditional sources and give examples of studies on CC based on web corpora. Furthermore, we discuss problems related to web corpora and suggest some improvements for the future.
CMC Corpora in DeReKo
(2017)
We introduce three types of corpora of computer-mediated communication that have recently been compiled at the Institute for the German Language or curated from an external project and included in DeReKo, the German Reference Corpus, namely Wikipedia (discussion) corpora, the Usenet news corpus, and the Dortmund Chat Corpus. The data and corpora have been converted to I5, the TEI customization to represent texts in DeReKo, and are researchable via the web-based IDS corpus research interfaces and in the case of Wikipedia and chat also downloadable from the IDS repository and download server, respectively.
Creating CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes - The National Corpus of Contemporary Welsh)
(2017)
CorCenCC is an interdisciplinary and multiinstitutional project that is creating a large-scale, open-source corpus of contemporary Welsh. CorCenCC will be the first ever large-scale corpus to represent spoken, written and electronicallymediated Welsh (compiling an initial data set of 10 million Welsh words), with a functional design informed, from the outset, by representatives of all anticipated academic and community user groups.
Corpus researchers, along with many other disciplines in science are being put under continual pressure to show accountability and reproducibility in their work. This is unsurprisingly difficult when the researcher is faced with a wide array of methods and tools through which to do their work; simply tracking the operations done can be problematic, especially when toolchains are often configured by the developers, but left largely as a black box to the user. Here we present a scheme for encoding this ‘meta data’ inside the corpus files themselves in a structured data format, along with a proof-of-concept tool to record the operations performed on a file.
The Manatee corpus management system on which the Sketch Engine is built is efficient, but unable to harness the power of today’s multiprocessor machines. We describe a new, compatible implementation of Manatee which we develop in the Go language and report on the performance gains that we obtained.
This article describes a series of ongoing efforts at the Stanford Literary Lab to manage a large collection of literary corpora (~40 billion words). This work is marked by a tension between two competing requirements – the corpora need to be merged together into higher-order collections that can be analyzed as units; but, at the same time, it’s also necessary to preserve granular access to the original metadata and relational organization of each individual corpus. We describe a set of data management practices that try to accommodate both of these requirements – Apache Spark is used to index data as Parquet tables on an HPC cluster at Stanford. Crucially, the approach distinguishes between what we call “canonical” and “combined” corpora, a variation on the well-established notion of a “virtual corpus” (Kupietz et al., 2014; Jakubíek et al., 2014; van Uytvanck, 2010).
This paper outlines the broad research context and rationale for a new international comparable corpus (ICC). The ICC is to be largely modelled on the text categories and their quantities the International Corpus of English with only a few changes. The corpus will initially begin with nine European languages but others may join in due course. The paper reports on those and other agreements made at the inaugural planning meeting in Prague on 22-23 June 2017. It also sets out the project’s goals for its first two years.
Many (modernist) works of literature can be understood by their associativeness, be it constructed or “free”. This network-like character of (modernist) literature has often been addressed by terms like “free association”, connotation”, “context” or “intertext”. This paper proposes an experimental and exemplary approach to intraconnect a literary corpus of the Austrian writer Ilse Aichinger with semantic web-technologies to enable interactive explorations of word-associations.
Some 25 years ago, a large-scale repatriation of Russian Germans began. As a result, more than 2,5 million people that grew up in the USSR, Russia, or other post-Soviet states, became German citizens who had native or near-native command of the Russian language. The uncomfortable differences they exhibited in comparison to those who were supposed to accept them as equals, yet failed to do so, compelled them to search for self-designations that would accommodate their new identity and to bond together to form a new minority. The authors examine the attempts of Soviet/Russian Germans to redefine their ethnic identity in terms of not just blood but also language and culture, focusing on two particular cases: the use of the name Rusak in the internet forums of the repatriated immigrants; and the linguistic-cultural practices of the older generation of immigrants.
Einleitung
(2014)
Journal for language technology and computational linguistics. Corpus linguistic software tools
(2016)
With the growing availability and importance of (large) corpora in all fields of linguistics, the role of software tools is gradually moving from useful, possibly intelligent informationtechnological “helpers” towards scientific instruments that are as integral parts of the research process as data, methodology and interpretations. Both aspects are present in this special issue of JLCL on corpus linguistic software tools.
In the first volume of Corpus Linguistics and Linguistic Theory, Gries (2005. Null-hypothesis significance testing of word frequencies: A follow-up on Kilgarriff. Corpus Linguistics and Linguistic Theory 1(2). doi:10.1515/ cllt.2005.1.2.277. http://www.degruyter.com/view/j/cllt.2005.1.issue-2/cllt.2005. 1.2.277/cllt.2005.1.2.277.xml: 285) asked whether corpus linguists should abandon null-hypothesis significance testing. In this paper, I want to revive this discussion by defending the argument that the assumptions that allow inferences about a given population – in this case about the studied languages – based on results observed in a sample – in this case a collection of naturally occurring language data – are not fulfilled. As a consequence, corpus linguists should indeed abandon null-hypothesis significance testing.
Oscailt/Opening
(2011)
In Deutschland gibt es Anzeichen für ein zunehmendes Interesse an der eigenen Sprache. Dennoch ergeben sich hier wie in anderen europäischen Ländern mit der kommunikativen Internationalisierung Probleme für die weitere Entwicklung der Hochsprachen, die für die kulturelle Vielfalt des Kontinents konstitutiv sind. Die steigende Tendenz, Englisch als einzige internationale Verkehrssprache und auch national als Fachsprache in mehreren Domänen zu verwenden, wird verstärkt durch einen Fremdsprachenunterricht, der in Deutschland wie in anderen Ländern Englisch zu Lasten anderer Sprachen bevorzugt. Dieser Entwicklung sucht die Europäische Union zu begegnen, indem sie das Ziel M + 2 Sprachen (Muttersprache plus zwei andere Sprachen) für alle Europäer propagiert. Dieses Programm wird auch von der Europäischen Föderation nationaler Sprachinstitutionen (EFNIL) unterstützt, das Netzwerke der zentralen Spracheinrichtungen der EU- Staaten, das sich für die Erhaltung und Weiterentwicklung der europäischen Sprachenvielfalt und die Mehrsprachigkeit der Europäer einsetzt. Für dieses Ziel sind aber Einsicht und Interesse bei vielen Deutschen noch zu wecken oder zu verstärken.
Vorwort
(2003)
Sound units play a pivotal role in cognitive models of auditory comprehension. The general consensus is that during perception listeners break down speech into auditory words and subsequently phones. Indeed, cognitive speech recognition is typically taken to be computationally intractable without phones. Here we present a computational model trained on 20 hours of conversational speech that recognizes word meanings within the range of human performance (model 25%, native speakers 20–44%), without making use of phone or word form representations. Our model also generates successfully predictions about the speed and accuracy of human auditory comprehension. At the heart of the model is a ‘wide’ yet sparse two-layer artificial neural network with some hundred thousand input units representing summaries of changes in acoustic frequency bands, and proxies for lexical meanings as output units. We believe that our model holds promise for resolving longstanding theoretical problems surrounding the notion of the phone in linguistic theory.
Languages employ different strategies to transmit structural and grammatical information. While, for example, grammatical dependency relationships in sentences are mainly conveyed by the ordering of the words for languages like Mandarin Chinese, or Vietnamese, the word ordering is much less restricted for languages such as Inupiatun or Quechua, as these languages (also) use the internal structure of words (e.g. inflectional morphology) to mark grammatical relationships in a sentence. Based on a quantitative analysis of more than 1,500 unique translations of different books of the Bible in almost 1,200 different languages that are spoken as a native language by approximately 6 billion people (more than 80% of the world population), we present large-scale evidence for a statistical trade-off between the amount of information conveyed by the ordering of words and the amount of information conveyed by internal word structure: languages that rely more strongly on word order information tend to rely less on word structure information and vice versa. Or put differently, if less information is carried within the word, more information has to be spread among words in order to communicate successfully. In addition, we find that–despite differences in the way information is expressed–there is also evidence for a trade-off between different books of the biblical canon that recurs with little variation across languages: the more informative the word order of the book, the less informative its word structure and vice versa. We argue that this might suggest that, on the one hand, languages encode information in very different (but efficient) ways. On the other hand, content-related and stylistic features are statistically encoded in very similar ways.
Para sus amigos y colaboradores, Carlos Buján representa el placer de la lectura, la curiosidad intelectual, la apertura hacia todas las ramas del saber, la proximidad de la palabra hablada en un mundo de comunicaciones virtuales o la memoria viva de la universidad. Unos reconocen en él al maestro que supo estimular su interés por la filologÍa unido a la exigencia del trabajo bien hecho; otros lo reconocen como guía en sus carreras universitarias y el personaje fundamental para madurar académicamente. Los setenta años de Carlos constituyen una magnífica ocasión para ofrecerle este homenaje escrito, una Festschrift en la mejor tradición germánica, a la que han contribuido algunos de sus amigos, colegas y discípulos. La variedad de ámbitos de trabajo, edades y localizaciones geográficas de sus autores refleja la facilidad de Carlos Buján por transitar con personas de distintas disciplinas, especialidades, nacionalidades y situaciones personales o académicas. Con todo, la mayoria de los trabajos aquí reunidos pertenecen al área de filología alemana, en la que Carlos ha destacado tanto por su capacidad de orientar a jóvenes investigadores y docentes en ciernes como por su contribución, desde Santiago, a la consolidación y profesionalización de una germanística española.
In recent years, formal semantic research on the meaning of tense and aspect has benefited from a number of studies investigating languages with graded tense systems. This paper contributes a first sketch of the temporal marking system of Awing (Grassfields Bantu), focusing on two varieties of remote past and remote future. We argue that the data support a "symmetric" analysis of past and future tense in Awing. In our specific proposal, Awing temporal remoteness markers are uniformly analyzed as quantificational tense operators, and both the past and the future paradigm include a form that prevents contextual restriction of this temporal quantifier.
Die Gründerjahre des IDS
(2007)
Linguistic query systems are special purpose IR applications. We present a novel state-of-the-art approach for the efficient exploitation of very large linguistic corpora, combining the advantages of relational database management systems (RDBMS) with the functional MapReduce programming model. Our implementation uses the German DEREKO reference corpus with multi-layer linguistic annotations and several types of text-specific metadata, but the proposed strategy is language-independent and adaptable to large-scale multilingual corpora.
Grammatische Strukturen verbinden Systeme des Denkens und Systeme des Sprechens und Zeigens, deren jeweilige Bedingungen kaum zueinander zu passen scheinen. Der Reparaturansatz betrachtet den regulären Umgang mit Übersetzungsproblemen innerhalb des grammatischen Systems und an seinen Schnittstellen als konstitutiv für Expressivität und Ökonomie der Sprache. Reparaturen sind produktive Wiedergutmachungs- und Anpassungsmechanismen, die linguistische Phänomene als Reflex der Kompensation für derivationelle oder interpretative Schäden erklären.
Joachim Telle zum Gedenken
(2014)