Refine
Year of publication
- 2021 (25) (remove)
Document Type
- Part of a Book (23)
- Book (1)
- Conference Proceeding (1)
Has Fulltext
- yes (25)
Keywords
- Deutsch (11)
- Korpus <Linguistik> (9)
- Europa (8)
- Kontrastive Linguistik (5)
- Digital Humanities (4)
- Infrastruktur (4)
- Sprachpolitik (4)
- Forschungsdaten (3)
- Kongress (3)
- Kontrastive Grammatik (3)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (23)
- Peer-Review (2)
Das vom BMBF geförderte Verbundprojekt CLARIAH-DE, an dem über 25 Partnerinstitutionen mitwirken, unter ihnen auch das IDS, hat zum Ziel, mit der Entwicklung einer Forschungsinfrastruktur zahlreiche Angebote zur Verfügung zu stellen, die die Bedingungen der Forschungsarbeit mit digitalen Werkzeugen, Diensten sowie umfangreichen Datenbeständen im Bereich der geisteswissenschaftlichen Forschung und benachbarter Disziplinen verbessern. Die in CLARIAH-DE entwickelte Infrastruktur bietet den Forschenden Unterstützung bei der Analyse und Aufbereitung von Sprachdaten für linguistische Untersuchungen in unterschiedlichsten Anwendungskontexten und leistet somit einen Beitrag zur Entwicklung der NFDI.
This paper will address the challenge of creating a knowledge graph from a corpus of historical encyclopedias with a special focus on word sense alignment (WSA) and disambiguation (WSD). More precisely, we examine WSA and WSD approaches based on article similarity to link messy historical data, utilizing Wikipedia as aground-truth component – as the lack of a critical overlap in content paired with the amount of variation between and within the encyclopedias does not allow for choosing a ”baseline” encyclopedia to align the others to. Additionally, we are comparing the disambiguation performance of conservative methods like the Lesk algorithm to more recent approaches, i.e. using language models to disambiguate senses.
Das ZDL-Regionalkorpus umfasst Zeitungsartikel aus Lokal- und Regionalressorts deutschsprachiger Tageszeitungen. Es dient als empirische Grundlage für die lexikografische Beschreibung der diatopischen Variation im Digitalen Wörterbuch der deutschen Sprache (DWDS). Darüber hinaus steht es allen angemeldeten Nutzern der DWDS-Korpusplattform für die Recherche zur Verfügung. Die Abfrage kann auf bestimmte diatopische Areale oder diachrone Zeiträume beschränkt werden. Die Verteilung der Treffer über Areale und Zeiträume lässt sich in verschiedener Form darstellen; dabei werden neben absoluten Trefferzahlen auch normalisierte PPM-Werte ausgegeben.
Vergleichende Graphematik
(2021)
Dieser Aufsatz skizziert Schritte auf dem Weg zu einer vergleichenden Graphematik. Dabei thematisiert er vier Schriftsysteme (des Deutschen, Englischen, Niederländischen, Französischen) und untersucht sechs graphematische Phänomene, unter ihnen Doppelkonsonantenschreibung und Apostroph. Zwar sind die Phänomene in allen vier Schriftsystemen zu finden, aber die Häufigkeit unterscheidet sich sehr; so weist das deutsche Schriftsystem die meisten Doppelkonsonanten auf, das französische die meisten Apostrophe. Es geht aber nicht primär um die Quantität der graphematischen Phänomene, sondern vielmehr um die Verankerung der Graphematik innerhalb der sprachspezifischen grammatischen Systeme. Auf Grundlage dieses Vergleichs werden Parameter zur Beschreibung der Phänomene entwickelt. Dadurch wird dieser Aufsatz zur Werbung für die vergleichende Graphematik.
Grammis ist eine Online-Plattform des Leibniz-Instituts für Deutsche Sprache, die Forschungsergebnisse, Erklärungen und Hintergrundwissen zur deutschen Grammatik präsentiert. Das Angebot zielt einerseits auf linguistische Laien, die sich für grammatische Phänomene interessieren; andererseits auf die Fachöffentlichkeit, indem es aktuelle wissenschaftliche Meilensteine des IDS dokumentiert. Für beide Nutzungsgruppen werden im Beitrag exemplarische Inhalte vorgestellt. Weiterhin sollen erste Ergebnisse einer explorativen Nutzungsstudie sowie jüngere technische Neuerungen vorgestellt werden.
Anhand der geografischen Distribution des hohen vorderen gerundeten Vokalphonems /y/ in Europa wird das Projekt des Phonologischen Atlas Europas (Phon@Europe) vorgestellt. Der Schwerpunkt der Diskussion liegt auf Fällen der möglichen bzw. strittigen Diffusion von /y/ durch Sprachkontakt. Dabei gilt die Aufmerksamkeit auch der Rolle, die das Deutsche bei der Verbreitung von /y/ in Europa gespielt haben könnte. Es werden Vergleiche zu ähnlich gelagerten Fällen in anderen Teilen des Kontinents gezogen. Die Möglichkeit der kontaktunabhängigen Entstehung von /y/ wird ebenfalls in Betracht gezogen. Abschließend werden die Befunde kontaktlinguistisch und areallinguistisch ausgewertet und das Deutsche in der phonologischen Landschaft Europas situiert.
In diesem Beitrag werden Präpositionalobjektsätze – also Sätze, die in der Funktion von präpositionalen Objekten stehen, – aus ausgewählten germanischen und romanischen Sprachen sprachvergleichend betrachtet. Dabei zeigen sich zwei verschiedene Strategien, die Verbindung von Präposition und Satz herzustellen: direkt, indem die Präposition einen Satz selegiert, und indirekt über die Anbindung mit einer komplexen Proform. Erstere Strategie sehen wir im Schwedischen (stellvertretend für die nordgermanischen Sprachen) und auch im Französischen und Italienischen (mit einer coverten Präposition). Im Niederländischen und Deutschen findet sich die zweite Strategie, bei der Sätze mithilfe eines Pronominaladverbs angebunden werden. Eine genauere Analyse dieser beiden germanischen Sprachen zeigt, dass im Deutschen Pronominaladverb und Satz eine Konstituente bilden können, während dies im Niederländischen nicht möglich ist. Alle analysierten Sprachen haben gemeinsam, dass das präpositionale Element (Präposition oder Pronominaladverb) abwesend sein kann oder muss. Dabei lässt sich anhand von Pronominalisierung, Topikalisierung und W-Extraktion zeigen, dass das P-Element syntaktisch präsent als leeres Element (covert) realisiert werden muss, da diese Sätze mit und ohne P-Element Eigenschaften der PO-Sätze haben und mit DO-Sätzen kontrastieren.
Sprachressourcen in digitaler Form liegen für ein immer breiteres Spektrum von Einzelsprachen vor. Linguistisch annotierte Korpora ermöglichen es, gezielt nach linguistischen Mustern auf der Wort-, Phrasen-, und Satzebene zu suchen und in quantitativer und qualitativer Hinsicht auszuwerten. In diesem Beitrag illustriere ich anhand von ausgewählten Beispielen den Mehrwert, den annotierte Textkorpora für die sprachwissenschaftliche Forschung bieten können. Viele der vorgestellten Sprachressourcen werden im Rahmen der CLARIN-Infrastruktur nachhaltig zur Verfügung gestellt. Die Korpora sind entweder durch Suchportale recherchierbar oder werden per Download zur Verfügung gestellt.
Digital research infrastructures can be divided into four categories: large equipment, IT infrastructure, social infrastructure, and information infrastructure. Modern research institutions often employ both IT infrastructure and information infrastructure, such as databases or large-scale research data. In addition, information infrastructure depends to some extent on IT infrastructure. In this paper, we discuss the IT, information, and legal infrastructure issues that research institutions face.
Die Sprache von Lerner/-innen einer Fremdsprache unterscheidet sich auf allen linguistischen Ebenen von der Sprache von Muttersprachler/-innen. Seit einigen Jahrzehnten werden Lernerkorpora gebaut, um Lernersprache quantitativ und qualitativ zu analysieren. Hier argumentieren wir anhand von drei Fallbeispielen (zu Modifikation, Koselektion und rhetorischen Strukturen) für eine linguistisch informierte, tiefe Phänomenmodellierung und Annotation sowie für eine auf das jeweilige Phänomen passende formale und quantitative Modellierung. Dabei diskutieren wir die Abwägung von tiefer, mehrschichtiger Analyse einerseits und notwendigen Datenmengen für bestimmte quantitative Verfahren andererseits und zeigen, dass mittelgroße Korpora (wie die meisten Lernerkorpora) interessante Erkenntnisse ermöglichen, die große, flacher annotierte Korpora so nicht erlauben würden.
„Deutsch in Europa“ findet sich nicht nur in den mehrheitlich deutschsprachigen Ländern in der Mitte Europas, sondern auch in mehreren direkt an diese angrenzenden Gebieten der Nachbarstaaten. Die Situation des Deutschen ist in diesen Grenzräumen jeweils sehr unterschiedlich, etwa hinsichtlich der Kontaktsprachen, aber auch hinsichtlich der rechtlichen Rahmenbedingungen, der kollektiven und individuellen Mehrsprachigkeit sowie der Einstellungen der Sprecherinnen und Sprecher u.v.m. Der Beitrag skizziert zunächst überblicksartig die aktuellen Situationen einiger deutscher Grenzminderheiten. Fokussiert wird sodann die Situation in Ost- Lothringen. Anhand von neu erhobenen Daten eines laufenden Projekts am IDS wird gezeigt, dass die Konstruktion der sprachlichen Identität in diesem spezifischen Kontext für die Sprecherinnen und Sprechern eine besondere Herausforderung darstellt.
Die heutige Stellung des Deutschen in Europa beruht auf vielfältigen
Faktoren: Historische Entwicklungen, politische Rahmenbedingungen oder unterschiedliche Traditionen in den Bildungssystemen der Mitgliedsländer der Europäischen Union kommen dabei ebenso zum Tragen wie das hochaktuelle Thema der Fachkräftezuwanderung. Diese Bestandsaufnahme betrachtet die Hintergründe der Entwicklung der Stellung der deutschen Sprache und zeigt dabei auch Trends und Perspektiven für die Zukunft auf. An diesen setzt das Goethe-Institut als Sprach- und Kulturinstitut der Bundesrepublik Deutschland gemeinsam mit seinen Partnern an, um die Kenntnis und die Stellung der deutschen Sprache in Europa im Rahmen einer gelebten Mehrsprachigkeit gezielt zu fördern.
Dieser Beitrag präsentiert die neue multilinguale Ressource CoMParS (Collection of Multilingual Parallel Sequences). CoMParS versteht sich als eine funktional-semantisch orientierte Datenbank von Parallelsequenzen des Deutschen und anderer europäischer Sprachen, in der alle Daten neben den sprachspezifischen und universellen (im Sinne von Universal Dependencies) morphosyntaktischen Annotationen auch nach sprachübergreifenden funktional-semantischen Informationen auf der neudefinierten Annotationsebene Functional Domains annotiert und auf mehreren Ebenen (auch ebenenübergreifend) miteinander verlinkt sind. CoMParS wird in TEI P5 XML kodiert und sowohl als monolinguale wie auch als multilinguale Sprachressource modelliert.
Die Korpusanalyseplattform KorAP ist von Grund auf sprachenunabhängig konzipiert. Dies gilt sowohl in Bezug auf die Lokalisierung der Benutzeroberfläche als auch hinsichtlich unterschiedlicher Anfragesprachen und der Unterstützung fremdsprachiger Korpora und ihren Annotationen. Diese Eigenschaften dienen im Rahmen der EuReCo Initiative aktuell besonders der Bereitstellung weiterer National- und Referenzkorpora neben DeReKo. EuReCo versucht, Kompetenzen beim Aufbau großer Korpora zu bündeln und durch die Verfügbarmachung vergleichbarer Korpora quantitative Sprachvergleichsforschung zu erleichtern. Hierzu bietet KorAP inzwischen, neben dem Zugang durch die Benutzeroberfläche, einen Web API Client an, der statistische Erhebungen, auch korpusübergreifend, vereinfacht.
Vorwort
(2021)
In verschiedenen europäischen Ländern ist in letzter Zeit in der Soziolinguistik die Frage diskutiert worden, ob sich zwischen der traditionellen Standardsprache und den regionalen bzw. Substandardvarietäten ein neuer Standard („Neo-Standard“) herausgebildet hat; ein Standard, der sich nicht nur strukturell vom alten unterscheidet, sondern sich auch durch ein anderes Prestige auszeichnet als dieser: Er wirkt (im Vergleich) informeller, subjektiver, moderner, kreativer etc.In diesem Beitrag werden einige wesentliche Eigenschaften von Neo Standards diskutiert und ihre Entwicklung als Folge der „Demotisierung“ (Mattheier) der Standardsprache beschrieben. Neben dem potenziellen Neo-Standard in Deutschland werden auch die Entwicklungen in Dänemark, Belgien und Italien diskutiert.
Der Beitrag behandelt das Thema Deutsch in Europa aus der Perspektive der internationalen Germanistik und ihrer Nachhaltigkeit. Ausgehend von der Geschichte des Fachs in Europa wird die Germanistik als ein „Ökosystem“ präsentiert, d. h. als ein dynamischer Komplex bildungsspezifischer Elemente,welcher auch heute – im Zeitalter von Big Data und Real-Time Artificial Intelligence – über die DaF-Vermittlung und die Lehrerausbildung hinaus eine insgesamt wichtige soziale Funktion ausüben kann. Welche Rolle das IDS dabei spielen könnte, wird im Schlussteil skizziert.
Der Beitrag weist auf verschiedene Typen des Erwerbs des Deutschen jenseits des Standardszenarios hin, dem muttersprachlichen Erwerb in einem deutschsprachigen Land. Es werden dann im Detail die Ergebnisse einer Langzeitstudie beschrieben, die Kinder mit russischer und türkischer Familiensprache und dem Deutschen als Zweitsprache vom Kindergartenalter bis in die Grundschule begleitete. Es zeigt sich, dass die typischen Verläufe des früheren mehrsprachigen Spracherwerbs von monolingualen Erwerbsverläufen abweichen können, und dass ein früher L2 Erwerbsbeginn sowie ein reicher und nachhaltiger Input wie explizite Sprachfördermaßnahmen den Erwerb des Deutschen fördern. Im Einzelnen weist die Studie auf die Prädiktoren der früheren Literalität hin.
Geeignete Such- und Visualisierungswerkzeuge, idealiter in Form von Webapplikationen, sind für den benutzerfreundlichen Zugang zu Sprachressourcen von großer Bedeutung. In diesem Beitrag stellen wir die Webapplikationen Rover und TüNDRA vor, die am CLARIN-D Zentrum Tübingen im Rahmen des BMBF-Projekts CLARIN-D entwickelt wurden.
Das Projekt InterCorp startete 2005 in Prag mit dem Ziel ein mehrsprachiges Parallelkorpus für akademische Zwecke zu entwickeln. Prinzipiell ist InterCorp eine Reihe von einsprachigen Korpora mit synchronen Texten verschiedener Genres und stellt somit ein einmaliges Instrument für sowohl kontrastive als auch intrasprachliche Untersuchungen dar. Die meisten Parallelen sind auch lemmatisiert und morpho-syntaktisch annotiert, somit lassen sich auch rasch statistische Daten über die Texte abrufen.
Der Beitrag beschreibt die Motivation und Ziele des Europäischen Referenzkorpus EuReCo, einer offenen Initiative, die darauf abzielt, dynamisch definierbare virtuelle vergleichbare Korpora auf der Grundlage bestehender nationaler, Referenz- oder anderer großer Korpora bereitzustellen und zu verwenden. Angesichts der bekannten Unzulänglichkeiten anderer Arten mehrsprachiger Korpora wie Parallel- bzw. Übersetzungskorpora oder rein webbasierte vergleichbare Korpora, stellt das EuReCo eine einzigartige linguistische Ressource dar, die neue Perspektiven für germanistische und vergleichende wie angewandte Korpuslinguistik, insbesondere im europäischen Kontext, eröffnet.
Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen methodischen Zugängen und Sprachressourcen das zu untersuchen ist. Der ständige Austausch zwischen diesen Sprachen und die politischen Rahmenbedingungen in der Europäischen Union werfen darüber hinaus konkrete sprach- und bildungspolitische Fragen auf.
Der Beitrag geht der Frage nach, welche Akteure die Stellung des Deutschen im heutigen Europa beeinflussen (können). Als Grundlage für die Untersuchung wird die Sprachmanagementtheorie gewählt, die sich mit dem Verhalten verschiedener Akteure gegenüber der Sprache beschäftigt. Diese metasprachlichen Aktivitäten definieren das Schlüsselkonzept Sprachmanagement. Auseinandergehende sprachenpolitische Interessen und Konflikte werden in Abhängigkeit von der Macht des jeweiligen Akteurs gelöst. Es werden konkrete Beispiele analysiert, die sich auf der EU Ebene, der Ebene eines EU-Mitgliedsstaates wie auch in Regionen abspielen.
Die durch die Covid-19-Pandemie bedingte Umstellung der Präsenzlehre auf digitale Lehr- und Lernformate stellte Lehrende und Studierende gleichermaßen vor eine Herausforderung. Innerhalb kürzester Zeit musste die Nutzung von Plattformen und digitalen Tools erlernt und getestet werden. Der Beitrag stellt exemplarisch Dienste und Werkzeuge von CLARIAH-DE vor und erläutert, wie die digitale Forschungsinfrastruktur Lehrende und Studierende auch im Rahmen der digitalen Lehre unterstützen kann.