Refine
Year of publication
- 2021 (25) (remove)
Document Type
- Part of a Book (23)
- Book (1)
- Conference Proceeding (1)
Has Fulltext
- yes (25)
Keywords
- Deutsch (11)
- Korpus <Linguistik> (9)
- Europa (8)
- Kontrastive Linguistik (5)
- Digital Humanities (4)
- Infrastruktur (4)
- Sprachpolitik (4)
- Forschungsdaten (3)
- Kongress (3)
- Kontrastive Grammatik (3)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (23)
- Peer-Review (2)
Das vom BMBF geförderte Verbundprojekt CLARIAH-DE, an dem über 25 Partnerinstitutionen mitwirken, unter ihnen auch das IDS, hat zum Ziel, mit der Entwicklung einer Forschungsinfrastruktur zahlreiche Angebote zur Verfügung zu stellen, die die Bedingungen der Forschungsarbeit mit digitalen Werkzeugen, Diensten sowie umfangreichen Datenbeständen im Bereich der geisteswissenschaftlichen Forschung und benachbarter Disziplinen verbessern. Die in CLARIAH-DE entwickelte Infrastruktur bietet den Forschenden Unterstützung bei der Analyse und Aufbereitung von Sprachdaten für linguistische Untersuchungen in unterschiedlichsten Anwendungskontexten und leistet somit einen Beitrag zur Entwicklung der NFDI.
This paper will address the challenge of creating a knowledge graph from a corpus of historical encyclopedias with a special focus on word sense alignment (WSA) and disambiguation (WSD). More precisely, we examine WSA and WSD approaches based on article similarity to link messy historical data, utilizing Wikipedia as aground-truth component – as the lack of a critical overlap in content paired with the amount of variation between and within the encyclopedias does not allow for choosing a ”baseline” encyclopedia to align the others to. Additionally, we are comparing the disambiguation performance of conservative methods like the Lesk algorithm to more recent approaches, i.e. using language models to disambiguate senses.
Das ZDL-Regionalkorpus umfasst Zeitungsartikel aus Lokal- und Regionalressorts deutschsprachiger Tageszeitungen. Es dient als empirische Grundlage für die lexikografische Beschreibung der diatopischen Variation im Digitalen Wörterbuch der deutschen Sprache (DWDS). Darüber hinaus steht es allen angemeldeten Nutzern der DWDS-Korpusplattform für die Recherche zur Verfügung. Die Abfrage kann auf bestimmte diatopische Areale oder diachrone Zeiträume beschränkt werden. Die Verteilung der Treffer über Areale und Zeiträume lässt sich in verschiedener Form darstellen; dabei werden neben absoluten Trefferzahlen auch normalisierte PPM-Werte ausgegeben.
Vergleichende Graphematik
(2021)
Dieser Aufsatz skizziert Schritte auf dem Weg zu einer vergleichenden Graphematik. Dabei thematisiert er vier Schriftsysteme (des Deutschen, Englischen, Niederländischen, Französischen) und untersucht sechs graphematische Phänomene, unter ihnen Doppelkonsonantenschreibung und Apostroph. Zwar sind die Phänomene in allen vier Schriftsystemen zu finden, aber die Häufigkeit unterscheidet sich sehr; so weist das deutsche Schriftsystem die meisten Doppelkonsonanten auf, das französische die meisten Apostrophe. Es geht aber nicht primär um die Quantität der graphematischen Phänomene, sondern vielmehr um die Verankerung der Graphematik innerhalb der sprachspezifischen grammatischen Systeme. Auf Grundlage dieses Vergleichs werden Parameter zur Beschreibung der Phänomene entwickelt. Dadurch wird dieser Aufsatz zur Werbung für die vergleichende Graphematik.
Grammis ist eine Online-Plattform des Leibniz-Instituts für Deutsche Sprache, die Forschungsergebnisse, Erklärungen und Hintergrundwissen zur deutschen Grammatik präsentiert. Das Angebot zielt einerseits auf linguistische Laien, die sich für grammatische Phänomene interessieren; andererseits auf die Fachöffentlichkeit, indem es aktuelle wissenschaftliche Meilensteine des IDS dokumentiert. Für beide Nutzungsgruppen werden im Beitrag exemplarische Inhalte vorgestellt. Weiterhin sollen erste Ergebnisse einer explorativen Nutzungsstudie sowie jüngere technische Neuerungen vorgestellt werden.
Anhand der geografischen Distribution des hohen vorderen gerundeten Vokalphonems /y/ in Europa wird das Projekt des Phonologischen Atlas Europas (Phon@Europe) vorgestellt. Der Schwerpunkt der Diskussion liegt auf Fällen der möglichen bzw. strittigen Diffusion von /y/ durch Sprachkontakt. Dabei gilt die Aufmerksamkeit auch der Rolle, die das Deutsche bei der Verbreitung von /y/ in Europa gespielt haben könnte. Es werden Vergleiche zu ähnlich gelagerten Fällen in anderen Teilen des Kontinents gezogen. Die Möglichkeit der kontaktunabhängigen Entstehung von /y/ wird ebenfalls in Betracht gezogen. Abschließend werden die Befunde kontaktlinguistisch und areallinguistisch ausgewertet und das Deutsche in der phonologischen Landschaft Europas situiert.
In diesem Beitrag werden Präpositionalobjektsätze – also Sätze, die in der Funktion von präpositionalen Objekten stehen, – aus ausgewählten germanischen und romanischen Sprachen sprachvergleichend betrachtet. Dabei zeigen sich zwei verschiedene Strategien, die Verbindung von Präposition und Satz herzustellen: direkt, indem die Präposition einen Satz selegiert, und indirekt über die Anbindung mit einer komplexen Proform. Erstere Strategie sehen wir im Schwedischen (stellvertretend für die nordgermanischen Sprachen) und auch im Französischen und Italienischen (mit einer coverten Präposition). Im Niederländischen und Deutschen findet sich die zweite Strategie, bei der Sätze mithilfe eines Pronominaladverbs angebunden werden. Eine genauere Analyse dieser beiden germanischen Sprachen zeigt, dass im Deutschen Pronominaladverb und Satz eine Konstituente bilden können, während dies im Niederländischen nicht möglich ist. Alle analysierten Sprachen haben gemeinsam, dass das präpositionale Element (Präposition oder Pronominaladverb) abwesend sein kann oder muss. Dabei lässt sich anhand von Pronominalisierung, Topikalisierung und W-Extraktion zeigen, dass das P-Element syntaktisch präsent als leeres Element (covert) realisiert werden muss, da diese Sätze mit und ohne P-Element Eigenschaften der PO-Sätze haben und mit DO-Sätzen kontrastieren.
Sprachressourcen in digitaler Form liegen für ein immer breiteres Spektrum von Einzelsprachen vor. Linguistisch annotierte Korpora ermöglichen es, gezielt nach linguistischen Mustern auf der Wort-, Phrasen-, und Satzebene zu suchen und in quantitativer und qualitativer Hinsicht auszuwerten. In diesem Beitrag illustriere ich anhand von ausgewählten Beispielen den Mehrwert, den annotierte Textkorpora für die sprachwissenschaftliche Forschung bieten können. Viele der vorgestellten Sprachressourcen werden im Rahmen der CLARIN-Infrastruktur nachhaltig zur Verfügung gestellt. Die Korpora sind entweder durch Suchportale recherchierbar oder werden per Download zur Verfügung gestellt.
Digital research infrastructures can be divided into four categories: large equipment, IT infrastructure, social infrastructure, and information infrastructure. Modern research institutions often employ both IT infrastructure and information infrastructure, such as databases or large-scale research data. In addition, information infrastructure depends to some extent on IT infrastructure. In this paper, we discuss the IT, information, and legal infrastructure issues that research institutions face.