Refine
Year of publication
Document Type
- Part of a Book (25)
- Article (19)
- Conference Proceeding (4)
- Other (1)
- Preprint (1)
- Review (1)
Has Fulltext
- yes (51)
Keywords
- Korpus <Linguistik> (51) (remove)
Publicationstate
- Postprint (51) (remove)
Reviewstate
- (Verlags)-Lektorat (31)
- Peer-Review (17)
- Peer-Revied (1)
- Peer-review (1)
- Review-Status-unbekannt (1)
Publisher
- Wilhelm Fink (7)
- Benjamins (4)
- Springer (4)
- Edinburgh University Press (2)
- Erich Schmidt (2)
- Karolinum (2)
- Oxford University Press (2)
- V&R Unipress (2)
- Winter (2)
- Classiques Garnier (1)
In this article, we provide an insight into the development and application of a corpus-lexicographic tool for finding neologisms that are not yet listed in German dictionaries. As a starting point, we used the words listed in a glossary of German neologisms surrounding the COVID-19 pandemic. These words are lemma candidates for a new dictionary on COVID-19 discourse in German. They also provided the database used to develop and test the NeoRate tool. We report on the lexicographic work in our dictionary project, the design and functionalities of NeoRate, and describe the first test results with the tool, in particular with regard to previously unregistered words. Finally, we discuss further development of the tool and its possible applications.
Unter Neologismen finden sich bedeutungsgleiche Ausdrücke (im weitesten Sinne Synonyme), die unter bestimmten Bedingungen sprachliche Unsicherheiten hervorrufen. Das liegt u. a. an ihrer semantisch-konzeptuellen Ähnlichkeit, an nicht abgeschlossenen Lexikalisierungsprozessen, aber es treten auch Zweifel auf, weil es Unterschiede zwischen der Allgemein- und der Fachsprache gibt. Für einige Neologismen ist es auch charakteristisch, dass mehrere morphologische Varianten gleichzeitig in den Wortschatz eintreten, sodass nicht immer klar ist, wann welche präferiert werden. Dass all diese Ausdrücke lexikalischem Wettbewerb und situationsgebundenen Gebrauchsbedingungen ausgesetzt sind und dass sie zu Zweifel führen können, wird in Onlineforen sichtbar. Dieser Beitrag beschäftigt sich mit der Frage, wie solche Paare/Gruppen korpusgestützt semantisch analysiert und wie sie in deskriptiven Wörterbüchern angemessen beschrieben werden können, um sowohl Gemeinsamkeiten als auch Unterschiede für Nachschlagende sichtbar zu machen. Dazu werden konkrete Beispiele und ein gegenüberstellendes Wörterbuchdarstellungsformat für neologistische Synonyme vorgeschlagen.
Speech islands are historically and developmentally unique and will inevitably disappear within the next decades. We urgently need to preserve their remains and exploit what is left in order to make research on language-in-contact and historical as well as current comparative language research possible.
The Archive for Spoken German (AGD) at the Institute for German Language collects, fosters and archives data from completed research projects and makes them available to the wider research community.
Besides large variation corpora and corpora of conversational speech, the archive already contains a range of collections of data on German speech minorities. The latter will be outlined in this chapter. Some speech island data is already made available through the personal service of the AGD, or the database of spoken German (DGD), e.g. data on Australian German, Unserdeutsch, or German in North America. Some corpora are still being prepared for publication, but still important to document for potentially interested research projects. We therefore also explain the current problems and efforts related to the curation of speech island data, from the digitization of recordings and the collection of metadata, to the integration of transcriptions, annotations and other ways of accessing and sharing data.
Gerd Hentschel gehört zu den Pionieren der heutigen Computerlexikografie und der IT-gestützten Korpuserschließung. Eine seiner ersten Zeitschriftenpublikationen, mit dem Titel Einsatz von EDV und Mikrocomputer in einem lexikographischen Forschungsprojekt zum deutschen Lehnwort im Polnischen (Hentschel 1983), befasst sich mit der Frage, wie - unter den damaligen technischen Vorzeichen - Forschungs- und Dokumentationsarbeiten zu polnischen Germanismen sinnvoll durch die Verwendung von Computern unterstützt werden können. Die besagten Arbeiten mündeten später in die Online-Publikation des Wörterbuchs der deutschen Lehnwörter in der polnischen Schrift- und Standardsprache (WDLP). Es ist aus heutiger Sicht bemerkenswert, mit welchen Beschränkungen die Arbeit mit dem Computer noch vor 40 Jahren zu kämpfen hatte. Aus gegebenem Anlass sei es gestattet, diesen Punkt etwas ausführlicher zu illustrieren.
Dieser Beitrag stellt den Aufbau eines multimodalen Korpus zur Erforschung des Deutschen als Minderheitssprache in Argentinien vor (DiA). In dem sich im Aufbau befindlichen DiA-Korpus werden die heutige wie auch die historische Situation mit multimodalen (mündlichen, schriftlichen und visuellen) Datensätzen repräsentiert, die mit entsprechenden methodischen Zugängen erfasst wurden und werden. Dazu gehören fragebogengeleitete Interviews (mündliches Medium), Briefe und elizitierte Schriftzeugnisse (geschriebenes Medium) sowie Linguistic-Landscape-Bilddaten (visuelles Medium). In diesem Beitrag wird zunächst ein Überblick über die Forschungssituation zum Deutschen als Minderheitensprache in Argentinien gegeben. Kern des Beitrags ist dann die Vorstellung der Korpusstruktur und des Vorgehens beim Korpusaufbau sowie die Darstellung von Auswertungspotentialen des Datenfundus auf systemischer, soziolinguistischer, sprachideologischer und kontaktlinguistischer Ebene. Eine Methodenreflexion rundet den Beitrag ab.
OWID und OWIDplus – lexikographisch-lexikologische Online-Informationssysteme des IDS Mannheim
(2023)
Lexikographische und lexikalische Ressourcen zum Deutschen werden an vielen unterschiedlichen Institutionen erarbeitet, z. B. an Akademien der Wissenschaften oder in privatwirtschaftlichen Verlagen. Auch am Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim werden solche Materialien erstellt und der (Fach-)Öffentlichkeit unter dem Dach von OWID, dem „Online-Wortschatz-Informationssystem Deutsch“ (owid.de), präsentiert.
Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.
Als Band 12 der Reihe „Studien Deutsch als Fremd- und Zweitsprache“ des Erich Schmidt Verlags ist 2021 Junhong Lis Dissertation mit dem Haupttitel „Aber-Relationen“ erschienen. Wie der Untertitel „Vorkommen und Funktion in DaF-Lehrwerken für Fortgeschrittene und in wissenschaftlichen Texten“ verrät, geht es in dieser Arbeit um eine gewinnbringende Untersuchung der Distribution des Konnektors aber mit Hinblick auf die Optimierung des DaF-Unterrichts. Für die Zwecke der Arbeit werden zwei Korpora aufgebaut: Das erste Korpus (Korpus 1) enthält 551 Belege aus wissenschaftlicher Literatur zum Fach Deutsch als Fremdsprache (161 f.). Das zweite Korpus (Korpus 2) besteht aus 849 Belegen aus 11 DaF-Lehrwerken für erwachsene, fortgeschrittene Deutschlernende (162 ff.).
Blogg Dir deinen Urlaub nach Tunesien! Zur Erläuterung des Musters [VImp PROPReflexivDat NPAkk]
(2020)
In diesem Beitrag soll das Muster [VImp PROPReflexivDat NPAkk] semantisch und syntaktisch erläutert werden. Dieses Muster, das semantisch mit Verben des Erwerbens wie anschaffen korreliert, wird auch im Zusammenhang mit Kommunikationsverben wie bloggen und facebooken sowie mit dem Kontaktverb rubbeln belegt. Mithilfe des Konzeptes der Koerzion bzw. der semantischen Anpassung soll das Kovorkommen des erwänhten Musters mit diesen Verben beschrieben und erklärt werden. Als empirische Quelle dient das Korpus für das Deutsche 2012 und 2014 aus den Corpora from the Web. Die vorliegende Untersuchung ist im Rahmen meiner Dissertationsarbeit zum Thema Argumentstruktur und Bedeutung medialer Kommunikationsverben des Deutschen und des Spanischen im Sprachvergleich durchgeführt worden.
Die Rolle der antizipatorischen Verstehensdokumentation erweist sich in den Interviews aus dem Israelkorpus m. E. als besonders wichtig. Es wird von der Tatsache ausgegangen, dass es sich bei den Informanten um Personen mit besonders delikaten biographischen Hintergründen handele. Die Interviewerinnen müssen demzufolge mit der starken emotionalen Belastung rechnen, der die Interviewten während der Rekonstruktion ihrer Lebensgeschichte ausgesetzt sind. Ein sehr direkter Frage-Antwort-Stil könnte wegen dieser emotionalen Belastung als unangenehm empfunden werden. Der Einsatz von Verfahren antizipatorischer Verstehensdokumentation weist stattdessen m. E. eindeutig darauf hin, wie sich die Interviewerinnen offensichtlich um Empathie bemühen und im Sinne einer intersubjektiven Inreraktionskonstitution mit den Interviewten kooperieren. Ziel dieses Beitrages ist es zu zeigen, wie solche Verfahren der antizipatorischen Verstehensdokumentation durch den systematischen Einsatz der Konnektoren und, also, dann realisiert werden können.
Eine korpuslinguistische Untersuchung mit umfassender Analyse der häufiger vorkommenenden Adverbbildungsmuster des Deutschen legt nahe, dass die Sättigung des internen Argumentplatzes eines ursprünglich relationalen Ausdrucks eine wichtige Rolle bei der Adverbproduktion spielt (Brandt 2020). Eine genauere Betrachtung der Unterschiede zwischen -ermaßen- vs. -erweise-Adverbien deutet auf eine grammatische Unterscheidung zwischen Satzadverbien und Adverbien der Art und Weise: Im Fall von -ermaßen erfolgt die Sättigung über Token-Reflexivität, während der interne Slot von -erweise- Bildungen über häufigere und möglicherweise expansive Mechanismen geschlossen wird. Darüber hinaus fördert die pleonastische Qualität von Bildungen auf der Basis gerundivaler Partizipien die Produktivität von -erweise Adverbien.
Korpora sind – als idealerweise digital verfüg- und auswertbare Sammlungen von Texten – eine wertvolle empirische Grundlage linguistischer Studien. Eigene Korpora aufzubauen ist, je nach Sprachausschnitt, mit unterschiedlichen Herausforderungen verbunden. Zu allen Texten sollten Metadaten zu den Textentstehungsbedingungen (Zeit, Quelle usw.) erhoben werden, um diese als Variablen in Auswertungen einbeziehen zu können. Andere Informationen wie etwa die Themenzugehörigkeit (oder Annotationen auch unterhalb der Textebene) sind auch hilfreich, in vielerlei Hinsicht aber schwieriger pauschal taxonomisch vorzugeben, geschweige denn, operationell zu ermitteln. Jenseits der »materiellen« Verfügbarkeit der Texte und der technischen Aufbereitung sind es das Urheberrecht, vor allem Lizenz- bzw. Nutzungsrechte, sowie ethische Verantwortung und Persönlichkeitsrechte, die beachtet werden müssen, auch um zu gewährleisten, dass die Daten für die Reproduktion der Studien Dritten rechtssicher zugänglich gemacht werden dürfen. Bevor für ein Vorhaben ein neues Korpus aufgebaut wird, sollte deshalb am besten geprüft werden, ob nicht ein geeignetes bereits zur Verfügung steht. Wenn ein Korpus aufgebaut wird, sollte für eine nachhaltige Aufbewahrung und Zugänglichmachung gesorgt und die Existenz an geeigneter Stelle dokumentiert werden.
Auch Linguist*innen, die gesprochene Sprache untersuchen, kommen schon seit längerem nicht mehr ohne digitale Infrastrukturen aus. Seit Beginn der Gesprochene-Sprache-Forschung werden Gespräche aufgezeichnet und anschließend transkribiert, da die flüchtigen, innerhalb von Bruchteilen von Sekunden stattfindenden Feinheiten des Gesprochenen paradoxerweise nur durch Verschriftung im Detail untersucht werden können. Diese Detailuntersuchungen beschränkten sich im vergangenen Jahrhundert meist auf wenige Einzelbelege für ein untersuchtes Phänomen. Das heißt, die Forschenden hatten den unmittelbaren Überblick über ihre Datenkollektionen und benötigten keine elaborierten digitalen Methoden zu deren Aufbereitung, Annotation und Analyse. Dies hat sich in den letzten beiden Jahrzehnten stark geändert: Es wurden vermehrt gezielt große Datenmengen gesammelt, in Datenbanken organisiert und der Forschungsgemeinschaft zur Nutzung zur Verfügung gestellt. An erster Stelle muss hier das Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK) genannt werden (vgl. Schmidt 2014). Dieses wird seit 2008 am Leibniz-Institut für Deutsche Sprache (IDS) aufgebaut und ist heute das größte Referenzkorpus für das gesprochene Deutsch.
In a recent article, Meylan and Griffiths (Meylan & Griffiths, 2021, henceforth, M&G) focus their attention on the significant methodological challenges that can arise when using large-scale linguistic corpora. To this end, M&G revisit a well-known result of Piantadosi, Tily, and Gibson (2011, henceforth, PT&G) who argue that average information content is a better predictor of word length than word frequency. We applaud M&G who conducted a very important study that should be read by any researcher interested in working with large-scale corpora. The fact that M&G mostly failed to find clear evidence in favor of PT&G's main finding motivated us to test PT&G's idea on a subset of the largest archive of German language texts designed for linguistic research, the German Reference Corpus consisting of ∼43 billion words. We only find very little support for the primary data point reported by PT&G.
Transkriptionswerkzeuge sind spezialisierte Softwaretools für die Transkription und Annotation von Audio- oder Videoaufzeichnungen gesprochener Sprache. Dieses Kapitel erklärt einleitend, worin der zusätzliche Nutzen solcher Werkzeuge gegenüber einfacher Textverarbeitungssoftware liegt, und gibt dann einen Überblick über grundlegende Prinzipien und einige weitverbreitete Tools dieser Art. Am Beispiel der Editoren FOLKER und OrthoNormal wird schließlich der praktische Einsatz zweier Werkzeuge in den Arbeitsabläufen eines Korpusprojekts illustriert.
Gegenstand des Beitrags sind korpuslinguistische Zugänge zur Variation im Auftreten des Fugenelements in Komposita aus zwei Nomen (Arbeit I s I weg). Die qualitative Vorstudie zeigt, dass die Verfügung nach Erstglied auf Vokal (Bühne I n I spiel, See I ufer) entgegen manchen Hinweisen aus bisherigen Korpusuntersuchungen sehr weitgehend linguistisch systematisierbar ist. Die Hauptstudie fokussiert dann die sehr variable Verfügung nach Erstglied auf Konsonant (Arbeit I s I weg vs. Heimat I art). Sie modelliert statistisch den Einfluss von Größen, deren Bedeutung in der bisherigen Forschung nur angenommen, aber nicht überprüft werden konnte. Dabei führt sie auch neue Einflussgrößen ein und gibt deutliche Hinweise darauf, dass die Variation in größerem Ausmaß als bisher vermutet einzelfallspezifisch geregelt ist.
In diesem Kapitel stellen wir zunächst grundlegende Konzepte von Abfragesystemen und Abfragesprachen für die Suche in Korpora vor. Diese Konzepte sollen Ihnen helfen, die einzelnen Abfragesprachen besser zu verstehen und vergleichen zu können. Die gängigen Abfragesprachen unterscheiden sich in vielen Details. Diese Details und die Möglichkeiten und Grenzen der einzelnen Abfragesprachen stellen wir im zweiten Teil mit vielen Beispielaufgaben und dazu passenden Lösungen in jeweils drei Abfragesprachen vor.
Korpora gesprochener Sprache
(2022)
Korpora gesprochener Sprache bestehen aus Audio- oder Videoaufnahmen sprachlicher Produktionen, die über eine Transkription einer linguistischen Analyse zugänglich gemacht werden. Sie kommen zur Untersuchung unterschiedlichster sprachwissenschaftlicher Fragestellungen unter anderem in der Gesprächsforschung, der Dialektologie und der Phonetik zum Einsatz. Dieser Beitrag diskutiert die wichtigsten Eigenschaften von Korpora gesprochener Sprache und stellt einige Vertreter der verschiedenen Kategorien vor.
Dieses Kapitel gibt einen Überblick über Korpora internetbasierter Kommunikation, die als digitale Ressourcen frei zur Verfügung stehen und für eigene linguistische Forschungsarbeiten genutzt werden können. In Abschnitt 1 erläutern wir korpuslinguistische Basiskonzepte, die für die Arbeit mit Korpora internetbasierter Kommunikation benötigt werden, und präzisieren die Sprachgebrauchsdomäne Internetbasierte Kommunikation, die den Gegenstand des hier beschriebenen Ressourcentyps bildet. Abschnitt 2 gibt einen Überblick zu existierenden Korpusressourcen für das Deutsche und stellt ausgewählte Korpora zu weiteren europäischen Sprachen vor. In Abschnitt 3 geben wir abschließend einen kurzen Einblick in aktuelle Forschungsfelder, die sich im Bereich der Korpuslinguistik und Sprachtechnologie in Bezug auf den Aufbau und die Aufbereitung von Korpora internetbasierter Kommunikation stellen.
Diese Fallstudie untersucht die quantitative Verteilung von direkten und nicht-direkten Formen von Redewiedergabe im Vergleich zwischen zwei Literaturtypen: Hochliteratur - definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen - und Heftromanen - massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden. Die Studie geht von manuell annotierten Daten aus und überprüft daran die Verlässlichkeit automatischer Annotationswerkzeuge, die im Anschluss eingesetzt werden, um eine Untersuchung von insgesamt 250 Volltexten durchzuführen. Es kann nachgewiesen werden, dass sich die Literaturtypen sowie auch unterschiedliche Genres von Heftromanen hinsichtlich der verwendeten Wiedergabeformen unterscheiden.