Korpuslinguistik
Refine
Year of publication
Document Type
- Article (11)
- Part of a Book (9)
- Book (5)
- Conference Proceeding (2)
- Report (1)
Has Fulltext
- yes (28)
Keywords
- Korpuslinguistik (28) (remove)
Publicationstate
Reviewstate
Publisher
- Narr (4)
- Erich Schmidt (3)
- Narr Francke Attempto (3)
- de Gruyter (3)
- Universitäts- und Landesbibliothek Darmstadt (2)
- Verlag für Gesprächsforschung (2)
- European Language Resources Association (ELRA) (1)
- Leibniz-Institut für Deutsche Sprache (IDS) (1)
- Peter Lang (1)
- Sprachenzentrum der Technischen Universität Darmstadt ; Universitäts- und Landesbibliothek Darmstadt (1)
So far, Sepedi negations have been considered more from the point of view of lexicographical treatment. Theoretical works on Sepedi have been used for this purpose, setting as an objective a neat description of these negations in a (paper) dictionary. This paper is from a different perspective: instead of theoretical works, corpus linguistic methods are used: (1) a Sepedi corpus is examined on the basis of existing descriptions of the occurrences of a relevant verb, looking at its negated forms from a purely prescriptive point of view; (2) a "corpus-driven" strategy is employed, looking only for sequences of negation particles (or morphemes) in order to list occurring constructions, without taking into account the verbs occurring in them, apart from their endings. The approach in (2) is only intended to show a possible methodology to extend existing theories on occurring negations. We would also like to try to help lexicographers to establish a frequency-based order of entries of possible negation forms in their dictionaries by showing them the number of respective occurrences. As with all corpus linguistic work, however, we must regard corpus evidence not as representative, but as tendencies of language use that can be detected and described. This is especially true for Sepedi, for which only few and small corpora exist. This paper also describes the resources and tools used to create the necessary corpus and also how it was annotated with part of speech and lemmas. Exploring the quality of available Sepedi part-of-speech taggers concerning verbs, negation morphemes and subject concords may be a positive side result.
In der atelischen an-Konstruktion im Deutschen treten die Verben mit einer an-Präpositionalphrase auf (an etwas malen/essen/basteln). Basierend auf Korpusdaten wird in diesem Band gegen die verbreitete Alternationsanalyse der an-Konstruktion als präpositionales Pendant der transitiven Verbverwendung argumentiert. Stattdessen werden an-Phrasen als ereignisinterne Modifikatoren von einstelligen Activity-Verbvarianten analysiert, die eine in der lokalen Bedeutung der Präposition wurzelnde boundary-Relation einführen. Aus empirischer Perspektive wird ein Inventar von korpusbasierten Methoden und Maßen für die Untersuchung von (vermeintlichen) Argumentalternationen vorgestellt. Schließlich wird der bisher wenig diskutierte Zusammenhang von Argumentrealisierung und Metaphernbildung diskutiert.
Die Studie wurde mit dem Wilhelm von Humboldt Preis des Jahres 2022 der Deutschen Gesellschaft für Sprachwissenschaft ausgezeichnet.
Vorgestellt wird das Korpus deutschsprachiger Songtexte als innovative Sprachdatenquelle für interdisziplinäre Untersuchungsszenarien und speziell für den Einsatz im Fremd- und Zweitsprachenunterricht. Die Ressource dokumentiert Eigenschaften konzeptioneller Schriftlichkeit und konzeptioneller Mündlichkeit und erlaubt empirisch begründete Analysen sprachlicher Phänomene bzw. Tendenzen in den Texten moderner Popmusik. Vorgestellt werden Design, Annotationen und Anwendungsbeispiele des in thematische und autorenspezifische Archive stratifizierten Korpus.
Das Vokabular von Songtexten im gesellschaftlichen Kontext – ein diachron-empirischer Beitrag
(2022)
Der Beitrag untersucht den Stellenwert gesellschaftlich relevanter Thematiken in deutschsprachigen Songtexten der zurückliegenden fünf Jahrzehnte. Dabei zeigt sich, dass neben individuellen Befindlichkeiten auch politische, sozialkritische oder umweltbezogene Themen signifikant angesprochen werden. Wir kontrastieren Songtexte mit anderen Testsorten und wenden dabei quantitative Methoden auf umfangreiche, breit stratifizierte Datensamples an, um die Phänomenbeschreibungen präzisierbar, generalisierbar und reproduzierbar zu machen. Das longitudinale Korpusdesign bietet Potenzial für diachrone Vergleiche. Im Sinne eines erweiterten „Mixed Methods“-Ansatzes exploriert die Studie zudem ausgewählte Aspekte qualitativ und bettet sie in den zeitlichen Kontext ein.
Seit der Forschung große Datenmengen und Rechenkapazitäten zur Verfügung stehen arbeitet auch die Sprachwissenschaft zunehmend datengeleitet. Datengeleitete Forschung geht nicht von einer Hypothese aus, sondern sucht nach statistischen Auffälligkeiten in den Daten. Sprache wird dabei oft stark vereinfacht als lineare Abfolge von Wörtern betrachtet. Diese Studie zeigt erstmals, wie der zusätzliche Einbezug syntaktischer Annotationen dabei hilft, sprachliche Strukturen des Deutschen besser zu erfassen.
Als Anwendungsbeispiel dient der Vergleich der Wissenschaftssprachen von Linguistik und Literaturwissenschaft. Die beiden Fächer werden oft als Teildisziplinen der Germanistik zusammengefasst. Ihre wissenschaftliche Praxis unterscheidet sich jedoch systematisch hinsichtlich Forschungsdaten, Methoden und Erkenntnisinteressen, was sich auch in den Wissenschaftssprachen niederschlägt.
Der Beitrag betrachtet das Deutsche Referenzkorpus DeReKo in Bezug auf Strategien für seinen Ausbau, den Zugriff über die Korpusanalyseplattform KorAP und seine Einbettung in Forschungsinfrastrukturen und in die deutschsprachige und europäische Korpuslandschaft. Ausgehend von dieser Bestandsaufnahme werden Perspektiven zu seiner Weiterentwicklung aufgezeigt. Zu den Zukunftsvisionen gehören die Verteilung von Korpussressourcen und die Konstruktion multilingualer vergleichbarer Korpora anhand der Bestände der National- und Referenzkorpora, eine Plattform zur Abgabe und Aufbereitung von Sprachspenden als eine Anwendung von Citizen Science sowie eine Komponente zur automatischen Identifikation von übersetzten bzw. maschinenverfassten Texten.
Die „Datenbank für Gesprochenes Deutsch“ (DGD2) ist ein Korpusmanagementsystem im Archiv für Gesprochenes Deutsch (AGD) am Institut für Deutsche Sprache. Über die DGD2 werden Teilbestände des Archivs (Audioaufnahmen gesprochener Sprache, sowie zugehörige Metadaten, Transkripte und Zusatzmaterialien) der wissenschaftlichen Öffentlichkeit online zur Verfügung gestellt. Sie enthält derzeit knapp 9000 Datensätze aus 18 Korpora. Die DGD2 ist das Nachfolgesystem der älteren „Datenbank Gesprochenes Deutsch“ (ab hier: DGD1, siehe Fiehler/Wagener 2005). Da die DGD1 aufgrund ihrer technischen Realisierung mittelfristig kaum wartbar und erweiterbar ist, wurde die DGD2 auf eine neue technische Basis gestellt und stellt insofern keine direkte Weiterentwicklung der DGD1 dar, sondern eine Neuentwicklung, die freilich einen Großteil der Datenbestände und Funktionalität mit der DGD1 teilt. Die DGD2 wurde der Öffentlichkeit erstmals in einem Beta-Release im Februar 2012 zugänglich gemacht. In diesem Beitrag stellen wir die Datenbestände, die technische Realisierung sowie die Funktionalität des ersten offiziellen Release der DGD2 vom Dezember 2012 vor. Wir schließen mit einem Ausblick auf geplante Weiterentwicklungen.
Wie können Diskursmarker in einem Korpus gesprochener Sprache auffindbar gemacht werden? Was ist Part-of-Speech-Tagging und wie funktioniert es? In diesem Artikel soll anhand der POS-Kategorie Diskursmarker dargestellt werden, wie für das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ein Part-of-Speech-Tagging entwickelt wurde, das auf die Annotation typisch gesprochen-sprachlicher Phänomene ausgerichtet ist. Diskursmarker sollen dafür aus der Sicht maschineller Sprachverarbeitung dargestellt werden, d. h. wie eine POS-Kategorie Diskursmarker so definiert werden kann, dass sie automatisch annotiert werden kann. Schließlich soll gezeigt werden, wie man auch weitere Diskursmarker in der Datenbank auffinden kann
Der Beitrag skizziert die Genese und Komplexität des Konzepts ‚Usuelle Wortverbindung‘ (UWV) vor dem Hintergrund der korpuslinguistischen Wende. Die Möglichkeit, sprachliche Massendaten untersuchen zu können, erbrachte neue Einsichten in Hinblick auf Status, Form, Funktion, Festigkeit und Variabilität dieser zentralen Wortschatzeinheiten – gleichzeitig aber auch in Hinblick auf ihre Unschärfen und vielfachen Überlappungen. Eine der folgenreichsten Erkenntnisse ist, dass UWVs auf vorgeprägten Schemata und Mustern basieren und in ein komplexes Netz von Ausdrücken ähnlicher Art eingebettet sind. Für die Aneignung sprachlichen Wissens ist das Verstehen solcher primär funktionalen Musterbildungen elementar.