OPUS 4 | Search

Proceedings of the 12th Web as Corpus Workshop (ACL SIGWAC). Language Resources and Evaluation Conference (LREC 2020), Marseille, 11–16 May 2020 (2020)

The 12th Web as Corpus workshop (WAC-XII) looks at the past, present, and future of web corpora given the fact that large web corpora are nowadays provided mostly by a few major initiatives and companies, and the diversity of the early years appears to have faded slightly. Also, we acknowledge the fact that alternative sources of data (such as data from Twitter and similar platforms) have emerged, some of them only available to large companies and their affiliates, such as linguistic data from social media and other forms of the deep web. At the same time, gathering interesting and relevant web data (web crawling) is becoming an ever more intricate task as the nature of the data offered on the web changes (for example the death of forums in favour of more closed platforms).

Diskurs - ethisch (2020)

Bausteine einer Korpusgrammatik des Deutschen. Bd. 1. (2020)

„Bausteine einer Korpusgrammatik des Deutschen“ ist eine neue Schriftenreihe, die am Leibniz-Institut für Deutsche Sprache in Mannheim (IDS) entsteht. Sie setzt sich zum Ziel, mit korpuslinguistischen Methoden die Vielfalt und Variabilität der deutschen Grammatik in großer Detailschärfe zu erfassen und gleichzeitig für die Validierbarkeit der Ergebnisse zu sorgen. Die erste Ausgabe enthält eine Einführung in die Reihe sowie vier als Kapitel einer neuen Grammatik gestaltete Texte: 1. Grundlegende Aspekte der Wortbildung, 2. Bau von und Umbau zu Adverbien, 3. Starke vs. schwache Flexion aufeinanderfolgender attributiver Adjektive und 4. Reihenfolge attributiver Adjektive. Die Ausgabe ist mit einer interaktiven Datenbank zu attributiven Adjektiven verknüpft.

Handbuch der Sprachminderheiten in Deutschland (2020)

Das vorliegende Buch bildet den Abschluss einer Handbuchserie zu Sprachminderheitenkonstellationen unter Beteiligung des Deutschen. Ihren Anfang nahm die Serie 1996 mit einem Band zur Situation der Sprachminderheiten in Mitteleuropa (Hinderling/Eichinger 1996b). Dieser Band, der noch vor dem Fall des Eisernen Vorhangs konzipiert worden war, war bald vergriffen. Es folgten weitere Bände zu anderen Regionen der Welt, die sich von der Struktur her an dem Mitteleuropa-Band orientierten: zunächst die Länder Mittel- und Osteuropas (Eichinger/Plewnia/Riehl 2008), sodann die deutschen Sprachminderheiten in Übersee (Plewnia/Riehl 2018). Das Handbuch des Deutschen in West-und Mitteleuropa (Beyer/Plewnia 2019) war der erste Band einer vollständigen Neufassung des Handbuchs von 1996, wo über die Dichotomie von Mehrheit und Minderheit hinaus auch weitere Ausprägungen gesellschaftlicher Mehrsprachigkeit berücksichtigt wurden.

Regiolekte. Objektive Sprachdaten und subjektive Sprachwahrnehmung (2020)

Dieser Sammelband vereinigt die wichtigsten und innovativsten Beiträge aus der Sektion Wahrnehmungsdialektologie des 6. Kongresses der Internationalen Gesellschaft für Dialektologie des Deutschen (IGDD); er soll einen Eindruck über den aktuellen Forschungsstand der Disziplin verschaffen. Das Ziel ist es, einen multiperspektivischen Zugang zur aktuellen wahrnehmungsdialektologischen Forschung zu ermöglichen. Das thematische Spektrum ist breitgefächert, neben den Schwerpunkten Dialektgebrauch, -bewertung und -wahrnehmung stehen auch theoretisch-modellbildende Ansätze im Fokus: Welche Konzepte gibt es, um die Begriffe Laie und Wissen in der Wahrnehmungsdialektologie zu definieren? Wie können die Methoden der traditionellen Dialektologie sinnvoll mit wahrnehmungsdialektologischen Methoden verknüpft werden? Welche Bedeutung haben Spracheinstellungen für den Sprachwandel? Wie bewerten Sprecherinnen und Sprecher des Deutschen regionale Varietäten, und welche Konzeptualisierungen liegen diesen zugrunde? Welche Auswirkungen haben politische Grenzen auf die dialektale Sprechweise und deren Wahrnehmung?

Duden - Die deutsche Rechtschreibung. Auf der Grundlage der aktuellen amtlichen Rechtschreibregeln (2020)

Proceedings of the LREC 2020 Workshop, Language Resources and Evaluation Conference, 11–16 May 2020, 8th Workshop on Challenges in the Management of Large Corpora (CMLC-8) (2020)

In order to satisfy the information needs of a wide range of researchers across a number of disciplines, large textual datasets require careful design, collection, cleaning, encoding, annotation, storage, retrieval, and curation. This daunting set of tasks has coalesced into a number of key themes and questions that are of interest to the contributing research communities: (a) what sampling techniques can we apply? (b) what quality issues should we be aware of? (c) what infrastructures and frameworks are being developed for the efficient storage, annotation, analysis and retrieval of large datasets? (d) what affordances do visualisation techniques offer for the exploratory analysis approaches of corpora? (e) what legal paths can be followed in dealing with IPR and data protection issues governing both the data sources and the query results? (f) how to guarantee that corpus data remain available and usable in a sustainable way?

Deutsch in sozialen Medien. Interaktiv - multimodal - vielfältig (2020)

Im alltäglichen Leben sind Sozialen Medien kaum mehr entbehrlich: ob zum Zweck der Kommunikation, wie auf WhatsApp, zum Teilen von Inhalten und Fotos, z.B. durch Facebook und Instagram, oder zur Teilhabe am Weltgeschehen über Twitter. Der Band untersucht, ob und wie Soziale Medien unsere Kommunikation und auch unsere Sprache verändern und welche neuartigen kommunikativen Formen der Gebrauch Sozialer Medien hervorgebracht hat.

POS-Tagging für Transkripte gesprochener Sprache. Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) (2020)

Westpfahl, Swantje

Der Band leistet eine theoretisch begründete und empirisch validierte Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech-Tagging) für Transkripte spontansprachlicher Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), das über die Datenbank für Gesprochenes Deutsch der Forschungsgemeinschaft öffentlich zugänglich ist. Dabei setzt er zwei Schwerpunkte: erstens die theoretische Aufarbeitung von Unterschieden von Transkripten gesprochener Sprache zu schriftsprachlichen Daten in Hinblick auf die Entwicklung eines Tagsets für das gesprochene Deutsch; zweitens die Darstellung der empirischen Arbeitsschritte zur Erstellung des automatisierten Part-of-Speech-Taggings, d. h. die Implementierung und Evaluierung für die Annotation des FOLK-Korpus. Der Band ist eine kritische Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Arbeit. Er gibt Einblicke über die Korpusaufbereitung von Transkripten gesprochener Sprache und stellt diese in Bezug zu Theorien über die Eigenheiten gesprochener Sprache.

Kasusmarkierung im Russischen und Deutschen. Eine Untersuchung bei bilingualen Vorschulkindern mit und ohne auffällige Sprachentwicklung (2020)

Werthmann, Antonina

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

12 search hits