Refine
Year of publication
Document Type
- Article (22) (remove)
Has Fulltext
- yes (22)
Keywords
- Deutsch (11)
- Korpus <Linguistik> (4)
- Rechtschreibung (4)
- Kommunikation (3)
- Sprachgebrauch (3)
- Sprachwandel (3)
- Automatische Sprachanalyse (2)
- COVID-19 (2)
- Computerlinguistik (2)
- Daten (2)
Publicationstate
- Postprint (22) (remove)
Reviewstate
- (Verlags)-Lektorat (22) (remove)
Publisher
- Oxford University Press (4)
- Buske (3)
- V&R Unipress (3)
- Friedrich (2)
- StudienVerlag (2)
- Deutsche Hochschulverband (DHV) (1)
- Lang (1)
- Lemmens (1)
- Linguistic Analysis (1)
- Metropol (1)
Korpora sind – als idealerweise digital verfüg- und auswertbare Sammlungen von Texten – eine wertvolle empirische Grundlage linguistischer Studien. Eigene Korpora aufzubauen ist, je nach Sprachausschnitt, mit unterschiedlichen Herausforderungen verbunden. Zu allen Texten sollten Metadaten zu den Textentstehungsbedingungen (Zeit, Quelle usw.) erhoben werden, um diese als Variablen in Auswertungen einbeziehen zu können. Andere Informationen wie etwa die Themenzugehörigkeit (oder Annotationen auch unterhalb der Textebene) sind auch hilfreich, in vielerlei Hinsicht aber schwieriger pauschal taxonomisch vorzugeben, geschweige denn, operationell zu ermitteln. Jenseits der »materiellen« Verfügbarkeit der Texte und der technischen Aufbereitung sind es das Urheberrecht, vor allem Lizenz- bzw. Nutzungsrechte, sowie ethische Verantwortung und Persönlichkeitsrechte, die beachtet werden müssen, auch um zu gewährleisten, dass die Daten für die Reproduktion der Studien Dritten rechtssicher zugänglich gemacht werden dürfen. Bevor für ein Vorhaben ein neues Korpus aufgebaut wird, sollte deshalb am besten geprüft werden, ob nicht ein geeignetes bereits zur Verfügung steht. Wenn ein Korpus aufgebaut wird, sollte für eine nachhaltige Aufbewahrung und Zugänglichmachung gesorgt und die Existenz an geeigneter Stelle dokumentiert werden.
Selten zuvor hat ein Ereignis in der Welt so direkt und für viele Menschen unmittelbar spürbar Einfluss auf den Wortschatz des Deutschen gehabt wie die Coronapandemie. Fast täglich konnte man ab Frühjahr 2020 neuen Wortschatz im Radio oder Fernsehen hören und in Zeitungen, Zeitschriften oder Beiträgen in den Sozialen Medien lesen. Zugleich sind zahlreiche medizinische und epidemiologische Fachausdrücke in den Allgemeinwortschatz eingegangen. Welche Spuren dieses dynamischen Wandels in Lexikon und Kommunikation auf lange Sicht in unserer Sprache zu finden sein werden, ist eine offene Frage, auf die die Sprachwissenschaft erst in den nächsten Jahrzehnten eine Antwort wird geben können. Erste Tendenzen aber zeichnen sich schon heute ab.
Seit 1977 wird in Deutschland jedes Jahr ein Wort bzw. eine Wortsequenz zum „Wort des Jahres“ gekürt. Vorgenommen wird die Wahl von einer Jury, die sich aus Mitgliedern der Gesellschaft für deutsche Sprache (GfdS) zusammensetzt. In der deutschsprachigen Schweiz gibt es eine solche Aktion ebenfalls (seit 2003); inzwischen wird das Wort des Jahres aber nicht mehr nur auf Deutsch, sondern auch auf Französisch, Italienisch und Rätoromanisch gewählt. Wenn im Folgenden vom „Schweizer Wort des Jahres“ die Rede ist, ist damit aber immer nur das Deutschschweizer Jahreswort gemeint. Durchgeführt wird die Aktion von einem Forschungsteam, das an der Zürcher Hochschule für Angewandte Linguistik (ZHAW) tätig ist.
Auch Linguist*innen, die gesprochene Sprache untersuchen, kommen schon seit längerem nicht mehr ohne digitale Infrastrukturen aus. Seit Beginn der Gesprochene-Sprache-Forschung werden Gespräche aufgezeichnet und anschließend transkribiert, da die flüchtigen, innerhalb von Bruchteilen von Sekunden stattfindenden Feinheiten des Gesprochenen paradoxerweise nur durch Verschriftung im Detail untersucht werden können. Diese Detailuntersuchungen beschränkten sich im vergangenen Jahrhundert meist auf wenige Einzelbelege für ein untersuchtes Phänomen. Das heißt, die Forschenden hatten den unmittelbaren Überblick über ihre Datenkollektionen und benötigten keine elaborierten digitalen Methoden zu deren Aufbereitung, Annotation und Analyse. Dies hat sich in den letzten beiden Jahrzehnten stark geändert: Es wurden vermehrt gezielt große Datenmengen gesammelt, in Datenbanken organisiert und der Forschungsgemeinschaft zur Nutzung zur Verfügung gestellt. An erster Stelle muss hier das Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK) genannt werden (vgl. Schmidt 2014). Dieses wird seit 2008 am Leibniz-Institut für Deutsche Sprache (IDS) aufgebaut und ist heute das größte Referenzkorpus für das gesprochene Deutsch.
Einigendes Band zerfasert?
(1991)
Der vorliegende Beitrag thematisiert zwei unterschiedliche Forschungsergebnisse aus der Auswertung des Korpus »Deutsch heute«. Im ersten Teil wird in einem lautsystematischen Aufriss die phonetische Variation, wie sie sich in der Vorleseaussprache der österreichischen Schülerinnen in den Korpusdaten manifestiert, dargestellt. Ein zweiter Teil des Beitrags präsentiert metasprachliche Äußerungen aus sprachbiographischen Interviews, die Einblicke in sprachbezogene Kategorien und Konzepte der jungen Österreicherinnen geben und Rückschlüsse auf Spracheinstellungen zulassen. Die Schülerinnen bestätigen nicht nur verschiedene Facetten des für Österreich anzunehmenden diaglossischen Verhältnisses der Varietäten durch ihren Formengebrauch, sondern auch in metasprachlichen Aussagen, die einen hohen Grad der Bewusstheit des eigenen Sprachgebrauchs sowie der formalen wie auch soziosymbolischen Unterschiede der Varietäten erkennen lassen.
Um das Thema Gendern oder geschlechtergerechte Sprache hat sich eine hitzige gesellschaftliche Debatte entwickelt. Seit Anfang des Jahres ist die Diskussion um geschlechtergerechte Sprache medial wieder besonders präsent. Anlass ist u.a. die Überarbeitung der Bedeutungsbeschreibungen im Duden online. Vor kurzem widmete sogar Der Spiegel dem Thema den Hefttitel und einen Leitartikel (vgl. Bohr et al. 2021). Allerdings erschöpft sich die Diskussion leicht in Pro- und Kontra-Positionen, dabei gibt es eine ganze Bandbreite von Aspekten rund um das Thema ‚geschlechtergerechte Sprache‘ zu betrachten, die eine differenziertere Diskussion ermöglichen können. Ziel dieses Beitrags ist es, einige dieser Aspekte knapp und möglichst verständlich in die Debatte einzubringen.
Jeden Tag finden weltweit über 40 innerstaatliche Konflikte und Kriege statt. Nach dem letzten Stand (14.11.2022) werden in Subsahara-Afrika 13, im Nahen Osten und in Nordafrika zehn und in Asien ebenfalls zehn Konflikte erwähnt. Aus Europa und Lateinamerika wird jeweils über fünf Konflikte berichtet. 2023 kam es zu neuen Konflikten und Kriegen in der Welt, über die jedoch noch keine Statistik vorhanden ist. Der russische Angriffskrieg gegen die Ukraine ist aber seit Anfang 2022 in den Weltmedien omnipräsent geworden. Somit wurde der Begriff Krieg auf verschiedene Weise in vielen internationalen Kontexten und Textquellen interpretiert und umschrieben, dann aber deutlich zum Ausdruck gebracht.
Mehrsprachigkeit gehört zu den Themen, zu denen wohl viele Menschen eine Meinung haben. Der Wert traditioneller schulischer Fremdsprachen wird dabei häufig hervorgehoben, während Wert und Erhalt von Herkunftssprachen Zugewanderter hinterfragt werden. Einstellungen gegenüber Sprachen sind demnach abhängig vom Prestige der jeweiligen Sprachen und ihrer Sprecher:innen. Dies geschieht vor dem Hintergrund, dass Deutschland überwiegend als ein einsprachiges Land mit einer einsprachigen Gesellschaft angesehen wird. Ähnliches gilt im Übrigen auch für Österreich. So schreibt beispielsweise der Sprachwissenschaftler Heiko Marten, „dass in der Wahrnehmung großer Teile der österreichischen Gesellschaft Monolingualismus nach wie vor die Norm ist“ (Marten 2016, S. 165). Diese Annahme gilt auch für den schulischen Kontext, wie die Erziehungswissenschaftlerin Ingrid Gogolin mit dem Begriff des „monolingualen Habitus“ herausgearbeitet hat (vgl. Gogolin 2008). Gründe für einen monolingualen Habitus könnten darin liegen, dass „von Teilen der Allgemeinheit oft übersehen [wird], dass in Deutschland auch zahlreiche weitere Sprachen gesprochen werden“ (Marten 2016, S. 148). Doch was passiert nun, wenn eine Sprache einen Statuswechsel von Landessprache zu Herkunftssprache durchläuft? Was lässt sich beobachten, wenn beispielsweise das Deutsche zu einer Minderheitensprache wird?
This article introduces the topic of ‘‘Multilingual language resources and interoperability’’. We start with a taxonomy and parameters for classifying language resources. Later we provide examples and issues of interoperatability, and resource architectures to solve such issues. Finally we discuss aspects of linguistic formalisms and interoperability.
We report on finished work in a project that is concerned with providing methods, tools, best practice guidelines, and solutions for sustainable linguistic resources. The article discusses several general aspects of sustainability and introduces an approach to normalizing corpus data and metadata records. Moreover, the architecture of the sustainability platform implemented by the authors is described.
This article shows that the TEI tag set for feature structures can be adopted to represent a heterogeneous set of linguistic corpora. The majority of corpora is annotated using markup languages that are based on the Annotation Graph framework, the upcoming Linguistic Annotation Format ISO standard, or according to tag sets defined by or based upon the TEI guidelines. A unified representation comprises the separation of conceptually different annotation layers contained in the original corpus data (e.g. syntax, phonology, and semantics) into multiple XML files. These annotation layers are linked to each other implicitly by the identical textual content of all files. A suitable data structure for the representation of these annotations is a multi-rooted tree that again can be represented by the TEI and ISO tag set for feature structures. The mapping process and representational issues are discussed as well as the advantages and drawbacks associated with the use of the TEI tag set for feature structures as a storage and exchange format for linguistically annotated data.
An approach to the unification of XML (Extensible Markup Language) documents with identical textual content and concurrent markup in the framework of XML-based multi-layer annotation is introduced. A Prolog program allows the possible relationships between element instances on two annotation layers that share PCDATA to be explored and also the computing of a target node hierarchy for a well-formed, merged XML document. Special attention is paid to identity conflicts between element instances, for which a default solution that takes into account metarelations that hold between element types on the different annotation layers is provided. In addition, rules can be specified by a user to prescribe how identity conflicts should be solved for certain element types.
Die Coronapandemie hat die Welt seit Anfang 2020 in vielfältiger Weise geprägt. Der Alltag hat sich gewandelt: Schule, Beruf, das tagtägliche Bewegen in der Öffentlichkeit oder in Verkehrsmitteln ist Regeln unterstellt, die es in dieser flächendeckenden und umfassenden Art so noch nicht gegeben hat. In diesem Wandel in der Welt ist auch die Sprache einer stetigen Entwicklung unterworfen. Neue Dinge in der Welt wollen erzählt und ausgetauscht werden. Und so kommt es in der Zeit der Coronapandemie zu zahlreichen Wortneuschöpfungen, Entlehnungen oder Bedeutungserweiterungen von bereits existierenden Wörtern. Das Leibniz-Institut für Deutsche Sprache in Mannheim (IDS) beobachtet diese Entwicklungen und arbeitet u. a. im Projekt »Neuer Wortschatz« an der Dokumentation dieser lexikalischen Spuren, die die Coronapandemie im Wortschatz hinterlässt. Der Beitrag begibt sich auf Spurensuche nach Neuem, nach neu Ausgehandeltem und nach der Frage, wie die (Wort-)Geschichte wohl weitergehen wird.