Korpuslinguistik
Refine
Year of publication
Document Type
- Conference Proceeding (94)
- Part of a Book (92)
- Article (51)
- Book (14)
- Part of Periodical (10)
- Other (4)
- Working Paper (4)
- Review (3)
- Doctoral Thesis (2)
- Bachelor Thesis (1)
Language
- German (151)
- English (123)
- Multiple languages (1)
Is part of the Bibliography
- no (275) (remove)
Keywords
- Korpus <Linguistik> (215)
- Deutsch (85)
- Annotation (29)
- Gesprochene Sprache (23)
- Computerlinguistik (14)
- Institut für Deutsche Sprache <Mannheim> (13)
- Grammatik (12)
- corpus linguistics (12)
- Corpus linguistics (11)
- Textkorpus (10)
- Automatische Sprachanalyse (9)
- Corpus technology (9)
- Korpuslinguistik (9)
- Metadaten (9)
- Sprachgeschichte (9)
- Sprachvariante (9)
- Deutsches Referenzkorpus (DeReKo) (8)
- Kollokation (8)
- Methode (8)
- Sprachgebrauch (8)
- Sprachpflege (8)
- Syntax (8)
- Diskursanalyse (7)
- Texttechnologie (7)
- Digital Humanities (6)
- Forschungsdaten (6)
- Historische Sprachwissenschaft (6)
- Internet (6)
- Large corpora (6)
- Lexikographie (6)
- Sprachstatistik (6)
- Syntaktische Analyse (6)
- XML (6)
- Computerunterstützte Kommunikation (5)
- Corpus annotation (5)
- Datenbanksystem (5)
- Datenmanagement (5)
- Englisch (5)
- Kongress (5)
- Langzeitarchivierung (5)
- Methodologie (5)
- Phonetik (5)
- Rechtschreibung (5)
- Semantik (5)
- Sprachdaten (5)
- Österreich (5)
- Chatten <Kommunikation> (4)
- Datenbank (4)
- Distribution <Linguistik> (4)
- Forschungsmethode (4)
- Französisch (4)
- Fremdsprachenlernen (4)
- German (4)
- Kontrastive Linguistik (4)
- Kookkurrenzanalyse (4)
- Korpusanalyseplattform (KorAP) (4)
- Neologismus (4)
- Polnisch (4)
- Pragmatik (4)
- Schriftsprache (4)
- Text Mining (4)
- Textlinguistik (4)
- Urheberrecht (4)
- Visualisierung (4)
- Weblog (4)
- Wortschatz (4)
- Wortverbindung (4)
- Wörterbuch (4)
- corpus processing (4)
- Computerunterstützte Lexikographie (3)
- Corpus management (3)
- Corpus query language (3)
- Data Mining (3)
- Datenanalyse (3)
- Forschung (3)
- Frühneuhochdeutsch (3)
- Germanistik (3)
- Information Retrieval (3)
- Kontrastive Grammatik (3)
- Lexikografie (3)
- Lexikologie (3)
- Linguistische Datenverarbeitung (3)
- National corpus (3)
- Softwarewerkzeug (3)
- Sprache (3)
- Sprachverarbeitung (3)
- Standardsprache (3)
- Text Encoding Initiative (TEI) (3)
- Transkription (3)
- Web corpora (3)
- Wikipedia (3)
- phonetics (3)
- web corpora (3)
- Adjektiv (2)
- Althochdeutsch (2)
- Ambiguität (2)
- Auszeichnungssprache (2)
- Automatische Sprachverarbeitung (2)
- COSMAS (2)
- Concurrent Markup/Overlap (2)
- Czech (2)
- DSSSL (2)
- Daten (2)
- Datenschutz (2)
- Datenverarbeitung (2)
- Deutsch in Österreich (2)
- Deutsches Spracharchiv (2)
- Diatopische Variation (2)
- Digitale Sprachressourcen (2)
- Digitales Wörterbuch der deutschen Sprache (DWDS) (2)
- Diskurs (2)
- Diskursmarker (2)
- Fußballsprache (2)
- Gesprächsdatenbank (2)
- Gesprächskorpus (2)
- Hermeneutik (2)
- IDS (2)
- Infrastruktur (2)
- Interoperabilität (2)
- Konversationsanalyse (2)
- Linguistik (2)
- Linguistische Informationswissenschaft (2)
- Literary corpus (2)
- Mehrebenenannotation (2)
- Modeling (2)
- Natürliche Sprache (2)
- Online-Datenbank (2)
- Online-Medien (2)
- Ontologie <Wissensverarbeitung> (2)
- Open Source (2)
- POS-Tagging (2)
- Phraseologie (2)
- Phraseologismus (2)
- Politische Sprache (2)
- Pronomen (2)
- Prosodie (2)
- Prädikat (2)
- Präposition (2)
- Referenzkorpus (2)
- Rezension (2)
- Semasiologie (2)
- Sprachanalyse (2)
- Sprachunterricht (2)
- Sprachwandel (2)
- Suchmaschine (2)
- TEI (2)
- Text Encoding Initiative (2)
- Textanalyse (2)
- Tschechisch (2)
- Variationslinguistik (2)
- Wahrig, Gerhard (2)
- ZDL-Regionalkorpus (2)
- Zentrum für digitale Lexikographie der deutschen Sprache (ZDL) (2)
- corpus analysis (2)
- corpus infrastructures (2)
- corpus management (2)
- gesprochene Sprache (2)
- language learning (2)
- speech corpus (2)
- spoken language (2)
- treebanks (2)
- Übersetzung (2)
- -gerecht (1)
- /e:/-Diphthongisierung (1)
- Absolute Häufigkeit (1)
- Affixoid (1)
- African languages dictionaries (1)
- Aichinger, Ilse (1)
- Akkusativ (1)
- Akustisches Signal (1)
- Analytische Methode (1)
- Anapher <Syntax> (1)
- Annotator Agreement (1)
- Anti-Europa-Diskurs (1)
- Antonym (1)
- Arbeitsablauf (1)
- Asad, Baššār al (1)
- Aufgabendesign (1)
- Aufsatzsammlung (1)
- Aussprache (1)
- Austrian Media Corpus (1)
- Automatische Sprachanalyse; (1)
- Automatische Spracherkennung (1)
- Automatische Textanalyse (1)
- BRD (1)
- Baumbank (1)
- Bearbeitung von Korpusanfragen (1)
- Bedeutung (1)
- Bedeutungserweiterung (1)
- Bedeutungswörterbuch (1)
- Bedienungsanleitung (1)
- Benutzerhandbuch (1)
- Berichterstattung (1)
- Bonner Zeitungskorpus (1)
- Bosnian (1)
- Bosnisch (1)
- Briefwechsel (1)
- Brown clustering (1)
- Brüdergemeine (1)
- CLARIN-D (1)
- CMC (1)
- CMC Corpora (1)
- CMC corpora (1)
- COSMAS-II (COSMAS 2) (1)
- COVID-19 (1)
- CTS (1)
- Canonical text services (1)
- Center for Advanced Internet Studies (1)
- Cleft-Erweiterung (1)
- Cluster <Datenanalyse> (1)
- Co-Reference (1)
- Codierung (1)
- Collocations (1)
- Communicative Functions (1)
- Comparable Corpus (1)
- Comparable corpora (1)
- Computational linguistics (1)
- Computer-Mediated Communication (1)
- Computerlingustik (1)
- Computerunterstütztes Verfahren (1)
- Contrastive linguistics (1)
- Conversation corpus (1)
- Conversational Feedback (1)
- Coomputerunterstützte Lexikographie (1)
- Coreference (1)
- Corpus Linguistics (1)
- Corpus Pattern Analysis (1)
- Croatian (1)
- DDR (1)
- Darmstädter-Tagblatt-Korpus (1)
- Data Architecture (1)
- Data Formats (1)
- Datenanreicherung (1)
- Datenaufbereitung (1)
- Datenbank Gesprochenes Deutsch (DGD) (1)
- Datenerhebung (1)
- Datenerschließung (1)
- Datenerweiterung (1)
- Datengeleitete Forschung (1)
- Datengeleitete Sprachbeschreibung (1)
- Datengeleitete Sprachmodellierung (1)
- Datenkompetenz (1)
- Datensammlung (1)
- Datenstrukturierung (1)
- Datenvernetzung (1)
- Dativ (1)
- Decision Trees (1)
- Deutsch als Fremdsprache (1)
- Deutsche Forschungsgemeinschaft (1)
- Deutschland <Bundesrepublik> (1)
- Deutschland <DDR> (1)
- Deutschunterricht (1)
- Dialektologie (1)
- Didaktik (1)
- Differenzenkoeffizient (1)
- Digital Herrnhut (1)
- Digitalisierung (1)
- Discourse Lab (1)
- Discourse analysis (1)
- Discourse annotation (1)
- Diskursanalye (1)
- Distributional semantics (1)
- DiÖ-Korpus (1)
- Dokumentation (1)
- Dzongkha (1)
- Einführung (1)
- Einsprachiges Wörterbuch (1)
- Einsprachigkeit (1)
- Elektronische Publikation (1)
- Empirische Linguistik (1)
- Entdeckendes Lernen (1)
- Episteme (1)
- Ethnolinguistik (1)
- Europäische Kommission. Digital Single Market (1)
- Evaluation methodologies (1)
- FAIR Index (1)
- Facebook (1)
- Fallstudie (1)
- Feministische Linguistik (1)
- Flexion (1)
- Forschungsprojekt (1)
- Frame-Semantik (1)
- Frauenbewegung (1)
- Freiburger Corpus (1)
- Fremdsprachenunterricht (1)
- Fremdwort (1)
- French (1)
- French-German (1)
- GeWiss-Korpus (1)
- Gebrauchsbasiertheit (1)
- Gebrauchshäufigkeit (1)
- Gefühl (1)
- Gegenwartssprache (1)
- Gender (1)
- Gender Bias (1)
- Genitive Classification (1)
- Geschichte 1989-1990 (1)
- Geschlechtergerechte Sprache (1)
- Gesprochene Korpora (1)
- Gesprochenes Deutsch (1)
- Gesprächskorpora (1)
- Gift (Begriff) (1)
- Gigafida 2.1 corpus (1)
- Globalisierung (1)
- Gospel <Musik> (1)
- Grammar (1)
- GraphVar-Korpus (1)
- Graphematische Variation (1)
- Graphemik (1)
- Grenzen der Wissenschaft (1)
- HTML (1)
- Hamlet (1)
- Historische Grammatik (1)
- Historische Syntax (1)
- Häufigkeit (1)
- Häufigkeitsklasse (1)
- Häufigkeitsmaß (1)
- IDS Mannheim (1)
- IDS-Korpora (1)
- ISO/TC 37/SC 4 (1)
- Immanuel Kant (1)
- Implementation (1)
- Indikator (1)
- Informationsmanagement (1)
- Informationsstruktur (1)
- Informationstheorie (1)
- Inkorporation (1)
- Instant Messaging (1)
- Instiut für Deutsche Sprache <Mannheim> (1)
- InterCorp (1)
- Interaktionsanalyse (1)
- Interdisziplinarität (1)
- Interimsprache (1)
- International Corpus of English (1)
- Interrelated document grammars (1)
- Intertextuality (1)
- Intertextualität (1)
- Jahrestagung IDS (1)
- Jugendsprache (1)
- Kant, Immanuel (1)
- Kant-Korpus (1)
- Kausaler Konnektor (1)
- Kausalität (1)
- Kiezdeutsch (1)
- Kiriwina (1)
- Kognitive Linguistik (1)
- Kollokationsforschung (1)
- Konditionaler Konnektor (1)
- Konditionalität (1)
- Konferenz (1)
- Konnektor (1)
- Konstruktion <Linguistik> (1)
- Kontextualisierung (1)
- Korpora (1)
- Korpora Kontoverse Diskurse (1)
- Korpora in DaF/DaZ (1)
- Korpus <Llinguistik> (1)
- Korpus GiesKaNe (1)
- Korpusarchitektur (1)
- Korpusaufbau (1)
- Korpusaufbereitung (1)
- Korpustechnologie (1)
- Korpustools (1)
- Korrelationsanalyse (1)
- Kroatisch (1)
- Kymrisch (1)
- LFG (1)
- Lautschrift (1)
- Leibniz-Institut für Deutsche Sprache (IDS) (1)
- Leitfaden (1)
- Lemma (1)
- Lemmata (1)
- Lernerkorpora (1)
- Levelled Study Corpus of Russian (LeStCoR) (1)
- Lexical functional grammar (1)
- Lexik (1)
- Lexikalisch funktionale Grammatik (1)
- Lexikalisierung (1)
- Literatur (1)
- Logische Partikel (1)
- Lower Sorbian (1)
- MLSA (1)
- Machine Leaming (1)
- Machine translating (1)
- Mannheim 2006 (1)
- Mannheim <2009> (1)
- Mannheim <2010> (1)
- Mannheimer Corpus (1)
- Markup Languages (1)
- Maschinelle Übersetzung (1)
- Maschinelles Lernen (1)
- Mathematisches Häufigkeitsmaß (1)
- MeToo (1)
- Mehrsprachigkeit (1)
- Mehrworteinheit (1)
- Metadata (1)
- Metadatenschemata (1)
- Methodenmix (1)
- Migration (1)
- Minderheitensprache (1)
- Moralität (1)
- Morphem (1)
- Morphologie <Linguistik> (1)
- Morphology (1)
- Morphosyntax (1)
- Multikulturelle Gesellschaft (1)
- Multilingual Corpus (1)
- Multilingual corpora (1)
- Multilingual corpus (1)
- Multimodale Korpora (1)
- Multimodalität (1)
- Multiple annotations (1)
- Multirepräsentationale Daten (1)
- Multisituationale Daten (1)
- Muttersprache (1)
- MySQL (1)
- Männlichkeit (1)
- Mündliche Hochschulkommunikation (1)
- Mündliche Kommunikation (1)
- Mündliches Korpus (1)
- Natural Language Processing (NLP) (1)
- Negation (1)
- Negationen (1)
- Nex-Gen Agile Reference Corpus (NARC) (1)
- Nominalisierung (1)
- Nord-Sotho (1)
- Northern Sotho (1)
- Online-Publikation (1)
- Online-Wörterbuch (1)
- Ontology (1)
- PCFG (1)
- Parallel corpora (1)
- Parallelkorpus (1)
- Paronym (1)
- Paronymie (1)
- Parsing (1)
- Parsing Systems (1)
- Pedi-Sprache (1)
- Phänomenmodellierung (1)
- Plenarprotokolle des Deutschen Bundestags (1)
- Politik (1)
- Politische Berichterstattung (1)
- Pressemitteilung (1)
- Query Languages (1)
- Rat für Deutsche Rechtschreibung (1)
- Recherche (1)
- Rechtschreibfehler (1)
- Rechtschreibunterricht (1)
- Rechtsfrage (1)
- Rechtspopulismus (1)
- Rechtsradikalismus (1)
- Reflexitität <Linguistik> (1)
- Regionalkorpus (1)
- Register (1)
- Reifeprüfung (1)
- Rektionskompositum (1)
- Relation extraction (1)
- Relative Häufigkeit (1)
- Replikationsstudie (1)
- Repräsentationsformate von Kontexten (1)
- Rumänisch (1)
- Russisch (1)
- Rückmeldung (1)
- SALSA (1)
- SGML (1)
- Schallaufzeichnung (1)
- Schnittstelle Konstruktionsgrammatik – Phraseologie (1)
- Schreibgebrauch (1)
- Schriftliche Reifeprüfung (1)
- Schule (1)
- SciLogs (1)
- Semantic Web (1)
- Semantic analysis (1)
- Semantic similarity (1)
- Semantische Analyse (1)
- Semantische Relation (1)
- Sentimentanalyse (1)
- Sepedi (1)
- Serbian (1)
- Serbisch (1)
- Shakespeare, William (1)
- Sketch engine (1)
- Slawistik (1)
- Slovak (1)
- Slowakisch (1)
- Slowenisch (1)
- Social Bots (1)
- Social Web (1)
- Software (1)
- Sorbian institute (1)
- Sorbisch (1)
- Soziolinguistik (1)
- Speech Corpora (1)
- Speech Lexica (1)
- Sprachbeschreibung (1)
- Spracherwerb (1)
- Sprachgebrauchs- und -einstellungsdaten (1)
- Sprachkorpus (1)
- Sprachmodellierung (1)
- Sprachnorm (1)
- Sprachschwierigkeit (1)
- Sprachtypologie (1)
- Sprachvariation (1)
- Sprachwissenschaft (1)
- Stadtmundart (1)
- Standarddeutsch (1)
- Standardisierung (1)
- Statistische Linguistik (1)
- Stereotyp (1)
- Strukturbaum (1)
- Synonym (1)
- Syntagma (1)
- Syntaktische Annotationen (1)
- Synthese (1)
- Systemlinguistik (1)
- Südtirol (1)
- TEI encoding (1)
- TIGER (1)
- Tag (1)
- Tagging (1)
- Technologie (1)
- Tempus (1)
- Text (1)
- Text Classification (1)
- Text Technology (1)
- Text mining (1)
- Text retrieval (1)
- Text+ (1)
- Text-to-Speech (1)
- Textklassifizierung (1)
- Textsorte (1)
- Textverstehendes System (1)
- Topikalisierung (1)
- Toxische Männlichkeit (1)
- Treebank (1)
- Trees/Graphs (1)
- Trobriander (1)
- Twitter <Softwareplattform> (1)
- Univerbierung (1)
- Unterrichtstechnologie (1)
- Validating (1)
- Verb (1)
- Verschmelzung (1)
- WBÖ-Korpus (1)
- Wahrscheinlichkeitsverteilung (1)
- Walisisch (1)
- Web corpus (1)
- Web spam (1)
- Webmonitor-Korpus (1)
- Welsh (1)
- Whatsapp (1)
- Wiedervereinigung <Deutschland> (1)
- Wiederverwendung (1)
- Wikilog@bw (1)
- Wissensbasis (1)
- Wissenschaftlichkeit (1)
- Wissenschaftsethik (1)
- Wissenschaftskommunikation (1)
- Wissenschaftssprache (1)
- Wissensrepräsentation (1)
- Word Embeddings (1)
- Word associations (1)
- Wort (1)
- Wortart (1)
- Wortbildung (1)
- Wortfeld (1)
- Wörterbücher afrikanischer Sprachen (1)
- XQuery (1)
- XQuery Full Text (1)
- XSLT (1)
- Zeitung (1)
- Zeitungsartikel (1)
- Zeitungssprache (1)
- ZuMult (1)
- blog corpus (1)
- clitic climbing (1)
- colonial language contact (1)
- computer-mediated communication (CMC) (1)
- computerunterstützte Lexikografie (1)
- contraction (1)
- conversation corpora (1)
- conversation database (1)
- corpora in DaF/DaZ (1)
- corpus annotation (1)
- corpus compilation (1)
- corpus query processing (1)
- corpus retrieval (1)
- corpus reusability (1)
- corpus storage (1)
- data dissemination (1)
- data provision (1)
- data referencing (1)
- database (1)
- database systems (1)
- deduplication (1)
- definite article (1)
- definiter Artikel (1)
- dependency parsing (1)
- digital collocation database (1)
- discourse marker (1)
- discovering collocations in corpora (1)
- e-lexicography (1)
- eLexiko (1)
- elektronische Edition (1)
- expressive Komposita (1)
- genre and register variation (1)
- geschriebene Sprache (1)
- gesprochenes Deutsch (1)
- gesprochensprachliches Korpus (1)
- grammar acquisistion (1)
- grammatical description (1)
- historical corpora (1)
- historical lexicography (1)
- historische Lexikographie (1)
- history of science (1)
- information theory (1)
- korpusbasierte Phraseologie (1)
- language portal (1)
- large corpora (1)
- large corpus data (1)
- learner corpus (1)
- legal issues (1)
- lexical information system (1)
- lexical-functional grammar (1)
- lexicography (1)
- low-frequency linguistic phenomena (1)
- microservices (1)
- minority language (1)
- morphology (1)
- multi-layer corpora (1)
- multilinguality (1)
- mysql (1)
- mündliche Interaktion (1)
- mündliches Korpus (1)
- native speech (1)
- negation (1)
- non-native speech (1)
- oral corpus (1)
- oral interaction (1)
- parallel corpora (1)
- parser adaptation (1)
- parser evaluation (1)
- parsing (1)
- part-of-speech (POS) (1)
- part-of-speech tagging (1)
- phonetic databases (1)
- phraseology (1)
- preposition (1)
- productivity (1)
- scalability (1)
- search engine (1)
- semantic extension (1)
- semantische Analyse (1)
- sentiment analysis (1)
- social media interaction (1)
- spoken language corpora (1)
- standoff annotation (1)
- tagging (1)
- text corpus (1)
- topic models (1)
- type frequency (1)
- urban youth language (1)
- usage-based model (1)
- virtual collections (1)
- virtuelle Forschungsumgebung (1)
- Ähnlichkeitssuche (1)
- Äquivalenztheorien (1)
- Österreichischer Sprachraum (1)
Publicationstate
- Veröffentlichungsversion (168)
- Zweitveröffentlichung (52)
- Postprint (4)
Reviewstate
Publisher
- Institut für Deutsche Sprache (45)
- de Gruyter (40)
- Narr (26)
- European Language Resources Association (ELRA) (12)
- Leibniz-Institut für Deutsche Sprache (7)
- Leibniz-Institut für Deutsche Sprache (IDS) (7)
- European Language Resources Association (5)
- Niemeyer (4)
- Nisaba (4)
- Extreme Markup Languages Conference (3)
The project Referenzkorpus Altdeutsch (‘Old German Reference Corpus’) aims to es- tablish a deeply-annotated text corpus of all extant Old German texts. As the automated part-of-speech and morphological pre-annotation is amended by hand, a quality control system for the results seems a desirable objective. To this end, standardized inflectional forms, generated using the morphological information, are compared with the attested word forms. Their creation is described by way of example for the Old High German part of the corpus. As is shown, in a few cases, some features of the attested word forms are also required in order to determine as exactly as possible the shape of the inflected lemma form to be created.
The availability of electronic corpora of historical stages of languages has been wel- comed as possibly attenuating the inherent problem of diachronic linguistics, i.e. that we only have access to what has chanced to come down to us - the problem which was memorably named by Labov (1992) as one of “Bad Data”. However, such corpora can only give us access to an increased amount ot historical material and this can essentially still only be a partial and possibly distorted picture of the actual language at a particular period of history. Corpora can be improved by taking a more representative sample of extant texts if these are available (as they are in significant number for periods after the invention of printing). But, as examples from the recently compiled GerManC corpus of seventeenth and eighteenth century German show, the evidence from such corpora can still fail to yield definitive answers to our questions about earlier stages of a language. The data still require expert interpretation, and it is important to be realistic about what can legitimately be expected from an electronic historical corpus.
Multi-faceted alignment. Toward automatic detection of textual similarity in Gospel-derived texts
(2015)
Ancient Germanic Bible-derived texts stand in as test material for producing computational means for automatically determining where textual contamination and linguistic interference have influenced the translation process. This paper reports on the results of research efforts that produced a text corpus; a method for decomposing the texts involved into smaller, more directly comparable thematically-related chunks; a database of relationships between these chunks; and a user-interface allowing for searches based on various referential criteria. Finally, the state of the product at the end of the project is discussed, namely as it was handed over to another researcher who has extended it to automatically find semantic and syntactic similarities within comparable chunks.
In this paper we present some preliminary considerations concerning the possibility of automatic parsing an annotated corpus for N-N compounds. This should in prin- ciple be possible at least for relational and stereotype compounds, if the lemmatization of the corpus connects the lemmata with lexical entries as described in Höhle (1982). These lexical entries then supply the necessary information about the argument structure of a relational noun or about the stereotypical purpose associated with the noun’s referent which can be used to establish a relation between the first and the head constituent of the compound.
The relative order of dative and accusative objects in older German is less free than it is today. The reason for this could be that speakers of the direct predecessor of Old High German organized the referents according to the Thematic Hierarchy. If one applies a Case Hierarchy Nom>Acc>Dat to this, the order Nom - Dat - Acc falls out. It becomes apparent that the status of the Thematic Hierarchy is not a factor governing underlying word order, but a factor inducing scrambling. Arguments from binding theory, whose validity is discussed, indicate that the underlying order is ‘accusative before dative’
GraphVar ist ein Korpus aus über 1.600 Abiturarbeiten, die zwischen 1917 und 2018 an einem niedersächsischen Gymnasium geschrieben wurden. Das Hauptinteresse beim Aufbau bestand in der Beschreibung graphematischer Variation und ihrer Entwicklung über die Zeit. Leitend war die Frage, was Schreiberinnen und Schreiber eigentlich tatsächlich machen bzw. gemacht haben – und zwar unbeeinflusst von technischen Hilfsmitteln oder Schluss- und Endredaktion, aber unter vergleichbaren Bedingungen. Das Korpus bietet somit ein Fenster auf den unverfälschten Schreibgebrauch von Abiturientinnen und Abiturienten im Laufe der Zeit. Zum jetzigen Zeitpunkt sind 1.618 Arbeiten transkribiert, linguistisch annotiert und über eine ANNIS-Instanz erreichbar (graphvar.unibonn.de, Stand: 8.8.2023). Im Sommer 2022 konnten weitere 1.600 Arbeiten zwischen 1900 und 2021 an einem Gymnasium in Nordrhein-Westfalen digitalisiert werden. Neben schriftlinguistischen Fragestellungen ist das Korpus prinzipiell auch für syntaktische, morphologische und lexikalische Fragestellungen geeignet; auch didaktische Untersuchungen sind möglich, genau wie kulturwissenschaftliche.
Das Austrian Media Corpus (amc) ist mit derzeit rund 11 Mrd. Token eines der größten deutschsprachigen Korpora journalistischer Prosa. Es bietet damit weitreichende Analysemöglichkeiten für eine Vielzahl sprachwissenschaftlicher Aspekte, wie z. B. die Analyse grammatischer, orthographischer und lexikalischer Variation oder die Erforschung diskurslinguistischer wie attitudinal-perzeptiver Fragestellungen. In diesem Beitrag geben wir Einblicke in Beispielanalysen zu Standard(schrift)sprache auf Basis des amc sowie deren Bedeutung für die Erforschung von Sprachvariation in Österreich, um das enorme Potenzial des Korpus für sprachwissenschaftliche Fragestellungen zu illustrieren.
Dieser Beitrag beschreibt die Prozesse der Datenerhebung, -aufbereitung und geplanten Veröffentlichung eines Teilkorpus des vom österreichischen Wissenschaftsfonds (FWF) finanzierten Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation – Kontakt – Perzeption“ (FWF F060). Die Daten werden v. a. aus variationslinguistischer, kontaktlinguistischer wie auch perzeptionslinguistischer Perspektive analysiert, wofür eigene Tools entwickelt wurden, die – ebenso wie das Korpus selbst – mittelfristig der interessierten Öffentlichkeit zur Verfügung gestellt werden.
Das Werk versteht sich als eine Darstellung der wichtigsten syntaktischen, prosodischen, semantischen und pragmatischen Eigenschaften kausaler und konditionaler Konnektoren des gesprochenen Deutsch.
Die Untersuchung formuliert notwendige theoretische Grundlagen und zeigt die komplexe Interaktion mehrerer Faktoren, die sich auf die Interpretation einer Äußerung auswirken. Empirische Daten belegen, dass die kontextuelle und pragmatische Interpretation der untersuchten Relationen stark mit ihren syntaktischen und prosodischen Mustern korreliert. Jedoch handelt es sich nicht um eine Eins-zu-eins-Beziehung, denn gleiche Lesarten können von kausalen und konditionalen Relationen unterschiedlich markiert sein. Anhand der Ergebnisse wird das Verhältnis zwischen Konditionalität und Kausalität diskutiert.
Anhand einer korpusgestützten Untersuchung komplexer Adjektive mit dem Erstelement {gender-} mit DeReKoVecs wird gezeigt, welche Möglichkeiten zur differenzierten sprachlichen Integration von neuen Diskurselementen die Wortbildung des Adjektivs bietet. Gerade die zwischen den klassischen Typen Komposition und Derivation stehenden Techniken bieten hier eine erhebliche Bandbreite an Möglichkeiten.