Korpuslinguistik
Refine
Year of publication
Document Type
- Part of a Book (200)
- Conference Proceeding (161)
- Article (105)
- Book (34)
- Part of Periodical (10)
- Other (9)
- Working Paper (7)
- Review (4)
- Doctoral Thesis (3)
- Preprint (3)
Language
- German (274)
- English (265)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (457)
- Deutsch (165)
- Gesprochene Sprache (64)
- Annotation (56)
- Forschungsdaten (36)
- Computerlinguistik (33)
- Korpuslinguistik (28)
- corpus linguistics (27)
- Deutsches Referenzkorpus (DeReKo) (25)
- Grammatik (25)
- Datenmanagement (22)
- Sprachdaten (22)
- Metadaten (21)
- Automatische Sprachanalyse (17)
- Computerunterstützte Kommunikation (17)
- Institut für Deutsche Sprache <Mannheim> (17)
- Kontrastive Linguistik (17)
- Sprachgebrauch (17)
- Sprachstatistik (16)
- Sprachvariante (16)
- Textkorpus (16)
- Corpus linguistics (15)
- Visualisierung (15)
- Digital Humanities (13)
- Corpus technology (12)
- Datenbank (12)
- German (12)
- Germanistik (12)
- Syntax (12)
- Wortschatz (12)
- Diskursanalyse (11)
- Fremdsprachenlernen (11)
- Kollokation (11)
- Englisch (10)
- Methode (10)
- Schriftsprache (10)
- Sprachgeschichte (10)
- Text Encoding Initiative (10)
- Urheberrecht (10)
- Wörterbuch (10)
- Distribution <Linguistik> (9)
- Internet (9)
- Texttechnologie (9)
- CMC (8)
- Datenanalyse (8)
- Forschungsmethode (8)
- Historische Sprachwissenschaft (8)
- Lexikografie (8)
- Mündliche Kommunikation (8)
- Rechtschreibung (8)
- Rumänisch (8)
- Sprachpflege (8)
- TEI (8)
- corpus (8)
- oral corpora (8)
- spoken language (8)
- Datenbanksystem (7)
- Fremdsprache (7)
- Information Retrieval (7)
- Interaktion (7)
- Konversationsanalyse (7)
- Langzeitarchivierung (7)
- Large corpora (7)
- Lexikographie (7)
- Natürliche Sprache (7)
- Polnisch (7)
- Semantik (7)
- Social Media (7)
- Sprachwandel (7)
- Syntaktische Analyse (7)
- Wortverbindung (7)
- computer-mediated communication (7)
- Corpus annotation (6)
- Datenqualität (6)
- Forschung (6)
- Fremdsprachenunterricht (6)
- Infrastruktur (6)
- Kookkurrenzanalyse (6)
- Korpusanalyseplattform (KorAP) (6)
- Linguistik (6)
- Maschinelles Lernen (6)
- Methodologie (6)
- Neologismus (6)
- Phonetik (6)
- Phraseologie (6)
- Sprachanalyse (6)
- Textlinguistik (6)
- Transkription (6)
- Worthäufigkeit (6)
- XML (6)
- YouTube (6)
- corpus processing (6)
- metadata (6)
- Abfragesprache (5)
- Audiovisuelles Material (5)
- Automatische Spracherkennung (5)
- Chatten <Kommunikation> (5)
- Corpus management (5)
- Data Mining (5)
- Daten (5)
- Datenaufbereitung (5)
- Datensatz (5)
- Französisch (5)
- Jugendsprache (5)
- Kommunikation (5)
- Kongress (5)
- Kontrastive Grammatik (5)
- Leibniz-Institut für Deutsche Sprache (IDS) (5)
- Leibniz-Institut für Deutsche Sprache. Jahrestagung (58. : 2022 : Online) (5)
- National corpus (5)
- Pragmatik (5)
- Präposition (5)
- Semasiologie (5)
- Software (5)
- Softwarewerkzeug (5)
- Text Mining (5)
- Wikipedia (5)
- comparable corpora (5)
- corpora (5)
- corpus analysis (5)
- web corpora (5)
- Österreich (5)
- Benutzeroberfläche (4)
- CLARIN (4)
- Computerunterstützte Lexikographie (4)
- Datenerhebung (4)
- Diskurs (4)
- Dokumentation (4)
- Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) (4)
- Interoperabilität (4)
- KorAP (4)
- Korpora (4)
- Korpora in DaF/DaZ (4)
- Linguistische Informationswissenschaft (4)
- Metadatenmodell (4)
- Morphologie <Linguistik> (4)
- Prädikat (4)
- Sprachverarbeitung (4)
- Suchmaschine (4)
- Technologie (4)
- Text Encoding Initiative (TEI) (4)
- Textanalyse (4)
- Textsorte (4)
- Weblog (4)
- Wortbildung (4)
- annotation (4)
- corpus annotation (4)
- corpus management (4)
- gesprochene Sprache (4)
- legal issues (4)
- reply relations (4)
- software (4)
- youth language (4)
- Ambiguität (3)
- Angewandte Linguistik (3)
- CLARIN-D (3)
- COVID-19 (3)
- CoRoLa (3)
- Compterunterstützte Lexikografie (3)
- Corpus query language (3)
- Datenschutz (3)
- Datenschutz-Grundverordnung (3)
- Deutsch als Fremdsprache (3)
- Diskursmarker (3)
- Fachsprache (3)
- Fallstudie (3)
- Frühneuhochdeutsch (3)
- Gegenwartssprache (3)
- Geschlechtergerechte Sprache (3)
- Gesprochenes Deutsch (3)
- Gesprächskorpora (3)
- IDS (3)
- Konstruktionsgrammatik (3)
- Lehrmittel (3)
- Lemma (3)
- Lernerkorpora (3)
- Lexik des gesprochen Deutsch (LeGeDe) (3)
- Lexikologie (3)
- Linguistische Datenverarbeitung (3)
- Lyrics <Lyrik> (3)
- Mehrsprachigkeit (3)
- Mündliche Korpora (3)
- Negation (3)
- Online-Wörterbuch (3)
- Phraseologismus (3)
- Recht (3)
- Redeerwähnung (3)
- Referenzkorpus (3)
- Soziolinguistik (3)
- Sprache (3)
- Sprachunterricht (3)
- Sprachwissenschaft (3)
- Standardsprache (3)
- Strukturbaum (3)
- Syntagma (3)
- Ungarisch (3)
- Universal Dependencies (3)
- Visual Linguistics (3)
- Web corpora (3)
- Wiedervereinigung <Deutschland> (3)
- copyright (3)
- corpora in GFL/GSL (3)
- corpus infrastructures (3)
- corpus-based lexicography (3)
- impact assessment (3)
- interoperability (3)
- large corpora (3)
- linguistic research software (3)
- phonetics (3)
- research infrastructure (3)
- spoken German (3)
- spoken language corpora (3)
- tokenization (3)
- treebanks (3)
- Übersetzung (3)
- ASR (2)
- Abfrage (2)
- Adjektiv (2)
- Althochdeutsch (2)
- Anonymisierung (2)
- Antonym (2)
- Archiv für Gesprochenes Deutsch (AGD) (2)
- Argumentstruktur (2)
- Austrian Media Corpus (2)
- Auszeichnungssprache (2)
- Automatische Sprachverarbeitung (2)
- Automatische Textanalyse (2)
- Baumbank (2)
- COSMAS (2)
- Computerunterstützte Lexikografie (2)
- Concurrent Markup/Overlap (2)
- Czech (2)
- DMC (2)
- DRuKoLA (2)
- DSSSL (2)
- Datenbank für Gesprochenes Deutsch (DGD) (2)
- Datenformat (2)
- Datensammlung (2)
- Datenverarbeitung (2)
- Dativ (2)
- Deutsch als Fremdsprache (DaF) (2)
- Deutsch in Österreich (2)
- Deutsches Spracharchiv (2)
- Deutschunterricht (2)
- Dialektologie (2)
- Diatopische Variation (2)
- Digitale Kommunikation (2)
- Digitale Sprachressourcen (2)
- Digitales Wörterbuch der deutschen Sprache (DWDS) (2)
- Digitalisierung (2)
- Dortmunder Chat-Korpus (2)
- Elektronische Publikation (2)
- Empirie (2)
- Empirische Linguistik (2)
- Europa (2)
- Europäischer Referenzkorpus (EuReCo) (2)
- Evaluation (2)
- FOLK (2)
- Flexion (2)
- Forschungsprojekt (2)
- Funktionsverbgefüge (2)
- Fußballsprache (2)
- GDPR (2)
- GeWiss-Korpus (2)
- Gender (2)
- GermaNet (2)
- Gesprächsdatenbank (2)
- Gesprächskorpus (2)
- Google Ngram Corpora (2)
- Hermeneutik (2)
- ISO-Norm (2)
- Indirekte Rede (2)
- Informationstheorie (2)
- Institut für Deutsche Sprache (2)
- Interdisziplinarität (2)
- Internetbasierte Kommunikation (2)
- Kausalität (2)
- Komposition <Wortbildung> (2)
- Kompositum (2)
- Konferenz (2)
- KorAP (Korpusanalyseplattform der nächsten Generation) (2)
- Korpusaufbereitung (2)
- Korpusdesign (2)
- Korpustechnologie (2)
- Language Variation (2)
- Lexikalische Semantik (2)
- Literary corpus (2)
- MTAS (2)
- Mehrebenenannotation (2)
- Modeling (2)
- Morphosyntax (2)
- Multimodalität (2)
- Mundart (2)
- Name (2)
- NottDeuYTSch corpus (2)
- NottDeuYTSch-Korpus (2)
- Nutzungsrecht (2)
- Online-Datenbank (2)
- Online-Dienst (2)
- Online-Medien (2)
- Ontologie <Wissensverarbeitung> (2)
- Open Source (2)
- POS-Tagging (2)
- Parallelkorpus (2)
- Part-of-Speech-Tagging (2)
- Part-of-Speech-Tagging = POS (2)
- Performanz <Linguistik> (2)
- Personenbezogene Daten (2)
- Plurizentrische Sprache (2)
- Polish (2)
- Politische Sprache (2)
- Popmusik (2)
- Pronomen (2)
- Prosodie (2)
- Psycholinguistik (2)
- Rechtsfrage (2)
- Rechtsstellung (2)
- Referenzkorpora (2)
- Rezension (2)
- Richtlinie (2)
- Ripuarian (2)
- Russisch (2)
- Schule (2)
- Spracherwerb (2)
- Sprachgeografie (2)
- Sprachhandeln (2)
- Sprachkompetenz (2)
- Sprachnorm (2)
- Sprachressource (2)
- Sprachtechnologie (2)
- Sprachtypologie (2)
- Sprichwort (2)
- Standardisierung (2)
- Statistischer Test (2)
- Tschechisch (2)
- Twitter <Softwareplattform> (2)
- UGC (2)
- Variationslinguistik (2)
- Verb (2)
- Vergleichbare Korpora (2)
- Vernetzung (2)
- Wahrig, Gerhard (2)
- Web (2)
- Web Services (2)
- Wissenschaftliche Kooperation (2)
- Wissenschaftskommunikation (2)
- ZDL-Regionalkorpus (2)
- Zeitung (2)
- Zeitungssprache (2)
- Zentrum für digitale Lexikographie der deutschen Sprache (ZDL) (2)
- Zipf’s law (2)
- ZuMult (2)
- audiovisual data (2)
- automatic transcription (2)
- cmc corpora (2)
- computer-mediated communication (CMC) (2)
- contrastive linguistics (2)
- corpus curation (2)
- corpus linguistic methodology (2)
- corpus reusability (2)
- data quality (2)
- deduplication (2)
- dependency parsing (2)
- diachronic corpus linguistics (2)
- genre and register variation (2)
- information theory (2)
- infrastructure (2)
- language change (2)
- language learning (2)
- language resources (2)
- language variation (2)
- lexical richness (2)
- linguistic data (2)
- long-term archival (2)
- machine learning (2)
- morphology (2)
- n-grams (2)
- noun–pronoun ratio (2)
- null-hypothesis testing (2)
- online language (2)
- parallel corpora (2)
- parser adaptation (2)
- personal data (2)
- phraseology (2)
- pluricentric (2)
- power law (2)
- quantitative approaches (2)
- query (2)
- reference corpora (2)
- representativeness (2)
- reusability (2)
- scalability (2)
- software quality management (2)
- speech corpus (2)
- spoken German in interaction (2)
- spoken language data (2)
- syntactic complexity (2)
- time series analysis (2)
- type token ratio (2)
- virtual collections (2)
- vocabulary size (2)
- word embeddings (2)
- (un)certainty (1)
- -gerecht (1)
- /e:/-Diphthongisierung (1)
- Abfragesystem (1)
- Ableitung <Linguistik> (1)
- Absolute Häufigkeit (1)
- Abweichungstheorie (1)
- Access Control (1)
- Adjektive (1)
- Adverb (1)
- Affixoid (1)
- African languages dictionaries (1)
- Aichinger, Ilse (1)
- Akademischer Grad (1)
- Akkusativ (1)
- Akustisches Signal (1)
- Algorithmus (1)
- Alternation (1)
- Amerikanisches Englisch (1)
- Analyse (1)
- Analytische Methode (1)
- Anapher <Syntax> (1)
- Angewandte Gesprächsforschung (1)
- Annotation guidelines (1)
- Annotation of causal language (1)
- Annotator Agreement (1)
- Anthropologie (1)
- Anti-Establishment-Texte (1)
- Anti-Europa-Diskurs (1)
- Antwort (1)
- Antwortrelationen (1)
- Antwortstrukturen (1)
- Arbeit mit Transkripten (1)
- Arbeitsablauf (1)
- Archiv (1)
- Archiv für gesprochenes Deutsch (AGD) (1)
- Archivierung (1)
- Argumentalternationen (1)
- Asad, Baššār al (1)
- Assoziationsmaß (1)
- Attributives Adjektiv (1)
- Audioaufnahmen (1)
- Aufbereitung (1)
- Aufgabendesign (1)
- Aufsatzsammlung (1)
- Augenzeuge (1)
- Ausgewogenheit (1)
- Auslassung (1)
- Aussprache (1)
- Authentische Ressourcen (1)
- Automatische Sprachanalyse; (1)
- BRD (1)
- BeDiaCo (1)
- Bearbeitung von Korpusanfragen (1)
- Bedeutung (1)
- Bedeutungserweiterung (1)
- Bedeutungsrelation (1)
- Bedeutungswörterbuch (1)
- Bedienungsanleitung (1)
- Benutzerforschung (1)
- Benutzerfreundlichkeit (1)
- Benutzerhandbuch (1)
- Berichterstattung (1)
- Bildungsinhalt (1)
- Biografisches Interview (1)
- Bonner Zeitungskorpus (1)
- Bosnian (1)
- Bosnisch (1)
- Briefwechsel (1)
- Brown clustering (1)
- Brüdergemeine (1)
- CLARIAH-DE (1)
- CLARIN infrastructure (1)
- CLARIN-Infrastruktur (1)
- CMC (International Conference on Cooperative Multimodal Communication) <2023, Mannheim> (1)
- CMC Corpora (1)
- CMC corpora (1)
- CMC corpus (1)
- CMDI metadata (1)
- COSMAS-II (COSMAS 2) (1)
- COVID-19 discourse (1)
- CQLF (1)
- CTS (1)
- Canonical text services (1)
- Center for Advanced Internet Studies (1)
- Chinesisches Deutschlerner-Korpus (1)
- Christentum (1)
- Chunk (1)
- Clarin (1)
- Cleft-Erweiterung (1)
- Cluster <Datenanalyse> (1)
- Co-Reference (1)
- CoMParS (1)
- CoNNAR (1)
- Codierung (1)
- Collection of Multilingual Parallel Sequences (CoMParS) (1)
- Collocations (1)
- Communicative Functions (1)
- Comparable Corpus (1)
- Comparable corpora (1)
- Computational linguistics (1)
- Computer-Mediated Communication (1)
- Computer-mediated communication (1)
- Computergestützte Lexikographie (1)
- Computerlingustik (1)
- Computerunterstützte Lexikogaphie (1)
- Computerunterstütztes Verfahren (1)
- Computeruntertützte Lexikographie (1)
- Contrastive linguistics (1)
- Conversation corpus (1)
- Conversational Feedback (1)
- Coomputerunterstützte Lexikographie (1)
- Coreference (1)
- Corpora (1)
- Corpus Analysis (1)
- Corpus Comparison (1)
- Corpus Linguistics (1)
- Corpus Management (1)
- Corpus Pattern Analysis (1)
- Corpus Tools (1)
- Corpus query platform (1)
- Croatian (1)
- DARIAH-DE (1)
- DDR (1)
- DaF (1)
- Darmstädter-Tagblatt-Korpus (1)
- Data Architecture (1)
- Data Formats (1)
- Data Science (1)
- Data Vizualization (1)
- Dateiformat (1)
- Datenanreicherung (1)
- Datenbank Gesprochenes Deutsch (DGD) (1)
- Datenerschließung (1)
- Datenerweiterung (1)
- Datengeleitete Forschung (1)
- Datengeleitete Sprachbeschreibung (1)
- Datengeleitete Sprachmodellierung (1)
- Datenkompetenz (1)
- Datenkomposition (1)
- Datenmodell (1)
- Datenstruktur (1)
- Datenstrukturierung (1)
- Datenvernetzung (1)
- DeReKo (1)
- Decision Trees (1)
- Dependency Parsing (1)
- Deskriptivität (1)
- Deutsch als Muttersprache (1)
- Deutsch als Zweitsprache (1)
- Deutsch als Zweitsprache (DaZ) (1)
- Deutsch in Namibia (DNam) (1)
- Deutsche Forschungsgemeinschaft (1)
- Deutsches Referenzkorpus (1)
- Deutschland <Bundesrepublik> (1)
- Deutschland <DDR> (1)
- Didaktik (1)
- Differenzenkoeffizient (1)
- Digital Herrnhut (1)
- Digitale Daten (1)
- Digitaler Sprachassistent (1)
- Direkte Rede (1)
- Direkte Redeeinleiter (1)
- Direktionalphrase (1)
- Discourse Lab (1)
- Discourse analysis (1)
- Discourse annotation (1)
- Diskursanalye (1)
- Diskursive Fähigkeiten (1)
- Diskurslinguistik (1)
- Dispersion (1)
- Distributional semantics (1)
- DiÖ-Korpus (1)
- Drei-Ebenen-Architektur (1)
- Dynamik des Lexikons (1)
- Dzongkha (1)
- EOSC (1)
- Eigentumsrecht (1)
- Einbettung <Linguistik> (1)
- Einfache Sprache (1)
- Einführung (1)
- Einleitung (1)
- Einsprachiges Wörterbuch (1)
- Einsprachigkeit (1)
- Einwanderer (1)
- Elektronisches Forum (1)
- Elektronisches Wörterbuch (1)
- Empirik (1)
- Empirische Sprachdaten (1)
- Endlicher Zustandsraum (1)
- English (1)
- Entdeckendes Lernen (1)
- Enzyklopädie (1)
- Episteme (1)
- Ergänzung <Linguistik> (1)
- Erzähltechnik (1)
- Ethik (1)
- Ethnolinguistik (1)
- European Reference Corpus (EuReCo) (1)
- Europäische Kommission. Digital Single Market (1)
- Evaluation methodologies (1)
- Evangelische Kirche (1)
- Expressionismus (1)
- Externe Ebene (1)
- FAIR (1)
- FAIR Index (1)
- FAIR data (1)
- FOLK-Korpus (1)
- Facebook (1)
- Fachlexikographie (1)
- Feministische Linguistik (1)
- Form-Funktion-Kontinuum (1)
- Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) (1)
- Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK) (1)
- Forschungsdateninfrastruktur (1)
- Forschungsfrage (1)
- Forschungsimpact (1)
- Forschungsstand (1)
- Forschungsverbund (1)
- Forschungswerkzeuge (1)
- Forum für Deutsche Sprache (1)
- Frame-Semantik (1)
- Framing-Effekt (1)
- Frauenbewegung (1)
- Freiburger Corpus (1)
- Fremdsprachendidaktik (1)
- Fremdspracherwerb (1)
- Fremdwort (1)
- French (1)
- French-German (1)
- Frequenzverlauf (1)
- Fugenelement (1)
- Functional Domains (1)
- Futur (1)
- GDE-V (1)
- GOLD standard (1)
- Gebrauchsbasiertheit (1)
- Gebrauchshäufigkeit (1)
- Gebärdensprache (1)
- Gefühl (1)
- Gender Bias (1)
- Genderlinguistik (1)
- Gendern (1)
- Genitive Classification (1)
- Genus (1)
- German Reference Corpus (DeReKo) (1)
- German as a Foreign Language (1)
- German as a Second Language (1)
- German as foreign language (1)
- German as mother tongue (1)
- German language (1)
- German lessons (1)
- German reference corpus (1)
- German spoken language (1)
- Geschichte 1989-1990 (1)
- Geschlecht (1)
- Geschlechterstereotyp (1)
- Gesprochene Korpora (1)
- Gesprochene Sprache in Interaktion (1)
- Gesprochenes Deutsch in der Interaktion (1)
- Gespräch (1)
- Gesprächs-Metadaten (1)
- Gesprächsforschung (1)
- Gift (Begriff) (1)
- Gigafida 2.1 corpus (1)
- Globalisierung (1)
- Glossar (1)
- Gospel <Musik> (1)
- Grafen von Platen (1)
- Grammar (1)
- Grammatikografie (1)
- Grammatiktheorie (1)
- Grammatikunterricht (1)
- Grammis (1)
- GraphVar-Korpus (1)
- Graphematische Variation (1)
- Graphemik (1)
- Graphische Benutzeroberfläche (1)
- Grenzen der Wissenschaft (1)
- HTML (1)
- Haftung (1)
- Hamburger Zentrum für Sprachkorpora (1)
- Hamlet (1)
- Handlungsorientierung im Deutsch als Fremdsprache-Unterricht (1)
- Herder-Institut (Leipzig) (1)
- Heuristik (1)
- Hilfesystem (1)
- Historical Corpora (1)
- Historische Grammatik (1)
- Historische Korpora (1)
- Historische Lexikografie (1)
- Historische Syntax (1)
- Hungarian (1)
- Häufigkeit (1)
- Häufigkeitsklasse (1)
- Häufigkeitsmaß (1)
- Häufigkeitsverteilung (1)
- ICC corpus (1)
- ICE corpus (1)
- IDS Mannheim (1)
- IDS-Korpora (1)
- ISO (1)
- ISO/TC 37/SC 4 (1)
- ISO/TEI (1)
- IVK-Ler corpus of German (1)
- Identitätsverwaltung (1)
- Immanuel Kant (1)
- Impact-Indikatoren (1)
- Implementation (1)
- Indikativ (1)
- Indikator (1)
- Indirekte Redeeinleiter (1)
- Informationsgehalt (1)
- Informationsmanagement (1)
- Informationsstruktur (1)
- Inkorporation (1)
- Instant Messaging (1)
- Instiut für Deutsche Sprache <Mannheim> (1)
- InterCorp (1)
- Interaktionale Linguistik (1)
- Interaktionsanalyse (1)
- Interaktionskorpora (1)
- Interaktionslinguistik (1)
- Interimsprache (1)
- International Conference on Language Resources and Evaluation (12. : 2020 : Marseille) (1)
- International Corpus of English (1)
- Interne Ebene (1)
- Internetkommunikation (1)
- Interrelated document grammars (1)
- Intertextuality (1)
- Intertextualität (1)
- Israel (1)
- Italian (1)
- Italienisch (1)
- Jahrestagung IDS (1)
- Jugend (1)
- Jugendlicher (1)
- Kant, Immanuel (1)
- Kant-Korpus (1)
- Katholische Kirche (1)
- Kausaler Konnektor (1)
- Kiezdeutsch (1)
- Kind (1)
- Kirche in 1live (1)
- Kiriwina (1)
- Klassifikation (1)
- KoGra-R (1)
- Kognition (1)
- Kognitive Linguistik (1)
- Kollokationsforschung (1)
- Konditionaler Konnektor (1)
- Konditionalität (1)
- Konfession (1)
- Konfessioneller Sprachgebrauch (1)
- Kongressbericht (1)
- Konjunktiv (1)
- Konnektor (1)
- Konstruktion (1)
- Konstruktion <Linguistik> (1)
- Kontextinformationen (1)
- Kontextualisierung (1)
- Kontrastive Morphologie (1)
- Kontrastive Syntax (1)
- Kontrastive Textlinguistik (1)
- Konzeptuelle Ebene (1)
- Kookkurrenz (1)
- Kooperation (1)
- Korpora Kontoverse Diskurse (1)
- Korpubasierte Methoden (1)
- Korpus <Llinguistik> (1)
- Korpus GiesKaNe (1)
- Korpus-Recherche (1)
- Korpusanalsyse (1)
- Korpusanalyse (1)
- Korpusannotation (1)
- Korpusarchitektur (1)
- Korpusaufbau (1)
- Korpusbasierte Gesprächsforschung (1)
- Korpusbeleg (1)
- Korpusexploration (1)
- Korpusmanagement (1)
- Korpusrecherche (1)
- Korpusrecherchesystem (1)
- Korpusressource (1)
- Korpusressourcen (1)
- Korpustools (1)
- Korpusvergleich (1)
- Korrelationsanalyse (1)
- Kroatisch (1)
- Kulturgeschichte (1)
- Kymrisch (1)
- L2 Russian (1)
- LFG (1)
- Large Corpora (1)
- Lautschrift (1)
- Lehrstoff (1)
- LeiKo (1)
- Leibniz-Institut für Deutsche Sprache. Jahrestagung (58. : 2022 : Mannheim) (1)
- Leichte Sprache (1)
- Leitfaden (1)
- Lelxikographie (1)
- Lemmata (1)
- Levelled Study Corpus of Russian (LeStCoR) (1)
- Lexical Semantics (1)
- Lexical functional grammar (1)
- Lexicon (1)
- Lexik (1)
- Lexik des gesprochenen Deutsch in der Interaktion (1)
- Lexikalisch funktionale Grammatik (1)
- Lexikalische Analyse (1)
- Lexikalische Ressourcen (1)
- Lexikalisierung (1)
- Lexikografische Angabeklassen (1)
- Lexikostatistik (1)
- Literatur (1)
- Literaturwissenschaft (1)
- Logische Partikel (1)
- Logit-Modell (1)
- Lower Sorbian (1)
- Lyrik (1)
- MLSA (1)
- Machine Leaming (1)
- Machine translating (1)
- Mannheim 2006 (1)
- Mannheim <2009> (1)
- Mannheim <2010> (1)
- Mannheimer Corpus (1)
- Markup Languages (1)
- Maschinelle Übersetzung (1)
- Mathematische Linguistik (1)
- Mathematisches Häufigkeitsmaß (1)
- Maße lexikalischer Vielfalt (1)
- MeToo (1)
- Mehrworteinheit (1)
- Mennonite Low German (1)
- Mennonitendeutsch (1)
- Metadata (1)
- Metadatenschemata (1)
- Metakommunikation (1)
- Metaphorische Verbinterpretation (1)
- Methodenmix (1)
- Methodik (1)
- Migration (1)
- Mikrostruktur (1)
- Minderheitensprache (1)
- Modaladverb (1)
- Modellierung (1)
- Modifikation (1)
- Modifikator (1)
- Modus (1)
- Moral (1)
- Moralisierung (1)
- Moralität (1)
- Morphem (1)
- Morphologie<Linguistik> (1)
- Morphology (1)
- Motion <Linguistik> (1)
- Movierung (1)
- Multikulturelle Gesellschaft (1)
- Multilingual Corpus (1)
- Multilingual corpora (1)
- Multilingual corpus (1)
- Multilingualismus (1)
- Multimodale Korpora (1)
- Multiple annotations (1)
- Multirepräsentationale Daten (1)
- Multisituationale Daten (1)
- Muster (1)
- Musterbildung (1)
- Muttersprache (1)
- MySQL (1)
- Männlichkeit (1)
- Mündliche Hochschulkommunikation (1)
- Mündliches Korpus (1)
- Mündlichkeit (1)
- Mündlichkeitsdidaktik (1)
- N-N compound (1)
- N-gram modeling (1)
- Nachhaltigkeit (1)
- Named Entity Recognition (1)
- Named entity recognition (1)
- Namibia (1)
- Nationalkorpora (1)
- Natural Language Processing (NLP) (1)
- Natürliches sprachliches Handeln (1)
- Negativer Polaritätsausdruck (1)
- Negationen (1)
- NeoRate (1)
- Newspaper (1)
- Nex-Gen Agile Reference Corpus (NARC) (1)
- Niederdeutsch (1)
- Nominalisierung (1)
- Nominalkompositum (1)
- Nord-Sotho (1)
- Northern Sotho (1)
- NottDeuYTSch (1)
- NottDeuYTSch Corpus (1)
- Nutzer (1)
- OAuth (1)
- OTRS (1)
- Online-Publikation (1)
- Online-Schnittstelle (1)
- Onlinekommentare (1)
- Onlinelexikografie (1)
- Onlinewörterbuch (1)
- Ontology (1)
- Open Science (1)
- Oral history (1)
- Oraliteralität (1)
- Orthografisches Kernkorpus (OKK) (1)
- PCFG (1)
- Paradigma (1)
- Paradigmenwechsel (1)
- Parallel European Corpus of Informal Interaction (PECII) (1)
- Parallel corpora (1)
- Parallele Korpora (1)
- Paronym (1)
- Paronymie (1)
- Parser (1)
- Parsing (1)
- Parsing Systems (1)
- Pedi-Sprache (1)
- Personenbezeichnung (1)
- Persönlichkeitsrecht (1)
- Phonetische Korpora (1)
- Phrase <Syntagma> (1)
- Phraseme (1)
- Phänomenmodellierung (1)
- Plenarprotokolle des Deutschen Bundestags (1)
- Polarity Shifter (1)
- Polarität (1)
- Poliqarp (1)
- Politik (1)
- Politische Berichterstattung (1)
- Polysemie (1)
- Pragmem (1)
- Praxisbericht (1)
- Predigt (1)
- Pressemitteilung (1)
- Privacy by Design (1)
- Proposition (1)
- Präpositionalphrase (1)
- Präpositionalsemantik (1)
- QUEST (1)
- QUEST project (1)
- Quantitative Analyse (1)
- Quantitative Linguistik (1)
- Quantitative Methoden der Korpuslinguistik (1)
- Query Languages (1)
- Query Rewriting (1)
- R <Programm> (1)
- RKorAPClient (1)
- RSS <Informatik> (1)
- Radiopredigt (1)
- Rat für Deutsche Rechtschreibung (1)
- Recherche (1)
- Rechtschreibfehler (1)
- Rechtschreibunterricht (1)
- Rechtspopulismus (1)
- Rechtsradikalismus (1)
- Rechtsschutz (1)
- Rechtssprache (1)
- Rechtsstatus (1)
- Redebeitrag (1)
- Redeeinleiter (1)
- Redewiedergabe (1)
- Redewiedergabe-Korpus (1)
- Reference Corpora (1)
- Referenz (1)
- Referenz <Linguistik> (1)
- Reflexitität <Linguistik> (1)
- Regionalkorpus (1)
- Register (1)
- Regressionsanalyse (1)
- Reifeprüfung (1)
- Rektionskompositum (1)
- Relation extraction (1)
- Relative Häufigkeit (1)
- Religion (1)
- Replikationsstudie (1)
- Repository <Informatik> (1)
- Repräsentationsformate von Kontexten (1)
- Resultativkonstruktion (1)
- Revolution <1989> (1)
- Rezeption (1)
- Romanian corpus (1)
- Rover (1)
- Russlanddeutsch (1)
- Russlanddeutsche Dialektdatenbank (RuDiDat) (1)
- Rückmeldung (1)
- SALSA (1)
- SGML (1)
- SQL (1)
- Sachtexte (1)
- Satzadverb (1)
- Satzende (1)
- Schallaufzeichnung (1)
- Schema (1)
- Schlagwort (1)
- Schnittstelle Konstruktionsgrammatik – Phraseologie (1)
- Schreibgebrauch (1)
- Schriftliche Reifeprüfung (1)
- Schriftlichkeit (1)
- Schwedisch (1)
- Schüler (1)
- SciLogs (1)
- Segmentierung (1)
- Semantic Web (1)
- Semantic analysis (1)
- Semantic similarity (1)
- Semantische Analyse (1)
- Semantische Relation (1)
- Semantisches Netz (1)
- Sentiment Analysis (1)
- Sentimentanalyse (1)
- Sepedi (1)
- Serbian (1)
- Serbisch (1)
- Service provider (1)
- Shakespeare, William (1)
- Skalierbarkeit (1)
- Sketch engine (1)
- Slawistik (1)
- Slovak (1)
- Slowakisch (1)
- Slowenisch (1)
- Social Bots (1)
- Social Web (1)
- Softwareergonomie (1)
- Somatischer Phraseologismus (1)
- Songkorpus (1)
- Songtext <Lyrik> (1)
- Songtexte (1)
- Sorbian institute (1)
- Sorbisch (1)
- Soziale Medien (1)
- Soziale Software (1)
- Speech Corpora (1)
- Speech Lexica (1)
- Spezialkorpora (1)
- Sprach(an)fragen (1)
- Sprachakt (1)
- Sprachbeschreibung (1)
- Sprachempirie (1)
- Sprachgebrauchs- und -einstellungsdaten (1)
- Sprachgebrauchsmuster (1)
- Sprachgeographie (1)
- Sprachinsel (1)
- Sprachkontakt (1)
- Sprachkorpus (1)
- Sprachliche Minderheit (1)
- Sprachmodellierung (1)
- Sprachpolitik (1)
- Sprachpolitilk (1)
- Sprachressourcen (1)
- Sprachschwierigkeit (1)
- Sprachstil (1)
- Sprachvariation (1)
- Sprachverfall (1)
- Sprachübersetzung (1)
- Sprecher-Metadaten (1)
- Sprecherwechsel (1)
- Stadtmundart (1)
- Standarddeutsch (1)
- Statistische Linguistik (1)
- Stereotyp (1)
- Stichwortkandidaten (1)
- Streuung (1)
- Suchanfragesprache (1)
- Suchplattform (1)
- Suffix (1)
- Suffixbildung (1)
- Superlativ (1)
- Supervised Classification (1)
- Swedish (1)
- Swiss-AL (1)
- Synonym (1)
- Syntaktische Annotationen (1)
- Synthese (1)
- Systemlinguistik (1)
- Südtirol (1)
- TEI P5 XML (1)
- TEI encoding (1)
- TIB (1)
- TIGER (1)
- Tag (1)
- Tagging (1)
- Technische Informationsbibliothek (TIB) (1)
- Technische Infrastruktur (1)
- Tempus (1)
- Terminologie (1)
- Testdaten (1)
- Text (1)
- Text Classification (1)
- Text Technology (1)
- Text mining (1)
- Text retrieval (1)
- Text+ (1)
- Text-to-Speech (1)
- TextTransfer (1)
- Textbaustein (1)
- Textklassifikation (1)
- Textklassifizierung (1)
- Textsorten (1)
- Textverstehen (1)
- Textverstehendes System (1)
- Thematische Relation (1)
- Token <Linguistik> (1)
- Topikalisierung (1)
- Topikmodellierung (1)
- Tourismus (1)
- Toxische Männlichkeit (1)
- Transfer-Potenzial (1)
- Transitives Verb (1)
- Transitivität (1)
- Transkript (1)
- Transtextualität (1)
- Treebank (1)
- Treebanks (1)
- Trees/Graphs (1)
- Trobriander (1)
- Twitter (1)
- TüNDRA (1)
- Univerbierung (1)
- Unterhaltungsmusik (1)
- Unterrichtstechnologie (1)
- UseNet (1)
- User Generated Content (1)
- Usuelle Wortverbindungen (1)
- Valenz (1)
- Valenz <Linguistik> (1)
- Validating (1)
- Variation (1)
- Variationskorpora (1)
- Verfügbarkeit (1)
- Vergleichende Interaktionsforschung (1)
- Vergleichende Sprachwissenschaft (1)
- Vergleichskorpora (1)
- Verschmelzung (1)
- Very large corpora (1)
- Videoaufnahmen (1)
- VinKo (1)
- Visualisierung von Transkripten (1)
- Visualisierungsplattform (1)
- Visualization (1)
- Vorhersagbarkeit (1)
- Vorwort (1)
- WBÖ-Korpus (1)
- Wahrscheinlichkeitsverteilung (1)
- Walisisch (1)
- Web corpus (1)
- Web spam (1)
- Webapplikation (1)
- Webmonitor-Korpus (1)
- Welsh (1)
- Whatsapp (1)
- Wiederverwendung (1)
- Wikilog@bw (1)
- Wikipedia talk pages (1)
- Wissensbasis (1)
- Wissenschaft (1)
- Wissenschaftlichkeit (1)
- Wissenschaftsethik (1)
- Wissenschaftsgeschichte (1)
- Wissenschaftssprache (1)
- Wissensrepräsentation (1)
- Wissenstransfer (1)
- Word Embeddings (1)
- Word associations (1)
- World Wide Web (1)
- Wort (1)
- Wortart (1)
- Wortfeld (1)
- Wortlänge (1)
- Wortschatzwandel (1)
- Wörterbücher afrikanischer Sprachen (1)
- XQuery (1)
- XQuery Full Text (1)
- XSLT (1)
- YouTube comments (1)
- Zeitreihenanalyse (1)
- Zeitschrift (1)
- Zeitungsartikel (1)
- Zertifizierung (1)
- Zipf–Mandelbrot law (1)
- ZuMult data model (1)
- ZuMult-Datenmodell (1)
- Zustandsverb (1)
- Zuverlässigkeit (1)
- Zweitsprache (1)
- Zweitspracherwerb (1)
- acquisition (1)
- action orientation in GFL teaching (1)
- an (1)
- annotated corpora (1)
- annotation guidelines (1)
- annotation schema (1)
- annotation tool (1)
- anonymisation (1)
- anonymization (1)
- anotación de corpus (1)
- application (1)
- arousal (1)
- audio-visual data (1)
- authentic language (1)
- authentic materials (1)
- big data (1)
- blog corpus (1)
- category detection (1)
- causal tagger (1)
- centres (1)
- clause union (1)
- clitic climbing (1)
- collocation analysis (1)
- collocations (1)
- colonial language contact (1)
- comparable corpus (1)
- compatibility (1)
- composition (1)
- compound family (1)
- compound interpretation (1)
- compression (1)
- computerunterstützte Lexikografie (1)
- comunicación mediada por computadora (CMC) (1)
- construction morphology (1)
- contraction (1)
- conversation corpora (1)
- conversation database (1)
- corpora in DaF/DaZ (1)
- corpus linguistics (1)
- corpus CMC (1)
- corpus access (1)
- corpus analysis tools (1)
- corpus architecture (1)
- corpus compilation (1)
- corpus creation (1)
- corpus driven approach (1)
- corpus frequency (1)
- corpus management systems (1)
- corpus query processing (1)
- corpus querying (1)
- corpus research (1)
- corpus resource (1)
- corpus retrieval (1)
- corpus search engine (1)
- corpus search platform (1)
- corpus size (1)
- corpus storage (1)
- corpus technology (1)
- corpus treatment and editing (1)
- corpus-based conversation research (1)
- corpus-based methods (1)
- corpus-based resources (1)
- corpus-lexicographic tool (1)
- cross-linguistic data (1)
- curation (1)
- data (1)
- data curation (1)
- data dissemination (1)
- data provision (1)
- data referencing (1)
- data sustainability (1)
- database (1)
- database systems (1)
- dataset (1)
- definite article (1)
- definiter Artikel (1)
- derivation (1)
- didactic corpus (1)
- digital collocation database (1)
- digital communication (1)
- digital humanities (1)
- digitally-mediated communication (1)
- discourse dictionary (1)
- discourse marker (1)
- discovering collocations in corpora (1)
- distributional semantics (1)
- domain-specific solutions (1)
- e-lexicography (1)
- eLexiko (1)
- electronic lexicography (1)
- elektronische Edition (1)
- emotional valence (1)
- empirical analysis (1)
- empiricism (1)
- empirische Analyse (1)
- exploration of CMDI metadata (1)
- expressive Komposita (1)
- extensibility (1)
- feminisation (1)
- finite state (1)
- finite state tokenization (1)
- format migration (1)
- framing (1)
- frequency distribution (1)
- functionalities of the Database for Spoken German (1)
- funktionale Pragmatik (1)
- gender (1)
- gender and language (1)
- gender equality (1)
- gender linguistics (1)
- german (1)
- geschriebene Sprache (1)
- geschriebenes und gesprochenes Deutsch (1)
- gesprochenes Deutsch (1)
- gesprochensprachliches Korpus (1)
- grammar acquisistion (1)
- grammar and syntax (1)
- grammatical description (1)
- hands-on report (1)
- headword candidates (1)
- help desk (1)
- historical corpora (1)
- historical lexicography (1)
- historische Lexikographie (1)
- history of science (1)
- impact (1)
- impact categories (1)
- information density (1)
- information retrieval (1)
- infrastructure technology (1)
- infrastructures and architectures (1)
- intensification (1)
- interactional linguistics (1)
- interlingual (1)
- international comparable corpus (1)
- internetbasierte Kommunikation (1)
- internetbasierte Kommunikation (IBK) (1)
- intralingual (1)
- korpusbasierte Lexikografie (1)
- korpusbasierte Phraseologie (1)
- korpusbasierte Ressource (1)
- korpusbasierte und korpusgestützte Lexikografie (1)
- language (1)
- language corpora (1)
- language data (1)
- language documentation (1)
- language fixedness (1)
- language modelling (1)
- language models (1)
- language portal (1)
- large corpus data (1)
- large-scale corpora (1)
- law (1)
- learner corpora (1)
- learner corpus (1)
- learner corpus of adolescent (1)
- lexical data (1)
- lexical information system (1)
- lexical level (1)
- lexical-functional grammar (1)
- lexicographic information classes (1)
- lexicography (1)
- lexicography equality (1)
- lexis (1)
- lexis of spoken German (1)
- liability (1)
- linguistique interactionnelle (1)
- literarische Texte (1)
- log file analysis (1)
- logical/conceptual level (1)
- logistic regression (1)
- longitudinal study (1)
- low-frequency linguistic phenomena (1)
- lyrics (1)
- machine learning methods (1)
- meaning relation (1)
- metacommunication (1)
- metadata analysis (1)
- metadata standards (1)
- methods of data elicitation (1)
- microservices (1)
- microstructure (1)
- minority language (1)
- morphological level (1)
- multi-layer corpora (1)
- multi-turn conversations (1)
- multidisciplinarity (1)
- multilingual corpora (1)
- multilingualism (1)
- multilinguality (1)
- multiword expressions (1)
- mysql (1)
- mündliche Interaktion (1)
- mündliche Korpora (1)
- mündliches Korpus (1)
- naming (1)
- national corpora (1)
- native speech (1)
- natural language processing (1)
- negation (1)
- negation Raising (1)
- neologism detection (1)
- non-native speech (1)
- online dictionary (1)
- online interface (1)
- online lexicography (1)
- oral corpus (1)
- oral corpus platform (1)
- oral history corpora (1)
- oral interaction (1)
- oral language (1)
- oral literacy (1)
- orthography (1)
- parser evaluation (1)
- parsing (1)
- part-of-speech (POS) (1)
- part-of-speech tagging (1)
- pattern-based lexicography (1)
- patterns (1)
- performativity (1)
- persistent identifiers (1)
- phonetic databases (1)
- physical/internal level (1)
- polysemy (1)
- pop lyrics (1)
- predictive approach (1)
- preposition (1)
- privatives (1)
- productivity (1)
- project report (1)
- propositional argument (1)
- proverb (1)
- quality checking (1)
- quality evaluation (1)
- query building (1)
- query language (1)
- query languages (1)
- reference (1)
- reference corpus (1)
- referencing strategies (1)
- relaciones de respuesta (1)
- relational database (1)
- repository (1)
- research data (1)
- research infrastructures (1)
- research into dictionary use (1)
- research reports (1)
- research tools (1)
- resources (1)
- reusability of research data (1)
- search engine (1)
- search query language (1)
- second language acquisition (1)
- semantic extension (1)
- semantische Analyse (1)
- semiotics (1)
- sentence boundary detection (1)
- sentiment (1)
- sentiment analysis (1)
- sharing data (1)
- social media interaction (1)
- social relevance (1)
- sociolinguistics (1)
- space-delimited languages (1)
- specialist corpora (1)
- speech representation (1)
- speech thought writing representation (1)
- spoken corpora (1)
- spoken language in interaction (1)
- spoken language transcripts (1)
- spoken vs. written (1)
- stance (1)
- standard (1)
- standardization (1)
- standards (1)
- standoff annotation (1)
- statistical significance (1)
- subjunctive (1)
- suffix (1)
- sustainability (1)
- syntactic competence (1)
- syntactical level (1)
- syntax (1)
- tagging (1)
- text classification (1)
- text complexity (1)
- text corpus (1)
- three-tier architecture (1)
- time-series analysis (1)
- topic models (1)
- transcription (1)
- type frequency (1)
- under-resourced language varieties (1)
- uniform information density (1)
- urban youth language (1)
- usability (1)
- usage-based model (1)
- user interface (1)
- user interface design (1)
- user support (1)
- user survey (1)
- very large corpora (1)
- view/external level (1)
- virtual corpus (1)
- virtuelle Forschungsumgebung (1)
- visualisation (1)
- visualisation of transcripts (1)
- visualization (1)
- vocabulary growth (1)
- vocabulary of quotation expressions (1)
- vor (1)
- web crawling (1)
- web data (1)
- web service (1)
- wikibasierte Wörterbücher (1)
- word formation in German (1)
- word frequency distribution (1)
- working with transcripts (1)
- youth (1)
- Ähnlichkeitssuche (1)
- Äquivalenztheorien (1)
- Öffentlichkeit (1)
- Österreichischer Sprachraum (1)
- Übersetzungswissenschaft (1)
Publicationstate
- Veröffentlichungsversion (322)
- Zweitveröffentlichung (142)
- Postprint (23)
- Erstveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (237)
- Peer-Review (202)
- Peer-review (5)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (5)
- Zweitveröffentlichung (3)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (2)
- Verlags-Lektorat (2)
- Peer-reviewed (1)
- Review-Status-unbekannt (1)
- Verlagslektorat (1)
Publisher
- de Gruyter (81)
- Institut für Deutsche Sprache (58)
- Narr (33)
- European Language Resources Association (ELRA) (25)
- European Language Resources Association (24)
- Leibniz-Institut für Deutsche Sprache (IDS) (20)
- Narr Francke Attempto (15)
- Leibniz-Institut für Deutsche Sprache (11)
- Linköping University Electronic Press (10)
- CLARIN (8)
Arbeitet man als muttersprachlicher Sprecher des Deutschen mit Corpora gesprochener oder geschriebener deutscher Sprache, dann reflektiert man in aller Regel nur selten über die Vielzahl von kulturspezifischen Informationen, die in solchen Texten kodifiziert sind - vor allem, wenn es sich bei diesen Daten um Texte aus der Gegenwart handelt. In den meisten Fällen hat man nämlich keinerlei Probleme mit dem in den Daten präsupponierten und als allgemein bekannt erachteten Hintergrundswissen. Betrachtet man dagegen Daten in Corpora, die andere - vor allem nicht-indoeuropäische - Sprachen dokumentieren, dann wird einem schnell bewusst, wieviel an kulturspezifischem Wissen nötig ist, um diese Daten adäquat zu verstehen. In meinem Beitrag illustriere ich diese Beobachtung an einem Beispiel aus meinem Corpus des Kilivila, der austronesischen Sprache der Trobriand-Insulaner von Papua-Neuguinea. Anhand eines kurzen Ausschnitts einer insgesamt etwa 26 Minuten dauernden Dokumentation, worüber und wie sechs Trobriander miteinander tratschen und klatschen, zeige ich, was ein Hörer oder Leser eines solchen kurzen Daten-Ausschnitts wissen muss, um nicht nur dem Gespräch überhaupt folgen zu können, sondern auch um zu verstehen, was dabei abläuft und wieso ein auf den ersten Blick absolut alltägliches Gespräch plötzlich für einen Trobriander ungeheuer an Brisanz und Bedeutung gewinnt. Vor dem Hintergrund dieses Beispiels weise ich dann zum Schluss meines Beitrags darauf hin, wie unbedingt nötig und erforderlich es ist, in allen Corpora bei der Erschließung und Kommentierung von Datenmaterialien durch sogenannte Metadaten solche kulturspezifischen Informationen explizit zu machen.
This thesis is a corpus linguistic investigation of the language used by young German speakers online, examining lexical, morphological, orthographic, and syntactic features and changes in language use over time. The study analyses the language in the Nottinghamer Korpus deutscher YouTube‐Sprache ("Nottingham corpus of German YouTube language", or NottDeuYTSch corpus), one of the first large corpora of German‐language comments taken from the videosharing website YouTube, and built specifically for this project. The metadatarich corpus comprises c.33 million tokens from more than 3 million comments posted underneath videos uploaded by mainstream German‐language youthorientated YouTube channels from 2008‐2018.
The NottDeuYTSch corpus was created to enable corpus linguistic approaches to studying digital German youth language (Jugendsprache), having identified the need for more specialised web corpora (see Barbaresi 2019). The methodology for compiling the corpus is described in detail in the thesis to facilitate future construction of web corpora. The thesis is situated at the intersection of Computer‐Mediated Communication (CMC) and youth language, which have been important areas of sociolinguistic scholarship since the 1980s, and explores what we can learn from a corpus‐driven, longitudinal approach to (online) youth language. To do so, the thesis uses corpus linguistic methods to analyse three main areas:
1. Lexical trends and the morphology of polysemous lexical items. For this purpose, the analysis focuses on geil, one of the most iconic and productive words in youth language, and presents a longitudinal analysis, demonstrating that usage of geil has decreased, and identifies lexical items that have emerged as potential replacements. Additionally, geil is used to analyse innovative morphological productiveness, demonstrating how different senses of geil are used as a base lexeme or affixoid in compounding and derivation.
2. Syntactic developments. The novel grammaticalization of several subordinating conjunctions into both coordinating conjunctions and discourse markers is examined. The investigation is supported by statistical analyses that demonstrate an increase in the use of non‐standard syntax over the timeframe of the corpus and compares the results with other corpora of written language.
3. Orthography and the metacommunicative features of digital writing. This analysis identifies orthographic features and strategies in the corpus, e.g. the repetition of certain emoji, and develops a holistic framework to study metacommunicative functions, such as the communication of illocutionary force, information structure, or the expression of identities. The framework unifies previous research that had focused on individual features, integrating a wide range of metacommunicative strategies within a single, robust system of analysis.
By using qualitative and computational analytical frameworks within corpus linguistic methods, the thesis identifies emergent linguistic features in digital youth language in German and sheds further light on lexical and morphosyntactic changes and trends in the language of young people over the period 2008‐2018. The study has also further developed and augmented existing analytical frameworks to widen the scope of their application to orthographic features associated with digital writing.
The paper reports the results of the curation project ChatCorpus2CLARIN. The goal of the project was to develop a workflow and resources for the integration of an existing chat corpus into the CLARIN-D research infrastructure for language resources and tools in the Humanities and the Social Sciences (http://clarin-d.de). The paper presents an overview of the resources and practices developed in the project, describes the added value of the resource after its integration and discusses, as an outlook, to what extent these practices can be considered best practices which may be useful for the annotation and representation of other CMC and social media corpora.
This introductory tutorial describes a strictly corpus-driven approach for uncovering indications for aspects of use of lexical items. These aspects include ‘(lexical) meaning’ in a very broad sense and involve different dimensions, they are established in and emerge from respective discourses. Using data-driven mathematical-statistical methods with minimal (linguistic) premises, a word’s usage spectrum is summarized as a collocation profile. Self-organizing methods are applied to visualize the complex similarity structure spanned by these profiles. These visualizations point to the typical aspects of a word’s use, and to the common and distinctive aspects of any two words.
To build a comparable Wikipedia corpus of German, French, Italian, Norwegian, Polish and Hungarian for contrastive grammar research, we used a set of XSLT stylesheets to transform the mediawiki anntations to XML. Furthermore, the data has been amnntated with word class information using different taggers. The outcome is a corpus with rich meta data and linguistic annotation that can be used for multilingual research in various linguistic topics.
Song lyrics can be considered as a text genre that has features of both written and spoken discourse, and potentially provides extensive linguistic and cultural information to scientists from various disciplines. However, pop songs play a rather subordinate role in empirical language research so far - most likely due to the absence of scientifically valid and sustainable resources. The present paper introduces a multiply annotated corpus of German lyrics as a publicly available basis for multidisciplinary research. The resource contains three types of data for the investigation and evaluation of quite distinct phenomena: TEI-compliant song lyrics as primary data, linguistically and literary motivated annotations, and extralinguistic metadata. It promotes empirically/statistically grounded analyses of genre-specific features, systemic-structural correlations and tendencies in the texts of contemporary pop music. The corpus has been stratified into thematic and author-specific archives; the paper presents some basic descriptive statistics, as well as the public online frontend with its built-in evaluation forms and live visualisations.
This paper presents a short insight into a new project at the "Institute for the German Language” (IDS) (Mannheim). It gives an insight into some basic ideas for a corpus-based dictionary of spoken German, which will be developed and compiled by the new project "The Lexicon of spoken German” (Lexik des gesprochenen Deutsch, LeGeDe). The work is based on the "Research and Teaching Corpus of Spoken German” (Forschungs- und Lehrkorpus Gesprochenes Deutsch, FOLK), which is implemented in the "Database for Spoken German” (Datenbank für Gesprochenes Deutsch, DGD). Both resources, the database and the corpus, have been developed at the IDS.
There have been several attempts to annotate communicative functions to utterances of verbal feedback in English previously. Here, we suggest an annotation scheme for verbal and non-verbal feedback utterances in French including the categories base, attitude, previous and visual. The data comprises conversations, maptasks and negotiations from which we extracted ca. 13,000 candidate feedback utterances and gestures. 12 students were recruited for the annotation campaign of ca. 9,500 instances. Each instance was annotated by between 2 and 7 raters. The evaluation of the annotation agreement resulted in an average best-pair kappa of 0.6. While the base category with the values acknowledgement, evaluation, answer, elicit and other achieves good agreement, this is not the case for the other main categories. The data sets, which also include automatic extractions of lexical, positional and acoustic features, are freely available and will further be used for machine learning classification experiments to analyse the form-function relationship of feedback.