OPUS 4 | Korpuslinguistik

Dokumentationen zur Korpusgrammatik (2018)

Datenbank attributive Adjektive (2018)

Münzberg, Franziska ; Falke, Stefan ; Hansen-Morath, Sandra ; Waßner, Ulrich Hermann

In der Datenbank zum Datensatz attributive_Adjektive_1.csv finden sich 1.598 Belege zu artikellosen Nominalphrasen mit je zwei attributiven Adjektiven im Dativ Singular Maskulinum oder Neutrum. Die Datenbank attributive Adjektive enthält zu jedem Beleg neben dem Satzkontext eine Reihe von Annotationen. Dazu gehören Metadaten wie Register und regionale Zuordnung sowie Annotationen zur Phonologie, Morphosyntax, Semantik und Frequenz. Anhand dieser Annotationen lassen sich Hypothesen zur Adjektivflexion und -reihenfolge überprüfen. Nach einer Auswahl aus diesen Annotationen können Sie hier suchen. Alternativ können Sie unter „Download“ das gesamte Suchergebnis mit allen Annotationen und inklusive aller Belege, die bei der Untersuchung von Adjektivflexion und -reihenfolge als Fehlbelege eingestuft worden sind, herunterladen.

Korpusbasierte Diskursrecherche mit Rabbid (2018)

Mell, Ruth M. ; Diewald, Nils

Die Diskurslinguistik hat sich in den letzten Jahren als eine linguistische Teildisziplin etabliert, die in transtextuellen Untersuchungen über sprachliche Muster gesamtgesellschaftlich rele-vante Denk- und Vorstellungswelten rekonstruiert. Die Digitalisierung hat nicht nur unsere Gesellschaft grundlegend verändert und neue Kommunikationsformen und innovative kulturelle Praktiken geprägt, sondern auch das diskurslinguistische Arbeiten maßgeblich beein-flusst. So war die Etablierung der Diskurslinguistik sowie auch der diskursorientierten Lexikographie geprägt durch die Engführung mit computergestützten Methoden (Bubenhofer 2009, Teubert/Čermáková 2007, Halliday et al. 2004), die große Textsammlungen für Diskursanalysen zugänglich machen. Da diskursanalytische Forschung in foucaultscher Tradition nicht am Einzelbeleg interessiert ist, sondern mit kontextuellen Mustern und intertextuellen Verweisstrukturen arbeitet, bietet eine korpusgestützte Analyse eine produktive Ausgangsbasis für Diskursuntersuchungen. Dies gilt insbesondere für die Diskurslexikographie, bei der auf breiter Datenbasis Wörterbücher zu kulturhistorischen Diskursen erstellt werden.

Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC-5+BigNLP) 2017 including the papers from the Web-as-Corpus (WAC-XI) guest section. Birmingham, 24 July 2017 (2017)

Contents: 1. Andreas Dittrich: Intra-connecting a small exemplary literary corpus with semantic web technologies for exploratory literary studies, S. 1 2. John Kirk, Anna Čermáková: From ICE to ICC: The new International Comparable Corpus, S. 7 3. Dawn Knight, Tess Fitzpatrick, Steve Morris, Jeremy Evas, Paul Rayson, Irena Spasic, Mark Stonelake, Enlli Môn Thomas, Steven Neale, Jennifer Needs, Scott Piao, Mair Rees, Gareth Watkins, Laurence Anthony, Thomas Michael Cobb, Margaret Deuchar, Kevin Donnelly, Michael McCarthy, Kevin Scannell: Creating CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh), S. 13 4. Marc Kupietz, Andreas Witt, Piotr Bański, Dan Tufiş, Dan Cristea, Tamás Váradi: EuReCo - Joining Forces for a European Reference Corpus as a sustainable base for cross-linguistic research, S. 15 5. Harald Lüngen, Marc Kupietz: CMC Corpora in DeReKo, S. 20 6. David McClure, Mark Algee-Hewitt, Douris Steele, Erik Fredner, Hannah Walser: Organizing corpora at the Stanford Literary Lab, S. 25 7. Radoslav Rábara, Pavel Rychlý ,Ondřej Herman: Accelerating corpus search using multiple cores, S. 30 8. John Vidler, Stephen Wattam: Keeping Properties with the Data: CL-MetaHeaders – An Open Specification, S. 35 9. Vladimir Benko: Are Web Corpora Inferior? The Case of Czech and Slovak, S. 43 10. Edyta Jurkiewicz-Rohrbacher, Zrinka Kolaković, Björn Hansen: Web Corpora – the best possible solution for tracking phenomena in underresourced languages: clitics in Bosnian, Croatian and Serbian, S. 49 11. Vít Suchomel: Removing Spam from Web Corpora Through Supervised Learning Using FastText, S. 56

EuReCo - Joining Forces for a European Reference Corpus as a sustainable base for cross-linguistic research (2017)

Kupietz, Marc ; Witt, Andreas ; Bański, Piotr ; Tufiş, Dan ; Cristea, Dan ; Váradi, Tamás

In this paper we discuss the opportunities, prerequisites, possible applications and implications of a virtually joint corpus based on existing national, reference or other large corpora and their host institutions.

CMC Corpora in DeReKo (2017)

Lüngen, Harald ; Kupietz, Marc

We introduce three types of corpora of computer-mediated communication that have recently been compiled at the Institute for the German Language or curated from an external project and included in DeReKo, the German Reference Corpus, namely Wikipedia (discussion) corpora, the Usenet news corpus, and the Dortmund Chat Corpus. The data and corpora have been converted to I5, the TEI customization to represent texts in DeReKo, and are researchable via the web-based IDS corpus research interfaces and in the case of Wikipedia and chat also downloadable from the IDS repository and download server, respectively.

Metadaten im Programmbereich „Mündliche Korpora“ des IDS (2017)

Dickgießer, Sylvia

Deutsche Antonyme aus korpuslinguistischer Sicht – Muster und Funktionen (2015)

Storjohann, Petra

KoGra-R - Standardisierte statistische Verfahren für korpusbasierte Häufigkeiten. Elektronische Ressource (2015)

Hansen-Morath, Sandra ; Schmitz, Hans-Christian ; Wolfer, Sascha

Proceedings of the 3rd Workshop on Challenges in the Management of Large Corpora (CMLC-3) (2015)

Contents: 1. Michal Křen: Recent Developments in the Czech National Corpus, S. 1 2. Dan Tufiş, Verginica Barbu Mititelu, Elena Irimia, Stefan Dumitrescu, Tiberiu Boros, Horia Nicolai Teodorescu: CoRoLa Starts Blooming – An update on the Reference Corpus of Contemporary Romanian Language, S. 5 3. Sebastian Buschjäger, Lukas Pfahler, Katharina Morik: Discovering Subtle Word Relations in Large German Corpora, S. 11 4. Johannes Graën, Simon Clematide: Challenges in the Alignment, Management and Exploitation of Large and Richly Annotated Multi-Parallel Corpora, S. 15 5. Stefan Evert, Andrew Hardie: Ziggurat: A new data model and indexing format for large annotated text corpora, S. 21 6. Roland Schäfer: Processing and querying large web corpora with the COW14 architecture, S. 28 7. Jochen Tiepmar: Release of the MySQL-based implementation of the CTS protocol, S. 35

Open Access

Korpuslinguistik

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

13 search hits