Refine
Year of publication
- 2015 (50) (remove)
Document Type
- Part of a Book (13)
- Article (10)
- Conference Proceeding (8)
- Book (6)
- Other (5)
- Part of Periodical (5)
- Working Paper (3)
Keywords
- Deutsch (25)
- Korpus <Linguistik> (13)
- Verb (8)
- Annotation (6)
- Corpus annotation (6)
- Corpus technology (6)
- Datenbanksystem (6)
- Large corpora (5)
- Corpus linguistics (4)
- Genitiv (4)
Publicationstate
Reviewstate
- Verlags-Lektorat (14)
- (Verlags)-Lektorat (12)
- Peer-Review (8)
Publisher
- Institut für Deutsche Sprache (50) (remove)
Familienähnlichkeiten deutscher Argumentstrukturmuster. Definitionen und grundlegende Annahmen
(2015)
Ziel des vorliegenden Beitrags ist es, auszuloten, wie Sprechen und Handeln, das wir aus dem Alltag kennen, einzuschätzen ist, wenn es im Fernsehen und vor allem im so genannten Reality-TV erscheint. Einen guten Einstieg, diese Problemstellung zu illustrieren, bieten Pannen, wie man sie etwa aus Nachrichtensendungen wie der Tagesschau kennt.
Das Wörterbuch "Neuer Wortschatz" präsentiert den deutschen Wortschatz, der zwischen 2001 und 2010 aufgekommen und in die Allgemeinsprache eingegangen ist. Lexikografisch umfassend beschrieben sind mehr als 570 neue Wörter (z.B. Umweltzone, twittern), neue feste Wortverbindungen (z.B. grünes Rezept, etwas ist kein Ponyhof) und neue Bedeutungen etablierter Wörter (z.B. Heuschrecke 'Finanzinvestor', Stolperstein 'Gedenkstein'). Zu den aus herkömmlichen Wörterbüchern bekannten Angaben z.B. zur Aussprache, Grammatik, Bedeutung treten neue, z.B. zur Wortbildung, zu Enzyklopädischem, die den erhöhten Informationsbedarf in Bezug auf neuen Wortschatz befriedigen helfen. Zusätzlich finden sich neologismusspezifische Angaben zu Aufkommen und Ausbreitung im Erfassungszeitraum - unter Einbeziehung von Zeitverlaufsgrafiken - sowie zur Erstbuchung in einschlägigen Wörterbüchern.
Das Wörterbuch "Neuer Wortschatz" präsentiert den deutschen Wortschatz, der zwischen 2001 und 2010 aufgekommen und in die Allgemeinsprache eingegangen ist. Lexikografisch umfassend beschrieben sind mehr als 570 neue Wörter (z.B. Umweltzone, twittern), neue feste Wortverbindungen (z.B. grünes Rezept, etwas ist kein Ponyhof) und neue Bedeutungen etablierter Wörter (z.B. Heuschrecke 'Finanzinvestor', Stolperstein 'Gedenkstein'). Zu den aus herkömmlichen Wörterbüchern bekannten Angaben z.B. zur Aussprache, Grammatik, Bedeutung treten neue, z.B. zur Wortbildung, zu Enzyklopädischem, die den erhöhten Informationsbedarf in Bezug auf neuen Wortschatz befriedigen helfen. Zusätzlich finden sich neologismusspezifische Angaben zu Aufkommen und Ausbreitung im Erfassungszeitraum - unter Einbeziehung von Zeitverlaufsgrafiken - sowie zur Erstbuchung in einschlägigen Wörterbüchern.
Transkriptionsaufwand
(2015)
Während die Erhebung von Gesprächsdaten zwar zeitaufwändig, aber doch noch relativ zügig zu bewältigen ist, handelt es sich bei der Transkription um eine langwierige Aufgabe, die oft unterschätzt wird. Damit Studierende, Promovierende sowie WissenschaftlerInnen, die Exposés, Arbeitspläne usw. aufstellen oder Zuschüsse für Projekte beantragen müssen, zukünftig über fundiertere Werte verfügen und damit realistischere Aussagen über den benötigten Aufwand (zeitliche wie personelle Ressourcen) treffen können, stellt der Beitrag die Ergebnisse einer Erhebung des Transkriptionsaufwandes im FOLK-Projekt vor.
Maskierung
(2015)
Aus forschungsethischen Gründen müssen die Daten aus Gesprächsaufzeichnungen, die Metadaten sowie die Transkripte maskiert werden. Der Beitrag stellt Arbeitsschritte der Maskierung vor, die auf den Erfahrungen bei der Datenaufbereitung der Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für die Veröffentlichung in der Datenbank für Gesprochenes Deutsch (DGD) basieren.
With an increasing amount of text data available it is possible to automatically extract a variety of information about language. One way to obtain knowledge about subtle relations and analogies between words is to observe words which are used in the same context. Recently, Mikolov et al. proposed a method to efficiently compute Euclidean word representations which seem to capture subtle relations and analogies between words in the English language. We demonstrate that this method also captures analogies in the German language. Furthermore, we show that we can transfer information extracted from large non-annotated corpora into small annotated corpora, which are then, in turn, used for training NLP systems.
The IMS Open Corpus Workbench (CWB) software currently uses a simple tabular data model with proven limitations. We outline and justify the need for a new data model to underlie the next major version of CWB. This data model, dubbed Ziggurat, defines a series of types of data layer to represent different structures and relations within an annotated corpus; each such layer may contain variables of different types. Ziggurat will allow us to gradually extend and enhance CWB’s existing CQP-syntax for corpus queries, and also make possible more radical departures relative not only to the current version of CWB but also to other contemporary corpus-analysis software.
The availability of large multi-parallel corpora offers an enormous wealth of material to contrastive corpus linguists, translators and language learners, if we can exploit the data properly. Necessary preparation steps include sentence and word alignment across multiple languages. Additionally, linguistic annotation such as partof- speech tagging, lemmatisation, chunking, and dependency parsing facilitate precise querying of linguistic properties and can be used to extend word alignment to sub-sentential groups. Such highly interconnected data is stored in a relational database to allow for efficient retrieval and linguistic data mining, which may include the statistics-based selection of good example sentences. The varying information needs of contrastive linguists require a flexible linguistic query language for ad hoc searches. Such queries in the format of generalised treebank query languages will be automatically translated into SQL queries.
In this paper, I present the COW14 tool chain, which comprises a web corpus creation tool called texrex, wrappers for existing linguistic annotation tools as well as an online query software called Colibri2. By detailed descriptions of the implementation and systematic evaluations of the performance of the software on different types of systems, I show that the COW14 architecture is capable of handling the creation of corpora of up to at least 100 billion tokens. I also introduce our running demo system which currently serves corpora of up to roughly 20 billion tokens in Dutch, English, French, German, Spanish, and Swedish
In a project called "A Library of a Billion Words" we needed an implementation of the CTS protocol that is capable of handling a text collection containing at least 1 billion words. Because the existing solutions did not work for this scale or were still in development I started an implementation of the CTS protocol using methods that MySQL provides. Last year we published a paper that introduced a prototype with the core functionalities without being compliant with the specifications of CTS (Tiepmar et al., 2013). The purpose of this paper is to describe and evaluate the MySQL based implementation now that it is fulfilling the specifications version 5.0 rc.1 and mark it as finished and ready to use. Further information, online instances of CTS for all described datasets and binaries can be accessed via the projects website.
This article reports on the on-going CoRoLa project, aiming at creating a reference corpus of contemporary Romanian (from 1945 onwards), opened for online free exploitation by researchers in linguistics and language processing, teachers of Romanian, students. We invest serious efforts in persuading large publishing houses and other owners of IPR on relevant language data to join us and contribute the project with selections of their text and speech repositories. The CoRoLa project is coordinated by two Computer Science institutes of the Romanian Academy, but enjoys cooperation of and consulting from professional linguists from other institutes of the Romanian Academy. We foresee a written component of the corpus of more than 500 million word forms, and a speech component of about 300 hours of recordings. The entire collection of texts (covering all functional styles of the language) will be pre-processed and annotated at several levels, and also documented with standardized metadata. The pre-processing includes cleaning the data and harmonising the diacritics, sentence splitting and tokenization. Annotation will include morpho-lexical tagging and lemmatization in the first stage, followed by syntactic, semantic and discourse annotation in a later stage.
Contents:
1. Michal Křen: Recent Developments in the Czech National Corpus, S. 1
2. Dan Tufiş, Verginica Barbu Mititelu, Elena Irimia, Stefan Dumitrescu, Tiberiu Boros, Horia Nicolai Teodorescu: CoRoLa Starts Blooming – An update on the Reference Corpus of Contemporary Romanian Language, S. 5
3. Sebastian Buschjäger, Lukas Pfahler, Katharina Morik: Discovering Subtle Word Relations in Large German Corpora, S. 11
4. Johannes Graën, Simon Clematide: Challenges in the Alignment, Management and Exploitation of Large and Richly Annotated Multi-Parallel Corpora, S. 15
5. Stefan Evert, Andrew Hardie: Ziggurat: A new data model and indexing format for large annotated text corpora, S. 21
6. Roland Schäfer: Processing and querying large web corpora with the COW14 architecture, S. 28
7. Jochen Tiepmar: Release of the MySQL-based implementation of the CTS protocol, S. 35
The Czech National Corpus (CNC) is a longterm project striving for extensive and continuous mapping of the Czech language. This effort results mostly in compilation, maintenance and providing free public access to a range of various corpora with the aim to offer a diverse, representative, and high-quality data for empirical research mainly in linguistics. Since 2012, the CNC is officially recognized as a research infrastructure funded by the Czech Ministry of Education, Youth and Sports which has caused a recent shift towards user service-oriented operation of the project. All project-related resources are now integrated into the CNC research portal at http://www.korpus.cz/. Currently, the CNC has an established and growing user community of more than 4,500 active users in the Czech Republic and abroad who put almost 1,900 queries per day using one of the user interfaces. The paper discusses the main CNC objectives for each particular domain, aiming at an overview of the current situation supplemented by an outline of future plans.
Introduction
(2015)
In dem Beitrag werden Argumentstrukturmuster mit inneren Objekten genauer untersucht. Als innere Objekte werden Akkusativobjekte bezeichnet, die gelegentlich von normalerweise intransitiven Verben zu sich genommen werden und deren Objekts-Nomen mit dem Verb etymologisch, morphologisch und/oder semantisch verwandt ist. Das heißt, es handelt sich um Sätze wie Maria lachte ihr fröhliches Lachen, Alles geht seinen geordneten Gang oder Er kämpft einen aussichtslosen Kampf. Wie man an diesen wenigen Beispielsätzen bereits sehen kann, wird mit dem inneren Objekt etwas explizit zum Ausdruck gebracht, was bereits in der Verbbedeutung implizit enthalten bzw. angelegt ist, denn lachen bedeutet ja ‘Freude zum Ausdruck bringen, indem man ein Lachen von sich gibt’ und kämpfen heißt ‘einen Kampf führen, Kampfhandlungen vollziehen, sich mit jmdm. oder etw. auseinandersetzen’.
Die Beiträge dieses Hefts knüpfen inhaltlich an die Artikel des OPAL-Sonderhefts 4/2009 mit dem Titel Konstruktionelle Varianz bei Verben (http://pub.ids-mannheim.de/laufend/opal/opal09-4.html) an. Thema beider Hefte sind die Argumentstrukturen von Verben. Im vorliegenden Heft werden zwei der bereits im OPAL-Sonderheft diskutierten Argumentstrukturmuster, Argumentstrukturmuster mit innerem Objekt und SUCH-Argumentstrukturmuster, wieder aufgegriffen und unter dem Gesichtspunkt ihres Status als Mitglieder größerer Gruppen von Argumentstrukturmustern diskutiert. Die erstgenannte Gruppe von Argumentstrukturmustern umfasst – wie der Name auch sagt – Strukturen, die ein Objekt enthalten, das in der Grammatikschreibung als inneres oder kognates Objekt bezeichnet wird, wie etwa einen aussichtslosen Kampf kämpfen, eines natürlichen Todes sterben, einen Walzer tanzen u.Ä. Bei Letzteren handelt es sich um eine Gruppe von Argumentstrukturmustern wie etwa nach etwas suchen, etwas auf etwas durchsuchen, nach etwas fahnden, nach etwas sinnen, nach etwas schreien und jemanden um etwas bitten. Wie diese Auflistung bereits zeigt, handelt es sich bei SUCH-Argumentstrukturmustern nicht nur um Muster mit reiner SUCH-Bedeutung. Insofern ist der Name arbiträr. Er wurde in Anlehnung an den von Levin (1993, S. 70-71) eingeführten Begriff der SEARCH-Alternation gewählt, mit dem die Alternation der Muster NP1 V NP2 in NP3 (Ida hunted deer in the woods), NP1 V NP3 for NP2 (Ida hunted the woods for deer) und NP1 V for NP2 in NP3 (Ida hunted for deer in the woods) im Englischen gemeint war. Sowohl die Beiträge des OPAL-Sonderhefts 4/2009 als auch die Beiträge des vorliegenden Hefts sind aus dem Projekt Verben und Argumentstrukturen (www.ids-mannheim.de/lexik/polysemievarianz.html; ehemals Polysemie und konstruktionelle Varianz) hervorgegangen, das zur Zeit in der Abteilung Lexik des IDS bearbeitet wird.
Rückblick in Dankbarkeit
(2015)
Valenz im Fokus: Vorwort
(2015)
Die Festschrift Valenz im Fokus: Grammatische und lexikografische Studien enthält zum einen die Beiträge des internationalen Kolloquiums „Valenz im Fokus“, das am 12. Juli 2013 im Institut für Deutsche Sprache in Mannheim zu Ehren von Jacqueline Kubczak veranstaltet wurde, zum anderen weitere Beiträge von Kollegen aus der ganzen Welt, die zum einen als elektronische Publikation während des Kolloquiums präsentiert wurden, zum anderen speziell für diese Festschrift hinzukamen.
Voll Energie stecken und voller Geigen hängen - seltsame Phrasentypen und ungewöhnliche Valenzmuster
(2015)
Valenz im Fokus. Grammatische und lexikografische Studien. Festschrift für Jacqueline Kubczak
(2015)
Die Festschrift Valenz im Fokus: Grammatische und lexikografische Studien enthält zum einen die Beiträge des internationalen Kolloquiums „Valenz im Fokus“, das am 12. Juli 2013 im Institut für Deutsche Sprache in Mannheim zu Ehren von Jacqueline Kubczak veranstaltet wurde, zum anderen weitere Beiträge von Kollegen aus der ganzen Welt, die zum einen als elektronische Publikation während des Kolloquiums präsentiert wurden, zum anderen speziell für die Festschrift hinzukamen.
Valenz und Kookkurrenz
(2015)
Der Tanz um das Verb
(2015)