Refine
Year of publication
- 2015 (318) (remove)
Document Type
- Part of a Book (137)
- Article (77)
- Conference Proceeding (39)
- Book (37)
- Part of Periodical (10)
- Working Paper (8)
- Other (7)
- Master's Thesis (1)
- Preprint (1)
- Review (1)
Keywords
- Deutsch (116)
- Korpus <Linguistik> (52)
- Verb (21)
- Gesprochene Sprache (16)
- Interaktion (14)
- Wörterbuch (14)
- Computerlinguistik (13)
- Computerunterstützte Lexikographie (13)
- Englisch (13)
- Annotation (12)
Publicationstate
- Veröffentlichungsversion (141)
- Zweitveröffentlichung (20)
- Postprint (13)
- Preprint (2)
- Erstveröffentlichung (1)
Reviewstate
Publisher
- Institut für Deutsche Sprache (50)
- De Gruyter (32)
- de Gruyter (25)
- Lang (12)
- Narr Francke Attempto (11)
- Narr (10)
- Springer (7)
- Winter (7)
- Frank & Timme (4)
- IDS (4)
Pogled u e-leksikografiju
(2015)
U radu se daje pregled temeljnih pojmova i klasifikacija u području e-leksikografije. Donosi se klasifikacija e-rječnika, prikazuje se leksikografski proces izrade e-rječnika te pregled najraširenijih sustava za izradu rječnika (DWS) i sustava za pretragu korpusa (CQS). Kao primjer dobre prakse detaljnije se opisuje mrežni rječnik elexiko (Institut za njemački jezik u Mannheimu): prikazuju se njegovi ciljevi i namjena, teorijske i metodološke postavke, moduli te mogućnosti uporabe. Kao moguća osnova za izradu korpusno utemeljenoga e-rječnika hrvatskoga jezika koji bi bio u skladu s najrecentnijim leksikografskim (i uopće lingvističkim) teorijama i praksama prikazuje se rad na mrežnome leksičko-semantičkome repozitoriju hrvatskoga jezika (baza semantičkih okvira, predodžbenih shema, kognitivnih primitiva i leksičkih jedinica) u okviru projekta Repozitorij metafora hrvatskoga jezika.
Sprichwörter im Gebrauch
(2015)
Moderne Grammatiktheorien sind statisch, d.h. skriptizistisch und synchronizistisch. Dies bedeutet, dass deren Beschreibungsapparat auf die Strukturen gegenwärtiger Schrift- und Standardsprachen zugeschnitten ist. Im Beitrag wird für einen dynamischen, d.h. nichtskriptizistischen und nichtsynchronizistischen, Perspektivenwechsel in der Grammatikforschung plädiert, der auf folgenden empirisch fundierten Überlegungen basiert:
1. Literalisierung ist eine kulturelle Universalie, die kognitiv verankert ist.
2. Es sind unterschiedliche Phasen der Literalisierung zu unterscheiden.
3. Literalisierung im Allgemeinen und die Phasen der Literalisierung im Besonderen haben Konsequenzen für die grammatische Struktur.
4. Die Interpretation von grammatischen Strukturen ist nur vor der Folie der jeweiligen Phase der Literalisierung möglich.
5. Ein dynamisches Grammatikmodell muss das historische Verhältnis auch begrifflich abbilden. Dies wird an zentralen grammatischen Konzepten wie Aggregation vs. Integration, Wortgruppe vs. Phase und an der Wortstellung (Verbklammer, Stellungsfeldermodell, Satzrandglieder) veranschaulicht.
6. Historisch ist von einem dynamischen Verhältnis von Online- und Offlinesyntax, von syntaktischer Zeitlichkeit und syntaktischer Räumlichkeit, auszugehen. Was zu einer bestimmten Zeit und in einer bestimmten Varietät als Onlinestruktur zu interpretieren ist, hängt von dem jeweiligen historischen Verhältnis von Online- und Offlinestrukturen ab.
When formulating a request for an object, speakers can choose among different grammatical resources that would all serve the overall purpose. This paper examines the social contexts indexed and created by the choice of the turn format can I have x to request a shared good (the pepper grinder, a tissue from a box on the table, etc.) in British English informal interaction. The analysis is based on a video corpus of approximately 25 h of everyday interaction among family and friends. In its home environment, a request in the format can I have x treats the other as being in control over the relevant material object, a control that is the contingent outcome of ongoing courses of action. This contingent control over a shared good produces an obligation to make it available. This analysis is supported by an examination of similarly formatted request turns in other languages, of can I have x in another interactional environment (after a relevant offer has been made) in British English, and of deviant cases. The results highlight the intimate connection of request format selection to the present engagements of (prospective) request recipients.
This study examines the pitch profiles of French learners of German and German learners of French, both in their native language (L1), and in their respective foreign language (L2). Results of the analysis of 84 speakers suggest that for short read sentences, French and German speakers do not show pitch range differences in their native production. Furthermore, analyses of mean f0 and pitch range indicate that range is not necessarily reduced in L2 productions. These results are different from results reported in prior research. Possible reasons for these differences are discussed.
Satz - oberflächlich
(2015)
Das hier vorgestellte oberflächennahe Satzkonzept orientiert sich an der Definition der IDS-Grammatik: Sätze sind Konstruktionsformen, die mindestens aus einem finiten Verb und seinen Komplementen bestehen. Das semantische Korrelat des Satzes ist die Proposition, bestehend aus Prädikat und Argumenten. Die Unterscheidung der englischsprachigen Tradition zwischen sentence und clause bzw. die entsprechende Unterscheidung zwischen proposition und phrase im Französischen wird in diesem Ansatz durch die Opposition zwischen ,Vollsatz‘ und ,Teilsatz‘ erfasst. Oberflächenorientierte Satzdefinitionen können, im Gegensatz zu der hier vertretenen intern-syntaktischen Definition, auch – in syntaktischer Hinsicht – auf externen Merkmalen beruhen, nämlich auf orthografisch-prosodischen Merkmalen oder dem Kriterium der syntaktischen Unabhängigkeit gemäß Bloomfields bekannter Satzdefinition. In typologischer Perspektive zeichnen sich Sätze durch einen „satzkonstituierenden Akt“ (Sasse 1991, 77) aus bzw. eine spezifische morphosyntaktische Konstellation, die zum Ausdruck des Sachverhalts hinzukommen muss. Unter pragmatischer Perspektive ist der Satz die prototypische Mitteilungseinheit. Er kann dekontextualisiert werden, während andere Mitteilungsformen nur in ihrem jeweiligen Kontext interpretierbar sind. Ihrem semiotischen Status nach sind Sätze komplexe sprachliche Zeichen. Die ihnen zugrundeliegenden Regeln oder Konstruktionen hingegen haben keinen Zeichencharakter.
Voll Energie stecken und voller Geigen hängen - seltsame Phrasentypen und ungewöhnliche Valenzmuster
(2015)
Der Beitrag soll Anregungen geben, wie zwei verschiedene Forschungsstränge zusammengeführt werden könnten, die in der deutschen und französischen germanistischen Linguistik intensiv verfolgt werden. Es handelt sich dabei um die Forschung zu so genannten „Ellipsen“ und die Forschung zur Informations - Struktur bzw. Thema-Rhema-Struktur. Ausgehend von einem Ausschnitt aus einem literarischen Text wird eine kleine Typologie für Sequenzellipsen und ,selbstständige Text-KM‘, wie ich sie im Anschluss an die IDS-Grammatik nennen möchte, vorgestellt. Bei der informationsstrukturellen Analyse wird neben der thematischen Struktur auch der Informationsstatus herangezogen, sodass ein vergleichsweise komplexes Bild der Dynamik im Text nachgezeichnet werden kann. Am Beispiel zweigliedriger .interner Prädikationen wird gezeigt, dass sich hinter der Oberfläche der zwei möglichen Typen der Linearisierung mehrere Strategien der Informationsstrukturierung verbergen. Es bietet sich an, bei deren Beschreibung aus heuristischen Gründen nach dem Modell der Linearstruktur des Verbalsatzes zu verfahren.
Speakers’ linguistic experience is for the most part experience with language as used in conversational interaction. Though highly relevant for usage-based linguistics, the study of such data is as yet often left to other frameworks such as conversation analysis and interactional linguistics (Couper-Kuhlen and Selting 2001). On the basis of a case study of salient usage patterns of the two German motion verbs kommen and gehen in spontaneous conversation, the present paper argues for a methodological integration of quantitative corpus-linguistic methods with qualitative conversation analytic approaches to further the usage-based study of conversational interaction.
Im Fokus dieses Aufsatzes steht die Bereitstellung und Illustration eines Werkzeugs für die Visualisierung bzw. Kontrastierung syntaktischer Strukturen im Lehramtsstudium sowie im (fächerübergreifenden, integrativen) Deutsch- oder Fremdsprachenunterricht höherer Jahrgangsstufen (Sek. II, Ende Sek. I): das „Generalisierte Lineare Satzmodell“ (kurz Gelisa-Modell)1. Das Gelisa-Modell, das auf dem topologischen Satzmodell fußt (vgl. u.a. Reis 1980, Höhle 1986, Pafel 2009, Wöllstein 2010), ermöglicht es, wie bei einem Baukastensystem jegliche Satztypen aus verschiedenen Sprachen (und dann natürlich auch aus einer spezifischen Einzelsprache) in direkter visueller Gegenüberstellung miteinander zu vergleichen. Dabei werden die Sätze und Satztypen distinkter Sprachen unabhängig von der jeweiligen Komplexität auf ein einheitliches Muster bezogen. Die für die grammatische Wohlgeformtheit erforderlichen linearen Strukturzusammenhänge können so auf schematisch anschauliche Weise erfasst und insbesondere zur Basis und zum Ankerpunkt grammatischer Unterrichtsdiskurse und Werkstätten gemacht werden.
Grammatik - explorativ
(2015)
Die am IDS aufgebauten großen Korpora ermöglichen es, vermeintlich freie und aus grammatikographischer Sicht eben dadurch problematische Varianten des Standarddeutschen systematisch in den Untersuchungsfokus zu stellen. Mit spezifischen Techniken und Werkzeugen kann die korpuslinguistische Arbeit dabei eine recht theorieunabhängige Beschreibung einzelner Varianten grammatischer Phänomene leisten und deren Häufigkeit bestimmen; damit stellt sie auch eine transparente quantitativ-statistische Basis für die Validierung von in der einschlägigen Literatur vertretenen Hypothesen bereit. Wie im Beitrag gezeigt werden soll, ist die Auswertung von Korpusdaten beträchtlichen Umfangs mit modernen computerlinguistischen und statistischen Methoden ganz besonders geeignet, grammatische und außersprachliche Faktoren zu identifizieren, deren Interaktion die Wahl zwischen den vermeintlich freien Alternativen bestimmt.
Ausgangspunkt in der (komparativen) Untersuchung sind nicht-kanonische Verknüpfungen mit sein im Deutschen, die durch das Muster NP+sein+Infinitiv (Martine ist spazieren) repräsentiert sind und in der Literatur mit dem Terminus Absentiv bezeichnet werden. Das Muster NP+sein+Infinitiv - so wird behauptet - weise eine spezifische Bedeutung auf, die in anderen Fällen bspw. durch den Ausdruck weg explizit gemacht werden (Martine ist weg spazieren), aber im sog. Absentiv gerade ohne overte Determination bleibt. Geprägt hat den Terminus Absentiv De Groot (2000). Der Gegenstand selbst ist inzwischen in vielen Arbeiten aufgegriffen worden (cf. Abraham 2007, Haslinger 2007, Vogel 2007,2009). Mit wenigen Ausnahmen wird seit De Groot - so auch in fast allen darauf folgenden Arbeiten - die Auffassung vertreten, dass es sich beim Absentiv um eine (universelle) grammatische Kategorie handle, der als Komplex eine Abwesenheitsbedeutung (als Konstruktionsbedeutung) zugeschrieben wird.1 Im Deutschen insbesondere läge der Absentiv als „Vollkategorie“ vor, die sich immer aus der o.g. Form zusammensetze. Die folgende komparative Untersuchung zum Deutschen, Französischen und Italienischen widerspricht der Sichtweise einer grammatischen Kategorie für den Absentiv und skizziert eine Analyse, aus der sich Struktur und Bedeutung für das Deutsche kompositional ableiten lassen, die auch dem Sprachvergleich Stand hält, bzw. durch den Sprachvergleich Unterstützung erfährt. Unter Betrachtung einer Reihe von syntaktischen und interpretativen Eigenschaften der Instanziie- rungen des sog. Absentivs im Deutschen und den Vergleichssprachen, wird weiter gezeigt, dass einige empirische Behauptungen nicht ausreichend motiviert sind - speziell zum Französischen mit einer sog. Teilkategorie Absentiv. Auf der Grundlage der Finalitätshypothese wird dann auch die Abwesenheitsinterpretation als durch eine Implikatur hervorgerufen erschlossen (cf. Fortmann/Wöll- stein 2013, Wöllstein 2013). Der Blick auf Daten in den romanischen Sprachen Italienisch und Französisch zeigt darüber hinaus, dass die Möglichkeiten der Realisierung der beteiligten grammatischen Komponenten übereinzelsprachlich unterschiedlich beschränkt sind. Im Beitrag wird auch und gerade mit Blick auf informationsstrukturelle Phänomene dafür plädiert, von Verkürzungen abzusehen und weder Phänomene durch Konstruktionsbedeutung zu interpretieren, statt sie konventionalisierfen Lesarten zuzuordnen, noch eine Konstruktionsbedeutung direkt grammatischen Einheiten zuzuweisen, ohne dass die Strukturen ausführlichen grammatischen Untersuchungen unterzogen werden.
Die öffentliche Akzeptanz und Wirkung natur- und technikwissenschaftlicher Forschung hängt grundlegend davon ab, ob sich die Ziele und Forschungsergebnisse an die Öffentlichkeit vermitteln lassen. Doch die Inhalte aktueller Forschungsvorhaben sind für ein Laienpublikum oft nur schwer zugänglich und verständlich. Vor dem Hintergrund, die gesellschaftliche Diskussion natur- und technikwissenschaftlicher Forschung zu verbessern, untersuchen und bewerten wir im Projekt PopSci – Understanding Science einen wichtigen Sektor des populärwissenschaftlichen Diskurses in Deutschland empirisch. Hierfür identifizieren wir die linguistischen Merkmale deutscher populärwissenschaftlicher Texte durch korpusbasierte Methoden und untersuchen deren Effekt auf die kognitive Verarbeitung der Texte durch Laien. Dazu setzen wir Vor- und Nachwissenstests ein. Außerdem messen wir die Blickbewegungen der Leserinnen und Leser, während sie populärwissenschaftliche Texte lesen. Aus dieser Kombination von unterschiedlichen Methoden versuchen wir, erste Empfehlungen zur Verbesserung des linguistischen Stils und der Wissensrepräsentation populärwissenschaftlicher Texte abzuleiten.
Reading corpora are text collections that are enriched with processing data. From a corpus linguist’s perspective, they can be seen as an extension of classical linguistic corpora with human language processing behavior. From a psycholinguist’s perspective, reading corpora allow to test psycholinguistic hypotheses on subsets of language and language processing as it is ‘in the wild’ – in contrast to strictly controlled language material in isolated sentences, as used in most psycholinguistic experiments. In this paper, we will investigate a relevance-based account of language processing which states that linguistic structures, that are embedded deeper syntactically, are read faster because readers allocate less attention to these structures.
Pädiatrische Gespräche
(2015)
Maskierung
(2015)
Aus forschungsethischen Gründen müssen die Daten aus Gesprächsaufzeichnungen, die Metadaten sowie die Transkripte maskiert werden. Der Beitrag stellt Arbeitsschritte der Maskierung vor, die auf den Erfahrungen bei der Datenaufbereitung der Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für die Veröffentlichung in der Datenbank für Gesprochenes Deutsch (DGD) basieren.
Transkriptionsaufwand
(2015)
Während die Erhebung von Gesprächsdaten zwar zeitaufwändig, aber doch noch relativ zügig zu bewältigen ist, handelt es sich bei der Transkription um eine langwierige Aufgabe, die oft unterschätzt wird. Damit Studierende, Promovierende sowie WissenschaftlerInnen, die Exposés, Arbeitspläne usw. aufstellen oder Zuschüsse für Projekte beantragen müssen, zukünftig über fundiertere Werte verfügen und damit realistischere Aussagen über den benötigten Aufwand (zeitliche wie personelle Ressourcen) treffen können, stellt der Beitrag die Ergebnisse einer Erhebung des Transkriptionsaufwandes im FOLK-Projekt vor.
In dem Beitrag werden Argumentstrukturmuster mit inneren Objekten genauer untersucht. Als innere Objekte werden Akkusativobjekte bezeichnet, die gelegentlich von normalerweise intransitiven Verben zu sich genommen werden und deren Objekts-Nomen mit dem Verb etymologisch, morphologisch und/oder semantisch verwandt ist. Das heißt, es handelt sich um Sätze wie Maria lachte ihr fröhliches Lachen, Alles geht seinen geordneten Gang oder Er kämpft einen aussichtslosen Kampf. Wie man an diesen wenigen Beispielsätzen bereits sehen kann, wird mit dem inneren Objekt etwas explizit zum Ausdruck gebracht, was bereits in der Verbbedeutung implizit enthalten bzw. angelegt ist, denn lachen bedeutet ja ‘Freude zum Ausdruck bringen, indem man ein Lachen von sich gibt’ und kämpfen heißt ‘einen Kampf führen, Kampfhandlungen vollziehen, sich mit jmdm. oder etw. auseinandersetzen’.
This paper investigates evidence for linguistic coherence in new urban dialects that evolved in multiethnic and multilingual urban neighbourhoods. We propose a view of coherence as an interpretation of empirical observations rather than something that would be ‘‘out there in the data’’, and argue that this interpretation should be based on evidence of systematic links between linguistic phenomena, as established by patterns of covariation between phenomena that can be shown to be related at linguistic levels. In a case study, we present results from qualitative and quantitative analyses for a set of phenomena that have been described for Kiezdeutsch, a new dialect from multilingual urban Germany. Qualitative analyses point to linguistic relationships between different phenomena and between pragmatic and linguistic levels. Quantitative analyses, based on corpus data from KiDKo (www.kiezdeutschkorpus.de), point to systematic advantages for the Kiezdeutsch data from a multiethnic and multilingual context provided by the main corpus (KiDKo/Mu), compared to complementary corpus data from a mostly monoethnic and monolingual (German) context (KiDKo/Mo). Taken together, this indicates patterns of covariation that support an interpretation of coherence for this new dialect: our findings point to an interconnected linguistic system, rather than to a mere accumulation of individual features. In addition to this internal coherence, the data also points to external coherence: Kiezdeutsch is not disconnected on the outside either, but fully integrated within the general domain of German, an integration that defies a distinction of ‘‘autochthonous’’ and ‘‘allochthonous’’ German, not only at the level of speakers, but also at the level of linguistic systems.
Abtönung
(2015)
Abstufung
(2015)
The present study introduces articulography, the measurement of the position of tongue and lips during speech, as a promising method to the study of dialect variation. By using generalized additive modeling to analyze articulatory trajectories, we are able to reliably detect aggregate group differences, while simultaneously taking into account the individual variation across dozens of speakers. Our results on the basis of Dutch dialect data show clear differences between the southern and the northern dialect with respect to tongue position, with a more frontal tongue position in the dialect from Ubbergen (in the southern half of the Netherlands) than in the dialect of Ter Apel (in the northern half of the Netherlands). Thus articulography appears to be a suitable tool to investigate structural differences in pronunciation at the dialect level.
Opinion Holder and Target Extraction for Verb-based Opinion Predicates – The Problem is Not Solved
(2015)
We offer a critical review of the current state of opinion role extraction involving opinion verbs. We argue that neither the currently available lexical resources nor the manually annotated text corpora are sufficient to appropriately study this task. We introduce a new corpus focusing on opinion roles of opinion verbs from the Subjectivity Lexicon and show potential benefits of this corpus. We also demonstrate that state-of-the-art classifiers perform rather poorly on this new dataset compared to the standard dataset for the task showing that there still remains significant research to be done.
We present an approach for opinion role induction for verbal predicates. Our model rests on the assumption that opinion verbs can be divided into three different types where each type is associated with a characteristic mapping between semantic roles and opinion holders and targets. In several experiments, we demonstrate the relevance of those three categories for the task. We show that verbs can easily be categorized with semi-supervised graphbased clustering and some appropriate similarity metric. The seeds are obtained through linguistic diagnostics. We evaluate our approach against a new manually-compiled opinion role lexicon and perform in-context classification.
We examine the combination of pattern-based and distributional similarity for the induction of semantic categories. Pattern-based methods are precise and sparse while distributional methods have a higher recall. Given these particular properties we use the prediction of distributional methods as a back-off to pattern-based similarity. Since our pattern-based approach is embedded into a semi-supervised graph clustering algorithm, we also examine how distributional information is best added to that classifier. Our experiments are carried out on 5 different food categorization tasks.
In this article, we explore the feasibility of extracting suitable and unsuitable food items for particular health conditions from natural language text. We refer to this task as conditional healthiness classification. For that purpose, we annotate a corpus extracted from forum entries of a food-related website. We identify different relation types that hold between food items and health conditions going beyond a binary distinction of suitability and unsuitability and devise various supervised classifiers using different types of features. We examine the impact of different task-specific resources, such as a healthiness lexicon that lists the healthiness status of a food item and a sentiment lexicon. Moreover, we also consider task-specific linguistic features that disambiguate a context in which mentions of a food item and a health condition co-occur and compare them with standard features using bag of words, part-of-speech information and syntactic parses. We also investigate in how far individual food items and health conditions correlate with specific relation types and try to harness this information for classification.
Korrekte Verwendung konnektoraler Satzverknüpfungen ist insbesondere in Bezug auf die Textproduktion, aber auch für das Verständnis bzw. die Interpretation von Texten von essenzieller Bedeutung. Wenn nämlich einzelne Propositionen inhaltliche Bausteine von Texten sind, so spielen Satzverknüpfungen eine Rolle als strukturelle Bausteine. Das Anwenden des topologischen Modells im Schulunterricht ist nicht nur ein hilfreiches Mittel zur Veranschaulichung syntaktisch variablen Gebrauchs unterschiedlicher Klassen von Satzverknüpfungsmitteln, sondern auch die Möglichkeit, Schüler auf semantische, pragmatische und mediale Unterschiede bei der Interpretation und Verwendung von Satzverknüpfungen (u.a. auch im gesprochenen Deutsch) aufmerksam zu machen, die sich beispielsweise durch den Positionswechsel ergeben.
Formal learning in higher education creates its own challenges for didactics, teaching, technology, and organization. The growing need for well-educated employees requires new ideas and tools in education. Within the ROLE project, three personal learning environments based on ROLE technology were used to accompany “traditional” teaching and learning activities at universities. The test beds at the RWTH Aachen University in Germany, the School of Continuing Education of Shanghai Jiao Tong University in China, and the Uppsala University in Sweden differ in learning culture, the number of students and their individual background, synchronous versus distant learning, etc. The big range of test beds underlines the flexibility of ROLE technology. For each test bed, the learning scenario is presented and analyzed as well as the particular ROLE learning environment. The evaluation methods are described and the research results discussed in detail. The learned lessons provide an easy way to benefit from the ROLE research work which demonstrates the potential for new ideas based on flexible e-learning concepts and tools in “traditional” education.
1993 erscheint mit Langenscheidts Großwörterbuch Deutsch als Fremdsprache das erste eigens für nichtmuttersprachliche Deutschlerner konzipierte einsprachige Wörterbuch. Genau zwanzig Jahre später, 2013, geben Duden/Cornelsen das Duden - Basiswörterbuch Deutsch als Fremdsprache heraus. Damit könnte bereits der Schlussstein unter die kurze Epoche der DaF-Print-Lexikografie gesetzt sein, denn weitere Planungen für gedruckte DaF-Wörterbücher gibt es vonseiten der Verlage nicht. Das bedeutet allerdings nur ein Ende für die DaF-Wörterbücher in ihrer bisherigen Erscheinung, denn das Bedürfnis des Nachschlagens beziehungsweise der Bedarf an sprachlichen Daten bleiben weiterhin bestehen, solange Deutsch als Fremdsprache gelernt wird. Der Beitrag beschreibt, wie Wörterbücher ihre äußere Form ändern können, um unter den sich wandelnden gesellschaftlichen Bedingungen zu überleben. Dabei existieren zwei Möglichkeiten: Die Wörterbücher können entweder quasi unsichtbar werden, wenn sie in intelligenten Textumgebungen aufgehen, oder sie können in umfangreiche Lernportale integriert werden. Der Beitrag untersucht bestehende Angebote und macht Vorschläge für eine Weiterentwicklung dieser Wörterbücher.
This article reports on the on-going CoRoLa project, aiming at creating a reference corpus of contemporary Romanian (from 1945 onwards), opened for online free exploitation by researchers in linguistics and language processing, teachers of Romanian, students. We invest serious efforts in persuading large publishing houses and other owners of IPR on relevant language data to join us and contribute the project with selections of their text and speech repositories. The CoRoLa project is coordinated by two Computer Science institutes of the Romanian Academy, but enjoys cooperation of and consulting from professional linguists from other institutes of the Romanian Academy. We foresee a written component of the corpus of more than 500 million word forms, and a speech component of about 300 hours of recordings. The entire collection of texts (covering all functional styles of the language) will be pre-processed and annotated at several levels, and also documented with standardized metadata. The pre-processing includes cleaning the data and harmonising the diacritics, sentence splitting and tokenization. Annotation will include morpho-lexical tagging and lemmatization in the first stage, followed by syntactic, semantic and discourse annotation in a later stage.
To optimize the sharing and reuse of existing data, many funding organizations now require researchers to specify a management plan for research data. In such a plan, researchers are supposed to describe the entire life cycle of the research data they are going to produce, from data creation to formatting, interpretation, documentation, short-term storage, long-term archiving and data re-use. To support researchers with this task, we built DMPTY, a wizard that guides researchers through the essential aspects of managing data, elicits information from them, and finally, generates a document that can be further edited and linked to the original research proposal.