Refine
Year of publication
Document Type
- Part of a Book (4500)
- Article (2966)
- Book (996)
- Conference Proceeding (688)
- Part of Periodical (308)
- Review (257)
- Other (151)
- Working Paper (83)
- Doctoral Thesis (68)
- Report (35)
Language
- German (8078)
- English (1765)
- Russian (145)
- French (38)
- Multiple languages (22)
- Spanish (16)
- Portuguese (14)
- Italian (9)
- Polish (7)
- Ukrainian (5)
Keywords
- Deutsch (5140)
- Korpus <Linguistik> (940)
- Wörterbuch (605)
- Konversationsanalyse (451)
- Rezension (423)
- Grammatik (405)
- Rechtschreibung (374)
- Gesprochene Sprache (361)
- Sprachgebrauch (356)
- Interaktion (339)
Publicationstate
- Veröffentlichungsversion (3883)
- Zweitveröffentlichung (1642)
- Postprint (395)
- Preprint (10)
- Erstveröffentlichung (8)
- Ahead of Print (7)
- (Verlags)-Lektorat (4)
- Hybrides Open Access (2)
- Verlags-Lektorat (1)
- Verlagsveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (3836)
- Peer-Review (1596)
- Verlags-Lektorat (94)
- Peer-review (56)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (44)
- Review-Status-unbekannt (14)
- Peer-Revied (12)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (10)
- (Verlags-)Lektorat (9)
- Verlagslektorat (5)
Publisher
- de Gruyter (1334)
- Institut für Deutsche Sprache (1091)
- Schwann (638)
- Narr (484)
- Leibniz-Institut für Deutsche Sprache (IDS) (263)
- De Gruyter (245)
- Niemeyer (200)
- Lang (184)
- Narr Francke Attempto (170)
- IDS-Verlag (144)
This paper describes general requirements for evaluating and documenting NLP tools with a focus on morphological analysers and the design of a Gold Standard. It is argued that any evaluation must be measurable and documentation thereof must be made accessible for any user of the tool. The documentation must be of a kind that it enables the user to compare different tools offering the same service, hence the descriptions must contain measurable values. A Gold Standard presents a vital part of any measurable evaluation process, therefore, the corpus-based design of a Gold Standard, its creation and problems that occur are reported upon here. Our project concentrates on SMOR, a morphological analyser for German that is to be offered as a web-service. We not only utilize this analyser for designing the Gold Standard, but also evaluate the tool itself at the same time. Note that the project is ongoing, therefore, we cannot present final results.
Dieser Band fasst die Vorträge des 9. Hildesheimer Evaluierungs- und Retrieval-Workshops (HIER) zusammen, der am 9. und 10. Juli 2015 an der Universität Hildesheim stattfand. Die HIER Workshop-Reihe begann im Jahr 2001 mit dem Ziel, die Forschungsergebnisse der Hildesheimer Informationswissenschaft zu präsentieren und zu diskutieren. Mittlerweile nehmen immer wieder Kooperationspartner von anderen Institutionen teil, was wir sehr begrüßen. HIER schafft auch ein Forum für Systemvorstellungen und praxisorientierte Beiträge.
Open Science and language data: Expectations vs. reality. The role of research data infrastructures
(2023)
Language data are essential for any scientific endeavor. However, unlike numerical data, language data are often protected by copyright, as they easily meet the threshold of originality. The role of research infrastructures (such CLARIN, DARIAH, and Text+) is to bridge the gap between uses allowed by statutory exceptions and the requirements of Open Science. This is achieved on the one hand by sharing language data produced by research organisations with the widest possible circle of persons, and on the other by mutualizing efforts towards copyright clearance and appropriate licensing of datasets.
Seit der Migrationswelle 2015 steht Deutschland der gesellschaftspolitischen Herausforderung gegenüber, hunderttausende Flüchtlinge in den Arbeitsmarkt zu integrieren. Erfolgreiche Kommunikation am Arbeitsplatz stellt dabei eine Barriere dar, die es durch Verständnissicherung und Interaktionskompetenz zu überwinden gilt.
Diese empirische interaktionslinguistische Arbeit untersucht mittels der multimodalen Gesprächsanalyse die Verständnissicherung in Interaktionen am Arbeitsplatz. Anhand von Reparatursequenzen werden im ersten Analyseteil der Arbeit Praktiken der Integration von Geflüchteten im Prozess der Verständnissicherung untersucht und Unterschiede zwischen l1- und l2-Sprechern herausgestellt. Im zweiten Teil erfolgt eine longitudinale Studie, welche die Entwicklung der Reparatursequenzen der l2-Sprecher fokussiert, um aufzuzeigen, wie sich ihre Interaktionskompetenz und somit auch ihre Partizipation und Integration während ihres Beschäftigungsverhältnisses entwickelt.
Corpus-based identification and disambiguation of reading indicators for German nominalizations
(2010)
Corpus data is often structurally and lexically ambiguous; corpus extraction methodologies thus must be made aware of ambiguities. Therefore, given an extraction task, all relevant ambiguities must be identified. To resolve these ambiguities, contextual data responsible for one or another reading is to be considered. In the context of our present work, German -ung-nominalizations and their sortal readings are under examination. A number of these nominalizations may be read as an event or a result, depending on the semantic group they belong to. Here, we concentrate on nominalizations of verbs of saying (henceforth: "verba dicendi"), identify their context partners and their influence on the sortal reading of the nominalizations in question. We present a tool which calculates the sortal reading of such nominalizations and thus may improve not only corpus extraction, but also e.g. machine translation. Lastly, we describe successful attempts to identify the correct sortal reading, conclusions and future work.
Präpositionale Wortverbindungen (PWVs) und präpositionale lexikalisch geprägte Muster - speziell der Typ der binären Konstruktionen - sind ein in der (kontrastiven) Mehrwortforschung bislang kaum beachteter Typ, wie bereits mehrfach betont. Wenn in den deutschen PWVs die interne Stelle zwischen der Präposition und dem Nomen überproportional häufig nicht mit einem Artikel besetzt ist, ist bei solchen Kombinationen mit einem potenziell hohen Lexikalisierungsgrad zu rechnen. Solche PWVs kann man als autonome Einheiten auffassen, und dementsprechend soll man sie auch als feste Wortverbindungen untersuchen. Die formale und inhaltliche Grundlage für das kontrastive Modell bildet das UWV-Modell (vgl. Steyer 2000, 2013) und das Konzept lexikalisch geprägter Muster (siehe Steyer in diesem Band). Im Folgenden wird diese Herangehensweise auf die Äquivalenzfindung im Sprachenpaar Deutsch (DE) - Slowakisch (SK) angewendet. Einen zentralen Stellenwert nimmt die Kontrastierung von Kollokationsfeldern, von rekurrenten lexikalischen Erweiterungsmustern und komplexeren Wortverbindungsmuster ein. Es handelt sich um ein monodirektional angelegtes Modell Deutsch -> Fremdsprache, die korpusbasierte kontrastive Aufbereitung und Beschreibung schließt jedoch eine Bi- oder auch Multidirektionalität nicht aus. Die komplexe Äquivalenzproblematik und die entsprechenden Konvergenzen und Divergenzen werden in diesem Beitrag anhand folgender ausgewählter Kontrastbereiche im Vergleich Deutsch -> Zielsprache Slowakisch diskutiert: a) Verhältnis des deutschen Lemmas zu seinem prototypischen Äquivalent bzw. den prototypischen Äquivalenten, b) Bedeutung(en) und Gebrauchsspezifika der PWVs, c) interne und externe Variabilität der zugrundeliegenden Muster der PWVs und ihrer äquivalenten PWV-Muster; d) typische Einbettungen der äquivalenten PWVs in Satzkonstruktionen und semantische Merkmale verbaler Satelliten.
This article targets a distinctive kind of root structures in German formed by minimally two phrases but lacking an overt verbal predicate like i.a. die Guten ins Tröpfchen, die Schlechten ins Kröpfchen, jedem ein Bier or in den Müll mit dem Dreck. Certain instantiations of these patterns have been dubbed verblose Direktiva by Jacobs (2008) who provides an account in terms of construction grammar. Müller (2011), on the other hand, proposes an anti-passive analysis of the phenomenon. However, these apparent verbless root structures show conspicuous parallels in form and interpretation to another type of non-finite root structures in German, namely root infinitives. Both exclude an overt subject expression and both have a modal interpretation. Referring to these parallels, an analysis is elaborated which employs a empty verbal category. The overt consituents, then, are hosted by the (possibly extended) projection of the empty verb. Furthermore, this analysis captures a broader range of data, in particular instances formed by concatenated NPDAT-NPAKK or NPAKK-PP.
Eine Wörterbuchforschung für das Sprachenpaar Deutsch-Spanisch an der Schnittstelle zwischen Phraseologie und Konstruktionsgrammatik existiert bislang praktisch nicht. Ziel der vorliegenden Arbeit ist es daher, einen Beitrag zur Schließung dieser Lücke zu leisten, und zwar am Beispiel der „Idiomatik Deutsch-Spanisch" (IDSP) (Schemann et al. 2013). Die Phraseologieforschung befasst sich zwar schon lange mit nicht-kompositionalen Konstruktionen (die heterogen benannt werden z.B. Satzmuster, Phraseoschablonen, Phrasem- Konstruktionen, Schemata), die empirische Fundierung ist aber eher noch unsystematisch und bezogen auf die Lexikografie eher noch im Anfang begriffen. Es wird zum einen gezeigt, welchen großen Stellenwert solchen Mustern in der „Idiomatik Deutsch-Spanisch" (ebd.) zukommt. Zum anderen wird ein Vorschlag unterbreitet, mit dem die im Wörterbuch verzeichneten Phraseme und Muster unter einer dem Aspekt verfestigter Muster und Schemata klassifiziert und gruppiert werden können.
The paper is concerned with the filling of the right edge of a German clause with different constituents: subconstituents of the clause, arguments and modifiers of the NP, appositions and right-dislocated elements. It is argued that these different ways of filling the right edge come about in quite different ways. Subconstituents of the clause are base generated at the right edge in syntax. Constituents of the NP and appositions get to the right edge postsyntactically, i.e., they are linearised there only in the phonological component. Finally, the appearance of right-dislocated constituents is the result of two well-established deletion processes operating on two adjacent clauses.
The different mechanisms allow us to understand differences these elements show regarding positioning inside the right edge, binding and intonation. An important empirical generalisation put forward in the IDS-grammar can be captured. The grammar's controversial assumption that the right edge comprises a part which is disintegrated in between two syntactically integrated parts can be shown to be superfluous.
In current corpuslinguistic investigations, especially the collection of linguistic data and the frequency of linguistic phenomena (i.e. in the "linguistic matter") is in the center of interest of morphological discussions. This paper argues in favor of taking also morphological "antimatter" in account, i.e. surveying the structure of words containing morphological restrictions which cannot be proven systematically. With recourse to Popper's falsificationism and starting with prominent restrictions in the morphology of German, the article discusses theoretical consequences and chances for morphological theory with special emphasis on morphological change, i.e. when antimatter becomes matter and vice versa.
Constructionist approaches to grammar do not draw a clear distinction between lexicon and grammar, as generative "words and rules" accounts do. Rather, they conceptualize grammar and lexicon as a continuum of constructions of greater or lesser complexity and abstraction. In this paper, i explore the implications of this paradigm shift for the applied discipline of grammaticography. If we abandon the distinction between grammar and lexicon, should we also abandon the distinction between grammar, books and dictionaries? Drawing on a case study on the treatment of verbless constructions in the "IDS-Grammatik", it is argued that constructions should play a greater role in grammar books, but that grammar books still need to provide access to general principles of grammar.
This White Paper sets out commonly agreed definitions on activities of consortia within NFDI. It aims to provide a common basis for reporting and reference regarding selected questions of cross-consortial relevance in DFG’s template for the Interim Reports. The questions were prioritised by an NFDI Task Force on Evaluation and Reporting (formerly Task Force Monitoring) as a result of discussing possible answers to the DFG template. In this process the need to agree on a generalizable meaning of terms commonly used in the context of NFDI, and reporting in particular, were identified from cross-consortial perspectives. Questions that showed the highest requirement on clarification are discussed in this White Paper. As NFDI evolves, the Task Force will likely propose further joint approaches for reporting in information infrastructures.
While each of broad relevance, the questions addressed relate to substantially different aspects of consortia’s work. They are thus also structured slightly different.
Sprachanfragen als authentische Primärdaten bergen Erkenntnispotenziale für eine große Bandbreite linguistischer und transferwissenschaftlicher Forschungsfragen und Methoden. Der Beitrag skizziert diese Potenziale und legt dabei den Fokus auf wissenschaftskommunikative Prozesse im Austausch linguistischer Laien und Experten. Anhand erster Ergebnisse einer empirischen korpusgestützten Untersuchung von ca. 50.000 Sprachanfragen wird skizziert, welche Erkenntnisse aus diesen Daten für die Vermittlung von Sprachwissen in einer zunehmend digitalisierten und vernetzten Gesellschaft gewonnen werden können.
Metadaten zu Gesprächen und den beteiligten Sprecher/-innen enthalten Informationen, die für die Beschreibung, Erschließung und Analyse von Korpora wichtig sind. Bisher werden sie jedoch in der Konversationsanalyse und der Interaktionalen Linguistik so gut wie nicht genutzt. Dieser Beitrag zeigt exemplarisch, wie Metadaten des Gesprächskorpus „Forschungs- und Lehrkorpus Gesprochenes Deutsch“ (FOLK) im Rahmen einer interaktionslinguistischen Untersuchung verwendet werden können, um Regularitäten der Verwendung einer untersuchten Gesprächspraktik zu identifizieren und ihren Zusammenhang mit den Eigenschaften von Aktivitäten und Sprecherrollen zu klären. In allgemeinerer Perspektive diskutiert der Beitrag, wie und an welchen Stellen einer interaktionslinguistischen Untersuchung Metadaten von Nutzen sein können und wie ihr Stellenwert im Rahmen dieser Methodologie kritisch reflektiert werden muss.
Filtern, Explorieren, Vergleichen: neue Zugriffsstrukturen und instruktive Potenziale von OWIDplus
(2023)
OWIDplus, das Zusatzangebot zur Wörterbuchplattform OWID, vereint verschiedenste lexikalische Datenbanken, Korpustools und visuell aufbereitete Analysen, die mithilfe von Textsuche und Kategorienfiltern so sortiert werden können, dass Benutzer*innen leicht die für sie interessanten Projekte entdecken können. Eine tiefergehende Beschäftigung mit den Einzelprojekten zeigt, wie bei aller oberflächlicher Ähnlichkeit oder gemeinsamen Themenbereichen ganz unterschiedliche methodische Zugänge zu sprachlichen Daten gewählt worden sind und wie Methodik und Forschungsfrage stets aufeinander abgestimmt werden müssen. Die Vielzahl potenzieller Forschungsfragen führt so unweigerlich zu einer Diversität von Projekten und somit einer Heterogenität, die, so hoffen die Autor*innen, in OWIDplus greifbar wird.
Die sprachlichen Auffälligkeiten, die in Gedichten zu beobachten sind, haben immer wieder Anlass zu verschiedenen Versionen der Abweichungstheorie gegeben, derzufolge die in Gedichten verwendete Sprache von nicht-lyrischer Sprache abweicht. Expressionistische Lyrik ist insbesondere für ihre argumentstrukturellen Innovationen bekannt. Auf der Basis eines Korpus expressionistischer Gedichte wird eine Übersicht über diese Auffälligkeiten gegeben, die die Grundlage für weitere Studien darstellen soll, in denen zu zeigen sein wird, inwieweit unter bestimmten grammatiktheoretischen Annahmen die Abweichungstheorie zurückgewiesen werden kann.
This paper presents the IVK-Ler corpus, a longitudinal, annotated learner corpus of weekly writings produced by a group of 18 adolescents in a preparatory class. The corpus consists of 117 student texts collected between 2020 and 2021 and has a structure layered by student and text number. It includes metadata that enables researchers to analyze and track individual student progress in terms of syntactic competence and literacy. The annotation schema, manual and automatic annotation processes, and corpus representation are described in detail. The corpus currently includes target hypotheses and gold standard part-of-speech tags. Future work could include additional annotation layers for topological fields and dependency relations, as well as semantic and discourse annotations to make the corpus usable for tasks beyond syntactic evaluations.
Der vorliegende Beitrag beschreibt, wie die Verfügbarkeit digitaler Textkorpora den Wandel von einer systemorientierten hin zu einer gebrauchsorientierten Sprachforschung ermöglicht hat. Doch die korpusbasierte Beschreibung des Sprachgebrauchs kann nur so realistisch sein wie die Korpora, mit denen sie arbeitet. Deshalb ist es von großer Bedeutung, auch besondere Textsorten zu berücksichtigen und Herangehensweisen zu entwickeln, das dafür nötige Vertrauen bei den Datenspendern zu erzeugen. Im Zentrum des Beitrags steht deshalb die Diskussion von einigen derartigen Textsorten und den Herausforderungen, die sich mit ihnen in Hinsicht auf den Korpusaufbau verbinden. Der Beitrag endet mit einem Ausblick auf das Forum Deutsche Sprache, das einen solchen Ort des Vertrauens für Spracherhebungen bieten möchte.
Einleitung
(2023)