Refine
Year of publication
Document Type
- Part of a Book (16)
- Article (5)
- Conference Proceeding (4)
- Book (2)
- Other (2)
Keywords
- Deutsch (12)
- Grammatik (11)
- Korpus <Linguistik> (8)
- Computerlinguistik (6)
- Grammis (5)
- Informationssystem (3)
- Information Retrieval (2)
- Ontologie <Wissensverarbeitung> (2)
- Popmusik (2)
- Rechtschreibung (2)
Publicationstate
- Veröffentlichungsversion (18)
- Zweitveröffentlichung (10)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (29) (remove)
Publisher
- de Gruyter (6)
- Narr (5)
- Narr Francke Attempto (4)
- Institut für Deutsche Sprache (3)
- Universitätsverlag Rhein-Ruhr (3)
- Acta Press (1)
- Bibliothek der Universität Konstanz (1)
- European Language Resources Association (ELRA) (1)
- Halem (1)
- Köllen (1)
Exploration und statistisch valide Analysen annotierter Textkorpora helfen bei der induktiven Aufdeckung systematischer Schreibgebrauchsmuster. Umgekehrt lassen sich – deduktiv – Vorgaben der kodifizierten Norm (amtliches Regelwerk) quantitativ überprüfen. Wir präsentieren eine Methodik für die empirisch informierte Beschreibung orthografisch motivierter Phänomene, gehen auf prototypische Fälle ein und werfen ein Schlaglicht auf Fallstricke der Korpusnutzung für die Orthografieforschung. Abschließend skizzieren wir Funktionen und Wirkungsweisen aggregierender Visualisierungen für die Forschungskommunikation am Beispiel des amtlichen Wörterverzeichnisses.
grammis ist ein wissenschaftlich basiertes Online-Informationssystem zur deutschen Grammatik und Orthografie, das Erklärungen und Hintergrundwissen für Sprachinteressierte und Deutschlernende weltweit bietet. Neben genuin grammatischen Themen enthält es auch für das Rechtschreiblernen gewinnbringende Inhalte. Im vorliegenden Beitrag werden seine orthografischen Komponenten veranschaulicht und aktuelle Neuerungen im Zusammenhang mit seiner Integration in eine im Entstehen befindliche digitale Vernetzungsinfrastruktur für die Bildung erläutert.
Sprachanfragen als authentische Primärdaten bergen Erkenntnispotenziale für eine große Bandbreite linguistischer und transferwissenschaftlicher Forschungsfragen und Methoden. Der Beitrag skizziert diese Potenziale und legt dabei den Fokus auf wissenschaftskommunikative Prozesse im Austausch linguistischer Laien und Experten. Anhand erster Ergebnisse einer empirischen korpusgestützten Untersuchung von ca. 50.000 Sprachanfragen wird skizziert, welche Erkenntnisse aus diesen Daten für die Vermittlung von Sprachwissen in einer zunehmend digitalisierten und vernetzten Gesellschaft gewonnen werden können.
Einleitung
(2023)
Das Vokabular von Songtexten im gesellschaftlichen Kontext – ein diachron-empirischer Beitrag
(2022)
Der Beitrag untersucht den Stellenwert gesellschaftlich relevanter Thematiken in deutschsprachigen Songtexten der zurückliegenden fünf Jahrzehnte. Dabei zeigt sich, dass neben individuellen Befindlichkeiten auch politische, sozialkritische oder umweltbezogene Themen signifikant angesprochen werden. Wir kontrastieren Songtexte mit anderen Testsorten und wenden dabei quantitative Methoden auf umfangreiche, breit stratifizierte Datensamples an, um die Phänomenbeschreibungen präzisierbar, generalisierbar und reproduzierbar zu machen. Das longitudinale Korpusdesign bietet Potenzial für diachrone Vergleiche. Im Sinne eines erweiterten „Mixed Methods“-Ansatzes exploriert die Studie zudem ausgewählte Aspekte qualitativ und bettet sie in den zeitlichen Kontext ein.
Grammis ist eine Online-Plattform des Leibniz-Instituts für Deutsche Sprache, die Forschungsergebnisse, Erklärungen und Hintergrundwissen zur deutschen Grammatik präsentiert. Das Angebot zielt einerseits auf linguistische Laien, die sich für grammatische Phänomene interessieren; andererseits auf die Fachöffentlichkeit, indem es aktuelle wissenschaftliche Meilensteine des IDS dokumentiert. Für beide Nutzungsgruppen werden im Beitrag exemplarische Inhalte vorgestellt. Weiterhin sollen erste Ergebnisse einer explorativen Nutzungsstudie sowie jüngere technische Neuerungen vorgestellt werden.
This paper describes a new approach to improve the analysis and categorization of web documents using statistical methods for template based clustering as well as semantical analysis based on terminological ontologies. A domain-specific environment serves for prove of concept. In order to demonstrate the widespread practical benefit of our approach, we outline a combined mathematical and semantical framework for information retrieval on internet resources.
Digitale Korpora haben die Voraussetzungen, unter denen sich Wissenschaftler mit der Erforschung von Sprachphänomenen beschäftigen, fundamental verändert. Umfangreiche Sammlungen geschriebener und gesprochener Sprache bilden mittlerweile die empirische Basis für mathematisch präzise Generalisierungen über zu beschreibende Wirklichkeitsausschnitte. Das Datenmaterial ist hochkomplex und besteht neben den Rohtexten aus diversen linguistischen Annotationsebenen sowie außersprachlichen Metadaten. Als unmittelbare Folge stellt sich die Konzeption adäquater Recherchelösungen als beträchtliche Herausforderung dar. Im vorliegenden Buch wird deshalb ein datenbankbasierter Ansatz vorgestellt, der sich der Problematiken multidimensionaler Korpusrecherchen annimmt. Ausgehend von einer Charakterisierung der Anforderungsmerkmale linguistisch motivierter Suchen werden Speicherungs- und Abfragestrategien für mehrfach annotierte Korpora entwickelt und anhand eines linguistischen Anforderungskatalogs evaluiert. Ein Schwerpunkt liegt dabei in der Einführung problemorientierter Segmentierung und Parallelisierung.
Seit Mitte der 1990er Jahre wird am Institut für deutsche Sprache (IDS) in Mannheim erforscht, wie der hochkomplexe Gegenstandsbereich „Grammatik“ unter Ausnutzung digitaler Sprachressourcen und hypertextueller Navigationsstrukturen gleichermaßen wissenschaftlich fundiert und anschaulich vermittelt werden kann. Die grammatischen Online-Informationssysteme des IDS wenden sich nicht allein an Forscher und die interessierte Öffentlichkeit in Deutschland, sondern in gleichem Maße an Germanisten und Deutsch-Lernende in der ganzen Welt. Der vorliegende Beitrag beschreibt die damit verbundenen Hoffnungen und Anspruche. Daran anschließend thematisiert er praktische Einsatzmöglichkeiten und skizziert die funktionale und inhaltliche Weiterentwicklung der digitalen Grammatik-Angebote.
Der vorliegende Band befasst sich mit dem Stand und der Entwicklung von Forschungsinfrastrukturen für die germanistische Linguistik und einigen angrenzenden Bereichen. Einen zentralen Aspekt dabei bildet die Notwendigkeit, Kooperativität in der Wissenschaft im institutionellen Sinne, aber auch in Hinsicht auf die wissenschaftliche Praxis zu organisieren. Dies geschieht in Verbunden als Kooperationsstrukturen, wobei Sprachwissenschaft und Sprachtechnologie miteinander verbunden werden. Als zentraler Forschungsressource kommen dabei Korpora und ihrer Erschließung durch spezielle, linguistisch motivierte Informationssysteme besondere Bedeutung zu. Auf der Ebene der Daten werden durch Annotations- und Modellierungsstandards die Voraussetzung für eine nachhaltige Nutzbarkeit derartiger Ressourcen geschaffen.
E-VALBU: Advanced SQL/XML processing of dictionary data using an object-relational XML database
(2008)
Contemporary practical lexicography uses a wide range of advanced technological aids,most prominently database systems for the administration of dictionary content. Since XML has become a de facto standard for the coding of lexicographic articles, integrated markup functionality – such as query, update, or transformation of instances – is of particular importance. Even the multi-channel distribution of dictionary data benefits from powerful XML database services. Exemplified by E-VALBU, the most comprehensive electronic dictionary on German verb valency, we outline an integrated approach for advanced XML storing and processing within an object-relational database, and for a public retrieval frontend using Web Services and AJAX technology.
Linguistic query systems are special purpose IR applications. We present a novel state-of-the-art approach for the efficient exploitation of very large linguistic corpora, combining the advantages of relational database management systems (RDBMS) with the functional MapReduce programming model. Our implementation uses the German DEREKO reference corpus with multi-layer
linguistic annotations and several types of text-specific metadata, but the proposed strategy is language-independent and adaptable to large-scale multilingual corpora.
Linguistic query systems are special purpose IR applications. We present a novel state-of-the-art approach for the efficient exploitation of very large linguistic corpora, combining the advantages of relational database management systems (RDBMS) with the functional MapReduce programming model. Our implementation uses the German DEREKO reference corpus with multi-layer linguistic annotations and several types of text-specific metadata, but the proposed strategy is language-independent and adaptable to large-scale multilingual corpora.
The main objective of this article is to describe the current activities at the Mannheim Institute for German Language regarding the implementation of a domain-specific ontology for German grammar. We differentiate ontology bases from ontology management Systems, point out the benefits of database-driven Solutions, and go Step by Step through all phases of the ontology lifecycle. In Order to demonstrate the practical use of our approach, we outline the interface between our ontology and the grammis web Information System, and compare the ontology-based retrieval mechanism with traditional full text search.
Vorwort
(2008)
Der korpuslinguistische Ansatz des Projekts »Korpusgrammatik« eröffnet neue Perspektiven auf unsere Sprachwirklichkeit allgemein und grammatische Regularitäten im Besonderen. Der vorliegende Band klärt auf, wie man korpuslinguistisch nach dem Standard fragen kann, wie die Projektkorpora aufgebaut und in einer Korpusdatenbank erschlossen sind, wie man in einem automatischen Abfragesystem der Variabilität der Sprache zu Leibe rückt und sie sogar messbar macht, schließlich aber auch, wo die Grenzen quantitativer Korpusanalysen liegen. Pilotstudien deuten an, wie der Ansatz unsere grammatischen Horizonte erweitert und die Grammatikografie voranbringt.
Linguistic query systems are special purpose IR applications. As text sizes, annotation layers, and metadata schemes of language corpora grow rapidly, performing complex searches becomes a highly computational expensive task. We evaluate several storage models and indexing variants in two multi-processor/multi-core environments, focusing on prototypical linguistic querying scenarios. Our aim is to reveal modeling and querying tendencies – rather than absolute benchmark results – when using a relational database management system (RDBMS) and MapReduce for natural language corpus retrieval. Based on these findings, we are going to improve our approach for the efficient exploitation of very large corpora, combining advantages of state-of-the-art database systems with decomposition/parallelization strategies. Our reference implementation uses the German DeReKo reference corpus with currently more than 4 billion word forms, various multi-layer linguistic annotations, and several types of text-specific metadata. The proposed strategy is language-independent and adaptable to large-scale multilingual corpora.
Contemporary studies on the characteristics of natural language benefit enormously from the increasing amount of linguistic corpora. Aside from text and speech corpora, corpora of computer-mediated communication (CMC) Position themselves between orality and literacy, and beyond that provide in- sight into the impact of "new", mainly intemet-based media on language beha- viour. In this paper, we present an empirical attempt to work with annotated CMC corpora for the explanation of linguistic phenomena. In concrete terms, we implement machine leaming algorithms to produce decision trees that reveal rules and tendencies about the use of genitive markers in German.
Vorwort
(2010)
Das Medium Internet ist im Wandel, und mit ihm ändern sich seine Publikations- und Rezeptionsbedingungen. Welche Chancen bieten die momentan parallel diskutierten Zukunftsentwürfe von Social Web und Semantic Web? Zur Beantwortung dieser Frage beschäftigt sich der Beitrag mit den Grundlagen beider Modelle unter den Aspekten Anwendungsbezug und Technologie, beleuchtet darüber hinaus jedoch auch deren Unzulänglichkeiten sowie den Mehrwert einer mediengerechten Kombination. Am Beispiel des grammatischen Online-Informationssystems grammis wird eine Strategie zur integrativen Nutzung der jeweiligen Stärken skizziert.