Refine
Year of publication
Document Type
- Part of a Book (53)
- Article (13)
- Conference Proceeding (9)
- Book (2)
- Other (2)
Language
- German (62)
- English (15)
- Multiple languages (2)
Has Fulltext
- yes (79)
Keywords
- Deutsch (17)
- Computerlinguistik (10)
- Korpus <Linguistik> (9)
- Digitalisierung (8)
- Texttechnologie (8)
- Annotation (6)
- Kongress (5)
- Sprache (5)
- Sprachgebrauch (5)
- Sprachverarbeitung (5)
Publicationstate
- Zweitveröffentlichung (53)
- Veröffentlichungsversion (21)
- Postprint (8)
Reviewstate
- (Verlags)-Lektorat (79) (remove)
Publisher
- de Gruyter (13)
- Leibniz-Institut für Deutsche Sprache (IDS) (5)
- Aisthesis Verlag (4)
- Heidelberg University Publishing (4)
- Campus (2)
- Gesellschaft für Informatik e.V. (2)
- ICCC Press (2)
- Narr (2)
- Springer (2)
- Stauffenburg Verlag (2)
"Wie Schule Sprache macht"
(2019)
The present paper reports the first results of the compilation and annotation of a blog corpus for German. The main aim of the project is the representation of the blog discourse structure and relations between its elements (blog posts, comments) and participants (bloggers, commentators). The data included in the corpus were manually collected from the scientific blog portal SciLogs. The feature catalogue for the corpus annotation includes three types of information which is directly or indirectly provided in the blog or can be construed by means of statistical analysis or computational tools. At this point, only directly available information (e.g. title of the blog post, name of the blogger etc.) has been annotated. We believe, our blog corpus can be of interest for the general study of blog structure or related research questions as well as for the development of NLP methods and techniques (e.g. for authorship detection).
Der vorliegende Artikel untersucht die Frage, wie sich die Angebote im Bereich von Social Media heute darstellen und wie sie sich in den nächsten Jahren voraussichtlich entwickeln werden. Der Fokus liegt dabei auf der Entwicklung der technischen Infrastruktur und deren Einfluss auf die verschiedenen Aspekte wissenschaftlicher Kommunikation. Einen Schwerpunkt bilden dabei einerseits die Auswirkungen der Automatisierung, im Bereich der Wissenschaftskommunikation die Entwicklung von spezifischen Scores und Altmetriken, andererseits die Etablierung neuartiger Vermittlungskanäle für wissenschaftliche Themen.
Ulrich Engel hat mit seinen Publikationen zur deutschen Grammatik, zur Verbvalenz und zur kontrastiven Linguistik große Wirkung auf die internationale germanistische Linguistik ausgeübt. Weniger bekannt ist, dass er mit seinem Werk auch andere linguistische Teildisziplinen beeinflusst hat, die davon bis heute profitieren. Dependenzielle Ansätze spielen bei der maschinellen Syntaxanalyse mittlerweile eine zentrale Rolle, und bei der Entwicklung von Systemen zur maschinellen Übersetzung haben Engels Arbeiten ebenfalls ihre Spur hinterlassen. Der Aufbau von Sprachressourcen in Gestalt von „Baumbanken“ kann auf Engels Grammatikkonzeption zurückgreifen, und auch zur neuerlich florierenden Konstruktionsgrammatik bestehen klare Bezüge. Im Beitrag werden diese weniger bekannten Einwirkungen von Engels Werk in andere Bereiche dargestellt und in ihrer andauernden Aktualität gewürdigt.
Im Teilprojekt CI “SemDok” der DFG-Forschergruppe Texttechnologische Informationsmodellierung wurde ein Textparser für Diskursstrukturen wissenschaftlicher Zeitschriftenartikel nach der Rhetorical Structure Theory entwickelt. Die wesentlichen konzeptuellen und technischen Merkmale des Chart-Parsers und die sich daraus ergebenden Parametrisierungsmöglichkeiten für Parsing-Experimente werden beschrieben. Zudem wird HPVtz., ein Tool für die Visualisierung von Parsing-Ergebnissen (RST-Bäume in einer XML-Anwendung) und die Navigation in ihnen, vorgestellt.
Discourse segmentation is the division of a text into minimal discourse segments, which form the leaves in the trees that are used to represent discourse structures. A definition of elementary discourse segments in German is provided by adapting widely used segmentation principles for English minimal units, while considering punctuation, morphology, sytax, and aspects of the logical document structure of a complex text type, namely scientific articles. The algorithm and implementation of a discourse segmenter based on these principles is presented, as well an evaluation of test runs.
Ein CERN der deutschen Sprache. Überlegungen zu einem Dokumentationszentrum der deutschen Sprache
(2019)
Einleitung
(2018)
Einleitung
(2018)
Einleitung
(2019)
Der vorliegende Band „Sprachinstitutionen und Sprachkritik“ weist eine unmittelbare Verbindung zu den ersten drei Bänden unserer Handbuchreihe und der Frage auf, wie sich das viel diskutierte und diskursiv konstituierte Konzept der sprachlichen Normierung und Standardisierung einer Nationalsprache im Vergleich der Sprachkulturen entwickelt hat und wie es sich aktuell wandelt. Diese Gesichtspunkte lassen aufschlussreiche Verbindungen zum ersten Handbuchband „Sprachnormierung und Sprachkritik“ erkennen, aber auch zum zweiten („Standardisierung und Sprachkritik“) und zum dritten Handbuchband („Sprachpurismus und Sprachkritik“).
Der vorliegende Artikel skizziert die Möglichkeiten, die durch den Gebrauch offener Standards im Bereich des eLearning und Web Based Trainig (WBT) eröffnet werden. Ausgehend von den Erfahrungen aus dem BMBF-Projekt MiLCA ("Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung") werden die Vorteile einer XML basierten Markupsprache in Verbindung mit einer Open Source WBT-Plattform für die Strukturierung von Lernobjekten diskutiert. Dabei ist die Realisierung eines vollständigen XML Imports in das WBT-System nur der erste Schritt in einer sehr viel weiter gehenden Entwicklung, in der textlinguistische und computerlinguistische Methoden mehr und mehr an Bedeutung gewinnen. So wird zum Beispiel der Gebrauch von didaktisch motivierten Metadaten Autoren in die Lage versetzen, Lernobjekte adaptiv und lernerzentriert aufzubereiten. Die Integration von Ontologien und Taxonomien ist ein weiterer Aspekt, der noch präzisere Möglichkeiten der Wartung und Wiederverwendung von Lernobjekten eröffnet. Teil dieses Artikels ist ein annotiertes Beispiel-Lernobjekt zur Verdeutlichung der oben angesprochenen Entwicklungen und deren Auswirkungen auf die zukünftige akademische Ausbildung.
Extending the possibilities for collaborative work with TEI/XML through the usage of a wiki system
(2013)
This paper presents and discusses an integrated project-specific working environment for editing TEI/XML-files and linking entities of interest to a dedicated wiki system. This working environment has been specifically tailored to the workflow in our interdisciplinary digital humanities project GeoBib. It addresses some challenges that arose while working with person-related data and geographical references in a growing collection of TEI/XML-files. While our current solution provides some essential benefits, we also discuss several critical issues and challenges that remain.
Knowledge in textual form is always presented as visually and hierarchically structured units of text, which is particularly true in the case of academic texts. One research hypothesis of the ongoing project Knowledge ordering in texts - text structure and structure visualisations as sources of natural ontologies1 is that the textual structure of academic texts effectively mirrors essential parts of the knowledge structure that is built up in the text. The structuring of a modern dissertation thesis (e.g. in the form of an automatically generated table of contents - toes), for example, represents a compromise between requirements of the text type and the methodological and conceptual structure of its subject-matter. The aim of the project is to examine how visual-hierarchical structuring systems are constructed, how knowledge structures are encoded in them, and how they can be exploited to automatically derive ontological knowledge for navigation, archiving, or search tasks. The idea to extract domain concepts and semantic relations mainly from the structural and linguistic information gathered from tables of contents represents a novel approach to ontology learning.
Präsentationstechnologien bedingen Konvergenzprozesse verschiedener Kommunikationsmodi. In wissenschaftlichen Präsentationen werden unterschiedliche kommunikative Elemente (unter anderem Text, Bild und redebegleitende Gesten) miteinander verbunden, wodurch eine komplexe, mehrdimensionale Form der Multimodalität entsteht Die multimodale Struktur von Präsentationen kann durch eine neuartige Betrachtungsweise mit linguistischem Instrumentarium beschrieben und analysiert werden. Die Grundlage eines solchen linguistischen Ansatzes bildet die Annahme, dass Präsentationen als komplexe, multimodale Texte verstanden werden können. Der Beitrag zeigt, wie auf Basis dieser Annahme die Funktionsweise wissenschaftlicher Präsentationen theoretisch modelliert werden kann.
From Open Source to Open Information. Collaborative Methods in Creating XML-based Markup Languages
(2000)
Seit langem schon wurde nicht mehr so intensiv über Sprache und Sprachgebrauch in der Öffentlichkeit debattiert. Sprache fungiert dabei möglicherweise als das Schlachtfeld, auf dem die gegenwärtigen identitätspolitischen Kämpfe ausgetragen werden. Neben anderen sprachlichen Erscheinungsformen soll insbesondere durch Metaphern die Bereitschaft geschaffen werden, bestimmte politische Handlungsziele zu unterstützen. Manche Metaphern verzerren aber die Gegebenheiten auf unheilvolle Weise. In einer politischen Auseinandersetzung kann eine Reflexion über Sprache zu einer Verständigung beitragen. Auch in den Medien sollte häufiger auf die originelle Metapher verzichten und stattdessen eine differenziertere sprachliche Form gewählt werden.
Die Digitalisierung hat uns neue Möglichkeiten eröffnet, miteinander zu kommunizieren, Informationen zu verarbeiten, zu speichern und zu publizieren. Hat das auch unser Schreiben, unser Lesen, unsere Texte oder gar unser Bild von Sprache verändert? Und ist die Sprachwissenschaft heute noch dieselbe wie vor dreißig Jahren? Über diese Fragen sprach Monika Obrist, Leiterin des GfdS-Zweigs Bozen, mit Prof. Dr. Henning Lobin, dem Direktor des IDS Mannheim.
Researchers in many disciplines, sometimes working in close cooperation, have been concerned with modeling textual data in order to account for texts as the prime information unit of written communication. The list of disciplines includes computer science and linguistics as well as more specialized disciplines like computational linguistics and text technology. What many of these efforts have in common is the aim to model textual data by means of abstract data types or data structures that support at least the semi-automatic processing of texts in any area of written communication.
In dependenzsyntaktischen Systemen wie denen von Engel (1982), Hudson (1984), Schubert (1987), Mel'čuk (1988) oder Starosta (1988) können gemeinhin nur Wörter andere Wörter oder Phrasen regieren. Auch wenn diese Annahme durchaus praktikabel ist, führt sie doch zu einer ganzen Reihe von syntaxtheoretischen Unzulänglichkeiten, die ausgearbeitete Dependenzgrammatiken gegenüber konkurrierenden Grammatiktheorien als unzulänglich erscheinen lassen. Ziel des vorliegenden Beitrages ist es, die Notwendigkeit darzulegen, auch komplexeren Einheiten Rektionsfähigkeit zuzugestehen, und mit dem Konzept des 'komplexen Elements' ein geeignetes formales Instrument dafür zur Verfügung zu stellen.
Wissenschaftlich basierte allgemeine Wörterbücher des Deutschen werden heute meist korpusbasiert erarbeitet, d. h. die in ihnen beschriebene Sprache wird vor der lexikografischen Beschreibung empirisch erforscht. Diese Korpora sind allerdings, wie die großen linguistischen Textsammlungen zum Deutschen allgemein, durch Zeitungstexte dominiert. Daher beruhen die in Wörterbüchern beschriebenen Kollokationen und typischen Verwendungskontexte zumindest teilweise auf dieser Textsorte. Wir untersuchen in unserem Beitrag anhand einer Fallstudie zu Mann und Frau, wie stark sich die Beschreibung solcher Kollokationssets ändern würde, wenn als Korpusgrundlage nicht Zeitungen, sondern Publikumszeitschriften oder belletristische Texte herangezogen würden und wie unterschiedlich demnach Geschlechterstereotype dargestellt würden. Damit diskutieren wir auch die Frage, ob Zeitungstexte in diesem Fall ein adäquates und vielseitiges Abbild des Gebrauchsstandards zeigen. Auf einer allgemeineren Ebene wird dadurch ein grundlegendes Problem korpuslinguistischer Forschungsarbeiten tangiert, nämlich die Frage, inwieweit durch Korpora überhaupt ein ‚objektives‘ Bild der sprachlichen Wirklichkeit gezeichnet werden kann.
Lektürehinweis
(2019)
Das Handbuch ist eine periodische und mehrsprachige Online-Publikation. Die bisher veröffentlichten Bände wurden bereits über 8.500 Mal heruntergeladen. Für Leserinnen und Leser, die das haptische Leseerlebnis bevorzugen, ist die Publikation zudem im Printformat erhältlich. Zu ausgewählten Konzepten der Sprachkritik werden sukzessive enzyklopädische Artikel veröffentlicht, die ein sprachkritisches Schlüsselkonzept betreffen und die für die europäische Perspektive von kultureller Bedeutung sind. Das Ziel ist demnach, eine Konzeptgeschichte der europäischen Sprachkritik zu präsentieren. Zum einen liefert das Handbuch einen spezifischen Blick auf die jeweiligen Sprachkulturen. Zum anderen werden diese vergleichend in den Blick genommen.
Lesen und lesen lassen
(2015)
Multimedia
(1997)
In der Geschichte der Sprachwissenschaft hat das Lexikon in unterschiedlichem Maße Aufmerksamkeit erfahren. In jüngerer Zeit ist es vor allem durch die Verfügbarkeit sprachlicher Massendaten und die Entwicklung von Methoden zu ihrer Analyse wieder stärker ins Zentrum des Interesses gerückt. Dies hat aber nicht nur unseren Blick für lexikalische Phänomene geschärft, sondern hat gegenwärtig auch einen profunden Einfluss auf die Entstehung neuer Sprachtheorien, beginnend bei Fragen nach der Natur lexikalischen Wissens bis hin zur Auflösung der Lexikon-Grammatik-Dichotomie. Das Institut für Deutsche Sprache hat diese Entwicklungen zum Anlass genommen, sein aktuelles Jahrbuch in Anknüpfung an die Jahrestagung 2017 – „Wortschätze: Dynamik, Muster, Komplexität“ – der Theorie des Lexikons und den Methoden seiner Erforschung zu widmen.
Nachruf auf Ulrich Engel
(2020)
The administration of electronic publication in the Information Era congregates old and new problems, especially those related with Information Retrieval and Automatic Knowledge Extraction. This article presents an Information Retrieval System that uses Natural Language Processing and Ontology to index collection’s texts. We describe a system that constructs a domain specific ontology, starting from the syntactic and semantic analyses of the texts that compose the collection. First the texts are tokenized, then a robust syntactic analysis is made, subsequently the semantic analysis is accomplished in conformity with a metalanguage of knowledge representation, based on a basic ontology composed of 47 classes. The ontology, automatically extracted, generates richer domain specific knowledge. It propitiates, through its semantic net, the right conditions for the user to find with larger efficiency and agility the terms adapted for the consultation to the texts. A prototype of this system was built and used for the indexation of a collection of 221 electronic texts of Information Science written in Portuguese from Brazil. Instead of being based in statistical theories, we propose a robust Information Retrieval System that uses cognitive theories, allowing a larger efficiency in the answer to the users queries.
Der vorliegende Band befasst sich mit dem Stand und der Entwicklung von Forschungsinfrastrukturen für die germanistische Linguistik und einigen angrenzenden Bereichen. Einen zentralen Aspekt dabei bildet die Notwendigkeit, Kooperativität in der Wissenschaft im institutionellen Sinne, aber auch in Hinsicht auf die wissenschaftliche Praxis zu organisieren. Dies geschieht in Verbunden als Kooperationsstrukturen, wobei Sprachwissenschaft und Sprachtechnologie miteinander verbunden werden. Als zentraler Forschungsressource kommen dabei Korpora und ihrer Erschließung durch spezielle, linguistisch motivierte Informationssysteme besondere Bedeutung zu. Auf der Ebene der Daten werden durch Annotations- und Modellierungsstandards die Voraussetzung für eine nachhaltige Nutzbarkeit derartiger Ressourcen geschaffen.
In der wissenschaftlichen Auseinandersetzung spielen derzeit Entwicklungen in den theoretischen und empirischen Erkenntnissen zur Orthographie(entwicklung), zum Schrift- und Orthographieerwerb und zur Orthographiedidaktik sowie aktuelle Entwicklungen im Schreibgebrauch eine zentrale Rolle. Globalisierung und Internationalisierung befördern in der gesprochenen und der geschriebenen Sprache die Aufnahme zahlreicher neuer Fremdwörter, vor allem Entlehnungen aus dem anglo-amerikanischen Sprachraum, in den deutschen Fach- und Allgemeinwortschatz und damit Entwicklungen im Schreibgebrauch. Auch neue digitale Medien begünstigen veränderte, nutzungsorientierte Vermittlungsstrategien orthographischer Inhalte. Und nicht zuletzt stellt die intensiv geführte Debatte über gendersensible Schreibung unter Verwendung von Sonderzeichen (wie Asterisk oder Doppelpunkt im Wortinneren) die Schreibgemeinschaft vor Herausforderungen.
In the project SemDok (Generic document structures in linearly organised texts) funded by the German Research Foundation DFG, a discourse parser for a complex type (scientific articles by example), is being developed. Discourse parsing (henceforth DP) according to the Rhetorical Structure Theory (RST) (Mann and Taboada, 2005; Marcu, 2000) deals with automatically assigning a text a tree structure in which discourse segments and rhetorical relations between them are marked, such as Concession. For identifying the combinable segments, declarative rules are employed, which describe linguistic and structural cues and constraints about possible combinations by referring to different XML annotation layers of the input text, and external knowledge bases such as a discourse marker lexicon, a lexico-semantic ontology (later to be combined with a domain ontology), and an ontology of rhetorical relations. In our text-technological environment, the obvious choice of formalism to represent such ontologies is OWL (Smith et al., 2004). In this paper, we describe two OWL ontologies and how they are consulted from the discourse parser to solve certain tasks within DP. The first ontology is a taxononomy of rhetorical relations which was developed in the project. The second one is an OWL version of GermaNet, the model of which we designed together with our project partners.
Discourse parsing of complex text types such as scientific research articles requires the analysis of an input document on linguistic and structural levels that go beyond traditionally employed lexical discourse markers. This chapter describes a text-technological approach to discourse parsing. Discourse parsing with the aim of providing a discourse structure is seen as the addition of a new annotation layer for input documents marked up on several linguistic annotation levels. The discourse parser generates discourse structures according to the Rhetorical Structure Theory. An overview of the knowledge sources and components for parsing scientific joumal articles is given. The parser’s core consists of cascaded applications of the GAP, a Generic Annotation Parser. Details of the chart parsing algorithm are provided, as well as a short evaluation in terms of comparisons with reference annotations from our corpus and with recently developed Systems with a similar task.
Sprache und digitale Medien
(1997)
Durch das Aufkommen der Computer als Kommunikationsmedium hat sich für die Linguistik ein weiteres neues Gebiet erschlossen, bei dem es nicht um die maschinelle Simulation von Sprachverstehens- und -Produktionsprozessen geht. Die Nutzung des Computers als Medium erfordert auch die Darstellung von Texten in digitaler Form, so dass sie durch den Computer bearbeitet und dargestellt werden können. Texte im Computer - oft wird von elektronischen Texten gesprochen - brauchen dabei allerdings nicht die auf Papier gedruckten Texte nachzubilden, sie stellen vielmehr eine eigene Realisationsform von Textinhalten dar, die sich in vielem vom traditionellen Textbegriff unterscheidet.
Syntax und Morphologie
(1997)
Text und Sprache digital
(2020)
For a long time, the lecture dominated performatively presented scientific communication. Given academic traditions, it is possible to make a connection between the lecture and classical rhetoric, a highly differentiated instrument of analysis. The tradition of the lecture has been perpetuated in the presentation of research results, first in the use of transparencies and subsequently through computer-based projections. Yet the use of media technology has also allowed new practices to emerge, including mediation practices hitherto neglected in the theory of rhetoric.
This study examines what kind of cues and constraints for discourse interpretation can be derived from the logical and generic document structure of complex texts by the example of scientific journal articles. We performed statistical analysis on a corpus of scientific articles annotated on different annotations layers within the framework of XML-based multi-layer annotation. We introduce different discourse segment types that constrain the textual domains in which to identify rhetorical relation spans, and we show how a canonical sequence of text type structure categories is derived from the corpus annotations. Finally, we demonstrate how and which text type structure categories assigned to complex discourse segments of the type “block” statistically constrain the occurrence of rhetorical relation types.
Vorwort
(2022)
Vorwort
(2019)
Vorwort
(2021)
Vorwort
(2024)
Thema der 59. Jahrestagung des Leibniz-Instituts für Deutsche Sprache war vom 14. bis zum 16. März 2023 erstmals nach mehreren Jahrzehnten wieder die Orthografie des Deutschen, und zwar „in Wissenschaft und Gesellschaft“. Einen unmittelbaren Anlass dafür bildete der bevorstehende Abschluss der siebenjährigen Arbeitsphase des Rats für deutsche Rechtschreibung Ende 2023, dessen Tätigkeit das IDS seit seiner Gründung wissenschaftlich begleitet. Aber auch die Orthografieforschung selbst hat sich seit der Rechtschreibreform im Jahr 1996 in einer Weise entwickelt, dass die Wahl dieses schriftlinguistischen Querschnittsthemas angezeigt erschien.
Vorwort
(2023)
Der vorliegende Beitrag beschreibt, wie die Verfügbarkeit digitaler Textkorpora den Wandel von einer systemorientierten hin zu einer gebrauchsorientierten Sprachforschung ermöglicht hat. Doch die korpusbasierte Beschreibung des Sprachgebrauchs kann nur so realistisch sein wie die Korpora, mit denen sie arbeitet. Deshalb ist es von großer Bedeutung, auch besondere Textsorten zu berücksichtigen und Herangehensweisen zu entwickeln, das dafür nötige Vertrauen bei den Datenspendern zu erzeugen. Im Zentrum des Beitrags steht deshalb die Diskussion von einigen derartigen Textsorten und den Herausforderungen, die sich mit ihnen in Hinsicht auf den Korpusaufbau verbinden. Der Beitrag endet mit einem Ausblick auf das Forum Deutsche Sprache, das einen solchen Ort des Vertrauens für Spracherhebungen bieten möchte.
Dieser Beitrag skizziert die Möglichkeiten, die die Extensible Markup Language (XML) im Umfeld von eLearning und Web Based Training (WBT) eröffnet. Bisherige eLearning-Angebote kranken an verschiedenen Problemen, die durch die Verwendung von XML-basierten Learning Objects vermieden werden können. Ausgehend vom aktuellen Stand im Projekt MiLCA - Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung - soll zudem ein Ausblick auf zukünftige technische Möglichkeiten des Computer-gestützten Lernens gegeben werden.