Refine
Year of publication
Document Type
- Part of a Book (74)
- Article (32)
- Other (26)
- Conference Proceeding (19)
- Book (12)
Language
- German (138)
- English (22)
- Multiple languages (2)
- Chinese (1)
Keywords
- Deutsch (33)
- Sprachpolitik (21)
- Computerlinguistik (18)
- Dependenzgrammatik (16)
- Syntax (16)
- Digitalisierung (15)
- Korpus <Linguistik> (12)
- Sprache (12)
- Sprachwandel (12)
- Texttechnologie (10)
Publicationstate
- Zweitveröffentlichung (72)
- Veröffentlichungsversion (51)
- Postprint (13)
- (Verlags)-Lektorat (1)
Reviewstate
Publisher
Bei der natürlichsprachlichen Steuerung von situierten Agenten sollen Instruktionen in Aktionen umgesetzt werden. Instruktionen spezifizieren auf der einen Seite Pläne oder Planfragmente, müssen aber auf der anderen Seite der Tatsache Rechnung tragen, daß Handlungen stets im situativen Zusammenhang auszuführen sind und deshalb nicht vollständig vorherbestimmt werden können. Die Strukturmodelle für Aktionen, die bisher vorgeschlagen worden sind, berücksichtigen diese Tatsache nur unzureichend. Im vorliegenden Beitrag wird deshalb ein geeignetes Aktionsstrukturmodell motiviert und eine Repräsentation in Form eines Aktionsschemas vorgeschlagen. Hauptmerkmal des Aktionsstrukturmodells ist, daß Handlungen als ein mehr oder weniger spezifiziertes Übergehen von einem Anfangszustand in einen Zielzustand verstanden werden.
Für koordinative Konstrukte sind verschiedene syntaktische Grundstrukturen vorgeschlagen worden. Allen diesen Ansätzen ist gemein, daß sie die inkre- mentelle Verarbeitung dieser Konstruktionen nicht plausibel erklären können, obwohl Indizien dafür vorliegen, daß es sich bei Koordination keineswegs um ein genuin strukturelles Phänomen handelt, sondern um eines, daß aus den Prinzipien der inkrementellen Verarbeitung emergiert. Das skizzierte Verarbeitungsmodell basiert deshalb auf der Annahme, daß syntaktische Strukturen im Falle der Koordination mehrfach benutzt werden und hinsichtlich verschiedener sog. Projektionen zu verarbeiten sind. Diese Annahme erlaubt es, die Vielfalt der bei der Koordination auftretenden Tilgungs- und Reduktionsphänomene auf die Realisation koordinativer Strukturen bezüglich ihrer verschiedenen Projektionen zurückzuführen.
Die fast unüberschaubare Vielfalt koordinationssyntaktischer Phänomene ist eines der schwierigsten Probleme für eine kohärente Grammatiktheorie. Die vorliegende Untersuchung sieht Koordination nicht als grammatisches Phänomen per se, sondern als eine Technik, die es Sprecher und Hörer erlaubt, eine syntaktische Struktur in effizienter Weise ein zweites Mal zu verwenden. Statt koordinationssyntaktischer Strukturen werden deshalb Ersetzungs- und Linearisierungsprozesse als grundlegend angenommen. Das Buch zeigt, wie diese Idee für die Entwicklung einer einheitlichen und allgemeinen Koordinationstheorie genutzt werden kann, die neben allen Spielarten der Koordination auch andere Erscheinungsformen regulärer Ellipse erklären kann.
Die Untersuchungen erfolgen auf der Grundlage einer formalisierten Version der Dependenzgrammatik, lassen sich aber auch auf andere Grammatiktheorie übertragen, die eine getrennte Darstellung von syntaktischer Struktur und Wortstellung erlauben.
Situiertheit
(1993)
In dependenzsyntaktischen Systemen wie denen von Engel (1982), Hudson (1984), Schubert (1987), Mel'čuk (1988) oder Starosta (1988) können gemeinhin nur Wörter andere Wörter oder Phrasen regieren. Auch wenn diese Annahme durchaus praktikabel ist, führt sie doch zu einer ganzen Reihe von syntaxtheoretischen Unzulänglichkeiten, die ausgearbeitete Dependenzgrammatiken gegenüber konkurrierenden Grammatiktheorien als unzulänglich erscheinen lassen. Ziel des vorliegenden Beitrages ist es, die Notwendigkeit darzulegen, auch komplexeren Einheiten Rektionsfähigkeit zuzugestehen, und mit dem Konzept des 'komplexen Elements' ein geeignetes formales Instrument dafür zur Verfügung zu stellen.
Sprache und digitale Medien
(1997)
Durch das Aufkommen der Computer als Kommunikationsmedium hat sich für die Linguistik ein weiteres neues Gebiet erschlossen, bei dem es nicht um die maschinelle Simulation von Sprachverstehens- und -Produktionsprozessen geht. Die Nutzung des Computers als Medium erfordert auch die Darstellung von Texten in digitaler Form, so dass sie durch den Computer bearbeitet und dargestellt werden können. Texte im Computer - oft wird von elektronischen Texten gesprochen - brauchen dabei allerdings nicht die auf Papier gedruckten Texte nachzubilden, sie stellen vielmehr eine eigene Realisationsform von Textinhalten dar, die sich in vielem vom traditionellen Textbegriff unterscheidet.
Syntax und Morphologie
(1997)
Multimedia
(1997)
Handlungsanweisungen werden traditionell als sprachlich geäußerte Aktionspläne aufgefasst, denen ein Akteur strikt zu folgen hat. Diese Auffassung führt allerdings dann zu Problemen, wenn der Akteur teilweise autonom handeln kann. Wie soll eine Handlungsanweisung in diesem Fall das Verhalten des Akteurs lenken, ohne zugleich seine Autonomie in der Handlungsausführung einzuschränken?
Henning Lobin wählt in seinem Buch einen alternativen Ansatz: Handlungsanweisungen werden lediglich als Basis für einen Planungsprozess verstanden, zu dem auch andere Kompetenzen des Akteurs wie visuelle Wahrnehmung, Erfahrung und Wissen beitragen. Der Autor vergleicht die sprachlichen Instruktionsformen mit konzeptuellen Strukturen und leitet daraus bestimmte Regeln ab, die zu Aktivitätsschemata als Planungsressourcen führen können. Abschließend diskutiert der Autor die Nutzung von derartigen Planungsressourcen in konkreten Systemen.
Die Extensible Markup Language (XML), eine vereinfachte Version der Standard Generalized Markup Language (SGML), wurde für den Austausch strukturierter Daten im Internet entwickelt. Informationen können damit nicht nur in einem einheitlichen, medienunabhängigen Format strukturiert werden, sondern die Strukturierungsprinzipien selbst sind auch durch ein formales Regelwerk, eine Grammatik, beschreibbar. Erst so werden weitergehende Verarbeitungsprozesse wie geleitete Dateneingaben, Datenkonvertierung, flexibles Navigieren und Viewing der Daten möglich. Neben der elementaren Informationsmodellierung ist mit der Meta-Strukturierung durch sog. Architekturen ein neuer Aspekt hinzugekommen: die objektorientierte Schichtung von Struktur-Grammatiken. Das vorliegende Buch stellt beide Strukturierungstechniken - elementar und architektonisch - erstmalig in zusammenhängender Form dar. Es wendet sich an Leser, die sich detailliert und praxisorientiert mit den Möglichkeiten der SGML-basierten Informationsmodellierung auseinandersetzen wollen.
From Open Source to Open Information. Collaborative Methods in Creating XML-based Markup Languages
(2000)
XML-Dokumentgrammatiken, die als DTDs oder neuerdings als XML-Schemata spezifiziert werden, spezifizieren zwar die syntaktischen Eigenschaften einer Klasse von Dokumenten, für sie existiert aber normalerweise kein formales semantisches Modell des Gegenstandsbereichs, auf das Dokumentstrukturen abgebildet werden können. Der Beitrag zeigt am Beispiel der Tabelle, wie semantische Netze für diese Aufgabe herangezogen werden können. Die konkrete Umsetzung geschieht dabei auf der Grundlage des Topic-Map-Standards in Verbindung mit XPath-Ausdrücken, die aus dem semantischen Netz in die Dokumentinstanz bzw. in ein XML-Schema verweisen.
The paper investigates the evolution of document grammars from a linguistic point of view. Document grammars have been developed in the past decades in order to formalize knowledge on the structure of textual information. A well-known instance of a document grammar is the »Document Type Definition« (DTD) as part of the Extensible Markup Language (XML). DTDs allow to define so-called tree grammars that constrain the application of tag-sets in the process of annotation of a document. In an XML-based document workflow, DTDs play a crucial role for validation and transforming huge amounts of texts in standardized data formats. An interesting point in the development of XML DTDs is the fact that the restriction of the formal expressiveness paved the way to understand the formal properties of document grammars better and to develop more a powerful version like XML Schema recently. In this sense, the simplicity of the original approach, resulting from the necessary restriction of previous approaches, yielded new complexity on formally understood grounds.
Der vorliegende Artikel skizziert die Möglichkeiten, die durch den Gebrauch offener Standards im Bereich des eLearning und Web Based Trainig (WBT) eröffnet werden. Ausgehend von den Erfahrungen aus dem BMBF-Projekt MiLCA ("Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung") werden die Vorteile einer XML basierten Markupsprache in Verbindung mit einer Open Source WBT-Plattform für die Strukturierung von Lernobjekten diskutiert. Dabei ist die Realisierung eines vollständigen XML Imports in das WBT-System nur der erste Schritt in einer sehr viel weiter gehenden Entwicklung, in der textlinguistische und computerlinguistische Methoden mehr und mehr an Bedeutung gewinnen. So wird zum Beispiel der Gebrauch von didaktisch motivierten Metadaten Autoren in die Lage versetzen, Lernobjekte adaptiv und lernerzentriert aufzubereiten. Die Integration von Ontologien und Taxonomien ist ein weiterer Aspekt, der noch präzisere Möglichkeiten der Wartung und Wiederverwendung von Lernobjekten eröffnet. Teil dieses Artikels ist ein annotiertes Beispiel-Lernobjekt zur Verdeutlichung der oben angesprochenen Entwicklungen und deren Auswirkungen auf die zukünftige akademische Ausbildung.
Wohlgeformte XML-Dokumente lassen sich als Bäume interpretieren und diese wiederum durch Grammatiken beschreiben. Dokumentgrammatiken weisen einige Besonderheiten auf, die sie von Grammatiken für natürliche Sprachen oder Programmiersprachen unterscheidet. Dieser Beitrag erläutert die Verarbeitungsmöglichkeiten, die aus der Nutzung von formalen Dokumentgrammatiken erwachsen.
Dieser Beitrag skizziert die Möglichkeiten, die die Extensible Markup Language (XML) im Umfeld von eLearning und Web Based Training (WBT) eröffnet. Bisherige eLearning-Angebote kranken an verschiedenen Problemen, die durch die Verwendung von XML-basierten Learning Objects vermieden werden können. Ausgehend vom aktuellen Stand im Projekt MiLCA - Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung - soll zudem ein Ausblick auf zukünftige technische Möglichkeiten des Computer-gestützten Lernens gegeben werden.
The administration of electronic publication in the Information Era congregates old and new problems, especially those related with Information Retrieval and Automatic Knowledge Extraction. This article presents an Information Retrieval System that uses Natural Language Processing and Ontology to index collection’s texts. We describe a system that constructs a domain specific ontology, starting from the syntactic and semantic analyses of the texts that compose the collection. First the texts are tokenized, then a robust syntactic analysis is made, subsequently the semantic analysis is accomplished in conformity with a metalanguage of knowledge representation, based on a basic ontology composed of 47 classes. The ontology, automatically extracted, generates richer domain specific knowledge. It propitiates, through its semantic net, the right conditions for the user to find with larger efficiency and agility the terms adapted for the consultation to the texts. A prototype of this system was built and used for the indexation of a collection of 221 electronic texts of Information Science written in Portuguese from Brazil. Instead of being based in statistical theories, we propose a robust Information Retrieval System that uses cognitive theories, allowing a larger efficiency in the answer to the users queries.
A text parsing component designed to be part of a system that assists students in academic reading an writing is presented. The parser can automatically add a relational discourse structure annotation to a scientific article that a user wants to explore. The discourse structure employed is defined in an XML format and is based the Rhetorical Structure Theory. The architecture of the parser comprises pre-processing components which provide an input text with XML annotations on different linguistic and structural layers. In the first version these are syntactic tagging, lexical discourse marker tagging, logical document structure, and segmentation into elementary discourse segments. The algorithm is based on the shift-reduce parser by Marcu (2000) and is controlled by reduce operations that are constrained by linguistic conditions derived from an XML-encoded discourse marker lexicon. The constraints are formulated over multiple annotation layers of the same text.
Discourse segmentation is the division of a text into minimal discourse segments, which form the leaves in the trees that are used to represent discourse structures. A definition of elementary discourse segments in German is provided by adapting widely used segmentation principles for English minimal units, while considering punctuation, morphology, sytax, and aspects of the logical document structure of a complex text type, namely scientific articles. The algorithm and implementation of a discourse segmenter based on these principles is presented, as well an evaluation of test runs.
In the project SemDok (Generic document structures in linearly organised texts) funded by the German Research Foundation DFG, a discourse parser for a complex type (scientific articles by example), is being developed. Discourse parsing (henceforth DP) according to the Rhetorical Structure Theory (RST) (Mann and Taboada, 2005; Marcu, 2000) deals with automatically assigning a text a tree structure in which discourse segments and rhetorical relations between them are marked, such as Concession. For identifying the combinable segments, declarative rules are employed, which describe linguistic and structural cues and constraints about possible combinations by referring to different XML annotation layers of the input text, and external knowledge bases such as a discourse marker lexicon, a lexico-semantic ontology (later to be combined with a domain ontology), and an ontology of rhetorical relations. In our text-technological environment, the obvious choice of formalism to represent such ontologies is OWL (Smith et al., 2004). In this paper, we describe two OWL ontologies and how they are consulted from the discourse parser to solve certain tasks within DP. The first ontology is a taxononomy of rhetorical relations which was developed in the project. The second one is an OWL version of GermaNet, the model of which we designed together with our project partners.
Im Teilprojekt CI “SemDok” der DFG-Forschergruppe Texttechnologische Informationsmodellierung wurde ein Textparser für Diskursstrukturen wissenschaftlicher Zeitschriftenartikel nach der Rhetorical Structure Theory entwickelt. Die wesentlichen konzeptuellen und technischen Merkmale des Chart-Parsers und die sich daraus ergebenden Parametrisierungsmöglichkeiten für Parsing-Experimente werden beschrieben. Zudem wird HPVtz., ein Tool für die Visualisierung von Parsing-Ergebnissen (RST-Bäume in einer XML-Anwendung) und die Navigation in ihnen, vorgestellt.
Präsentationen sind seit einigen Jahren auch in der Wissenschaft zu einer selbstverständlichen Kommunikationsform geworden: In der Verbindung von spontaner mündlicher Rede und visueller Projektion vor allem mittels PowerPoint wollen sie dem Bedürfnis nach schneller Informationsvermittlung entsprechen. Henning Lobin analysiert die linguistischen und rhetorischen Eigenschaften dieser neuen Kommunikationsform und berücksichtigt insbesondere die spezielle Art der Medienkombination.
Präsentationstechnologien bedingen Konvergenzprozesse verschiedener Kommunikationsmodi. In wissenschaftlichen Präsentationen werden unterschiedliche kommunikative Elemente (unter anderem Text, Bild und redebegleitende Gesten) miteinander verbunden, wodurch eine komplexe, mehrdimensionale Form der Multimodalität entsteht Die multimodale Struktur von Präsentationen kann durch eine neuartige Betrachtungsweise mit linguistischem Instrumentarium beschrieben und analysiert werden. Die Grundlage eines solchen linguistischen Ansatzes bildet die Annahme, dass Präsentationen als komplexe, multimodale Texte verstanden werden können. Der Beitrag zeigt, wie auf Basis dieser Annahme die Funktionsweise wissenschaftlicher Präsentationen theoretisch modelliert werden kann.
Knowledge in textual form is always presented as visually and hierarchically structured units of text, which is particularly true in the case of academic texts. One research hypothesis of the ongoing project Knowledge ordering in texts - text structure and structure visualisations as sources of natural ontologies1 is that the textual structure of academic texts effectively mirrors essential parts of the knowledge structure that is built up in the text. The structuring of a modern dissertation thesis (e.g. in the form of an automatically generated table of contents - toes), for example, represents a compromise between requirements of the text type and the methodological and conceptual structure of its subject-matter. The aim of the project is to examine how visual-hierarchical structuring systems are constructed, how knowledge structures are encoded in them, and how they can be exploited to automatically derive ontological knowledge for navigation, archiving, or search tasks. The idea to extract domain concepts and semantic relations mainly from the structural and linguistic information gathered from tables of contents represents a novel approach to ontology learning.
This study examines what kind of cues and constraints for discourse interpretation can be derived from the logical and generic document structure of complex texts by the example of scientific journal articles. We performed statistical analysis on a corpus of scientific articles annotated on different annotations layers within the framework of XML-based multi-layer annotation. We introduce different discourse segment types that constrain the textual domains in which to identify rhetorical relation spans, and we show how a canonical sequence of text type structure categories is derived from the corpus annotations. Finally, we demonstrate how and which text type structure categories assigned to complex discourse segments of the type “block” statistically constrain the occurrence of rhetorical relation types.