Refine
Year of publication
Document Type
- Part of a Book (63)
- Article (25)
- Conference Proceeding (19)
- Book (11)
- Other (9)
Language
- German (103)
- English (21)
- Multiple languages (2)
- Chinese (1)
Keywords
- Computerlinguistik (18)
- Dependenzgrammatik (16)
- Syntax (16)
- Deutsch (15)
- Digitalisierung (12)
- Sprache (10)
- Texttechnologie (10)
- Multimodalität (9)
- Korpus <Linguistik> (8)
- XML (8)
Publicationstate
- Zweitveröffentlichung (63)
- Veröffentlichungsversion (27)
- Postprint (12)
- (Verlags)-Lektorat (1)
Reviewstate
Discourse parsing of complex text types such as scientific research articles requires the analysis of an input document on linguistic and structural levels that go beyond traditionally employed lexical discourse markers. This chapter describes a text-technological approach to discourse parsing. Discourse parsing with the aim of providing a discourse structure is seen as the addition of a new annotation layer for input documents marked up on several linguistic annotation levels. The discourse parser generates discourse structures according to the Rhetorical Structure Theory. An overview of the knowledge sources and components for parsing scientific joumal articles is given. The parser’s core consists of cascaded applications of the GAP, a Generic Annotation Parser. Details of the chart parsing algorithm are provided, as well as a short evaluation in terms of comparisons with reference annotations from our corpus and with recently developed Systems with a similar task.
Editorial
(2011)
This chapter addresses the requirements and linguistic foundations of automatic relational discourse analysis of complex text types such as scientific journal articles. It is argued that besides lexical and grammatical discourse markers, which have traditionally been employed in discourse parsing, cues derived from the logical and generical document structure and the thematic structure of a text must be taken into account. An approach to modelling such types of linguistic information in terms of XML-based multi-layer annotations and to a text-technological representation of additional knowledge sources is presented. By means of quantitative and qualitative corpus analyses, cues and constraints for automatic discourse analysis can be derived. Furthermore, the proposed representations are used as the input sources for discourse parsing. A short overview of the projected parsing architecture is given.
Researchers in many disciplines, sometimes working in close cooperation, have been concerned with modeling textual data in order to account for texts as the prime information unit of written communication. The list of disciplines includes computer science and linguistics as well as more specialized disciplines like computational linguistics and text technology. What many of these efforts have in common is the aim to model textual data by means of abstract data types or data structures that support at least the semi-automatic processing of texts in any area of written communication.
Discourse segmentation is the division of a text into minimal discourse segments, which form the leaves in the trees that are used to represent discourse structures. A definition of elementary discourse segments in German is provided by adapting widely used segmentation principles for English minimal units, while considering punctuation, morphology, sytax, and aspects of the logical document structure of a complex text type, namely scientific articles. The algorithm and implementation of a discourse segmenter based on these principles is presented, as well an evaluation of test runs.
A text parsing component designed to be part of a system that assists students in academic reading an writing is presented. The parser can automatically add a relational discourse structure annotation to a scientific article that a user wants to explore. The discourse structure employed is defined in an XML format and is based the Rhetorical Structure Theory. The architecture of the parser comprises pre-processing components which provide an input text with XML annotations on different linguistic and structural layers. In the first version these are syntactic tagging, lexical discourse marker tagging, logical document structure, and segmentation into elementary discourse segments. The algorithm is based on the shift-reduce parser by Marcu (2000) and is controlled by reduce operations that are constrained by linguistic conditions derived from an XML-encoded discourse marker lexicon. The constraints are formulated over multiple annotation layers of the same text.
Im Teilprojekt CI “SemDok” der DFG-Forschergruppe Texttechnologische Informationsmodellierung wurde ein Textparser für Diskursstrukturen wissenschaftlicher Zeitschriftenartikel nach der Rhetorical Structure Theory entwickelt. Die wesentlichen konzeptuellen und technischen Merkmale des Chart-Parsers und die sich daraus ergebenden Parametrisierungsmöglichkeiten für Parsing-Experimente werden beschrieben. Zudem wird HPVtz., ein Tool für die Visualisierung von Parsing-Ergebnissen (RST-Bäume in einer XML-Anwendung) und die Navigation in ihnen, vorgestellt.
Computerlinguistik (die Verarbeitung von Sprache mit dem Computer) und Texttechnologie (die automatisierte Handhabung elektronischer Texte) haben im letzten Jahrzehnt unterschiedliche Richtungen eingeschlagen. Beide Disziplinen speisen sich jedoch aus der gleichen Quelle: der formalen Grammatik. Deshalb ist eine gemeinsame Darstellung sinnvoll. Der Bezug auf die gemeinsamen Grundlagen und die kontrastierende Gegenüberstellung einzelner Teilbereiche fördern das Verständnis der jeweils anderen Disziplin und eröffnen interessante Querbezüge. Erstmals wird die Verknüpfung von Computerlinguistik und Texttechnologie mit dieser Einführung in knapper Form systematisch vollzogen, was sie insbesodere für Module im Bachelor-Studium geeignet macht.
The administration of electronic publication in the Information Era congregates old and new problems, especially those related with Information Retrieval and Automatic Knowledge Extraction. This article presents an Information Retrieval System that uses Natural Language Processing and Ontology to index collection’s texts. We describe a system that constructs a domain specific ontology, starting from the syntactic and semantic analyses of the texts that compose the collection. First the texts are tokenized, then a robust syntactic analysis is made, subsequently the semantic analysis is accomplished in conformity with a metalanguage of knowledge representation, based on a basic ontology composed of 47 classes. The ontology, automatically extracted, generates richer domain specific knowledge. It propitiates, through its semantic net, the right conditions for the user to find with larger efficiency and agility the terms adapted for the consultation to the texts. A prototype of this system was built and used for the indexation of a collection of 221 electronic texts of Information Science written in Portuguese from Brazil. Instead of being based in statistical theories, we propose a robust Information Retrieval System that uses cognitive theories, allowing a larger efficiency in the answer to the users queries.
Der vorliegende Artikel skizziert die Möglichkeiten, die durch den Gebrauch offener Standards im Bereich des eLearning und Web Based Trainig (WBT) eröffnet werden. Ausgehend von den Erfahrungen aus dem BMBF-Projekt MiLCA ("Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung") werden die Vorteile einer XML basierten Markupsprache in Verbindung mit einer Open Source WBT-Plattform für die Strukturierung von Lernobjekten diskutiert. Dabei ist die Realisierung eines vollständigen XML Imports in das WBT-System nur der erste Schritt in einer sehr viel weiter gehenden Entwicklung, in der textlinguistische und computerlinguistische Methoden mehr und mehr an Bedeutung gewinnen. So wird zum Beispiel der Gebrauch von didaktisch motivierten Metadaten Autoren in die Lage versetzen, Lernobjekte adaptiv und lernerzentriert aufzubereiten. Die Integration von Ontologien und Taxonomien ist ein weiterer Aspekt, der noch präzisere Möglichkeiten der Wartung und Wiederverwendung von Lernobjekten eröffnet. Teil dieses Artikels ist ein annotiertes Beispiel-Lernobjekt zur Verdeutlichung der oben angesprochenen Entwicklungen und deren Auswirkungen auf die zukünftige akademische Ausbildung.
Situiertheit
(1993)
Wohlgeformte XML-Dokumente lassen sich als Bäume interpretieren und diese wiederum durch Grammatiken beschreiben. Dokumentgrammatiken weisen einige Besonderheiten auf, die sie von Grammatiken für natürliche Sprachen oder Programmiersprachen unterscheidet. Dieser Beitrag erläutert die Verarbeitungsmöglichkeiten, die aus der Nutzung von formalen Dokumentgrammatiken erwachsen.
From Open Source to Open Information. Collaborative Methods in Creating XML-based Markup Languages
(2000)
In dependenzsyntaktischen Systemen wie denen von Engel (1982), Hudson (1984), Schubert (1987), Mel'čuk (1988) oder Starosta (1988) können gemeinhin nur Wörter andere Wörter oder Phrasen regieren. Auch wenn diese Annahme durchaus praktikabel ist, führt sie doch zu einer ganzen Reihe von syntaxtheoretischen Unzulänglichkeiten, die ausgearbeitete Dependenzgrammatiken gegenüber konkurrierenden Grammatiktheorien als unzulänglich erscheinen lassen. Ziel des vorliegenden Beitrages ist es, die Notwendigkeit darzulegen, auch komplexeren Einheiten Rektionsfähigkeit zuzugestehen, und mit dem Konzept des 'komplexen Elements' ein geeignetes formales Instrument dafür zur Verfügung zu stellen.
zentripetal
(2016)
Sprache und digitale Medien
(1997)
Durch das Aufkommen der Computer als Kommunikationsmedium hat sich für die Linguistik ein weiteres neues Gebiet erschlossen, bei dem es nicht um die maschinelle Simulation von Sprachverstehens- und -Produktionsprozessen geht. Die Nutzung des Computers als Medium erfordert auch die Darstellung von Texten in digitaler Form, so dass sie durch den Computer bearbeitet und dargestellt werden können. Texte im Computer - oft wird von elektronischen Texten gesprochen - brauchen dabei allerdings nicht die auf Papier gedruckten Texte nachzubilden, sie stellen vielmehr eine eigene Realisationsform von Textinhalten dar, die sich in vielem vom traditionellen Textbegriff unterscheidet.
Multimedia
(1997)
In recent times presentations have drawn the attention of scientific interest as a new form of communication. In visualization of abstract structures or relationships in scholarly presentations using diagrams, different medial layers of meaning are conjoined in a very special way. The present paper examines firstly the multimodal structure of presentations and the mechanisms of establishing cross-modality coherence. Then the results of a reception experiment are discussed that gives rise to the assumption that multimodality can in fact improve the understanding of scholarly presentations. In the final part of the paper the production of an abstract visualization in a scholarly presentation is exemplified with regard to the solution of disambiguation and linearization problems. We claim that abstract visualizations in presentations are used to produce narratives by the speaker, and without such narratives this kind of visualization cannot be understood properly.
Wissenschaftliche Kommunikation zeichnet sich durch ein besonders hohes Maß an Standardisierung und Organisation aus. Anforderungen der Objektivität, der Nachvollziehbarkeit und der Authentizität schlagen sich in der Struktur aller wissenschaftlichen Textsorten nieder. Die Kulturtechniken der Schrift sind auf diese Bedingungen ausgerichtet, weshalb das Lesen und Schreiben wissenschaftlicher Texte traditionell besonderen Bedingungen unterliegt, die üblicherweise im Studium vermittelt werden. In diesem Beitrag soll zunächst gezeigt werden, welches die wichtigsten wissenschaftlichen Textsorten sind, welche Eigenschaften sie besitzen und welche Ziele mit Ihnen kommunikativ verfolgt werden. Im zweiten Abschnitt geht es um die Digitalisierung von Texten: Welche Merkmale besitzen digitale Texte und welchen technischen Bedingungen unterliegen sie. Auch wird es hier um das Schreiben digitaler Texte überhaupt gehen. Im letzten Abschnitt dieses Beitrags sehen wir uns die Auswirkungen daraus auf die wissenschaftliche Kommunikation an. Digitale Texte weisen Eigenschaften auf, die die kommunizierten Inhalte zu verändern vermögen. Wie ändert sich das wissenschaftliche Schreiben dadurch?
Für koordinative Konstrukte sind verschiedene syntaktische Grundstrukturen vorgeschlagen worden. Allen diesen Ansätzen ist gemein, daß sie die inkre- mentelle Verarbeitung dieser Konstruktionen nicht plausibel erklären können, obwohl Indizien dafür vorliegen, daß es sich bei Koordination keineswegs um ein genuin strukturelles Phänomen handelt, sondern um eines, daß aus den Prinzipien der inkrementellen Verarbeitung emergiert. Das skizzierte Verarbeitungsmodell basiert deshalb auf der Annahme, daß syntaktische Strukturen im Falle der Koordination mehrfach benutzt werden und hinsichtlich verschiedener sog. Projektionen zu verarbeiten sind. Diese Annahme erlaubt es, die Vielfalt der bei der Koordination auftretenden Tilgungs- und Reduktionsphänomene auf die Realisation koordinativer Strukturen bezüglich ihrer verschiedenen Projektionen zurückzuführen.
Bei der natürlichsprachlichen Steuerung von situierten Agenten sollen Instruktionen in Aktionen umgesetzt werden. Instruktionen spezifizieren auf der einen Seite Pläne oder Planfragmente, müssen aber auf der anderen Seite der Tatsache Rechnung tragen, daß Handlungen stets im situativen Zusammenhang auszuführen sind und deshalb nicht vollständig vorherbestimmt werden können. Die Strukturmodelle für Aktionen, die bisher vorgeschlagen worden sind, berücksichtigen diese Tatsache nur unzureichend. Im vorliegenden Beitrag wird deshalb ein geeignetes Aktionsstrukturmodell motiviert und eine Repräsentation in Form eines Aktionsschemas vorgeschlagen. Hauptmerkmal des Aktionsstrukturmodells ist, daß Handlungen als ein mehr oder weniger spezifiziertes Übergehen von einem Anfangszustand in einen Zielzustand verstanden werden.
Handlungsanweisungen werden traditionell als sprachlich geäußerte Aktionspläne aufgefasst, denen ein Akteur strikt zu folgen hat. Diese Auffassung führt allerdings dann zu Problemen, wenn der Akteur teilweise autonom handeln kann. Wie soll eine Handlungsanweisung in diesem Fall das Verhalten des Akteurs lenken, ohne zugleich seine Autonomie in der Handlungsausführung einzuschränken?
Henning Lobin wählt in seinem Buch einen alternativen Ansatz: Handlungsanweisungen werden lediglich als Basis für einen Planungsprozess verstanden, zu dem auch andere Kompetenzen des Akteurs wie visuelle Wahrnehmung, Erfahrung und Wissen beitragen. Der Autor vergleicht die sprachlichen Instruktionsformen mit konzeptuellen Strukturen und leitet daraus bestimmte Regeln ab, die zu Aktivitätsschemata als Planungsressourcen führen können. Abschließend diskutiert der Autor die Nutzung von derartigen Planungsressourcen in konkreten Systemen.
Die Extensible Markup Language (XML), eine vereinfachte Version der Standard Generalized Markup Language (SGML), wurde für den Austausch strukturierter Daten im Internet entwickelt. Informationen können damit nicht nur in einem einheitlichen, medienunabhängigen Format strukturiert werden, sondern die Strukturierungsprinzipien selbst sind auch durch ein formales Regelwerk, eine Grammatik, beschreibbar. Erst so werden weitergehende Verarbeitungsprozesse wie geleitete Dateneingaben, Datenkonvertierung, flexibles Navigieren und Viewing der Daten möglich. Neben der elementaren Informationsmodellierung ist mit der Meta-Strukturierung durch sog. Architekturen ein neuer Aspekt hinzugekommen: die objektorientierte Schichtung von Struktur-Grammatiken. Das vorliegende Buch stellt beide Strukturierungstechniken - elementar und architektonisch - erstmalig in zusammenhängender Form dar. Es wendet sich an Leser, die sich detailliert und praxisorientiert mit den Möglichkeiten der SGML-basierten Informationsmodellierung auseinandersetzen wollen.
Schlafende Zuhörer, unlesbare Folien, monotones Genuschel? Wer im Studium nicht präsentieren kann, langweilt andere und schadet sich selbst.
Henning Lobin erklärt Schritt für Schritt, wie eine gute Präsentation entsteht und das Publikum überzeugt. Erläutert wird, wie man die Aufmerksamkeit anderer gewinnt, wie Visualisierungstechniken richtig eingesetzt werden, welche rhetorischen Techniken wirken und wie man sich in der anschließenden Diskussion bewährt. Studienanfänger wie Doktoranden lernen hier, wie die nächste Präsentation zum Erfolg wird.
Dependenzgrammatik
(2013)
Dependenzrelation
(2016)
Dependenzstruktur
(2014)
Nektion
(2016)
Nektiv
(2014)
Nexus
(2016)
Plexus
(2016)
Regens
(2016)
Translativ
(2014)