Refine
Document Type
- Part of a Book (9)
- Book (1)
Is part of the Bibliography
- no (10)
Keywords
- Texttechnologie (10) (remove)
Publicationstate
- Zweitveröffentlichung (8)
- Postprint (2)
Reviewstate
- (Verlags)-Lektorat (8)
- Peer-Review (1)
Publisher
- Westdeutscher Verlag (2)
- Aisthesis Verlag (1)
- Benjamins (1)
- Fink (1)
- Gardez! Verlag (1)
- Libri Books on Demand (1)
- Narr (1)
- Stauffenburg Verlag (1)
- VS Verlag für Sozialwissenschaften (1)
This study examines what kind of cues and constraints for discourse interpretation can be derived from the logical and generic document structure of complex texts by the example of scientific journal articles. We performed statistical analysis on a corpus of scientific articles annotated on different annotations layers within the framework of XML-based multi-layer annotation. We introduce different discourse segment types that constrain the textual domains in which to identify rhetorical relation spans, and we show how a canonical sequence of text type structure categories is derived from the corpus annotations. Finally, we demonstrate how and which text type structure categories assigned to complex discourse segments of the type “block” statistically constrain the occurrence of rhetorical relation types.
Computerlinguistik (die Verarbeitung von Sprache mit dem Computer) und Texttechnologie (die automatisierte Handhabung elektronischer Texte) haben im letzten Jahrzehnt unterschiedliche Richtungen eingeschlagen. Beide Disziplinen speisen sich jedoch aus der gleichen Quelle: der formalen Grammatik. Deshalb ist eine gemeinsame Darstellung sinnvoll. Der Bezug auf die gemeinsamen Grundlagen und die kontrastierende Gegenüberstellung einzelner Teilbereiche fördern das Verständnis der jeweils anderen Disziplin und eröffnen interessante Querbezüge. Erstmals wird die Verknüpfung von Computerlinguistik und Texttechnologie mit dieser Einführung in knapper Form systematisch vollzogen, was sie insbesodere für Module im Bachelor-Studium geeignet macht.
Multimedia
(1997)
XML-Dokumentgrammatiken, die als DTDs oder neuerdings als XML-Schemata spezifiziert werden, spezifizieren zwar die syntaktischen Eigenschaften einer Klasse von Dokumenten, für sie existiert aber normalerweise kein formales semantisches Modell des Gegenstandsbereichs, auf das Dokumentstrukturen abgebildet werden können. Der Beitrag zeigt am Beispiel der Tabelle, wie semantische Netze für diese Aufgabe herangezogen werden können. Die konkrete Umsetzung geschieht dabei auf der Grundlage des Topic-Map-Standards in Verbindung mit XPath-Ausdrücken, die aus dem semantischen Netz in die Dokumentinstanz bzw. in ein XML-Schema verweisen.