Refine
Document Type
- Article (1)
- Doctoral Thesis (1)
Language
- German (2) (remove)
Is part of the Bibliography
- no (2)
Keywords
- Textproduktion (2) (remove)
Publicationstate
Reviewstate
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (2) (remove)
Publisher
Im Zentrum der Dissertation steht der Begriff Informationsmodellierung oder genauer der Begriff der "textuellen Informationsmodellierung", wobei auf einer bereits vorgeschlagenen Unterscheidung einer primären und einer sekundären Ebene der Informationsstrukturierung aufgebaut wird. Der Gegenstand der primären Ebene sind die textuellen Daten selbst sowie ihre Strukturierung, wohingegen die sekundäre Ebene beschreibt, wie die für die primären Ebenen verwendeten Regelwerke mit alternativen Regelwerken in Beziehung gesetzt werden können. Der Einteilung in eine primäre und eine sekundäre Informationsstrukturierung wird in der Dissertation das Konzept der multiplen Informationsstrukturierung nebengeordnet. Dieses Konzept ist so zu verstehen, dass die primäre Ebene bei Bedarf vervielfacht wird - jedoch bezieht sich jede dieser Ebenen auf dieselbe Datengrundlage. Hierbei ergeben sich auch Auswirkungen auf die sekundäre Informationsstrukturierung. Die Informationsmodellierung erfolgt mit Auszeichnungssprachen. Die Standard Generalized Markup Language (SGML) stellt hierfür einen Rahmen dar, jedoch wurde dieser Formalismus seit seiner 1986 erfolgten Standardisierung nicht nur weiterentwickelt, sondern es wurde mit der Extensible Markup Language (XML) im Jahr 1998 eine wesentlich einfachere Untermenge dieser Sprache definiert, die zudem das derzeitige Zentrum weiterer Entwicklungen auf dem Gebiet der Auszeichnungssprachen darstellt. Der entwickelte Ansatz zur Modellierung linguistischer Information basiert auf der Extensible Markup Language (XML), wobei die weitergehenden Möglichkeiten von SGML selbstverständlich ebenfalls dargestellt und diskutiert werden. Mittels XML können Informationen, die sich nicht in bestimmten Hierarchien (mittels mathematischer Bäume) strukturieren lassen, nicht in einer natürlichen Weise repräsentiert werden. Eine Lösung dieses Problems liegt in der Aufteilung der Strukturierung auf verschiedene Ebenen. Diese neue Lösung wird dargestellt, diskutiert und modelliert.
Schreiben und Redigieren stellen hohe kognitive Anforderungen an Autoren. Selbst publizierte Texte sind nie ganz fehlerfrei. Für viele Fehler kann man die Entstehung rekonstruieren: Funktionen in Textbearbeitungsprogrammen sind zeichenbasiert und berücksichtigen nicht die Elemente und Strukturen der jeweiligen verwendeten Sprache. Autoren müssen ihre Redigierabsichten in eine lange, komplexe Folge solcher zeichenbasierten Funktionen übersetzen.
Editoren für Programmierer hingegen bieten seit langem sprachspezifische Editierfunktionen, die auf den Elementen und Strukturen der verwendeten Programmiersprache operieren. Diese Funktionen tragen dazu bei, das Ändern von Programmcode zu erleichtern und Fehler zu vermeiden.
In dieser Arbeit übertragen wir das Prinzip solcher sprachspezifischen Funktionen in Programmiereditoren auf Funktionen für die Bearbeitung natürlichsprachlicher Texte. Wir entwickeln das Konzept der linguistisch unterstützten Redigierfunktionen unter Berücksichtigung aktueller Erkenntnisse der Schreibforschung. Wir definieren Informations-, Bewegungs- und Modifikationsfunktionen, die auf Elementen und Strukturen natürlicher Sprache operieren. Solche Funktionen sollen Autoren entlasten und helfen, typische Fehler zu vermeiden.
Sprachspezifische Funktionen beruhen auf Methoden zur Erkennung und Bestimmung relevanter Elemente und Strukturen. Wir verwenden dazu computerlinguistische Ressourcen zur morphologischen Analyse und Generierung und zur automatischen Wortartenbestimmung. Die Evaluation verfügbarer Ressourcen ergibt, dass die Situation für die Behandlung des Deutschen nicht so vielversprechend ist, wie ursprünglich angenommen und üblicherweise in der Literatur dargestellt.
Unsere prototypische Implementierung linguistisch unterstützter Redigierfunktionen für die Bearbeitung deutscher Texte zeigt die Möglichkeiten und Grenzen des Konzepts unter Berücksichtigung der Leistungsfähigkeit heute verfügbarer computerlinguistischer Ressourcen und der Eigenschaften des Deutschen.