Textwissenschaft
Refine
Document Type
- Part of a Book (2) (remove)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- Chatten <Kommunikation> (1)
- Deutsch (1)
- Korpus <Linguistik> (1)
- Semantisches Netz (1)
- Text Encoding Initiative (TEI) (1)
- Texttechnologie (1)
- Textverarbeitung (1)
- Topic map (1)
Publicationstate
Reviewstate
- Peer-Review (2) (remove)
XML-Dokumentgrammatiken, die als DTDs oder neuerdings als XML-Schemata spezifiziert werden, spezifizieren zwar die syntaktischen Eigenschaften einer Klasse von Dokumenten, für sie existiert aber normalerweise kein formales semantisches Modell des Gegenstandsbereichs, auf das Dokumentstrukturen abgebildet werden können. Der Beitrag zeigt am Beispiel der Tabelle, wie semantische Netze für diese Aufgabe herangezogen werden können. Die konkrete Umsetzung geschieht dabei auf der Grundlage des Topic-Map-Standards in Verbindung mit XPath-Ausdrücken, die aus dem semantischen Netz in die Dokumentinstanz bzw. in ein XML-Schema verweisen.
We introduce our pipeline to integrate CMC and SM corpora into the CLARIN-D corpus infrastructure. The pipeline was developed by transforming an existing CMC corpus, the Dortmund Chat Corpus, into a resource conforming to current technical and legal standards. We describe how the resource has been prepared and restructured in terms of TEI encoding, linguistic annotations, and anonymisation. The output is a CLARIN-conformant resource integrated in the CLARIN-D research infrastructure.