OPUS 4 | Search

Standardisierung orthographischer Transkriptionen: Ein SGML/TEI-basierter Vorschlag für VERBMOBIL (VM-Memo 117) (1997)

Witt, Andreas ; Lüngen, Harald ; Gibbon, Dafydd

Text type structure and logical document structure (2004)

Langer, Hagen ; Lüngen, Harald ; Bayerl, Petra Saskia

Most research on automated categorization of documents has concentrated on the assignment of one or many categories to a whole text. However, new applications, e.g. in the area of the Semantic Web, require a richer and more fine-grained annotation of documents, such as detailed thematic information about the parts of a document. Hence we investigate the automatic categorization of text segments of scientific articles with XML markup into 16 topic types from a text type structure schema. A corpus of 47 linguistic articles was provided with XML markup on different annotation layers representing text type structure, logical document structure, and grammatical categories. Six different feature extraction strategies were applied to this corpus and combined in various parametrizations in different classifiers. The aim was to explore the contribution of each type of information, in particular the logical structure features, to the classification accuracy. The results suggest that some of the topic types of our hierarchy are successfully learnable, while the features from the logical structure layer had no particular impact on the results.

Repräsentation und Verknüpfung allgemeinsprachlicher und terminologischer Wortnetze in OWL (2007)

Kunze, Claudia ; Lemnitzer, Lothar ; Lüngen, Harald ; Storrer, Angelika

This paper describes an approach to modelling a general-language wordnet, GermaNet, and a domain-specific wordnet, TermNet, in the web ontology language OWL. While the modelling process for GermaNet adopts relevant recommendations with respect to the English Princeton WordNet, for Term-Net an alternative modelling concept is developed that considers the special characteristics of domain-specific terminologies. We present a proposal for linking a general-language wordnet and a terminological wordnet within the framework of OWL and on this basis discuss problems and alternative modelling approaches.

Demonstration des SemDok-Textparsers (2008)

Hilbert, Mirco ; Lüngen, Harald ; Bärenfänger, Maja ; Lobin, Henning

Im Teilprojekt CI “SemDok” der DFG-Forschergruppe Texttechnologische Informationsmodellierung wurde ein Textparser für Diskursstrukturen wissenschaftlicher Zeitschriftenartikel nach der Rhetorical Structure Theory entwickelt. Die wesentlichen konzeptuellen und technischen Merkmale des Chart-Parsers und die sich daraus ergebenden Parametrisierungsmöglichkeiten für Parsing-Experimente werden beschrieben. Zudem wird HPVtz., ein Tool für die Visualisierung von Parsing-Ergebnissen (RST-Bäume in einer XML-Anwendung) und die Navigation in ihnen, vorgestellt.

Sprachressourcen in der Lehre – Erfahrungen, Einsatzszenarien, Nutzerwünsche (2011)

Binder, Frank ; Lüngen, Harald ; Lobin, Henning

Editorial (2011)

Bärenfänger, Maja ; Binder, Frank ; Lobin, Henning ; Lüngen, Harald ; Stührenberg, Maik

Linguistische Annotationen für die Analyse von Gliederungsstrukturen wissenschaftlicher Texte (2012)

Lüngen, Harald ; Hebborn, Mariana

DeReKo-Archiv jetzt mit fünf Milliarden Textwörtern (2012)

Lüngen, Harald

Zum Nutzen von Korpusauszeichnungen für die Lexikographie (2012)

Klosa, Annette ; Kupietz, Marc ; Lüngen, Harald

Zur Erstellung und Interpretation der Zeitverlaufsgrafiken (2013)

Lüngen, Harald ; Keibel, Holger

Building linguistic corpora from Wikipedia articles and discussions (2014)

Margaretha, Eliza ; Lüngen, Harald

Wikipedia is a valuable resource, useful as a lingustic corpus or a dataset for many kinds of research. We built corpora from Wikipedia articles and talk pages in the I5 format, a TEI customisation used in the German Reference Corpus (Deutsches Referenzkorpus - DeReKo). Our approach is a two-stage conversion combining parsing using the Sweble parser, and transformation using XSLT stylesheets. The conversion approach is able to successfully generate rich and valid corpora regardless of languages. We also introduce a method to segment user contributions in talk pages into postings.

Zwischen Empirie und Ästhetik – Ansätze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel (2014)

Kupietz, Marc ; Belica, Cyril ; Lüngen, Harald ; Perkuhn, Rainer

Der Beitrag beschäftigt sich mit der Frage, wie und inwieweit korpusbasierte Ansätze zur Untersuchung und Bewertung von Sprachwandel beitragen können. Die Bewertung von Sprachwandel erscheint in dieser Hinsicht interessant, da sie erstens von größerem öffentlichen Interesse ist, zweitens nicht zu den Kernthemen der Sprachwissenschaft zählt und drittens sowohl die geisteswissenschaftlichen Aspekte der Sprachwissenschaft berührt als auch die empirischen, die eher für die so genannten harten Wissenschaften typisch sind. Letzteres trifft bei der Frage nach Sprachverfall (gutem vs. schlechtem Deutsch diachron) vermutlich unbestrittener zu als bei der Frage nach richtigem vs. falschem Deutsch, da zu ihrer Beantwortung offensichtlich einerseits empirische, messbare Kriterien herangezogen werden müssen, andererseits aber auch weitere Kriterien notwendig sind und es außerdem einer Entscheidung zur Einordnung und Gewichtung der verschiedenartigen Kriterien sowie einer Begründung dieser Entscheidung bedarf. Zur Annäherung an die Fragestellung werden zunächst gängige, leicht operationalisierbare Hypothesen zu Symptomen eines potenziellen Verfalls des Deutschen auf verschiedenen DeReKo-basierten Korpora überprüft und im Hinblick auf ihre Verallgemeinerbarkeit und Tragweite diskutiert. Im zweiten Teil werden weitere empirische Ansätze zur Untersuchung von Wandel, Variation und Dynamik skizziert, die zur Diskussion spezieller Aspekte von Sprachverfall beitragen könnten. Im Schlussteil werden die vorgestellten Ansätze in den Gesamtkontext einer sprachwissenschaftlichen Untersuchung von Sprachverfall gestellt und vor dem Hintergrund seines gesellschaftlichen Diskurses reflektiert.

Zur Erstellung und Interpretation der Zeitverlaufsgrafiken (2014)

Lüngen, Harald ; Keibel, Holger

Das Deutsche Referenzkorpus DEREKO im Jubiläumsjahr 2014 (2014)

Lüngen, Harald ; Kupietz, Marc

Zur Erstellung und Interpretation der Zeitverlaufsgrafiken (2015)

Lüngen, Harald ; Keibel, Holger

Valenz und Kookkurrenz (2015)

Perkuhn, Rainer ; Belica, Cyril ; Keibel, Holger ; Kupietz, Marc ; Lüngen, Harald

Das Dortmunder Chat-Korpus in CLARIN-D: Modellierung und Mehrwerte (2016)

Beißwenger, Michael ; Herold, Axel ; Lüngen, Harald ; Storrer, Angelika

DEREKO - Das Deutsche Referenzkorpus. Schriftkorpora der deutschen Gegenwartssprache am Institut für Deutsche Sprache in Mannheim (2017)

Lüngen, Harald