Refine
Year of publication
- 2009 (88) (remove)
Document Type
- Part of a Book (53)
- Article (16)
- Conference Proceeding (11)
- Book (2)
- Doctoral Thesis (2)
- Other (2)
- Review (1)
- Working Paper (1)
Language
- German (62)
- English (21)
- Portuguese (2)
- French (1)
- Latvian (1)
- Multiple languages (1)
Has Fulltext
- yes (88)
Keywords
- Deutsch (46)
- Sprachnorm (12)
- Korpus <Linguistik> (10)
- Grammatik (6)
- Computerlinguistik (4)
- Französisch (4)
- Interaktion (4)
- Konversationsanalyse (4)
- Syntax (4)
- Textlinguistik (4)
Publicationstate
- Veröffentlichungsversion (88) (remove)
Reviewstate
- (Verlags)-Lektorat (64)
- Peer-Review (16)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (2)
- Peer-Revied (1)
- Peer-review (1)
- Verlags-Lektorat (1)
Publisher
- de Gruyter (22)
- Lang (9)
- Narr (7)
- Acta Universitatis Upsaliensis (2)
- Institut für Deutsche Sprache (2)
- Nova Fronteira (2)
- Schmidt (2)
- AAAI Press (1)
- Association for Computational Linguistics (1)
- Benjamins (1)
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
Dass politische Strömungen und staatliche Forschungsförderung auch die wissenschaftliche Beschäftigung mit dem Thema „Sprache und Kommunikation in Deutschland Ost und West“ beeinflusst haben – und zwar in beiden deutschen Staaten –, ist schon festgestellt worden. In diesem Beitrag sollen, einer zeitlichen Gliederung in vier Phasen folgend, diese Beziehungen in Umrissen nachgezeichnet werden. Im Mittelpunkt steht dabei die Zeit der Reformjahre 1969 bis 1974 und ihr umfassender Paradigmenwechsel in der bundesdeutschen DDR-Forschung und Forschungsförderung. Hinzu treten Betrachtungen zum Verhältnis von Staat, Nation und Sprache sowie die Frage nach der Kommunikation zwischen Ost- und Westdeutschen seit der friedlichen Revolution.
In this paper we present an approach to faceted search in large language resource repositories. This kind of search which enables users to browse through the repository by choosing their personal sequence of facets heavily relies on the availability of descriptive metadata for the objects in the repository. This approach therefore informs the collection of a minimal set of metatdata for language resources. The work described in this paper has been funded by the EC within the ESFRI infrastructure project CLARIN.
Die Grammatik behauptet sich seit Langem als Gegenstand des Deutschunterrichts, aber sie wird immer wieder „fragwürdig“: Behalten die Schüler, was sie gelernt haben? Liefert die Schulgrammatik geeignete Instrumente für die Sprachreflexion? Bringt sie den behaupteten Nutzen fürs Sprechen, Schreiben und Lesen? Den offiziellen Begründungen für und den behaupteten guten Wirkungen von Grammatik in der Schule, wie sie in den Bildungsplänen und von der Didaktik vertreten werden, begegnet der Verfasser mit einer gewissen Skepsis. Die stützt sich auch auf eine eigens für diesen Beitrag durchgeführte Befragung von Deutsch Lehrenden und die Durchsicht von Abiturarbeiten im Fach Deutsch. Er plädiert für einen Grammatikunterricht mit weniger (vom Lehrer) aufgesetzter Systematik und Begrifflichkeit und mehr sprachlichen Entdeckungsreisen (der Schüler), ausgelöst durch Lernarrangements, die zum Nachdenken anregen.
Seit Anbeginn linguistischer Forschung ist der ontologische Status natürlicher Sprachen in Diskussion: Was ist das Wesen einer Sprache? Die meisten Sprachbegriffe krankten und kranken daran, dass sie verdinglichend und/oder vitalistisch sind, oder die Dynamik der Sprache oder den sozialen Charakter der Sprache ausklammem. Es gilt, einen Sprachbegriff zu entwickeln, der weder verdinglichend kollektivistisch noch auf solipsistische Weise individualpsychologisch ist, und der der Tatsache Rechnung trägt, dass eine sogenannte natürliche Sprache einem Prozess soziokultureller Evolution unterliegt. Einen solchen Sprachbegriff versuche ich in diesem Vortrag zu skizzieren auf der Basis der Prinzipien des methodologischen Individualismus.
Rechtsnormen beruhen auf grammatischen und textverknüpfenden Sprachnormen, die Sachverhalte entscheidbar machen. Diese Normsprachkompetenz ist Teil der juristischen Ausbildung, des impliziten Praxiswissens in der Justiz und der expliziten Begründungsrügen gegen Urteile. Der Beitrag beginnt mit einem Seitenblick auf den vorbildlich gegen Sprachnormen verstoßenden Richter Azdak aus dem Kaukasischen Kreidekreis, geht über zu einem Kasusmusterexemplar von Andre Jolles und veranschaulicht die Normsprachbestandteile an Beispielen aus höchstrichterlichen Entscheidungstexten.
Concurrent standardization as a necessity: The genesis of the new official orthographic guidelines
(2009)
The new official orthographic guidelines were brought into force by the official state authorities on August 1st, 1998 and its principle goals were a standardized representation of the guidelines and a «gentle simplification in respect of content». This regulation was not supported by the public and in fact it was the starting point for a struggle for conceptual solutions and a quest for the achievement of' a consensus between different possible norms. Since orthography is an officially codified standard taking up a prominent position among linguistic standards, it is of particular socio-political importance. It was the foremost task of the Council for German Orthography (Rat für deutsche Rechtschreibung), instituted in December 2004, to elaborate a compromise in order to bring the «Orthographical war» (Die Zeit) to an end, which was led enthusiastically for more than a decade. - The concern of this article is to classify historically the agreement reached in 2006. Against this background, it can be stated that official guidelines will only be accepted, if they are based upon the usage in writing and if they take into account the interests of the reader. Both principles are characterizing the proposal made by the Council for German Orthography. An outlook on the Council's activities concerning orthographic standardization expected in the future will conclude this article.
Adverbkonnektoren und die von konjunktionalen Konnektoren eingeleiteten Sätze (sententiale Adverbiale) sind in der Regel äußerst stellungsflexibel. Die topologischen Varianten sind jedoch großteils nicht äquivalent, sondern mit bestimmten diskusfunktionalen und informationsstrukturellen Eigenschaften verbunden. Am Beispiel von Konnektoren in der linksperipheren Position der „Nullstelle“ („Vorvorfeld“, „linkes Außenfeld") wird gezeigt, dass diese Position unabhängig von der syntaktischen Subklasse des Konnektors syntaktisch und funktional einheitlich erklärt werden kann und dass die dort auftretenden Restriktionen für Konnektoren identisch sind mit denen von V2-Komplementsatz-Einbettung unter Matrixsatzprädikate. Ein Phänomen wie „weil mit Verbzweitstellung" kann dadurch in einen übergeordneten Zusammenhang eingebettet werden.
Neben dieser systematischen Variation gibt es vereinzelt aber auch eine - historisch bedingte - unsystematische und nicht funktional genutzte topologische Variation, die dadurch entsteht, dass Sprecher bei einer uneindeutigen und „schwierigen“ Ausgangslage im Sprachsystem unterschiedliche Reparaturstrategien wählen. Ein Beispiel dafür ist der korrelative Konnektor „sowohl... als auch“.
Das Ungarische verfügt neben einem definiten (a(z)) auch über einen indefiniten Artikel (egy). Dieser kann als schwächer grammatikalisiert angesehen werden als sein Gegenstück im Deutschen (ein), da er in einer Reihe von Kontexten, in denen ein obligatorisch erscheint, nur optional auftritt und teilweise sogar ausgeschlossen ist. Die folgenden Überlegungen zielen darauf ab, solche Kontexte mit Hilfe syntaktischer und/oder semantisch-pragmatischer Beschreibungskategorien zu identifizieren. Dabei beschränken wir uns aus Raumgründen auf die Vorkommensmöglichkeiten des indefiniten Artikels in Subjekt- und Objektfunktion, wobei wir generische Verwendungen generell unberücksichtigt lassen.
Die Datengrundlage bilden zum einen das Ungarische Nationalkorpus (Sigle MNSZ), zum anderen zwei literarische Texte, der Roman Szindbäd haza- megy/Sinbad geht heim von Sändor Märai (Sigle SM) sowie die Anthologie Modern magyar novelläk/Moderne ungarische Erzählungen (Sigle UE). Weiterhin wird auf in der Literatur angeführte Beispiele zurückgegriffen.
Der Begriff Wortprosodie bezeichnet hier die Organisation von Segmenten in die hierarchisch geordneten Konstituenten Silbe, Fuß und phonologisches Wort. Evidenz für solch eine Organisation und die ihr zugrundeliegenden Regeln findet sich in gewissen distributioneilen sowie phonetischen Besonderheiten von Segmenten. In diesem Beitrag versuche ich eine Darstellung der wesentlichen Züge der deutschen Wortprosodie als Interaktion miteinander in Konflikt stehender Beschränkungen im Sinne der Optimalitätstheorie. Im Mittelpunkt steht die Herausarbeitung unmarkierter prosodischer Strukturen auf der phonologisch-lexikalischen Ebene, da unmarkierte Strukturen einen wichtigen Bezugspunkt für die Beurteilung von Varianten bilden. Zugleich ergibt sich eine neue Perspektive auf das Verhältnis von Norm und Regel.
Eigennamen sind besondere Sprachzeichen; sie heben sich semantisch, pragmatisch, zum Teil auch grammatisch von appellativischen Nomina (Gattungsnamen“) ab. Der Sonderwortschatz an Eigennamen (Personennamen wie Rainer oder Gisela, Ortsnamen wie Rom oder Deutschland) deckt den Benennungsbedarf keineswegs ab. Für weniger prototypische Namensträger werden häufig konventionelle Sprachmittel zum Eigennamen umfunktioniert. Der Beitrag beschäftigt sich mit nominalen Konstruktionen, mit denen künstlerische Werke (Beispiele: „Der englische Patient“, „Hundejahre“) und Gasthäuser (Beispiele: „Goldener Stern“, „Zum Ritter“) benannt werden. Die semantische Transposition, so die These des Beitrags, kann zu grammatischen Konflikten führen. Einerseits soll der Name möglichst an seiner unverwechselbaren Gestalt wiedererkennbar sein und sich daher z.B. gegenüber flexivischen Veränderungen resistent zeigen, andererseits soll er wie jeder andere Ausdruck syntaktisch in seine Umgebung eingepasst werden. Unterschiedliche Strategien der Konfliktlösung werden anhand von Belegen demonstriert und interpretiert. Der konkrete Beispielfall illustriert gleichzeitig, wie man sprachlichen Regeln auf unsicherem Terrain folgen kann, mitunter auch haarscharf an der Norm vorbei.
Richtiges Deutsch?
(2009)
Der so genannte A.c.I. birgt ungelöste Probleme, die am Beispiel der Wahmehmungsverben geklärt werden sollen. Als besonders strittiges Element erweist sich eben das akkusativische Element, weil seine Zuordnung (zum Obersatzverb oder zum eingebetteten Infinitiv) diskutabel ist. Dafür wird hier eine neuartige Erklärung vorgeschlagen. Quasi nebenbei bringt die Untersuchung die Erkenntnis, dass man von „A.c.I.-Verben“ eigentlich nicht sprechen sollte, da die so bezeichneten Verben höchst heterogene Eigenschaften aufweisen.
Vorwort
(2009)
Manual development of deep linguistic resources is time-consuming and costly and therefore often described as a bottleneck for traditional rule-based NLP. In my PhD thesis I present a treebank-based method for the automatic acquisition of LFG resources for German. The method automatically creates deep and rich linguistic presentations from labelled data (treebanks) and can be applied to large data sets. My research is based on and substantially extends previous work on automatically acquiring wide-coverage, deep, constraint-based grammatical resources from the English Penn-II treebank (Cahill et al.,2002; Burke et al., 2004; Cahill, 2004). Best results for English show a dependency f-score of 82.73% (Cahill et al., 2008) against the PARC 700 dependency bank, outperforming the best hand-crafted grammar of Kaplan et al. (2004). Preliminary work has been carried out to test the approach on languages other than English, providing proof of concept for the applicability of the method (Cahill et al., 2003; Cahill, 2004; Cahill et al., 2005). While first results have been promising, a number of important research questions have been raised. The original approach presented first in Cahill et al. (2002) is strongly tailored to English and the datastructures provided by the Penn-II treebank (Marcus et al., 1993). English is configurational and rather poor in inflectional forms. German, by contrast, features semi-free word order and a much richer morphology. Furthermore, treebanks for German differ considerably from the Penn-II treebank as regards data structures and encoding schemes underlying the grammar acquisition task. In my thesis I examine the impact of language-specific properties of German as well as linguistically motivated treebank design decisions on PCFG parsing and LFG grammar acquisition. I present experiments investigating the influence of treebank design on PCFG parsing and show which type of representations are useful for the PCFG and LFG grammar acquisition tasks. Furthermore, I present a novel approach to cross-treebank comparison, measuring the effect of controlled error insertion on treebank trees and parser output from different treebanks. I complement the cross-treebank comparison by providing a human evaluation using TePaCoC, a new testsuite for testing parser performance on complex grammatical constructions. Manual evaluation on TePaCoC data provides new insights on the impact of flat vs. hierarchical annotation schemes on data-driven parsing. I present treebank-based LFG acquisition methodologies for two German treebanks. An extensive evaluation along different dimensions complements the investigation and provides valuable insights for the future development of treebanks.
In this paper we address the question of what is needed, in terms of morphosyntactic encoding, to relate a so-called verb-specific modifier to a nominal head. For the purposes of this paper we shall assume that the notion of a verb-specific modifier includes adverbs and their phrasal or clausal projections, adpositional phrases, and noun phrases featuring a particular semantic case such as locative or instrumental. Noun-specific modifiers, in turn, are considered to be first and foremost adjectives and adjective phrases, next participles and their phrasal projections and, finally, relative clauses.1 The basic motivation underlying this distinction relates to markedness.