Volltext-Downloads (blau) und Frontdoor-Views (grau)

Statistisch basierte Sprachmodelle und maschinelle Übersetzung

  • Statistische Methoden finden derzeit in der Sprachtechnologie vielfache Verwendung. Ein Grundgedanke dabei ist das Trainieren von Programmen auf große Mengen von Daten. Für das Trainieren von statistischen Sprachmodellen gilt zur Zeit das Motto „Je mehr Daten desto besser“. In unserem System zur maschinellen Übersetzung sehen wir eine fast konstante qualitative Verbesserung (gemessen als BLEU-Score) mit jeder Verdoppelung der monolingualen Trainingsdatenmenge. Selbst bei Mengen von ca. 20 Milliarden Wörtern aus Nachrichtentexten und ca. 200 Milliarden Wörtern aus Webseiten ist kein Abflachen der Lernkurve in Sicht. Dieser Artikel gibt kurze Einführungen in statistische maschinelle Übersetzung, die Evaluation von Übersetzungen mit dem BLEU-Score, und in statistische Sprachmodelle. Wir zeigen, welch starken Einfluß die Größe der Trainingsdaten des Sprachmodells auf die Übersetzungsqualität hat. Danach wird die Speicherung großer Datenmengen, das Trainieren in einer parallelen Architektur und die effiziente Verwendung der bis zu 1 Terabyte großen Modelle in der maschinellen Übersetzung beschrieben.

Export metadata

Additional Services

Share in Twitter Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Thorsten Brants
DOI:https://doi.org/10.1515/9783110439083-013
Parent Title (German):Sprachkorpora. Datenmengen und Erkenntnisfortschritt
Series (Serial Number):Jahrbuch / Institut für Deutsche Sprache (_ 2006)
Publisher:de Gruyter
Place of publication:Berlin [u.a.]
Editor:Werner Kallmeyer, Gisela Zifonun
Document Type:Part of a Book
Language:German
Year of first Publication:2007
Date of Publication (online):2018/09/25
Publicationstate:Veröffentlichungsversion
Reviewstate:(Verlags)-Lektorat
Department:IDS - Institut für Deutsche Sprache, Mannheim
GND Keyword:Korpus <Linguistik>; Maschinelle Übersetzung
First Page:235
Last Page:248
Dewey Decimal Classification:400 Sprache / 430 Deutsch
Leibniz-Classification:Sprache, Linguistik
Linguistics-Classification:Korpuslinguistik
Linguistics-Classification:Übersetzungswissenschaft
Open Access?:Ja
Licence (German):Es gilt das UrhG