@incollection{Brants2018,
  author    = {Thorsten Brants},
  title     = {Statistisch basierte Sprachmodelle und maschinelle {\"U}bersetzung},
  series = {Sprachkorpora. Datenmengen und Erkenntnisfortschritt},
  editor    = {Werner Kallmeyer and Gisela Zifonun},
  publisher = {de Gruyter},
  address   = {Berlin [u.a.]},
  doi       = {10.1515/9783110439083-013},
  pages     = {235 -- 248},
  year      = {2018},
  abstract  = {Statistische Methoden finden derzeit in der Sprachtechnologie vielfache Verwendung. Ein Grundgedanke dabei ist das Trainieren von Programmen auf gro{\"s}e Mengen von Daten. F{\"u}r das Trainieren von statistischen Sprachmodellen gilt zur Zeit das Motto „Je mehr Daten desto besser“. In unserem System zur maschinellen {\"U}bersetzung sehen wir eine fast konstante qualitative Verbesserung (gemessen als BLEU-Score) mit jeder Verdoppelung der monolingualen Trainingsdatenmenge. Selbst bei Mengen von ca. 20 Milliarden W{\"o}rtern aus Nachrichtentexten und ca. 200 Milliarden W{\"o}rtern aus Webseiten ist kein Abflachen der Lernkurve in Sicht. Dieser Artikel gibt kurze Einf{\"u}hrungen in statistische maschinelle {\"U}bersetzung, die Evaluation von {\"U}bersetzungen mit dem BLEU-Score, und in statistische Sprachmodelle. Wir zeigen, welch starken Einflu{\"s} die Gr{\"o}{\"s}e der Trainingsdaten des Sprachmodells auf die {\"U}bersetzungsqualit{\"a}t hat. Danach wird die Speicherung gro{\"s}er Datenmengen, das Trainieren in einer parallelen Architektur und die effiziente Verwendung der bis zu 1 Terabyte gro{\"s}en Modelle in der maschinellen {\"U}bersetzung beschrieben.},
  language  = {de}
}