@incollection{Brants2018, author = {Thorsten Brants}, title = {Statistisch basierte Sprachmodelle und maschinelle {\"U}bersetzung}, series = {Sprachkorpora. Datenmengen und Erkenntnisfortschritt}, editor = {Werner Kallmeyer and Gisela Zifonun}, publisher = {de Gruyter}, address = {Berlin [u.a.]}, doi = {10.1515/9783110439083-013}, pages = {235 -- 248}, year = {2018}, abstract = {Statistische Methoden finden derzeit in der Sprachtechnologie vielfache Verwendung. Ein Grundgedanke dabei ist das Trainieren von Programmen auf gro{\"s}e Mengen von Daten. F{\"u}r das Trainieren von statistischen Sprachmodellen gilt zur Zeit das Motto „Je mehr Daten desto besser“. In unserem System zur maschinellen {\"U}bersetzung sehen wir eine fast konstante qualitative Verbesserung (gemessen als BLEU-Score) mit jeder Verdoppelung der monolingualen Trainingsdatenmenge. Selbst bei Mengen von ca. 20 Milliarden W{\"o}rtern aus Nachrichtentexten und ca. 200 Milliarden W{\"o}rtern aus Webseiten ist kein Abflachen der Lernkurve in Sicht. Dieser Artikel gibt kurze Einf{\"u}hrungen in statistische maschinelle {\"U}bersetzung, die Evaluation von {\"U}bersetzungen mit dem BLEU-Score, und in statistische Sprachmodelle. Wir zeigen, welch starken Einflu{\"s} die Gr{\"o}{\"s}e der Trainingsdaten des Sprachmodells auf die {\"U}bersetzungsqualit{\"a}t hat. Danach wird die Speicherung gro{\"s}er Datenmengen, das Trainieren in einer parallelen Architektur und die effiziente Verwendung der bis zu 1 Terabyte gro{\"s}en Modelle in der maschinellen {\"U}bersetzung beschrieben.}, language = {de} }