LLMs für Low-Resource-Sprachen: Neue Potenziale für die digitale Lexikographie des Deutschen

LLMs für Low-Resource-Sprachen

Aufgabenstellung

Das Training von Sprachmodellen für Dialekte und andere Low-Resource-Sprachen sieht sich einem fundamentalen Problem gegenüber: Dem Mangel an geeigneten Trainingsdaten (= umfangreiche schriftliche Quellen, räumlich und zeitlich möglichst kohärent).

Transfer Learning trainiert bestehende Modelle erneut, aber mit deutlich weniger Traningsdaten. Das ist vor allem dann erfolgsversprechend, wenn es große strukturelle Übereinstimmungen zwischen den ursprünglichen und den zusätzlichen Daten gibt, wie etwa im Beispiel Standardsprache-Dialekt.

Für dieses Modul wird eine externe Kooperation angestrebt.