lll. Transformer Pre-Training
2. Verstehen und Erzeugen von Sprache
Transformer Pre-Training
1. Lernphase: Erzeugen eines Basismodells ("Pre-Training")
Aber wie lernt ein so großes Sprachmodell, Wörter während der Vortrainingsphase ("Pre-Training") zu generieren?
Riesige Menge an Textdaten
+
Transformer-Architektur mit einem selbstüberwachten maschinellen Lernansatz ("Self-supervised learning approach")
Es gibt eine große Menge an unbeschrifteten Textdaten. Diese riesige Menge unbeschrifteter Textdaten zu labeln, um überwachtes Lernen anzuwenden, ist komplex, teuer und zeitaufwändig.
Daher wurde das selbstüberwachte Lernen vorgeschlagen, um Wissen aus groß angelegten unbeschrifteten Daten zu extrahieren, indem die Eingabedaten selbst als Aufsicht genutzt werden. Anstatt ein Dataset mit vordefinierten Labels bereitzustellen, können Teile der Trainingsdaten selbst als Labels verwendet werden.
Zum Beispiel: Wenn der Satz „Berlin ist die Hauptstadt von Deutschland“ Teil unserer Trainingsdaten ist, maskieren wir das letzte Wort im Satz und verlangen dann von den Modellen, die maskierte Position mit dem Wort „Deutschland“ vorherzusagen. Falls das Modell ein anderes Wort vorhersagt, das nicht „Deutschland“ ist, wird ein Fehlerwert berechnet und genutzt, um die Gewichte (auch Parameter genannt) der Transformer-Architektur durch Backpropagation zu aktualisieren.