2. Verstehen und Erzeugen von Sprache

Transformer Pre-Training



1. Lernphase: Erzeugen eines Basismodells ("Pre-Training")

Aber wie lernt ein so großes Sprachmodell, Wörter während der Vortrainingsphase ("Pre-Training") zu generieren?

Riesige Menge an Textdaten

+

Transformer-Architektur mit einem selbstüberwachten maschinellen Lernansatz ("Self-supervised learning approach")

Es gibt eine große Menge an unbeschrifteten Textdaten. Diese riesige Menge unbeschrifteter Textdaten zu labeln, um überwachtes Lernen anzuwenden, ist komplex, teuer und zeitaufwändig. 

Daher wurde das selbstüberwachte Lernen vorgeschlagen, um Wissen aus groß angelegten unbeschrifteten Daten zu extrahieren, indem die Eingabedaten selbst als Aufsicht genutzt werden. Anstatt ein Dataset mit vordefinierten Labels bereitzustellen, können Teile der Trainingsdaten selbst als Labels verwendet werden.

Zum Beispiel: Wenn der Satz „Berlin ist die Hauptstadt von Deutschland“ Teil unserer Trainingsdaten ist, maskieren wir das letzte Wort im Satz und verlangen dann von den Modellen, die maskierte Position mit dem Wort „Deutschland“ vorherzusagen. Falls das Modell ein anderes Wort vorhersagt, das nicht „Deutschland“ ist, wird ein Fehlerwert berechnet und genutzt, um die Gewichte (auch Parameter genannt) der Transformer-Architektur durch Backpropagation zu aktualisieren.

!     Um diesen Prozess besser zu visualisieren,  interagieren Sie mit der folgenden Erklärung.

 

 



Der Transformer verfügt über verschiedene Module, die mit dem Feedbacksignal unterschiedliche Dinge lernen, wie Ähnlichkeiten zwischen Wörtern oder die Relevanz eines Wortes für die Bestimmung der Bedeutung eines anderen im jeweiligen Kontext (Wer mehr darüber erfahren möchte, kann sich den Exkurs auf der nächsten Seite anschauen).

Der Prozess des Pre-Trainings wird aufgrund des Aufwandes selbst von großen Unternehmen nur wenige Male pro Jahr durchgeführt, denn das Pretraining eines Basismodells erfordert den Einsatz einer Großrechenanlage mit einigen tausend GPUs (das sind Prozessoren, die speziell für Matrix-Multiplikationen optimiert sind). Dies verursacht Kosten von einigen Millionen Dollar, unter anderem wegen des hohen Energieverbrauchs. Das Basismodell ist der eigentliche GPT („Generative Pre-Trained Transformer“). Dieses Basismodell kann allerdings noch gar nicht sprechen. Es produziert eigentlich nur Wahrscheinlichkeiten für nächste Worte. Aber aus dem Basismodell lässt sich viel machen!