II. Große Sprachmodelle
Abschlussbedingungen
2. Verstehen und Erzeugen von Sprache
Große Sprachmodelle
Wie wir wissen, ist das heutzutage beliebteste KI-System ChatGPT.
Das große Sprachmodell, das die Grundlage von ChatGPT bildet, ist GPT, was für „Generative Pre-trained Transformer“ steht. Lassen Sie uns diesen Begriff aufschlüsseln, um eine Intuition dafür zu bekommen, was GPT ist:
- Generative: Einfach gesagt, kann ein Sprachmodell vorhersagen, welche Wörter wahrscheinlich als nächstes kommen, nachdem eine Sequenz von Wörtern eingegeben wurde. Daher kann GPT vollständige Texte generieren, indem es die vorhergesagten Wörter zu einem Text hinzufügt.
- Pre-trained: „Trainiert“ bezieht sich auf den Lernprozess des Modells, bei dem es aus einer großen Menge an Daten lernt, um neue Wörter vorherzusagen, die einen Eingabetext vervollständigen. „Pre“ bedeutet, dass das Modell nach dem Vortraining durch beispielsweise Feintuning weiter lernen kann.
- Transformer: Im vorherigen Modul haben wir etwas über eine einfache künstliche neuronale Netzwerkarchitektur gelernt. Im Laufe der Jahre wurden fortschrittlichere KNN-Architekturen entwickelt, um komplexe Aufgaben wie maschinelle Übersetzung, Bilderkennung sowie Text- und Bildgenerierung effektiver auszuführen. Der Transformer ist die künstliche neuronale Netzwerkarchitektur, die zum Standard für den Bau großer Sprachmodelle wurde und die Architektur hinter GPT ist.
Zusammenfassend lässt sich sagen, dass GPT ein großes Sprachmodell ist, das durch eine Vortrainingsphase mit einer großen Datenmenge und der Transformer-Architektur lernt, Texte zu generieren.
Der Trainingsprozess des Transformer-Netzwerks lässt sich in zwei Phasen einteilen:
- 1. Erzeugen eines Basismodells (Pre-Training)
- 2. Fine Tuning
In der ersten Lernphase wird das KNN des Transformers mithilfe eines Trainingsdatensatzes "vortrainiert" und in der zweiten Lernphase bekommt das Modell noch einen Feinschliff, um es für das Lösen spezieller Aufgaben zu optimieren. Auf den nächsten Seiten lernen wir, wie das im Detail funktioniert.