Kapitel 1.2: Große Sprachmodelle
Große Sprachmodelle
Anwendung Maschinellen Lernens auf Sprachmodelle
Entscheidendes Erfolgsrezept ist die Anwendung von modernen Methoden des Maschinellen Lernens für die Aufgabe der Wortvorhersage. Beim Training eines Großen Sprachmodells wird ein hochkomplexes ML-System "Transformer" auf ein Ziel hin optimiert: nämlich jeweils das nächste erwartete Wort (bzw. "Token") richtig vorherzusagen.Aufgabe: Vorhersagen, welche Wörter nach einer Wortfolge wahrscheinlich als nächstes kommen.
Performanz: Wie gut klappt die Vorhersage der Worte in Bezug auf die Textbeispiele?
Der Trainingsprozess einer Sprach-KI wie ChatGPT gliedert sich in zwei Hauptphasen: 1."Pre-Training" und 2."Fine-Tuning".
1. Lernphase: Erzeugen eines Basismodells ("Pre-Training")
Trainingsdaten: Zusammenstellung von etlichen Terabyte an Textdaten aus dem Internet, - man stelle sich mehrere Millionen Bücher vor.
2. Lernphase: "Fine-Tuning"
Trainingsdaten: Sorgfältig ausgewählte und aufbereitete Beispiele für spezifische Anwendungsfälle.
Trainingsdaten beim Fine-Tuning (Beispieldatensatz "Email-Beantwortung")
[
{"prompt": "Betreff:
Anfrage zum Elternabend\n\nGuten
Tag,\n\nkönnen
Sie mir bitte mitteilen, wann der nächste Elternabend stattfindet?\n\nVielen
Dank!\n\nMit
freundlichen Grüßen,\nFrau
Müller",
"completion":
"Guten Tag Frau Müller,\n\nder
nächste Elternabend findet am Dienstag, den 28. November, um 19:00 Uhr im Raum
101 statt. Wir freuen uns auf Ihre Teilnahme.\n\nMit
freundlichen Grüßen,\n[Ihr Name]"},
{"prompt": "Betreff:
Krankmeldung meines Kindes\n\nSehr
geehrte Damen und Herren,\n\nmein
Sohn Lukas Müller (Klasse 7b) ist krank und kann diese Woche nicht am
Unterricht teilnehmen. Bitte entschuldigen Sie sein Fehlen.\n\nVielen
Dank!\n\nMit
freundlichen Grüßen,\nM.
Müller",
"completion":
"Sehr geehrte/r Frau/Herr Müller,\n\nvielen
Dank für Ihre Mitteilung. Wir wünschen Lukas eine schnelle Genesung und bitten
Sie, ein ärztliches Attest nachzureichen, falls er länger als drei Tage
fehlt.\n\nMit
freundlichen Grüßen,\n[Ihr Name]"},
{"prompt": "Betreff:
Bitte um Beratung\n\nSehr
geehrter Herr Schneider,\n\nmein
Sohn hat Schwierigkeiten im Fach Englisch. Könnten wir einen Beratungstermin
vereinbaren?\n\nMit
freundlichen Grüßen,\nFamilie
Berger",
"completion":
"Sehr geehrte Familie Berger,\n\nich
schlage vor, dass wir uns nächsten Mittwoch um 14:30 Uhr treffen. Bitte
bestätigen Sie, ob Ihnen der Termin passt.\n\nMit
freundlichen Grüßen,\nHerr
Schneider"},
… ]
Schritte beim Fine-Tuning
- Fine-Tuning-Datensätze erstellen: Hierfür werden gut beschriftete Daten benötigt. Oft werden für diese Aufgabe Menschen eingestellt, die Daten beschriften, vergleichen oder qualitativ hochwertige Antworten formulieren. Zunehmend können Daten auch aus bestehenden Sprachmodellen extrahiert werden.
- Fine-Tuning durchführen: Dieses Training erfordert in der Regel deutlich weniger Rechenaufwand und kann sogar mit allgemein zugänglichen Computern durchgeführt werden.
- Modell testen und anhand der Ergebnisse weiter verfeinern.
- Modell anwenden: Dabei ebenfalls Fehler und Unzulänglichkeiten registrieren, um sie für weitere Verbesserungen des Modells nutzen zu können.
Die GPT-Sprachmodelle haben, in Anbetracht dessen, dass sie einen beträchtlichen Teil der Textdaten des Internets enthalten, eine erstaunlich geringe Größe. Kleinere Modelle passen sogar auf eine handelsübliche Festplatte. Mittlerweile sind Sprachmodelle verfügbar, die auf einem aktuellen Laptop gut lauffähig sind (vgl. Modul 00).
Ein Problem der GPTs ist nicht nur ihre stochastische Funktionsweise (auf Wahrscheinlichkeiten basierend), sondern auch ihre Intransparenz. Sie bestehen aus vielen Milliarden Parametern, die eine komplexe Schätzfunktion beschreiben. Die Trainingsdaten werden nur zum Einstellen der Schätzfunktion genutzt und liegen nicht mehr explizit vor. Zwar weiß man genau, mit Hilfe welcher mathematischer Operationen die Vorhersageleistung der Systeme optimiert werden kann. Jedoch kann daraus nicht geschlossen werden, wie das Produkt des Optimierungsprozesses funktioniert. Es ist noch weitgehend unklar, wie die vielen Parameter der trainierten GPTs zusammenspielen, um die Fähigkeiten hervorzubringen, die auch KI-Experten überrascht haben.