II. Einführung in das verstärkende Lernen
Verstärkendes Lernen
Verstärkendes Lernen

Im Gegensatz zu den beiden bereits behandelten Lernansätzen benötigt das verstärkende Lernen keine großen Datenmengen im Vorfeld – weder beschriftete noch unbeschriftete. Stattdessen verfolgt der Agent ein bestimmtes Ziel, das er erreichen möchte – zum Beispiel ein Spiel wie Snake erfolgreich zu spielen oder, im Fall unseres Roboters, eine Wiese möglichst vollständig mit Blumen zu bepflanzen. Was der Agent allerdings erst lernen muss, ist die richtige Strategie
Im Spiel Snake wird der Agent belohnt, wenn sich der Kopf der Schlange dem Futter nähert, und bestraft, wenn die Schlange etwa mit ihrem eigenen Körper kollidiert.
Die Art und Weise, wie Belohnungen und Strafen vergeben werden, beeinflusst entscheidend, wie der Agent lernt. So ist es nicht undenkbar, dass ein autonomes Fahrzeug lernt lieber kein Gas zu geben, da Stehenbleiben nicht bestraft wird, die Bestrafung bei einem Unfall aber im Vergleich viel zu hoch wäre.
Auf diese Weise passt der Agent seine Strategie an, die in seinem Modell gespeichert wird. Wenn vom Lernvorgang des Agenten die Rede ist, meint man damit genau diese Anpassung des Modells.
Unser Roboter verwaltet seine Strategie über das Regal, in dem er für jeden Zustand eine aktuelle Bewertung der möglichen Aktionen dokumentiert.
Einsatzbereiche

Ein häufiger Anwendungsbereich für verstärkendes Lernen sind Spiele. Der Zustand der Spielumgebung lässt sich in der Regel klar und strukturiert erfassen. Welche Aktion jedoch die beste ist, hängt von vielen Faktoren ab.
Gerade wegen dieser Komplexität ist es kaum möglich, einen klassischen, regelbasierten Algorithmus zu entwickeln, der in jeder Spielsituation optimal reagiert. Stattdessen lernt der Agent durch unzählige Wiederholungen welche Züge erfolgreich sind und welche vermieden werden sollten. So wird er nach und nach besser und kann das Spiel schließlich strategisch meistern.


Ein weiterer wichtiger Anwendungsbereich des verstärkenden Lernens sind Optimierungsaufgaben – also Probleme, die sich mathematisch nur schwer lösen lassen und bei denen nicht von Anfang an klar ist, welche Strategie am besten funktioniert.
Ein Beispiel ist die Steuerung einer Heizung: Hier lernt der Agent, die Heizleistung so zu regeln, dass immer eine angenehme Raumtemperatur herrscht – und gleichzeitig die Heizkosten möglichst gering bleiben.
Ein weiteres Beispiel ist die Planung von Zugverbindungen: Das Lernverfahren versucht eine Strategie zu entwickeln, mit der alle Verbindungen effizient bedient werden können – also so, dass die Zugauslastung möglichst hoch ist und Ressourcen optimal genutzt werden.