Kapitel 0: Paradigmen des Maschinellen Lernens
Die drei Paradigmen des Maschinellen Lernens
mehr dazu
Die Trainingsdaten sind "beschriftet", d.h. sie bestehen beim Überwachten Lernen aus Paaren von Eingaben mit dazugehörigen Sollwerten für die Ausgabe, also z.B. Labels oder Funktions-werten. Durch Anpassungen des Modells mit Hilfe der Abweichung zwischen Ist- und Sollwert ("Loss") wird der künftige Output in Richtung der Vorgabe angepasst und der Fehler für weitere Ausgaben reduziert. I.d.R. wird im Anschluss an das Training das angelernte Modell getestet bevor es in die Anwendung kommt. Für diese Prüfung wird ein Teil der verfügbaren Trainingsbeispiele zurückbehalten ("Testdaten").
mehr dazu
Eine vorherige Einteilung oder Beschriftung der Daten ist hier nicht notwendig. Aufgabe ist es z.B. passende Klasseneinteilungen ("Clustering") oder Repräsentationen ("Autoregression") zu finden. Die Rolle des Menschen ist jedoch weiterhin zentral, sie besteht zu.a. in der Vorauswahl von relevanten Merkmalen und der Art und Weise, wie die „Generalisierung“ stattfindet: Was heißt eigentlich „ähnlich“? Was sollte unterschieden werden? Unüberwachte Lernmethoden können z.B. dafür verwendet werden, typische Merkmalsausprägungen zu ermitteln oder auch um Wiederholungen bzw. Ausnahmen zu erkennen. Es geht dabei nicht um die Zuordnung von Mustern in vorhandene Kategorien, sondern zunächst darum, Klasseneinteilungen zu produzieren, also z.B. um das Auffinden von „Clustern“ in einer Datenmenge.
mehr dazu
Die Methode des Verstärkenden Lernens bezieht sich auf Systeme, welche in einer Umgebung zunehmend erfolgreich interagieren sollen ("lernfähige Agentenprogramme"). Sie erhalten auf Aktionen, welche sie in Abhängigkeit von der festgestellten Situation aus der verfügbaren Aktionspalette auswählen, eine Belohnung („Reward“) . Verstärkendes Lernen benötigt keine korrekte "Soll-Vorgabe". Dem System reicht eine einfache numerische Bewertung. Bei zukünftigen Interaktionen soll die erlangte „Belohnung“ tendenziell größer sein. Das Ziel ist die automatische Entwicklung einer möglichst erfolgreichen Strategie („Policy“, mitunter auch „Steuerung“ oder „Taktik“ genannt).
Überblick
- Überwachtes Lernen: Die Trainingsdaten sind "beschriftet". Der Unterschied zwischen den vorgegebenen „richtigen“ und den vom System abgeschätzten Werten wird minimiert.
- Unüberwachtes Lernen: Die „Kosten“ eines Modells (z.B. Vorhersagefehler, Ressourcenverbrauch) werden minimiert. Dieses "Fehlermaß" wird intern berechnet, womit die Bewertung des Modells autonom ohne zusätzliche externe Informationen erfolgt.
- Verstärkenden Lernen: Das System erhält Belohnung/Bestrafung bei den Interaktionen mit seiner Umwelt. Das ML-System (ein "Agent") maximiert künftige Belohnungen.
Beispiele
- „Überwachtes Lernen“ - Unterscheidung von Bildern mit Hautkrebs oder harmloser Pigmentierung.
- „Unüberwachtes Lernen“ - Optimierung der räumlichen Gestaltung eines Supermarktes oder dessen Preispolitik, bspw. indem erkannt wird, welche Waren oft zusammen gekauft werden. Ein Sonderangebot bei Roter Grütze, könnte z.B. mit einer etwas teureren Vanille-Sauce aufgefangen werden. Hierbei muss das, worauf der Algorithmus bei der Gruppierung achten soll, also z.B. "gleichzeitig gekauft", im ML-System verankert werden.
- „Verstärkendes Lernen“ - Welche Werbung ist bei welchen Kundentypen besonders wirksam, z.B. weil sie die Aufmerksamkeit des Kunden fesselt oder zu einer Kaufentscheidung führt?