Unüberwachtes Lernen

Unüberwachtes Lernen


!     Lesen Sie die Erklärung unten, um zu verstehen, was unüberwachtes Lernen ist.


Nehmen wir drei große Haufen Legosteine und bitten drei Kinder, die Steine jeweils zu sortieren, werden die Kinder auch ohne explizite Anweisung kleine Häufchen bilden, beispielsweise gruppiert nach Farben oder Größe. Ähnlich verhält es sich bei Verfahren des unüberwachten Lernens.

Bei unüberwachtem Lernen (unsupervised learning) stehen lediglich unbeschriftete Daten als Eingabe zur Verfügung. Das Verfahren identifiziert Ähnlichkeiten und Muster in den Eingabedaten selbstständig, etwa um die Daten zu gruppieren oder Ausreißer zu finden.

Die folgenden Schritte beschreiben den Prozess, der auch in der Abbildung zu sehen ist.



① Für bestimmte Problemstellungen gibt es weder ausreichend beschriftete Daten, wie sie beim überwachten Lernen benötigt werden, noch eine klare Möglichkeit, das Verhalten zu bewerten, wie es beim verstärkenden Lernen der Fall ist. In solchen Fällen liegen lediglich unbeschriftete Eingabedaten vor – im Bild werden die unsortierten Daten als ein Haufen von Bausteinen dargestellt, die dem Roboter zur Verfügung stehen.

Ein reales Beispiel dafür ist die Segmentierung von Kundengruppen zur Personalisierung von Werbung. Die verfügbaren Eingabedaten bestehen aus Informationen wie Alter, bisherigen Käufen oder Einkommen der Kundinnen und Kunden – es gibt jedoch keine klaren Beschriftungen wie etwa „technikinteressiert“.


② Unüberwachte Lernverfahren analysieren die Eingabedaten, indem sie Ähnlichkeiten zwischen den Merkmalsausprägungen erkennen. Im Fall unseres Roboters sind die Eingaben die einzelnen Bausteine und deren Eigenschaften – zum Beispiel die Anzahl der Ecken. Die zugrunde liegende Annahme lautet: Je ähnlicher sich diese Merkmale sind, desto ähnlicher sind sich auch die Bausteine selbst.
Dasselbe Prinzip gilt auch für Kundendaten: Wenn sich beispielsweise Kaufverhalten, Einkommen, Alter und weitere Merkmale ähneln, geht das System davon aus, dass sich auch die jeweiligen Kundinnen oder Kunden ähnlich sind.

③ Ähnliche Eingaben werden auf diese Weise zu Gruppen zusammengefasst – zum Beispiel alle Vierecke für unseren Roboter. Ausreißer, wie etwa ein Kreis, der sich deutlich von den anderen Formen unterscheidet, werden als isolierte Punkte erkannt.

Auch in den Kundendaten entstehen auf diese Weise verschiedene Gruppen mit ähnlichen Merkmalen. Um gezielte Werbung zu schalten, müssen wir diese identifizierten Gruppen genauer betrachten und anschließend entscheiden, welche Art von Werbung für welche Kundengruppe am besten geeignet ist.

Die Zuordnung der Eingaben zu Gruppen anhand ihrer Merkmalsausprägungen bildet in diesem Fall das Modell, das mit jeder neuen Eingabe weiter verfeinert wird. Im Gegensatz zum überwachten Lernen erhalten wir jedoch keine Beschriftungen für diese Gruppen – wir wissen lediglich, welche Datenpunkte jeweils einer Gruppe zugeordnet wurden. Ein weiterer Unterschied ist, dass wir die Güte des Modells nicht objektiv bewerten können. Anders als beim überwachten Lernen gibt es hier keine „richtige“ oder „falsche“ Zuordnung, da keine bekannten Ausgaben als Referenz vorliegen.



Einsatzbereiche

Unüberwachtes Lernen wird vor allem dann eingesetzt, wenn keine beschrifteten Eingabedaten vorliegen oder das Beschriften der Daten mit hohem Aufwand oder hohen Kosten verbunden wäre. Aus diesem Grund wird unüberwachtes Lernen häufig auch als Vorverarbeitungsschritt genutzt: Die Daten werden zunächst gruppiert, und diese Gruppen können anschließend als Grundlage für beschriftete Eingabedaten im überwachten Lernen dienen.

Typische Anwendungsbereiche sind das Clustern von Daten (also das Bilden von Gruppen), das Erkennen von Anomalien (z. B. ungewöhnliche Transaktionen) und das Identifizieren von Mustern oder Zusammenhängen.



Das Erkennen verschiedener Gruppen (Cluster) in den Eingabedaten wird auch bei Clusteranalysen oder im sogenannten Topic Modelling angewendet. Topic Modelling ist ein Verfahren, mit dem die Themen von Textdokumenten automatisch identifiziert werden können. Dabei wird die Ähnlichkeit von Texten anhand der darin enthaltenen Wörter bestimmt. Auf diese Weise entstehen Gruppen von Dokumenten, die sich mit dem gleichen Thema (Topic) befassen.



Das Gegenstück zum Clustering ist die Anomalieerkennung, bei der der Fokus nicht auf der Gruppierung ähnlicher Daten liegt, sondern auf dem Erkennen von Ausreißern – also Datenpunkten, die deutlich von der Norm abweichen. Anwendung findet diese Methode unter anderem bei der Analyse verdächtigen Netzwerkverkehrs oder in der Betrugserkennung bei Kreditkartenzahlungen.



Unüberwachte Lernverfahren werden auch dazu eingesetzt, verborgene Zusammenhänge (sogenannte Assoziationen) in Daten aufzudecken. Ein typisches Beispiel ist der Einsatz im Online-Shopping: Hier basieren Kaufempfehlungen oft auf Mustern, die aus früheren Bestellungen oder im aktuellen Warenkorb erkannt wurden. So könnte etwa ermittelt werden, dass Kundinnen und Kunden, die teure Armbanduhren kauften, in 70 % der Fälle auch hochwertigen Whiskey gekauft haben.