II. Einführung in das unüberwachte Lernen
Unüberwachtes Lernen
Unüberwachtes Lernen

Ein reales Beispiel dafür ist die Segmentierung von Kundengruppen zur Personalisierung von Werbung. Die verfügbaren Eingabedaten bestehen aus Informationen wie Alter, bisherigen Käufen oder Einkommen der Kundinnen und Kunden – es gibt jedoch keine klaren Beschriftungen wie etwa „technikinteressiert“.
Auch in den Kundendaten entstehen auf diese Weise verschiedene Gruppen mit ähnlichen Merkmalen. Um gezielte Werbung zu schalten, müssen wir diese identifizierten Gruppen genauer betrachten und anschließend entscheiden, welche Art von Werbung für welche Kundengruppe am besten geeignet ist.
Die Zuordnung der Eingaben zu Gruppen anhand ihrer Merkmalsausprägungen bildet in diesem Fall das Modell, das mit jeder neuen Eingabe weiter verfeinert wird. Im Gegensatz zum überwachten Lernen erhalten wir jedoch keine Beschriftungen für diese Gruppen – wir wissen lediglich, welche Datenpunkte jeweils einer Gruppe zugeordnet wurden. Ein weiterer Unterschied ist, dass wir die Güte des Modells nicht objektiv bewerten können. Anders als beim überwachten Lernen gibt es hier keine „richtige“ oder „falsche“ Zuordnung, da keine bekannten Ausgaben als Referenz vorliegen.
Einsatzbereiche
Unüberwachtes Lernen wird vor allem dann eingesetzt, wenn keine beschrifteten Eingabedaten vorliegen oder das Beschriften der Daten mit hohem Aufwand oder hohen Kosten verbunden wäre. Aus diesem Grund wird unüberwachtes Lernen häufig auch als Vorverarbeitungsschritt genutzt: Die Daten werden zunächst gruppiert, und diese Gruppen können anschließend als Grundlage für beschriftete Eingabedaten im überwachten Lernen dienen.
Typische Anwendungsbereiche sind das Clustern von Daten (also das Bilden von Gruppen), das Erkennen von Anomalien (z. B. ungewöhnliche Transaktionen) und das Identifizieren von Mustern oder Zusammenhängen.

Das Erkennen verschiedener Gruppen (Cluster) in den Eingabedaten wird auch bei Clusteranalysen oder im sogenannten Topic Modelling angewendet. Topic Modelling ist ein Verfahren, mit dem die Themen von Textdokumenten automatisch identifiziert werden können. Dabei wird die Ähnlichkeit von Texten anhand der darin enthaltenen Wörter bestimmt. Auf diese Weise entstehen Gruppen von Dokumenten, die sich mit dem gleichen Thema (Topic) befassen.

Das Gegenstück zum Clustering ist die Anomalieerkennung, bei der der Fokus nicht auf der Gruppierung ähnlicher Daten liegt, sondern auf dem Erkennen von Ausreißern – also Datenpunkten, die deutlich von der Norm abweichen. Anwendung findet diese Methode unter anderem bei der Analyse verdächtigen Netzwerkverkehrs oder in der Betrugserkennung bei Kreditkartenzahlungen.

Unüberwachte Lernverfahren werden auch dazu eingesetzt, verborgene Zusammenhänge (sogenannte Assoziationen) in Daten aufzudecken. Ein typisches Beispiel ist der Einsatz im Online-Shopping: Hier basieren Kaufempfehlungen oft auf Mustern, die aus früheren Bestellungen oder im aktuellen Warenkorb erkannt wurden. So könnte etwa ermittelt werden, dass Kundinnen und Kunden, die teure Armbanduhren kauften, in 70 % der Fälle auch hochwertigen Whiskey gekauft haben.