c. Daten vorbereiten
II. Entwicklung des Modells
Daten vorbereiten
Bei der Datenvorbereitung werden die Daten untersucht, bearbeitet und so organisiert, dass sie für die weiteren Schritte nutzbar sind. Dieser Prozess ist meist iterativ, da Rohdaten oft unstrukturiert und unübersichtlich sind. Ziel ist es, die Daten in eine strukturierte und analysierbare Form zu überführen. Die Datenvorbereitung umfasst mehrere zentrale Aufgaben, unter anderem: (1) Verstehen der Daten; (2) Bereinigen der Daten – dazu gehört der Umgang mit fehlenden Werten (etwa durch Entfernen oder Ergänzen), das Erkennen und Korrigieren fehlerhafter Daten sowie der Umgang mit Ausreißern; (3) Beschriften der Daten, sofern erforderlich; (4) Feature Engineering – also die Auswahl relevanter Merkmale aus dem Datensatz und gegebenenfalls das Erstellen neuer, kombinierter Merkmale, um zusätzliche Informationen nutzbar zu machen.
Zu Beginn des Datenaufbereitungsprozesses steht das Verständnis der Daten im Mittelpunkt. Dazu gehört zum Beispiel, wie viele Schülerdaten im Datensatz enthalten sind, welche und wie viele Merkmale zu den SchülerInnen erfasst wurden, sowie eine erste Analyse mithilfe grundlegender statistischer Kennzahlen wie Mittelwert und Standardabweichung.
Führen Sie die Codezellen im Unterabschnitt „3.1 Daten verstehen“ in Google Colab aus und beantworten Sie dann das folgende Quiz.
Tipp

Überprüfen Sie, ob im Datensatz fehlende Werte vorhanden sind, und wenn ja, finden Sie heraus, welche Aktion ausgewählt wurde, um dies zu beheben. Führen Sie die Codezellen im Unterabschnitt „3.2. Datenbereinigung (Fehlende Daten finden und bearbeiten)“ in Google Colab aus, analysieren Sie die Ergebnisse und beantworten Sie dann das folgende Quiz.
Tipp

Wie bereits erläutert, lernen Algorithmen des überwachten Lernens aus beschrifteten Daten. Wenn die Datenpunkte im Trainingsdatensatz keine Beschriftungen enthalten, die die relevanten Kategorien oder Klassen angeben, müssen wir diese Beschriftungen selbst hinzufügen.
Durchführung von Feature Engineering: Wie bereits erwähnt, werden wir keine persönlichen Daten der Studierenden zur Modellbildung verwenden, da dies zu Datenschutzproblemen oder Verzerrungen führen könnte. Diese Vorgehensweise, um Verzerrungen zu vermeiden, wird als „Fairness Through Unawareness“ bezeichnet. Dabei werden geschützte Merkmale aus dem Datensatz entfernt, sodass der Algorithmus sie bei der Vorhersage nicht berücksichtigen kann. Später werden wir uns mit diesem Konzept noch näher befassen.
Auf dieser Grundlage werden wir nur die Leistungs- und Lernverhaltensdaten der Studierenden verwenden: anzahl_vorheriger_versuche (num_of_prev_attempts), datum (date), durchschnittlicher_klick (average_click) und gewichtete_punktzahl (weighted_score).