II. Entwicklung des Modells

Daten sammeln



Das Sammeln von Daten (auch Datenerfassung oder Datenerhebung genannt) umfasst alle Aktivitäten, die durchgeführt werden, um Daten für die folgenden Schritte verfügbar zu machen.
Dies kann durch (1) die Erhebung neuer Daten, z. B. mit Sensoren, Umfragen und Web-Daten-Scraping, und/oder (2) die Recherche und Abfrage geeigneter vorhandener Datensätze erfolgen. Es gibt eine Reihe öffentlich zugänglicher Datenquellen, wie z. B. das UC Irvine Machine Learning Repository, KaggleDryadZenodo und Suchmaschinen (z. B. Google Dataset Search). Bei Bedarf können Daten aus mehreren Quellen bereits zu diesem Zeitpunkt zusammengeführt werden.



Play iconFür unser Problem müssen wir prüfen, ob es einen vorhandenen Datensatz gibt, der verwendet werden könnte. Andernfalls müssen wir die Daten selbst sammeln.

Glücklicherweise gibt es im Internet verschiedene Datensätze mit Daten zur Interaktion von Studierenden in Online-Kursen, die zur Schulung unseres Modells verwendet werden können. Wir verwenden einen Teil des „Open University Learning Analytics Datensatzes“*. 

Lesen Sie die Zusammenfassung zum Datensatz (entnommen aus dem Originalartikel*):

Dieser Datensatz wurde 2017 von Forschenden der Open University im Vereinigten Königreich veröffentlicht, einer der größten Fernuniversitäten weltweit. Der Datensatz enthält Daten von Studierenden aus den Jahren 2013 und 2014, die über die Online-Lernplattform der Universität studierten.

Der Datensatz umfasst Daten zu 22 Kursen und 32.593 Studierenden. Jeder Kurs an der Universität beinhaltet mehrere Prüfungen und eine Abschlussprüfung. Die typische Dauer eines Kurses beträgt 9 Monate.

Der Datensatz enthält Informationen über die persönlichen Daten der Studierenden, wie Alter, Geschlecht und Wohngegend; Leistungsinformationen, wie Bewertungsergebnisse und die Anzahl vorheriger Versuche im Kurs; sowie das Lernverhalten der Studierenden, wie die Anzahl der eingeloggt verbrachten Tage und die Anzahl der Klicks in der Umgebung. 



 
!!!    

Wenn Sie sich dafür entscheiden, mit einem vorhandenen Datensatz zu arbeiten, müssen Sie: (1) die Datenerfassung verstehen: wissen, wie die Daten erfasst wurden und welche zusätzlichen Informationen Sie möglicherweise benötigen; (2) Quellen bewerten: beurteilen, wer die Daten gemessen hat und wie zuverlässig diese Quellen sind; (3) Variablen untersuchen: ermitteln, was jede Variable misst und was die Metadaten bedeuten.





!    



Laden Sie den Trainingsdatensatz herunter, um das Vorhersagemodell in den folgenden Schritten zu trainieren, laden Sie ihn in Google Colab hoch und führen Sie die Codezelle in der Phase der Datensammlung („2. Daten sammeln“) aus. Dann gehen Sie zur nächsten Seite ("Daten vorbereiten").

***Der Datensatz, mit dem Sie in dieser Aufgabe arbeiten werden, wurde vorverarbeitet und enthält nur Daten von Studierenden eines bestimmten Kurses. Es sind keine persönlichen Informationen der Studierenden oder andere für das Problem irrelevante Merkmale enthalten.
Tipp

Sehen Sie sich das folgende Video an, um zu erfahren, wie Sie den Datensatz in Google Colab hochladen und die Codezelle in der Phase „2. Daten sammeln“ ausführen.


*Kuzilek J., Hlosta M., Zdrahal Z. Open University Learning Analytics dataset Sci. Data 4:170171 doi: 10.1038/sdata.2017.171 (2017).