b. Daten sammeln
Von Daten zu fachlichem Wissen
Daten sammeln
Die Datenerhebung (auch Datenerfassung genannt) umfasst alle Aktivitäten, die durchgeführt werden, um Daten für die folgenden Schritte verfügbar zu machen. Dies kann durch (1) die Erhebung neuer Daten, z. B. mit Sensoren, Umfragen und Web-Daten-Scraping, und/oder (2) die Recherche und Abfrage geeigneter vorhandener Datensätze erfolgen. Es gibt eine Reihe öffentlich zugänglicher Datenquellen, wie z. B. das UC Irvine Machine Learning Repository, Kaggle, Dryad, Zenodo und Suchmaschinen (z. B.Google Dataset Search). Bei Bedarf können Daten aus mehreren Quellen bereits zu diesem Zeitpunkt zusammengeführt werden.
Öffnen Sie die Internetseite des aktuellen Luftqualitätsindex für Berlin https://luftdaten.berlin.de/lqi. Betrachten Sie die Karte und die aktuellen Werte der Messstationen und beantworten Sie die Fragen.
Lassen Sie sich Daten zu einer Messstation anzeigen. Klicken Sie dafür im Eintrag 174 Frankfurter Allee auf die Stationsdaten, um die Entwicklung der Luftschadstoffwerte an einer Messstation im letzten Monat zu sehen. Auf der Stationsseite haben Sie die Möglichkeit, die Entwicklung der Luftschadstoffe in einem Liniendiagramm zu betrachten. Erkunden Sie es und beantworten Sie anschließend die folgenden Fragen.
Tipp


Wenn Sie sich die Daten auf der Webseite anschauen, können Sie nicht...
- die Zusammenhänge zwischen den verschiedenen Luftschadstoffen sehen.
- Mittelwerte, Höchst- und Tiefstwerte berechnen.
- die Zusammenhänge zwischen den Luftschadstoffen und den Einflussfaktoren untersuchen, weil wir sie nicht mit anderen Datensätzen (z.B. Wetterdatensätze oder dem Datensatz zur Anzahl der Grünflächen) verknüpfen können.
Daher werden Sie in der nächsten Aufgabe die Originaldaten von der Website herunterladen und in Google Colab weiter damit arbeiten!
Laden Sie den Datensatz für die Station 174 Frankfurter Allee mit den stündlichen Luftschadstoffwerten aller Luftschadstoffe für folgenden Zeitraum herunter: 04.10.2023 17:00 – 03.10.2024 16:00. Achtung: Bitte laden Sie die Daten genau zwischen diesen Tagen und Uhrzeiten herunter.
Tipp



Wenn Sie beim Herunterladen des Datensatzes auf der offiziellen Website der Stadt Berlin Probleme haben, laden Sie ihn direkt hier herunter.
Um die in diesem Modul vorgesehenen Aufgaben auszuführen, müssen Sie weder den Datensatz hochladen noch die Zellcodes ausführen, da dies bereits für Sie erledigt wurde. Sie können daher nur die im Notebook bereitgestellten Ergebnisse überprüfen, um die Fragen zu beantworten.
Wenn Sie jedoch weiter forschen und das Notebook bearbeiten möchten, müssen Sie sich mit einem Google-Konto anmelden. Falls Sie Bedenken hinsichtlich des Datenschutzes haben, empfehlen wir Folgendes:
- Erstellen Sie ein Google-Konto nur für diesen Zweck oder
- laden Sie Jupyter Notebook lokal auf Ihren Computer herunter.
Möchten Sie den Datenanalyseprozess erleben und gleichzeitig die Umsetzung in Python sehen? Nachdem Sie den Datensatz in der vorherigen Aufgabe heruntergeladen haben, laden Sie ihn in Google Colab hoch und führen Sie die Codezelle in der Daten-Sammlungsphase aus. Gehen Sie dann zu den nächsten Seiten und folgen Sie den Anweisungen auf den nächsten Seiten Schritt für Schritt, während Google Colab parallel geöffnet ist.
Tipp

Schritt 1 (für normale Bildschirme): Öffnen Sie Google Colab und Moodle in zwei separaten Browserfenstern. Verwenden Sie „Alt+Tab“ (Windows) bzw. „Command+Tab“ (Mac), um zwischen den Fenstern zu wechseln.
Schritt 2: Sehen Sie sich das folgende Video an, um zu erfahren, wie Sie den Datensatz in Google Colab hochladen und die Codezelle in der Phase „Daten sammeln“ ausführen.