Von Daten zu fachlichem Wissen

Daten verstehen und vorbereiten


Verarbeitung

Bei der Datenvorbereitung werden Daten für weitere Schritte untersucht, bearbeitet und organisiert. Die Datenvorbereitung ist in der Regel ein iterativer Prozess, bei dem Rohdaten, die oft unstrukturiert und chaotisch sind, in eine besser strukturierte und nützlichere Form gebracht werden, die für weitere Analysen bereit ist. Der gesamte Vorbereitungsprozess besteht aus einer Reihe von Hauptaktivitäten (oder Aufgaben). Diese Phase kann Folgendes umfassen, ist aber nicht darauf beschränkt: (1) Verständnis der Daten; (2) Bereinigung der Daten, einschließlich Auffinden fehlender Daten und deren Bearbeitung (entfernen oder vervollständigen) und Auffinden und Bearbeiten fehlerhafter Daten und Auffinden und Bearbeiten von Ausreißern.


Datenverständnis: Zunächst geht es bei unserem Datenaufbereitungsprozess darum, die Daten zu verstehen.

!    



Führen Sie die Codezellen im Abschnitt „Daten verstehen und vorbereiten“ in Google Colab aus, analysieren Sie die Ergebnisse und beantworten Sie dann das folgende Quiz.

Tipp



 Fehlende Daten finden und damit umgehen: Fehlende Werte können auf verschiedene Weise behandelt werden, z. B. durch Löschen bestimmter DatenpunkteLöschen ganzer Variablen (Spalten in einer Tabelle oder einem Datenrahmen) oder durch Eingabe von Werten (Ersetzen der fehlenden Werte durch verschiedene Arten synthetischer Daten).

!    



Überprüfen Sie, ob im Datensatz fehlende Werte vorhanden sind, und wenn ja, finden Sie heraus, welche Aktion ausgewählt wurde, um dies zu beheben. Führen Sie die Codezellen im Unterabschnitt „Fehlende Daten finden und bearbeiten“ in Google Colab aus, analysieren Sie die Ergebnisse und beantworten Sie dann das folgende Quiz.
Tipp






 Datenverständnis 2: Verständnis der Daten nach der Behandlung der fehlenden Werte.

!    



Die Weltgesundheitsorganisation (WHO) hat Luftqualitätsrichtlinien entwickelt, die eine Reihe evidenzbasierter Empfehlungen für Grenzwerte spezifischer Luftschadstoffe darstellen. Ziel dieser Richtlinien ist es, Ländern zu helfen, eine Luftqualität zu erreichen, die die öffentliche Gesundheit schützt. Führen Sie die Codezellen im Abschnitt „Daten verstehen und vorbereiten“ in Google Colab aus, analysieren Sie die Werte der Luftschadstoffe in Berlin und vergleichen Sie, ob diese über oder unter den von der Weltgesundheitsorganisation (WHO) empfohlenen Werten liegen, und beantworten Sie die folgenden Fragen.

Tipp


Empfohlene Luftqualitätsrichtlinien (AQG) 2021 gemäß den Richtlinien der Weltgesundheitsorganisation (WHO)


μg = microgram
99th percentile (i.e. 3–4 exceedance days per year).
b Average of daily maximum 8-hour mean O3 concentration in the six consecutive months with the highest six-month running- average O3 concentration.
Note: Annual and peak season is long-term exposure, while 24-hour and 8-hour is short-term exposure.

Quelle: 2021. WHO Global Air Quality Guidelines: Particulate Matter (PM2. 5 and PM10), Ozone, Nitrogen Dioxide, Sulfur Dioxide and Carbon Monoxide (1st ed ed.). World Health Organization, Geneva.




!    



Analysieren Sie den Datensatz im Abschnitt „Daten verstehen und vorbereiten“ weiter und beantworten Sie die folgenden Fragen.
Tipp