Von Daten zu fachlichem Wissen

Daten analysieren und interpretieren


Visualisierung

Die Analyse und Interpretation von Daten umfasst die Erzeugung neuer Informationen aus Daten unter Nutzung verschiedener Datenanalysemethoden.


Können wir Daten nutzen, um zu überprüfen, ob es beispielsweise eine Korrelation zwischen den Luftschadstoffen gibt? Die Antwort ist ja! Finden Sie hier heraus, wie.

Um den Zusammenhang zwischen Merkmalen statistisch zu prüfen, müssen dir drei Konzepte bekannt sein: Hypothese, Korrelationsanalyse, Signifikanzniveau.



Beispiele

Hypothese Stärke (r) Signifikanz (p) Interpretation

1. Je größer die Grünfläche, desto weniger Feinstaub PM2.5 ist in der Luft.

-0.6 0.225 Es besteht eine mittelstarke negative Korrelation, die jedoch nicht signifikant ist.

2. Je höher die Lufttemperatur ist, desto höher ist auch die Konzentration von Ozon in der Luft.

0.6 0.03 Es besteht eine mittelstarke positive Korrelation, die statistisch signifikant ist.

3. Je höher die Lufttemperatur ist, desto höher ist die Konzentration von Feinstaub PM2.5 in der Luft.

0.5 0.03 Es besteht eine moderate positive Korrelation, die statistisch signifikant ist.

4. Je höher die Luftfeuchtigkeit ist, desto geringer ist die Feinstaubkonzentration PM2.5 in der Luft.

-0.3 0.34 Es besteht eine schwache negative Korrelation, die jedoch nicht statistisch signifikant ist.

5. Je höher die Luftfeuchtigkeit ist, desto geringer ist die Stickstoffdioxidkonzentration in der Luft.

-0.2 0.56 Es besteht eine sehr schwache negative Korrelation, die nicht statistisch signifikant ist.

Um die Korrelationsanalyse zu üben, schauen wir uns zunächst die Zusammenhänge zwischen den einzelnen Luftschadstoffen an der Station "174 Frankfurter Allee". Überprüfen Sie dazu die Hypothesen 1 bis 6.

!    



Führen Sie die Codezellen im Abschnitt „4. Daten analysieren und interpretieren (Teil I)“ in Google Colab aus, analysieren Sie die Ergebnisse und beantworten Sie dann das folgende Quiz.

Tipp




 Hypothese 1: Je höher die Konzentration von Feinstaub (PM10), desto höher die Konzentration von Feinstaub (PM2,5).



 Hypothese 2: Je höher die Konzentration von Feinstaub (PM10), desto höher die Konzentration von Stickstoffdioxid.



 Hypothese 3: Je höher die Konzentration von Feinstaub (PM10), desto höher die Konzentration von Ozon.



 Hypothese 4: Je höher die Konzentration von Feinstaub (PM2,5), desto höher die Konzentration von Stickstoffdioxid.



 Hypothese 5: Je höher die Konzentration von Feinstaub (PM2,5), desto höher die Konzentration von Ozon.



 Hypothese 6: Je höher die Konzentration von Stickstoffdioxid, desto höher die Konzentration von Ozon.





Nun können Sie, wie im Video "Wie können wir mit Daten die Welt verbessern?" gezeigt, den Zusammenhang zwischen Feinstaubkonzentration und Grünflächen prüfen. Untersuchen Sie den erweiterten Datensatz zur Feinstaubkonzentration in Berlin und überprüfen Sie anschließend die Hypothese 7.

!    



Laden Sie hier den Datensatz über die durchschnittliche Feinstaubkonzentration PM2,5 und die Anzahl der Grünflächen in verschiedenen Berliner Bezirken herunter. Nach dem Herunterladen des Datensatzes laden Sie ihn in Google Colab hoch. Führen Sie die Codezellen im Abschnitt „Daten analysieren und interpretieren (Teil II)“ in Google Colab aus, analysieren Sie die Ergebnisse und beantworten Sie dann das folgende Quiz.

Über den Datensatz: Die Feinstaubkonzentration PM2.5 wurde der Webseite Berliner Luftgütemessnetz entnommen (Zeitraum: 15.08.2023 bis 22.08.2023, Auflösung: Tageswerte, Stationen: alle Stationen, die PM2.5 messen). Für jede Station wurde ein Mittelwert gebildet. Die Messwerte aus der Spalte "Vegetation und Gewässer" stammen aus dem Statistischen Bericht "A V 3 - j / 23 Flächenerhebung nach Art der tatsächlichen Nutzung in Berlin 2023" (s. hier Blatt M1). Dabei wurden die Werte aus der Spalte "Vegetation" und "Gewässer" auf die Bodenfläche des jeweiligen Bezirks normiert (Werte der Spalte "Vegetation" geteilt durch Werte der Spalte "Bodenfläche insgesamt", Werte der Spalte "Gewässer" geteilt durch Werte der Spalte "Bodenfläche insgesamt" ) und anschließend aufsummiert. Anschließend wurden die Datensätze zur Feinstaubkonzentration und zu den Grünflächen inkl. Gewässern manuell zusammengeführt. Der finale Datensatz enthält nur die Bezirke, für die sowohl Messwerte zur Feinstaubkonzentration als auch Messwerte zu den Grünflächen inkl. Gewässern vorlagen.

Tipp





 Hypothese 7: Je niedriger die Konzentration von Feinstaub PM2.5 ist, desto höher ist der Anteil an Grünflächen.