Wie unabsichtlich passend, dass ich diesen Teil der Data Literacy Serie am – zumindest bislang – heissesten Tag des Jahres schreibe.
Ich kann daher kaum den Bezug zur «Klima»-Debatte ignorieren, wenn es heute um «Verteilungen» geht und wie man diese visualisiert.
Wir werden die «Normalverteilung» betrachten, uns mit asymmetrischen Verteilungen beschäftigen und uns unterwegs ein paar Klimadaten anschauen. Danach können wir hoffentlich kompetent antworten, wenn gefragt wird:
Ist diese Wärme eigentlich noch normal (oder ist das alles schon schief)?
Beginnen wir also mit der ersten Datenkompetenz-Frage: Was ist Verteilung (im mathematischen Sinn)?
Verteilungen beschreiben die Ausrichtung einzelner Datenpunkte, aufgeschlüsselt nach der beobachteten oder prognostizierten Häufigkeit ihres Auftretens.
Beginnen wir mit einem Beispiel:
Nehmen wir an, es gäbe einen Test, der überprüft, wie gut Sie sich mit dem Thema «Data Literacy» auskennen. Diesen Test führen wir einmal durch, bevor Sie diese Blogserie durchgearbeitet haben, und einmal danach.
Die übrigen 1.999 Leser werden genauso getestet und auf einer Skala von 0-100 Punkten bewertet.
Um zu überprüfen, wie grandios gut diese Blogserie ist, schauen wir uns die «Vorher»-Testergebnisse an und vergleichen sie mit den «Nachher»-Ergebnissen.
Zusammengefasst sehen unsere Test-Parameter so aus:
Starten wir mit der Auswertung der Vorher-Tests:
Um die Testergebnisse zu analysieren, wird hier eine Verteilung definiert. Dazu habe ich die möglichen Testergebnisse in verschiedene Wertebereiche unterteilt, die man auf der X-Achse sieht.
Auf der Y-Achse wird die jeweilige Zahl der Test-Teilnehmer abgetragen. Das heisst, dass jeder Balken die Anzahl der Teilnehmer repräsentiert, deren Testergebnis im jeweiligen Wertebereich liegt.
So bekommen wir einen ersten graphischen Eindruck davon, wie der Wissensstand zum Thema Data Literacy vor dem Durcharbeiten der Blogserie war.
Die zweite Verteilungsübersicht zeigt die Ergebnisse des Nachher-Tests, den die Teilnehmer absolvierten, nachdem sie alle Blog-Artikel durchgearbeitet haben (diesen Test wird es in einigen Wochen tatsächlich geben…):
In diesem zweiten Säulendiagramm sieht man sofort, dass sich die Werte «nach links verschoben» haben. Das heisst, die Verteilung der Testergebnisse hat sich in Richtung bessere Testergebnisse verschoben.
Schauen wir uns beide Diagramme noch einmal näher an:
Zunächst fällt auf, dass die einzelnen Wertebereiche im Vorher-Test eine maximale Anzahl von 590 Teilnehmern haben, im zweiten von 610. Wie kommt das?
Die Bereiche, in die ich die möglichen Testergebnisse unterteilt habe, wurden nicht verändert. Beim Nachher-Test gibt es also offenbar mehr Teilnehmer, die sich auf einem ähnlichen Wissensstand (= im selben Wertebereich) befinden.
Viel interessanter aber ist, in *welchem* Bereich sie sich befinden: Hier ist zu sehen, dass wir im Bereich «81-90» nun deutlich mehr Teilnehmer haben. Auch der oberste Bereich «91-100» hat deutlich zugelegt.
Ist dieser Zuwachs an Teilnehmern mit hoher Data Literacy jetzt die Folge der Blogserie? Das kann ich natürlich hoffen, aber allein die Änderung in der Verteilung sagt mir das nicht. (Um das zu verifizieren, bräuchten wir eine Korrelationsanalyse – dazu kommen wir aber erst im nächsten Beitrag.)
Alles was ich sehe, ist die Bewegung nach links – also eindeutig bessere Testergebnisse.
Nachdem wir das Thema «Verteilung» am Beispiel gesehen und verstanden haben, können wir etwas tiefer eintauchen.
Erinnern wir uns noch einmal an die Definition von «Verteilung»:
Verteilungen beschreiben die Ausrichtung einzelner Datenpunkte, aufgeschlüsselt nach der beobachteten oder prognostizierten Häufigkeit ihres Auftretens.
Das heisst:
Eine Verteilung im analytischen Sinn erhalten wir durch das Sammeln und Zusammenfassen (siehe --> Aggregation) von Daten. Deren Visualisierung erfolgt gruppiert nach definierten Wertebereichen.
Besonders interessant für die Praxis: Der Vergleich von Verteilungen tatsächlicher und prognostizierter Daten!
Aus meiner Sicht als Marketer wäre eine prognostizierte Verteilung z.B. interessant für Marketingkampagnen:
Welche Altersgruppe klickt wie oft? Welche Einkommengruppen, welche Wohnorte geben die meisten Klicks? Diese könnte ich dann mit den später tatsächlich gemessenen Daten abgleichen und so meine Prognosen künftig verbessern.
Eine zweite Möglichkeit, Verteilungen zu visualisieren, ist eine Kastengrafik. Um diese erstellen zu können, brauchen wir verschiedene Aggregationstypen:
und neu:
Der untere und obere «Whisker» – auch Antennen genannt – bilden das Minimum und Maximum ab. Diese Werte erklären sich von selbst (ansonsten --> Aggregationen).
Der Median ist der mittlere Wert (*nicht* der Mittelwert!) der Datenreihe. (Erinnerungslücke? --> Aggregationen).
Die Box vom unteren Quartil bis zum oberen Quartil bildet die mittleren 50% der Datenwerte ab.
Schauen wir noch einmal auf die Verteilung der «Nachher»-Testergebnisse (die Punktzahl 0-100 wird hier als Prozentwert auf der Y-Achse dargestellt):
Wer genau hinschaut, fragt sich natürlich: Warum gibt es die Punkte unter dem Minimum? Warum werden diese «Ausreisser» nicht innerhalb des Minimums und Maximums in einem Kastendiagramm dargestellt?
Gute Frage! Kastendiagramme sind eine recht einzigartige Visualisierungsmethode. Sie zeigen Daten, die als «vernünftig» für eine Datenauswertung gelten.
Datenpunkte, die sehr weit unter- oder oberhalb des Kastens liegen, gelten dabei als Ausreisser. «Sehr weit» heisst konkret: mehr als die 1.5-fache Kastenlänge.
Das heisst natürlich nicht, dass Ausreisser nicht zählen! Keine Frage, jeder Wert zählt - aber die Ausreisser werden hier separat betrachtet und darauf überprüft, ob sie für unsere Analysen relevant sind.
Es gibt zwei Typen von Verteilungen: stetige und diskrete (die Begriffe klingen vertraut? prima! ansonsten --> Datentypen).
Stetige Verteilungen können an UNENDLICH vielen Stellen innerhalb eines Datenbereichs liegen. Ein klassisches Beispiel hierfür ist die Temperatur, die eben nicht nur 40°C oder 41°C (heute einmal willkürlich herausgegriffen…), sondern auch 30.5°C oder 30.547837374°C betragen kann.
Auch bei unserem Beispiel der «Vorher»- und «Nachher»-Tests handelt es sich um eine stetige Verteilung: Ein Testteilnehmer kann nicht nur 80% oder 81% der Gesamtpunktzahl erreichen, sondern auch 80.11112% (ob das sinnvoll wäre, sei hier hintenangestellt).
Diskrete Verteilungen dagegen sind begrenzt, hier könnte man die Datenpunkte theoretisch zählen. Ein Beispiel hierfür wäre z.B. die «Anzahl der Tage mit Temperaturen über 35°C».
Dabei kann es keinen Wert wie «2.5 Tage» geben – entweder es ist wärmer als 35°C oder eben nicht (… und heute ist es definitiv wärmer!).
Schauen wir uns zur Abkühlung einige historische Daten an:
Ich habe die obige Tabelle einmal aggregiert, also die Hitzetage für jeweils 10 Jahre zusammengerechnet (Die Tabelle beginnt erst 1959, weil 1935 erst Locarno und 1958 Sion hinzukamen):
Nun ja – eine Tendenz ist wohl erkennbar. Wenn man frühere Jahre hinzunimmt, zeigen sich auch deutlich wärmere Jahrzehnte in den 40er und 50er Jahren. Aber selbst dann gilt: Es war in der Schweiz noch nie so oft über 35°C wie in den letzten beiden Jahrzehnten.
ABER, nun zur Eingangsfrage: Ist das noch normal?
Schauen wir uns dazu erst einmal die bekannteste und «normalste» (pardon!) aller Verteilungen an.
Typisch dabei ist:
Die Normalverteilung spielt eine wichtige Rolle bei der meist genutzten Form von Datenanalyse: der Ermittlung der Standardabweichung. Das ist ein absolutes Standardwerkzeug und essentiell wichtig für «data literate» Anwender.
Die Standardabweichung misst die Streuung einer «Ausgangsgesamtheit» von Daten, also wie stark «verteilt» die Datenpunkte sind.
Eine niedrige Standardabweichung deutet darauf hin, dass die Streuung der Datenpunkte nicht sehr gross ist und sie daher nah am Mittelwert liegen. Bei einer hohen Standardabweichung liegen die Datenpunkte weit verstreut.
In der Statistik kennzeichnet man die Standardabweichung durch den kleinen griechischen Buchstaben Sigma (σ), den Mittelwert durch ein kleines My (µ).
Aber was sagt uns die Streuung in Bezug auf Datenanalysen?
Schauen wir uns als Beispiel die Verteilung des Körpergewichts bei Männern an (ganz Gentleman!). Nehmen wir an, das Gewicht wäre normalverteilt:
Das heisst:
Bei Normalverteilung liegen dann:
Visualisieren wir das einmal anhand der Glockenkurve:
Hier sehen wir, wie mächtig dieses Analysewerkzeug ist. Innerhalb von zwei Standardabweichungen bekommen wir bei Normalverteilungen 95% der Datenpunkte abgedeckt.
Das funktioniert sowohl bei ganzen Datensätzen als auch bei Stichproben. Wenn diese gut ausgewählt wurden, kann so aus Stichproben auf die Verteilung des gesamten Datensatzes – der Ausgangsgesamtheit – geschlossen werden.
Aber sind jetzt alle Daten normalverteilt? Natürlich nicht! Jetzt wird es schief…
Die meisten Datenverteilungen zeigen keine Gauss’sche Glockenform, sondern sind durch Asymmetrie gekennzeichnet – es sind also «schiefe» Verteilungen. Mathematisch ausgedrückt heisst das, es gibt keine Gleichverteilung rund um den Mittelwert.
Ist eine Verteilung «rechts-schief», spricht man von einer positiven Schiefe. Sie fällt auf der rechten Seite flacher ab als auf der linken, so dass der Mittelwert über dem Modalwert liegt. Das kann z.B. so aussehen:
Umgekehrt die «links-schiefe» Verteilung:
Hier handelt es sich um eine negative Schiefe, die auf der linken Seite flacher abfällt als auf der rechten. Hier liegt der Mittelwert unter dem Modalwert.
Abschliessend besprechen wir noch einige weitere Eigenschaften von Verteilungen – eben die wichtigsten, bei Leibe nicht die vollständige Liste …
«Bi» heisst «zwei» und «modal» kennen wir vom Modalwert. Bei der bimodalen Verteilung gibt es also zwei Häufungen bzw. zwei Spitzen im Diagramm.
Wir sehen hier einen globalen Modalwert mit 55 und einen zweiten mit 54 Zählungen.
Hier geht es – man ahnt es schon –um eine Verteilung mit mehreren «Gipfeln». Es gibt also mehrere Häufungen.
Eine Multimodale Verteilung bedeutet immer, dass es sich nicht um eine Normalverteilung handelt.
Schauen wir mit dem neu erworbenen Wissen über Verteilungen noch einmal auf die historische Verteilung der Temperaturen in der Schweiz:
Zugegeben, hier handelt es sich um eine sehr grobe Aggregation. Doch auch wenn man die Daten noch einmal auseinander nimmt oder mehr Städte hinzufügt – wir wissen jetzt, dass es sich um eine «negative Schiefe» handelt.
«Normale» wäre im Fall der Temperaturen hier natürlich keine glockenförmige Normalverteilung, sondern eine multimodale Verteilung mit mal mehr und mal weniger heissen Tagen.
Die negative Schiefe zeigt jedoch, dass der Mittelwert (hier µ =
Somit können wir ganz wertfrei sagen: Es wird augenscheinlich heisser in der Schweiz und das ist nicht normal!
Ich hoffe, die Analyse-Werkzeugkiste wurde mit diesem Beitrag wieder etwas weiter aufgefüllt – wie gesagt, der Abschluss-Test ist in Vorbereitung! ;)
Im nächsten Post wird es um Korrelationen und – noch wichtiger! – Kausalitäten gehen.