blog_Hero.jpg
Veröffentlicht von       Henrik Ditz

#3 Aggregationen: Warum lebt die Katze noch?

Es ist mir ein inneres Fussbad, mich heute mit dem Gruselthema STATISTIK zu beschäftigen.

Schiesse ich einmal links und einmal rechts an der Katze vorbei, ist sie im Durchschnitt tot...

2019-07-16_1725-1Doch so oft ich auch daneben schiesse (ich mag Tiere, keine Angst) – die Katze bleibt am Leben, obwohl der Mittelwert sagt, dass sie tot sein müsste.

 

Mathematik und damit auch Statistik «lügt» nicht. Datenkompetenz heisst auch, zu verstehen, warum das Tier noch lebt – und wo derartige Katzen in den Unternehmenskennzahlen auftauchen können.

Es geht also heute um Aggregation, sprich: das Zusammenfassen von Daten.

Der Mittelwert: Ein Klassiker der Datenaggregation mit begrenzter Aussagekraft

Beginnen wir diesen Data Literacy Artikel mit einer kurzen Definition (bitte nicht abschalten): Unter Aggregation versteht man die Zusammenfassung von Werten einer bestimmten Variablen, der Aggregationsvariablen, für eine vorgegebene Auswahl von Fällen.

 

Beispielfrage: Wie gut hat die Lead-Kampagne «Katzenfotos» mit insgesamt 15 Bildern performed?

 

Hier gibt es die Variablen «Kampagne» und «Anzahl Downloads pro User» (wir erinnern uns an den letzten Artikel: kategoriale Daten und diskrete Daten). Die Aggregationsvariable ist hier «Anzahl Downloads pro User» und es wird der Mittelwert (ugs. Durchschnitt) dieser Daten über alle Fälle berechnet, für die die Variable «Kampagne» den Wert «Katzenfotos» besitzt.

 

Gehen wir davon aus, dass die User-Downloads «normalverteilt» sind, ist die Katze jetzt, egal bei welchem Mittelwert, tot.

 

Die Katze überlebt, wenn meine Freundin ins Spiel kommt, die sich alle Katzenfotos mehrfach herunterlädt. Dann steigt der Mittelwert, zeigt aber keine hilfreiche Information mehr an, weil es einen Ausreisser gibt – und die Katze hat’s geschafft.

 

Derartige Fälle begegnen uns täglich in so vielen Unternehmensbereichen und auch Nachrichten, dass es sich lohnt, einmal dahinter zu schauen, um zu wissen, wie wir solche Daten auf Sinnhaftigkeit überprüfen zu können.

Mittelwert, Median & Co.

Heute schauen wir uns also an:

  • Mittelwert
  • Median
  • Modalwert
  • Minimum / Maximum
  • Summe
  • Anzahl

 

Wer diese Aggregationen beherrscht, verfügt über wichtige Grundlagen der Data Literacy, um mit Kennzahlen zu führen, verführen oder in die Irre führen zu können. Umgekehrt hat man damit die Chance, Reports oder Nachrichten, die diese Daten verwenden, zu hinterfragen.

 

Um die folgenden Ausführungen besser nachvollziehen zu können, gründen wir eine Firma: SchlauWieSchlumpf AG - ein kleines Unternehmen mit 20 Mitarbeitern, das blaue Kuscheltiere verkauft.

 

Wie die Gehaltsstruktur der Belegschaft aussieht, können wir mit verschiedenen Aggregationen darstellen. Fangen wir also mit dem Mittelwert an!

 

Mittelwert: der grosse Gleichmacher

Der Mittelwert – auch arithmetisches Mittel oder Durchschnitt genannt – ist allgemein bekannt und wird häufig genutzt: Durchschnittsnoten in der Schule, Durchschnittsverbrauch des PKWs, durchschnittliche Laufstrecke pro Spiel von Mario Götze bei der WM 2018... alles Mittelwerte.

 

Die Mathematik dahinter:Mittelwert-Formel

                oder vereinfacht          

   Mittelwert-Formel-vereinfacht

 

Berechnen wir also den Durchschnittsverdienst für unsere Firma SchlauWieSchlumpf:

Mittelwert-Formel-konkret

 

Oha! CHF 158'000 Durchschnittsgehalt? Da sollten wir alle in die Kuscheltierbranche wechseln!

 

Aber halt, genau hier liegt das erste Problem des (arithmetischen) Mittelwerts. Die CHF 158'000 wurden korrekt berechnet, aber spiegeln sie wirklich die Gehaltsstruktur des Unternehmens wider?

Schauen wir uns die Einzelgehälter an:

Gehaltstabelle

 

Was die Tabellenwerte schon erahnen lassen, wird im Diagramm noch deutlicher:

 

Einzelgehälter-Diagramm

 

Die Gehaltsverteilung ist absolut nicht gleich, vier Personen verdienen weit über dem Durchschnittswert von

CHF 158'000, die anderen – und das sind 80 % der Belegschaft – liegen weit darunter.

 

Der Mittelwert kann also schnell in die Irre führen oder argumentativ missbraucht werden.

 

Das führt uns zurück zur ersten Lektion: Wir möchten mit Daten Fragen beantworten und das «Warum» hinter den Zahlen verstehen.

 

Beim Mittelwert hilft also der Punkt «Skeptisch sein» aus einem der vorherigen Data Literacy Artikel, sprich: weitere Informationen einholen – beispielsweise einen weiteren aggregierten Datentyp, den Median …

 

Median: die tatsächliche Mitte der Zahlenreihe

Der Median – auch Zentralwert genannt – liegt tatsächlich in der «Mitte» einer Zahlenreihe. Das heisst, 50 % der Werte liegen darunter – 50 % darüber.

Bei einer Zahlenreihe mit einer ungeraden Anzahl von Werten nimmt man einfach den mittleren Wert:

Median-ungerade

Der Median hier ist 4. Der Mittelwert wäre dagegen (1+3+4+6+88) / 5 = 20.4.

 

Bei einer Zahlenreihe mit einer geraden Anzahl an Werten nimmt man die beiden mittleren Werte, addiert sie und teilt die Summe durch zwei.

Median-gerade

 

Hier wäre der Median also 4.5.

 

Analysiert man die Gehaltsstruktur der SchlauWieSchlumpf AG, so ergibt sich ein Median von CHF 48'500 – das sieht doch schon informativer aus.

 

WICHTIG: Haben Sie die Besonderheit dieser Aggregation bemerkt? Zur Ermittlung des Medians müssen die Daten geordnet sein. Das war im analogen Zeitalter noch mühselig, ist heute mit entsprechenden Tools aber kein Problem mehr – wissen sollte man es trotzdem!

 

NOCH WICHTIGER: Wann nehme ich den Mittelwert und wann den Median?

 

Normalverteilung

Wenn die Werte einer Zahlenreihe normalverteilt (siehe Grafik - wir kommen im nächsten Artikel näher dazu) sind, ist der Mittelwert meist aussagekräftiger. Bei einer verzerrten Verteilung mit auffälligen Ausreissern (bspw. bei den Gehältern von SchlauWieSchlumpf) repräsentiert der Median die Realität besser.

 

Modalwert: der häufigste Wert

Der Modalwert ist der Wert, der in einem Datenset am häufigsten vorkommt.

Bei den Gehältern der SchlauWieSchlumpf AG sticht dieser sofort ins Auge:

Gehaltstabelle-Modalwert

Der Wert 48'500 kommt häufiger vor als alle anderen und ist damit der Modalwert. In der Statistik wird er oft mit «D» bezeichnet, also: D = CHF 48’500.

 

Der Modalwert wird eher selten verwendet. Interessant ist er vor allem bei der Suche nach dem optimalen Preis oder durchschnittlichen Einkaufsmengen:  

 

Die SchlauWieSchlumpf AG kann also verschiedene Preise für ihre blauen Kuscheltiere austesten und prüfen, bei welchem Preis sie die meisten Verkäufe erzielt.

 

Sie kann ebenfalls analysieren, wie viele Kuscheltiere die Website-Besucher durchschnittlich in den Warenkorb legen, um die Produktion entsprechend anzupassen – oder, wenn es ein Ladengeschäft gibt, die Grösse der realen Einkaufskörbe zu optimieren.

 

Wenn die SchlauWieSchlumpf AG nicht nur blaue, sondern auch rote und pinke Kuscheltiere verkauft, kann sie mit dem Modalwert ausserdem analysieren, wie viele Kuscheltiere pro Farbe nachgefragt werden und daraus die Fertigungsstrategie ableiten.

 

Der Modalwert findet nicht nur bei numerischen Werten Anwendung, sondern eignet sich auch für:

  • Nominalskalen (Bäcker, Metzger, Bergmann, Metzger, Bergmann, Bäcker, Metzger à D = Metzger – bspw. bei der Analyse der Kundenstruktur nach Berufen)
  • Ordinalskalen (hoch, mittel, gering, gering, sehr hoch, hoch, gering, sehr hoch)

(mehr dazu im Artikel "Datentypen")

 

Welche Story wird erzählt?

Wir haben jetzt also drei Aggregationstypen für die Gehaltsstruktur der SchlauWieSchlumpf AG ermittelt:

  • Mittelwert: CHF 158'000
  • Median: CHF 48'500
  • Modalwert: CHF 48'500

 

Wird nur der Mittelwert von CHF 158'000 angegeben, würde jeder Jobsuchende sofort alles dafür geben, bei SchlauWieSchlumpf anzufangen. Auch der Presse nennt man natürlich diesen Wert, um zu zeigen, wie gut es den Mitarbeitern geht.

 

Will man als "Data Literate" tatsächlich wissen, wie es um die Gehaltsstruktur steht, ist der Median am aussagekräftigsten, weil er – anders als der Mittelwert – weniger von den  vier Ausreissern beeinflusst wird.

 

Der Modalwert ist für die Frage nach der Gehaltsstruktur nur begrenzt aussagekräftig. Er kann aber darauf hinweisen, dass es eine Berufsgruppe mit festem Tarifvertrag gibt.

Weitere Aggregationstypen

Minimum & Maximum

Genau genommen sind Minimum und Maximum keine klassischen Aggregationen, weil hier keine Daten zusammengefasst werden. Dennoch ist es sinnvoll, den höchsten und den niedrigsten Wert eines Datensets anzugeben. Minimum und Maximum zusammen definieren die Spannweite (= Streubreite) eines Datensets:

Einzelgehälter-Streubreite

 

Für die Gehälter in der SchlauWieSchlumpf AG ergeben sich folgende Werte:

Streubreite = Maximum – Minimum

= CHF 1'000'000 – CHF 32'000 = CHF 968’000

 

Interessant sind Minimum, Maximum und Streubreite auch für Auftragsgrössen: Handelt es sich Ausreisser oder liegen sie recht nah am Median bzw. Modalwert? Womit muss ich planen?

 

 

Summe

Eine weitere Aggregation  ist die Summe. Diese wird so häufig genutzt, dass wir sie oft gar nicht bewusst als Aggregation wahrnehmen.

 

Per Definition ist die Summe das Ergebnis der Addition von Zahlen einer bestimmten Dimension.

 

Bei unserem bisherigen Beispiel – den Gehältern der SchlauWieSchlumpf AG – ist die Summe nützlich, wenn man nach den Personalkosten pro Monat fragt. Etwas spannender wird es, wenn wir uns das Neukundengeschäft im Kuscheltier-Business anschauen:

Neukunden-pro-Quartal

Die Quartalsaufstellung zeigt auf den ersten Blick eine positive Entwicklung des Neukundengeschäfts. Beim zweiten Blick fällt jedoch ein enormer Sprung in der Anzahl der Neukunden von Q3 2017 auf Q4 2017 auf. Hier lohnt es sich, die Ursachen zu suchen und eventuelle Erfolgsfaktoren für die künftige Marketingstrategie zu identifizieren.

 

Anzahl

Die Aggregation «Anzahl» ähnelt dem Prinzip der Summe, dient aber im Gegensatz zu dieser zur Aggregation nicht-numerischer Daten. So können wir die Namen der Mitarbeiter von SchlauWieSchlumpf zwar nicht addieren, aber durchaus zählen.

Warum sind Aggregationen ein wichtiger Bestandteil der Data Literacy?

Aggregationen sind in unserer Alltags-Analyse-Welt unverzichtbar: Sie machen es möglich, Daten zusammenzufassen, somit zu vereinfachen und zu analysieren.

 

Mein kleines Kuscheltier-Beispiel war natürlich sehr überschaubar, wirklich interessant wird es erst bei der Aggregationen grosser Datenmengen.

 

Als Marketer tue ich das ständig – z.B., wenn ich demographische Merkmale von Käufern in Clustern zusammenfasse, nach Warenkorbgrösse sortiere, nach Alter, Geschlecht ... Die Standard-Filter, die wir in unseren BI-Tools setzen, beruhen zum Grossteil auf Aggregationen.

 

Der gekonnte Umgang mit den verschiedenen Aggregationstypen gehört daher zum essentiellen Handwerk jeden kaufmännisch Handelnden und niemand sollte sich wundern, wenn am Ende wider Erwarten die Katze noch lebt ;)

 

Als Datenarchitekten und –analysten bauen wir häufig Datenvisualisierungen auf Grundlage von Aggregationen. Hier hilft es ungemein, wenn Entwickler und Anwender dieselbe Sprache sprechen und Hand in Hand arbeiten, um Antworten zu finden Trends aufzudecken und das Unternehmen voran zu bringen.

Key Takeaways

  • Aggregation bezeichnet das Sammeln und Zusammenfügen von Daten, sowie deren zusammengefasste Darstellung für Reports & Analysen
  • Der Mittelwert ist der Durchschnitt, der Median die Mitte, der Modalwert der häufigste Wert. Minimum & Maximum erklären sich von selbst; Die Summe dient der Addition von numerischen Werten, die Anzahl der Zusammenfassung nicht-numerischer Werte
  • Bei Ausreissern im Datenset, ist der Median aussagekräftiger als der Mittelwert
  • Der Modalwert zeigt uns den häufigsten Wert im Datenset – etwa das beliebteste Produkt
  • Aus Minimum und Maximum errechnet sich die Spannbreite des Datensets
  • ...
  • ...
  • Last but not least: die Katze lebt :)

 

Im nächsten Data Literacy Artikel geht es dann spannend mit Statistik weiter. Dann geht es um Verteilungen...

Henrik Ditz

Henrik Ditz

Datenaffinität gepaart mit einer grossen Portion Kreativität - Henrik Ditz kommt aus dem technischen Marketing und verbindet seit jeher Ansprüche der Kunden mit neuen, identitätsstiftenden Ideen. Seit über 12 Jahren ist es seine Passion, Kunden zu verstehen und echten Mehrwert zu schaffen. Weiterdenken, Ideen in Konzepte giessen und darüber erzählen - das ist seine Expertise für Heyde.

VERWANDTE BEITRAGE