Daten sind Fakten oder Informationen, die für Reports, Berechnungen, Analysen und Planung genutzt werden können.
Es geht weiter mit meiner kleinen Serie zum Thema Data Literacy...
Im digitalen Zeitalter entstehen enorme Datenmengen:
- 2015 wurden täglich (!) 2.5 Trillionen Bytes neue Daten produziert.
- Bis 2025 werden – so die Schätzung von Seagate und IDC – bei der prognostizierten Beschleunigung der Datenproduktion 175 Zettabyte an Daten zusammenkommen. Das sind 1'400 000 000 000 000 000 000 000 Nullen und Einsen ... Würde man diese Datenmenge auf DVDs speichern, wären das 23 Stapel von der Erde bis zum Mond!
Damit haben wir zumindest eine ungefähre Vorstellung davon, was aktuell an Daten hinzukommt – und wie wichtig es daher ist, diese enormen Datenmengen in den Griff zu bekommen und nutzbar zu machen!
So beherrschen Sie das Datenchaos
Wissen ist Macht. Das klingt nach einer Plattitüde, hat aber einen wahren Kern. Doch welches Wissen kann man aus diesen enormen Datenmengen ziehen?
Bei einem Grossteil der neu produzierten Daten handelt es sich um «unstrukturierte Daten». Sie haben keine vordefinierte Datenstruktur, sind aber ein klassisches Beispiel für «Big Data». Man kann sie nutzen, um Stimmungen, Trends oder Produktvorlieben zu analysieren und daraus Rückschlüsse für das eigene Business zu ziehen.
Im Gegenzug stehen «strukturierte Daten», wie sie in Unternehmen standardmässig analysiert werden. Diese sind geordnet in relationalen Datenbanken abgelegt und haben eine vordefinierte Datenstruktur – Anzahl der Verkäufe, Höhe der Personalkosten, etc. pp.
BI-Architekten müssen also zu allererst wissen, welche Art von Daten ihnen vorliegen und wie man sie für sinnvolle Analysen aufbereiten kann.
Was bringt uns das Wissen über Daten konkret?
Daten werden gebraucht, um Analyse-Backends zu bauen, Data Warehouses zum Beispiel.
Wenn Daten nicht korrekt aufbereitet werden oder der BI-Architekt nicht die Daten nutzt, die für den jeweiligen Nutzer wichtig sind, ist die Wahrscheinlichkeit hoch, dass die Analyse zu inkorrekten Ergebnissen führt.
Um bei meinem Beispiel der Conversion Rate vom letzten Mal zu bleiben. Hier definiert als:
Wenn Ihnen nur die Conversion Rate angezeigt wird und de Wert gut ist, besteht kein Handlungsbedarf, richtig?
Falsch, hier fehlen Ihnen wichtige Informationen! Es können beispielsweise immer noch zu wenige Besucher auf Ihrer Webseite sein, so dass die Gesamt-Conversion zu gering ist.
In dem Fall hätte der BI-Architekt nicht verstanden, welche Kennzahlen Sie zur Erfolgsanalyse wirklich brauchen. Andererseits kann auch mangelnde Datenkompetenz des Analysts im Umgang mit dem Frontend zu Fehlern führen.
Beispiel Fraud Detection
Nehmen wir das Beispiel Fraud Detection:
Wenn Sie sehen, dass die Buchhaltung am Sonntag nachmittag Überweisungen durchführt, müssen Sie nicht sofort misstrauisch werden. Wurde zuvor jedoch im Treasury Management eine Kontonummer geändert – einmal vor der Buchung und einmal nach der Buchung, dann sollten Sie definitiv stutzig werden!
Wer nur auf die Buchungsvorfälle schaut, bemerkt womöglich nichts, weil Sonntag nachmittags öfter etwas gebucht wird. Hier fehlt es an Datenweitsicht und der Herstellung wichtiger Zusammenhänge zur KPI «Kontonummer geändert» - so können Betrugsfälle unentdeckt bleiben.
Gleiches gilt, wenn die KPIs «Buchungszeitpunkt» und «Kontonummer geändert» nicht korrekt visualisiert wurden und der Report die Herstellung eines Zusammenhangs erschwert.
Ebenso gefährlich ist es, falsche Zusammenhänge herzustellen: Ein beliebtes Beispiel für Datenmissverständnisse sind Korrelationsanalysen, die jedoch ohne zugehörige Kausalität keine sinnvollen Aussagen ermöglichen – mehr dazu in einem späteren Artikel.
Rufen wir uns noch einmal ins Gedächtnis: Daten sind gesammelte Informationen, die für unterschiedliche Zwecke verwendet werden können.
Hierzu drei Beispiele:
- Tweets können genutzt werden, um Meinungen zu analysieren oder Influencer zu identifizieren.
- Unternehmensstatistiken können zur Früherkennung von Problemen oder zur Erstellung von Prognosen verwendet werden.
- Kundendaten und demografische Informationen können zum gezielten Targeting im Marketing genutzt werden.
Welche Arten von Daten gibt es?
Stetige Daten…
- liegen in einem bestimmten Intervall
- können gemessen oder gezählt werden
- sind quantitativ
Beispiel-KPIs: «Einkaufsmarge» oder «Berghöhe»
Kategoriale Daten…
- haben eine Kategorie (bspw. 0°-5°: eiskalt, 5.1°-15°: frisch, 15.1°-25°: angenehm, …)
- sind beschreibend (Frauen, Männer, Divers)
- sind qualitativ (s.o. eiskalt, frisch, angenehm)
- werden zur Unterscheidung von Datengruppen genutzt
- heissen oft auch «Dimensionen»
Beispiel-KPIs: «Produkttyp» oder «Automarke»
Diskrete Daten…
- sind quantitativ und qualitativ
- können nur endlich viele Werte annehmen
Beispiel-KPIs: «Anzahl der Kinder» oder «Anzahl einsatzbereiter LKWs»
Warum ist das für mich im Unternehmen wichtig?
Im letzten Data Literacy-Artikel ging es um «das Wesentliche» - und genau das gilt es, aus den Datenmassen herauszufiltern. Finden können wir diese wesentlichen Signale nur, wenn wir verstehen, nach welchen Datentypen wir suchen.
Angenommen, Sie arbeiten für eine bekannte Automarke. Die Aufregung ist gross, weil der Umsatz im aktuellen Monat total niedrig ist.
Mit dem Wissen über die verschiedenen Datentypen und die Möglichkeiten zu deren Visualisierung können Sie die Frage nach der Ursache des Umsatzrückgangs kompetent angehen:
Hierzu betrachten Sie nicht nur die diskreten Daten (Anzahl der Verkäufe), sondern fächern diese anhand von kategorialen Daten (Modelle, Länder, Händler, Farben) und stetigen Daten (Preis) auf. So sehen Sie schnell, dass Modell XY in der Schweiz in der Farbe Schwarz gar nicht mehr verkauft wird. Das ganze können Sie dann in einen schönen Report packen und direkt Pluspunkte sammeln.
Das ist natürlich ein sehr einfaches Beispiel und für jeden Controller ein Kinderspiel. Aber ich möchte in dieser Artikelserie wie angekündigt das Feld von hinten aufrollen und daher nehmen wir auch die Basics mit. Kommen wir zum nächsten Thema: Datenattribute …
Welche Datenattribute gibt es?
Datenattribute sind wichtig, um zu verstehen, wie wir mit den jeweiligen Daten umgehen können.
Wir unterscheiden:
- qualitative Datenattribute
- Nominal
- Ordinal
- quantitative Datenattribute
- Intervall
- Metrisch
Nominale Daten...
...haben eine qualitative Merkmalsausprägung, jedoch ohne natürliche Ordnung. KPI-Beispiele sind etwa Berufsstatus oder Geschlecht (hallo Frauenquote!), in anderen Kontexten natürlich auch Produktkategorien wie Desktop vs. Laptop, Fussball vs. Basketball etc.
Ordinale Daten...
...haben ebenfalls eine qualitative Merkmalausprägung und zudem eine natürliche Ordnung. Typische KPIs hier sind z.B. Kundenbewertungen (sehr gut, gut, befriedigend, ausreichend, mangelhaft, ungenügend).
Die Werte lassen sich ordnen, jedoch gibt es keine festen bzw. definierten Abstände – wir wissen also nicht *wie viel besser* «sehr gut» im Vergleich zu «gut» ist.
Intervall-Daten...
...bzw. Daten auf einer Intervallskala ähneln ordinalen Daten, gehen aber darüber hinaus, weil hier die Abstände zwischen zwei Werten gemessen werden können. Ein klassisches Beispiel hierfür sind Zeitangaben.
Wichtig zu wissen: Bei Intervall-Daten ist nicht jede Rechenoperation sinnvoll:
- Summen- und Differenzbildung ist plausibel: Wenn mein Arbeitstag um 4 Uhr beginnt und der meines Kollegen um 8 Uhr, ist dieser 4h später dran.
- Multiplikation ist wenig sinnvoll, da es keinen Nullpunkt gibt:Es ist wenig hilfreich zu behaupten, mein Kollege hätte doppelt so spät angefangen wie ich.
Metrische Daten...
...vereinen quasi alle Merkmale der bisherigen Datentypen und haben zusätzlich einen Nullpunkt, sodass alle Rechenoperationen funktionieren. Beispiele hierfür sind etwa Einkommen, Alter oder Geschwindigkeitsangaben in km/h.
Und zu guter Letzt noch ein Daten-Sonderfall:
Zeit
Zeit-Daten sind essenziell für Analysen, kommen immer wieder vor und helfen, Antworten zu finden. Oft werden Zeitperioden miteinander vergleichen oder Entwicklungen in Diagrammen auf Zeitachsen dargestellt.
Die Wahl der richtigen Zeitskala ist für den BI-Architekten eine der fundamentalen Aufgaben und erfolgskritisch für den Nutzen von Datenvisualisierungen im Frontend.Die bekannteste Form der Zeit-Datennutzung ist sicherlich der Vergleich von Zeitreihen.
So kann beispielsweise untersucht werden, welche Faktoren die Produktivität der Mitarbeiter steigern:
Nehmen wir an, wir untersuchen die Wirksamkeit von Yoga vor Arbeitsbeginn (ja, ja, ich weiss – wahlweise kann das Experiment natürlich auch mit 250 ml Kaffee gemacht werden!).
Die Stechuhr gibt uns für jeden Mitarbeiter einen Zeitstempel für den Arbeitsbeginn. So können wir – je nach Job – die Produktivität am Vormittag messen, z. B. die durchschnittlichen Tastenanschläge pro Stunde - (a) wenn Yoga gemacht wurde und (b) ohne Yoga.
So bekommen wir eine kleine Nutzenanalyse und können die Sinnhaftigkeit unserer produktivitätssteigernden Massnahmen überprüfen.
Strukturiert, diskret, nominal... - warum ist das cool?
Auch wenn Sie nicht zu den Datenmodellierern gehören und mit dem Backend Ihres Business Intelligence Systems nichts zu tun haben, ist es doch befriedigend zu wissen, was sich BI-Architekten und Entwickler bei ihrer Arbeit gedacht haben.
Zur Datenkompetenz gehört auch, zu wissen, was für Informationen für die eigenen Aufgaben wichtig sind:
Nur so können Sie die Entwickler sinnvoll instruieren. Insgesamt verbessert Datenkompetenz die Kommunikation zwischen Ihnen und den Backend-Spezialisten.
Wenn wir uns an den ersten Artikel «Signal! Not Noise» erinnern: Die Frage nach dem «Warum» und die Skepsis sind als Grundeigenschaften eines Analysten wichtig, um Datenquellen bzw. Aussagen zu hinterfragen.
Sie können noch so gute analytische Fähigkeiten haben; wenn im Hintergrund die falschen Daten verarbeitet werden bzw. die richtigen Daten nicht korrekt aufbereitet werden, bleiben die Analysen bestenfalls ungenau.
Was passiert im Backend:
- Es werden Data Warehouses, Tabellen, Verarbeitungsschichten modelliert und gebaut
- Es wird dem Frontend Nutzer bei seinen Datenanforderungen geholfen
- Hier ist das Verständnis von Datentypen und –attributen entscheidend.
Was passiert im Frontend?
- Es werden Datenvisualisierungen gebaut
- Es wird die Performance analysiert.
- Hier ist Datenverständnis z.B. für die Wahl der Visualisierung entscheidend.
Was bedeutet das für Ihr Unternehmen als Ganzes?
Qualitative Analysen und Planungen finden nur statt, wenn sowohl die Entwickler als auch die Analysten und Anwender eine gemeinsame Sprache sprechen. Um die Akzeptanz für BI-Lösungen zu erhöhen und den Nutzen der Tools zu maximieren, muss die Kommunikation auf Augenhöhe stattfinden.
Somit ist es ggf. auch Aufgabe der Unternehmenskommunikation, die Fähigkeiten der einzelnen Mitarbeitergruppen auf ein gemeinsames, hohes Datenkompetenz-Niveau zu heben.
Ich hoffe, dass dieser Artikel für alle Kenner und Könner maximal eine kleine Auffrischung in Sachen Datenkompetenz war – für manche vielleicht aber auch mehr.
Bei den nächsten Malen kratzen wir dann am (für manche) Angstthema Statistik und klären, warum die Katze noch lebt... – aber keine Sorge, der grosse Brocken wird mundgerecht portioniert…
Bei Fragen freue ich mich wie immer auf Mails (oder auch Kommentare).