Heyde Insights

Neue Herausforderungen in der Pandemie: Forecasting anhand kleiner Datensets

Geschrieben von Henrik Ditz | 29. Apr 2020

Beim Stichwort Predictive Analytics denken die meisten sicherlich an enorme Datenmengen, die als Grundlage für die Erstellung von ML-basierten Vorhersagemodellen genutzt werden. Tatsächlich können Maschinenlern-Algorithmen auch bei kleinen Datenmengen eingesetzt werden, um aussagekräftige Forecasts zu erstellen.

Angesichts der tiefgreifenden Umbrüche infolge der Corona-Pandemie kommt dieser Option neue Bedeutung zu: Unternehmen sind bestrebt, zuverlässige Vorhersagen anhand von Daten zu treffen, die über einen vergleichsweise kurzen Zeitraum erhoben wurden.

 

Zwar sind in den meisten Fällen umfangreiche Datenmengen aus den Monaten und Jahren ‚vor Corona‘ verfügbar, doch bieten diese meist keine geeignete Grundlage für das Training von Modellen, die verlässliche Vorhersagen für die nahe Zukunft treffen sollen: Die Muster und Zusammenhänge der Daten haben sich in den letzten Wochen grundlegend verändert und werden sich vermutlich weiter verändern.


Die Arbeit mit kleinen Datensets stellt DataScientists vor spezifische Herausforderungen. Problematisch ist vor allem das Overfitting-Risiko: Je weniger Beispiele bei der Modellierung zur Verfügung stehen, umso leichter entsteht ein Modell, das zu spezifisch und schlecht zu verallgemeinern ist. Ein kleines Datenset lässt zudem weniger Spielraum für die Abtrennung von Validierungs-Datensets, die eben dieses Overfitting aufdecken könnten.

 

Hier bieten sich drei Lösungsansätze:

  • Einfachere Modelle mit einer geringeren Zahl von Features haben ein geringeres Overfitting-Risiko und finden sich gerade bei kleineren Datensets an den oberen Plätzen des DataRobot Leaderboards (insb. elastic net classifier, support vector machines, Eureqa models oder regularized linear models)
  • Verbesserte Verfahren zur Kreuzvalidierung ermöglicht die Bereitstellung größerer Validierungs-Datensets (insb. Nested Cross-Validation)
  • Feature Selection bei breiteren Datensets, die mehr Spalten als Zeilen umfassen – zum einen durch Regularisierung, zum anderen durch die Erstellung multipler Projekte mit jeweils neuem Reshuffling der Daten-Teilsets (d.h. in DataRobot ein Autopilot-Rerun mit verschiedenen ‚random seeds‘). Wenn das Modell infolge des Reshufflings abweichende Ergebnisse zeigt, ist es als unzuverlässig einzustufen und erfordert weitere Arbeit.


Die Arbeit mit kleinen Datensets erfordert verschiedene Werkzeuge und Techniken, um die Vorhersagegenauigkeit der Modelle auch in dieser Ausnahmesituation zu verbessern. Zudem ist es hier doppelt ratsam, auch Fachexperten in die Erstellung und Validierung von Modellen mit einzubeziehen.


Veranstaltungstipp: Aktuelle Vorträge zum Themenbereich Künstliche Intelligenz, Maschinenlernen & Deep Learning bietet das DataRobot-Team auf der ODSC Virtual Conference & Expo. Die Redner befassen sich mit praktischen Modellierungs- und Forecasting-Problemen, dem Umgang mit KI-Bias und natürlich auch den neuesten DataScience-Tools.

Eine Vorschau finden Sie hier: https://blog.datarobot.com/join-datarobot-at-odsc-virtual

 

>> Mehr über Heyde & DataRobot