Beim Stichwort Predictive Analytics denken die meisten sicherlich an enorme Datenmengen, die als Grundlage für die Erstellung von ML-basierten Vorhersagemodellen genutzt werden. Tatsächlich können Maschinenlern-Algorithmen auch bei kleinen Datenmengen eingesetzt werden, um aussagekräftige Forecasts zu erstellen.
Angesichts der tiefgreifenden Umbrüche infolge der Corona-Pandemie kommt dieser Option neue Bedeutung zu: Unternehmen sind bestrebt, zuverlässige Vorhersagen anhand von Daten zu treffen, die über einen vergleichsweise kurzen Zeitraum erhoben wurden.
Zwar sind in den meisten Fällen umfangreiche Datenmengen aus den Monaten und Jahren ‚vor Corona‘ verfügbar, doch bieten diese meist keine geeignete Grundlage für das Training von Modellen, die verlässliche Vorhersagen für die nahe Zukunft treffen sollen: Die Muster und Zusammenhänge der Daten haben sich in den letzten Wochen grundlegend verändert und werden sich vermutlich weiter verändern.
Die Arbeit mit kleinen Datensets stellt DataScientists vor spezifische Herausforderungen. Problematisch ist vor allem das Overfitting-Risiko: Je weniger Beispiele bei der Modellierung zur Verfügung stehen, umso leichter entsteht ein Modell, das zu spezifisch und schlecht zu verallgemeinern ist. Ein kleines Datenset lässt zudem weniger Spielraum für die Abtrennung von Validierungs-Datensets, die eben dieses Overfitting aufdecken könnten.
Hier bieten sich drei Lösungsansätze:
Die Arbeit mit kleinen Datensets erfordert verschiedene Werkzeuge und Techniken, um die Vorhersagegenauigkeit der Modelle auch in dieser Ausnahmesituation zu verbessern. Zudem ist es hier doppelt ratsam, auch Fachexperten in die Erstellung und Validierung von Modellen mit einzubeziehen.
Veranstaltungstipp: Aktuelle Vorträge zum Themenbereich Künstliche Intelligenz, Maschinenlernen & Deep Learning bietet das DataRobot-Team auf der ODSC Virtual Conference & Expo. Die Redner befassen sich mit praktischen Modellierungs- und Forecasting-Problemen, dem Umgang mit KI-Bias und natürlich auch den neuesten DataScience-Tools.
Eine Vorschau finden Sie hier: https://blog.datarobot.com/join-datarobot-at-odsc-virtual
>> Mehr über Heyde & DataRobot