#3. Predikce v praxi: Projekt 2

Predikce v praxi

Projekt 2

Sparse Data

V předchozím článku jsem pracoval s datasetem, kde hlavní výzvou byla sezónnost a promo akce. Tyto vlivy měly negativní dopad na jednodušší modely a naopak zvýraznily výhodu komplexnějších přístupů, které dokázaly lépe zachytit změny v čase.

Druhý projekt řeší zásadně odlišný typ problému. Na rozdíl od prvního projektu zde problém nespočívá v nedostatku historie, ale v tom, že většina dat neobsahuje žádnou informaci. Model zde neřeší jen velikost prodeje, ale především to, zda k prodeji vůbec dojde. To má přímý dopad na plánování – chyba zde neznamená jen nepřesnost, ale buď zbytečně držené zásoby, nebo naopak nedostupné zboží.

Predikce se tím přirozeně rozpadá na dvě části:

zda k prodeji dojde
a pokud ano, v jakém množství

Tento rozdíl zásadně mění chování modelů i způsob, jakým je potřeba hodnotit jejich kvalitu.

Dataset obsahuje týdenní prodeje pro přibližně 5 000 produktů za období 3 let.

většina produktů má dlouhou historii
dataset neobsahuje promo akce
sezónnost není dominantním faktorem
prodeje jsou silně nepravidelné
velká část období neobsahuje žádný prodej

Rozdíly jsou patrné i v objemech:

běžné produkty se pohybují v řádu desítek kusů měsíčně
některé položky mají prodeje v deseti tisících kusů

Základní charakteristika datasetu je shrnutá v následující tabulce:

Parametr	Hodnota
Počet produktů	5 000
Frekvence dat	týdenní
Nejdelší historie	161 týdnů
Nejkratší historie	2 týdny
Podíl období 1 - 6 měsíců	1.7%
Podíl období 7 - 12 měsíců	2.3%
Podíl období 13 - 24 měsíců	13.1%
Podíl období 24+ měsíců	92.8%
Průměrná velikost prodeje	38.2
Průměrná velikost prodeje (bez nulových hodnot)	89.4
Medián prodeje (bez nulových hodnot)	5.0
Maximální prodej	63 400
Podíl nulových prodejů	57.3%

Z pohledu plánování jde o méně typický, ale velmi důležitý scénář – zejména pro sortiment s nízkou obrátkou. Pro lepší srovnání jsou výsledky v grafech uváděny v měsících, i přes týdenní frekvenci datasetu.

Výběr testovacích scénářů

Stejně jako v předchozím projektu probíhaly testy na podmnožinách datasetu rozdělených podle délky historie jednotlivých produktů.
Důvod je jednoduchý – délka historie zásadně ovlivňuje kvalitu predikce.

dlouhá historie (24+ měsíců)
střední historie (12–24 měsíců)
krátká historie (6–11 měsíců)
nové položky (1–5 měsíců)

Každý z těchto scénářů představuje jiný problém – a právě jejich kombinace s vysokým podílem nulových prodejů výrazně ovlivňuje chování jednotlivých modelů.

Validace

Pro porovnání jednotlivých přístupů byla použita stejná validační strategie jako v předchozím projektu. Modely byly trénovány na historických datech a testovány na následujícím období. Tento přístup odpovídá reálnému použití, kdy predikujeme budoucnost na základě minulosti.

U tohoto datasetu je ale potřeba hodnotit dvě věci současně:

jak přesně model odhadne velikost prodeje
jak dobře dokáže rozpoznat, zda k prodeji vůbec dojde

Metrika proto kombinuje oba pohledy – penalizuje jak chybný odhad množství, tak nesprávnou predikci nulových prodejů. Výsledná hodnota reprezentuje celkovou velikost chyby – čím nižší číslo, tím přesnější predikce. Důležité je ale vnímat ji v kontextu jednotlivých scénářů, protože rozdíly mezi modely se zde projevují jinak než v předchozím projektu.

Typické chování produktů v datasetu

Analýzou datasetu jsem identifikoval, že hlavním problémem je vysoký podíl nulových prodejů.
Aby bylo možné grafy správně interpretovat, je dobré se zaměřit na několik klíčových aspektů:

jak často se objevují nulové prodeje
jak velké jsou nenulové hodnoty
zda se prodeje opakují pravidelně, nebo spíše náhodně
jak modely reagují na výkyvy – zda je zachytí, nebo mají tendenci je vyhlazovat

Právě kombinace těchto faktorů určuje, jak složitá je predikce daného produktu. Podívejme se nyní na konkrétní příklady, jak tato data skutečně vypadají v praxi.

Tyto příklady ukazují, že problém sparse dat není pouze ve vysokém podílu nulových prodejů. Jednotlivé produkty se liší nejen v tom, jak často se prodávají, ale i v tom, jak velké jsou jejich prodeje a jak stabilní je jejich chování v čase. U sparse dat přitom nejde jen o velikost chyby, ale o to, zda model dokáže správně odhadnout samotný výskyt prodeje.

Tyto rozdíly se následně promítají i do výsledků modelů. Podívejme se, jak si jednotlivé přístupy vedly napříč scénáři.

Výsledky pozorované napříč historickými scénáři

Po pochopení charakteru dat se můžeme podívat na to, jak si jednotlivé přístupy vedly v praxi. Stejně jako v předchozím projektu byly výsledky vyhodnoceny podle délky historie produktů. Na rozdíl od prvního projektu jsou v tomto případě rozdíly mezi přístupy výrazné napříč všemi scénáři. Deep learning dosahuje ve všech případech nejlepších výsledků, a to s poměrně stabilním odstupem od ostatních přístupů. V průměru snižuje chybu o více než 50% oproti statistickým metodám a o 40 % oproti machine learningu.

Důvodem je charakter datasetu. Vysoký podíl nulových prodejů a nepravidelné chování produktů vytváří prostředí, ve kterém jednodušší modely nedokážou efektivně zachytit strukturu dat. Statistické metody i Machine learning mají tendenci zjednodušovat realitu – často se přibližují průměru nebo vytváří stabilní predikce, které ale neodpovídají skutečnému chování dat. Deep learning si v tomto scénáři vede lépe zejména díky schopnosti pracovat s informacemi napříč celým portfoliem a zachytit alespoň část skrytých vzorců v datech. Výjimkou jsou nové produkty (1–5 měsíců), kde se rozdíly mezi přístupy zmenšují.

V tomto scénáři hraje klíčovou roli nedostatek dat a vyšší míra náhodnosti. Predikce je zde obecně méně spolehlivá bez ohledu na zvolený přístup.

V tomto projektu tak přestává být hlavní otázkou výběr modelu. Klíčová je samotná schopnost pracovat s nepravidelností a vysokým podílem nul.

Shrnutí

Tento dataset ukazuje zásadně jiný problém než předchozí projekt – nejde o složitost vzorců, ale o samotnou existenci prodeje. Vysoký podíl nulových hodnot zásadně mění charakter predikce: modely zde neřeší pouze velikost, ale především to, zda k prodeji vůbec dojde.

Statistické metody i machine learning mají tendenci zjednodušovat chování dat a vracet se k průměru. Deep learning v tomto scénáři dosahuje lepších výsledků zejména díky schopnosti pracovat s informacemi napříč celým portfoliem a zachytit alespoň část skrytých vzorců.

Je zároveň důležité správně nastavit očekávání. U tohoto typu dat není realistické očekávat přesnou predikci jednotlivých období a to ani od pokročilých modelů. Prodeje se objevují nepravidelně a často bez jasného vzorce. Bez dostatečné historie a při takto vysoké míře variability je prakticky nemožné spolehlivě odhadnout, kdy přesně k prodeji dojde a v jakém objemu. To ale neznamená, že predikce nedává smysl.

Hodnota modelu zde není v přesném odhadu jednotlivých týdnů. Je ve schopnosti snížit míru nejistoty při plánování.

V dalším článku se podíváme na třetí typ datasetu, který kombinuje více dimenzí a přináší jinou vrstvu komplexity.