Predikce v praxi

Projekt 2

Sparse Data

V předchozím článku jsem pracoval s datasetem, kde hlavní výzvou byla sezónnost a promo akce. Tyto vlivy měly negativní dopad na jednodušší modely a naopak zvýraznily výhodu komplexnějších přístupů, které dokázaly lépe zachytit změny v čase. 

Druhý projekt řeší zásadně odlišný typ problému. Na rozdíl od prvního projektu zde problém nespočívá v nedostatku historie, ale v tom, že většina dat neobsahuje žádnou informaci. Model zde neřeší jen velikost prodeje, ale především to, zda k prodeji vůbec dojde. To má přímý dopad na plánování – chyba zde neznamená jen nepřesnost, ale buď zbytečně držené zásoby, nebo naopak nedostupné zboží. 

Predikce se tím přirozeně rozpadá na dvě části:

  • zda k prodeji dojde
  • a pokud ano, v jakém množství

 

Tento rozdíl zásadně mění chování modelů i způsob, jakým je potřeba hodnotit jejich kvalitu. 

Dataset obsahuje týdenní prodeje pro přibližně 5 000 produktů za období 3 let. 

  • většina produktů má dlouhou historii
  • dataset neobsahuje promo akce
  • sezónnost není dominantním faktorem
  • prodeje jsou silně nepravidelné
  • velká část období neobsahuje žádný prodej 

 

Rozdíly jsou patrné i v objemech: 

  • běžné produkty se pohybují v řádu desítek kusů měsíčně
  • některé položky mají prodeje v deseti tisících kusů

 

Základní charakteristika datasetu je shrnutá v následující tabulce:

ParametrHodnota
Počet produktů5 000
Frekvence dattýdenní
Nejdelší historie161 týdnů
Nejkratší historie2 týdny
Podíl období 1 - 6 měsíců1.7%
Podíl období 7 - 12 měsíců2.3%
Podíl období 13 - 24 měsíců13.1%
Podíl období 24+ měsíců92.8%
Průměrná velikost prodeje38.2
Průměrná velikost prodeje (bez nulových hodnot)89.4
Medián prodeje (bez nulových hodnot)5.0
Maximální prodej63 400
Podíl nulových prodejů57.3%

Z pohledu plánování jde o méně typický, ale velmi důležitý scénář – zejména pro sortiment s nízkou obrátkou. Pro lepší srovnání jsou výsledky v grafech uváděny v měsících, i přes týdenní frekvenci datasetu.

Výběr testovacích scénářů

Stejně jako v předchozím projektu probíhaly testy na podmnožinách datasetu rozdělených podle délky historie jednotlivých produktů.
Důvod je jednoduchý – délka historie zásadně ovlivňuje kvalitu predikce.

  • dlouhá historie (24+ měsíců)
  • střední historie (12–24 měsíců)
  • krátká historie (6–11 měsíců)
  • nové položky (1–5 měsíců)

 

Každý z těchto scénářů představuje jiný problém – a právě jejich kombinace s vysokým podílem nulových prodejů výrazně ovlivňuje chování jednotlivých modelů. 

Validace

Pro porovnání jednotlivých přístupů byla použita stejná validační strategie jako v předchozím projektu. Modely byly trénovány na historických datech a testovány na následujícím období. Tento přístup odpovídá reálnému použití, kdy predikujeme budoucnost na základě minulosti.

U tohoto datasetu je ale potřeba hodnotit dvě věci současně:

  • jak přesně model odhadne velikost prodeje
  • jak dobře dokáže rozpoznat, zda k prodeji vůbec dojde


Metrika proto kombinuje oba pohledy – penalizuje jak chybný odhad množství, tak nesprávnou predikci nulových prodejů.
Výsledná hodnota reprezentuje celkovou velikost chyby – čím nižší číslo, tím přesnější predikce. Důležité je ale vnímat ji v kontextu jednotlivých scénářů, protože rozdíly mezi modely se zde projevují jinak než v předchozím projektu. 

Typické chování produktů v datasetu

Analýzou datasetu jsem identifikoval, že hlavním problémem je vysoký podíl nulových prodejů.
Aby bylo možné grafy správně interpretovat, je dobré se zaměřit na několik klíčových aspektů:

  • jak často se objevují nulové prodeje
  • jak velké jsou nenulové hodnoty
  • zda se prodeje opakují pravidelně, nebo spíše náhodně
  • jak modely reagují na výkyvy – zda je zachytí, nebo mají tendenci je vyhlazovat

Právě kombinace těchto faktorů určuje, jak složitá je predikce daného produktu. Podívejme se nyní na konkrétní příklady, jak tato data skutečně vypadají v praxi.

Tyto příklady ukazují, že problém sparse dat není pouze ve vysokém podílu nulových prodejů. Jednotlivé produkty se liší nejen v tom, jak často se prodávají, ale i v tom, jak velké jsou jejich prodeje a jak stabilní je jejich chování v čase. U sparse dat přitom nejde jen o velikost chyby, ale o to, zda model dokáže správně odhadnout samotný výskyt prodeje. 

Tyto rozdíly se následně promítají i do výsledků modelů. Podívejme se, jak si jednotlivé přístupy vedly napříč scénáři. 

Výsledky pozorované napříč historickými scénáři

Po pochopení charakteru dat se můžeme podívat na to, jak si jednotlivé přístupy vedly v praxi. Stejně jako v předchozím projektu byly výsledky vyhodnoceny podle délky historie produktů. Na rozdíl od prvního projektu jsou v tomto případě rozdíly mezi přístupy výrazné napříč všemi scénáři. Deep learning dosahuje ve všech případech nejlepších výsledků, a to s poměrně stabilním odstupem od ostatních přístupů. V průměru snižuje chybu o více než 50% oproti statistickým metodám a o 40 % oproti machine learningu. 

Důvodem je charakter datasetu. Vysoký podíl nulových prodejů a nepravidelné chování produktů vytváří prostředí, ve kterém jednodušší modely nedokážou efektivně zachytit strukturu dat. Statistické metody i Machine learning mají tendenci zjednodušovat realitu – často se přibližují průměru nebo vytváří stabilní predikce, které ale neodpovídají skutečnému chování dat. Deep learning si v tomto scénáři vede lépe zejména díky schopnosti pracovat s informacemi napříč celým portfoliem a zachytit alespoň část skrytých vzorců v datech. Výjimkou jsou nové produkty (1–5 měsíců), kde se rozdíly mezi přístupy zmenšují.

V tomto scénáři hraje klíčovou roli nedostatek dat a vyšší míra náhodnosti. Predikce je zde obecně méně spolehlivá bez ohledu na zvolený přístup. 

V tomto projektu tak přestává být hlavní otázkou výběr modelu. Klíčová je samotná schopnost pracovat s nepravidelností a vysokým podílem nul. 

Shrnutí

Tento dataset ukazuje zásadně jiný problém než předchozí projekt – nejde o složitost vzorců, ale o samotnou existenci prodeje. Vysoký podíl nulových hodnot zásadně mění charakter predikce: modely zde neřeší pouze velikost, ale především to, zda k prodeji vůbec dojde.

 

Statistické metody i machine learning mají tendenci zjednodušovat chování dat a vracet se k průměru. Deep learning v tomto scénáři dosahuje lepších výsledků zejména díky schopnosti pracovat s informacemi napříč celým portfoliem a zachytit alespoň část skrytých vzorců.

 

Je zároveň důležité správně nastavit očekávání. U tohoto typu dat není realistické očekávat přesnou predikci jednotlivých období a to ani od pokročilých modelů. Prodeje se objevují nepravidelně a často bez jasného vzorce. Bez dostatečné historie a při takto vysoké míře variability je prakticky nemožné spolehlivě odhadnout, kdy přesně k prodeji dojde a v jakém objemu. To ale neznamená, že predikce nedává smysl. 

 

Hodnota modelu zde není v přesném odhadu jednotlivých týdnů. Je ve schopnosti snížit míru nejistoty při plánování. 

V dalším článku se podíváme na třetí typ datasetu, který kombinuje více dimenzí a přináší jinou vrstvu komplexity.

Subscribe for Latest News

You have been successfully Subscribed! Ops! Something went wrong, please try again.

Better forecasting thanks to AI

Business Info.

IČO: 172 28 018

DIČ: CZ 172 28 018

Data Box ID: ykwdnxf

sales@neebile.cz

Jičínská 226/17, Praha, Žižkov, PSČ 130 00 Česká republika

(910) 658-2992

© 2025 Vytvořeno DigitalWays