Predikativní modelace v marketingu - Výstup z tučňáčího webináře

Se zářím jsme se rozloučili ve velkém stylu - naším prvním webinářem! Lucie Pezlarová, senior data scientist z Notina, spolu s naším Adamem Šilhanem rozebírali téma predikcí v marketingu. Vysvětlili, jak s nimi pracovat, jak si nastavit očekávání a kdy je vhodné části procesu predikce zautomatizovat. Pokud vás toto téma zajímá, můžete si díky Czech Online Expo přečíst hlavní výstupy z našeho webináře.

K čemu slouží predikce?

Dříve než s predikcemi začnete, ujistěte se, že je využijete. Jedině tak dává smysl se do problematiky pouštět a investovat do ní čas.

Dva nejčastější případy smysluplného využití predikcí:

máte plány do budoucna. Například chystáte slevovou akci nebo přicházejí Vánoce. Správná predikce vám umožní se adekvátně připravit a zajistit si dostatečné naskladnění, logistiku a celkové kapacity.
chcete si ověřit různé scénáře. Může vás třeba zajímat, zda je výhodné investovat do získávání nových zákazníků a navýšit tak jejich počet. Nebo budete zjišťovat, jestli váš byznys bude ziskovější s nižšími náklady a menším počtem zákazníků. Predikce tak pomůžou najít breakpoint, který byste nechtěli přesáhnout, nebo mohou nastínit očekávaný cashflow. Využijete je také jako pomocníka pro důkladnější přípravu na očekávanou akci.

Jak s predikcemi v marketingu začít a kam dál?

Je dobré si predikce nejprve vyzkoušet na malých případech a prozkoumat, zda vám něco přináší. Nemusíme hned ze začátku investovat do data science týmu nebo se učit s Prophetem. Úplně stačí začít s expertními predikcemi nad Excelem.

Je důležité si na predikce vyhradit čas a nedělat je za chodu. Zamyslete se nad tím, co chcete dělat, co asi výsledek ovlivňuje, jaké časové období je pro velikost byznysu základní a jakou mají data periodu. Například: chystáte příští měsíc slevovou akci a chcete vědět, co se stane, když vám sice přijde víc lidí, ale na produktech budete mít menší marži. Je pro vás potenciální akce výhodná, nebo spíš ne?

Další krok tohoto intuitivního modelování spočívá v určení základního časového období. Jak dlouhé základní časové období váš byznys vyžaduje? Jsou to dny, týdny, roky? Z vámi zvoleného časového období vyplývá perioda v datech. Pro měsíční data je to roční perioda, pro denní data obvykle týdenní perioda. Perioda je důležitá, protože při modelování predikcí musíte mít minimálně dvě periody z minulosti. Pokud chcete předpovídat nastávající týden, potřebujete data z posledních dvou týdnů a pokud modelujete příští rok, potřebujete 24 pozorování z minulosti, tedy z dvou předchozích period.

Při predikování příštího roku je důležité brát v potaz i trend, který může být pozorovatelný na delším období. Při predikování menších časových úseků nemusíte sezónnosti dávat tolik pozornosti, ale určitě nebude na škodu se podívat, jak měsíc nebo týden, který predikujete, vypadaly v minulosti, protože sezonalita má silný lokální vliv.

Při tvorbě predikcí si rozhodně nezapomeňte veškeré odhady sepsat. Ke všem předpokladům zapište i jejich odůvodnění (použité prediktory).
Zapíšete si například poskytnutou slevu, změnu marže, realizovanou kampaň. Zpětně si výsledek zracionalizujete vždycky. Přehledný a detailní zápis vám ale zejména do budoucna pomůže zpřesnit vaši intuici.

Pokud se chcete na vaší predikční cestě posunout dále, klidně můžete zůstat v Excelu. Není třeba vyhledávat složitější programy. Excel již disponuje spoustou AI doplňků, které umí rychle predikovat. Většina z nich dokonce pojme i trend a sezónnost v datech. Ať už zmíněným doplňkům věříte, nebo ne, vždy si je můžete jednoduše zkontrolovat, a to pomocí grafů. Vizuální podoba predikce vám skrze porovnání s historickými daty ukáže, zda model někam “neuletěl”, ale zůstal ve vaší realitě.

V Excelu dál můžete využít například tyto addony pro predikce:
timegpt
TIM forecasting

Neustálá iterace a dolaďování predikčního procesu vás může přivést k prvním úspěchům. S nimi můžete jít za vedením pro buy-in na získání další podpory. Třeba ve formě rozšíření týmu nebo finanční dotace na větší projekt. Pamatujte si však, že predikce samy o sobě nevedou k rozšíření prodeje, ale k zefektivnění nákladů, ať už finančních, nebo lidských.

predikce v marketingu - Adam a Lucie

Svět za Excelem

Při výběru modelů můžete jít klasickou cestou a zvolit pro časovou řadu statistický model. Statistické modely předpokládají trendy, sezónnost, případně nějaké větší cykly, zkrátka modely jedné časové řady. Tyto modely se vyvíjely a byly do nich přidané zpoždění a regrese, které počítají s tím, že zákazníci po určitém období přestanou být aktivní. Mezi tyto modely patří například ARIMA, exponenciální vyhlazování a zejména dekompoziční modely.

Machine learning posunul vývoj modelů směrem k rozhodovacím stromům, které na základě prediktorů, regresí nebo charakteristik vytvářejí segmenty. Následne vám tyto modely přiřadí každý jeden bod do segmentu a modelují na základě chování segmentu. Tyto modely nepracují s trendem samy o sobě, proto je třeba trend předem identifikovat a řadu o něj očistit. Příkladem je LGBM či XBoost model.

Neuronové sítě a generativní AI určitě znáte, ale věděli jste, že se tyto technologie zasloužily o velký vývoj na poli časových řad? K dispozici je mnoho více či méně složitých modelů, které se odvíjí od množství trénovacích dat nebo parametrů. Je však třeba stále počítat s tím, že model může trochu “uletět”. Můžete se seznámit s modely jako je LSTM, N-Beats či TimesNet.

U statistických modelů je jasnější, zda predikce sedí, nebo nesedí a podstatu modelu lze snáze pochopit. Zpětná vyhodnocování důležitosti prediktorů najdeme také u rozhodovacích stromů. U neuronových sítí se setkáváme s blackboxem a objasnění chování modelu bývá zpravidla složité, v některých případech až nemožné. Nicméně v dnešní době se čím dál častěji setkáváme s dobře vysvětlitelnými modely, které se snaží o přehlednost a jasné odůvodnění závěru, jak je tomu také u statistických modelů nebo rozhodovacích stromů.

prophet

Jak si nastavit očekávání?

Máte za sebou první větší pilot a získali jste nějaká čísla. Jak si ale zkontrolujete, že je váš výsledek směrodatný a ne jen dílo náhody?

Nejjednodušší je tzv. falešná predikce, tedy kontrola modelu na historických datech. Představte si, že je září a vy zkoušíte “predikovat” srpen. Do modelu tak vložíte data do července a zadáte vytvoření odhadu na následující měsíc. Výsledné predikce poté porovnáte s reálnými čísly. Byla predikce blízko realitě, nebo se naopak výrazně lišila?

Když si ladíte modely, zahrňte do nich známé prediktory. Například pokud na konci července víte, že v srpnu plánujete akci nebo je v měsíci speciální svátek / víkend, nesmíte tyto prediktory opomenout. Na druhou stranu, pokud vaše konkurence pořádala v určitém měsíci akci a vy jste o ní předem nevěděli, tak ji jako prediktor rozhodně nezahrnujte.

Při výběru benchmarku je důležité vědět, jak moc variabilní jsou data, se kterými pracujete. Variabilitu dat si můžete stanovit pomocí průměrné absolutní procentní odchylky. To znamená, že když máte průměrnou hodnotu 100 a 10% průměrnou absolutní procentuální odchylku, vaše data se průměrně pohybují mezi hodnotami 90 a 110.

Jako jeden z cílů predikce si můžete nastavit snížení této odchylky na polovinu. V tomto případě to znamená, že vaše data se budou pohybovat mezi hodnotami 95 a 105. Pokud se se svojí predikcí dostanete do poloviny průměrné odchylky, můžete predikci považovat za úspěšnou a ne jen za výsledek náhody. Samozřejmě, čím menší variability se vám podaří vašimi predikcemi dosáhnout, tím lépe (ideálně se přibližujete nule). Avšak není možné na nulu cílit. S určitou jistotou nikdo z nás neví, co se stane, jedná se o expertní odhad. Proto nezapomínejte na kontrolu skutečné odchylky. Jak moc vaše data reálně variují, nacházíte se tam, kde jste chtěli být a sedí vám i predikce?

Při stanovení odchylky je potřeba se řídit vnějšími vlivy a interními směrnicemi, pokud nějaké máte. Velikost odchylky se odvíjí od trhu, ve kterém se pohybujete. Ve finančnictví to v některých případech bývá kolem 1 %, u e-commerce se budeme často pohybovat u 10 % a u startupů či agresivně rostoucích firem může být odchylka daleko větší.

Musíme také zvážit, zda je pro nás nebezpečnější situace, kdy model nadhodnocuje, nebo podhodnocuje. Pokud je pro nás jedna ze situací horší, je dobré model zkřivit tímto směrem. Tedy pokud považujeme za nebezpečnější nadhodnocování modelu, můžeme se snažit o odchylku v rozmezí 90 a 102 oproti procentuálně přesnějšímu rozmezí 95 a 105.

Kromě absolutní procentuální odchylky je dobré použít jako benchmark lineární regresi - úplně jednoduchý model, který ale dává překvapivě dobré výstupy.

Předvídatelnost modelu a výhody lineární regrese

Čím jednodušší model, tím menší šance, že nás v průběhu něčím překvapí - třeba tím, že ze dne na den upraví odhad o 20 %.

Vzhledem ke své podstatě, lineární regrese vám ze stejných dat dá vždy stejný výsledek. U časových řad a rozhodovacích stromů už k nějaké průběžné variabilitě může docházet, největší je pak u těch založených na neuronových sítích. Variabilita v rámci předem definovaných hranic může být součástí těchto modelů, takže vám ze stejných dat nemusí vyjít stejné výsledky. Pokud se jim například dostane více vizibility, variabilita může být extrémnější, než byste chtěli. Lineární regrese vám tak může pomoci identifikovat slabá místa modelu a držet vás v rámci realističtějších predikcí.

Jak si připravit prostředí na běh modelu?

U výběru modelu záleží i na technické schopnosti lidského faktoru. Komplexnější modely se nejčastěji spouštějí pomocí programovacích jazyků R nebo Python. Existují však modely, které jsou user-friendly a po napojení dat běží na pozadí baterie modelů. Díky úvodnímu nastavení vám pomůžou bez většího zásahu z vaší strany. Tady je pak na místě položit si otázku, zda vám dává větší smysl investovat do toolu, nebo chcete model na míru a investujete raději do dodavatele služby, či vlastního týmu.

Pro vyzkoušení modelování doporučujeme:

Prophet - predikční model od Facebooku, už se dále nerozvíjí, ale je stále brán jako zlatý standard
Greykite - predikční model od LinkedInu, oproti Prophetovi umožňuje více úprav a nastavování, na druhou stranu je daleko méně přívětivý pro začátečníky

Jeden model vládne všem?

Dává smysl připravit jeden komplexní model, nebo spíše použít víc malých modelů?

U komplexního modelu vždy hrozí velké riziko. Z několikaměsíční přípravy jednoho velkého modelu se může stát černá díra, která pohltí kvantum času a peněz, z které nakonec nic nevzejde, protože model statisticky nedělá, co by měl nebo by finální provedení bylo příliš technicky náročné.

Malé modely nabízí relativní časovou nenáročnost, rychlé výsledky, přístupnost a možnost propojení více modelů.

Co automatizovat?

Automatizace při predikcích se dá provést ve třech úrovních:

sběr dat a jejich transformace,
reporting,
spouštění modelu.

Největší důraz bychom měli klást na první část. Můžete mít ve svém koutě nejlepší technickou podporu, za sebou hodiny plánování, ale pokud máte špatná data, všechny predikce jsou bezcenné. Data k vám mohou proudit z několika zdrojů v různé fázi připravenosti: data warehouse, ERP, Google Analytics, Google Sheets, někdo vám může informace nadiktovat, poslat mail, sdílet excelovskou tabulku… možnosti jsou nekonečné. Zautomatizování této části vám mnohokrát ušetří hodiny času a zvýší to přehlednost v datech, která sbíráte. Dobrá data jsou (nejen) pro predikce alfou a omegou.

Reporting je druhý krok procesu, který se vyplatí automatizovat. Když už model něco odpredikuje a je to v Excelu nebo nějaké databázi,je přínosné mít seznam zainteresovaných osob, kterým se tyto výsledky automaticky odešlou. Případně můžete mít jedno místo, kam se mohou všichni podívat.

Poslední krok v automatizaci je samotné spuštění modelu. Mnohokrát je to první věc, kterou se rozhodneme automatizovat, ale to by byla chyba. Většinu modelů nepotřebujeme spouštět každou hodinu, stačí nám často týdenní frekvence. Při spuštění modelu můžeme ověřit i to, že se vše chová, jak má. Modelování zahrnuje spoustu úvah a stálé komunikace, které je potřebné do predikcí přetavit. Automatizace spouštění predikce je kulminací dlouhé fáze vývoje, během které se model vycizeluje a upřesní. Vyjasňování ani komunikace před každým spuštěním už nebudou potřeba.

Pro shrnutí, jaký je tedy za nás u predikcí v marketingu rozumný postup?
Intuitivní predikce v Excelu -> jednoduché modely (lineární regrese apod.) -> modely založené na časových řadách / rozhodovací stromy -> postupné ladění modelů.

Pokud hledáte inspiraci na co predikce vůbec použít, tak Adam se o pár příkladech rozepsal na LinkedInu.

Webinář - Predikce v marketingu - Adam a Lucie

Doufáme, že jste si náš první webinář užili a také si z něj něco odnesli. Děkujeme Lucii Pezlarové za její čas a ochotu sdílet své znalosti s námi a naším publikem. Mějte oči na stopkách, série webinářů bude pokračovat.