Tomáš Mužík, náš Delivery šéf, v rozhovoru prozrazuje, proč je užitečné se datové analytice věnovat, kde lze narazit na možná úskalí i kam se bude její vývoj v budoucnu ubírat.
Vzhledem k obrovskému množství dat, které v dnešní digitální době společnosti generují, se přímo nabízí možnost extrahovat z nich užitečné poznatky. Data Analytics neboli datová analytika je obor, který s pomocí různých metod z dat odvozuje cenné informace a napomáhá efektivnějšímu fungování firem.
Pro jaký typ firem je datová analytika vhodná?
V podstatě se dá využít v jakékoliv firmě, protože dnes už neexistuje prakticky žádná, jejíž činností by nevznikla digitální stopa. Pokud bych měl jmenovat sektory, pro které má datová analytika svůj význam, zmínil bych rozhodně banky a pojišťovny, obecně tedy firmy podnikající ve finančních službách.
Zajímavá může být pro výrobní podniky, které kromě transakčních dat disponují technickými daty a ta se dají zpracovávat a vytěžovat – například mohou vyhledat stroje, u kterých se dá předpokládat, že budou mít v nejbližší době poruchu a opravovat je, vyměňovat díly dopředu, což samozřejmě vede k úspoře nákladů.
Vhodnými klienty jsou i všechny síťové společnosti, to znamená telekomunikační a energetické společnosti. Do výčtu přidám i veřejnou správa, která disponuje obrovským množstvím dat o občanech, respektive jejich životních situacích.
Jak efektivně zavést datovou analytiku?
Co se týče datové analytiky, v nějaké podobě ji má většina společností implementovanou. Prakticky se nesetkávám se situací tzv. zelené louky, tedy že by firma v datové oblasti nedělala nic.
Říká se: mysli ve velkém, začni v malém. To znamená, že musíte mít vymyšlený celkový koncept, ke kterému se chcete dostat. Datová analytika není primárně o technologiích, které použijete, ani o tom, jak postavíte datový model nebo jak často „nalíváte“ data, je o týmech a procesech, které jsou okolo dat postaveny a které jsou schopny vymyslet, co v datech hledat.
Kdo by měl mít hlavní slovo při implementaci?
Většina činností, která je v souvislosti s datovou analytikou realizována, je zaměřena na dvě oblasti. První je regulatorní agenda, primárně ve finančním světě a ve světě utilit. Druhá oblast se věnuje analýze chování zákazníka a je vedená snahou nabídnout zákazníkovi ty správné produkty, prodloužit dobu, po kterou zákazník s firmou kooperuje (například nakupuje), získat nové zákazníky a maximalizovat marži.
Hlavní slovo, pokud jde o regulatorní agendu, má samozřejmě management. Co se týče druhé agendy, je to spíše Sales nebo Customer Relationship Management.
Kde mohou firmy tzv. narazit při zavádění datové analytiky?
Jednoznačně dostupnost a kvalita dat. Existuje spousta frameworků, jak se má dělat Master Data Management nebo Data Governance, jak data čistit, jak je udržovat v rozumné kvalitě atd. Jenže málokdo má postupy zavedeny v takové šíři, aby nějakým způsobem pokrývaly veškerá rizika.
Všechny informace, které těžím, jsou natolik kvalitní, nakolik jsou kvalitní vstupní data. Náklady na správu dat jsou však poměrně vysoké a málokdo s tím počítá, když projekt datové analytiky rozjíždí.
Jaké benefity plynou z využívání datové analytiky?
Podle všech pouček kvalitnější rozhodování. Což je trochu klišé, takže uvedu něco konkrétního.
V oblasti zákaznických analýz je benefitem například výraznější zvýšení konverze při cílených marketingových kampaních. Pokud správně vybereš ze svého zákaznického kmene ty, které oslovíš, získáš lepší odezvu vyjádřenou konverzí, že si ti lidé skutečně Tvůj produkt koupí, než když proces neřídíš a střílíš od boku, náhodně.
Co se týče oblasti regulatoriky, tam jde o snížení všech možných rizik. Výsledkem je třeba lepší auditovatelnost.
Nedávno jsem slyšel o výborném příkladu optimalizace spotřeby energie v datových centrech. Pomocí unsupervised learningu (což je metoda, kdy počítači neřeknete, co má hledat nebo co se má učit, on sám přichází na nějaké vztahy prostřednictvím hluboké neuronové sítě) zjišťovali vytížení datového centra, počítač poté podle toho vypínal nebo nevypínal zdroje (počítače, disková pole atd.). Za krátkou dobu se mu podařilo najít ustálený model, který neměl vliv na kvalitu obsluhy pro klienty, ale cíleným vypínáním nepoužívaných zdrojů či zařízení snížil spotřebu energie o 30 %, což je u datových center poměrně významná věc a úspora, protože tam je spotřeba opravdu obrovská. To je zajímavý benefit.
Jak optimalizovat procesy pomocí datové analytiky?
Jak už jsem řekl, v dnešní době veškeré činnosti podniků zanechávají digitální stopu. Vezměte si třeba prosté doručení faktury. Víte, kdy Vám faktura přišla, že ji někdo někdy naskenoval a poslal dál, všechno má časová razítka. Na základě transakčních logů můžete zjišťovat, kudy se faktura nebo jiný dokument pohybuje, jestli je cesta optimální nebo se dá vylepšit. To je oblast, kde se zatím datová analytika tak úplně nevyužívá. Za mě je to do budoucna směr, o kterém má smysl uvažovat.
Jaké jsou trendy v oblasti datové analytiky?
Uvedl bych pokusy o využívání nestrukturovaných dat, přičemž reálných business casů zatím moc není.
Dále rozumné nasazení machine learning, což byl příklad regulace spotřeby v datovém centru. Na spoustu úloh se však strojové učení nehodí, protože chybí popis kauzality. Pro lepší pochopení uvedu příklad pojišťovny, která v hromadě pojistných událostí má nějaké podvody.
Vy je potřebujete identifikovat, předat je dál lidem, kteří konkrétní případy prošetří a rozhodnou: je to podvod, není to podvod. Ti lidé potřebují vědět, proč si myslíte, že je to podvod. To Vám ale neuronová síť neřekne, té to prostě vyjde. Myslí si to, ale neříká to proto, že by znala fakta, která na podvod jasně ukazují. Takže s trendy trochu opatrně a nasazovat tam, kde to dává smysl.
Za zmínku stojí samoobslužná datová analytika. Čím dál tím více se firmy snaží přenést jednak schopnost, jednak odpovědnost za datové analýzy na koncového uživatele, nenechávat to na svém IT oddělení nebo nějaké externí organizaci. Má to své přínosy, typicky rychlost zpracování, interpretace informací. Označil bych to slovem demokratizace Data & Analytics.
Nebo třeba internet věcí (IoT). Mám spoustu čidel, která se mi různě potulují po republice nebo po světě, data z nich soustředím na jedno místo a vytěžuji je. Pro tento případ je typický koncept cloudového zpracování, tedy trend Data & Analytics v cloudu.
Zajímavý je i crowdsourcing. Znám jednu firmu, která působí v oblasti půjček. Má zpracované modely kreditního rizika, které říkají, komu půjčit může, komu raději ne. Za dobu, co funguje, jsou tyto modely dobře odladěné. Tahle firma se chtěla posunout dál, tak použila právě zmíněný crowdsourcing.
Vypsala celosvětovou soutěž, samozřejmě honorovanou, o to, kdo přijde s modelem, který situaci „neplatičů“ nejlépe vystihuje. Přihlášeným zpřístupnila anonymizovaná data o těch, kteří platili, i o těch, kteří se splácením měli problém, zafungovalo to a opravdu se jí podařilo model vylepšit.
Co dodat na závěr?
Technologické nástroje jsou fajn, v oblasti datové analýzy se dá dělat mnohé, ale strašně záleží na invenci lidí, kteří s nimi v dané firmě pracují a na jejich motivaci.
Zažil jsem projekt, kdy se postavil úžasný datový sklad, který pokrýval v podstatě všechny datové zdroje společnosti. Realizovaly se první dvě agendy – controllignové sestavy a rekonciliace dat mezi účetním a provozním systémem a nějaké marketingové věci a tím to skončilo.
Lidé, kteří projekt rozjížděli, byli plní entusiasmu, bohužel když odešli z firmy, kontinuita se přetrhla. Vše je vždycky nakonec o lidech. Technologie a postupy se až jejich prostřednictvím mohou stát skutečně užitečnými.