Delfíni na vlnách: Generativní AI a její dopad na způsob, jakým pracujme s daty!
V již 18. epizodě podcastu Delfíni na vlnách se tentokrát ponoříme do fascinujícího světa generativní AI a jejího dopadu na datovou analytiku. Hostem Jakuba Holubce ze společnosti dolphin consulting jsou dva odborníky na slovo vzatí: Ondřej Bronec – specialista na AI, a Michal Machata – BI architekt a inženýr. Probereme, jak generativní AI mění datovou analytiku, její využití v nástrojích jako Power BI, budoucnost datového inženýringu s AI, a jak ovlivní další vývoj těchto oblastí a jak se na práci s AI připravit.
Jakub
Dobrý den dámy a pánové, vítám vás u dalšího dílu našeho podcastu delfíni na vlnách, ve kterém si povídáme o tématech ze světa business intelligence a datové analytiky. Já jsem Jakub Holubec ze společnosti dolphin consulting a dneska si s mými hosty budu povídat o data engineeringu v kontextu generativní AI. Mými hosty jsou dneska Ondra Bronec, ahoj Ondro.
Ondra
Ahoj, ahoj.
Jakub
A Michal Machata, ahoj Michale.
Michal
Ahoj, dobrý den.
Jakub
Ondra u nás má na starosti v delfínech AI. Když to řeknu takhle velmi krátce a Michala Machatu už určitě všichni znáte. Michal je našim BI architektem a BI inženýrem a vlastně šťourá do všeho, co se business intelligence týká. Úplně základní otázku na úvod vám dám. Generativní AI je ohromným tématem a teď připomeňte mi, jak dlouho Ondro. Dokážeš si vybavit, kdy to opravdu, jako kdy začal ten fakt boom, kdy se o tom začalo hodně mluvit a kdy už to začalo být hodně zajímavé?
Ondra
Tak to hodně záleží asi na člověku. U mě by to bylo asi okolo 2018, kdy byl ten model, jakože belt a tak. Ale myslím si, že po většinu li lidí by to byl Chat GPT, když byl vypuštěnej, což jestli se nemýlím, bylo 22 chci říct.
Jakub
22. Takže rok a půl, možná 2 roky.
Ondra
No spíš 2 roky, to bude asi ono. To bylo někdy.
Jakub
Jasně, je to tak.
Michal
Já si myslím, že pro tu technickou veřejnost ano, ale pro ty běžné uživatele je to opravdu od začátku tohoto roku. Když se o tom začalo masivně bavit a vlastně všichni teprve jako postřehli, že tady něco takového existuje a že je nějaký chat GPT.
Jakub
Tak generativní AI, já to o tom mluvit takhle obecně, nebudu mluvit o Chat GPT, ale spíš o tom o tom konceptu. Bude mít podle mě určitě obrovské dopady na datovou analytiku. Jasně, to téma je podstatně širší, si myslím, k čemu se generativně dá využít. Ale za mě, jak si myslím, že posledních 20 let se v oblasti datové analytiky vlastně nic moc nezměnilo. Ty věci se dělají úplně podobně. Tak mi přijde, že ta generativní AI má po dlouhé době tendenci v tom oblasti udělat opravdu revoluci a mít na ni opravdu velký dopad. Kde ten dopad primárně vidíte? Ondro zkus na spíš takový obecnější úrovni. Jaké si myslíš, že to v té datové analytice bude mít využití?
Ondra
Tak určitě z hlediska nějakejch, řekl bych jednodušších úkolů z hlediska nějakejch základních, třeba statistickejch modelů, nebo i jakože analýzy. Když si člověk představí, že vezme prostě Power BI nebo jakejkoliv jinej nástroj a udělá tam nějakou takovou tu jednoduchou analýzu, podívám se na data, dělám víceméně exportovní analýzu, když to řeknu jako ze statisticky, když si tam dám nějaký základní, třeba nějakej prostě histogram nějaký náhledy a tak. Tak už v tuhle chvíli většina těchhle věcí jde udělat skrze AI, kdy normálně mi to vypíše jako. To všechno, takže tam určitě vidím velký, jakože nahrazení už v tuhle chvíli. Jo pak, co se týče i stavění řekněme. Všemožných řešení, a tak i kdykoliv potřebuju něco dostat skrze SQLa tak, tak už teď je Azure nějaká možnost nechat si po vlastně pomoct Copilotem, nějaký tý jakože veřejně dostupný verzi toho Azure a to myslím, že bude jenom pokračovat jakože přirozeným jazykem dávat ty instrukce spíše než exaktní programování bude víc a víc jak si to lidi vyzkoušej.
Jakub
U toho Power BI si to myslel tak, že tím normálním jazykem po něm člověk bude chtít, aby něco vizualizovalo a Power BI to bude vizualizovat, nebo s to máš jako ho, nebo to jde hlouběji.
Ondra
Ty omezení a řekneme, nebo spíš ty ten potenciál, to je hrozně těžký, teď říct, že jo, to je hrozně těžký. Můžeme se bavit vážně o Chat GPT, v tom Power BI je to nějak limitovaný, ty Copilot tyhle další. Takže kdo ví, že jo, jak přesně se to rozvine a tak až řekněme tam bude víc a víc uživatelů, který to budou využívat, ale i jenom v Chat GPT můžeme v tuhle chvíli zadat: udělej mi tenhle ten graf a on udělá tenhle ten graf, udělej mi tuhle nějakou jednoduchou analýzu. On udělá tuhle jednoduchou analýzu, ale je tam určitě i řekl bych nějaká nějaký vyšší level, jako že třeba najdi mi insighty v těchhle datech. Já třeba jsem takhle zkoušel analyzovat nějaký data o olympiádě. A tam normálně to bylo schopný najít věci ve stylu je tady vidět vliv světovejch válek, je tady vliv, je tady vidět vliv studený války. Představíte si prostě úplně triviální data, kde máte log a máte tam lidi, který se účastnili v těch hrách a jenom na základě toho schopný 100 agregovat a zjistit i tyhle insity řekněme z úplně jiný domény. Z toho, co se stalo v historii přidat je k tomu, to už je všechno možný teď jo.
Jakub
Takže je schopný poskytnout kontext, který by toho člověka jako nenapadlo, se ho na to explicentně zeptat. Jo, třeba v tom Power BI, nebo jakýmkoliv vlastně nástroji.
Ondra
Řekl bych, že to je ta jedna z největších sil, jakože AI je právě dodávání toho, jakože kontextu a dodávání řekněme. Většina těch modelů je vytrénovaná na obrovském množství dat, obrovským množstvím různých záznamů a všeho možného, co do toho ty společnosti byly schopný dát. A jedna z hlavních sil je to, že oni jsou schopný vzít tyhle informace, nějakým způsobem je transformovat a udělat ta relace, který třeba jsou i napříč obory a tak dále. A řekl bych, že v tuhle chvíli vidíme nějaký ty první vlaštovky toho, kdy právě tam člověk zadá nějaký data. Zeptá se, a proč tady od se prostě okolo vlastně roku 38 byla nějaká změna v tom, jaká tam byla ta účast ta on ti řekne. Jo, tak to bylo kvůli světovejm válkám.
Jakub
Michale, jak to vidíš ty jak ji vidíš ty dopad generativního AI na datovou analytiku a vlastně na to, co jsme doteďka dělali do teďka jsme integrovali data do datových skladů, data lakeu a podobně. Dělali jsme reporty a dělali jsme sbor. Dělali jsme nějaký analýzy, jak tady tohlencto podle tebe změní generativní AI?
Michal
Tak já se na to koukám víc toho uživatelského pohledu trošičku a ta generativní AI by těm uživatelům měla hlavně pomáhat. To znamená usnadnit tím práci a tím, že jak zmiňoval Ondra, vlastně jsme schopný zadávat instrukce slovně. To znamená říct jim ty instrukce, tak jsme zvyklí, tak nám to velmi ulehčí tu práci. A když bych to měl vlastně trošičku nějak jako rozvinout na nějakej třeba konkrétní příklad. Kdybychom chtěli zpracovávat nějaká data, což v analytice děláme, tak my je můžeme obohatit něčím. To znamená přidat tam nějakou informaci. Dřív jsme to dělali pomocí vzorečků, pomocí funkcí… Dneska tam můžeme zakomponovat vlastně tu funkci jazykovou. To znamená, že tam můžeme říct třeba, kategorizuj mi nějaká data a rozdělme to na kategorie ABCD, což dřív třeba bychom museli napsat funkci, ale nyní to můžeme udělat slovně a ono to opravdu jako provede. To znamená i v té automatizaci už můžeme používat toto.
Jakub
Já jsem tady na začátku zmiňoval, že bychom si měli povídat primárně o kontextu Generativní AI a data inženýringu. Protože proto, aby člověk byl schopný efektivně používat generativní AI, tak ji předpokládám, musí nakrmit nějakými daty. Do teďka jsme vlastně data integrovali proto, abychom je potom analyzovali, buď nějakými data science algoritmy, nebo abychom nad nimi vytvářeli reporty a dashboardy. To byl primární účel datových skladů a vůbec toho data engineeringu. Jak si myslíte, že se právě s tím rychlým rozvojem generativní AI změní tady tahle část. Jednak vlastně požadavky na to, jaká data budeme potřebovat pro tu generativní AI a tím i pak další související věci. Co si myslíš Ondro, že bude tím prvním. Abych to teda specifikoval třeba právě z pohledu toho, jaká data budou potřeba navíc, která jsme teď třeba moc nesbírali a podobně. A teď vlastně pro tu generativní AI to budeme využívat, je něco takového?
Ondra
Tak v první řadě je asi důležité si říct, co tím myslím, jak chceme, aby ta AI vlastně s těma datama pracovala, protože taková, jakože obecná otázka, kdyby trošku konkretizovala, mohl mluvit o nějakejch věcech, co třeba o nich něco vím. Asi hlavní dva způsoby, o kterých se budeme bavit je jednak nějaký trénování AI. To znamená, když chceme model, asi se nebudeme bavit vysloveně o vytrénování od nuly vlastního modelu spíše o nějakém doladění, o nějakém finetuningu, nebo i nějakým jako že future learningu nebo analýze. Tak to byla ta jedna část. My musíme ty data řekněme připravit pro ten model, když je bude trénovat, tam jsou nějaký věci, co se s tím potřeba udělat. Většinou řekl bych, že ty modely z toho, co já o nich vím, jsou docela robustní. Stačí jim nějaký freeform, jakože text, data. Alespoň pro tu obecnou, jakože Generativní AI, pokud text data je to, co nás zajímá. Když já jsem třeba pracoval s nějakejma obrázkovejma modelama, který rozlišovaly obrázky, tak víceméně ten prvotní vstup jsou jenom řekněme nějakej, jakože soubor, kde jsou ty obrázky a jsou tam nějak olabelovaný. Určitě si nemyslím, že tahleta část bude tak sofistikovaná, řekněme z hlediska toho, kde například uchovávat ty data, v jakým formátu a tak dále, dokud v rámci společnosti bychom měli být schopný tyhle ty data ukládat, to znamená nějaký textový dokumenty. Všechno, co takhle máme k dispozici. Určitě je někde ukládat. Pak řekněme přijde nějakej člověk, kterej udělá nějakou iniciační přípravu pro to, aby se to dalo trénovat. Pak ta druhá otázka. Jak to udělat, když jak chceme, jakože využívat, což myslím, že je trošku odlišný. Ta první věc, kdy ta vytrénujeme ten model. Ten model má ty znalosti a tak, tak ve chvíli jsme ho vytrénovali, tak pak už nemusíme. Není to úplně jakože přesný takhle říct, ale v zásadě nemusíme to tak řešit, co se pak v uvozovkách stane s těma datama. Ten model ty znalosti má a můžeme je z něj dostat. Složitější je, když bychom ty data chtěli nějaka accesovat. Věc, kterou možná asi posluchači by znali z chat GPT, je, že od nějaký doby může začít vyhledávat na internetu, kdy člověk řekne a on vyhledá na internetu, to je skrze nějakou funkci, kterou má dispozici, kterou jsme ho naučili, aby ji mohl zapínat. Pokud bychom chtěli s našima datama interagovat tímhle způsobem, ať už je to napojení se do databáze nebo přístup k těmhle těm dokumentům. Tam asi ta otázka nějakého data engineingu bude důležitější, protože potřebujeme, aby ten model byl schopnej accesovat tyhlecty data a ve formátu, kterej potřebuje.
Jakub
Michale z pohledu architektury BI je řešení. Zatím valná většina z nich byla stavěná na relačních datech, datové sklady a podobně obsahovaly primárně relační data. Jasně řada firem začala už s tím, že ta řešení dělala trošku jinak. Zakomponovala do toho jiná data, ale zase myslím, že tak 95% řešení je takových. Pokud budeme potřebovat ta data rozšířit o to, co říkal Ondra. To znamená, budeme potřebovat freetext, takže v zásadě si dokážu představit, že jsou to všechny dokumenty, které já někde ve firmě seženu. Budeme tam potřebovat obrázky a podobně. Jak se s tím popasuje ta současná architektura BI řešení a jak jí případně rozšířit, co s ní udělat, aby tady tohle podporovala?
Michal
Rozumím. Důležitý na začátek je říct, že čím víc dat pro trénování je k dispozici, tím lépe. Všechny tyhle ty velké modely, které jsou veřejné, tak jsou trénované na obrovských datech, na Big datech. Pokud chceme používat vlastní data, tak čím víc dat mu dáme, tím lépe. Jemu vlastně jakoby primárně ani nezáleží na tom, v jakém formátu my ty data dáme. Ono vlastně je bere strojově, on si je přetvoří do nějakých čísel, a s těmi pracuje potom na tom pozadí. Důležité je, abychom je měli, a tím pádem je musíme někam umístit. No a co se nabízí – Data lake. To znamená nějaké úložiště, kam se nahrávají všechny typy dat. Možné typy, ať už jsou to textové soubory, nebo můžeme mu vlastně dát k dispozici i tu databázi, z které může čerpat. Můžou to být obrázky, zvukové soubory, video soubory, na cokoliv si člověk vzpomene.
Jakub
Takže to pojede primárně, jestli to správně chápu na hadoopu, místo aby se používaly ty standardní relační databáze, je to tak? Protože dokumenty jako pdf, jako další textové asi do té relační databáze, předpokládám cpát nebudu, jakkoliv to možné je v bloobech a tak.
Michal
Je to možný a nedělá se to, ukládá se to obecně do Data laku.
Jakub
Dobře. Tam ještě Ondra zmiňoval, že je to tak, že se ty modely jednou naučí a potom vlastně už s tím člověk jako nemusí zase tolik dělat. Nicméně já myslím, že obzvláště v těch velkých firmách je to o tom, že ty dokumenty se průběžně mění a já budu ty modely muset pořád přeučovat, aby pracovali s novýma verzemi. Takže viděl jsi někdy v praxi, potkal ses s řešením, které mělo opravdu jako pěkně vyřešené. To, že třeba historizovalo dokumenty. Jako ať už na hadoopu nebo něco takového. Že dokázalo držet nové verze, mělo tam platnosti od do všechny. Tady tyhle ty věci, co známe z relačních dat běžně, ale u tady těchhle jsme ještě vůbec vlastně nemuseli moc řešit.
Michal
Rozumím tohle to většinou to když zmiňuješ ty dokumenty, tak to by měl řešit dokument management systém, což jsou nějaké systémy, které spravují dokumenty. Kdybychom vynechali teď specializované softwary, který se tím zabývají a udělali bychom to samé na Data laku. Jenom třeba vlastně pomocí nějaké metodiky, tak to můžeme udělat stejně dobře, jako to dělá ten dokument management systém, ale přiznám se, že jsem nic takového ještě v praxi neviděl.
Jakub
Takže tam, jestli jsem si to z toho teda vytáhl správně. Tady tam, kde se teď primárně používal datový sklad, tak tam myslíš, že bude větší příklon, teda k Data lakeum, Lake housum a tak, aby bylo možné právě mít nejenom relační data, ale vlastně všechna data pro to, aby si tím dala krmit ta AI.
Michal
Já bych nebyl tak striktní. Ty vlastně můžeš ten model trénovat z jakýchkoliv dat, ať jsou uložena kdekoliv. Ten princip je, že on si ty data načte a stejně si je někde v paměti zamíchá a pak s nimi pracuje. To znamená, my ho můžeme nakrmit i daty z databáze, nemusíme nutně data exportovat do filesystému. Můžeme mít část dat uložený na Data lakeu a část dat mu můžeme nahrát třeba někam jinam. Ve finále je důležitý mu říct, kde jsou, on si ty data potom při trénování načte a pracuje s nimi. Ale kdyby to mělo být jako ideální svět, tak samozřejmě, když jsou ty data uložená na jednom místě, tak je to potom jednodušší obecně s nimi pracovat.
Jakub
Ondro, já tady mám taky úplně jako elementární dotaz. Naprosto amatérský. Na jedné straně mám generativní AI, nějaký engine, který mi někde běží, ať už Chat GPT, Bard, prostě cokoliv. A na druhé mám někde uložené v Data lakeu nebo v různých systémech dokumenty, relační data. Jakým způsobem si je ta generativní AI bere a jakým způsobem probíhá vlastně to učení těch modelů?
Ondra
Takže se bavíme o tom případě, kdybychom z těchhle těch dokumentů, které mám někde uložených, chceme naučit tu AI?
Jakub
Ano, chceme dotrénovat modely.
Ondra
Jak moc technickou chceme odpověď?
Jakub
Středně
Ondra
Středně… V tom případě se pokusím zjednodušit ten případ. Bylo by to podobný, kdyby, kdyby to bylo něco jinýho, řekněme, že je to třeba textovej dokument. Máme nějakej textovej dokument a chceme, aby ta AI ho znala, mohla třeba zodpovídat otázky na základě toho textovýho dokumentu. Nějakej třeba způsob, jakým operujeme něco takovýho. Co většinou se udělá je, že si vezme ten dokument. Přičemž kdyby byl tedy v tuhle chvíli v databázi. Myslím si, že by ho mohla akcesovat i directly většinou. Mohli bychom to napsat. To znamená, kdyby to bylo v databázi, nemá problém, abychom tam dopsali, že si to najde třeba přes SQL, nebo že accesujete nějaký hadoob a tak dále. Co se stane, pak je důležité ve chvíli, kdy řekněme, dejme tomu, že ho dát do operační paměti, tak ona vlastně vezme ten dokument, a to trénování probíhá tak, že vezmeme tenhle ten dokument a uděláme takzvaný masky. Takhle takhle funguje obecně vlastně generativní AI, konkrétně transform modely a nepůjdu do většího detailu, protože jsme si řekli středně. Obecně to funguje tak, že my vezmeme ten dokument a většinou se to dělá víceméně náhodně. Takzvaně zamaskujeme slova, to znamená schováme nějaký slova, konkrétně jsou to tokeny, ale můžeme si představit, že jsou to slova. V tuhle chvíli jsme stáhli ten dokument do nějaké operační paměti, ať už jsme to udělali přes řekněme, že jsme šli přímo do té databáze, nebo to někdo předtím nahrál do nějakého souboru a jakmile tam dáme tyhlecty masky, tak ta AI projede ten dokument a snaží se tipovat, co je v těch maskách. Pak to vyhodnotíme, to se udělá několikrát, pak se pozmění ty masky a takhle si s tím dokumentem v uvozovkách bude hrát v nějakém počtu iterací tak dlouho, dokud v tom není velice přesná. Jakmile s tímhle je hotová, tak víceméně by měla znát ten dokument a vědět co v něm je.
Jakub
Mě by Michaely zajímalo, jaký si myslíš, že bude mít tak generativní AI dopad na způsob, jakým se BI řešení vyvíjí. Protože jak to postupovalo, ta historie podle mě. Nejdříve člověk napsal skripty, které braly data z bodu a bodu b, potom se začaly používat ETL nástroje. Takže to člověk nepsal jako skript, ale udělal grafickou, takovou cestu, kudy to jakoby protejkalo. To se ale taky neukázalo, to to bylo jednodušší, ale zase je složitější na zprávu, tak pak nastala velká doba i tělo frameworků, kde se hodně vlastně automaticky z metadat generoval kód. Já bych si představoval, že řeknu, milá generativní AI: Teď mi prosím tě udělej, Data lake tady z těhlec těch 5 systémů, já si na to počkám a za 3 hodiny mi AI řekne: Tak už je to hotový a už se to začalo spouštět a plnit a už nemusíš nic dělat. Jak daleko si myslíš, že od tohohlec toho jsme? Jak blízko si myslíš, že se k tomu přiblížíme tady k tomuhle k tomu modelu? A jaká bude realita?
Michal
Tak moc se díváš na scifi? Já bych řekl úvodem. Takhle daleko ještě rozhodně nejsme. Jednak si musíme uvědomit, že všechny tydlety modely pracujou na jazykovým principu. On se vlastně jakoby snaží doplňovat, vždycky to, co ty mu řekneš, tak on se snaží doplnit nejpravděpodobnější odpověď. To, že je tak dobrej, je vlastně jako malej zázrak. To, že ho využíváme dneska jako pomocníka, třeba při generování SQL kódu. Nebo ho používáme při vysvětlení SQL kódu a on to dokáže vysvětlit. Je skvělý. To, že by ti postavil celý systém, tak daleko on ještě není. A taky si musíme uvědomit, kdo s tím pracuje. Tak to asi jako ví, že když já mu dám nějaký velmi složitý technický zadání. Typicky to používám tam já osobně tam, kde už jako bych musel hledat na internetu, nebo nějak složitě vymýšlet řešení. Dám mu nějaký těžký složitý úkol a on se snaží ho vytvořit a víceméně na první pohled to vypadá, že to jako zvládl. Nicméně potom se ukáže, že prostě to řešení buď nefunguje technicky, že prostě on jenom jako zalhal a napodobil to a já jsem tomu jako slepě důvěřoval. A pak si ve finále ten kód musím napsat sám, upravit, anebo prostě ho napsat jako úplně sám, protože nefunguje a nebo, že ho napsal a někde dělal chybu. To znamená, že těch třeba případů, kdy on vyřeší, tu tvoji potřebu správně je třeba nějakých 60-70 %. Tudíž jako myšlenka toho, že by ti postavil samotné řešení včetně databáze, datové integrace, sám si našel zdroje, zanalyzoval je, vytvořil nad tím nějaký datový model a rovnou ti nad tím vytvořil i reporty, nebo ještě lépe, že by tě rovnou odpovídal na otázky, které jsi ještě nepoložil. Tak to je opravdu sci-fi dneska.
Jakub
Ale co jsem si z toho vzal… Myslím si, že pokud za mě jako za vývojáře dokáže udělat, možná teď ještě tolik ne, ale za relativně dlouhou dobu třeba 60% práce, že to vlastně znamená, že se vývoj tady těhlectěch analytických řešení o nějakých třeba 50-60 % zlevní a díky tomu na to budou moct dosáhnout i firmy, třeba menší velikosti, které pro které doteď to byla strašná rána.
Michal
Je možné, že se zlevní je možné, že se zjednoduší celý ten princip toho vývoje a také je možné, že se to nasměruje tak, že ten výstup z toho bude vypadat úplně jinak. Ty si tady zmiňoval třeba reporty nebo obecně reporting. Dneska jsme zvyklí na grafy. Grafy nám vlastně prezentují čísla a my jim musíme nějak porozumět. Do budoucna to může vypadat tak, že žádné grafy nebudou. A on bude vlastně naší řečí říkat ten výsledek. To je jako jedno z možných třeba posunů do budoucna, takže může to rapidně změnit vlastně celé to vnímání toho, jak to potom funguje.
Jakub
Já to chápu tak, že všichni, kdo teď s daty dělají, kdo dělají, data engineering a podobně budou do budoucna do nějaké míry využívat generativní AI ke své práci. Jak si Ondro myslíš, že by se měli posunout k tomu, aby toho byli schopni? Momentálně jsem ETL vývojář, který pracuje, buď umí skriptovat, umí i SQL, umí používat nějaký ETL nástroje. Jak bych se měl vzdělávat, o co bych se měl zajímat, co bych měl dělat, abych se posunul, aby mi ta generativní AI opravdu začala pomáhat v mé práci?
Ondra
Tak řekněme, dejme tomu dneska, ať je to jednodušší, protože samozřejmě jak i Michal naznačoval, jsou možnosti, co ta generativní AI pak bude umět v budoucnu. Ale řekněme dneska, co bych jako nějaký ETL inženýr měl vzdělávat, co bych měl zjistit. Začneme úplně tím nejtriviálnějším, což je tím, že bych si tu AI měl otevřít a měl bych zkusit s tím začít pracovat. Jsou určitý aspekty, kde to můžeme, kde to můžeme udělat. Ten hlavní je, kdykoliv potřebuji nějakej kód, tak si ho můžu nechat vygenerovat. Když mám nějakej kód, můžu si ho nechat okomentovat. Když mám nějakou věc, kterou si potřebuji vyhledat. Což se stává pořád, že jo, když člověk něco nějaký řešení dělá, můžu to dát do AI. Můžu říct, aby mi pomohla s tímhlectím konkrétním problémem. To je ta věc číslo jedna. Co se týče nějakého vzdělávání, tak věci, který nás určitě musí zajímat, je promt engenering, to znamená. Vědět, jak ty modely fungujou, jak z nich dostat maximum. Často právě, co zmiňoval Michal, to se stává pořád, že tam něco zadám a ono mi to dá špatnej výsledek do nějaký míry nebo někde udělá nějakou chybu a vědět, co dělat v tu chvíli. Jo, ve chvíli, kdy jsem ETL inženýr, dám si něco do AI modelu, on mi vyhodí špatnej výsledek, tak rozhodně mu rukama řeknu tím to končí to naopak, jako že skoro nikdy se nestane kromě nějakejch velice specifickejch modelů, který jsou hodně dobrý na určitý tasky. Tak skoro nikdy nedostanem úplně přesně to, co chceme u toho prvního promptu. Potřebujem to umět upravovat, umět s tím, pracovat, vědět dobře. Dostal jsem z toho tenhlecten výstup. Znamená to, že ta AI to ví jenom potřebuje trošku pomoc. Třeba nějakým příkladem a tak dále. To je asi hlavně, kde se kde se vzdělávat tuhlectu chvíli. Pak jsou nějaké nástroje právě různý jako Copilot a další, který můžu znát. Řekl bych, že asi kdybych měl vybrat, tak doporučil bych vlastně Chat GPT na nějakou analýzu dat, to může dělat právě tu exploitivní analýzu. Jak jsem říkal, to je další aspekt. A pak například Claude nebo další právě tu generaci toho kódu nebo vytváření těch komentářů. To bych asi začal. To bych byl ETL inženýr, co o tom nic neví.
Jakub
Michale, zeptám se tebe, protože ty jsi hodně u projektů, které začínají s budováním datových sklad a podobně z nuly. A vždycky, když se člověk pouští do takovéhle projektu, tak vlastně přichází k datům, který i když si firma myslí, že je zná, tak z velké míry si myslím, že nezná. A musí udělat nějaký základní profiling, nějak je prozkoumat a tak. Vidíš tady v tomhle tom nějaký přínos genetivní AI, jak by se dalo využít?
Michal
Určitě do budoucna to tak bude. Já s tím teď lehce jako experimentuji, ale zatím jsem se nesetkal, že by to někdo dělal jako už, že by to měl zažitý v tom svým procesu analýzy dát. Co třeba, kde se to hodí? Řeknu zase nějaké jako konkrétní příklad. Tak pokud analyzujeme nějaký systém, který neznáme, a teď tím myslím třeba ERP systém, ne vyloženě jako databázi, jako Data warehouse nebo tak. Ale třeba jako zdroj dat, typicky účetní systém. Když se do databáze podíváme, tak vidíme prostě nějaký set tabulek, který mají nesmyslné názvy, nesmyslné sloupce a my vlastně jakoby to hlubší analýzou a prozkoumáním, profilingem těch dat zjistíme, co v těch tabulkách, jako je. Pokud ten model datový není popsaný a to většinou nebývá, z 99%, prostě to ty firmy nedělají a nebo to mají někde u sebe a neposkytují ho. V tomhle tom nám může ta generativní AI dost pomoct. Protože já mu dám třeba seznam tabulek a poprosím ho, aby on mně řekl, co v těch tabulkách je. A protože on zná, nechci říct teď jako vlastně celý internet a už se někde o tom problému třeba diskutovalo. A už se ta tabulka někde zmínila, v nějakým kontextu, tak on je schopen, překvapivě dobře i úplně nesmyslné názvy tabulek převést do třeba obsahu těch tabulek. Takže tohle to je třeba jedna s pomocí, který jsou možný při tom data profilingu nebo obecně při analýze nějakýho zdrojovýho systému.
Jakub
Tak už se nám krátí čas, to je teď já přijdu s poslední otázkou. Já si myslím, že se budete hodně kroutit na ni odpovědět, protože to je strašně složitý na ni odpovědět. A protože názory tady v téhle té oblasti jsou strašně mně, přijde rozevřené od ohromného nadšení po velikánskou skepsi. A to je, když se podíváte na to, kde jsme teď s generativní AI, jak jí teď dokážeme využívat i pro data inženýring, jak teď vlastně v té datové analytice funguje? Kde si myslíte, že budeme za 2 roky? Ondro začneme u tebe a chápu, že je to strašně těžké, protože ty názory jsou od skepse, že to bude horší než dneska, co jsem taky četl, že ty modely se budou zhoršovat. Po takové ty už hurá, už to jako bude řešit všechno, nebude žádný reporting, nebude nic. Tak co si myslíš ty realisticky?
Ondra
Slyšel, já jsem slyšel velice zajímavej pohled od bývalého šéfa marketingu od nvidia, který říkal generativní AI, změní svět, ale neudělá to tak rychle ani efektivně, jak by investoři v tuhle chvíli chtěli. Jo, to je asi pohled, který mi to přijde, vystihoval nejlépe a řekl bych, že už v tuhle chvíli ta AI toho zvládne mnohem víc, než co si většina lidí uvědomuje a myslím si, že nejdůležitější pro všechny takhle, jakože uživatele je právě vidět, jak z toho dostat maximum, v kterých aspektech je dobrá. Specificky jedna z věcí, kterých bych řekl během 2 let. Podle mě hlavní věc, která se bude zkoumat a která se zjistí, je, že mnohem silnější vlastně pomáhat si AI, pomáhat lidem AI ve smyslu přidat tu AI k člověku. Ne úplně nahradit například někoho, kdo dělá databáze, ale přidat mu AI, naučit ho s ní pracovat a on bude efektivnější. On bude rychlejší. On udělá věci, který by nebyl schopnej udělat. Naučí se rychlejc s nástrojema, kterými nebyl schopnej pracovat. A tak dále. To si myslím, že hodně lidí bude zkoušet různé AI agenty a další věci, kde ten člověk úplně vypadne systému, protože to samozřejmě je krásná myšlenka, že nám počítač udělá práci a já nemusím nikoho platit, že jo. Ale myslím si, že při nejmenším v příštích 2 letech se hodně ukáže, že ten potenciál je strašně velkej, když tam necháme člověka v tom systému a dáme tu AI k dispozici a naučit ho jednak toho člověka, aby dobře komunikoval s tou AI a tu AI, aby dobře pracovala s těmi lidmi. Dát jim nějaké vhodné nástroje a tak dále.
Jakub
To mě přivedlo na ještě návaznou otázku, myslíš si, že větší přínos pohledu využití AI příštích 2 letech bude mít to samotné zlepšení té AI, nebo je ta hlavní věc, na kterou bychom se teď měli soustředit to, abychom opravdu ty lidi zlepšili v tom, jak tu AI využívat ke své práci? Co z toho myslíš, že bude mít větší přínos?
Ondra
Velice zajímavá otázka. Myslím si, že úplně největší je tak trošku kombinace těch věcí, a to, jak budou lidé používat tu AI, aby dostali všechny ty znalosti, které už teď v té AI jsou. Jo, tomu se říká, myslím si, že se používá „unhoblink“, jako nějaký termín anglický tedy. Kdy v podstatě mluvíme o tom, že ta AI má hromadu znalostí už tuhle chvíli v sobě, ale že jenom na základě toho, jaký prompt jí dáváme, že nedostává dostatečný kontext, tak není schopná tyhle znalosti získat. Například, když se AI dává na nějaký matematický problém, tak se většinou oproti tomu, co my třeba zkoušíme, tak se jí dává nějakej kontext. Dávají se nějaký složitý prompty, abychom dostali maximum znalostí z ní. Já si myslím, že jenom se snažit větší a větší modely, což se hodně těch firem snaží. Že to někam zas tak moc nepovede, když člověk i vidí některý ty odhady, kolik to bude stát, tak nevím, jestli je to ekonomicky, jakože viable. Ale myslím si, že je velkej potenciál, ať už to budou, jak to lidi budou používat, a nebo jak to budou lidi používat, aby dostali všechny ty znalosti, který tam už v tuhle chvíli jsou. Já si myslím, že to je mnohem větší ten, kdy teda se bavíme o uživatelích, o tom, jak oni to používají, a i o těch firmách a o těch lidí, který to programujou, aby oni dali ty AI ten framework, aby accesovala všechny ty znalosti, který už ni, jsou v tuhle chvíli. Jo to si myslím, že je mnohem víc powerfull. Taky osobně jsem zastánce toho, že trénovat a třeba na obrázcích, který generovala AI vede postupně k nějaký degradaci se to ukazuje, že to není úplně možná nejlepší způsob, ale uvidíme. Třeba se v tom úplně mýlím a zase rok budeme mít general AI, která jenom fungovala na základě toho, že se trénovala na obrázcích, co jiná AI vygenerovala.
Jakub
Michale, myslíš si, že rozvoj generativní AI a to, že to lidi a firmy budou čím dál více využívat, bude mít nějaký dopad na objem dat, který ve svých analytických řešeních mají a používají a případně jaký? Já vím, že to je úplně cucání z prstu. Jo, ale když vezmu, že teď spravuju primárně ta relační data a teď bych k tomu měl doplnit ještě všemožné obrázky, mohl bych k tomu doplnit videozáznamy a mohl bych do toho doplnit všechny dokumenty, o kolik se tak může zvýšit vlastně objem těch dat, kterej je potřeba spravovat. Co myslíš?
Michal
Těžko říct, to teď jako není v ní moci to jako absolutně odhadnout. Já si spíš myslím, že to myšlení těch lidí se změní jinak. My to říkáme všem klientům, že data, které mají, tak jsou ta jejich cennost. Tady vlastně oni poznají, že mohou najednou pracovat s daty, s kterými dřív nemohli. Mohou analyzovat obrázky, videozáznamy, mohou analyzovat nějaké textové konverzace, které jsou zaznamenané v nějakým jejich provozním systému. Hlasové konverzace, například vyhodnocovat sentiment. To už se dneska běžně děje, že jo, a na základě toho pak poslat třeba dárkový balíček tomu naštvanému klientovi a tak dále. Abych se vrátil zpátky k té myšlence, tak vlastně spousta firem si uvědomí, že může najednou analyzovat data, které dřív nemohla, tudíž jsou pro ně zajímavá. Tím pádem se někam musí schovat a z tohohle toho pohledu ano, myslím si, že si ty firmy začnou schovávat data, které doteď vyhazovaly a nepotřebovaly. Další nárůst bych viděl vlastně ve zpracování těch dat, to znamená, jak tady říkal Ondra, začnou si customizovat ty velké modely o ta svá data. Takže tím jakoby naroste trošičku, jakoby ten objem těch dat, které mají neřekl bych, že to je jako ten zásadní nárůst, a to bych z mého pohledu viděl asi jako všechno. Teď mě nenapadá nic dalšího, kde by ten nárůst mohl být. Ondro, chceš mě doplnit?
Ondra
Myslím si, že to tohle mnohem těžší otázka, než na kterou jsem odpovídal já, protože jakože vědět, jak ten nárůst bude, určitě bude velký. To bych asi řekl.
Jakub
Hezky jsi to zkusil přehodit na toho Ondru, dobrý pokus, ale nevykroutíš se kolikrát víc? Teď mám nějaký datový sklad, já jsem banka, mám v tom 10 terabajtů dat, takže skoro nic, je to jako pidi banka, tak když do toho zahrnu všechno, kolik toho budu mít?
Michal
A to sis opravdu vybral malou banku a zrovna jako špatný příklad, protože banky už jako dlouho dobu schovávají data, protože ví, že to je jako cennost.
Jakub
Data, ale dokumenty, a tak ve svých analytických řešeních podle mě ne jasně, že někde je mají. Jo to vůbec jako nepopírám, ale ne součást většinou těch analytických dat.
Michal
Tak řekněme třeba. Těžko, ale teď to opravdu jenom jako odhaduju jo, tak já myslím, že ten nárůst dat by mohl být třeba 4 až 5násobný. Ale řeknu k tomu proč. Obecně ty data narůstají lineárně. Ale o datech, o kterých se my teď bavíme, tak to budou většinou jako nestrukturovaná data, která zabírají mnohem více prostoru než jako texty, databáze a ta obecně jako strukturovaná data. Tudíž ten nárůst bude nelineární a ten třeba ten nárůst těch dat může být až třeba pětinásobný. Ale je to opravdu jenom číslo vycucaný z prstu.
Jakub
Super, stačí oceňuju že ses do toho odhaduju vůbec pustil a že ses k tomu postavil čelem. Čas nám vypršel. Takže já vám moc děkuju, děkuju i vám naši posluchači za to, že jste shlédli další epizodu našeho podcastu. Určitě, jestli vás zajímají další novinky zajímavosti ze světa datové analytiky, tak budeme moc rádi, když budete sledovat naše stránky na Linkedinu nebo odebírat náš newsletter, kde se s vámi snažíme dělit o tipy a vůbec zajímavosti, který se v téhle oblasti objevují. Děkuji vám pánové, děkuji Ondro.
Ondra
Taky děkuju, taky děkuju
Jakub
A děkuju Michale.
Michal
Taky díky, nashle.
Jakub
Na shledanou.
Ondra
Na shledanou.