MS Fabric - komplexní prostředí pro analýzu dat

Platforma Microsoft Fabric představuje novou éru sjednocené analytiky, která propojuje datové inženýrství, BI i AI v jediném prostředí. V rozhovoru s Adamem Kubákem jsme se podívali na to, co MS Fabric ve skutečnosti přináší a proč se o něm mluví jako o přelomové technologii.

 

MS Fabric

Jedno prostředí

Microsoft Fabric není jen další službou v Azure portfoliu. Je to sjednocená analytická platforma, která přináší do jednoho prostředí nástroje pro ingest, transformaci, modelování, vizualizaci a správu přístupů. Jak říká Adam Kubák, „už nemusíte přeskakovat mezi několika nástroji nebo integrovat různé služby, které spolu nativně nekomunikují. Fabric vše sjednocuje pod jednu střechu.“

Platforma je navržena jako SaaS (Software as a Service) a cílí na široké spektrum uživatelů. Využijí ji datoví analytici, inženýři, specialisté na umělou inteligenci i manažeři jako konzumenti reportů.

Oddělení výpočetní vrstvy (compute) a úložiště dat (storage) přináší výraznou flexibilitu a efektivitu. Výkon a kapacitu lze škálovat nezávisle, což umožňuje přizpůsobit systém aktuálním potřebám – například navýšit výpočetní výkon pro náročnější zpracování bez zásahu do datového úložiště. Výpočetní kapacitu lze navíc podle potřeby zapínat nebo vypínat, což pomáhá optimalizovat náklady.

Data zůstávají trvale dostupná, i když výpočetní prostředky nejsou aktivní. Díky otevřeným formátům je navíc možné k datům přistupovat i z různých nástrojů a technologií mimo primární platformu.

MS Fabric ilustrace

Lakehouse jako základ

V jádru platformy Microsoft Fabric stojí OneLake – jednotné úložiště dat, které propojuje všechny služby Fabricu do sdíleného prostředí. Funguje jako centrální datový lake, ve kterém jsou všechna data uložena a zpřístupněna napříč workspacy a službami. Ať už uživatelé pracují s Lakehouse, Data Warehouse nebo jinými komponentami, veškerá data technicky žijí právě v OneLake, což zajišťuje jednotný přístup i správu.

Jedním z typů objektů, které s OneLake přímo pracují, je Lakehouse. Ten rozděluje data do dvou logických částí: „Files“ a „Tables“. Do složky Files je možné ukládat libovolná data – strukturovaná i nestrukturovaná – ve formátech jako CSV, JSON, obrázky nebo audio. Složka Tables je naopak určena výhradně pro strukturovaná data ve formátu Delta Lake, tedy v otevřeném sloupcovém formátu Parquet s transakčním logem. Právě tyto Delta tabulky jsou napojeny na SQL Endpoint, který poskytuje možnost dotazovat data prostřednictvím jazyka T-SQL.

Je však důležité zdůraznit, že SQL Endpoint u Lakehouse je pouze pro čtení. Není možné v něm zapisovat data, upravovat schéma nebo využívat některé konstrukce známé ze standardního SQL Serveru, jako jsou například IDENTITY sloupce. Také rozsah podporovaných datových typů je omezený na to, co umožňuje Delta Lake. SQL Endpoint slouží především pro dotazování dat z Power BI nebo externích nástrojů v režimu DirectLake nebo DirectQuery.

Při vytváření nového Lakehouse navíc existuje možnost aktivovat funkci ve verzi preview, která přidává podporu schémat (schemas), podobně jako v relačních databázích. Díky tomu lze logicky oddělovat tabulky a lépe organizovat datové modely. Je však důležité mít na paměti, že volbu podpory schémat nelze po vytvoření objektu změnit – rozhodnutí je nutné učinit již při založení Lakehouse.

Fabric zároveň umožňuje vytvářet takzvané shortcuty, tedy zástupce na data z jiných zdrojů, bez jejich fyzického kopírování. Do Lakehouse je možné shortcutovat jak jednotlivé tabulky, tak celé schéma. V případě zástupce na celé schéma systém automaticky sleduje změny – pokud ve zdrojovém systému přibude nová tabulka, objeví se automaticky i v cílovém Lakehouse, aniž by bylo nutné konfiguraci ručně upravovat. To výrazně usnadňuje správu referencovaných dat a umožňuje snadno vytvářet konzistentní vrstvy nad sdíleným úložištěm.

Vedle Lakehouse nabízí Fabric také objekt typu Data Warehouse, který je určen pro scénáře vyžadující robustnější SQL kompatibilitu. I ten ukládá data do OneLake, ale využívá vlastní interní strukturu a je možné jej používat pro čtení i zápis. Funkcionalita Data Warehouse se stále vyvíjí a v současné podobě neodpovídá plné kompatibilitě se SQL Serverem – některé funkce jako IDENTITY nebo pokročilé indexy nejsou zatím podporovány. Výhodou však je podpora DML a DDL operací, tedy možnost provádět změny dat i schématu prostřednictvím SQL Endpointu.

Automatizace a AI: vývoj datových řešení bez zbytečné dřiny

Zajímavou oblastí je i využití AI a automatizace. Fabric postupně integruje copiloty, kteří pomáhají s tvorbou kódu, psaním DAX výrazů nebo generováním vizualizací. „Pro běžného uživatele Power BI to může znamenat dramatické zjednodušení práce,“ říká Adam.

Licencování, kapacity a podmínky pro využití Copilota

Fabric je možné vyzkoušet pomocí bezplatné zkušební verze, která poskytuje omezenou výpočetní kapacitu. Trial ale nepodporuje klíčové funkce postavené na generativní AI – Copiloty, agenty.

Licencování Fabricu je založené na odděleném účtování výpočetního výkonu (compute) a úložiště (storage). Úložiště se účtuje podle objemu uložených dat v OneLake, bez ohledu na to, zda jsou aktivně využívána. Výpočetní kapacita se licencuje prostřednictvím tzv. Capacity Units v rozsahu F2 až F2048. Rozdíl mezi jednotlivými kapacitami není pouze v dostupném výkonu, ale i v dalších technických parametrech – například v maximálním počtu paralelních dotazů, dávkových úloh, současných Spark jobů nebo API volání. Vyšší kapacity navíc umožňují kratší časy škálování, vyšší propustnost a menší pravděpodobnost, že dojde k dočasnému omezení výkonu (throttlingu).

Fabric při řízení kapacit využívá mechanismy burstingu a smoothingu. Bursting umožňuje krátkodobě překročit nominální kapacitu, pokud to infrastruktura dovolí – například při nárazovém zvýšení zátěže. Tento režim není garantovaný, ale u vyšších kapacit je dostupnější a efektivněji využitelný. Smoothing se stará o rovnoměrné rozdělování výpočetní zátěže v čase tak, aby se minimalizovalo riziko throttlingu a práce byla co nejefektivněji naplánovaná. Na nižších kapacitách je systém citlivější na špičky v provozu, což může vést k čekání ve frontě nebo k dočasnému omezení dostupných zdrojů.

Kapacita se přiřazuje na úrovni jednotlivých pracovních prostorů (workspace) a je možné používat více kapacit v rámci jednoho tenantu. Tím lze například oddělit vývojové, produkční nebo týmové prostředí podle výkonových a provozních potřeb. Microsoft rovněž umožňuje kapacitu rezervovat na období jednoho roku, čímž lze dosáhnout úspory přibližně 40–41 % oproti průběžnému měsíčnímu účtování.

Funkce postavené na Copilotech vyžadují samostatnou licenci Fabric Copilot Capacity (FCC), pokud je kapacita v rozsahu F2 až F32. V takovém případě je FCC nezbytná k aktivaci Copilot funkcí napříč službami. Pokud však organizace provozuje kapacitu F64 nebo vyšší, není FCC potřeba – Copilot je v tomto případě součástí základní licence, pokud jsou splněny ostatní podmínky jako regionální dostupnost a oprávnění uživatelů.

Kdy má smysl přejít na Fabric?

Microsoft Fabric není řešení pro každého. Pokud firma pracuje s menším objemem dat a má vystavěný stabilní Power BI reporting a vyhovuje ji stávající řešní, možná jí Fabric zatím nic zásadního nepřinese. Ale pro ty, kdo řeší větší integrace, potřebují jednotný datový základ pro různé týmy a plánují využívat AI nebo Machine Learning, je to silná karta do hry.

Výhody, díky kterým se řešení vyplatí

  • Jedna platforma – Fabric je SaaS platforma, kde je dostupný celý soubor datových služeb a není nutnost služby vytvářet separátně a starat se o jejich propojení
  • Efektivita práce – tým se soustředí na datovou práci a nemusí řešit problémy spojené s administrací, navíc vše je dostupné v rámci jednoho portálu.
  • Škálovatelnost – stejně jako i jiných cloudových řešení, lze snadno zvýšit nebo snížit výkon dle potřeby a samozřejmě finančních možností
  • Úspory – díky sdílenému výpočetnímu a datovému prostředí platíte především za rezervovaný výkon. Náklady v produkčním prostředí optimalizujete zejména správným nastavením a rezervování kapacity, zatímco vypínání výpočetních jednotek je vhodné spíše pro vývojová nebo testovací prostředí.

Na co si dát pozor?

  • Efektivní využivání kapacity – povyužívání ale ani přílišné zatížení není dobré. Pokud se přečerpá kapacita CU může dojít k zastavení některých služeb. Např. Databáze Fabric SQL může být nějakou dobu nedostupná.
  • Využívání Fabric Data Factory – určité typy ETL čerpají mnohem větší kapacitu (např. https://learn.microsoft.com/en-us/fabric/data-factory/pricing-scenario-load-1-tb-parquet-to-data-warehouse-stage)
  • Je to živé prostředí a dynamicky se vyvíjí, často není dobré spoléhat na nově přidané služby, které jsou jen v rámci “preview”, protože mohou obsahovat bugy.

Shrnutí

Microsoft Fabric přináší do datového světa v Azure klíčovou změnu: sjednocení technologií, datových vrstev i vývojového procesu. Pro týmy, které dnes lavírují mezi Data Factory, Synapse, Power BI a dalším arzenálem, to může být ulehčení i příležitost ke zrychlení vývoje.

Jak říká Adam Kubák na závěr: „Je to přirozený vývoj. Microsoft se tím snaží zpřístupnit datovou analytiku širšímu publiku a současně zefektivnit celý datový stack. A to je trend, který rozhodně stojí za pozornost. Přestože spousta věcí ještě není dokonalých, tak se platforma velmi rychle vyvíjí a toho si nemohou nevšimnou velcí hráči, nikdo si nechce nechat ujet rozjetý vlak.

Nejde přitom jen o další nástroj – je to filozofie, jak moderně přistupovat k práci s daty: zpracujte, analyzujte a vizualizujte data v jednom sjednoceném prostředí – toolkitu, podpořeném AI a se srozumitelným modelem nákladů. Pro týmy, které chtějí svou strategii a rozhodování postavit na datech, to může být jasný směr – méně komplexity a rychlejší výsledky.

Volně inspirováno rozhovorem v podcastu „Delfíni na vlnách“ s  Adamem Kubákem.

Související díl podcastu: Microsoft Fabric jako kompletní cloudová platforma pro datovou analytiku

Přihlaste se k odběru našeho Newsletteru!

Získejte pravidelný příliv zajímavých informací ze světa datových technologií přímo do své schránky.

Každý měsíc:

  • Aktuální novinky o inovacích v oblasti Business Intelligence a datových technologií.

  • Exkluzivní pozvánky na odborné akce, semináře a workshopy.

  • Případové studie a praktické příklady z reálných projektů.

  • Inspirace a tipy pro vaši datovou strategii.

Mohlo by vás zajímat

Číst další

Chcete nás kontaktovat?

Drop files here or
Max. file size: 100 MB.
    This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.