Data Vault: Jak postavit flexibilní a auditovatelný datový sklad

Budování datových skladů bylo dlouho doménou dvou přístupů – Kimballova hvězdicového a Inmonova relačního modelu. Oba mají své výhody, ale když do hry vstoupí rychlé změny v datech, potřeba auditovatelnosti nebo neustále se měnící požadavky na připojování a odpojování datových zdrojů, mohou narazit na své limity. Data Vault nabízí jiný způsob, jak pracovat s daty. Nechává je v původní podobě a teprve nad nimi vytváří analytické vrstvy. Díky tomu usnadňuje integraci nových systémů, auditovatelnost i agilní vývoj.

Data Vault

Jak Data Vault funguje, kde se osvědčuje a na jaké výzvy je třeba se připravit? O tom jsme mluvili s Milošem Maryškou, odborníkem na datovou architekturu a analytické platformy a Felixem Espinozou, specialistou na analytické platformy a Business Intelligence řešení.

Jak Data Vault funguje? Tři stavební kameny

Data Vault využívá modulární architekturu, která rozděluje data do tří typů entit:

Huby obsahují hlavní business klíče (např. číslo zákazníka, produktový kód) a informace o jejich původu.

Satelity uchovávají atributy hubů (např. jméno zákazníka, adresa, cena objednávky) a historizují jejich změny.

Linky propojují huby mezi sebou a modelují vztahy (např. vazba mezi zákazníkem a objednávkou).

Díky tomuto rozdělení je možné přidávat nová data bez zásahu do existující struktury. Například když firma rozšíří svůj zákaznický systém o nové atributy, stačí připojit nový satelit místo úpravy stávajících tabulek.

Proč Data Vault dává smysl?

Mnoho firem řeší stále stejný problém – datové sklady, které rychle zastarávají a je složité je přizpůsobovat změnám. Data Vault tento problém řeší tím, že se nesnaží data hned třídit a transformovat. Nejprve je uloží tak, jak přicházejí (tzv. Raw Vault) a až později je zpracuje do podoby, kterou uživatelé potřebují (Information Mart). Než jsou data dostupná v Information Mart, prochází Business Vaultem, kde se aplikují tzv. businessová pravidla, pomocí nichž se zdrojová data modifikují na businessově srozumitelnou formu reflektující požadavky uživatelů.

Flexibilita a rozšiřitelnost

Miloš Maryška k tomu říká:

„V klasickém datovém skladu musíte při změně datového modelu přestavět tabulky a přepsat ETL procesy. V Data Vaultu jen přidáte nový satelit nebo link a máte hotovo.“

To znamená, že Data Vault se hodí tam, kde se často mění systémy, například u firem, které připojují nové databáze, nakupují jiné společnosti nebo pravidelně upravují své datové modely.

Auditovatelnost a historizace

Další silnou stránkou je auditovatelnost. V mnoha zdrojových systémech dochází při změnách hodnot k přepsání původních dat, což znamená, že stará verze zmizí. V tradičním Data Warehouse obvykle sice nedochází k přepisu, ale data jsou často nahrazována novými verzemi, což ztěžuje úplnou rekonstrukci historie. V Data Vaultu ale nikdy nic nepřepíšete – každá změna se zaznamenává jako nový záznam.

Felix Espinoza dodává:

„V Data Vaultu se žádná data neztrácejí. Pokud někdo upraví zákaznickou adresu, neprovede se update, ale přidá se nový záznam do satelitu. Tím máme kompletní historii změn.“

Tento přístup je ideální pro regulovaná odvětví, kde je nutné mít auditní stopu (např. bankovnictví, zdravotnictví) nebo tam, kde je historizace dat klíčová pro analýzy.

Kde může Data Vault narazit?

Složitější reporting

Raw Vault není optimalizovaný pro analytické dotazy. Pokud by analytici pracovali přímo s Raw Vaultem, museli by spojovat velké množství tabulek, což by bylo neefektivní. Proto se nad Raw Vaultem a Business Valutem obvykle buduje další vrstva – Information Mart, kde se data transformují do podoby, kterou uživatelé očekávají (např. hvězdicového schématu v dimenzionálním modelu).

„Pokud bychom nechali uživatele dotazovat se přímo na Raw Vault, ztratili by se v něm. Information Mart je zde právě proto, aby se data zpřístupnila ve srozumitelné formě,“ vysvětluje Maryška.

Větší počet objektů

Data Vault pracuje s více tabulkami než tradiční přístupy. To může znamenat složitější správu a náročnější údržbu. Proto se v praxi často využívají automatizační nástroje, jako jsou VaultSpeed, DBT nebo Data Vault Builder, které generují modely a ETL procesy.

„Bez automatizace by správa Data Vaultu byla složitá. Tyto nástroje pomáhají udržet strukturu přehlednou a minimalizují manuální práci,“ říká Espinoza.

Jak Data Vault zapadá do moderní datové architektury?

Data Vault není univerzální odpověď na všechny problémy datových skladů, ale v určitých scénářích poskytuje výhody, které tradiční modely nenabízejí. Největší přínos má tam, kde se očekávají časté změny ve zdrojových systémech, je potřeba zachovat kompletní auditní stopu nebo kde je datový sklad budován agilním způsobem.

Jak shrnuje Maryška:

„Nejde o to, že by Data Vault byl lepší nebo horší než jiné přístupy. Je to jiný způsob, jak přistupovat k datům, který se vyplatí tam, kde tradiční modely narážejí na své limity.“

Pokud je cílem firmy rychlá integrace nových datových zdrojů bez zásahů do existující struktury, Data Vault poskytuje modulární a přizpůsobivý základ. Naopak v prostředích se stabilním datovým modelem, kde je prioritou rychlý reporting nad předem definovanou strukturou dat, může být jeho zavedení zbytečně komplikované a méně efektivní než tradiční přístupy.

Espinoza dodává:

„Data Vault není kouzelný nástroj, který automaticky vyřeší všechny problémy s daty. Funguje dobře tam, kde dává smysl modularita, historizace a flexibilita. Pokud ale firma přesně neví, proč ho chce použít, může si zadělat na zbytečné komplikace.“

Pokud firma očekává časté změny v datech, Data Vault se může stát praktickým řešením pro udržitelné a flexibilní zpracování dat.

Závěr

Data Vault přináší alternativní přístup k návrhu datových skladů, který umožňuje snadnou rozšiřitelnost, auditovatelnost a lepší zvládání změn ve zdrojových datech. Dává smysl tam, kde tradiční modely narážejí na své limity, zejména pokud je nutné zachovat kompletní historii dat nebo integrovat nové systémy bez zásadních úprav architektury.

Jeho nevýhodou může být složitější reporting a vyšší počet tabulek, což vyžaduje dobrou správu a často i automatizaci. Není tedy vhodný pro každé prostředí, ale tam, kde je potřeba dlouhodobá flexibilita, může být cenným řešením.

Přihlaste se k odběru našeho Newsletteru!

Získejte pravidelný příliv zajímavých informací ze světa datových technologií přímo do své schránky.

Každý měsíc:

  • Aktuální novinky o inovacích v oblasti Business Intelligence a datových technologií.

  • Exkluzivní pozvánky na odborné akce, semináře a workshopy.

  • Případové studie a praktické příklady z reálných projektů.

  • Inspirace a tipy pro vaši datovou strategii.

Mohlo by vás zajímat

Business Intelligence už není jen doména velkých korporací, postupně se dostává i do menších firem a pomáhá firmám ve vyhodnocení obchodních výsledků, efektivnosti, plánování strategie a obchodních cílů. Jaké jsou tedy dnes trendy v BI a kam BI směřuje v nejbližších letech?

3 min
Číst
Číst další

Chcete nás kontaktovat?

Drop files here or
Max. file size: 100 MB.
    This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.