AI generátor anonymizovaných dat
Doba, kdy měli vývojáři datových skladů a obecně jakékoliv platformy integrující firemní data plný přístup ke všem produkčním datům společnosti by měla být dávno pryč. Kromě toho, že takový přístup znamená značná rizika, je často v rozporu i s legislativou a normami. Na druhou stranu je ale potřeba, aby vývojáři vyvíjeli nad daty, která dávají byznysový smysl a neobsahují zcela nesmyslné řetězce a čísla. Proto jsme se rozhodli vyvinout nástroj, který tyto výzvy překonává – Generátor smysluplných, ale zároveň anonymizovaných dat využívající generativní umělou inteligenci.

Jak se zrodila myšlenka
Na začátku stála jasná potřeba: vytvořit nástroj, který umožní:
- Bezpečný a efektivní vývoj interního datového skladu a jeho testování bez ohrožení citlivých dat.
- Demonstraci produktů, které sami interně používáme, klientům, což je nad “ostrými” daty nemožné.
Tradiční metody anonymizace většinou generují nesmyslná data, nad kterými reálná demonstrace nedává smysl a která jsou problematická i pro vývojáře. Proto jsme se zaměřili na vývoj řešení, které využívá sílu generativní umělé inteligence.
Jak naše řešení funguje
Náš generátor smysluplných anonymizovaných dat umožňuje uživatelům snadno vytvářet anonymizované datové sady pro testovací účely. Proces začíná načtením dat z CSV souboru nebo SQL databáze. Uživatelé mohou definovat parametry generování, jako je téma datasetu, požadavky na data a procento původních dat, která se použijí jako základ. Následně se vygeneruje náhled vzorových dat, který lze upravit dle potřeby. Po finálním doladění parametrů a dat se vygeneruje kompletní anonymizovaná datová sada.
Konkrétní postup:
Na úvodní stránce načteme data. Jako zdroj dat lze vybrat CSV soubor nebo SQL databázi. Při výběru CSV se nahraje soubor. V případě SQL databáze je potřeba zadat přihlašovací údaje a následně vybrat tabulku pro anonymizaci.

V sekci „Návrh dummy dat“ definujeme obsah dummy dat. Můžeme zadat téma datasetu, požadavky na data a určit, kolik procent původních dat se použije jako podklad pro generování. Standardně postačuje 5 až 10 řádků vstupních dat, nebo lze upravit parametry pro OpenAI API. Dále zvolíme proměnnou pro řazení datasetu. Kliknutím na „Generovat vzorová data“ získáme náhled výsledných dat. V tomto kroku je důležité upřesnit, jaká data chceme generovat, abychom zabránili „halucinacím“ AI. Nejlepších výsledků dosáhneme ruční úpravou a “doladěním” několika hodnot, nebo opakovaným generováním vzorových dat s doplňujícími informacemi. Jakmile data odpovídají představám, přejdeme na stránku „Finální dummy data“ a vygenerujeme celý dataset.

Pro úpravu konkrétní hodnoty rozklikneme buňku s hodnotou, upravíme a potvrdíme tlačítkem „Uložit upravená data“. Pro přidání nového řádku rozklikneme ikonu „+“ v zápatí dat, zapíšeme nové hodnoty a potvrdíme tlačítkem „Uložit upravená data“. V sekci „Finální dummy data“ nastavíme počet řádků finálního datasetu a zvolíme, zda použijeme vzorová data, nebo vygenerujeme nová. Kliknutím na „Generovat finální dummy data“ získáme kompletní anonymizovanou datovou sadu.

Co jsme se naučili a na co se nesmí zapomínat
Během vývoje jsme získali řadu nových zkušeností v oblasti prompt engineeringu, validace dat a optimalizace výkonu. Velkou část času zabralo ladění správné formulace požadavků, aby generativní AI generovala realistická a konzistentní data, ve kterých nebudou duplicity.
Vývoj aplikací s AI agenty vyžaduje více, než jen běžné chatování s umělou inteligencí. Klíčovým know-how pro prompt engineering je umění formulovat požadavky tak, aby AI generovala přesně to, co potřebujeme. To zahrnuje detailní definici vstupních dat, parametrů a iterativní ladění. Dále je nezbytná expertíza v data engineeringu a data science pro zvládnutí kombinace práce s daty, API a principy strojového učení. Samozřejmostí je validace dat pro zajištění kvality výstupů.
Proč k anonymizaci dat zvolit AI?
Využití umělé inteligence pro generování anonymizovaných dat přináší řadu výhod oproti tradičním metodám. AI dokáže generovat data, která jsou nejen anonymizovaná, ale také realistická a variabilní. To zajišťuje, že testování probíhá na datech, která věrně simulují reálné scénáře, což vede k přesnějším výsledkům. AI umožňuje celý proces automatizovat a generovat tisíce smysluplných záznamů, což je manuálně realizovatelné jen velmi těžko a s vysokými náklady.
Co řešení přinese
- Bezpečné testování a vývoj: Umožňuje testovat aplikace a analytické nástroje na datech, která neohrozí bezpečnost reálných informací.
- Urychlení vývoje: Automatizované generování dummy dat šetří čas a zkracuje vývojový cyklus.
- Flexibilita a přizpůsobení: Umožňuje definovat potřebná data pro různé scénáře.
- Dodržení legislativy: Anonymizace dat zajišťuje soulad s GDPR a dalšími předpisy.
A co je nejdůležitější, naše řešení je navrženo tak, aby bylo přístupné i těm, kteří nemají hluboké technické znalosti. Pro generování dummy dat není potřeba programovat ani složitě nastavovat parametry. Stačí zadat požadavky přirozeným jazykem a systém se postará o zbytek. V případě potřeby lze generování snadno upravit pomocí intuitivního rozhraní.
Pokud vás generátor anonymizovaných dat zaujal a chtěli byste o něm vědět více, neváhejte se nám ozvat, rádi si s vámi nezávazně popovídáme.
Autor: Jan Petr
Tento článek nevygenerovala generativní AI, ale napsal jej člověk na základě svých znalostí a zkušeností z praxe.