Guide e how-to

Come utilizzare i synthetic data in azienda: tecniche per crearli, applicazioni e vantaggi



Indirizzo copiato

Non sempre i dati aziendali sono adeguati e disponibili: per questo, vengono oggi generati artificialmente data set che permettono di simulare scenari complessi e testare algoritmi, riducendo i costi operativi e migliorando i processi decisionali senza compromettere la riservatezza degli utenti

Pubblicato il 30 ott 2024



synthetic-data

I synthetic data, o dati sintetici, rappresentano la risposta più efficace al paradosso che caratterizza l’evoluzione degli scenari AI attuali.
Il lato oscuro delle applicazioni di Intelligenza Artificiale, nate per distillare e “monetizzare” tutto il valore di cui sono letteralmente intrisi i (moltissimi) dati che si generano quotidianamente in azienda, è che i modelli matematici su cui si fondano richiedono a loro volta un quantitativo enorme di dati per poter essere addestrati a dovere.

Record che non sempre sono disponibili in azienda. Inutilizzabili a causa di vincoli normativi posti a tutela della proprietà intellettuale, dell’identità o della privacy di figure come clienti e pazienti. O, invece, perché le casistiche di eventi rilevati in relazione al fenomeno oggetto di analisi sono esigui e non costituiscono un’evidenza statistica rilevante. Ancora, perché la raccolta di questi dati non è agevole, a causa di inefficienze nell’etichettatura e in altri passaggi chiave; non è economicamente sostenibile o è soggetta a vincoli di carattere etico – alcuni dati reali possono essere raccolti solo in particolari condizioni pericolose o insalubri per la salute delle persone, o possono riguardare soggetti fragili o comunque oggetto di tutele particolari.

I dati prodotti dalla GenIA offrono una risposta efficace a tutte queste limitazioni. Possono, infatti, essere impiegati per costruire o ampliare dataset nell’ambito di una varietà enorme di applicazioni per le quali sarebbe complicato usare dati reali.

Come si creano i synthetic data

I dati sintetici sono generati artificialmente riproducendo caratteristiche e comportamenti dei dati reali tramite approcci che li ricostruiscono, li ampliano o li creano ex novo.

Le 3 principali metodologie per crearli sono:

  1. Simulazione: modifica o creazione di dati in maniera controllata. Principali tecniche: mascheramento dei dati (data masking), campionamento casuale o stratificato.
  2. AI-driven: creazione di insiemi di dati artificiali che somigliano a quelli reali per la generazione di testi, video, tabelle e immagini. Principali tecniche: GAN (reti generative avversarie).
  3. Statistica: creazione di campioni artificiali per le minoranze o i casi rari. Principali tecniche: SMOTE (tecnica di sovra-campionamento delle minoranze sintetiche).

Di particolare rilevanza è la terza opzione: con la diffusione pervasiva della GenIA, infatti, le aziende hanno la possibilità di crearsi “in casa” questi dati, e utilizzarli in tutti i casi in cui i dati veri risultano indisponibili, inadeguati o inappropriati.

Il ruolo dei synthetic data nelle Business Analytics

Un recente studio di Gartner dal titolo “Predicts 2024: The Future of Generative AI Technologies” stima che entro il 2026 ben 3 aziende su 4 utilizzeranno le applicazioni di GenAI per produrre dati sintetici da utilizzare nelle Business Analytics a vario titolo. Un vero e proprio “boom”, se si considera che solo due anni fa, quando il “fenomeno” IA generativa iniziava a diffondersi, meno del 5% delle organizzazioni utilizzava la tecnologia in questione per queste finalità.

Un altro studio dello stesso analista intitolato “Generative AI For Synthetic Data” si spinge a valutare in termini percentuali i vantaggi del loro impiego in azienda: incrementi del 60% nell’accuratezza dei modelli e del 56% nell’efficienza dei modelli, riduzione del 30% dell’impatto dei bias.

Casi d’uso dei dati sintetici nei diversi settori

I dati generati artificialmente sono utilizzati in modo diffuso in alcune applicazioni in ambito sanitario, come la diagnostica per immagini e la radiologia clinica, per riprodurre scansioni realistiche di radiografie, TAC e altri esami, senza che sia necessario sottoporre il paziente a irradiazione.

Il loro impiego è utile anche nei modelli di valutazione del rischio, tipicamente nei settori finanziario e assicurativo, consentendo un rilevamento più efficace delle frodi e una stima più veritiera del merito creditizio.

Nel Marketing, è possibile utilizzarli per migliorare il tasso di previsione della domanda o di abbandono, così come per espandere le audience. Nel comparto industriale giocano un ruolo chiave nel rendere sempre più precisi gli scenari di simulazione dei gemelli digitali.

Un altro ambito d’uso dei synthetic data è lo sviluppo di nuovi prodotti, servizi e software, in virtù della possibilità di simulare scenari di mercato con numeriche consistenti senza dover investire in costosi try & fail, o senza dover replicare le condizioni ideali per gli stress test utili a verificare l’efficacia di contrasto alle intrusioni.

Anche il training dei grandi modelli linguistici (LLM, Large Language Model) e dei modelli generativi può essere ottimizzato grazie all’impiego di questi dati che avranno un ruolo di primo piano nel delineare gli scenari AI-driven in azienda. Utilizzando dataset del mondo reale per generare dati sintetici addizionali con caratteristiche statistiche congruenti e appropriate, è possibile infatti costruire modelli di Machine Learning e Deep Learning sempre più accurati e addestrarli per qualsiasi scopo, spalancando possibilità di innovazione finora impensabili.

Vantaggi dell’utilizzare i synthetic data

Tutte queste applicazioni dimostrano l’ampia versatilità d’uso dei dati sintetici che figura tra i principali plus dei dati generati artificialmente accanto a sicurezza ed economicità. L’impiego dei synthetic data, infatti, permette di scongiurare il pericolo di risalire all’identità di un individuo – un cliente, un fornitore, un paziente – o a informazioni sensibili attraverso tecniche di ingegneria inversa, riducendo il rischio di potenziali violazioni della privacy e garantendo la conformità a normative come il GDPR.

La raccolta dati, inoltre, può comportare spese elevate di raccolta e gestione – in termini di tempo, risorse umane, investimenti tecnologici –. I dati sintetici, generabili rapidamente, on-demand, senza dover investire in costose infrastrutture, assicurano l’accesso immediato a informazioni utili per diverse tipologie di analisi e progetti, contribuendo a migliorare l’efficienza operativa e la resilienza del business.

Il ruolo delle GAN

I synthetic data permettono di realizzare modelli efficaci di autoapprendimento, sia di Deep che di Machine Learning, da utilizzare per qualsiasi scopo. In quest’ottica, le reti generative avversarie (GAN) sono oggetto di sperimentazioni sempre più numerose per creare dati sintetici, addestrare i modelli generativi e riflettere ambienti reali preservando, al tempo stesso, l’integrità dei dati aziendali mantenendo sia la logica di business e sia i modelli statistici originari, garantendo la privacy by design.

Articoli correlati

Articolo 1 di 4