Nell’ambito dell’apprendimento automatico i dati sintetici sono destinati ad assumere un ruolo fondamentale: gli algoritmi di Machine Learning hanno infatti bisogno di essere addestrati utilizzando enormi volumi di input, e le attività di raccolta e classificazione di dati reali di qualità necessari allo scopo possono risultare proibitive dal punto di vista sia dei costi sia delle risorse umane da impiegare.
Ecco perché aziende e ricercatori ricorrono con sempre maggiore frequenza ai dati generati sinteticamente, o synthetic data, su cui si cominciano a costruire archivi che attraverso la tecnica del Transfer Learning permetteranno di addestrare e persino di pre-addestrare i modelli di Machine Learning.
I dati sintetici costituiscono dunque una grande opportunità per chiunque intenda sfruttare l’approccio data-driven per supportare i processi decisionali o introdurre elementi di automazione all’interno della propria organizzazione. Ma, come ogni strumento ad alto potenziale, anche i dati sintetici devono essere compresi a fondo e adottati in modo corretto.
Cosa sono i dati sintetici
Andiamo con ordine e cominciamo col chiarire il concetto di dati sintetici: si tratta come accennato di informazioni non generate da eventi o interazioni reali bensì prodotte artificialmente.
Più nello specifico, i dati sintetici vengono “creati” attraverso appositi algoritmi a partire da input esistenti, e sono tipicamente utilizzati come sostituti di dataset di produzione o operativi per convalidare modelli matematici e per addestrare modelli di apprendimento automatico.
La tecnologia consente quindi di generare in modo rapido ed efficiente non solo la quantità desiderata di informazioni, ma anche le tipologie più adatte allo scopo, personalizzandole in base a esigenze specifiche.
Una definizione di dati sintetici
Per fornire una definizione più rigorosa, possiamo dire che i dati sintetici artificiali sono dati generati in modo artificiale riproducendo fedelmente le caratteristiche e i comportamenti dei dati reali, pur non contenendone le informazioni sensibili. È questo, sostanzialmente, che consente di scambiarli, analizzarli e utilizzarli per addestrare gli algoritmi in tutta sicurezza, senza cioè comportare rischi per la privacy degli individui. Il processo di generazione dei dati sintetici varia in base agli strumenti e agli algoritmi utilizzati e al caso d’uso specifico.
In cosa differiscono i dati sintetici dai dati reali
Per comprendere sul piano pratico quali sono le principali differenze tra dati sintetici e dati reali conviene forse ricorrere ad alcuni degli use case implementati dalle aziende del Finance, della Sanità e dello Sviluppo software, tre dei settori che hanno già cominciato a trarre significativi vantaggi dall’adozione delle tecniche per la produzione di synthetic data dotati di attributi simili a quelli dei dati – sensibili o regolamentati – reali.
Nell’ambito finanziario, i set di dati sintetici che simulano le informazioni relative ai pagamenti con carte di credito e di debito hanno l’aspetto e il comportamento dei dati tipici delle transazioni, e possono aiutare a smascherare le attività fraudolente: in particolare, i data scientist delle banche utilizzano i dati sintetici per testare o valutare i sistemi di rilevamento delle frodi e sviluppare nuovi metodi di indiduazione di casi sospetti.
Grazie ai dati sintetici, i professionisti che operano nel settore sanitario riescono invece a consentire l’uso pubblico degli input a livello di record, pur mantenendo la riservatezza dei pazienti.
I team DevOps utilizzano infine i synthetic data per i test e le attività di quality assurance del software, inserendo i dati generati artificialmente nel processo di verifica senza dover spostare i dati autentici dalla produzione.
Come si creano i dati sintetici
Occorre a questo punto chiarire attraverso quali tecniche si possono “creare” i synthetic data. Tra gli approcci più diffusi c’è quello che prevede l’estrazione di numeri da una distribuzione, un metodo che, pur non essendo in grado di catturare le intuizioni dei dati reali, può produrre una distribuzione dei dati che vi assomiglia molto. La modellazione basata su agenti prevede invece la creazione di agenti unici che comunicano tra loro. Questo metodo è particolarmente utile quando si esamina il modo in cui agenti diversi, come dispositivi connessi, persone o persino programmi informatici interagiscono tra loro in un sistema complesso. Utilizzando componenti di base precostituiti, i pacchetti Python facilitano lo sviluppo rapido di modelli basati su agenti e la loro visualizzazione tramite un’interfaccia basata su browser.
Uso di algoritmi di Intelligenza Artificiale
I dati sintetici possono essere prodotti anche attraverso modelli generativi, algoritmi capaci di dare vita a informazioni che replicano le proprietà o le caratteristiche statistiche dei dati reali. I modelli generativi utilizzano un insieme di dati di addestramento per apprendere i modelli statistici e le relazioni presenti nei dati e poi usano questa conoscenza per generare nuovi dati sintetici simili a quelli originali.
I vantaggi nell’utilizzo dei dati sintetici
Come detto, la principale applicazione dei dati sintetici è l’addestramento delle reti neurali e dei modelli di Machine Learning, ambito in cui gli sviluppatori devono poter contare su set di dati accuratamente etichettati che possono variare da poche migliaia a decine di milioni di elementi.
I synthetic data consentono per l’appunto di creare un’ampia e diversificata quantità di input per l’addestramento non solo contenendo la spesa e riducendo i tempi, ma anche proteggendo la privacy degli utenti e garantendo la conformità normativa in materia di trattamento dei dati sensibili.
Esistono però altri vantaggi nello scegliere di utilizzare i dati sintetici: sono prima di ogni altra cosa personalizzabili, il che significa che un’organizzazione può creare dataset in base alle proprie necessità, adattandoli a determinate condizioni che potrebbero non essere ottenute con i dati autentici.
Bisogna precisare che anche quando si ha ampia disponibilità di dati sintetici, non sempre questi sono etichettati. E, in particolar modo per le attività di apprendimento supervisionato, l’etichettatura manuale di una moltitudine di istanze può richiedere competenze specifiche, implicare comunque molto tempo e non di meno essere soggetta a errori. Per fortuna, nell’ottica di accelerare il processo di sviluppo del modello e garantire l’accuratezza di tag e label, è possibile creare dati sintetici etichettati.
Inoltre, proprio poiché i synthetic data non sono raccolti da eventi reali, adoperando gli strumenti corretti è possibile creare set molto più rapidamente, eliminando del tutto e operazioni manuali e automatizzando il processo di Data Annotation.
Protezione e pieno controllo dei dati
Quando si parla di plus dei dati sintetici, un capitolo a parte va dedicato alla privacy, alla data protection e al controllo che si può esercitare sugli archivi.
Quest’approccio consente innanzitutto ai data scientist di mantenersi conformi ai principali framework dedicati alla riservatezza dei dati, come l’Health Insurance Portability and Accountability Act, il General Data Protection Regulation e il California Consumer Privacy Act.
L’utente, del resto, ha pieno controllo su ciascuno degli aspetti relativi alle simulazioni. La persona che gestisce il set di dati può controllare la frequenza degli eventi, la distribuzione degli elementi e molti altri fattori. Anche i professionisti del Machine Learning detengono un controllo totale sui data set, risultando in grado di orchestrare il grado di separazione delle classi, delle dimensioni del campionamento e del livello di rumore nell’archivio.
Tipologie di dati sintetici
Esistono molti synthetic data, idealmente raggruppabili in quattro categorie principali:
- I dati sintetici strutturati rappresentano prodotti, individui o altre entità con i rispettivi attributi – sintomi, nel caso di un paziente, abitudini d’acquisto nel caso di clienti.
- I dati sintetici di serie temporali permettono di “rimpolpare” i dati rilevati sul campo da sistemi radar, sensori, sistemi IoT e veicoli a guida autonoma, per migliorare l’affidabilità e la sicurezza di questi sistemi evoluti.
- Le immagini sintetiche sono utili per addestrare i sistemi di segmentazione delle immagini e rilevamento di oggetti. Particolarmente utili nell’elaborazione precoce di diagnosi, sperimentazioni cliniche, ricerca farmacologica e addestramento di auto a guida autonoma.
- Il testo sintetico permette di addestrare modelli di elaborazione del linguaggio naturale (NLP) per attività di generazione di testo, traduzione, analisi del sentiment, stress test e rilevamento frodi.
Rischi e sfide nell’impiego dei dati sintetici: attenzione ai bias
Ovviamente esistono anche alcuni potenziali svantaggi. Uno dei rischi principali è quello dell’incoerenza dei dati sintetici, condizione che potrebbe verificarsi nel momento in cui si cerca di replicare la complessità del set di dati originali scontrandosi con l’impossibilità di sostituire completamente i dati autentici.
D’altra parte non si può dimenticare che gli esseri umani sono ancora coinvolti nel processo di sintesi dei dati: gli utenti, quindi, tenderanno inevitabilmente ad apportare nel processo bias cognitivi, e dunque non si può ignorare il potenziale rischio di pregiudizio insito in ogni operazione di generazione artificiale di nuovi data set.
Così le aziende utilizzano i dati sintetici
Ma prendendo le dovute precauzioni, i dati sintetici rifletteranno in modo appropriato i dati originali che si intendono sostituire o migliorare. Ed è sulla base di questa prerogativa che le imprese stanno sviluppando le proprie applicazioni, che vanno dalla fornitura di dati multimediali, sfruttati dagli algoritmi di grafica computerizzata e di elaborazione delle immagini per generare immagini, audio e video sintetici, all’addestramento di chatbot, algoritmi di traduzione automatica e analisi del sentiment.
Ci sono anche organizzazioni che puntano su synthetic data non strutturati, come immagini, video e audio, per adoperarli in campi come la computer vision, il riconoscimento vocale e la tecnologia dei veicoli autonomi. Oltre ai già citati use case sviluppati nel settore finanziario, si può infine accennare ai dati di produzione: nell’industria manifatturiera c’è già chi utilizza dati sintetici per i test di controllo qualità e la manutenzione predittiva.
Dati sintetici: le prospettive per il futuro
Grazie ai dati sintetici, dunque, sempre più aziende potranno colmare le lacune che caratterizzano i dataset reali, tenendo sotto controllo i tempi e i costi necessari ad alimentare i modelli di machine learning e Intelligenza Artificiale. Non stupiscono quindi le stime di Gartner sul fenomeno, indicate nello studio Predicts 2024: The Future of Generative AI Technologies: entro il 2026 ben 3 aziende su 4 utilizzeranno la GenAI nella produzione dei dati sintetici per le Business Analytics. Una previsione che conferma il peso che è destinata ad avere la tecnologia, sia sul piano economico che su quello funzionale, nei processi di approvvigionamento di dataset di alta qualità.
Il nodo della governance
Con i progressi negli ambiti dell’IA e della Data Science a cui stiamo assistendo, i dati sintetici assumeranno un’importanza crescente. L’interazione tra dati sintetici e nuove tecnologie permetterà di creare dataset ancora più realistici e sofisticati, ampliando ulteriormente gli ambiti di applicazione e utilizzo.
Utilizzando il potenziale di questi strumenti, i data scientist potranno esplorare nuove frontiere dell’innovazione, sviluppare modelli di intelligenza artificiale più robusti e affidabili, promuovere cambiamenti positivi nel mondo in cui viviamo.
La governance diventerà, però, un nodo cruciale da affrontare: le organizzazioni dovranno stabilire solide strutture di gestione e prassi codificate di verifica dei dati, oltre a chiarire i limiti e gli usi corretti dei dati sintetici. Sarà importante anche stabilire regole chiare per l’etichettatura e l’identificazione dei dati sintetici, per evitare abusi e malintesi.