I Data Lake sono frutto della diffusione dei Big Data , in riposta alla necessità di realizzare strategie data-driven e anticipare alcune analisi, ricercando pattern nascosti all’interno di ambienti che raccolgono l’insieme dei dati a disposizione dell’organizzazione nella sua interezza. L’obiettivo è ottenere informazioni che migliorano la conoscenza del business aziendale e integrare anche dati tradizionalmente non ritenuti di interesse.
È con la diffusione di dati eterogenei per fonte e formato che si è diffuso il concetto di Data Lake, architettura che risponde alla necessità di avere un unico “contenitore” di dati aziendali raccolti nel loro formato nativo al quale i data analyst aziendali possono accedere in qualunque momento e per qualunque scopo.
Per la loro natura i Data Lake si “oppongono” ai Data Warehouse, dai quali differiscono soprattutto per le modalità di raccolta e di gestione dei dati. Come vedremo in dettaglio in seguito, i Dala Lake consentono un’archiviazione senza “infrastruttura” predefinita e sono maggiormente indicati per quelle realtà che sfruttano varie fonti per accumulare dati di ogni genere; il Data Warehouse, invece, offre una “struttura preconfezionata” all’interno della quale inserire i dati in maniera ordinata e prestabilita. L’approccio garantisce diversi vantaggi operativi e “amministrativi”.
Che cosa sono i Data Lake: la definizione
Il Data Lake è definito dagli Osservatori Digital Innovation un “ambiente di archiviazione dei dati nel loro formato nativo, fino a quando non è necessario dar loro una struttura”. Con questa modalità di gestione è possibile avere l’integrazione di elevate quantità di dati di qualsiasi formato e provenienti da qualsiasi fonte.
In particolare, i Data Lake sono grandi archivi di dati non elaborati all’interno dei quali le aziende possono conservare informazioni di ogni tipo e di ogni dimensione. Il tutto, senza che ci sia un’infrastruttura base che dia ordine all’archivio stesso. In questo modo, i data scientist (o data analyst) possono accedere ai dati nella loro “forma naturale”, all’interno di un pool di informazioni fluido. Da qui nasce anche l’analogia con il lago: esattamente come lo specchio d’acqua, i database così organizzati vengono alimentati da varie fonti, senza subire alterazioni di alcun genere.
Rispetto ad altre strategie di gestione dei Big Data, il Data Lake offre un approccio più “semplice”, ma proprio per questo motivo più versatile e capace di offrire maggiori “libertà di movimento” a chi è chiamato a selezionare e analizzare i dati. Per quanto possa apparire più “confusionario” rispetto all’approccio strutturato dei Data Warehouse, il “lago dei dati” offre maggiori potenzialità ed è indubbiamente più potente.
I vantaggi dell’approccio destrutturato ai dati
Come accennato, l’approccio “destrutturato” del Data Lake garantisce agli analisti – e alle aziende che decidono di adottare questo approccio di gestione dei Big Data – una lunga serie di vantaggi. Sia di natura operativa, sia di natura gestionale. Vediamo in dettaglio i tre più importanti.
- Ampliamento delle informazioni (e delle modalità di analizzarli). Raccogliendo informazioni da un numero potenzialmente infinito di fonti, i Data Lake ampliano in modo sensibile il numero di dati che gli analisti possono utilizzare. Allo stesso tempo, crescono anche le modalità di analisi che possono essere impiegate: trattandosi di dati non elaborati, non è necessario far riferimento a una struttura specifica applicata in precedenza.
- Riduzione dei costi di archiviazione e gestione. A dispetto di quanto si potrebbe pensare, i Data Lake consentono un notevole risparmio economico rispetto ai Data Warehouse. La maggior libertà garantita dai primi, infatti, dà modo di non dover definire in precedenza strutture (software e hardware) per l’archiviazione dei dati. Questo consente di organizzare e conservare le informazioni attraverso dei file system distribuiti, che permettono di abbattere i costi di gestione dell’intera infrastruttura deputata alla gestione dei Big Data.
- Riduzione dei tempi di analisi. All’interno del Data Lake, come detto, è possibile trovare i dati nella loro “forma naturale”, senza alcuna analisi che sia intervenuta ad alterarli. Ciò vuol dire che i “professionisti” dei dati potranno estrarli e lavorarli in tempo reale, senza che ci sia bisogno di un ampliamento e consolidamento delle informazioni. Ciò si traduce in una netta riduzione dei tempi sia nell’estrazione, sia nell’analisi delle informazioni disponibili nel “lago”.
Differenze tra Data Lake e Data Warehouse
Pur potendo sembrare simili, Data Lake e Data Warehouse sono estremamente differenti l’uno dall’altro. Sotto diversi punti di vista, infatti, si tratta di approcci antitetici alla gestione dei Big Data, che prendono le mosse da strutture e obiettivi completamente differenti l’uno dall’altro.
- Struttura dei dati. Come ripetuto più e più volte, nel Data Lake le informazioni non sono strutturate né elaborate. Al contrario, prima di poter essere immagazzinati in un Data Warehouse, i dati hanno bisogno di essere analizzati e strutturati, così da poter essere “inquadrati” all’interno di un telaio predefinito e “statico”
- Analisi dei dati. Alla differente strutturazione delle informazioni corrisponde anche una loro differente analisi. Nei Data Lake, l’analisi avviene in un secondo momento, ossia quando vengono letti ed estratti dal “flusso” (non a caso si parla di analisi “on read”); nel Data Warehouse, invece, l’analisi è preliminare, in modo da poterli “adattare” alla struttura preesistente (in questo caso si ha un’analisi “on write”)
- Finalità dei dati. Trattandosi di informazioni non elaborate, i dati vengono archiviati nel Data Lake senza alcuna finalità preimposta; le informazioni che confluiscono in un Data Warehouse hanno invece una finalità ben precisa e possono essere utilizzate solo per lo scopo pensato inizialmente
L’unico, vero, punto di contatto tra Data Lake e Data Warehouse sta dunque nella loro funzione originaria: in entrambi i casi abbiamo a che fare con un approccio alla gestione dei Big Data, che dovrebbe consentire all’azienda (o a chi si occupa di fare data analysis) di poter ricavare nuovi insight e informazioni rilevanti per le loro attività.
Nonostante si tratti di due approcci antitetici, Data Lake e Data Warehouse non si escludono a vicenda. Anzi, è probabile che in molti casi vengano adottati contemporaneamente, offrendo all’azienda un numero più ampio di strumenti.
Le applicazioni dei Data Lake
Tutte le applicazioni in cui c’è la necessità di analizzare enormi quantità di dati traggono vantaggio dai Data Lake. Ad esempio, questo approccio permette di conoscere meglio i propri clienti e definire strategie di vendita sulla base dei dati raccolti (profilo, storico degli acquisti, interazione con il call center, interazioni sui social media, ecc.). Analizzando tutte queste informazioni è possibile definire e offrire un’esperienza utente più coinvolgente, addirittura in tempo reale.
Oppure nei casi in cui si vuole monitorare l’accesso ai sistemi aziendali. Attraverso il Data Lake, le aziende possono analizzare più velocemente le anomalie e intervenire prontamente.
Il Data Lake, in sintesi, abilita le persone di business e le aziende a lavorare con un maggior numero di dati rilevanti, a realizzare meglio e più velocemente l’analisi dei dati, a prendere decisioni e ad agire in tempo reale e a generare quindi valore per il business.
Il mercato del “lago dei dati”
Un recente studio di Market Research ha fatto il punto sul giro d’affari del mercato Data Lake e ne ha previsto una crescita notevole nei prossimi anni: entro il 2032 dovrebbe valere globalmente, infatti, circa 92,9 miliardi di dollari. Con un valore di 13,9 miliardi di dollari nel 2022, il mercato vedrebbe una crescita annuale del 21,4% dal 2023.
La crescita del mercato dei Data Lake è spinta da diversi fattori chiave, tra cui:
- l’esplosione dei Big Data, che richiede soluzioni di storage scalabili;
- l’analisi avanzata, tra cui apprendimento automatico e Intelligenza Artificiale;
- lo storage “conveniente”, perché i Data Lake eliminano la necessità di trasformazione e modellazione dei dati prima dell’analisi;
- la varietà di dati che è possibile archiviare nel “lago dei dati”;
- la necessità di elaborare dati in real time e ottenere insight in tempo reale;
- il vantaggio competitivo derivato da strategie data-driven;
- l’adozione del Cloud, che migliora scalabilità, flessibilità e accessibilità.
Ma dallo studio emergono anche alcune sfide che ostacolano il mercato dei Data Lake:
- la governance dei dati, perché mantenere la qualità, la sicurezza e la conformità dei Data Lake può essere complesso e oneroso;
- la proliferazione dei silos di dati a cui si potrebbe arrivare senza una pianificazione adeguata;
- la privacy dei dati, che è necessario garantire all’interno dei Data Lake.