Lo usano Yahoo! , AOL, Ebay, Facebook, IBM, ImageShack, Joost, Linkedin, Spotify, The New York Times e Twitter. Si chiama Hadoop ed è la tecnologia che supporta i Big Data e le analitiche di business. Perché? Perché il framework elabora e gestisce tutti quei dati non strutturati che vengono dal mondo digitale, collaborativo e sociale, ma anche dal quel mondo intelligente, comunicante e sensorizzato chiamato Internet of Things.
Hadoop, infatti, permette alle applicazioni di lavorare con migliaia di nodi e petabyte di dati. Una curiosità: l’elefantino che lo rappresenta viene dall’ideatore, Doug Cutting, che ha battezzato il progetto usando il nome del pupazzo preferito di suo figlio.
Che cos’è Hadoop e come funziona
La matrice di Hadoop è Apache, il linguaggio di programmazione è Java, il plus del framework è che supporta applicazioni distribuite con elevato accesso ai dati sotto una licenza libera.
Il principale componente è Hadoop Common, che fornisce accesso al file system supportato da Hadoop. L’Hadoop Common package contiene i file jar e gli script necessari per avviare Hadoop. Il package fornisce inoltre il codice sorgente, la documentazione e una sezione contributi che include i progetti della comunità Hadoop. Per capire meglio la sua struttura, Hadoop va visualizzato come un insieme di data nodi che, raccolti in cluster formano un HDFS, ovvero un Hadoop Distributed File System. La domanda che alcuni analisti si stanno ponendo è se sia possibile eseguire analisi Hadoop senza usare l’HDFS.
Per un’analisi HDFS lo storage deve essere collegato direttamente?
In una configurazione tradizionale, rispetto a un file system distribuito Hadoop, per eseguire le analisi Hadoop le risorse di storage devono essere collegate in modo diretto. Tuttavia, diversi professionisti IT si stanno chiedendo se, rispetto al progetto originale di Hadoop, possano esserci approcci alternativi. La risposta degli esperti è affermativa.
Quali sono le analitiche di Hadoop?
Ambiente utilizzato per l’elaborazione di business analytics, Hadoop rende disponibili enormi quantità di risorse di calcolo per elaborare grandi volumi di dati non strutturati. Questi dati possono provenire da una varietà di fonti, ma una delle più comuni sono i dati creati dai sensori come parte di Internet degli oggetti. Il valore dell’analisi di Hadoop è legata alla sua capacità di elaborare rapidamente una grossa mole di dati attraverso il File System Hadoop Distributed (HDFS). Il principio è il seguente: anziché trasferire i dati al sistema computazionale, HDFS fa l’azione opposta, elaborando direttamente i datinodi. La maggior parte degli ambienti Hadoop sono costituiti da gruppi di server, tutti dotati di sistemi di archiviazione locali.
I dati vengono caricati su questi nodi e la trasformazione di tale insieme di dati viene fatta in loco, attraverso una funzione nota come MapReduce. Ogni nodo elabora i dati in base alla richiesta e poi inoltra i risultati che vengono consolidati su un nodo master, il quale si occupa anche di memorizzafe tutti i metadati associati alla gestione dei cluster.
Alternative allo storage Hadoop
Rispetto alla tradizionale architettura di storage Hadoop, esiste un’altro tipo di configurazione che mette a disposizione un ambiente di storage condiviso a cui si connettono i nodi computazionali. Esistono alcuni provider che offrono questa modalità o attraverso plug in compatibili HDFS o sul modello di Amazon Simple Storage Service (S3). S3 è un file system nativo per la lettura e la scrittura di file su storage Amazon Cloud. Molti sistemi di storage ad oggetto supportano questa interfaccia, e, di conseguenza, un’infrastruttura Hadoop in esecuzione su un cloud privato locale anziché nella Amazon Cloud.
Tra i vantaggi di questa soluzione di file system è che Hadoop può accedere ai file che sono stati scritti con altri strumenti o sensori collegati a Internet. Al contrario, altre applicazioni possono accedere ai file scritti utilizzando Hadoop. Utilizzare un’infrastruttura di storage condiviso per archiviare i dati Hadoop, per altro garantisce una protezione più efficace dei dati e una migliore protezione del nodo master Hadoop.