<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=270060846955571&amp;ev=PageView&amp;noscript=1">

Come cambia la gestione dei dati tra Big Data, Analytics, Business Intelligence e Data Lake

Ottobre 2018

Cominciare a utilizzare piattaforme analitiche per avviare progetti di Business Intelligence non vuol dire solo adottare nuovi strumenti di lavoro. È prima di tutto sviluppare un approccio diverso al lavoro, al modo in cui si archiviano, gestiscono e consultano i dati. Essenzialmente, bisogna garantire la disponibilità delle informazioni più fluida e rapida possibile, cercando di ridurre al minimo la ridondanza dei dati e la loro replicazione nel momento in cui vengono utilizzati per effettuare analisi diverse.

 


 

Perché il Data Warehouse non permette di pensare in “big”

 

L'espressione Big data non è peregrina e quel “big” sta proprio a sottolineare l'enorme quantità di dati che vengono generati in azienda (attraverso processi, acquisti, relazioni con i clienti, monitorando i macchinari) o che si possono raccogliere al di là del perimetro dell'organizzazione. Una mole di informazioni che si espande a ritmi vertiginosi, in maniera esponenziale e con una incredibile varietà di formati: la sfida sta proprio nel cercare di comprimere o ottimizzarne il volume, garantendo velocità di accesso a prescindere dalla variabilità. Sono appena state citate le famose “tre V” dei Big data (a cui qualcuno in effetti ne aggiunge una quarta, veridicità, e una quinta, valore), le dimensioni che li definiscono e che li circoscrivono, permettendo agli operatori che li trattano di misurarli. Muoversi lungo queste direttrici per alimentare la Business Intelligence e massimizzarne i benefici implica dunque una radicale trasformazione della logica con cui si immagazzinano e si richiamano i dati. Nei classici Data Warehouse, dove i record sono processati e archiviati in maniera strutturata, con formati predefiniti che permettono agli agenti di indirizzare la ricerca e la risposta, vige in pratica un meccanismo per cui a ciascuna applicazione o profilo utente possono corrispondere precisi dataset che contengono gli stessi dati magari necessari ad altre operazioni e che per questo vanno replicati, creando per l'appunto ridondanza oltre che rallentamento dei processi. Un sistema che continua a funzionare bene se si ha bisogno di interrogare il database per attività ordinarie, ma che risulta inefficiente nel momento in cui occorrono analisi più profonde, complesse (con l'incrocio di più sorgenti) e specialmente in real time o quasi.

 


 

La flessibilità e la rapidità del Data lake

 

Entra in gioco il concetto di Data lake, un modello di organizzazione del patrimonio informativo che trascende le logiche tradizionali e che abilita, di fatto, la condivisione simultanea di dati non strutturati, conservati nei formati nativi e corredati da tag e metadata che ne permettono l'identificazione. Il sistema è così in grado di trovarli e indirizzarli non tanto in funzione della loro tassonomia, quanto delle loro caratteristiche e dei contenuti che veicolano, risultando più pertinente, più veloce e soprattutto più efficace, non dovendo replicarli dataset per dataset.

È evidente che l'adozione di un approccio Data lake si rivela estremamente utile considerati i volumi crescenti di dati reperibili: utilizzando un Data Warehouse, tutte le informazioni da aggiungere vanno per forza di cose adeguate a quelle già presenti, modificando estensioni e convertendo formati. Mentre con il Data lake, i dati grezzi possono essere introiettati o anche solo consultati (se per esempio si trovano fisicamente in altri repository o nel Cloud) nativamente, senza bisogno di alterarli. La strategia si rivela particolarmente utile non solo per gestire una mole di informazioni in continua crescita, ma anche per assecondare le esigenze del business nel momento in cui occorrono risultati e risposte tempestive: basti pensare al lancio di un nuovo prodotto, per cui si rende indispensabile una rapida indagine di mercato, o alla verifica della bontà di una procedura da poco introdotta, per correggere in corsa la rotta in caso di stime errate.

Naturalmente un approccio di questo tipo non risponde alle necessità di qualsiasi organizzazione: il Data lake si rivela estremamente efficace solo in presenza di grandi quantità di dati che devono essere processati velocemente e in profondità. Bisogna quindi saper valutare caso per caso e in base alle proprie specifiche esigenze. Una sola cosa è certa: se si vuole giocare davvero la carta della Business Intelligence fondata sui Big data, l'adozione di questo sistema è indispensabile.