<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=270060846955571&amp;ev=PageView&amp;noscript=1">

Data Lake: tutti i vantaggi delle nuove architetture che permettono di gestire meglio grandi quantità di dati

Ottobre 2018

 

Le aziende che intendono orientare il proprio business e ottimizzare i propri processi facendo leva sui Big Data hanno tutto l'interesse a sviluppare, per lo storage, architetture Data Lake. In contrapposizione al modello tradizionale del Data Warehouse, infatti, il Data Lake offre una moltitudine di vantaggi che possono essere apprezzati da subito e che diventano sempre più evidenti man mano che cresce la familiarità dell'organizzazione con l'analisi dei dati. Sono quattro i principali plus riscontrabili nelle diverse fasi di ingestione, conservazione, ricerca ed elaborazione delle informazioni. Vediamoli.

 


 

1. I Data Lake sono capaci di introiettare i dati senza la necessità di scremarli

 

A differenza di un Data Warehouse, rispetto al quale è necessario selezionare e profilare preventivamente le informazioni da inserire in funzione dell'utilizzo che se ne dovrà fare, con un’architettura Data Lake ci si può permettere di acquisire tutti i dati, anche quelli che rispetto alle applicazioni in uso risultano superflui. In primo luogo perché non essendo rigidamente strutturate, in un Data Lake le informazioni occupano molto meno spazio di quelle immagazzinate in un Data Warehouse. Ma soprattutto, in ossequio alla logica che sottende l'analisi dei Big Data, perché tutti i record, anche quelli al momento apparentemente inservibili, possono in un secondo momento rivelarsi utili per meglio definire trend e fenomeni ancora non presi in considerazione.

 


 

2. I Data Lake accolgono tutti i tipi di dati, mantenendo inalterata la loro estensione

 

In un Data Lake tutti i file sono importati nel loro formato nativo. Mentre in un Data Warehouse ogni dato va ricondotto a estensioni che permettano al sistema di classificarli, ordinarli e renderli accessibili alle applicazioni, nelle architetture di nuova generazione la conversione avviene solo nel momento in cui i dati sono estratti per essere utilizzati. Questo si traduce in un enorme vantaggio quando si tratta di acquisire dati destrutturati, in particolar modo quelli provenienti da fonti in cui abbondano file multimediali, come i social network, o con formati non ancora perfettamente standardizzati, come quelli che contraddistinguono l'Internet of Things.

 


 

3. I Data Lake sono estremamente veloci durante i processi di analisi

 

Conseguenza del punto precedente, rispetto ai Data Warehouse i Data Lake sono più efficaci e soprattutto più rapidi nel dialogare con le piattaforme analitiche. La loro struttura è snella in quanto non ha bisogno di ospitare dataset specifici per ciascun tipo di applicazione (e quindi contenenti informazioni spesso ridondanti). L'architettura piatta che si ottiene attraverso lo “schema-on-read” fa sì che ogni elemento sia corredato da un identificativo univoco (composto da tag e metadati) che ne permettano l'immediato riconoscimento nelle ricerche. Il Data Lake può così essere interrogato anche rispetto a dati semistrutturati e destrutturati rispondendo alle richieste di risultati specifici a cavallo di partizioni logiche differenti e senza il bisogno di duplicare le informazioni, come invece succede nei Data Warehouse che danno accesso a più ricerche contemporaneamente.

 


 

4.I Data Lake sono più semplici da arricchire ed espandere

 

I Data Lake offrono infine una gestione semplificata delle varie operazioni di storage. Anche quando si rende necessaria l'espansione della struttura per acquisire nuove fonti, il Data Lake si contraddistingue per una duttilità sconosciuta ai Data Warehouse, che richiedono, per essere ampliati, specifici progetti di implementazione che rispettino le regole con cui sono stati creati. I Data Lake vanno invece incontro ai tempi sempre più rapidi delle imprese che sfruttano i Big Data per esplorare nuove opportunità di business e per ridurre al minimo il time-to-market di nuovi prodotti e servizi.

 

Concludiamo dicendo che la modifica di Data Lake è un processo sostanzialmente reversibile: mentre, come detto, l'ampliamento di un Data Warehouse implica un attento studio per preservare la struttura del repository, le soluzioni di nuova generazione permettono di aggiungere o eliminare dati senza consumare risorse e soprattutto senza dover applicare modifiche permanenti all'architettura di base.