<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=270060846955571&amp;ev=PageView&amp;noscript=1">

¿Qué es el Data Lake?

Junio 2019

El Data lake es un método de trabajo que facilita y potencia el archivo, la gestión y el análisis del Big Data, utilizando datos proveniente de diversas fuentes, no homogéneneas, en formato original o en copia casi idéntica al formato original. En sustancia, el Data Lake es:

  • Un sitio de archivo de datos estructurales y no estructurales
  • Un instrumento de análisis del Big Data
  • Un recurso para acceder a datos, compartirlos y correlacionarlos para actividades de negocios.

Se trata de un método de trabajo nuevo, ya que históricamente los sistemas utilizados para almacenar, procesar y analizar datos, eran definidos y estructurados en base al utilizo final que se pensaba hacer de ellos. Esta estructura se realizaba a travès de “Data Warehouse”. En un sistema de tipo, Data Warehouse, empezando de un conjuntos de datos no elaborados, estos venían estructurados y procesados a travès de un plateamiento de esquema on write. En un primer momento viene definida la estrututura del database que recogerá todos los datos y después dichos datos vienen transcritos en el interior de una estructura predeterminada. En el momento que vienen extraídos para su análisis, volverán al formato predefinido. Un sistema del tipo Data Lake , sin embargo adopta un planteamiento de esquema on –read. Los datos son obtenidos en formato original , según la policy de normalización. Los diferentes tipos de datos seràn incorporados en el Data Lake segùn la modalidad, tiempo y reglas prestablecidas. Cada elemento viene asociado a un identificador y a un conjunto de metadatos que lo cualifican como tal. En el momento que es necesario tener acceso a los datos para encontrar un resultado concreto , el data lake puede ser cuestionado para obtener los datos necesarios. Es el aspecto del análisis que identifica los datos seleccionados de dónde sacaremos la información . La búsqueda no se limita a una base de datos determinada, para este tipo de análisis, sino que tenemos acceso a toda la informaciónexistente, cualquiera que sea la fuente que la ha generado. .


 

¿ Cuál es la ventaja que conlleva la adopción de un sistema del tipo Data Lake?

 

Reducción de gastos de archivo y espacio de almacenaje de archivos sin limites.

La administración de grandes cantidades de información a través de sistemas de database es onoroso e ineficaz. Un mismo paquete de datos puede ser replicado en numerosas ocasiones , en el caso que la estructura del database sea diferente para cada una de las aplicaciones de análisis dónde serán utilizadas. Las diferentes funciones de la empresa tienen necesidades de análisis específicas y se encuentran a la búsqueda insight distintos. Un esquema on-write obliga a anticipar los diferentes usos que se harán de los datos, de este modo conoceremos mano a mano que evolucionan los objetivos y las aspectativas, permitiendo que exigencias de análisis evolucionan con los mismos. Aumentar la capacidad de almacenar datos y actualizar la base de datos de forma continua es un proceso oneroso y lento. La aplicación de métodos de conservación de datos, en file system divulgados (HDFS en cloud), típicos de un sistema Data Lake hace que sea implícitamente infinito el espacio del archivo de datos.

Reducción de gastos en la consolidación de datos

Unir entre ellas las bases de datos , con estructuras diferentes es complejo y exige un esfuerzo ingente de data modelling. Asimismo, para frenar el peligro inminente de la rápida obsolescencia del modelo de datos, es necesario establecer con anticipación el nuevo conjunto de datos que presumibilmente se querrá integrar. Una tarea impensable cuando el incremento de datos a integrar crece continuamente.


Reducción del Time-to-market

Los proyectos de ampliación y consolidación de la base de datos, pueden requerir mucho tiempo y normalmente obstaculizan la respuesta sin demora del business. Cuándo la información está lista para ser analizada, puede ser demasiado tarde para sacar provecho de la misma. Por otra lado, la cantidad de datos no estructurados útiles para el análisis , puede superar en mucho a los datos estructurales. La oportunidad de acceder en tiempo real a las informaciones contenidas en los datos no estructurados, puede ser fundamental para el éxito de una actividad de marketing o segmentación de los usuarios.


Intercambio de las informaciones

Los análisis llevados a cabo sobre los datos pueden llevar a resultados que favorezcan la clasificación posterior de los datos e incrementar el valor de los mismos. Supongamos, por ejemplo de poder asociar un score de tendencia a la compra de cada usuario del cuál poseemos el perfil. En una estructura de tipo Data Warehouse, lo score quedará de exclusiva prerrogativa del personal que hace uso de la aplicación que lo ha creado. A no ser que se haga una copia de la información de dicha base de datos en otras aplicaciones, con la previa intervención sobre la estructura de la base de datos receptora y sobre el modelo de datos. El Data Lake, elimina la duplicación de las informaciones y permite tener en cuenta los insight obtenidos, compartiéndolos y haciéndolos accesibles a aquellas personas que tengan la autorización para su uso. Los análisis realizados sobre los datos pueden crear resultados que ayuden a calificar sucesivamente los datos e incrementen su valor.

 


 

¿Construir un Data Lake es la solución ideal para todas las empresas?

 

No. Crear un data lake es la solución ideal , para aquellas empresas que tienen la necesidad de hacer análisis cross-funcionales sobre sus Big Data. En las cuáles, existen procesos estructurados internos que garantizan la gestión de los datos y cuentan con personal cualificado, tanto para las tecnologías empleadas en la construcción de la plataforma, como para el análisis de los datos. Dichas empresas pueden ser seguidas por consultoras externas especializadas en las áreas en las cuáles sean carentes. La gran ventaja del Data Lake en comparación a un modelo Data Warehouse, es que permite conservar una gran cantidad de datos sin necesidad de estructurarlos en el momento de la compra, con independencia del uso que se harà. Solo será necesario un cierto nivel de organización del dato para que sea disponible y se pueda extraer información del mismo. El hecho que Data Lake sea capaz de almacenar datos sin límites, o casi, hace necesario el control de manera adeguada del acceso al mismo, tanto por obvios motivos de privacy , como por el hecho que normalmente solo el personal cualificado y competente ,data scientists y datas engineers, tienen los conocimientos para interrogar y extraer informaciòn correcta de dichos datos. Con anterioridad, a que los datos contenidos en un Data Lake puedan ser utilizados en un informe de BI o en una norma de personalización de contenidos suministrados en web, es necesario hacer una serie de pasos complejos. Sólo los programadores y Data Scientists expertos , serán capaces de garantizar la calidad del output. En sustancia, justo porque el universo de los datos a disposición es inmenso, es evidente la necesidad de saber moverse dentro de ellos, para poder apropriarnos de las informaciones útile. La experiencia en este campo no es algo que se puede improvisar. En la inmensa mayoría de las empresas , el 80% de los usuarios son "operativos": utilizan informes, verifican KPI por defecto o el spreadsheet en excel para analizar el conjuntos de datos relativamente simples. Para estos usuarios un sistema de tipo Data Warehouse es más que suficiente, siendo estructurado, fácil de usar y pensado para dar respuesta a situaciones concretas. Alrededor del 10%, 15% de los usuarios realizan análisis pormenorizados de los datos. A menudo, acceden a sistemas de fuentes que no se encuentran disponibles en la base de datos o compran datos de fuentes externas. Muchas veces son estos usuarios que crean los réports, que luego vienen utilizados por la empresa. Sólo un pequeño porcentaje de usuarios realizan un análisis pormenorizado de los datos; incorporando nuevas fuentes de datos, que incluyen datos no homogéneos y están capacitados para hacer una lectura de los mismo. En la mayoría de los casos, los usuarios no utilizan ni siquiera un data Warehouse. Trabajan sobre los datos a un nivel diferente, antes de ser estructurados, ofreciendo repuestas a cuestiones concretas. Los usuarios se hacen nuevas preguntas y buscan en los datos posibles respuestas, seleccionando aquellas que consideradan relevantes y descartando las hipótesis no confirmadas. Estos usuarios poseen conocimientos de análisis estadísticos y utilizan técnicas de análisis como el predictive modeling por ejemplo. El Data Lake, puede ser la fuente de datos que alimenta los informes a los que accede, el primer grupo o la base de datos a la cuál tiene acceso el segundo grupo. Pero es cuestionable y controlable sólo por parte de usuarios expertos, que no todas las empresas poseen o tienen la posibilidad de contar con ellos dentro de la plantilla.

 


 

Cómo se construye un Data Lake

 

Un Data Lake es una solución articulada, aprovechando tecnologías avanzadas y complejas de data storage y data analysis. Mediante la simplificación, podríamos proyectar los elementos de una Data Lake en cuatro categorías que constituyen las cuatros fases de gestión de datos:

  • Data Ingestion y Storage, consistente en la capacidad de obtener datos en tiempo real o en batch. La capacidad de mantener y acceder a datos estructurados, semi estructurados y no estructurados en el formato original con el que son creados y por un medio de un sistema de roles se pueda configurar;
  • Data Processing, consistente en la capacidad de trabajar los datos sin procesar, en modo que estén disponibles para ser analizados con procedimientos estándar. También ingenerizar las soluciones de extracción del valor de los datos, a través de procesos automáticos y sistematicos, que resultan de las operaciones de análisis;
  • Data Analysis, consistente en la capacidad de crear modelos para la extracción sistemática de informaciones de los datos, que pueden ser en tiempo real o a travès de procesos efectuados periódicamente;
  • Data Integration, consistente en la capacidad de conectar a la plataforma aplicaciones que permitan interrogar el Data Lake y extraer datos en formatos que puedan ser utilizarlos para fines concretos

Para crear un Data Lake no existe una receta mágica universal. Es necesario recurrir a un proveedor de tecnología, que sepa diseñar la arquitectura de la plataforma, en base a los requisitos exigidos por el cliente y equipándola de los componentes hardwares - software que permitan gestionar del modo más eficaz. Es decir, proporcionando el mejor resultado al mejor tiempo posible, sin desperdiciar recurso – las cuatros fases de cuya gestión de los datos hemos mencionado anteriormente.

Attachments