Un Data Warehouse es un repositorio centralizado y unificado en el que se recoge, sin ningún tipo de transformación, el conjunto de datos de una empresa. Este depósito de datos puede ser físico o virtual; es decir, alojarse en un servidor o en la nube.
El primer Data Warehouse para empresas se puso en marcha a finales de los años 80 y el término fue acuñado por William H. Inmon, a quién se considera el padre del Data Warehousing.
Para qué sirve un Data Warehouse
Los Data Warehouse reúnen información proveniente de múltiples fuentes diferentes y se crean, fundamentalmente, para reunir, consultar y analizar esa ingente cantidad de datos.
Así que la finalidad principal de un Data Warehouse es transformar los datos brutos de una empresa en información útil y accesible para los usuarios. Además, guarda la información de manera segura y los datos son fáciles de recuperar y administrar.
De esta manera, facilita la toma de decisiones, lo cual redunda en una mayor competitividad y eficiencia.
Las ventajas de los Data Warehouse siguen creciendo gracias a algunas de las mejoras que han experimentado en los últimos años, como la posibilidad de realizar análisis combinados y la capacidad de personalización y contextualización. De este modo, han pasado de recopilar datos repetidos o entremezclados a almacenarlos de manera mucho más organizada, teniendo en cuenta su formato, su procedencia o su destino final y permitiendo filtrarlos y separarlos en función de necesidades o áreas específicas.
Otra ventaja de los Data Warehouse es su carácter histórico, ya que permite analizar diferentes períodos de tiempo y tendencias.
Cómo funciona un Data Warehouse
Un Data Warehouse funciona como un repertorio central y requiere de una arquitectura de almacenamiento de datos. Aunque se comunica y recopila datos de ella, el Data Warehouse suele estar separado o diferenciado de la base de datos de operaciones de la empresa.
Un Data Warehouse cuenta con varios componentes esenciales:
-
Un "load manager", responsable de la extracción de los datos
-
Un Warehouse central, que se ocupa de la gestión y la visualización de los datos
-
Interfaz de búsquedas, con la que interactúa el usuario final para acceder a los datos
La estructura de un Data Warehouse es de fácil establecimiento y a nivel técnico no implica gran complejidad, pero sí resulta especialmente importante definirla e integrarla correctamente con los procesos de negocio que puedan estar vinculados.
Por otro lado, los datos de los que se nutre pueden ser estructurados, semiestructurados o no estructurados. En cualquier caso, cuando se integren serán tratados y transformados. El cómo lo harán depende del tipo de Data Warehouse.
Tipos de Data Warehouse
Existen diferentes modelos de Data Warehouse, clasificados en función de su tipología, funcionamiento o componentes.
Algunos de los tipos de Data Warehouse más utilizados por las empresas son:
-
Data Warehouse empresarial o almacén de datos operativos (ODS)
-
Data Warehouse en tiempo real, integrado u offline
-
Data Warehouse básico, básico con área de ensayo/preparación o básico con área de ensayo y Data Marts
Diferencias entre Data Warehouse, Data Lake y Data Smart
Una de las principales dudas que os asalta a muchas empresas es la diferencia entre Data Warehouse y otros tipos de repositorios de datos que también existen en el mercado, como Data Lake o Data Smart.
Un Data Lake almacena datos de cualquier tipo o procedencia en su estado original, sin procesar. Por contra, los datos que almacena un Data Warehouse ya están estructurados, modelados y han sido previamente procesados.
Otro concepto muy relacionado es Data Smart. Se trata de un tipo o subconjunto del almacenamiento de datos que está orientado a un área específica.