Técnicas de Diseño de Almacenes de datos – Dimensiones Conformadas

En mi último artículo de blog, les presenté algunas de las técnicas de diseño dimensional técnico avanzado más utilizadas. Durante las próximas semanas, proporcionaré detalles de cada una de las técnicas de diseño.

Dimensiones conformadas

Las dimensiones conformadas son aquellas dimensiones que se han diseñado de tal manera que la dimensión se puede usar en muchas tablas de datos en diferentes áreas temáticas del almacén. Es imperativo que el diseñador planifique estas dimensiones, ya que proporcionarán coherencia en la presentación de informes en todas las áreas temáticas y reducirán los costos de desarrollo de esas áreas temáticas mediante la reutilización de las dimensiones existentes. La dimensión fecha es un excelente ejemplo de dimensión conformada. La mayoría de los almacenes solo tienen una dimensión de fecha única utilizada en todo el almacén.

Dimensión conformada: Desafíos

  • Diferencias estructurales: en algunos casos, tendrá tablas de origen que contienen diferentes estructuras de tabla, entre las que se incluyen:
    • columnas adicionales o faltantes
    • columnas con diferentes tipos de datos
    • columnas con nombres diferentes que contienen los mismos datos o datos similares

Estas diferencias generalmente se pueden resolver fácilmente, pero en ocasiones esto puede ser difícil, ya que las diferencias deben ser resueltas y acordadas por los propietarios de los sistemas fuente. Sin resolver estos problemas, se implementarán soluciones alternativas que, con el tiempo, causarán problemas de mantenimiento e informes.

Tenga en cuenta los desafíos de combinar las dos tablas de productos a continuación. En la tabla PRODUCT_RETURN, la clave principal es PRODUCT_SKU, el campo PRODUCT_NAME se define como varchar(100), PRODUCT_DESCRIPTION se define como varchar(100) y PRODUCT_PRICE se define como number(5,2).

En la tabla PRODUCT_SALES, el PRODUCT_UPC se define como la clave principal. Afortunadamente, este campo coincide con el campo PRODUCT_UPC de la tabla PRODUCT_RETURN. El campo PROD_NAME se define como varchar (50), PROD_DESCRIPTION se define como varchar(150) y PROD_PRICE se define como number(7,2), todos los cuales son diferentes a los de la tabla PRODUCT_RETURN. La elaboración de perfiles de datos y la verificación de datos serán necesarias para garantizar que los datos entre las dos tablas coincidan. La tabla PRODUCT_SALES no tiene una columna para PRODUCT_CATEGORY. Una diferencia final es el PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT y PROD_END_DT. Estos campos se utilizan para capturar el historial de cambios de un producto que no es capturado por la tabla PRODUCT_RETURN.

Para resolver estos problemas y conformar las tablas, propondría la siguiente dimensión de producto conformada.

  • Diferencia de contenido: a veces, encontrará que el contenido almacenado en las tablas es diferente:
    • Los campos de texto contienen caracteres mayúsculas y minúsculas mezcladas
    • Las columnas contienen datos diferentes / faltantes

Los datos de la tabla PRODUCT_RETURN parecen coincidir con los de la tabla PRODUCT_SALES con algunas excepciones notables. Los nombres de los productos no siempre coinciden entre las dos tablas y los UPC se repiten en la tabla PRODUCT_SALES. La tabla PRODUCT_SALES no tiene SKU, por lo tanto, necesitamos asegurarnos de que los SKU de la tabla PRODUCT_RETURN sean confiables históricamente y se puedan usar como un atributo en la nueva dimensión. Antes de seguir adelante, estos problemas deben presentarse a los propietarios de los productos del sistema de origen para una resolución mutuamente aceptable de estas anomalías de datos.

RETORNO DEL PRODUCTO

VENTAS DE PRODUCTOS

Dimensión conformada: Tipos

  • Dimensión compartida: cuando una tabla de hechos comparte la misma dimensión lógica que otra tabla de hechos en otra estrella o data mart. La dimensión fecha es un ejemplo de dimensión compartida.
  • Conformados Acumulativo – es un subconjunto de datos de una tabla de dimensión y el subconjunto de datos que comparten la misma estructura y contenido. Un ejemplo de una dimensión acumulativa se puede ver en la dimensión mes que se muestra a continuación. Como puede ver, la dimensión mes se puede vincular a la dimensión fecha y se puede usar para “enrollar” datos de un solo día a un mes.

  • Dimensión superpuesta: son aquellas tablas y dimensiones de origen que se ajustan a través de algunos atributos superpuestos. En la mayoría de los casos, los campos superpuestos se pueden mover a una nueva dimensión para evitar superposiciones, crear un modelo más fácil de mantener y proporcionar la capacidad de rastrear los cambios en las relaciones a lo largo del tiempo a través de una tabla de hechos.

Dimensión conformada – Beneficios

Las dimensiones conformadas son la base sobre la que se construyen modelos dimensionales flexibles y escalables. Un modelador de datos debe planificar la conformidad de su diseño asegurando que las dimensiones clave de la empresa sean dimensiones conformadas que se puedan ampliar para incluir nuevos atributos con el tiempo. Los modelos dimensionales que carecen de dimensiones conformadas solo podrán responder preguntas simples para el data mart en particular para el que se construyó la dimensión. Cuando se diseñan correctamente, las dimensiones conformadas pueden y serán utilizadas por varios data marts, proporcionando al cliente una visión de sus datos que supera sus expectativas iniciales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.