Techniques de conception d’entrepôt de données – Dimensions Conformes

Dans mon dernier article de blog, je vous ai présenté certaines des techniques de conception dimensionnelle techniques avancées les plus largement utilisées. Au cours des prochaines semaines, je fournirai des détails sur chacune des techniques de conception.

Dimensions conformes

Les dimensions conformes sont les dimensions qui ont été conçues de manière à ce que la dimension puisse être utilisée dans de nombreuses tables de faits dans différentes zones thématiques de l’entrepôt. Il est impératif que le concepteur planifie ces dimensions car elles assureront la cohérence des rapports entre les domaines et réduiront les coûts de développement de ces domaines grâce à la réutilisation des dimensions existantes. La dimension date est un excellent exemple de dimension conforme. La plupart des entrepôts n’ont qu’une seule dimension de date utilisée dans tout l’entrepôt.

Dimension conforme – Défis

  • Différences structurelles – dans certains cas, vous aurez des tables sources qui contiennent différentes structures de tables, notamment:
    • colonnes supplémentaires ou manquantes
    • colonnes avec différents types de données
    • colonnes nommées différemment contenant des données identiques ou similaires

Ces différences peuvent généralement être résolues facilement, mais cela peut parfois être difficile car les différences doivent être résolues et acceptées par les propriétaires d’entreprise des systèmes sources. Sans résoudre ces problèmes, des solutions de contournement seront mises en œuvre, ce qui, au fil du temps, entraînera des problèmes de maintenance et de reporting.

Notez les défis en combinant les deux tableaux de produits ci-dessous. Dans la table PRODUCT_RETURN, la clé primaire est PRODUCT_SKU, le champ PRODUCT_NAME est défini comme varchar(100), PRODUCT_DESCRIPTION est défini comme varchar(100) et PRODUCT_PRICE est défini comme number(5,2).

Dans la table PRODUCT_SALES, le PRODUCT_UPC est défini comme la clé primaire. Heureusement, ce champ correspond au champ PRODUCT_UPC de la table PRODUCT_RETURN. Le champ PROD_NAME est défini comme varchar(50), PROD_DESCRIPTION est défini comme varchar(150) et PROD_PRICE est défini comme number(7,2), qui sont tous différents de ceux de la table PRODUCT_RETURN. Le profilage des données et la vérification des données seront nécessaires pour s’assurer que les données entre les deux tables correspondent. La table PRODUCT_SALES n’a pas de colonne pour PRODUCT_CATEGORY. Une dernière différence est le PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT et PROD_END_DT. Ces champs sont utilisés pour capturer l’historique des modifications d’un produit qui n’est pas capturé par la table PRODUCT_RETURN.

Pour résoudre ces problèmes et conformer les tableaux, je proposerais la dimension de produit conforme suivante.

  • Différence de contenu – parfois, vous constaterez que le contenu stocké dans les tableaux est différent:
    • Les champs de texte contiennent des caractères majuscules par rapport aux caractères mixtes
    • Les colonnes contiennent des données différentes / manquantes

Les données de la table PRODUCT_RETURN semblent correspondre à celles de la table PRODUCT_SALES à quelques exceptions notables. Les noms de produits ne correspondent pas toujours entre les deux tables et les UPC se répètent dans la table PRODUCT_SALES. La table PRODUCT_SALES n’a pas de SKU par conséquent, nous devons nous assurer que les SKU de la table PRODUCT_RETURN sont fiables historiquement et peuvent être utilisées comme attribut dans la nouvelle dimension. Avant d’aller de l’avant, ces problèmes doivent être soumis aux propriétaires de produits du système source pour une résolution mutuellement acceptable de ces anomalies de données.

RETOUR DU PRODUIT

PRODUIT_VENTES

Dimension conforme – Types

  • Dimension partagée – lorsqu’une table de faits partage la même dimension logique qu’une autre table de faits dans un autre magasin d’étoiles ou de données. La dimension date est un exemple de dimension partagée.
  • Cumul conforme – est un sous-ensemble de données d’une table de dimensions et le sous-ensemble de données partagent la même structure et le même contenu. Un exemple de dimension cumulative peut être vu dans la dimension mois ci-dessous. Comme vous pouvez le voir, la dimension mois peut être liée à la dimension date et utilisée pour “enrouler” des données d’un seul jour à un mois.

  • Dimension de chevauchement – sont les tables sources et les dimensions qui se conforment via certains attributs de chevauchement. Dans la plupart des cas, les champs qui se chevauchent peuvent être déplacés dans une nouvelle dimension pour éviter le chevauchement, créer un modèle plus facile à maintenir et permettre de suivre les changements dans les relations au fil du temps via une table de faits.

Dimension conforme – Avantages

Les dimensions conformes sont la base sur laquelle sont construits des modèles dimensionnels flexibles et évolutifs. Un modélisateur de données doit planifier la conformité de sa conception en s’assurant que les dimensions clés de l’entreprise sont des dimensions conformes qui peuvent être étendues pour inclure de nouveaux attributs au fil du temps. Les modèles dimensionnels qui n’ont pas de dimensions conformes ne pourront répondre qu’à des questions simples pour le marché de données particulier pour lequel la dimension a été construite. Lorsqu’elles sont conçues correctement, les dimensions conformes peuvent et seront utilisées par plusieurs data marts, fournissant au client un aperçu de ses données qui dépasse ses attentes initiales.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.