Data Warehouse Design Techniques – Conformed Dimensions
în ultima mea postare pe blog, v-am prezentat câteva dintre cele mai utilizate tehnici avansate de proiectare dimensională tehnică. În următoarele câteva săptămâni, voi oferi detalii pentru fiecare dintre tehnicile de proiectare.
dimensiuni conformate
dimensiuni conformate sunt acele dimensiuni care au fost proiectate astfel încât dimensiunea poate fi utilizată în mai multe tabele de fapt în diferite domenii ale depozitului. Este imperativ ca proiectantul să planifice aceste dimensiuni, deoarece acestea vor asigura coerența raportării în toate domeniile și vor reduce costurile de dezvoltare ale acestor domenii prin reutilizarea dimensiunilor existente. Dimensiunea datei este un exemplu excelent de dimensiune conformă. Majoritatea depozitelor au doar o singură dimensiune de dată utilizată în întregul depozit.
Dimensiune conformă – provocări
- diferențe structurale – în unele cazuri veți avea tabele sursă care conțin structuri de tabel diferite, acestea pot include:
- coloane suplimentare sau lipsă
- coloane cu diferite tipuri de date
- coloane denumite diferit conținând date identice sau similare
aceste diferențe pot fi de obicei rezolvate cu ușurință, dar ocazional acest lucru poate fi dificil, deoarece diferențele trebuie rezolvate și convenite de proprietarii de afaceri ai sistemelor sursă. Fără rezolvarea acestor probleme vor fi implementate soluții care, în timp, vor cauza probleme de întreținere și raportare.
rețineți provocările care combină cele două tabele de produse de mai jos. În tabelul PRODUCT_RETURN, cheia primară este PRODUCT_SKU, câmpul PRODUCT_NAME este definit ca varchar(100), PRODUCT_DESCRIPTION este definit ca varchar(100) și PRODUCT_PRICE este definit ca număr (5,2).
în tabelul PRODUCT_SALES, PRODUCT_UPC este definit ca cheia primară. Din fericire, acest câmp se potrivește cu câmpul PRODUCT_UPC din tabelul PRODUCT_RETURN. Câmpul PROD_NAME este definit ca varchar(50), PROD_DESCRIPTION este definit ca varchar(150) și PROD_PRICE este definit ca număr (7,2), toate acestea fiind diferite de cele ale tabelului PRODUCT_RETURN. Profilarea datelor și verificarea datelor vor fi necesare pentru a asigura potrivirea datelor dintre cele două tabele. Tabelul PRODUCT_SALES nu are o coloană pentru PRODUCT_CATEGORY. O diferență finală este PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT și PROD_END_DT. Aceste câmpuri sunt utilizate pentru a captura istoricul modificărilor unui produs care nu este capturat de tabelul PRODUCT_RETURN.
pentru a rezolva aceste probleme și pentru a se conforma tabelelor, aș propune următoarea dimensiune a produsului conformată.
- diferență de conținut-uneori veți constata că conținutul stocat în tabele este diferit:
- câmpurile de Text conțin majuscule vs. caractere mixte
- coloanele conțin date diferite / lipsă
datele din tabelul PRODUCT_RETURN par să se potrivească cu cele din tabelul PRODUCT_SALES, cu câteva excepții notabile. Numele produselor nu se potrivesc întotdeauna între cele două tabele și repetarea UPCs în tabelul PRODUCT_SALES. Tabelul PRODUCT_SALES nu are SKU-uri prin urmare, trebuie să ne asigurăm că SKU-urile din tabelul PRODUCT_RETURN sunt fiabile din punct de vedere istoric și pot fi utilizate ca atribut în noua dimensiune. Înainte de a merge mai departe, aceste probleme trebuie aduse în fața proprietarilor de produse ale sistemului sursă pentru o rezoluție reciproc agreabilă a acestor anomalii de date.
PRODUCT_RETURN
PRODUS_VÂNZĂRI
dimensiuni conformate-tipuri
- Dimensiune partajată – atunci când un tabel de fapte împărtășește aceeași dimensiune logică ca un alt tabel de fapte într-o altă stea sau data mart. Dimensiunea dată este un exemplu de dimensiune partajată.
- conformat Rollup – este un subset de date dintr-un tabel de dimensiuni și subsetul de date împărtășesc aceeași structură și conținut. Un exemplu de dimensiune rollup poate fi văzut în dimensiunea lună prezentată mai jos. După cum puteți vedea, dimensiunea lună poate fi legată de dimensiunea dată și utilizată pentru a “rula” date de la o singură zi la o lună.
- Dimensiune suprapusă – sunt acele tabele sursă și dimensiuni care se conformează prin intermediul unor atribute suprapuse. În majoritatea cazurilor, câmpurile suprapuse pot fi mutate într-o nouă dimensiune pentru a evita suprapunerea, pentru a crea un model mai ușor de întreținut și pentru a oferi posibilitatea de a urmări schimbările în relații în timp printr-un tabel de fapte.
Dimensiune conformă – beneficii
dimensiunile conformate sunt fundamentul pe care sunt construite modele dimensionale flexibile și scalabile. Un modelator de date trebuie să planifice conformitatea în proiectarea lor, asigurându-se că dimensiunile cheie ale întreprinderii sunt dimensiuni conforme care pot fi extinse pentru a include noi atribute în timp. Modelele dimensionale care nu au dimensiuni conforme vor putea răspunde doar la întrebări simple pentru data Mart special pentru care a fost construită dimensiunea. Atunci când sunt proiectate corespunzător, dimensiunile conformate pot și vor fi utilizate de mai multe mărci de date, oferind clientului o perspectivă asupra datelor lor care depășește așteptările inițiale.