Data lager Design teknikker – Konformerede dimensioner

i mit sidste blogindlæg, jeg præsenterede for dig nogle af de mere udbredte avancerede tekniske dimensionelle design teknikker. I løbet af de næste par uger vil jeg give detaljer til hver af designteknikkerne.

Konformerede dimensioner

Konformerede dimensioner er de dimensioner, der er designet på en sådan måde, at dimensionen kan bruges på tværs af mange faktatabeller i forskellige fagområder på lageret. Det er bydende nødvendigt, at designerplanen for disse dimensioner, da de vil give rapporteringskonsistens på tværs af fagområder og reducere udviklingsomkostningerne for disse fagområder via genbrug af eksisterende dimensioner. Datodimensionen er et glimrende eksempel på en tilpasset dimension. De fleste lagre har kun en enkelt datodimension, der bruges i hele lageret.

konform Dimension-udfordringer

  • strukturelle forskelle-i nogle tilfælde vil du have kildetabeller, der indeholder forskellige tabelstrukturer, disse kan omfatte:
    • yderligere eller manglende kolonner
    • kolonner med forskellige datatyper
    • kolonner navngivet forskelligt, der indeholder de samme eller lignende data

disse forskelle kan normalt løses let, men lejlighedsvis kan dette være vanskeligt, da forskellene skal løses og accepteres af virksomhedsejere af kildesystemerne. Uden at løse disse problemer vil der blive implementeret løsninger, som over tid vil medføre vedligeholdelses-og rapporteringsproblemer.

Bemærk udfordringerne ved at kombinere de to produkttabeller nedenfor. I tabellen PRODUCT_RETURN er den primære nøgle PRODUCT_SKU, feltet PRODUCT_NAME er defineret som varchar(100), PRODUCT_DESCRIPTION er defineret som varchar(100) og PRODUCT_PRICE er defineret som tal(5,2).

i tabellen PRODUCT_SALES defineres PRODUCT_UPC som den primære nøgle. Heldigvis matcher dette felt feltet PRODUCT_UPC i tabellen PRODUCT_RETURN. Feltet PROD_NAME er defineret som varchar(50), PROD_DESCRIPTION er defineret som varchar(150) og PROD_PRICE er defineret som tal(7,2), som alle er forskellige fra tabellen PRODUCT_RETURN. Dataprofilering og dataverifikation er nødvendig for at sikre, at dataene mellem de to tabeller matcher. Tabellen PRODUCT_SALES har ikke en kolonne for PRODUCT_CATEGORY. En sidste forskel er PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT og PROD_END_DT. Disse felter bruges til at registrere ændringshistorikken for et produkt, der ikke registreres af tabellen PRODUCT_RETURN.

for at løse disse problemer og overholde tabellerne vil jeg foreslå følgende overensstemmende produktdimension.

  • Indholdsforskel-nogle gange vil du opdage, at indholdet, der er gemt i tabellerne, er anderledes:
    • tekstfelter indeholder store bogstaver vs. blandede bogstaver
    • kolonner indeholder forskellige / manglende data

dataene i tabellen PRODUCT_RETURN ser ud til at matche dataene i tabellen PRODUCT_SALES med nogle bemærkelsesværdige undtagelser. Produktnavne stemmer ikke altid overens mellem de to tabeller, og UPC ‘ erne gentages i tabellen PRODUCT_SALES. PRODUCT_SALES-tabellen har derfor ikke SKU ‘er, vi er nødt til at sikre, at SKU’ erne i PRODUCT_RETURN-tabellen er pålidelige historisk og kan bruges som en attribut i den nye dimension. Inden vi går videre, skal disse problemer bringes for kildesystemets produktejere for en gensidigt acceptabel løsning på disse dataanomalier.

PRODUKT_RETURN

PRODUCT_SALES

Konformerede Dimensionstyper

  • delt Dimension – når en faktatabel deler den samme logiske dimension som en anden faktatabel i en anden stjerne eller datamart. Datodimensionen er et eksempel på en delt dimension.
  • konform Rollup – er en delmængde af data fra en dimensionstabel, og delmængden af data deler den samme struktur og indhold. Et eksempel på en rollup-dimension kan ses i månedsdimensionen vist nedenfor. Som du kan se, kan månedsdimensionen knyttes til datodimensionen og bruges til at “rulle op” data fra en enkelt dag til en måned.

  • overlappende Dimension – er de kildetabeller og dimensioner, der er i overensstemmelse via nogle overlappende attributter. I de fleste tilfælde kan de overlappende felter flyttes til en ny dimension for at undgå overlapning, skabe en lettere at vedligeholde model og give mulighed for at spore ændringer i relationerne over tid via en faktatabel.

konform Dimension – fordele

Konformerede dimensioner er det fundament, hvorpå fleksible og skalerbare dimensionelle modeller er bygget. En datamodeler skal planlægge overensstemmelse i deres design ved at sikre, at virksomhedens nøgledimensioner er ensartede dimensioner, der kan udvides til at omfatte nye attributter over tid. Dimensionelle modeller, der mangler konforme dimensioner, vil kun være i stand til at besvare enkle spørgsmål til den bestemte datamart, som dimensionen blev bygget til. Når designet korrekt, konforme dimensioner kan og vil blive brugt af flere datamarts, giver kunden indsigt i deres data, der overstiger deres oprindelige forventninger.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.