Data Warehouse Design Techniques-Conformed Dimensions
I mitt siste blogginnlegg presenterte jeg for deg noen av de mer brukte avanserte tekniske dimensjonale designteknikkene. I løpet av de neste ukene vil jeg gi detaljer til hver av designteknikkene.
Samsvarende Dimensjoner
Samsvarende dimensjoner Er de dimensjonene som er utformet på en slik måte at dimensjonen kan brukes på tvers av mange faktatabeller i ulike fagområder på lageret. Det er viktig at designplanen for disse dimensjonene, da de vil gi rapporteringskonsistens på tvers av fagområder og redusere utviklingskostnadene for disse fagområdene via gjenbruk av eksisterende dimensjoner. Datodimensjonen er et utmerket eksempel på en formet dimensjon. De fleste lagre har bare en enkelt datodimensjon som brukes i hele lageret.
Tilpasset Dimensjon-Utfordringer
- Strukturelle Forskjeller – i noen tilfeller vil du ha kildetabeller som inneholder forskjellige tabellstrukturer.:
- flere eller manglende kolonner
- kolonner med forskjellige datatyper
- kolonner med ulike navn som inneholder samme eller lignende data
disse forskjellene kan vanligvis løses lett, men av og til dette kan være vanskelig som forskjellene må løses og avtalt av bedriftseiere av kildesystemene. Uten å løse disse problemene vil det bli implementert løsninger som over tid vil føre til vedlikeholds-og rapporteringsproblemer.
Legg Merke til utfordringene som kombinerer de to produkttabellene nedenfor. I PRODUKT_RETURN-tabellen er primærnøkkelen PRODUKT_SKU, PRODUKTNAVN-feltet er definert som varchar (100), PRODUKT_DESCRIPTION er definert som varchar(100) og PRODUKT_PRICE er definert som tall(5,2).
I TABELLEN PRODUCT_SALES ER PRODUCT_UPC definert som primærnøkkelen. Heldigvis samsvarer dette feltet MED PRODUCT_UPC-feltet I PRODUCT_RETURN-tabellen. PROD_NAME-feltet er definert som varchar (50), PROD_DESCRIPTION er definert som varchar(150) OG PROD_PRICE er definert som tall(7,2), som alle er forskjellige FRA PRODUKT_RETURN-tabellen. Dataprofilering og databekreftelse vil være nødvendig for å sikre at dataene mellom de to tabellene samsvarer. TABELLEN PRODUCT_SALES har ikke en kolonne FOR PRODUCT_CATEGORY. En siste forskjell er PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT OG PROD_END_DT. Disse feltene brukes til å registrere endringsloggen for et produkt som IKKE fanges opp AV TABELLEN PRODUCT_RETURN.
for å løse disse problemene og overholde tabellene vil jeg foreslå følgende samsvarende produktdimensjon.
- Innholdsforskjell-noen ganger vil du finne at innholdet som er lagret i tabellene, er forskjellig:
- Tekstfelt inneholder store bokstaver vs blandede bokstaver
- Kolonner inneholder forskjellige/manglende data
dataene i TABELLEN PRODUCT_RETURN ser ut til å samsvare med TABELLEN PRODUCT_SALES med noen bemerkelsesverdige unntak. Produktnavnene samsvarer ikke alltid mellom de to tabellene og UPCs gjenta I TABELLEN PRODUCT_SALES. TABELLEN PRODUCT_SALES har Ikke Sku derfor må vi sikre At Sku i TABELLEN PRODUCT_RETURN er pålitelig historisk og kan brukes som et attributt i den nye dimensjonen. Før du går videre disse problemene må bringes før kilden system produkteiere for en gjensidig behagelig løsning på disse data anomalier.
PRODUKT_RETURN
PRODUKT_SALES
Samsvarende Dimensjon-Typer
- Delt Dimensjon – Når en faktatabell deler samme logiske dimensjon som en annen faktatabell i en annen stjerne eller data mart. Datodimensjonen er et eksempel på en delt dimensjon.
- Samsvarende Samleoppdatering – Er et delsett med data fra en dimensjonstabell, og delsettet med data deler samme struktur og innhold. Et eksempel på en samleobjektdimensjon kan ses i månedsdimensjonen vist nedenfor. Som du kan se kan månedsdimensjonen knyttes til datodimensjonen og brukes til å” rulle opp ” data fra en enkelt dag til en måned.
- Overlappende Dimensjon – er de kildetabeller og dimensjoner som samsvarer med noen overlappende attributter. I de fleste tilfeller kan de overlappende feltene flyttes til en ny dimensjon for å unngå overlapping, opprette en modell som er enklere å vedlikeholde og gi muligheten til å spore endringer i relasjonene over tid via en faktatabell.
Konform Dimensjon – Fordeler
Konform dimensjoner er grunnlaget som fleksible og skalerbare dimensjonsmodeller bygges på. En datamodeler må planlegge for samsvar i utformingen ved å sikre at nøkkeldimensjonene i bedriften er samsvarende dimensjoner som kan utvides til å inkludere nye attributter over tid. Dimensjonsmodeller som mangler konformerte dimensjoner, vil bare kunne svare på enkle spørsmål for den bestemte datamart som dimensjonen ble bygget for. Når de er utformet riktig, kan og vil de konformerte dimensjonene bli brukt av flere datamarker, noe som gir kunden innsikt i deres data som overgår deres opprinnelige forventninger.