Data Warehouse Design Techniques-överensstämde dimensioner

i mitt senaste blogginlägg presenterade jag några av de mer Använda avancerade tekniska dimensionella designteknikerna. Under de kommande veckorna kommer jag att ge detaljer till var och en av designteknikerna.

anpassade dimensioner

anpassade dimensioner är de dimensioner som har utformats på ett sådant sätt att dimensionen kan användas över många faktatabeller i olika ämnesområden i lagret. Det är absolut nödvändigt att designern planerar för dessa dimensioner eftersom de kommer att ge rapporteringskonsistens över ämnesområden och minska utvecklingskostnaderna för dessa ämnesområden via återanvändning av befintliga dimensioner. Datumdimensionen är ett utmärkt exempel på en anpassad dimension. De flesta lager har bara en enda datumdimension som används i hela lagret.

anpassad Dimension-utmaningar

  • strukturella skillnader-i vissa fall kommer du att ha källtabeller som innehåller olika tabellstrukturer som kan inkludera:
    • ytterligare eller saknade kolumner
    • kolumner med olika datatyper
    • kolumner med olika namn som innehåller samma eller liknande data

dessa skillnader kan vanligtvis lösas enkelt men ibland kan det vara svårt eftersom skillnaderna måste lösas och godkännas av företagets ägare av källsystemen. Utan att lösa dessa problem kommer lösningar att implementeras som med tiden kommer att orsaka underhålls-och rapporteringsproblem.

notera utmaningarna som kombinerar de två produktabellerna nedan. I tabellen PRODUCT_RETURN är primärnyckeln PRODUCT_SKU, fältet PRODUCT_NAME definieras som varchar(100), PRODUCT_DESCRIPTION definieras som varchar(100) och PRODUCT_PRICE definieras som nummer(5,2).

i tabellen PRODUCT_SALES definieras PRODUCT_UPC som primärnyckel. Lyckligtvis matchar detta fält fältet PRODUCT_UPC i tabellen PRODUCT_RETURN. Fältet PROD_NAME definieras som varchar(50), PROD_DESCRIPTION definieras som varchar(150) och PROD_PRICE definieras som nummer(7,2), som alla skiljer sig från tabellen PRODUCT_RETURN. Dataprofilering och dataverifiering kommer att vara nödvändiga för att säkerställa att uppgifterna mellan de två tabellerna matchar. Tabellen PRODUCT_SALES har ingen kolumn för PRODUCT_CATEGORY. En sista skillnad är PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT och PROD_END_DT. Dessa fält används för att fånga ändringshistoriken för en produkt som inte fångas av tabellen PRODUCT_RETURN.

för att lösa dessa problem och anpassa tabellerna skulle jag föreslå följande överensstämmande produktdimension.

  • Innehållsskillnad-ibland kommer du att upptäcka att innehållet som lagras i tabellerna är annorlunda:
    • textfält innehåller versaler kontra blandade bokstäver
    • kolumner innehåller olika / saknade data

data i tabellen PRODUCT_RETURN verkar matcha tabellen PRODUCT_SALES med några anmärkningsvärda undantag. Produktnamnen matchar inte alltid mellan de två tabellerna och UPCs upprepas i tabellen PRODUCT_SALES. PRODUCT_SALES-tabellen har inte SKU: er därför måste vi se till att SKU: erna i PRODUCT_RETURN-tabellen är tillförlitliga historiskt och kan användas som attribut i den nya dimensionen. Innan vi går vidare måste dessa frågor föras inför källsystemproduktägarna för en ömsesidigt behaglig lösning på dessa dataavvikelser.

PRODUKT_RETURN

PRODUKT_FÖRSÄLJNING

överensstämde Dimension-typer

  • delad Dimension – när en faktatabell delar samma logiska dimension som en annan faktatabell i en annan stjärna eller data mart. Datumdimensionen är ett exempel på en delad dimension.
  • conformed Rollup-är en delmängd av data från en dimensionstabell och delmängden av data delar samma struktur och innehåll. Ett exempel på en samlad dimension kan ses i månadsdimensionen som visas nedan. Som du kan se månadsdimensionen kan kopplas till datumdimensionen och användas för att “rulla upp” data från en enda dag till en månad.

  • överlappande Dimension-är de källtabeller och dimensioner som överensstämmer via vissa överlappande attribut. I de flesta fall kan de överlappande fälten flyttas till en ny dimension för att undvika överlappning, skapa en modell som är lättare att underhålla och ge möjlighet att spåra förändringar i relationerna över tid via en faktatabell.

anpassade dimensioner – fördelar

anpassade dimensioner är grunden på vilken flexibla och skalbara dimensionsmodeller byggs. En datamodeller måste planera för överensstämmelse i sin design genom att se till att företagets nyckeldimensioner är anpassade dimensioner som kan utökas till att inkludera nya attribut över tiden. Dimensionella modeller som saknar överensstämmande dimensioner kommer bara att kunna svara på enkla frågor för den specifika data mart för vilken dimensionen byggdes. När de är utformade korrekt kan och kommer de anpassade dimensionerna att användas av flera datamarter, vilket ger kunden insikt i deras data som överstiger deras ursprungliga förväntningar.

Lämna ett svar

Din e-postadress kommer inte publiceras.