datawarehouse Design Techniques-Conformed Dimensions
In mijn laatste blogpost presenteerde ik u enkele van de meer gebruikte geavanceerde technische dimensionale ontwerptechnieken. In de komende weken zal Ik detail geven aan elk van de ontwerptechnieken.
conforme afmetingen
conforme afmetingen zijn de afmetingen die zo zijn ontworpen dat de afmeting kan worden gebruikt in vele fact tables in verschillende vakgebieden van het magazijn. Het is van het grootste belang dat het ontwerperplan voor deze dimensies zorgt, omdat ze zorgen voor consistentie in de rapportage over de vakgebieden en de ontwikkelingskosten van die vakgebieden verlagen door hergebruik van bestaande dimensies. De datumdimensie is een uitstekend voorbeeld van een gelijkvormde dimensie. De meeste magazijnen hebben slechts een enkele Datum dimensie gebruikt in het magazijn.
conforme dimensie-uitdagingen
- structurele verschillen – in sommige gevallen zult u brontabellen hebben die verschillende tabelstructuren bevatten:
- Aanvullende of ontbrekende kolommen
- kolommen met verschillende gegevenstypen
- kolommen met een andere naam die dezelfde of soortgelijke gegevens bevatten
deze verschillen kunnen meestal gemakkelijk worden opgelost, maar af en toe kan dit moeilijk zijn als de verschillen moeten worden opgelost en goedgekeurd door de ondernemers van de bronsystemen. Zonder het oplossen van deze problemen workarounds zullen worden geïmplementeerd die, na verloop van tijd, zal leiden tot onderhoud en rapportage problemen.
let op de uitdagingen die de twee onderstaande producttabellen combineren. In de tabel PRODUCT_RETURN is de primaire sleutel PRODUCT_SKU, het veld PRODUCT_NAME is gedefinieerd als varchar (100), PRODUCT_DESCRIPTION is gedefinieerd als varchar(100) en PRODUCT_PRICE is gedefinieerd als nummer(5,2).
in de PRODUCT_SALES tabel wordt de PRODUCT_UPC gedefinieerd als de primaire sleutel. Gelukkig komt dit veld overeen met het product_upc veld in de product_return tabel. Het veld PROD_NAME is gedefinieerd als varchar (50), PROD_DESCRIPTION is gedefinieerd als varchar(150) en PROD_PRICE is gedefinieerd als nummer(7,2), die allemaal verschillen van die van de product_return-tabel. Gegevensprofilering en-verificatie zijn noodzakelijk om ervoor te zorgen dat de gegevens tussen de twee tabellen overeenkomen. De product_sales tabel heeft geen kolom voor PRODUCT_CATEGORY. Een laatste verschil is het PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT en PROD_END_DT. Deze velden worden gebruikt om de veranderingsgeschiedenis van een product vast te leggen dat niet in de PRODUCT_RETURN-tabel is opgenomen.
om deze problemen op te lossen en aan de tabellen te voldoen, zou ik de volgende productdimensie willen voorstellen.
- Inhoud van Verschil – soms zult u merken dat de inhoud die is opgeslagen in de tabellen zijn verschillend:
- tekstvelden bevatten hoofdletters vs. gemengde hoofdletters
- Kolommen bevatten verschillende/ontbrekende gegevens
De gegevens in de PRODUCT_RETURN tabel blijkt overeen te komen met die van de PRODUCT_SALES tabel met enkele opvallende uitzonderingen. De productnamen komen niet altijd overeen tussen de twee tabellen en de UPCs-herhaling in de product_sales-tabel. De product_sales tabel heeft geen SKU ‘s daarom moeten we ervoor zorgen dat de SKU’ s in de product_return tabel is betrouwbaar historisch en kan worden gebruikt als een attribuut in de nieuwe dimensie. Voordat deze problemen verder moeten worden gebracht voor de bron systeem producteigenaren voor een wederzijds aanvaardbare oplossing voor deze gegevens anomalieën.
PRODUCT_TERUGGANG
PRODUCT_VERKOOP
conforme dimensie-typen
- gedeelde dimensie-wanneer een fact tabel dezelfde logische dimensie heeft als een andere fact tabel in een andere star of data mart. De datumdimensie is een voorbeeld van een gedeelde dimensie.
- conform Rollup-is een subset van gegevens uit een dimensietabel en de subset van gegevens heeft dezelfde structuur en inhoud. Een voorbeeld van een rolmaat is te zien in de onderstaande maandmaat. Zoals u kunt zien kan de maand dimensie worden gekoppeld aan de datum dimensie en gebruikt om “roll up” gegevens van een enkele dag tot een maand.
- overlappende dimensie-zijn die brontabellen en dimensies die via sommige overlappende attributen in overeenstemming zijn. In de meeste gevallen kunnen de overlappende velden in een nieuwe dimensie worden verplaatst om overlapping te voorkomen, een gemakkelijker te onderhouden model te creëren en de mogelijkheid te bieden om veranderingen in de relaties na verloop van tijd via een feittabel te volgen.
conforme dimensies – voordelen
conforme dimensies vormen de basis waarop flexibele en schaalbare dimensionale modellen worden gebouwd. Een data modeler moet plannen voor conformiteit in hun ontwerp door ervoor te zorgen dat de belangrijkste dimensies van de onderneming zijn gevormd dimensies die kunnen worden uitgebreid met nieuwe attributen in de tijd. Dimensionale modellen die geen gelijkvormige dimensies hebben, kunnen alleen eenvoudige vragen beantwoorden voor de specifieke data mart waarvoor de dimensie is gebouwd. Wanneer ze goed zijn ontworpen, kunnen en zullen ze door verschillende datamartsâ worden gebruikt, waardoor de klant inzicht krijgt in hun gegevens die hun initiële verwachtingen overtreft.