Data Warehouse Design Techniky – Conformed Dimenzí
V mém posledním blogu, jsem představil vám některé z více široce používán upřesnit technické dimenzionální design techniky. Během několika příštích týdnů, poskytnu podrobnosti každé z konstrukčních technik.
Odpovídala Rozměry
Odpovídala rozměry jsou rozměry, které byly navrženy takovým způsobem, že dimenze může být použit v mnoha tabulky faktů v různých tematických oblastech skladu. Je nutné, aby projektant plán pro tyto rozměry, protože budou poskytovat hlášení konzistence napříč oblastí a snížit náklady na vývoj těchto oblastí prostřednictvím opětovného použití stávajících rozměrů. Dimenze data je vynikajícím příkladem přizpůsobeného rozměru. Většina skladů má pouze jeden rozměr data používaný v celém skladu.
Conformed Dimenze – Výzvy
- Strukturální Rozdíly – v některých případech budete mít zdrojových tabulek, které obsahují různé struktury tabulky Tyto mohou zahrnovat:
- další nebo chybějící sloupce
- sloupce s různými typy dat
- sloupce pojmenované jinak obsahujících stejné nebo podobné údaje
Tyto rozdíly mohou být obvykle snadno vyřešit, ale občas to může být obtížné, protože rozdíly musí být řešeny a odsouhlaseny podnikatelů ze zdrojových systémů. Bez vyřešení těchto problémů budou implementována řešení, která v průběhu času způsobí problémy s údržbou a vykazováním.
Všimněte si výzev kombinujících dvě tabulky produktů níže. V PRODUCT_RETURN tabulka, primární klíč je PRODUCT_SKU, PRODUCT_NAME pole je definována jako varchar(100), PRODUCT_DESCRIPTION je definována jako varchar(100) a PRODUCT_PRICE je definován jako číslo(5,2).
v tabulce PRODUCT_SALES je produkt PRODUCT_UPC definován jako primární klíč. Naštěstí toto pole odpovídá poli PRODUCT_UPC v tabulce PRODUCT_RETURN. Pole PROD_NAME je definováno jako varchar (50), PROD_DESCRIPTION je definován jako varchar(150) a PROD_PRICE je definována jako číslo(7,2), které se liší od tabulky PRODUCT_RETURN. K zajištění shody dat mezi oběma tabulkami bude nezbytné profilování údajů a ověření údajů. Tabulka PRODUCT_SALES nemá sloupec pro PRODUCT_CATEGORY. Poslední rozdíl je PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT a PROD_END_DT. Tato pole slouží k zachycení historie změn produktu, který není zachycen tabulkou PRODUCT_RETURN.
k vyřešení těchto problémů a souladu s tabulkami bych navrhl následující přizpůsobený rozměr produktu.
- Obsah Rozdíl – někdy zjistíte, že obsah uložený v tabulkách jsou různé:
- Textové pole obsahovat velká písmena vs. malá písmena znaky
- Sloupce obsahují různé/chybějící údaje
data v PRODUCT_RETURN se zobrazí tabulka, aby odpovídaly, že z PRODUCT_SALES tabulka s některými významnými výjimkami. Názvy produktů se ne vždy shodují mezi oběma tabulkami a opakováním UPCs v tabulce PRODUCT_SALES. Na PRODUCT_SALES tabulka nemá Sku proto musíme zajistit, aby Sku v PRODUCT_RETURN tabulka je historicky spolehlivé, a může být použit jako atribut v nové dimenzi. Před posunem vpřed musí být tyto problémy předloženy vlastníkům produktů zdrojového systému pro vzájemně přijatelné řešení těchto anomálií dat.
PRODUCT_RETURN
PRODUCT_SALES
Conformed Dimenze – Typy
- Sdílené Dimenze – když tabulky faktů sdílí stejné logické rozměr jako další tabulky faktů v další hvězda nebo data martu. Dimenze data je příkladem sdílené dimenze.
- Conformed kumulativní-je podmnožina dat z kótovací tabulky a podmnožina dat sdílí stejnou strukturu a obsah. Příklad kumulativní dimenze lze vidět v níže uvedené dimenzi měsíce. Jak vidíte, rozměr měsíce lze propojit s dimenzí data a použít k” srolování ” dat z jednoho dne na měsíc.
- Překrývající se Dimenze – jsou ty zdrojové tabulky a rozměry, které vyhovují přes některé překrývající atributy. Ve většině případů, překrývající se pole mohou být přesunuty do nové dimenze, aby se zabránilo překrývání, vytvořit jednodušší na údržbu modelu a poskytují možnost sledovat změny ve vztazích v průběhu času prostřednictvím tabulky faktů.
Conformed Dimension-výhody
Conformed dimensions jsou základem, na kterém jsou postaveny flexibilní a škálovatelné rozměrové modely. Datový modelář musí plánovat shodu ve svém návrhu tím, že zajistí, aby klíčové rozměry podniku byly přizpůsobeny rozměrům, které lze v průběhu času rozšířit o nové atributy. Rozměrové modely, které postrádají odpovídající rozměry, budou schopny odpovědět pouze na jednoduché otázky pro konkrétní datový trh, pro který byla dimenze postavena. Když správně navržen, odpovídala rozměry, může a bude použito několik datových tržišť, poskytující zákazníkovi nahlédnout do jejich data, která přesahuje jejich původní očekávání.