Data Warehouse Design Techniques-conform Dimensions
w moim ostatnim poście na blogu przedstawiłem wam niektóre z bardziej powszechnie stosowanych zaawansowanych technicznych technik projektowania wymiarowego. W ciągu najbliższych kilku tygodni przedstawię szczegóły każdej z technik projektowych.
wymiary zgodne
wymiary zgodne to te wymiary, które zostały zaprojektowane w taki sposób, że wymiar ten może być używany w wielu tabelach faktów w różnych obszarach tematycznych magazynu. Konieczne jest, aby projektanci planowali te wymiary, ponieważ zapewnią one spójność sprawozdawczości w różnych obszarach tematycznych i zmniejszą koszty rozwoju tych obszarów tematycznych poprzez ponowne wykorzystanie istniejących wymiarów. Wymiar daty jest doskonałym przykładem wymiaru dopasowanego. Większość magazynów ma tylko jeden wymiar daty używany w całym magazynie.
dopasowany wymiar – wyzwania
- różnice strukturalne-w niektórych przypadkach będziesz mieć tabele źródłowe, które zawierają różne struktury tabel.:
- dodatkowe lub brakujące kolumny
- kolumny z różnymi typami danych
- kolumny nazwane inaczej zawierające te same lub podobne dane
różnice te zazwyczaj można łatwo rozwiązać, ale czasami może to być trudne, ponieważ różnice muszą zostać rozwiązane i uzgodnione przez właścicieli systemów źródłowych. Bez rozwiązania tych problemów wdrożone zostaną obejścia, które z czasem spowodują problemy z konserwacją i raportowaniem.
zwróć uwagę na wyzwania łączące dwie poniższe tabele produktów. W tabeli PRODUCT_RETURN kluczem podstawowym jest PRODUCT_SKU, pole PRODUCT_NAME jest zdefiniowane jako varchar(100), PRODUCT_DESCRIPTION jest zdefiniowane jako varchar(100), a PRODUCT_PRICE jest zdefiniowane jako liczba(5,2).
w tabeli PRODUCT_SALES PRODUCT_UPC jest zdefiniowany jako klucz podstawowy. Na szczęście to pole pasuje do pola PRODUCT_UPC w tabeli PRODUCT_RETURN. Pole PROD_NAME jest zdefiniowane jako VARCHAR(50), PROD_DESCRIPTION jest zdefiniowane jako varchar(150), A PROD_PRICE jest zdefiniowane jako liczba (7,2), z których wszystkie są inne niż w tabeli PRODUCT_RETURN. Profilowanie danych i weryfikacja danych będą niezbędne do zapewnienia zgodności danych między dwiema tabelami. Tabela PRODUCT_SALES nie ma kolumny dla PRODUCT_CATEGORY. Ostatnią różnicą są PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT i PROD_END_DT. Pola te służą do przechwytywania historii zmian produktu, który nie jest przechwytywany przez tabelę PRODUCT_RETURN.
aby rozwiązać te problemy i dostosować tabele, proponuję następujący zgodny wymiar produktu.
- różnica w treści-czasami okazuje się, że zawartość przechowywana w tabelach jest inna:
- pola tekstowe zawierają wielkie litery i mieszane litery
- kolumny zawierają różne / brakujące dane
dane w tabeli PRODUCT_RETURN wydają się być zgodne z danymi w tabeli PRODUCT_SALES z pewnymi wyjątkami. Nazwy produktów nie zawsze zgadzają się między dwiema tabelami, A UPC powtarzają się w tabeli PRODUCT_SALES. Tabela PRODUCT_SALES nie ma SKU, dlatego musimy upewnić się, ŻE SKU w tabeli PRODUCT_RETURN są wiarygodne historycznie i mogą być używane jako atrybut w nowym wymiarze. Przed przejściem do przodu te problemy muszą zostać przedstawione właścicielom produktów systemu źródłowego w celu wzajemnego rozwiązania tych anomalii danych.
PRODUKT_RETURN
PRODUCT_SALES
wymiar zgodny-typy
- wymiar współdzielony – gdy tablica faktów ma ten sam wymiar logiczny co inna tablica faktów w innej gwieździe lub Marcie danych. Wymiar daty jest przykładem wymiaru współdzielonego.
- Conformed Rollup – jest podzbiorem danych z tabeli wymiarów, a podzbiór danych ma tę samą strukturę i zawartość. Przykład wymiaru rollup można zobaczyć w wymiarze miesiąca pokazanym poniżej. Jak widać, wymiar miesiąca może być powiązany z wymiarem daty i używany do “roll up” danych z jednego dnia do miesiąca.
- wymiar nakładający się-to te tabele źródłowe i wymiary, które są zgodne za pomocą niektórych nakładających się atrybutów. W większości przypadków nakładające się pola można przenieść w nowy wymiar, aby uniknąć nakładania się, stworzyć łatwiejszy do utrzymania model i zapewnić możliwość śledzenia zmian w relacjach w czasie za pomocą tabeli faktów.
wymiar zgodny – zalety
wymiary zgodne są podstawą, na której budowane są elastyczne i skalowalne modele wymiarowe. Modeler danych musi zaplanować zgodność w swoim projekcie, upewniając się, że kluczowe wymiary przedsiębiorstwa są zgodne wymiary, które można rozszerzyć o nowe atrybuty w czasie. Modele wymiarowe, które nie mają dopasowanych wymiarów, będą w stanie odpowiedzieć tylko na proste pytania dotyczące konkretnego data mart, dla którego wymiar został zbudowany. Po prawidłowym zaprojektowaniu dopasowane wymiary mogą i będą wykorzystywane przez kilka centrów danych, zapewniając klientowi wgląd w swoje dane, który przekracza jego początkowe oczekiwania.