Data Warehouse Design Techniques-conform Dimensions

w moim ostatnim poście na blogu przedstawiłem wam niektóre z bardziej powszechnie stosowanych zaawansowanych technicznych technik projektowania wymiarowego. W ciągu najbliższych kilku tygodni przedstawię szczegóły każdej z technik projektowych.

wymiary zgodne

wymiary zgodne to te wymiary, które zostały zaprojektowane w taki sposób, że wymiar ten może być używany w wielu tabelach faktów w różnych obszarach tematycznych magazynu. Konieczne jest, aby projektanci planowali te wymiary, ponieważ zapewnią one spójność sprawozdawczości w różnych obszarach tematycznych i zmniejszą koszty rozwoju tych obszarów tematycznych poprzez ponowne wykorzystanie istniejących wymiarów. Wymiar daty jest doskonałym przykładem wymiaru dopasowanego. Większość magazynów ma tylko jeden wymiar daty używany w całym magazynie.

dopasowany wymiar – wyzwania

  • różnice strukturalne-w niektórych przypadkach będziesz mieć tabele źródłowe, które zawierają różne struktury tabel.:
    • dodatkowe lub brakujące kolumny
    • kolumny z różnymi typami danych
    • kolumny nazwane inaczej zawierające te same lub podobne dane

różnice te zazwyczaj można łatwo rozwiązać, ale czasami może to być trudne, ponieważ różnice muszą zostać rozwiązane i uzgodnione przez właścicieli systemów źródłowych. Bez rozwiązania tych problemów wdrożone zostaną obejścia, które z czasem spowodują problemy z konserwacją i raportowaniem.

zwróć uwagę na wyzwania łączące dwie poniższe tabele produktów. W tabeli PRODUCT_RETURN kluczem podstawowym jest PRODUCT_SKU, pole PRODUCT_NAME jest zdefiniowane jako varchar(100), PRODUCT_DESCRIPTION jest zdefiniowane jako varchar(100), a PRODUCT_PRICE jest zdefiniowane jako liczba(5,2).

w tabeli PRODUCT_SALES PRODUCT_UPC jest zdefiniowany jako klucz podstawowy. Na szczęście to pole pasuje do pola PRODUCT_UPC w tabeli PRODUCT_RETURN. Pole PROD_NAME jest zdefiniowane jako VARCHAR(50), PROD_DESCRIPTION jest zdefiniowane jako varchar(150), A PROD_PRICE jest zdefiniowane jako liczba (7,2), z których wszystkie są inne niż w tabeli PRODUCT_RETURN. Profilowanie danych i weryfikacja danych będą niezbędne do zapewnienia zgodności danych między dwiema tabelami. Tabela PRODUCT_SALES nie ma kolumny dla PRODUCT_CATEGORY. Ostatnią różnicą są PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT i PROD_END_DT. Pola te służą do przechwytywania historii zmian produktu, który nie jest przechwytywany przez tabelę PRODUCT_RETURN.

aby rozwiązać te problemy i dostosować tabele, proponuję następujący zgodny wymiar produktu.

  • różnica w treści-czasami okazuje się, że zawartość przechowywana w tabelach jest inna:
    • pola tekstowe zawierają wielkie litery i mieszane litery
    • kolumny zawierają różne / brakujące dane

dane w tabeli PRODUCT_RETURN wydają się być zgodne z danymi w tabeli PRODUCT_SALES z pewnymi wyjątkami. Nazwy produktów nie zawsze zgadzają się między dwiema tabelami, A UPC powtarzają się w tabeli PRODUCT_SALES. Tabela PRODUCT_SALES nie ma SKU, dlatego musimy upewnić się, ŻE SKU w tabeli PRODUCT_RETURN są wiarygodne historycznie i mogą być używane jako atrybut w nowym wymiarze. Przed przejściem do przodu te problemy muszą zostać przedstawione właścicielom produktów systemu źródłowego w celu wzajemnego rozwiązania tych anomalii danych.

PRODUKT_RETURN

PRODUCT_SALES

wymiar zgodny-typy

  • wymiar współdzielony – gdy tablica faktów ma ten sam wymiar logiczny co inna tablica faktów w innej gwieździe lub Marcie danych. Wymiar daty jest przykładem wymiaru współdzielonego.
  • Conformed Rollup – jest podzbiorem danych z tabeli wymiarów, a podzbiór danych ma tę samą strukturę i zawartość. Przykład wymiaru rollup można zobaczyć w wymiarze miesiąca pokazanym poniżej. Jak widać, wymiar miesiąca może być powiązany z wymiarem daty i używany do “roll up” danych z jednego dnia do miesiąca.

  • wymiar nakładający się-to te tabele źródłowe i wymiary, które są zgodne za pomocą niektórych nakładających się atrybutów. W większości przypadków nakładające się pola można przenieść w nowy wymiar, aby uniknąć nakładania się, stworzyć łatwiejszy do utrzymania model i zapewnić możliwość śledzenia zmian w relacjach w czasie za pomocą tabeli faktów.

wymiar zgodny – zalety

wymiary zgodne są podstawą, na której budowane są elastyczne i skalowalne modele wymiarowe. Modeler danych musi zaplanować zgodność w swoim projekcie, upewniając się, że kluczowe wymiary przedsiębiorstwa są zgodne wymiary, które można rozszerzyć o nowe atrybuty w czasie. Modele wymiarowe, które nie mają dopasowanych wymiarów, będą w stanie odpowiedzieć tylko na proste pytania dotyczące konkretnego data mart, dla którego wymiar został zbudowany. Po prawidłowym zaprojektowaniu dopasowane wymiary mogą i będą wykorzystywane przez kilka centrów danych, zapewniając klientowi wgląd w swoje dane, który przekracza jego początkowe oczekiwania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.