Data Warehouse Design Techniques-Conformed Dimensions

Nel mio ultimo post sul blog, vi ho presentato alcune delle tecniche di progettazione dimensionale tecniche avanzate più ampiamente utilizzate. Nel corso delle prossime settimane, fornirò dettagli a ciascuna delle tecniche di progettazione.

Dimensioni conformi

Le dimensioni conformi sono quelle dimensioni che sono state progettate in modo tale che la dimensione possa essere utilizzata su molte tabelle dei fatti in diverse aree tematiche del magazzino. È imperativo che il progettista pianifichi queste dimensioni in quanto forniranno la coerenza dei rapporti tra le aree tematiche e ridurranno i costi di sviluppo di tali aree tematiche attraverso il riutilizzo delle dimensioni esistenti. La dimensione data è un eccellente esempio di dimensione conforme. La maggior parte dei magazzini ha una sola dimensione data utilizzata in tutto il magazzino.

Dimensione conforme – Sfide

  • Differenze strutturali-in alcuni casi si avranno tabelle di origine che contengono diverse strutture di tabelle Che possono includere:
    • colonne aggiuntive o mancanti
    • colonne con tipi di dati diversi
    • colonne con nomi diversi contenenti gli stessi o simili dati

Queste differenze di solito possono essere risolti facilmente, ma di tanto in tanto questo può essere difficile come le differenze devono essere risolti e accettato dai proprietari di imprese dei sistemi di origine. Senza risolvere questi problemi verranno implementate soluzioni alternative che, nel tempo, causeranno problemi di manutenzione e reporting.

Si noti le sfide che combinano le due tabelle di prodotto di seguito. Nella tabella PRODUCT_RETURN, la chiave primaria è PRODUCT_SKU, il campo PRODUCT_NAME è definito come varchar (100), PRODUCT_DESCRIPTION è definito come varchar(100) e PRODUCT_PRICE è definito come number(5,2).

Nella tabella PRODUCT_SALES, PRODUCT_UPC è definito come chiave primaria. Fortunatamente questo campo corrisponde al campo PRODUCT_UPC nella tabella PRODUCT_RETURN. Il campo PROD_NAME è definito come varchar (50), PROD_DESCRIPTION è definito come varchar(150) e PROD_PRICE è definito come number(7,2), tutti diversi da quelli della tabella PRODUCT_RETURN. La profilazione dei dati e la verifica dei dati saranno necessarie per garantire che i dati tra le due tabelle corrispondano. La tabella PRODUCT_SALES non dispone di una colonna per PRODUCT_CATEGORY. Un’ultima differenza è PROD_TYPE, PROD_ACTIVE_FL, PROD_START_DT e PROD_END_DT. Questi campi vengono utilizzati per acquisire la cronologia delle modifiche di un prodotto non acquisito dalla tabella PRODUCT_RETURN.

Per risolvere questi problemi e conformare le tabelle, proporrei la seguente dimensione del prodotto conforme.

  • Differenza di contenuto-a volte troverai che il contenuto memorizzato nelle tabelle è diverso:
    • I campi di testo contengono caratteri maiuscoli rispetto a caratteri misti
    • Le colonne contengono dati diversi / mancanti

I dati nella tabella PRODUCT_RETURN sembrano corrispondere a quelli della tabella PRODUCT_SALES con alcune eccezioni notevoli. I nomi dei prodotti non sempre corrispondono tra le due tabelle e gli UPC si ripetono nella tabella PRODUCT_SALES. La tabella PRODUCT_SALES non dispone di SKU pertanto, è necessario assicurarsi che gli SKU nella tabella PRODUCT_RETURN siano storicamente affidabili e possano essere utilizzati come attributo nella nuova dimensione. Prima di andare avanti questi problemi devono essere portati davanti ai proprietari del prodotto del sistema di origine per una risoluzione reciprocamente accettabile a queste anomalie dei dati.

PRODUCT_RETURN

PRODUCT_SALES

Conformi Dimensione – Tipo

  • Dimensione Condivisa – quando una tabella dei fatti condivide la stessa dimensione logica come un’altra tabella in un’altra stella o data mart. La dimensione data è un esempio di dimensione condivisa.
  • Rollup conforme – è un sottoinsieme di dati da una tabella di dimensioni e il sottoinsieme di dati condividono la stessa struttura e contenuto. Un esempio di dimensione rollup può essere visto nella dimensione mese mostrata di seguito. Come puoi vedere, la dimensione mese può essere collegata alla dimensione data e utilizzata per “arrotolare” i dati da un singolo giorno a un mese.

  • Dimensione sovrapposta: sono quelle tabelle e dimensioni di origine conformi tramite alcuni attributi sovrapposti. Nella maggior parte dei casi, i campi sovrapposti possono essere spostati in una nuova dimensione per evitare sovrapposizioni, creare un modello più facile da mantenere e fornire la possibilità di tenere traccia delle modifiche nelle relazioni nel tempo tramite una tabella dei fatti.

Dimensione conforme – Vantaggi

Le dimensioni conformi sono il fondamento su cui sono costruiti modelli dimensionali flessibili e scalabili. Un modellatore di dati deve pianificare la conformità nella progettazione assicurando che le dimensioni chiave dell’azienda siano dimensioni conformi che possono essere espanse per includere nuovi attributi nel tempo. I modelli dimensionali privi di dimensioni conformi saranno in grado di rispondere solo a semplici domande per il particolare data mart per il quale è stata costruita la dimensione. Se progettate correttamente, le dimensioni conformi possono e saranno utilizzate da diversi data mart, fornendo al cliente informazioni dettagliate sui propri dati che superano le aspettative iniziali.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.