클라우드 데이터 웨어하우스 대 기존 데이터 웨어하우스 개념
클라우드 기반 데이터 웨어하우스는 새로운 표준입니다. 사라는 당신의 사업이 하드웨어를 구입 서버 객실을 만들고 고용,기차,그것을 실행하는 직원의 전담 팀을 유지했다 일이다. 이제 노트북과 신용 카드를 몇 번의 클릭만으로 거의 무제한의 컴퓨팅 성능 및 저장 공간에 액세스 할 수 있습니다.
그러나 이것이 전통적인 데이터웨어 하우스 아이디어가 죽었다는 것을 의미하지는 않습니다. 고전적인 데이터웨어 하우스 이론은 클라우드 기반 데이터웨어 하우스가하는 일의 대부분을 뒷받침합니다.
이 글에서,우리는 당신이 알아야 할 기존의 데이터웨어 하우스 개념과 최고 공급자의 선택에서 가장 중요한 클라우드 것들에 대해 설명 할 것이다:아마존,구글,그리고 팬 플라이. 마지막으로 기존 데이터 웨어하우스와 클라우드 데이터 웨어하우스의 비용 편익 분석을 마무리하겠습니다.
시작하자.
- 기존 데이터 웨어하우스 개념
- 팩트,차원 및 측정값
- 정규화 및 비정규화
- 데이터 모델
- 팩트 테이블
- 스타 스키마 대 눈송이 스키마
- 3 계층 아키텍처
- 가상 데이터 웨어하우스/데이터 마트
- 킴볼 대 인몬
- 엔터프라이즈 데이터 웨어하우스
- 클라우드 데이터 웨어하우스 개념
- 클라우드 데이터 웨어하우스 개념-아마존 적색 편이
- 클러스터
- 노드
- 파티션/조각
- 원주 형 스토리지
- 압축
- 데이터 로드
- 클라우드 데이터베이스 웨어하우스-구글 빅쿼리
- 거상 파일 시스템
- 드레 멜 실행 엔진
- 데이터 공유
- 클라우드 데이터 웨어하우스 개념-데이터 웨어하우스
- 기본 키
- 증분 키
- 기록 테이블
- 변환
- 문자열 형식
- 데이터 보호
- 액세스 제어
- 결론:전통적인 개념 대 데이터 웨어하우스 개념 요약
- 기존 데이터 웨어하우스 개념
- 클라우드 데이터 웨어하우스 개념-
- 클라우드 데이터 웨어하우스 개념-빅쿼리를 예로 들자면
- 기존 대 클라우드 비용 편익 분석
- 데이터 웨어하우스에 대해 자세히 알아보기
기존 데이터 웨어하우스 개념
데이터 웨어하우스는 조직 내의 광범위한 소스의 데이터를 대조하는 모든 시스템입니다. 데이터 웨어하우스는 분석 및 보고 목적으로 중앙 집중식 데이터 리포지토리로 사용됩니다.
기존 데이터 웨어하우스는 사무실 현장에 있습니다. 당신은 하드웨어,서버 객실을 구입하고 실행하는 직원을 고용. 또한 온 프레미스,온 프레미스 또는(문법적으로 잘못된)온 프레미스 데이터 웨어하우스라고도합니다.
팩트,차원 및 측정값
데이터 웨어하우스에 있는 정보의 핵심 구성 요소는 팩트,차원 및 측정값입니다.
팩트는 특정 발생 또는 트랜잭션을 나타내는 데이터의 일부입니다. 예를 들어 비즈니스에서 꽃을 판매하는 경우 데이터 웨어하우스에 표시되는 몇 가지 사실은 다음과 같습니다:
- 판매 30 장미 매장$19.99
- 주문 500 새로운 화분 중국에서$1500
- 지불 급여 계산원 이달$1000
여러 숫자가 각 사실을 설명 할 수 있으며,우리는이 숫자를 측정이라고 부릅니다. 사실’주문 500 에 대 한 중국에서 새로운 화분$1500’을 설명 하기 위해 몇 가지 조치는:
- 주문되는 양-500
- 비용- $1500
분석가는 데이터로 작업할 때 측정값(예:합계,최대값,평균)에 대한 계산을 수행하여 인사이트를 수집합니다. 예를 들면,너는 너가 각 달을 주문하는 화분의 평균 수를 알 싶는 수도 있다.
차원은 사실과 측정값을 분류하고 이에 대한 구조화된 라벨링 정보를 제공합니다. 사실’주문 500$1500 에 대 한 중국에서 새로운 화분’을 설명 하기 위해 몇 가지 차원은:
- 구매 국가-중국
- 구매 시간-오후 1 시
- 예상 도착 날짜-6 월 6 일
치수에 대한 계산을 명시 적으로 수행 할 수 없으므로 그다지 도움이되지 않습니다. 그러나 차원에서 새 측정값을 만들 수 있으며 이러한 측정값이 유용합니다. 당신이 주문 날짜와 도착 날짜 사이의 평균 일 수를 알고있는 경우 예를 들어,당신은 더 나은 계획 주식 매입 할 수 있습니다.
정규화 및 비정규화
정규화는 데이터 웨어하우스(또는 데이터를 저장하는 다른 장소)에서 데이터를 효율적으로 구성하는 프로세스입니다. 주요 목표는 데이터 중복성을 줄이는 것,즉 중복 된 데이터를 제거하고 데이터 무결성을 향상시키는 것,즉 데이터의 정확성을 향상시키는 것입니다. 다른 수준의 정규화가 있으며’최상의’방법에 대한 합의가 없습니다. 그러나 모든 방법에는 별도의 관련 정보를 다른 테이블에 저장하는 것이 포함됩니다.
정규화에는 다음과 같은 많은 이점이 있습니다:
- 각 테이블에서 더 빠른 검색 및 정렬
- 더 간단한 테이블로 데이터 수정 명령을 더 빠르게 작성 및 실행할 수 있음
- 중복 데이터가 적다는 것은 디스크 공간을 절약 할 수 있으므로 더 많은 데이터를 수집하고 저장할 수 있습니다
비정규화는 이미 정규화 된 데이터에 중복 복사본 또는 데이터 그룹을 의도적으로 추가하는 프로세스입니다. 정규화되지 않은 데이터와 동일하지 않습니다. 비정규화는 읽기 성능을 향상시키고 테이블을 원하는 양식으로 훨씬 쉽게 조작 할 수 있도록합니다. 분석가는 데이터 웨어하우스로 작업할 때 일반적으로 데이터에 대한 읽기 만 수행합니다. 따라서 비정규화 된 데이터는 방대한 시간과 두통을 절약 할 수 있습니다.
비정규화의 이점:
- 테이블 수가 적 으면 테이블 조인의 필요성을 최소화하여 데이터 분석가의 워크 플로를 가속화하고 데이터에서 더 유용한 통찰력을 발견하게됩니다.
- 테이블 수가 적 으면 쿼리를 단순화하여 버그 수가 줄어 듭니다.
데이터 모델
모든 데이터를 하나의 거대한 테이블에 저장하는 것은 매우 비효율적입니다. 따라서 데이터 웨어하우스에는 특정 정보를 얻기 위해 함께 조인할 수 있는 많은 테이블이 포함되어 있습니다. 기본 테이블을 팩트 테이블이라고 하며 차원 테이블을 둘러싸고 있습니다.
데이터 웨어하우스 디자인의 첫 번째 단계는 원하는 데이터와 이들 간의 상위 수준 관계를 정의하는 개념적 데이터 모델을 구축하는 것입니다.
여기,우리는 개념적 모델을 정의 했습니다. 우리는 판매 데이터를 저장하고 있으며 각 판매에 대한 추가,보다 세부적인 정보를 제공하는 세 개의 추가 테이블(시간,제품 및 상점)을 보유하고 있습니다. 팩트 테이블은 판매이고 다른 테이블은 차원 테이블입니다.
다음 단계는 논리적 데이터 모델을 정의하는 것이다. 이 모델은 코드에서 데이터를 구현하는 방법에 대해 걱정하지 않고 일반 영어로 데이터를 자세히 설명합니다.
이제 우리는 각 테이블에 일반 영어로 포함 된 정보를 작성했습니다. 각 시간,제품 및 저장소 차원 테이블에는 회색 상자에 기본 키가 표시되고 파란색 상자에 해당 데이터가 표시됩니다. 판매 테이블에는 세 개의 외래 키가 포함되어 있으므로 다른 테이블과 빠르게 조인할 수 있습니다.
마지막 단계는 물리적 데이터 모델을 만드는 것입니다. 이 모델은 코드에서 데이터 웨어하우스를 구현하는 방법을 알려줍니다. 테이블,구조 및 테이블 간의 관계를 정의합니다. 또한 열에 대한 데이터 유형을 지정하며 모든 것이 최종 데이터웨어 하우스에 있으므로 이름이 지정됩니다(예:모두 대문자 및 밑줄로 연결됨). 마지막으로 각 차원 테이블은 딤 _로 시작하고 각 팩트 테이블은 팩트 _로 시작합니다.
이제 데이터 웨어하우스를 디자인하는 방법을 알고 있지만 팩트 및 차원 테이블에는 다음에 설명해야 할 몇 가지 뉘앙스가 있습니다.
팩트 테이블
각 비즈니스 기능(예:영업,마케팅,재무)에는 해당 팩트 테이블이 있습니다.
팩트 테이블에는 차원 열과 팩트 열의 두 가지 유형의 열이 있습니다. 차원 열(이 예에서는 회색으로 표시됨)에는 팩트 테이블을 차원 테이블과 조인하는 데 사용하는 외래 키가 포함되어 있습니다. 이러한 외래 키는 각 차원 테이블에 대한 기본 키입니다. 이 예에서 노란색으로 표시된 팩트 열에는 분석할 실제 데이터 및 측정값(예:판매된 품목 수 및 매출 총 달러 가치)이 포함됩니다.
팩트 없는 팩트 테이블은 차원 열만 있는 특정 유형의 팩트 테이블입니다. 이러한 테이블은 학생 출석 또는 직원 휴가와 같은 이벤트를 추적하는 데 유용하며,차원은 이벤트에 대해 알아야 할 모든 것을 알려줍니다.
위의 사실없는 사실 테이블은 직원 휴가를 추적합니다. 당신은 단지 알 필요가 있기 때문에 아무 사실이 없습니다:
- 어느 날 그들은 떨어져 있었다(일).
- 얼마나 오래 떨어져 있었는지(시간).
- 휴가중인 사람(고용인).
- 휴가중인 이유,예:,질병,휴일,의사의 약속 등 이 문제를 해결하는 방법은 무엇입니까?
스타 스키마 대 눈송이 스키마
위의 데이터 웨어하우스는 모두 비슷한 레이아웃을 가지고 있습니다. 그러나,이 그들을 정렬 할 수있는 유일한 방법은 아니다.
데이터 웨어하우스를 구성하는 데 사용되는 가장 일반적인 두 스키마는 스타와 눈송이입니다. 두 방법 모두 팩트 테이블에 포함된 정보를 설명하는 차원 테이블을 사용합니다.
스타 스키마는 팩트 테이블의 정보를 가져와 비정규화된 차원 테이블로 분할합니다. 스타 스키마에 대한 강조는 쿼리 속도에 있습니다. 팩트 테이블을 각 차원에 연결하려면 하나의 조인 만 필요하므로 각 테이블을 쉽게 쿼리 할 수 있습니다. 그러나 테이블이 비정규화되어 있기 때문에 종종 반복되고 중복되는 데이터가 포함됩니다.
눈송이 스키마는 팩트 테이블을 일련의 정규화된 차원 테이블로 분할합니다. 정규화하면 더 많은 차원 테이블이 생성되므로 데이터 무결성 문제가 줄어듭니다. 그러나 관련 데이터에 액세스하려면 더 많은 테이블 조인이 필요하기 때문에 눈송이 스키마를 사용하여 쿼리하는 것이 더 어렵습니다. 그래서,당신은 적은 중복 데이터를 가지고 있지만 액세스하기가 어렵습니다.
이제 좀 더 기본적인 데이터웨어 하우스 개념을 설명하겠습니다.
온라인 트랜잭션 처리는 엔터프라이즈 데이터 아키텍처의 프런트 엔드 응용 프로그램을 포함하는 짧은 쓰기 트랜잭션이 특징입니다. 데이터베이스는 빠른 쿼리 처리를 강조하고 현재 데이터 만 처리합니다. 기업은 이를 사용하여 비즈니스 프로세스에 대한 정보를 캡처하고 데이터 웨어하우스에 대한 원본 데이터를 제공합니다.
온라인 분석 처리를 사용하면 복잡한 읽기 쿼리를 실행하여 과거 트랜잭션 데이터에 대한 자세한 분석을 수행할 수 있습니다. 데이터 웨어하우스에서 데이터를 분석하는 데 도움이 됩니다.
3 계층 아키텍처
기존 데이터 웨어하우스는 일반적으로 3 계층으로 구성됩니다:
- 일반적으로 게이트웨이를 사용하여 여러 소스에서 데이터를 추출하는 데이터베이스 서버입니다. 이 계층에 공급되는 데이터 원본에는 운영 데이터베이스 및 기타 유형의 프런트 엔드 데이터가 포함됩니다.예를 들어 다차원 데이터에 대한 작업을 표준 관계형 연산에 매핑합니다.
- 상위 계층:데이터 분석 및 비즈니스 인텔리전스를위한 쿼리 및보고 도구.
가상 데이터 웨어하우스/데이터 마트
가상 데이터 웨어하우징은 데이터를 하나의 물리적 데이터 웨어하우스에 통합하지 않고 여러 데이터베이스에서 분산 쿼리를 사용합니다.
데이터 마트는 판매 또는 재무와 같은 특정 비즈니스 기능을 지향하는 데이터 웨어하우스의 하위 집합입니다. 데이터 웨어하우스는 일반적으로 여러 비즈니스 기능에 여러 데이터 마트의 정보를 결합합니다. 그러나 데이터 마트에는 하나의 비즈니스 기능에 대한 소스 시스템 세트의 데이터가 포함되어 있습니다.
킴볼 대 인몬
빌 인몬과 랄프 킴볼이 제안한 데이터웨어 하우스 설계에는 두 가지 접근 방식이 있습니다. 빌 인몬은 데이터 웨어하우스의 아버지로 인정받는 미국의 컴퓨터 과학자이다. 랄프 킴볼은 데이터 웨어하우징의 원래 건축가 중 한 명이며 이 주제에 관한 여러 권의 책을 저술했다.
두 전문가는 데이터 웨어하우스를 구성하는 방법에 대해 상충되는 의견을 가지고 있었다. 이 충돌은 생각의 2 개의 학교를 초래했다.
인몬 접근 방식은 하향식 디자인입니다. 데이터 웨어하우스는 데이터 웨어하우스에서 가장 먼저 생성되며 분석 환경의 핵심 구성 요소로 간주됩니다. 그런 다음 중앙 집중식 웨어하우스에서 하나 이상의 종속 데이터 마트로 데이터를 요약 및 배포합니다.
킴볼 접근 방식은 데이터 웨어하우스 디자인의 상향식 보기를 사용합니다. 이 아키텍처에서 조직은 조직 내의 단일 부서로 뷰를 제공하는 별도의 데이터 마트를 만듭니다. 데이터 웨어하우스는 이러한 데이터 마트의 조합입니다.
추출,변환,로드는 소스 시스템(일반적으로 트랜잭션 시스템)에서 데이터를 추출하고 데이터를 쿼리 및 분석에 적합한 형식 또는 구조로 변환한 다음 마지막으로 데이터 웨어하우스로 로드하는 프로세스를 설명합니다. 별도의 준비 데이터베이스를 활용하고 로드하기 전에 추출된 데이터에 일련의 규칙 또는 함수를 적용합니다.
추출,로드,변환(엘티)은 데이터 로드에 대한 다른 접근 방식입니다. 서로 다른 소스에서 데이터를 가져와 데이터 웨어하우스와 같은 대상 시스템에 직접 로드합니다. 그런 다음 시스템은 로드된 데이터를 주문형으로 변환하여 분석을 가능하게 합니다.
ELT 제공하는 빠르게 로딩상 ETL 지만,그것은 필요한 강력한 시스템을 수행하는 데이터 변환 on-demand.
엔터프라이즈 데이터 웨어하우스
엔터프라이즈 데이터 웨어하우스는 현재 및 과거 조직의 모든 트랜잭션 정보를 포함하는 통합 중앙 집중식 웨어하우스로 사용됩니다. 엔터프라이즈 데이터 웨어하우스는 마케팅,영업,재무 및 인적 자원과 같이 비즈니스와 관련된 모든 주제 영역의 데이터를 통합해야 합니다.
이들은 전통적인 데이터 웨어하우스를 구성하는 핵심 아이디어입니다. 이제 클라우드 데이터웨어 하우스가 그 위에 추가 한 내용을 살펴 보겠습니다.
클라우드 데이터 웨어하우스 개념
클라우드 데이터 웨어하우스는 새롭고 끊임없이 변화하고 있습니다. 기본 개념을 가장 잘 이해하려면 주요 클라우드 데이터 웨어하우스 솔루션에 대해 배우는 것이 가장 좋습니다.
세 가지 주요 클라우드 데이터 웨어하우스 솔루션은 아마존 레드시프트,구글 빅쿼리,팬폴리입니다. 아래에서는 이러한 각 서비스의 기본 개념을 설명하여 최신 데이터 웨어하우스의 작동 방식에 대한 일반적인 이해를 제공합니다.
클라우드 데이터 웨어하우스 개념-아마존 적색 편이
다음 개념은 아마존 적색 편이 클라우드 데이터 웨어하우스에서 명시적으로 사용되지만 향후 아마존 인프라를 기반으로 추가 데이터 웨어하우스 솔루션에 적용될 수 있습니다.
클러스터
아마존 적색 편이는 클러스터에 아키텍처를 기반으로. 클러스터는 단순히 노드라고하는 공유 컴퓨팅 리소스 그룹입니다.
노드
노드는 프로세서,램 및 하드 디스크 공간이 있는 컴퓨팅 리소스입니다. 둘 이상의 노드를 포함하는 클러스터는 리더 노드와 컴퓨팅 노드로 구성됩니다.
리더 노드는 클라이언트 프로그램과 통신하고 코드를 컴파일하여 쿼리를 실행하여 컴퓨팅 노드에 할당합니다. 계산 노드는 쿼리를 실행하고 결과를 리더 노드로 반환합니다. 계산 노드는 해당 노드에 저장된 테이블을 참조하는 쿼리만 실행합니다.
파티션/조각
아마존은 각 컴퓨팅 노드를 조각으로 분할합니다. 조각은 노드의 메모리 및 디스크 공간 할당을 받습니다. 여러 조각이 병렬로 작동하여 쿼리 실행 시간을 단축합니다.
원주 형 스토리지
적색 편이는 원주 형 스토리지를 사용하여 분석 쿼리 성능을 향상시킵니다. 레코드를 행에 저장하는 대신 여러 행에 대해 단일 열의 값을 저장합니다. 다음 다이어그램에서는 이를 더 명확하게 보여 줍니다:
열 저장소를 사용하면 데이터를 더 빠르게 읽을 수 있으며 이는 데이터 집합의 여러 열에 걸쳐 있는 분석 쿼리에 매우 중요합니다. 또한 각 블록에는 동일한 유형의 데이터가 포함되어 있기 때문에 원주 형 스토리지는 디스크 공간을 덜 차지하므로 특정 형식으로 압축 할 수 있습니다.
압축
압축은 저장된 데이터의 크기를 줄입니다. 적색 편이에서는 데이터가 저장되는 방식 때문에 열 수준에서 압축이 발생합니다. 적색 편이를 사용하면 테이블을 만들 때 정보를 수동으로 압축하거나 복사 명령을 사용하여 자동으로 압축 할 수 있습니다.
데이터 로드
적색 편이의 복사 명령을 사용하여 데이터 웨어하우스에 많은 양의 데이터를 로드할 수 있습니다. 이 명령을 사용하면 여러 개의 원격 호스트에서 출력되는 텍스트 또는 데이터를 병렬로 읽고 로드할 수 있습니다.
그것은 아마존 키네시스 파이어 호스 서비스를 사용하여,적색 편이로 데이터를 스트리밍하는 것도 가능하다.
클라우드 데이터베이스 웨어하우스-구글 빅쿼리
다음 개념은 구글 빅쿼리 클라우드 데이터 웨어하우스에서 명시적으로 사용되지만 향후 구글 인프라에 기반한 추가 솔루션에 적용될 수 있습니다.서버리스 아키텍처는 서버리스 아키텍처를 사용합니다. 빅 쿼리의 경우 기업은 데이터 웨어하우스를 실행하기 위해 물리적 서버 단위를 관리할 필요가 없습니다. 대신 빅 쿼리는 컴퓨팅 리소스 할당을 동적으로 관리합니다. 이 서비스를 사용하는 기업은 기가 바이트 당 데이터 저장 및 테라 바이트 당 쿼리 비용을 지불하기 만하면됩니다.
거상 파일 시스템
거상은 구글의 분산 파일 시스템,코드 명 거상의 최신 버전을 사용합니다. 거상 파일 시스템은 최적의 분석 목적을 위해 데이터를 저장하는 원주 저장 및 압축 알고리즘을 사용한다.
드레 멜 실행 엔진
드레 멜 실행 엔진은 신속하게 데이터의 광대 한 저장소를 쿼리하는 열 레이아웃을 사용합니다. 이 트리 아키텍처의 형태로 대규모 병렬 처리를 사용하기 때문에 드레 멜의 실행 엔진은 초 행의 수십억 임시 쿼리를 실행할 수 있습니다.
트리 아키텍처는 루트 서버의 여러 중간 서버 간에 쿼리를 배포합니다. 중간 서버는 쿼리를 리프 서버(저장된 데이터 포함)로 푸시하여 데이터를 병렬로 검색합니다. 트리를 백업하는 도중에 각 리프 서버는 쿼리 결과를 보내고 중간 서버는 부분 결과의 병렬 집계를 수행합니다.
이미지 소스
드레 멜은 조직이 동시에 최대 수만 서버에서 쿼리를 실행할 수 있습니다. 구글에 따르면,드레 멜은 수십 초에 인덱스없이 350 억 행을 검색 할 수 있습니다.
데이터 공유
구글 빅 쿼리의 서버리스 아키텍처는 기업이 자신의 스토리지에 투자 할 필요없이 다른 조직과 데이터를 쉽게 공유 할 수 있습니다.
공유 데이터를 쿼리하려는 조직은 그렇게 할 수 있으며 쿼리에 대해서만 비용을 지불합니다. 조직의 데이터 인프라 외부에 비용이 많이 드는 공유 데이터 사일로를 만들고 해당 사일로에 데이터를 복사 할 필요가 없습니다.데이터 저장소의 백업은 물론,데이터 저장소의 백업도 가능합니다. 읽을 수 있는 데이터 원본에서 직접 데이터를 로드할 수도 있습니다.또한 로드를 수행하지 않고도 초당 수백만 행의 속도로 데이터를 시스템에 로드할 수 있습니다. 데이터는 거의 즉시 분석 할 수 있습니다.
클라우드 데이터 웨어하우스 개념-데이터 웨어하우스
데이터 웨어하우스는 데이터 웨어하우스와 강력한 데이터 웨어하우스를 결합한 올인원 웨어하우스입니다. 빅 데이터 변환,통합 및 관리와 관련된 개발 및 코딩을 제거하여 회사 데이터를 동기화,저장 및 액세스하는 가장 쉬운 방법입니다.
다음은 데이터 모델링 및 데이터 보호와 관련된 팬플라이 데이터 웨어하우스의 주요 개념입니다.
기본 키
기본 키는 테이블의 모든 행이 고유한지 확인합니다. 각 테이블에는 데이터베이스의 단일 고유 행을 나타내는 항목을 정의하는 하나 이상의 기본 키가 있습니다. 모든 테이블에는 테이블에 대한 기본 기본 키가 있습니다.
증분 키
증분 키를 사용하여 무언가가 변경될 때마다 전체 데이터 집합을 다시 로드하는 대신 원본에서 데이터 웨어하우스로 데이터를 증분 로딩하는 특성을 제어합니다. 이 기능은 대부분 변경되지 않은 데이터를 읽는 데 오랜 시간이 걸릴 수 있는 대규모 데이터 집합에 유용합니다. 증분 키는 해당 데이터 원본의 행에 대한 마지막 업데이트 지점을 나타냅니다.-중첩 값을 허용하지 않는 강력한 관계형 모델을 사용하여 중첩 데이터를 처리합니다. 다음과 같은 방법으로 중첩된 데이터를 변환합니다:
- 하위 테이블:기본적으로 일반 관계형 테이블인 다대다 또는 일대 다 관계 테이블 집합으로 중첩된 데이터를 변환합니다.
- 평탄화:이 모드를 사용하면 중첩 구조를 포함하는 레코드에 평탄화합니다.
기록 테이블
데이터가 어떻게 변경되는지(예:사람 주소)정확하게 확인하기 위해 시간에 따라 변화하는 데이터를 추적하여 데이터를 분석해야 하는 경우가 있습니다.
이러한 분석을 수행하기 위해 원본 정적 테이블의 모든 행에 대한 기록 스냅샷이 포함된 시계열 테이블인 기록 테이블을 사용합니다. 그런 다음 임의의 시점으로 되감기하여 테이블에 대한 원래 테이블 또는 수정본을 간단하게 쿼리할 수 있습니다.
변환
원본의 데이터를 데이터 웨어하우스에 주입하면 즉시 변환됩니다. 이 프로세스는 표준 데이터 분석 프로세스와 비교할 때 실시간 데이터 분석 및 최적의 성능을 제공합니다.
문자열 형식
팬플리는 문자열 형식을 구문 분석하고 원본 데이터에 중첩된 개체인 것처럼 처리합니다. 지원되는 문자열 형식은 다음과 같습니다.
데이터 보호
데이터 보호
추가 보호는 열 암호화에서 비롯되며,이 암호화를 통해 파노플리의 서버에 저장되지 않은 개인 키를 사용할 수 있습니다.
액세스 제어
패너플은 무단 액세스를 방지하기 위해 2 단계 인증을 사용하며 권한 시스템을 통해 특정 테이블,뷰 또는 열에 대한 액세스를 제한할 수 있습니다. 예외 항목 탐지는 새 컴퓨터 또는 다른 국가에서 오는 쿼리를 식별하여 수동 승인을 받지 않는 한 해당 쿼리를 차단할 수 있습니다.보안 그룹을 사용하여 인식할 수 없는 소스의 연결을 차단하는 것이 좋습니다.
결론:전통적인 개념 대 데이터 웨어하우스 개념 요약
마무리하기 위해 이 문서에 소개된 개념을 요약해 보겠습니다.
기존 데이터 웨어하우스 개념
- 사실 및 측정값:측정값은 계산을 수행할 수 있는 속성입니다. 우리는 사실,측정의 컬렉션을 참조 하지만 때로는 용어 같은 의미로 사용 됩니다.
- 정규화:중복 데이터의 양을 줄이는 프로세스로,쿼리 속도가 느린 메모리 효율적인 데이터 웨어하우스를 만듭니다.
- 차원:사실과 측정값을 분류하고 맥락화하여 이러한 측정값을 분석하고 보고하는 데 사용됩니다.
- 개념적 데이터 모델:중요한 상위 수준의 데이터 엔티티와 이들 간의 관계를 정의합니다.
- 논리 데이터 모델: 데이터 관계,엔터티 및 특성을 코드에서 구현하는 방법에 대해 걱정하지 않고 일반 영어로 설명합니다.
- 물리적 데이터 모델:특정 데이터베이스 관리 시스템에서 데이터 설계를 구현하는 방법을 나타냅니다.
- 스타 스키마:팩트 테이블을 가져와 해당 정보를 비정규화된 차원 테이블로 분할합니다.
- 눈송이 스키마:팩트 테이블을 정규화된 차원 테이블로 분할합니다. 정규화는 데이터 중복 문제를 줄이고 데이터 무결성을 향상 시키지만 쿼리는 더 복잡합니다.
- : 온라인 트랜잭션 처리 시스템은 간단한 쿼리로 빠르고 트랜잭션 지향적 인 처리를 용이하게합니다.
- 온라인 분석 처리를 통해 복잡한 읽기 쿼리를 실행하여 과거 트랜잭션 데이터에 대한 자세한 분석을 수행할 수 있습니다.
- 데이터 마트:조직 내의 특정 주제 또는 부서에 초점을 맞춘 데이터 아카이브.
- 인몬 접근 방식:빌 인몬의 데이터 웨어하우스 접근 방식은 데이터 웨어하우스를 전체 엔터프라이즈를 위한 중앙 집중식 데이터 리포지토리로 정의합니다. 데이터 웨어하우스에서 데이터 마트를 구축하여 여러 부서의 분석 요구 사항을 충족할 수 있습니다.
- 킴볼 접근법:랄프 킴볼은 데이터 웨어하우스를 미션 크리티컬 데이터 마트의 병합으로 설명하며,이 마트는 다른 부서의 분석적 요구를 충족시키기 위해 처음 만들어집니다.
- 데이터 웨어하우스:다양한 트랜잭션 원본에서 데이터를 추출하고 데이터를 변환하여 분석을 위해 최적화한 다음 마지막으로 데이터 웨어하우스에 로드하여 데이터를 데이터 웨어하우스에 통합합니다.
- : 데이터 웨어하우스에서 데이터 웨어하우스에 데이터를 로드하는 데 사용되는 데이터 웨어하우스입니다. 필요한 경우 분석 목적으로 변형됩니다.
- 엔터프라이즈 데이터 웨어하우스:엔터프라이즈 데이터 웨어하우스는 엔터프라이즈와 관련된 모든 주제 영역의 데이터를 통합합니다.
클라우드 데이터 웨어하우스 개념-
- 클러스터:클라우드에 기반을 둔 공유 컴퓨팅 리소스 그룹입니다.
- 노드:클러스터 내에 포함된 컴퓨팅 리소스입니다. 각 노드에는 자체 프로세서,램 및 하드 디스크 공간이 있습니다.
- 원주 저장: 이렇게 하면 테이블 값이 행이 아닌 열에 저장되므로 집계된 쿼리에 대한 데이터가 최적화됩니다.
- 압축:저장된 데이터의 크기를 줄이는 기술.
- 데이터 로드:소스의 데이터를 클라우드 기반 데이터 웨어하우스로 가져옵니다. 적색 편이에서는 복사 명령 또는 데이터 스트리밍 서비스를 사용할 수 있습니다.
클라우드 데이터 웨어하우스 개념-빅쿼리를 예로 들자면
- 서버리스 서비스:클라우드 공급자는 사용자가 소비하는 양에 따라 머신 리소스 할당을 동적으로 관리합니다. 클라우드 공급자는 서비스 사용자로부터 서버 관리 및 용량 계획 결정을 숨깁니다.
- 거상 파일 시스템:원주 형 저장 및 데이터 압축 알고리즘을 사용하여 분석을 위해 데이터를 최적화하는 분산 파일 시스템입니다.
- 드레 멜 실행 엔진:대규모 병렬 처리 및 열 저장소를 사용하여 쿼리를 신속하게 실행하는 쿼리 엔진입니다.
- 데이터 공유:서버리스 서비스에서는 데이터 스토리지에 투자하지 않고 다른 조직의 공유 데이터를 쿼리하는 것이 실용적입니다.
- 스트리밍 데이터:로드를 수행하지 않고 데이터를 데이터 웨어하우스에 실시간으로 삽입합니다. 일괄 처리 요청에서 데이터를 스트리밍할 수 있습니다.
기존 대 클라우드 비용 편익 분석
비용/혜택 | 기존 | 클라우드 |
비용 | 온프레미스 시스템 구매 및 설치에 대한 대규모 선행 비용. 하드웨어,서버 실 및 전문 인력(지속적으로 지불하는 직원)이 필요합니다. 필요한 저장 공간이 확실하지 않은 경우 복구하기 어려운 높은 침몰 비용이 발생할 위험이 있습니다. |
하드웨어,서버 룸을 구입하거나 전문가를 고용 할 필요가 없습니다. 침몰 비용의 위험-미래에 더 많은 스토리지를 구입하는 것은 쉽다. 또한 스토리지 및 컴퓨팅 성능 비용은 시간이 지남에 따라 감소하고 있습니다. |
확장성 | 현재 서버 실 또는 하드웨어 용량을 최대화하면 새 하드웨어를 구입하여 더 많은 공간을 구축/구매해야 할 수 있습니다. 게다가,당신은 피크 시간에 대처하기 위해 충분한 스토리지를 구입해야합니다; 따라서 대부분의 경우 대부분의 스토리지는 사용되지 않습니다. |
당신은 쉽게 당신이 그것을 필요로 할 때 더 많은 스토리지를 구입할 수 있습니다. 종종 당신이 사용하는 것을 지불해야하므로 초과 지불의 위험이 거의 없다. |
통합 | 클라우드 컴퓨팅이 표준이기 때문에,당신이 만들고 싶은 대부분의 통합은 클라우드 서비스에있을 것입니다. 사용자 지정 데이터 웨어하우스를 연결하는 것은 어려울 수 있습니다. |
클라우드 데이터 웨어하우스가 이미 클라우드에 있으므로 다양한 클라우드 서비스에 연결하는 것은 간단합니다. |
보안 | 데이터 웨어하우스를 완벽하게 제어할 수 있습니다. 당신이 가지고있는 데이터의 양을 아마존이나 구글과 비교하면,당신은 도둑의 더 작은 표적입니다. 그래서,당신은 혼자 남아있을 가능성이 더 높을 수 있습니다. |
클라우드 데이터웨어 하우스 제공 업체는 고도로 숙련 된 보안 엔지니어로 가득 찬 팀을 보유하고 있으며,그 목적은 제품을 가능한 한 안전하게 만드는 것입니다. 세계에서 가장 저명한 기업들이이를 관리하고 따라서 세계적 수준의 보안 관행을 구현합니다. |
거버넌스 | 데이터가 어디에 있는지 정확히 알고 로컬로 액세스 할 수 있습니다. 예를 들어,클라우드 서버를 통해 전 세계를 여행함으로써 매우 민감한 데이터가 실수로 법을 위반할 위험이 적습니다. |
최고의 클라우드 데이터 웨어하우스 제공업체는 다음과 같은 거버넌스 및 보안 법률을 준수하는지 확인합니다. 또한,그들은 귀하의 비즈니스가 준수하는지 확인하는 데 도움이됩니다. 데이터가 정확히 어디에 있고 어디로 이동하는지 아는 데 문제가 있습니다. 이러한 문제는 적극적으로 해결되고 해결됩니다. 방대한 양의 매우 민감한 데이터를 클라우드에 저장하는 것은 특정 법률에 위배될 수 있습니다. 이는 클라우드 컴퓨팅이 귀하의 비즈니스에 부적절 할 수있는 한 가지 사례입니다. |
안정성 | 온프레미스 데이터 웨어하우스에 오류가 발생하면 문제를 해결하는 것은 사용자의 책임입니다.모든 소프트웨어 계층에 액세스하여 문제를 해결할 수 있습니다. 이 빠른 액세스는 문제를 훨씬 빠르게 해결할 수 있습니다. 그러나 창고에 매년 특정 가동 시간이 있다는 보장은 없습니다. |
클라우드 데이터 웨어하우스 제공업체는 그들의 신뢰성과 가동 시간을 보장합니다. 그들은 전 세계에 걸쳐 대규모 분산 시스템에서 작동,그래서 하나에 오류가 있다면,그것은 당신에 영향을 미칠 가능성이 매우 높다. |
제어 | 데이터 웨어하우스는 사용자의 요구에 맞게 맞춤 제작되었습니다. 이론적으로,그것은 당신이 원하는 것을,당신이 원할 때,당신이 이해하는 방식으로 수행합니다. | 데이터 웨어하우스를 완전히 제어할 수 없습니다. 그러나 대부분의 경우,당신이 가진 통제는 충분합니다. |
속도 | 한 지리적 위치에 있는 소규모 회사인 경우 데이터 처리가 더 빨라집니다. 그러나 일부 프로세스가 완료 될 때까지 밀리 초 대 초를 말하고 있습니다. 여러 국가에서 운영되는 대기업은 온 프렘 시스템으로 상당한 속도 향상을 볼 수 없을 것입니다. |
클라우드 제공 업체는 대규모 병렬 처리,맞춤형 아키텍처 및 실행 엔진,지능형 데이터 처리 알고리즘을 구현하는 시스템에 투자하고 구축했습니다. 클라우드 데이터 웨어하우스는 속도와 성능에 최적화된 리소스를 만들기 위한 수년간의 연구와 테스트의 결과입니다. 어떤 경우에는 온 프렘보다 약간 느릴 수 있지만 이러한 지연은 종종 인간에게는 무시할 수 있습니다(초 대 밀리 초). |
모든 비즈니스 데이터를 저장,동기화 및 액세스 할 수있는 안전한 장소입니다. 파노플리는 몇 분 안에 설정할 수 있고,지속적인 유지보수가 필요 없으며,경험이 풍부한 데이터 아키텍트에 대한 액세스를 포함한 온라인 지원을 제공합니다. 14 일 동안 무료로 사용해보십시오.
데이터 웨어하우스에 대해 자세히 알아보기
- 데이터 웨어하우스 아키텍처:기존 대 클라우드
- 데이터베이스 대 데이터 웨어하우스
- 데이터 마트 대 데이터 웨어하우스