Thứ Bảy, 12 tháng 4, 2014

Các loại lược đồ của Kho dữ liệu

DATA WAREHOUSE DIMENSIONAL MODELLING (TYPES OF SCHEMAS)

< Các loại lược đồ của Kho dữ liệu >


Có 4 loại lược đồ có sẵn trong Kho dữ liệu. Trong đó các lược đồ hình sao chủ yếu được sử dụng trong các mẫu thiết kế kho dữ liệu. Các lược đồ kho dữ liệu chủ yếu được sử dụng sau lược đồ hình sao đó là lược đồ bông tuyết.

***STAR SCHEMA***

Một lược đồ hình sao gồm 1 bảng Fact (bảng sự kiện) nằm ở trung tâm và được bao quanh bởi những bảng Dimension (bảng chiều).  Dữ liệu của lược đồ hình sao không được chuẩn hóa. Các câu hỏi nhằm vào bảng Fact và được cấu trúc bởi các bảng Dim.

Ưu điểm: Fact và Dim được mô tả rõ ràng, dễ hiểu. Bảng Dim là dữ liệu tĩnh. Bảng Fact là dữ liệu động, được nạp vào bằng thao tác. Lược đồ hình sao còn giúp cải thiện hiệu suất truy vấn. Dễ sử dụng, trực quan là ưu điểm của lược đồ hình sao. Khóa của Fact được tạo bởi khóa của các bảng Dim. Nghĩa là khóa chính của các bảng Dim chính là khóa của bảng Fact như hình vẽ.
Khuyết điểm: Các chiều không được chuẩn hóa.
Ví dụ: Như hình vẽ chúng ta có các bảng Dimension (bảng chiều) là Time, Store , Product và bảng Fact (bảng sự kiện) . Các bảng Dim thể hiện các trường hợp mà chúng ta cần phân tích như thời gian nào, cửa hàng nào, sản phẩm nào. Lưu ý, một bảng Dim tiên quyết mà khi xây dựng Data Warehouse phải có đó là Time. Còn bảng Sales Facts thể hiện cái gì mình cần phân tích như bao nhiêu Units, bao nhiêu Dollars. Từ 4 bảng nào ta lấy được gì? Ví dụ ông sếp muốn biết sản phẩm nào của siêu thị Coop Cống Quỳnh đem lại doanh thu cao nhất vào tháng 4/2014. Thì chúng ta lấy ở đâu? Tháng 4/2014 lấy từ Time Dim. Sản phẩm lấy từ Product Dim. Siêu thị Coop Cống Quỳnh lấy từ Store Dim. Và Doanh thu lấy từ Sales Fact (Dollars).

***SNOW FLAKE SCHEMA***

Một lược đồ bông tuyết là dạng mở rộng của lược đồ hình sao bằng cách bổ sung các Dimension.  Bảng Fact giống lược đồ hình sao. Bảng Dim được chuẩn hóa. Các chiều được cấu trúc rõ ràng. Một bảng Dim được chia thành chiều chính hay chiều phụ thì đó là dạng bông tuyết hoặc hình sao mở rộng.

Ưu điểm: Là dạng cải tiến của lược đồ hình sao. Số chiều được phân cấp thể hiện dạng chuẩn của bảng Dim.
Khuyết điểm: Cấu trúc phi dạng chuẩn của lược đồ hình sao thích hợp hơn cho việc duyệt các chiều.
Ví dụ: Với bảng Fact như lược đồ sao, còn bảng Dim được mở rộng như hình vẽ. Bây giờ lấy ví dụ một nhánh Product như sau: Nhìn trên lược đồ sao ta biết được sản phẩm nào với nhãn hàng nào. Nhưng nếu số lượng sản phẩm lên đến hàng nghìn sản phẩm, hàng trăm loại hàng hoặc ông sếp muốn thay đổi hoặc tách, thêm loại hàng cho sản phẩm cũ thì chuyện gì sẽ xảy ra? Không thể thay đổi trong cùng một bảng Product như trước. Lúc này buộc phải tách Product và Product Category thôi. Và dữ liệu lúc này đã được chuẩn hóa. Nếu muốn thay đổi chỉ cần thay đổi ở duy nhất một bảng, không ảnh hưởng gì đến dữ liệu chung.

***GALAXY SCHEMA***

Lược đồ này chứa nhiều bảng Fact cùng sử dụng chung một số bảng Dim. Lược đồ này là sự kết hợp của nhiều Data Mart.

Ví dụ: Ở đây chúng ta có 2 Data Mart đó là Sales (bán hàng) và Purchase (mua hàng) đều dùng chung bảng Time Dim và Product Dim nên khi vẽ kết hợp 2 Data Mart khác nhau thì sẽ có hình như trên.

***FACT CONSTELLATION SCHEMA***

Ở lược đồ này thì Dimension trong lược đồ được tách biệt thành Dimension độc lập dựa trên các cấp độ của hệ thống phân cấp. Ví dụ Geo có 5 cấp Region, Branch, Area, Province, District thay vì chỉ có một Geo chung.

   Theo Folkstalk
---Mai Huynh biên soạn---