DATA
WAREHOUSE DIMENSIONAL MODELLING (TYPES OF SCHEMAS)
< Các
loại lược đồ của Kho dữ liệu >
Có 4
loại lược đồ có sẵn trong Kho dữ liệu. Trong đó các lược đồ hình sao chủ yếu được
sử dụng trong các mẫu thiết kế kho dữ liệu. Các lược đồ kho dữ liệu chủ yếu được
sử dụng sau lược đồ hình sao đó là lược đồ bông tuyết.
***STAR
SCHEMA***
Một
lược đồ hình sao gồm 1 bảng Fact (bảng sự kiện) nằm ở trung tâm và được bao
quanh bởi những bảng Dimension (bảng chiều). Dữ liệu của lược đồ hình sao không được chuẩn
hóa. Các câu hỏi nhằm vào bảng Fact và được cấu trúc bởi các bảng Dim.
Ưu
điểm: Fact và Dim được mô tả rõ ràng, dễ hiểu. Bảng Dim là dữ liệu tĩnh. Bảng
Fact là dữ liệu động, được nạp vào bằng thao tác. Lược đồ hình sao còn giúp cải
thiện hiệu suất truy vấn. Dễ sử dụng, trực quan là ưu điểm của lược đồ hình
sao. Khóa của Fact được tạo bởi khóa của các bảng Dim. Nghĩa là khóa chính của
các bảng Dim chính là khóa của bảng Fact như hình vẽ.
Khuyết
điểm: Các chiều không được chuẩn hóa.
Ví dụ:
Như hình vẽ chúng ta có các bảng Dimension (bảng chiều) là Time, Store ,
Product và bảng Fact (bảng sự kiện) . Các bảng Dim thể hiện các trường hợp mà
chúng ta cần phân tích như thời gian nào, cửa hàng nào, sản phẩm nào. Lưu ý, một
bảng Dim tiên quyết mà khi xây dựng Data Warehouse phải có đó là Time. Còn bảng
Sales Facts thể hiện cái gì mình cần phân tích như bao nhiêu Units, bao nhiêu
Dollars. Từ 4 bảng nào ta lấy được gì? Ví dụ ông sếp muốn biết sản phẩm nào của
siêu thị Coop Cống Quỳnh đem lại doanh thu cao nhất vào tháng 4/2014. Thì chúng
ta lấy ở đâu? Tháng 4/2014 lấy từ Time Dim. Sản phẩm lấy từ Product Dim. Siêu
thị Coop Cống Quỳnh lấy từ Store Dim. Và Doanh thu lấy từ Sales Fact (Dollars).
***SNOW
FLAKE SCHEMA***
Một
lược đồ bông tuyết là dạng mở rộng của lược đồ hình sao bằng cách bổ sung các
Dimension. Bảng Fact giống lược đồ hình
sao. Bảng Dim được chuẩn hóa. Các chiều được cấu trúc rõ ràng. Một bảng Dim được
chia thành chiều chính hay chiều phụ thì đó là dạng bông tuyết hoặc hình sao mở
rộng.
Ưu
điểm: Là dạng cải tiến của lược đồ hình sao. Số chiều được phân cấp thể hiện dạng
chuẩn của bảng Dim.
Khuyết
điểm: Cấu trúc phi dạng chuẩn của lược đồ hình sao thích hợp hơn cho việc duyệt
các chiều.
Ví dụ:
Với bảng Fact như lược đồ sao, còn bảng Dim được mở rộng như hình vẽ. Bây giờ lấy
ví dụ một nhánh Product như sau: Nhìn trên lược đồ sao ta biết được sản phẩm
nào với nhãn hàng nào. Nhưng nếu số lượng sản phẩm lên đến hàng nghìn sản phẩm,
hàng trăm loại hàng hoặc ông sếp muốn thay đổi hoặc tách, thêm loại hàng cho sản
phẩm cũ thì chuyện gì sẽ xảy ra? Không thể thay đổi trong cùng một bảng Product
như trước. Lúc này buộc phải tách Product và Product Category thôi. Và dữ liệu
lúc này đã được chuẩn hóa. Nếu muốn thay đổi chỉ cần thay đổi ở duy nhất một bảng,
không ảnh hưởng gì đến dữ liệu chung.
***GALAXY
SCHEMA***
Lược
đồ này chứa nhiều bảng Fact cùng sử dụng chung một số bảng Dim. Lược đồ này là
sự kết hợp của nhiều Data Mart.
Ví dụ:
Ở đây chúng ta có 2 Data Mart đó là Sales (bán hàng) và Purchase (mua hàng) đều
dùng chung bảng Time Dim và Product Dim nên khi vẽ kết hợp 2 Data Mart khác
nhau thì sẽ có hình như trên.
***FACT
CONSTELLATION SCHEMA***
Ở lược
đồ này thì Dimension trong lược đồ được tách biệt thành Dimension độc lập dựa
trên các cấp độ của hệ thống phân cấp. Ví dụ Geo có 5 cấp Region, Branch, Area,
Province, District thay vì chỉ có một Geo chung.
Theo
Folkstalk
---Mai
Huynh biên soạn---
Không có nhận xét nào:
Đăng nhận xét