Chapter 2: Kiến trúc kho dữ liệu
1. Kiến
trúc 1 tầng
-
Kiến trúc 1 tầng không qua bước ETL
-
Người dùng cuối truy xuất dữ liệu từ các
hệ thống xử lý nghiệp vụ thông qua kho dữ liệu
-
Mức kho dữ liệu có nhiệm vụ tổng hợp dữ
liệu từ các hệ thống xử lý nghiệp vụ mà không qua bước ETL
2. Kiến
trúc 2 tầng
-
Kiến trúc 2 tầng có bước chuyển dạng và
tích hợp
-
Bước 1: Lấy dữ liệu từ các hệ thống
nguồn khác nhau
-
Bước 2: Chuyển dạng và tích hợp các dữ
liệu từ các hệ thống nguồn khác nhau trước khi đưa vào kho dữ liệu
-
Bước 3: Kho dữ liệu là một cơ sở dữ liệu
chỉ đọc. Tổ chức kho dữ liệu để hỗ trợ quyết định. Kho dữ liệu
chứa cả dữ liệu tổng hợp và dữ liệu chi tiết.
-
Bước 4: Người sử dụng truy xuất kho dữ
liệu bằng các phương tiện khác nhau như công cụ phân tích và ngôn ngữ
truy vấn.
3. Kiến
trúc 3 tầng
-
Kiến trúc 3 tầng có bước ETL, phân theo
chủ đề Data mart
-
Với kiến trúc 3 tầng, dữ liệu được làm
sạch, xử lý để đưa vào kho dữ liệu
-
Kho dữ liệu phân ra thành những kho dữ
liệu theo chủ đề(Data mart), đây là việc cần thiết cho những ứng dụng
hỗ trợ ra quyết định theo từng nhóm người sử dụng.
4. Hệ hỗ
trợ ra quyết định
Hệ hỗ trợ ra quyết định mức tổng quát gồm 3 tầng:
-
Tầng 1: Kho dữ liệu
-
Tầng 2: Hệ quản trị OLAP: ROLAP, MOLAP,
HOLAP
-
Tầng 3: Tầng người dùng hỗ trợ các công
cụ truy vấn, báo cáo, phân tích, khai phá dữ liệu
Chức năng:
-
Hệ hỗ trợ ra quyết định giúp những người
lãnh đạo, quản lý và phân tích làm việc hiệu quả hơn
-
Hỗ trợ cho việc ra quyết định trong quản
lý, kinh doanh một cách có hiệu quả và nhanh chóng
5. Phân
tích kiến trúc 3 tầng
5.1 Operational
Source Systems
-
Các
nguồn dữ liệu thường nằm trong hệ thống xử lý giao dịch trực tuyến
OLTP(On-Line Transaction Processing), hay còn gọi là TPS(Transaction
Processing Systems)
-
Hiệu
suất và tính sẵn sàng ở mức độ cao
-
Thường
truy vấn một bảng ghi tại một thời điểm(one-record-at a time), có thể
hiểu là truy vấn tại một thời điểm nhất định
-
Đây là
hoạt động thông thường của các tổ chức
-
Với một
hệ thống OLTP thì đáng tin cậy và phù hợp, nhưng giữa các hệ thống
OLTP khác nhau thường có những xung đột nhất định
-
Các loại
định dạng dữ liệu và cấu trúc dữ liệu khác nhau trong các hệ thống
OLTP khác nhau
Theo giả định của
Kimball và cộng sự thì:
-
Hệ thống
nguồn không được truy vấn rộng và đột xuất
-
Duy trì
dữ liệu lịch sử rất ít(dữ liệu quá khứ, hiện tại…)
5.2 Data Staging Area
-
Thường
là phần phức tạp nhất trong kiến trúc, và liên quan đến:
o
Extraction
(E - Trích xuất)
o
Transformation
(T – Chuyển đổi)
o
Load (L –
Tải)
o
Indexing
(lập chỉ mục)
-
Công cụ
ETL (ETL – tools) có thể được sử dụng
-
Kịch bản
cho trích xuất, chuyển đổi và tải được thực hiện
Extraction:
-
Có nghĩa
là đọc và hiểu các nguồn dữ liệu và sao chép các dữ liệu cần
thiết cho kho dữ liệu vào khu vực trung gian (Staging Area) cho thao tác
tiếp theo: thao tác chuyển đổi
Transformation:
-
Chuyển
dạng/chuyển đổi dữ liệu (ghi rõ quy tắc chuyển đổi để chuyển sang
định dạng dữ liệu phổ biến và thuật ngữ phổ biến)
-
Làm sạch
dữ liệu
o
Làm kỹ
dữ liệu (sử dụng kiến thức tên miền cụ thể, ví dụ: địa chỉ bưu
chính để kiểm tra dữ liệu)
o
Kiểm
toán dữ liệu (khám phá mẫu nghi ngờ, phát hiện hành vi vi phạm các
quy định đã nêu ra)
-
Kết hợp
dữ liệu từ nhiều nguồn khác nhau
-
Gán vào
kho
-
Tập hợp
dữ liệu
Load:
-
Tải dữ
liệu vào kho dữ liệu
5.3 Data Presentation Area
5.3.1
OLAP là
gì?
-
Viết tắt
của On-Line Analytical Processing – Xử lý phân tích trực tuyến
-
Là một
hệ thống hỗ trợ ra quyết định (DSS) có hỗ trợ truy vấn, cho phép
các nhà quản lý và các nhà phân tích tương tác xử lý dữ liệu.
-
Giúp
người dùng dễ dàng và nhanh chóng thao tác và hình dung dữ liệu
thông qua tầm nhìn đa chiều, tức là các quan điểm khác nhau.
5.3.2
Mô hình đa chiều so với Mô hình dạng
chuẩn 3
Mô hình dạng chuẩn
3:
-
Một kỹ
thuật thiết kế luận lý, loại bỏ dữ liệu dư thừa để giữ sự nhất
quán và hiệu quả lưu trữ, làm cho giao dịch đơn giản
-
Mô hình
ER cho doanh nghiệp thường phức tạp. Ví dụ như họ thường có hàng
trăm, thậm chí hàng nghìn thực thể/bảng
Mô hình đa chiều:
-
Một kỹ
thuật thiết kế luận lý các dữ liệu hiện tại một các trực quan,
tức là dễ dàng hơn để điều hướng cho người dùng
-
Cho phép
truy cập/truy vấn hiệu suất cao (độ phức tạp của mô hình chuẩn 3 lấn
át các hệ thống cơ sở dữ liệu tối ưu, có nghĩa là hiệu suất kém)
-
Mục tiêu
của mô hình dữ liệu hỗ trợ ra quyết định
5.3.3
Data marts
-
Data mart
là kho dữ liệu có chủ đề
-
Dạng thu
nhỏ của kho dữ liệu, chia kho dữ liệu thành các kho nhỏ khác nhau.
Ví dụ: Bán hàng, Nhân sự, Tài chính…
-
Một mô
hình đa chiều có kho dữ liệu lớn thường bao gồm 10-25 data mart. Mỗi
data mart sẽ có 5-15 bảng chiều.
-
Data mart
có lượng dữ liệu rất nhỏ, các nguồn dữ liệu ít hơn
-
Dữ liệu dễ
dàng hơn cho quá trình làm sạch, roll-out nhanh hơn
-
Cho phép
tiếp cận “trọn vẹn” với những vấn đề tích hợp rất lớn liên quan
đến việc tạo ra mô hình dữ liệu rộng cho doanh nghiệp
Data mart độc lập
và phụ thuộc
5.3.4
ROLAP/MOLAP
servers
Extended Relational
DBMS (ROLAP Servers)
-
Dữ liệu
được lưu trữ trong RDB (Relational DB)
-
Lược đồ
hình sao
-
Hỗ trợ
phần mở rộng SQL
-
Cấu trúc
chỉ mục
Multidimensional DBMS
(MOLAP Servers)
-
Dữ liệu
được lưu trữ theo mảng (mảng n chiều)
-
Truy cập
trực tiếp đến cấu trúc dữ liệu mảng
-
Thuộc
tính chỉ mục tối ưu
-
Sử dụng
lưu trữ kém, đặc biệt là khi các dữ liệu thưa thớt
5.4 Metadata Respository – kho lưu trữ siêu dữ
liệu
Metadata – dữ liệu
của dữ liệu/thông tin về dữ liệu. Chức năng chính:
-
Định
nghĩa dữ liệu
-
Nguồn
gốc của dữ liệu
-
Cấu trúc
của dữ liệu
-
Quy tắc
cho việc lựa chọn và chuyển dữ liệu
-
Dữ liệu
định tính và định lượng về dữ liệu
Nguồn hoàn chỉnh
tích hợp của metadata:
-
Là trung
tâm của kiến trúc kho dữ liệu
-
Hỗ trợ
các nhu cầu thông tin của:
o
System
developers
o
Data
adminstators
o
System
administrators
o
Users
o
Applications
on the data warehouse
-
Cấu trúc
dữ liệu rất phức tạp
-
Phải có
lịch sử phiên bản đầy đủ
-
Luôn luôn
được cập nhật
Metadata life cycle activities – hoạt động chu kỳ siêu dữ liệu
-
Thu thập
o
Xác định
và nắm bắt siêu dữ liệu trong một kho lưu trữ trung tâm
-
Bảo trì
o
Thiết
lập quy trình để đồng bộ hóa siêu dữ liệu với cấu trúc dữ liệu
thay đổi
-
Triển
khai
o
Cung cấp
siêu dữ liệu cho người dùng với mẫu và công cụ đúng
Phân loại siêu dữ
liệu
-
Adminstrative
metadata
o
Gồm các
thông tin cần thiết cho việc thiết lập và sử dụng một DW
o
Ví dụ:
thông tin về CSDL nguồn, lược đồ DW, chiều, cấp bậc, kịch bản trích
xuất, chuyển đổi, tải…
-
Business
metadata
o
Điều
kiện và định nghĩa kinh doanh, quyền sở hữu dữ liệu
-
Operational
metadata
o
Thông tin
thu thập được trong quá trình hoạt động
của DW
o
Ví dụ
như thống kê sử dụng, báo cáo lỗi
5.5 End User Applications
-
OLAP
tools, BI apps, DSS
-
Query/Reporting
tools
-
Data
mining
Chức
năng của công cụ OLAP
-
Drill-down
-
Drill-up/Roll-up/Consolidate
-
Drill-across
-
Slicing
and Dicing
-
Pivoting
-
Ranking
Business Intelligence
(BI) apps
-
Strategic
o
Who:
Strategic leaders
o
What: xây
dựng chiến lược và giám sát hoạt động của công ty
o
Examples:
bảng cân đối, kế hoạch chiến lược
-
Operational
o
Who: Operational
managers
o
What: thực
hiện mục tiêu chiến lực
o
Examples:
ngân sách, phân tích dự báo bán hàng
-
Analytical
o
Who:
analysts, knowledge, worker, controller
o
What: ad-hoc
analyis
o
Examples: phân
tích tài chính và bán hàng, phân khúc khách hàng…
Problems of Data
Warehousing
-
Sự phức
tạp của tích hợp
o
Vấn đề
tiềm ẩn với hệ thống nguồn
o
Đồng
nhất dữ liệu
o
Đánh giá
thấp tài nguyên cho việc tải dữ liệu
-
Dữ liệu
yêu cầu không lấy được
-
Bảo trì
cao
-
Các dự
án trong thời gian dài
*****MH*****