Thứ Bảy, 17 tháng 5, 2014

Chương 2. Kiến trúc kho dữ liệu


Chapter 2: Kiến trúc kho dữ liệu

1. Kiến trúc 1 tầng


-       Kiến trúc 1 tầng không qua bước ETL
-       Người dùng cuối truy xuất dữ liệu từ các hệ thống xử lý nghiệp vụ thông qua kho dữ liệu
-       Mức kho dữ liệu có nhiệm vụ tổng hợp dữ liệu từ các hệ thống xử lý nghiệp vụ mà không qua bước ETL

2. Kiến trúc 2 tầng


-       Kiến trúc 2 tầng có bước chuyển dạng và tích hợp
-       Bước 1: Lấy dữ liệu từ các hệ thống nguồn khác nhau
-       Bước 2: Chuyển dạng và tích hợp các dữ liệu từ các hệ thống nguồn khác nhau trước khi đưa vào kho dữ liệu
-       Bước 3: Kho dữ liệu là một cơ sở dữ liệu chỉ đọc. Tổ chức kho dữ liệu để hỗ trợ quyết định. Kho dữ liệu chứa cả dữ liệu tổng hợp và dữ liệu chi tiết.
-       Bước 4: Người sử dụng truy xuất kho dữ liệu bằng các phương tiện khác nhau như công cụ phân tích và ngôn ngữ truy vấn.

3. Kiến trúc 3 tầng


-       Kiến trúc 3 tầng có bước ETL, phân theo chủ đề Data mart
-       Với kiến trúc 3 tầng, dữ liệu được làm sạch, xử lý để đưa vào kho dữ liệu
-       Kho dữ liệu phân ra thành những kho dữ liệu theo chủ đề(Data mart), đây là việc cần thiết cho những ứng dụng hỗ trợ ra quyết định theo từng nhóm người sử dụng.

4. Hệ hỗ trợ ra quyết định


Hệ hỗ trợ ra quyết định mức tổng quát gồm 3 tầng:
-       Tầng 1: Kho dữ liệu
-       Tầng 2: Hệ quản trị OLAP: ROLAP, MOLAP, HOLAP
-       Tầng 3: Tầng người dùng hỗ trợ các công cụ truy vấn, báo cáo, phân tích, khai phá dữ liệu
Chức năng:
-       Hệ hỗ trợ ra quyết định giúp những người lãnh đạo, quản lý và phân tích làm việc hiệu quả hơn
-       Hỗ trợ cho việc ra quyết định trong quản lý, kinh doanh một cách có hiệu quả và nhanh chóng

5. Phân tích kiến trúc 3 tầng



5.1 Operational Source Systems


-       Các nguồn dữ liệu thường nằm trong hệ thống xử lý giao dịch trực tuyến OLTP(On-Line Transaction Processing), hay còn gọi là TPS(Transaction Processing Systems)
-       Hiệu suất và tính sẵn sàng ở mức độ cao
-       Thường truy vấn một bảng ghi tại một thời điểm(one-record-at a time), có thể hiểu là truy vấn tại một thời điểm nhất định
-       Đây là hoạt động thông thường của các tổ chức
-       Với một hệ thống OLTP thì đáng tin cậy và phù hợp, nhưng giữa các hệ thống OLTP khác nhau thường có những xung đột nhất định
-       Các loại định dạng dữ liệu và cấu trúc dữ liệu khác nhau trong các hệ thống OLTP khác nhau

Theo giả định của Kimball và cộng sự thì:
-       Hệ thống nguồn không được truy vấn rộng và đột xuất
-       Duy trì dữ liệu lịch sử rất ít(dữ liệu quá khứ, hiện tại…)

5.2 Data Staging Area


-       Thường là phần phức tạp nhất trong kiến trúc, và liên quan đến:
o   Extraction (E - Trích xuất)
o   Transformation (T – Chuyển đổi)
o   Load (L – Tải)
o   Indexing (lập chỉ mục)

-       Công cụ ETL (ETL – tools) có thể được sử dụng
-       Kịch bản cho trích xuất, chuyển đổi và tải được thực hiện

Extraction:

-       Có nghĩa là đọc và hiểu các nguồn dữ liệu và sao chép các dữ liệu cần thiết cho kho dữ liệu vào khu vực trung gian (Staging Area) cho thao tác tiếp theo: thao tác chuyển đổi

Transformation:

-       Chuyển dạng/chuyển đổi dữ liệu (ghi rõ quy tắc chuyển đổi để chuyển sang định dạng dữ liệu phổ biến và thuật ngữ phổ biến)
-       Làm sạch dữ liệu
o   Làm kỹ dữ liệu (sử dụng kiến thức tên miền cụ thể, ví dụ: địa chỉ bưu chính để kiểm tra dữ liệu)
o   Kiểm toán dữ liệu (khám phá mẫu nghi ngờ, phát hiện hành vi vi phạm các quy định đã nêu ra)
-       Kết hợp dữ liệu từ nhiều nguồn khác nhau
-       Gán vào kho
-       Tập hợp dữ liệu

Load:

-       Tải dữ liệu vào kho dữ liệu

5.3 Data Presentation Area


5.3.1     OLAP là gì?

-       Viết tắt của On-Line Analytical Processing – Xử lý phân tích trực tuyến
-       Là một hệ thống hỗ trợ ra quyết định (DSS) có hỗ trợ truy vấn, cho phép các nhà quản lý và các nhà phân tích tương tác xử lý dữ liệu.
-       Giúp người dùng dễ dàng và nhanh chóng thao tác và hình dung dữ liệu thông qua tầm nhìn đa chiều, tức là các quan điểm khác nhau.



5.3.2      Mô hình đa chiều so với Mô hình dạng chuẩn 3



Mô hình dạng chuẩn 3:

-       Một kỹ thuật thiết kế luận lý, loại bỏ dữ liệu dư thừa để giữ sự nhất quán và hiệu quả lưu trữ, làm cho giao dịch đơn giản
-       Mô hình ER cho doanh nghiệp thường phức tạp. Ví dụ như họ thường có hàng trăm, thậm chí hàng nghìn thực thể/bảng

Mô hình đa chiều:

-       Một kỹ thuật thiết kế luận lý các dữ liệu hiện tại một các trực quan, tức là dễ dàng hơn để điều hướng cho người dùng
-       Cho phép truy cập/truy vấn hiệu suất cao (độ phức tạp của mô hình chuẩn 3 lấn át các hệ thống cơ sở dữ liệu tối ưu, có nghĩa là hiệu suất kém)
-       Mục tiêu của mô hình dữ liệu hỗ trợ ra quyết định

5.3.3     Data marts


-       Data mart là kho dữ liệu có chủ đề
-       Dạng thu nhỏ của kho dữ liệu, chia kho dữ liệu thành các kho nhỏ khác nhau. Ví dụ: Bán hàng, Nhân sự, Tài chính…
-       Một mô hình đa chiều có kho dữ liệu lớn thường bao gồm 10-25 data mart. Mỗi data mart sẽ có 5-15 bảng chiều.
-       Data mart có lượng dữ liệu rất nhỏ, các nguồn dữ liệu ít hơn
-       Dữ liệu dễ dàng hơn cho quá trình làm sạch, roll-out nhanh hơn
-       Cho phép tiếp cận “trọn vẹn” với những vấn đề tích hợp rất lớn liên quan đến việc tạo ra mô hình dữ liệu rộng cho doanh nghiệp

Data mart độc lập và phụ thuộc


5.3.4     ROLAP/MOLAP servers

Extended Relational DBMS (ROLAP Servers)

-       Dữ liệu được lưu trữ trong RDB (Relational DB)
-       Lược đồ hình sao
-       Hỗ trợ phần mở rộng SQL
-       Cấu trúc chỉ mục

Multidimensional DBMS (MOLAP Servers)

-       Dữ liệu được lưu trữ theo mảng (mảng n chiều)
-       Truy cập trực tiếp đến cấu trúc dữ liệu mảng
-       Thuộc tính chỉ mục tối ưu
-       Sử dụng lưu trữ kém, đặc biệt là khi các dữ liệu thưa thớt

5.4 Metadata Respository – kho lưu trữ siêu dữ liệu



Metadata – dữ liệu của dữ liệu/thông tin về dữ liệu. Chức năng chính:

-       Định nghĩa dữ liệu
-       Nguồn gốc của dữ liệu
-       Cấu trúc của dữ liệu
-       Quy tắc cho việc lựa chọn và chuyển dữ liệu
-       Dữ liệu định tính và định lượng về dữ liệu

Nguồn hoàn chỉnh tích hợp của metadata:

-       Là trung tâm của kiến trúc kho dữ liệu
-       Hỗ trợ các nhu cầu thông tin của:
o   System developers
o   Data adminstators
o   System administrators
o   Users
o   Applications on the data warehouse
-       Cấu trúc dữ liệu rất phức tạp
-       Phải có lịch sử phiên bản đầy đủ
-       Luôn luôn được cập nhật

Metadata life cycle activities – hoạt động chu kỳ siêu dữ liệu

-       Thu thập
o   Xác định và nắm bắt siêu dữ liệu trong một kho lưu trữ trung tâm
-       Bảo trì
o   Thiết lập quy trình để đồng bộ hóa siêu dữ liệu với cấu trúc dữ liệu thay đổi
-       Triển khai
o   Cung cấp siêu dữ liệu cho người dùng với mẫu và công cụ đúng

Phân loại siêu dữ liệu

-       Adminstrative metadata

o   Gồm các thông tin cần thiết cho việc thiết lập và sử dụng một DW
o   Ví dụ: thông tin về CSDL nguồn, lược đồ DW, chiều, cấp bậc, kịch bản trích xuất, chuyển đổi, tải…

-       Business metadata

o   Điều kiện và định nghĩa kinh doanh, quyền sở hữu dữ liệu

-       Operational metadata

o   Thông tin thu thập được trong quá trình hoạt động  của DW
o   Ví dụ như thống kê sử dụng, báo cáo lỗi

5.5 End User Applications


-       OLAP tools, BI apps, DSS
-       Query/Reporting tools
-       Data mining




Chức năng của công cụ OLAP

-       Drill-down
-       Drill-up/Roll-up/Consolidate
-       Drill-across
-       Slicing and Dicing
-       Pivoting
-       Ranking

Business Intelligence (BI) apps

-       Strategic

o   Who: Strategic leaders
o   What: xây dựng chiến lược và giám sát hoạt động của công ty
o   Examples: bảng cân đối, kế hoạch chiến lược

-       Operational

o   Who: Operational managers
o   What: thực hiện mục tiêu chiến lực
o   Examples: ngân sách, phân tích dự báo bán hàng

-       Analytical

o   Who: analysts, knowledge, worker, controller
o   What: ad-hoc analyis
o   Examples: phân tích tài chính và bán hàng, phân khúc khách hàng…

Problems of Data Warehousing

-       Sự phức tạp của tích hợp

o   Vấn đề tiềm ẩn với hệ thống nguồn
o   Đồng nhất dữ liệu
o   Đánh giá thấp tài nguyên cho việc tải dữ liệu

-       Dữ liệu yêu cầu không lấy được
-       Bảo trì cao

-       Các dự án trong thời gian dài

*****MH*****

Không có nhận xét nào:

Đăng nhận xét