Thứ Năm, 29 tháng 5, 2014

Cái chết oan ức của chim ưng

 

CÁI CHẾT OAN ỨC CỦA CHIM ƯNG


Mờ sáng hôm ấy, Đại Hãn - vị hoàng đế vĩ đại trên thảo nguyên Mông Cổ cùng những chiến tướng vào rừng đi săn. Khu rừng mọi hôm yên ắng, hôm nay bỗng rộn lên tiếng người cười nói, tiếng vó ngựa, tiếng chó sủa… Trên cổ tay Đại Hãn ngất nghểu con chim ưng mà ông rất mực yêu quý.

Vào thời đó, chim ưng được huấn luyện để đi săn. Chỉ cần nghe hiệu lệnh của chủ nhân là con chim bay vút lên cao nhìn dáo dác xung quanh tìm kiếm con mồi. Nếu phát hiện thấy nai hoặc thỏ, nó sẽ lao xuống như tên bắn và vồ chặt chúng. Mặt trời bắt đầu khuất dần sau các dãy núi nhưng Đại Hãn và đoàn tùy tùng vẫn chưa săn được nhiều con mồi như mong đợi.

Nóng lòng, Đại Hãn thúc ngựa vượt lên phía trước tách khỏi đoàn. Ông đã quá quen thuộc với khu rừng này. Trong khi mọi người tiếp tục đi theo con đường cũ thì ông lại chọn con đường xa hơn, chạy xuyên qua thung lũng giữa 2 dãy núi.

Sau nhiều giờ quần thảo trên ngựa dưới sức nóng của buổi chiều hè, hoàng đế bắt đầu cảm thấy khát nước. Con chim ưng vụt khỏi cổ tay ông và lao vút đi, ông tin là nó sẽ tìm được đường quay về. Chợt ông thấy có nước rỉ ra từ một ghềnh đá. Đại Hãn xuống ngựa, lấy từ trong túi săn một cái cốc nhỏ bằng bạc rồi bước đến hứng những giọt nước đang rỉ ra.

Ông kiên nhẫn và biết rằng phải lâu lắm cốc nước mới đầy. Miệng ông khát đắng nên không kịp chờ nước đầy ly, ông vội đưa ngay lên miệng chuẩn bị uống. Bất thình lình, một âm thanh vút lên từ trên không và một vật xẹt ngang tay ông, chiếc ly rơi xuống đất. Thì ra đó là con chim ưng yêu quý của ông. Con chim ưng bay tới bay lui thêm vài lần rồi buông cánh đậu giữa các vách đá bên khe nước.


Đại Hãn nhặt chiếc ly lên và một lần nữa đưa vào hứng lại từng giọt. Lần này ông không đợi lâu hơn. Khi hứng được gần nửa ly, ông nâng ly lên miệng nhưng trước khi chiếc cốc chạm vào môi, con chim ưng lại bay vụt xuống và làm rớt ly nước khỏi tay ông. Đại Hãn bắt đầu nổi giận. Ông tiếp tục lần nữa và lần thứ ba con chim ưng lại đánh đổ ly nước. Đại Hãn vô cùng giận dữ, hét lớn:

- Con vật khốn kiếp kia, sao ngươi dám làm như thế?

Đừng để ta bắt được ngươi, không thì ta sẽ vặn cổ ngươi đó! Và rồi ông hứng lại ly nước khác. Lần này trước khi đưa lên miệng uống, ông rút gươm cầm trên tay.

- Nào, đây là lần cuối cùng ta chịu đựng ngươi đó!

- Đại Hãn nóng giận hét lên thành lời. Gần như ông vừa dứt hết câu, con chim lao nhanh xuống và hất mạnh ly nước. Giờ đây, nhà vua không tha thứ được nữa. Một lằn sáng vút lên và thanh gươm của ông chém trúng con chim.

Con chim đáng thương nằm quằn quại và giẫy chết dưới chân chủ nhân nó. Không chút xót thương, Đại Hãn gằn giọng:

- Cái chết thật xứng đáng với tội láo xược của nhà ngươi.

Khi phát hiện chiếc ly bị rơi vào giữa 2 tảng đá và ông không thể với lấy nó được, ông tự nhủ ‘Ta sẽ uống nước tại con suối’. Và ông bắt đầu leo lên sườn đá dốc, ngược theo dòng nước chảy để lần đến con suối.

Khi đến nơi, con suối mà ông nghĩ thực ra chỉ là một vũng nước nhỏ, nhưng vật nằm trong đó đã làm nước trào hẳn ra ngoài. Và chính vật này khiến Đại Hãn hoảng sợ thật sự: Một con rắn lớn, nổi tiếng là loài cực độc, đang nằm chết rữa giữa vũng nước. Đại Hãn đứng khựng lại, quên cả cơn khát cháy cổ.

Ông đau đớn khi nghĩ đến hành động vừa rồi của mình, cơn tức giận nhất thời đã khiến ông vung gươm giết chết con chim yêu quý - chỉ vì nó muốn cứu mạng ông. Kể từ đó, hình ảnh con chim ưng giẫy chết trong vũng máu luôn nhắc nhở ông đừng bao giờ hành động điều gì trong cơn tức giận.

(ST)

Thứ Hai, 26 tháng 5, 2014

THIẾT KẾ LUẬN LÝ VÀ VẬT LÝ CỦA KHO DỮ LIỆU

THIẾT KẾ LUẬN LÝ VÀ VẬT LÝ CỦA KHO DỮ LIỆU

Thiết kế luận lý – Logical Design:

Thiết kế luận lý thể hiện các mối quan hệ (relationship) giữa các đối tượng. Kỹ thuật mô hình thực thể và mối kết hợp (ER: Entity – relationship) có thể được sử dụng cho các thiết kế luận lý của Kho dữ liệu. Mô hình ER liên quan đến việc xác định các thực thể - entities (đối tượng quan trọng), thuộc tính – attributes (các thuộc tính về đối tượng) và các mối quan hệ - relationship giữa chúng. Hình bên dưới là một ví dụ về thiết kế luận lý – mô hình ERD
ERD for Northwind
ERD for Walmart


Một thực thể là một đoạn thông tin mà ánh xạ (map) đến một bảng – table trong Cơ sở dữ liệu. Một thuộc tính là một phần của một thực thể mà được ánh xạ đến một cột – column trong Cơ sở dữ liệu.
Một định danh duy nhất (unique identifier) được sử dụng để đảm bảo dữ liệu phù hợp và không bị trùng lắp.

Thiết kế vật lý – Physical Design:

Thiết kế vật lý thể hiện phương thức hiệu quả để lưu trữ và lấy dữ liệu. Trong thiết kế vật lý, thiết kế luận lý cần được chuyển đổi thành một mô tả của các cấu trúc cơ sở dữ liệu vật lý. Hay nói cách khác, thiết kế vật lý tác động đến môi trường vật lý của dữ liệu, và được chuyển hóa từ cấu trúc của thiết kế luận lý trước đó. Tương tự như hình sau:
DW for Northwind
DW for Walmart


Thiết kế vật lý liên quan đến việc tạo ra các đối tượng cơ sở dữ liệu như bảng – table, cột – column, chỉ mục – index, khóa chính – primary key, khóa ngoại – foreign key, quan điểm – view, sequence – trình tự, phân vùng – partition…
Cuối cùng, hình sau sẽ khái quát hơn về thiết kế luận lý và vật lý:

~~~MH~~~

Thứ Bảy, 17 tháng 5, 2014

Chương 2. Kiến trúc kho dữ liệu


Chapter 2: Kiến trúc kho dữ liệu

1. Kiến trúc 1 tầng


-       Kiến trúc 1 tầng không qua bước ETL
-       Người dùng cuối truy xuất dữ liệu từ các hệ thống xử lý nghiệp vụ thông qua kho dữ liệu
-       Mức kho dữ liệu có nhiệm vụ tổng hợp dữ liệu từ các hệ thống xử lý nghiệp vụ mà không qua bước ETL

2. Kiến trúc 2 tầng


-       Kiến trúc 2 tầng có bước chuyển dạng và tích hợp
-       Bước 1: Lấy dữ liệu từ các hệ thống nguồn khác nhau
-       Bước 2: Chuyển dạng và tích hợp các dữ liệu từ các hệ thống nguồn khác nhau trước khi đưa vào kho dữ liệu
-       Bước 3: Kho dữ liệu là một cơ sở dữ liệu chỉ đọc. Tổ chức kho dữ liệu để hỗ trợ quyết định. Kho dữ liệu chứa cả dữ liệu tổng hợp và dữ liệu chi tiết.
-       Bước 4: Người sử dụng truy xuất kho dữ liệu bằng các phương tiện khác nhau như công cụ phân tích và ngôn ngữ truy vấn.

3. Kiến trúc 3 tầng


-       Kiến trúc 3 tầng có bước ETL, phân theo chủ đề Data mart
-       Với kiến trúc 3 tầng, dữ liệu được làm sạch, xử lý để đưa vào kho dữ liệu
-       Kho dữ liệu phân ra thành những kho dữ liệu theo chủ đề(Data mart), đây là việc cần thiết cho những ứng dụng hỗ trợ ra quyết định theo từng nhóm người sử dụng.

4. Hệ hỗ trợ ra quyết định


Hệ hỗ trợ ra quyết định mức tổng quát gồm 3 tầng:
-       Tầng 1: Kho dữ liệu
-       Tầng 2: Hệ quản trị OLAP: ROLAP, MOLAP, HOLAP
-       Tầng 3: Tầng người dùng hỗ trợ các công cụ truy vấn, báo cáo, phân tích, khai phá dữ liệu
Chức năng:
-       Hệ hỗ trợ ra quyết định giúp những người lãnh đạo, quản lý và phân tích làm việc hiệu quả hơn
-       Hỗ trợ cho việc ra quyết định trong quản lý, kinh doanh một cách có hiệu quả và nhanh chóng

5. Phân tích kiến trúc 3 tầng



5.1 Operational Source Systems


-       Các nguồn dữ liệu thường nằm trong hệ thống xử lý giao dịch trực tuyến OLTP(On-Line Transaction Processing), hay còn gọi là TPS(Transaction Processing Systems)
-       Hiệu suất và tính sẵn sàng ở mức độ cao
-       Thường truy vấn một bảng ghi tại một thời điểm(one-record-at a time), có thể hiểu là truy vấn tại một thời điểm nhất định
-       Đây là hoạt động thông thường của các tổ chức
-       Với một hệ thống OLTP thì đáng tin cậy và phù hợp, nhưng giữa các hệ thống OLTP khác nhau thường có những xung đột nhất định
-       Các loại định dạng dữ liệu và cấu trúc dữ liệu khác nhau trong các hệ thống OLTP khác nhau

Theo giả định của Kimball và cộng sự thì:
-       Hệ thống nguồn không được truy vấn rộng và đột xuất
-       Duy trì dữ liệu lịch sử rất ít(dữ liệu quá khứ, hiện tại…)

5.2 Data Staging Area


-       Thường là phần phức tạp nhất trong kiến trúc, và liên quan đến:
o   Extraction (E - Trích xuất)
o   Transformation (T – Chuyển đổi)
o   Load (L – Tải)
o   Indexing (lập chỉ mục)

-       Công cụ ETL (ETL – tools) có thể được sử dụng
-       Kịch bản cho trích xuất, chuyển đổi và tải được thực hiện

Extraction:

-       Có nghĩa là đọc và hiểu các nguồn dữ liệu và sao chép các dữ liệu cần thiết cho kho dữ liệu vào khu vực trung gian (Staging Area) cho thao tác tiếp theo: thao tác chuyển đổi

Transformation:

-       Chuyển dạng/chuyển đổi dữ liệu (ghi rõ quy tắc chuyển đổi để chuyển sang định dạng dữ liệu phổ biến và thuật ngữ phổ biến)
-       Làm sạch dữ liệu
o   Làm kỹ dữ liệu (sử dụng kiến thức tên miền cụ thể, ví dụ: địa chỉ bưu chính để kiểm tra dữ liệu)
o   Kiểm toán dữ liệu (khám phá mẫu nghi ngờ, phát hiện hành vi vi phạm các quy định đã nêu ra)
-       Kết hợp dữ liệu từ nhiều nguồn khác nhau
-       Gán vào kho
-       Tập hợp dữ liệu

Load:

-       Tải dữ liệu vào kho dữ liệu

5.3 Data Presentation Area


5.3.1     OLAP là gì?

-       Viết tắt của On-Line Analytical Processing – Xử lý phân tích trực tuyến
-       Là một hệ thống hỗ trợ ra quyết định (DSS) có hỗ trợ truy vấn, cho phép các nhà quản lý và các nhà phân tích tương tác xử lý dữ liệu.
-       Giúp người dùng dễ dàng và nhanh chóng thao tác và hình dung dữ liệu thông qua tầm nhìn đa chiều, tức là các quan điểm khác nhau.



5.3.2      Mô hình đa chiều so với Mô hình dạng chuẩn 3



Mô hình dạng chuẩn 3:

-       Một kỹ thuật thiết kế luận lý, loại bỏ dữ liệu dư thừa để giữ sự nhất quán và hiệu quả lưu trữ, làm cho giao dịch đơn giản
-       Mô hình ER cho doanh nghiệp thường phức tạp. Ví dụ như họ thường có hàng trăm, thậm chí hàng nghìn thực thể/bảng

Mô hình đa chiều:

-       Một kỹ thuật thiết kế luận lý các dữ liệu hiện tại một các trực quan, tức là dễ dàng hơn để điều hướng cho người dùng
-       Cho phép truy cập/truy vấn hiệu suất cao (độ phức tạp của mô hình chuẩn 3 lấn át các hệ thống cơ sở dữ liệu tối ưu, có nghĩa là hiệu suất kém)
-       Mục tiêu của mô hình dữ liệu hỗ trợ ra quyết định

5.3.3     Data marts


-       Data mart là kho dữ liệu có chủ đề
-       Dạng thu nhỏ của kho dữ liệu, chia kho dữ liệu thành các kho nhỏ khác nhau. Ví dụ: Bán hàng, Nhân sự, Tài chính…
-       Một mô hình đa chiều có kho dữ liệu lớn thường bao gồm 10-25 data mart. Mỗi data mart sẽ có 5-15 bảng chiều.
-       Data mart có lượng dữ liệu rất nhỏ, các nguồn dữ liệu ít hơn
-       Dữ liệu dễ dàng hơn cho quá trình làm sạch, roll-out nhanh hơn
-       Cho phép tiếp cận “trọn vẹn” với những vấn đề tích hợp rất lớn liên quan đến việc tạo ra mô hình dữ liệu rộng cho doanh nghiệp

Data mart độc lập và phụ thuộc


5.3.4     ROLAP/MOLAP servers

Extended Relational DBMS (ROLAP Servers)

-       Dữ liệu được lưu trữ trong RDB (Relational DB)
-       Lược đồ hình sao
-       Hỗ trợ phần mở rộng SQL
-       Cấu trúc chỉ mục

Multidimensional DBMS (MOLAP Servers)

-       Dữ liệu được lưu trữ theo mảng (mảng n chiều)
-       Truy cập trực tiếp đến cấu trúc dữ liệu mảng
-       Thuộc tính chỉ mục tối ưu
-       Sử dụng lưu trữ kém, đặc biệt là khi các dữ liệu thưa thớt

5.4 Metadata Respository – kho lưu trữ siêu dữ liệu



Metadata – dữ liệu của dữ liệu/thông tin về dữ liệu. Chức năng chính:

-       Định nghĩa dữ liệu
-       Nguồn gốc của dữ liệu
-       Cấu trúc của dữ liệu
-       Quy tắc cho việc lựa chọn và chuyển dữ liệu
-       Dữ liệu định tính và định lượng về dữ liệu

Nguồn hoàn chỉnh tích hợp của metadata:

-       Là trung tâm của kiến trúc kho dữ liệu
-       Hỗ trợ các nhu cầu thông tin của:
o   System developers
o   Data adminstators
o   System administrators
o   Users
o   Applications on the data warehouse
-       Cấu trúc dữ liệu rất phức tạp
-       Phải có lịch sử phiên bản đầy đủ
-       Luôn luôn được cập nhật

Metadata life cycle activities – hoạt động chu kỳ siêu dữ liệu

-       Thu thập
o   Xác định và nắm bắt siêu dữ liệu trong một kho lưu trữ trung tâm
-       Bảo trì
o   Thiết lập quy trình để đồng bộ hóa siêu dữ liệu với cấu trúc dữ liệu thay đổi
-       Triển khai
o   Cung cấp siêu dữ liệu cho người dùng với mẫu và công cụ đúng

Phân loại siêu dữ liệu

-       Adminstrative metadata

o   Gồm các thông tin cần thiết cho việc thiết lập và sử dụng một DW
o   Ví dụ: thông tin về CSDL nguồn, lược đồ DW, chiều, cấp bậc, kịch bản trích xuất, chuyển đổi, tải…

-       Business metadata

o   Điều kiện và định nghĩa kinh doanh, quyền sở hữu dữ liệu

-       Operational metadata

o   Thông tin thu thập được trong quá trình hoạt động  của DW
o   Ví dụ như thống kê sử dụng, báo cáo lỗi

5.5 End User Applications


-       OLAP tools, BI apps, DSS
-       Query/Reporting tools
-       Data mining




Chức năng của công cụ OLAP

-       Drill-down
-       Drill-up/Roll-up/Consolidate
-       Drill-across
-       Slicing and Dicing
-       Pivoting
-       Ranking

Business Intelligence (BI) apps

-       Strategic

o   Who: Strategic leaders
o   What: xây dựng chiến lược và giám sát hoạt động của công ty
o   Examples: bảng cân đối, kế hoạch chiến lược

-       Operational

o   Who: Operational managers
o   What: thực hiện mục tiêu chiến lực
o   Examples: ngân sách, phân tích dự báo bán hàng

-       Analytical

o   Who: analysts, knowledge, worker, controller
o   What: ad-hoc analyis
o   Examples: phân tích tài chính và bán hàng, phân khúc khách hàng…

Problems of Data Warehousing

-       Sự phức tạp của tích hợp

o   Vấn đề tiềm ẩn với hệ thống nguồn
o   Đồng nhất dữ liệu
o   Đánh giá thấp tài nguyên cho việc tải dữ liệu

-       Dữ liệu yêu cầu không lấy được
-       Bảo trì cao

-       Các dự án trong thời gian dài

*****MH*****