Từ năm 2005, ScienceSoft đã cung cấp dịch vụ lưu trữ dữ liệu để giúp các công ty xây dựng có các giải pháp lưu trữ dữ liệu hiệu quả về chi phí và hiệu suất cao.
XÂY DỰNG KHO DỮ LIỆU: TÓM TẮT
- Thời gian dự án:Từ 3 đến 12 tháng.
- Các bước xây dựng kho dữ liệu:Khơi dậy mục tiêu, hình thành ý tưởng và lựa chọn nền tảng, trường hợp kinh doanh và lộ trình dự án, phân tích hệ thống và thiết kế, phát triển và khởi chạy kiến trúc kho dữ liệu.
- Chi phí:Bắt đầu từ $ 70.000.
- Đội ngũ:Người quản lý dự án, nhà phân tích kinh doanh, nhà phân tích hệ thống kho dữ liệu, kiến trúc sư giải pháp kho dữ liệu, kỹ sư dữ liệu, kỹ sư đảm bảo chất lượng, kỹ sư DevOps.
- Xây dựng kho dữ liệu đảm bảo:
- Các quy trình quản lý dữ liệu tự động (thu thập, chuyển đổi, dọn dẹp, cấu trúc dữ liệu, v.v.) để tăng chất lượng và độ tin cậy của dữ liệu.
- Phương pháp thống nhất để bảo mật dữ liệu.
- Một nền tảng sẵn sàng cho các sáng kiến phân tích nâng cao.
- Văn hóa dựa trên định hướng dữ liệu trong toàn công ty, v.v.
CÁC PHƯƠNG PHÁP XÂY DỰNG KHO DỮ LIỆU
Kiến trúc điển hình của giải pháp kho dữ liệu bao gồm các lớp sau:
Lớp nguồn dữ liệu |
Khu vực dàn dựng |
Lớp lưu trữ dữ liệu |
– nguồn dữ liệu bên trong và bên ngoài.
|
– một khu vực tạm thời nơi diễn ra các phép biến đổi dữ liệu. Không thể tìm thấy nếu các phép biến đổi dữ liệu được thực hiện trong lớp lưu trữ dữ liệu. |
– tập hợp một kho dữ liệu cơ sở dữ liệu (cơ sở dữ liệu để lưu trữ dữ liệu của một công ty) và siêu thị dữ liệu (tập hợp con kho dữ liệu để lưu trữ dữ liệu cho một dòng kinh doanh – tài chính, marketing, nhân sự, vv).
|
Sau đó, dữ liệu trong cơ sở dữ liệu kho dữ liệu và các ổ chứa dữ liệu có thể được truy vấn thông qua các công cụ OLAP, công cụ khai thác dữ liệu, báo cáo và công cụ trực quan hóa.
Các cách tiếp cận khác nhau để xây dựng kho dữ liệu tập trung vào lớp lưu trữ dữ liệu:
Different approaches to building a data warehouse concentrate on the data storage layer:
Cách tiếp cận của Inmon – thiết kế bộ lưu trữ tập trung trước tiên và sau đó tạo các siêu dữ liệu từ kho dữ liệu tổng hợp và siêu dữ liệu.
Cách tiếp cận của Kimball– trước tiên tạo ra các kho dữ liệu và sau đó phát triển một cơ sở dữ liệu kho dữ liệu tăng dần từ các kho dữ liệu độc lập.
|
Cách tiếp cận của Inmon |
Cách tiếp cận của Kimball |
Những lợi ích |
Nền tảng vững chắc cho thông tin kinh doanh toàn công ty và tính nhất quán dữ liệu trên các siêu thị dữ liệu.
|
Thời gian để hiểu rõ nhanh chóng, phân tích và báo cáo thuận lợi cho các ngành / nhóm kinh doanh riêng lẻ.
|
Hạn chế
|
Chi phí ban đầu cao và thời gian xây dựng đáng kể.
|
Khả năng dữ liệu dư thừa và thiếu tính nhất quán dữ liệu trong data mart khi chúng được phát triển một cách độc lập. |
Lưu ý: Các khung thời gian dưới đây là gần đúng, vì thời gian của quá trình phát triển kho dữ liệu phụ thuộc vào nhiều yếu tố, bao gồm độ phức tạp và chất lượng của dữ liệu trong hệ thống nguồn, yêu cầu bảo mật dữ liệu, mục tiêu phân tích dữ liệu, v.v. |
XÂY DỰNG KHO DỮ LIỆU TỪ SCRATCH: KẾ HOẠCH TỪNG BƯỚC
Bước 1. Kích thích mục tiêu
Thời lượng: 3 – 20 ngày
- Tìm các mục tiêu kinh doanh (chiến thuật và chiến lược) mà bạn sẽ theo đuổi với dự án phát triển kho dữ liệu.
- Xác định và ưu tiên các kỳ vọng và nhu cầu của công ty, phòng ban, của người dùng kinh doanh từ dự án.
- Xem xét kiến trúc công nghệ hiện tại của công ty, các ứng dụng đang sử dụng, v.v.
- Tiến hành phân tích nguồn dữ liệu sơ bộ (kiểu và cấu trúc dữ liệu, khối lượng, độ nhạy, v.v.).
- Phác thảo phạm vi kho dữ liệu và các yêu cầu hệ thống cấp cao.
Bước 2. Lên ý tưởng và lựa chọn nền tảng
Thời lượng: 2-15 ngày
- Xác định bộ tính năng giải pháp kho dữ liệu mong muốn.
- Chọn tùy chọn triển khai tối ưu (tại chỗ/trong đám mây/kết hợp).
- Lựa chọn phương pháp thiết kế kiến trúc tối ưu để xây dựng kho dữ liệu.
- Lựa chọn công nghệ kho dữ liệu (cơ sở dữ liệu DWH, công cụ ETL/ELT, công cụ mô hình hóa dữ liệu, v.v.), có tính đến:
- Số lượng nguồn dữ liệu và khối lượng dữ liệu cần tải vào kho dữ liệu.
- Các luồng dữ liệu được triển khai.
- Yêu cầu bảo mật dữ liệu.
Lưu ý: Đảm bảo sự hợp tác chặt chẽ của người dùng doanh nghiệp với BA và kiến trúc giải pháp trong khi xác định chức năng cốt lõi và nâng cao của giải pháp trong tương lai để tránh phức tạp hóa kiến trúc kho dữ liệu và chọn ngăn xếp công nghệ hiệu quả nhất về chi phí. |
Bước 3. Trường hợp kinh doanh và lộ trình dự án
Thời lượng: 2-15 ngày
Các hoạt động chính bao gồm:
- Xác định phạm vi dự án phát triển kho dữ liệu, lập kế hoạch ngân sách, dòng thời gian, v.v.
- Lên lịch các hoạt động thiết kế, phát triển và thử nghiệm DHW.
- Lập hồ sơ phạm vi dự án kho dữ liệu, tài liệu tầm nhìn kiến trúc giải pháp kho dữ liệu, chiến lược triển khai kho dữ liệu, chiến lược thử nghiệm, lộ trình thực hiện dự án.
- Xây dựng kế hoạch quản lý rủi ro.
- Kết quả ước tính cho dự án phát triển kho dữ liệu, TCO và ROI.
|
Lưu ý: Lập kế hoạch dự án phát triển kho dữ liệu thành công giúp giảm tới 30% thời gian và ngân sách của dự án, vì vậy hãy xây dựng kỹ lưỡng những phát hiện của các giai đoạn trước. |
Bước 4. Phân tích hệ thống và thiết kế kiến trúc kho dữ liệu
Thời hạn: từ 15 ngày
- Phân tích chi tiết từng nguồn dữ liệu:
- Kiểu và cấu trúc dữ liệu (các mô hình dữ liệu, nếu có).
- Khối lượng dữ liệu được tạo hàng ngày.
- Độ nhạy của dữ liệu và cách tiếp cận truy cập dữ liệu được áp dụng.
- Chất lượng dữ liệu, dữ liệu bị thiếu / kém, khả năng thực hiện làm sạch dữ liệu trong hệ thống nguồn dữ liệu.
- Nhận dạng nếu không có bất kỳ dữ liệu nào / có đủ chất lượng để hỗ trợ các yêu cầu kinh doanh.
- Tần suất cập nhật dữ liệu.
- Liên quan đến các nguồn dữ liệu khác.
- Thiết kế các chính sách dọn sạch dữ liệu.
- Tạo chính sách bảo mật dữ liệu (chính sách truy cập dữ liệu dựa trên các hạn chế pháp lý và quy tắc bảo mật dữ liệu, chính sách mã hóa dữ liệu, chính sách giám sát truy cập dữ liệu và tuân thủ dữ liệu, chiến lược sao lưu dữ liệu, v.v.)
- Thiết kế mô hình dữ liệu cho kho dữ liệu và các siêu thị dữ liệu.
- Xác định các đối tượng dữ liệu dưới dạng thực thể hoặc thuộc tính; xác định mối quan hệ giữa các thực thể.
- Sắp xếp các đối tượng dữ liệu vào kho dữ liệu.
- Thiết kế các quy trình ETL/ELT để tích hợp dữ liệu và kiểm soát luồng dữ liệu.
Lưu ý: Để tạo bản thiết kế cho hệ sinh thái dữ liệu hoàn toàn phù hợp với nhu cầu kinh doanh của bạn, hãy mời một nhà phân tích hệ thống cấp cao có kinh nghiệm đáng kể trong ngành của bạn. |
Bước 5. Phát triển và ổn định
Thời hạn: từ 2 tháng
- Sự tùy biến nền tảng kho dữ liệu.
- Định hình phần mềm bảo mật dữ liệu và thực hiện các chính sách bảo mật dữ liệu (áp dụng chính sách bảo mật dữ liệu cho dữ liệu ở cấp hàng, cột, v.v., phát triển các quy trình bảo mật tùy chỉnh, v.v.).
- Phát triển đường truyền ETL/ELT và thử nghiệm ETL/ELT.
- Kiểm tra hiệu suất kho dữ liệu.
Lưu ý: Chúng tôi khuyên bạn nên sử dụng phát triển lặp theo hướng DevOps để đảm bảo tốc độ và tần suất phát hành mà không ảnh hưởng đến chất lượng của giải pháp. |
Bước 6. Khởi chạy
Thời lượng: từ 2 ngày
- Di chuyển dữ liệu, đánh giá chất lượng dữ liệu.
- Giới thiệu kho dữ liệu cho người dùng doanh nghiệp.
- Có các bài kiểm tra chấp nhận của người dùng.
- Tiến hành các buổi đào tạo người dùng và hội thảo.
Bước 7. Hỗ trợ sau khi ra mắt
Thời lượng: theo yêu cầu
- Chuyển đổi hiệu suất ETL/ELT.
- Điều chỉnh hiệu suất và tính khả dụng của kho dữ liệu, v.v.
- Hỗ trợ người dùng cuối.