Tổng quan về đường dẫn dữ liệu ETL và ELT

Đường dẫn dữ liệu (ETL (Extract – Transform – Load) hay ELT (Extract – Load – Transform)) thực hiện nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. ETL và ELT đều rất cần thiết trong khoa học dữ liệu, bởi các nguồn thông tin — cho dù chúng sử dụng cơ sở dữ liệu SQL có cấu trúc hay cơ sở dữ liệu NoSQL không cấu trúc — thì đều hiếm khi ở các định dạng tương tự hoặc tương thích với nhau. Do đó, các nguồn dữ liệu cần được làm sạch, làm giàu và chuyển đổi trước khi tích hợp thành một tổng thể có thể phân tích. 

Bất kể đó là ETL hay ELT, quá trình chuyển đổi/tích hợp dữ liệu bao gồm ba bước sau:

Tổng quan về đường dẫn dữ liệu ETL và ELT
Tổng quan về đường dẫn dữ liệu ETL và ELT (Nguồn ảnh: Xplenty)

Tuy cùng thực hiện ba bước kể trên, nhưng trình tự của đường dẫn dữ liệu ETL và ELT là khác nhau. Vì vậy, câu hỏi đặt ra là: Nên chuyển đổi dữ liệu trước hay sau khi tải nó vào kho dữ liệu? Để trả lời, bạn cần tìm hiểu ETL và ELT một cách riêng biệt.

Quy trình ETL

Kho dữ liệu Xử lý Phân tích Trực tuyến (OLAP data warehouse) — cho dù dựa trên đám mây hay được tiến hành tại chỗ — đều cần làm việc với cấu trúc dữ liệu SQL quan hệ. Do đó, bất kỳ dữ liệu nào bạn tải vào kho dữ liệu OLAP đều phải được chuyển đổi thành định dạng quan hệ. Một phần của quá trình chuyển đổi này có thể yêu cầu ánh xạ dữ liệu (data mapping) để kết hợp nhiều nguồn dữ liệu dựa trên tương quan về mặt thông tin (Nhờ vậy, nền tảng kinh doanh thông minh –  business intelligence platform – có thể phân tích thông tin như một đơn vị tích hợp duy nhất).

Đó là lý do tại sao các kho dữ liệu yêu cầu ETL — vì các thao tác chuyển đổi phải được thực hiện trước khi truyền tải. Dưới đây là một số chi tiết để hiểu về ETL:

Ưu điểm của ETL

Quy trình ELT

ELT là viết tắt của “Extract, Load và Transform.” Trong quá trình này, dữ liệu được tận dụng thông qua kho dữ liệu để thực hiện các chuyển đổi cơ bản. Điều đó có nghĩa là không cần khu vực lưu trữ thay đổi dữ liệu (data staging). ELT sử dụng các giải pháp lưu trữ dữ liệu dựa trên đám mây cho tất cả các loại dữ liệu khác nhau – bao gồm các loại dữ liệu có cấu trúc, phi cấu trúc, bán cấu trúc và thậm chí là dữ liệu thô.

Quy trình ELT cũng hoạt động song song với các hồ dữ liệu (data lake). “Hồ dữ liệu” là loại lưu trữ dữ liệu đặc biệt — không giống như kho dữ liệu OLAP — chấp nhận bất kỳ loại dữ liệu có cấu trúc hoặc phi cấu trúc nào. Các hồ dữ liệu không yêu cầu bạn phải chuyển đổi dữ liệu của mình trước khi tải lên nó. Bạn có thể tải ngay lập tức bất kỳ loại dữ liệu thô nào vào hồ dữ liệu, bất kể định dạng hay tình trạng thiếu thông tin đó.

Việc chuyển đổi dữ liệu vẫn cần thiết trước khi phân tích dữ liệu với nền tảng kinh doanh thông minh. Tuy nhiên, việc làm sạch, làm giàu và chuyển đổi dữ liệu xảy ra sau khi tải dữ liệu vào hồ dữ liệu. Dưới đây là một số chi tiết để hiểu về ELT và hồ dữ liệu:

Ưu điểm của ELT

Ưu điểm chính của ELT so với ETL liên quan đến tính linh hoạt và dễ dàng lưu trữ dữ liệu mới, không có cấu trúc. Với ELT, bạn có thể lưu bất kỳ loại thông tin nào — ngay cả khi bạn không có thời gian hoặc khả năng để chuyển đổi và cấu trúc thông tin đó trước. Hơn nữa, bạn không phải phát triển các quy trình ETL phức tạp trước khi nhập dữ liệu và tiết kiệm thời gian cho các nhà phát triển và nhà phân tích BI khi xử lý thông tin mới.

Một số lợi ích khác của ELT:

So sánh hai đường dẫn dữ liệu ETL và ELT

ETLELT
Tính khả dụng của dữ liệu trong hệ thốngETL chỉ chuyển đổi và tải dữ liệu mà người dùng cho là cần thiết.ELT có thể tải tất cả dữ liệu ngay lập tức và người dùng có thể xác định dữ liệu nào cần chuyển đổi và phân tích sau đó.
Tính tương thích với các hồ dữ liệuETL thường không phải là một giải pháp cho các hồ dữ liệu. Nó biến đổi dữ liệu để tích hợp với hệ thống kho dữ liệu quan hệ có cấu trúc.ELT cung cấp một đường dẫn cho các hồ dữ liệu để nhập dữ liệu phi cấu trúc. Sau đó, nó chuyển đổi dữ liệu trên cơ sở cần thiết để tiến hành phân tích.
Quy mô dữ liệu và mức độ phức tạp của việc chuyển đổiETL phù hợp nhất để xử lý các tập dữ liệu nhỏ và yêu cầu các phép biến đổi phức tạp.ELT là tốt nhất khi xử lý một lượng lớn dữ liệu có cấu trúc và phi cấu trúc.
Khả năng hỗ trợ kho dữ liệuETL hoạt động với các kho dữ liệu tại chỗ hoặc dựa trên đám mây. Nó yêu cầu định dạng dữ liệu quan hệ hoặc có cấu trúc.ELT làm việc với các giải pháp lưu trữ dữ liệu dựa trên đám mây để hỗ trợ các kiểu dữ liệu có cấu trúc, phi cấu trúc, bán cấu trúc và thô.
Trình tự trích xuất, biến đổi, truyền tảiCác phép biến đổi dữ liệu xảy ra ngay sau khi trích xuất. Sau khi chuyển đổi, dữ liệu được tải vào kho dữ liệu.Dữ liệu được trích xuất, sau đó được tải vào hệ thống dữ liệu mục tiêu. Chỉ một số dữ liệu sau đó được chuyển đổi trên cơ sở “khi cần thiết” cho các mục đích phân tích.
Hỗ trợ dữ liệu phi cấu trúcETL có thể được sử dụng để cấu trúc dữ liệu phi cấu trúc, nhưng nó không thể được sử dụng để chuyển dữ liệu phi cấu trúc vào hệ thống đích.ELT là một giải pháp để tải dữ liệu phi cấu trúc lên hồ dữ liệu và cung cấp dữ liệu phi cấu trúc cho các hệ thống ra quyết định kinh doanh thông minh.
Thời gian chờ tải thông tinThời gian tải ETL lâu hơn ELT bởi vì đó là một quá trình gồm nhiều giai đoạn: (1) tải dữ liệu vào staging area, (2) diễn ra quá trình chuyển đổi, (3) tải dữ liệu vào kho dữ liệu. Khi dữ liệu được tải, việc phân tích thông tin sẽ nhanh hơn ELT.Quá trình tải dữ liệu diễn ra nhanh hơn vì không phải chờ chuyển đổi và dữ liệu chỉ tải một lần vào hệ thống dữ liệu đích. Tuy nhiên, phân tích thông tin chậm hơn ETL.
Thời gian chờ để thực hiện các phép biến đổiViệc chuyển đổi dữ liệu ban đầu mất nhiều thời gian hơn vì mọi phần dữ liệu đều yêu cầu chuyển đổi trước khi tải. Ngoài ra, khi kích thước của hệ thống dữ liệu tăng lên, quá trình chuyển đổi diễn ra lâu hơn. Tuy nhiên, một khi được chuyển đổi trong hệ thống, việc phân tích diễn ra nhanh chóng và hiệu quả.Vì các phép biến đổi xảy ra sau khi tải, và bạn chỉ chuyển đổi dữ liệu bạn cần phân tích tại thời điểm đó nên các phép biến đổi diễn ra nhanh hơn rất nhiều. Tuy nhiên, nhu cầu liên tục chuyển đổi dữ liệu làm chậm tổng thời gian truy vấn / phân tích.
So sánh ETL và ELT