AI = Code + Data. Từ công thức sơ lược này, có thể thấy, trong điều kiện các đơn vị phát triển AI sử dụng mô hình/thuật toán tương tự hoặc gần tương tự, thì sự khác biệt của AI nằm ở dữ liệu. Dữ liệu càng chất lượng thì độ chính xác của mô hình càng cao. Do đó, một trong những xu hướng hiện nay là Data-centric AI. Vậy Data-centric AI là gì và tầm quan trọng của nó như thế nào?
Khái niệm Data-centric AI
Trong Data-centric AI, việc lập trình tập trung vào dữ liệu thay vì code. Đặt dữ liệu vào trung tâm của bài toán đồng nghĩa với việc cần nhiều thời gian và nguồn lực hơn cho quy trình dán nhãn, quản lý, tổng hợp và chuẩn hóa dữ liệu.
Tầm quan trọng của Data-centric AI
So với phương pháp truyền thống (Rule-Based Machine Learning), việc áp dụng Data-centric AI đã cho thấy những cải tiến rõ rệt trong quy trình sản xuất, vận hành của các doanh nghiệp thuộc ngành ô tô, điện tử, thiết bị y tế,…. Theo Landing AI, hiệu quả của data-centric AI có thể được đo lường bằng số liệu cụ thể như:
- Đẩy nhanh tốc độ xây dựng các ứng dụng thị giác máy tính lên hơn 10 lần
- Giảm 65% thời gian triển khai ứng dụng
- Cải thiện 40% năng suất và độ chính xác
Ngoài ra, một số tác động tích cực của Data-centric AI bao gồm:
Tăng cường hiệu suất làm việc: Data-centric AI liên quan đến việc xây dựng các hệ thống AI dựa trên dữ liệu đạt chất lượng. Do đó, dữ liệu phải đảm bảo truyền đạt rõ ràng và chính xác những gì mô hình cần phải học, nhằm giúp AI đạt được hiệu suất cần thiết và hỗ trợ đội ngũ lập trình giảm thiểu tối đa thời
Thúc đẩy sự hợp tác: Các nhà quản lý chất lượng, các chuyên gia và các nhà phát triển có thể phối hợp để đạt được sự đồng thuận về nhãn dữ liệu, xây dựng mô hình, phân tích kết quả và tiến hành tối ưu hóa.
Giảm thiểu thời gian phát triển mô hình: Với cách tiếp cận như vậy, các nhóm có thể làm việc song song và trực tiếp trên dữ liệu được sử dụng cho hệ thống AI, do đó giúp giảm thiểu đáng kể thời gian dành cho việc lập trình
Lợi ích khác: Data-centric AI tạo điều kiện để các nhóm phát triển có thể xây dựng một phương pháp nhất quán trong việc thu thập, dán nhãn dữ liệu, cũng như đào tạo, tối ưu hóa và cập nhật các mô hình. Các nhóm dễ dàng học hỏi từ thành công của dự án trước và áp dụng kiến thức này để nhanh chóng mở rộng quy mô các dự án mới.