Đào tạo, đánh giá và thử nghiệm: Vai trò của dữ liệu đối với học máy

Biến dữ liệu thành những dự đoán có giá trị đối với việc kinh doanh? Học máy hoàn toàn có thể làm điều này. Thực tế, các thuật toán học máy dự đoán đang mang đến cho các doanh nghiệp vô số tiềm năng tạo ra lợi nhuận. Tuy nhiên, một mô hình học máy hiệu quả yêu cầu rất nhiều dữ liệu đào tạo và thử nghiệm (training data & testing data) đạt chất lượng. Các bộ dữ liệu khác nhau, thực chất, phục vụ các mục đích khác nhau trong quá trình xây dựng thuật toán.

Bài viết dưới đây sẽ so sánh các loại: dữ liệu đào tạo (training data), dữ liệu đánh giá (validation data) và dữ liệu thử nghiệm (testing data), đồng thời, giải thích vai trò của từng loại dữ liệu đối với học máy. Thực tế, cả ba loại dữ liệu này thường được tách ra từ một bộ dữ liệu lớn và mỗi loại đảm nhiệm một chức năng riêng biệt.

Khái niệm dữ liệu đào tạo, đánh giá và thử nghiệm

  • Dữ liệu đào tạo (training data) được sử dụng để xây dựng thuật toán học máy. Các nhà khoa học dữ liệu sẽ cung cấp dữ liệu đầu vào cho thuật toán, tương ứng với đầu ra dự kiến. Dựa trên đó, mô hình sẽ đánh giá dữ liệu nhiều lần để tìm hiểu thêm về đặc tính của dữ liệu và tiếp tục tự điều chỉnh nhằm hướng tới mục đích đã định.
  • Dữ liệu đánh giá (validation data): Trong quá trình đào tạo, dữ liệu đánh giá sẽ cung cấp thêm dữ liệu mới vào mô hình, nhằm xác định khả năng dự đoán của thuật toán đối với những dữ liệu chưa từng nhìn thấy trước đó. Thực tế, không phải tất cả các nhà khoa học dữ liệu đều sử dụng dữ liệu đánh giá, nhưng nó có thể cung cấp một số thông tin hữu ích để tối ưu hóa các  tham số cũng như hiệu suất của thuật toán.
  • Dữ liệu thử nghiệm (testing data): Dữ liệu thử nghiệm được đưa vào sau khi xây dựng mô hình, nhằm xác nhận hiệu quả của thuật toán. Nếu dữ liệu đào tạo và dữ liệu đánh giá đều đi kèm các nhãn nhằm theo dõi các chỉ số hiệu suất thì dữ liệu thử nghiệm phải được bỏ nhãn. Điều này nhằm đưa mô hình vào môi trường kiểm tra thực tế và xác nhận lần cuối rằng nó có thể hoạt động hiệu quả.

Mặc dù ba bộ dữ liệu này đều đảm nhiệm những vị trí khác nhau trong việc xây dựng và đào tạo các mô hình học máy, nhưng vẫn có thể nhận thấy một số điểm tương đồng giữa chúng. Sự khác biệt giữa dữ liệu huấn luyện và dữ liệu thử nghiệm là rất rõ ràng: một bên huấn luyện mô hình, một bên xác nhận rằng nó hoạt động chính xác, song không loại trừ khả năng nhầm lẫn về chức năng của các loại dữ liệu này.

Hãy cùng khám phá thêm sự khác biệt giữa dữ liệu đào tạo, dữ liệu đánh giá và dữ liệu thử nghiệm, cũng như cách thức để đào tạo thuật toán học máy. 

Dữ liệu đào tạo & Dữ liệu đánh giá

Đối với dữ liệu đào tạo, thuật toán sẽ phân tích tập dữ liệu này, phân loại đầu vào và đầu ra, sau đó tiến hành phân tích lại. Nếu được đào tạo đầy đủ, một thuật toán về cơ bản sẽ ghi nhớ tất cả các đầu vào và đầu ra trong tập dữ liệu đào tạo. Tuy nhiên, thách thức đến từ những nguồn dữ liệu khác, khi mô hình phải xem xét các bộ dữ liệu mới trong thế giới thực. 

Đây là khi dữ liệu đánh giá trở nên hữu ích. Dữ liệu đánh giá cung cấp bài kiểm tra ban đầu để xem mô hình có thể trả về các dự đoán hữu ích trong thực tế hay không. Điều này dữ liệu đào tạo không thể làm được. Thuật toán học máy có thể xem xét dữ liệu đào tạo và dữ liệu đánh giá cùng một lúc.

Dữ liệu đánh giá là một phân đoạn dữ liệu hoàn toàn riêng biệt, mặc dù nhà khoa học dữ liệu có thể tạo ra một phần của bộ dữ liệu đào tạo để đánh giá – miễn là các bộ dữ liệu được giữ riêng biệt trong toàn bộ quá trình đào tạo và thử nghiệm.

Ví dụ: giả sử thuật toán học máy có nhiệm vụ phân tích hình ảnh của động vật có xương sống và cung cấp phân loại khoa học của chúng. Bộ dữ liệu đào tạo sẽ bao gồm rất nhiều hình ảnh về các loài động vật có vú, nhưng không phải tất cả hình ảnh của chúng, chưa nói đến hình ảnh về các loài động vật có xương sống khác. Vì vậy, khi dữ liệu đánh giá đưa vào mô hình hình ảnh của một con sóc mà nó chưa từng thấy trước đó, nhà khoa học dữ liệu có thể xem xét khả năng thực hiện tác vụ của thuật toán. Đây là bài kiểm tra dựa trên một tập dữ liệu hoàn toàn khác với tập dữ liệu mà nó đã được đào tạo.

Dựa trên độ chính xác của các dự đoán sau giai đoạn đánh giá, các nhà khoa học dữ liệu có thể điều chỉnh các siêu tham số như tốc độ học, đặc tính đầu vào và các lớp ẩn. Mục tiêu là nhằm tránh overfitting, tức việc mô hình tìm được quá khớp với dữ liệu đào tạo, nhưng không hoạt động hiệu quả trên dữ liệu bổ sung. Vấn đề ngược lại, underfitting xảy ra khi mô hình không đủ phức tạp để đưa ra dự đoán chính xác dựa trên dữ liệu đào tạo hoặc dữ liệu mới.

Nói tóm lại, khi bạn thấy các dự đoán tốt trên cả tập dữ liệu đào tạo và tập dữ liệu đánh giá, bạn có thể tin tưởng rằng thuật toán hoạt động hiệu quả trên dữ liệu mới, không chỉ dừng lại ở một tập con dữ liệu nhỏ.

Dữ liệu đánh giá & dữ liệu thử nghiệm

Không phải tất cả các nhà khoa học dữ liệu đều dựa vào cả dữ liệu đánh giá và dữ liệu thử nghiệm. Ở một mức độ nào đó, cả hai bộ dữ liệu đều phục vụ cùng một mục đích: đảm bảo mô hình hoạt động trên dữ liệu thực.

Tuy nhiên, có một số khác biệt giữa dữ liệu đánh giá và dữ liệu thử nghiệm. Bộ dữ liệu đánh giá thường được dán nhãn để các nhà khoa học dữ liệu có thể thu thập số liệu phục vụ mục tiêu đào tạo mô hình tốt hơn. Theo nghĩa này, dữ liệu đánh giá được coi như một phần của quá trình đào tạo mô hình. Ngược lại, mô hình hoạt động hoàn toàn tự nhiên và thực tế khi bạn chạy dữ liệu thử nghiệm. Do đó, có thể nói, dữ liệu đánh giá điều chỉnh mô hình, trong khi dữ liệu thử nghiệm chỉ xác nhận rằng mô hình có hoạt động tốt hay không.

Làm thế nào để xây dựng một mô hình học máy hoạt động hiệu quả hơn?

Sau khi nắm được sự khác biệt giữa dữ liệu đào tạo, dữ liệu đánh giá và dữ liệu thử nghiệm, bạn có thể bắt đầu xây dựng các thuật toán học máy một cách hiệu quả. Tuy nhiên, hãy ghi lại một số lưu ý sau đây: 

“Garbage in, garbage out.” (rác vào, rác ra), ý chỉ hiệu suất của thuật toán học máy phụ thuộc rất nhiều vào bộ dữ liệu đào tạo nên nó. Dữ liệu đào tạo mô hình học máy hiệu quả phải đáp ứng được 3 yếu tố chính:

  • Số lượng. Một thuật toán học máy đủ mạnh sẽ cần nhiều dữ liệu đào tạo để học cách tương tác với người dùng và hoạt động trong thực tế một cách chính xác. Tương tự như con người, phải học rất nhiều để trở thành chuyên gia trong một lĩnh vực. Điều này không khác gì đối với phần mềm. Hãy lên kế hoạch sử dụng nhiều dữ liệu đào tạo, đánh giá và thử nghiệm để đảm bảo thuật toán hoạt động như mong đợi.
  • Chất lượng: Cần thu thập dữ liệu trong thế giới thực, chẳng hạn như giọng nói, hình ảnh, video, tài liệu, âm thanh và các dạng đầu vào khác mà thuật toán hoạt động trên đó. Dữ liệu thực rất quan trọng, vì nó có dạng mô phỏng gần nhất với cách một ứng dụng sẽ nhận thông tin đầu vào của người dùng. Ví dụ, các thuật toán học máy hoạt động trên hình ảnh hoặc âm thanh phải lấy nguồn dữ liệu đào tạo từ chính các điều kiện môi trường và phần cứng giống hoặc tương tự như điều kiện thực tế sau khi triển khai.
  • Sự đa dạng: Sự đa dạng của dữ liệu nhằm đảm bảo mô hình không hoạt động một cách thiên lệch, tức mang lại kết quả có thể được coi là có định kiến ​​đối với một giới tính, chủng tộc, nhóm tuổi, ngôn ngữ hoặc văn hóa nhất định, tùy thuộc vào cách nó biểu hiện. Do đó, hãy đảm bảo phạm vi thu thập dữ liệu đào tạo.

Tùy thuộc vào cách tiếp cận và giai đoạn xây dựng mô hình học máy, nhãn hoặc thẻ có thể là một thành phần thiết yếu khác để thu thập dữ liệu. Trong các phương pháp học có giám sát, dữ liệu được dán nhãn rõ ràng nhằm đảm bảo rằng thuật toán có thể tự học. Điều này làm tăng công việc liên quan đến đào tạo và thử nghiệm thuật toán, đồng thời đòi hỏi độ chính xác cao hơn, tuy nhiên, mô hình dễ hoạt động hiệu quả hơn trong môi trường thực.

Tags:

Chia sẻ:
Share on facebook
Share on twitter
Share on linkedin

Có thể bạn quan tâm

10 KHÓA HỌC CƠ BẢN VỀ KHOA HỌC DỮ LIỆU HOÀN TOÀN MIỄN PHÍ 

Kỷ nguyên của dữ liệu lớn đang mở ra, nhưng sức mạnh của dữ liệu không

Sử dụng dữ liệu lớn trong doanh nghiệp: tất cả những điều bạn nên biết

Theo một cuộc khảo sát được NewVantage Partners thực hiện cuối năm 2021, trong số 94