04 nguồn để tìm kiếm tập dữ liệu nhận dạng tiếng nói

Nếu bạn đang xây dựng hệ thống nhận dạng tiếng nói hoặc AI đàm thoại, vậy thì chắc chắn sẽ cần đến các bộ dữ liệu huấn luyện và thử nghiệm các mô hình. Tuy nhiên, có thể tìm kiếm dữ liệu chất lượng về nhận dạng tiếng nói ở đâu? Làm thế nào để tìm được các bản ghi âm giọng nói đáp ứng chính xác thông số kỹ thuật đào tạo mà bạn cần?

Thực tế có hàng trăm bộ dữ liệu tiếng nói được chia sẻ trên Internet. Song, để có được dữ liệu giọng nói phù hợp với chính sản phẩm/giải pháp đang phát triển, bạn sẽ cần thu thập dữ liệu của riêng mình. Dưới đây là 04 phương pháp gợi ý giúp bạn xây dựng bộ dữ liệu đào tạo cho các mô hình học máy. Đi kèm với mỗi phương pháp là những phân tích về ưu, nhược điểm của chúng.

1, Các bộ dữ liệu tiếng nói mở cho cộng đồng

Trước tiên, hãy tận dụng những tài nguyên miễn phí trên Internet. Các bộ dữ liệu nhận dạng tiếng nói được mở cho cộng đồng là một lựa chọn tuyệt vời để khởi đầu. Những bộ dữ liệu này được thu thập từ các dự án nghiên cứu công khai và chia sẻ mã nguồn với mục tiêu thúc đẩy đổi mới sáng tạo trong cộng đồng xử lý ngôn ngữ và tiếng nói.

Một số nguồn bạn có thể tham khảo bao gồm:

  • The Google Speech Commands Dataset (Tập dữ liệu lệnh thoại của Google): Tập dữ liệu này chứa 65.000 câu nói, mỗi câu chứa một từ đơn trong tập khoảng 30 từ), được thu âm bởi hàng nghìn người khác nhau.
  • Mozilla’s Common Voice Dataset: Đây là tập dữ liệu mở đa ngôn ngữ, phục vụ việc đào tạo các mô hình hỗ trợ bằng giọng nói. Mozilla’s Common Voice Dataset bao gồm tiếng Anh (với những ngữ điệu, phát âm khác nhau của người Mỹ, Anh, Úc, Canada, Scotland, New Zealand), tiếng Ấn Độ, Pakistan, Sri Lanka, Nam Phi, Zimbabwe, Namibia, ở nhiều độ tuổi và giới tính.
  • The Speech Accent Archive: Tập dữ liệu này chứa 2140 mẫu giọng nói, mỗi mẫu là giọng của một người. Những người tham gia thu âm đến từ 177 quốc gia và có 214 ngôn ngữ khác nhau. 
  • Bộ dữ liệu nhận dạng tiếng nói và dịch máy Anh-Việt: VinBigData chia sẻ 100 giờ dữ liệu tiếng nói tiếng Việt, được phiên âm thủ công với độ chính xác 96% và 01 bộ dữ liệu dành cho Dịch máy (Machine Translation) từ tiếng Anh sang tiếng Việt trong lĩnh vực tin tức. 

Ưu điểm:

  • Miễn phí 
  • Nhanh chóng: chỉ cần một chiếc nhấp chuột để tải về tất cả các bộ dữ liệu
  •  Quy mô dữ liệu: Có hàng trăm bộ dữ liệu có sẵn, bao gồm cả không theo tập lệnh và tập lệnh.

Hạn chế: 

  • Chi phí xử lý – Phần lớn các bộ dữ liệu này đều cần được xử lý trước để đảm bảo yêu cầu về chất lượng trước khi đưa vào thuật toán học máy.
  • Tính phổ quát – Các mẫu giọng nói mang tính phổ quát chung. Vì vậy, dù hữu ích trong việc xây dựng hệ thống nhận dạng tiếng nói, nhưng các bộ dữ liệu này sẽ không thể giúp bạn đào tạo và kiểm tra các trường hợp sử dụng cụ thể của sản phẩm.
  • Chất lượng thấp. Vì đa số các bộ dữ liệu này được thu thập thông qua bản ghi âm của người dùng nguồn mở nên chất lượng âm thanh của chúng không đảm bảo tính ổn định.
  • Hạn chế về ngôn ngữ. Mặc dù ngày càng trở nên đa dạng, song các bộ dữ liệu mở vẫn thường thiên về những ngôn ngữ phổ biến như tiếng Anh.

2, Tập dữ liệu tiếng nói được đóng gói sẵn

Trong trường hợp không thể tự xây dựng bộ dữ liệu riêng, đồng thời cảm thấy các bộ dữ liệu nguồn mở là không phù hợp, bạn có thể cân nhắc đến việc mua các bộ dữ liệu được đóng gói sẵn. Dữ liệu này đã được nhà cung cấp thu thập và tổng hợp, phục vụ mục tiêu của từng khách hàng.

Ưu điểm:

  • Chất lượng: Thường có chất lượng cao để phục vụ phát triển các sản phẩm AI
  • Tính tương thích: Các bộ dữ liệu được cung cấp bởi bên thứ ba có thể phù hợp hơn với yêu cầu của bạn về ngôn ngữ hoặc nhân khẩu học.
  • Chi phí: thông thường, mua lại dữ liệu có thể tiết kiệm hơn so với việc tự thu thập dữ liệu mới
  • Tốc độ: Các bộ dữ liệu này có thể được phân phối chỉ trong vài ngày.

Hạn chế:

  • Không được tùy chỉnh. Vì được đóng gói sẵn nên bạn sẽ không thể tùy chỉnh tập dữ liệu theo nhu cầu của mình. Điều này có nghĩa là các tùy chọn về ngôn ngữ, phương ngữ, nhân khẩu học, thông số kỹ thuật âm thanh, phiên âm sẽ bị hạn chế.
  • Không thể mở rộng: Bộ dữ liệu đã được thu thập là có giới hạn. Nếu có nhu cầu phát sinh cần thu thập thêm dữ liệu, bạn sẽ phải khởi động một dự án hoàn toàn mới.
  • Không có quyền sở hữu: Bất kỳ doanh nghiệp nào khác cũng có thể mua dữ liệu này, do đó, đây không phải là giải pháp độc nhất cho ứng dụng của bạn.

3, Bộ dữ liệu thu thập từ xa 

Để xây dựng ứng dụng điều khiển bằng giọng nói, bạn sẽ cần một bộ dữ liệu với ngôn ngữ chuyên ngành đặc thù. Ví dụ: đối với lĩnh vực ngân hàng, bạn sẽ cần các mẫu giọng nói liên quan đến hoạt động giao dịch, sao kê, tiết kiệm,… Không phải bất kỳ bộ dữ liệu nào cũng đáp ứng được yêu cầu này. Đó là khi bạn phải tự thu thập dữ liệu riêng hoặc thông qua các nhà cung cấp giải pháp dữ liệu. 

Để thu thập dữ liệu giọng nói, có hai lựa chọn: thu thập từ xa hoặc trực tiếp.

Thu thập dữ liệu giọng nói từ xa
Người tham gia dự án có thể thu giọng qua các thiết bị di động, tiến hành dán nhãn hoặc phiên âm và gửi bộ dữ liệu về các nhà phát triển

Với lựa chọn thứ nhất, dữ liệu giọng nói được thu thập từ xa thông qua các ứng dụng dành cho thiết bị di động hoặc nền tảng trình duyệt web từ một nhóm đáng tin cậy. Những người tham gia được tuyển chọn trực tuyến dựa trên hồ sơ ngôn ngữ và nhân khẩu học. Sau đó, họ được yêu cầu ghi lại các mẫu giọng nói bằng cách đọc lời nhắc trên màn hình hoặc bằng giao tiếp qua nhiều tình huống khác nhau.

Đối với hầu hết các dự án thu thập dữ liệu, đây là lựa chọn tối ưu nhất bởi giá cả phải chăng, khả năng mở rộng và tùy chỉnh theo nhu cầu của nhà phát triển.

Ưu điểm

  • Có thể tùy chỉnh: Bạn có thể cấu trúc bộ dữ liệu phù hợp với yêu cầu đào tạo mô hình. 
  • Chi phí hợp lý hơn so với thu âm tiếng nói trực tiếp
  • Đa dạng dữ liệu giọng nói: Bạn có thể thu thập các loại dữ liệu giọng nói khác nhau, bao gồm câu lệnh, giao tiếp dựa trên kịch bản hoặc không có mô tả.
  • Khả năng mở rộng linh hoạt 
  • Dễ dàng tiếp cận với nhiều người, với nhiều ngôn ngữ, chất giọng hoặc các yếu tố nhân khẩu học khác nhau.
  • Tùy chọn xử lý dữ liệu: Bạn có thể yêu cầu những người tham gia dự án tiến hành dán nhãn hoặc phiên âm chính xác trước khi gửi tập dữ liệu đi 
  • Quyền sở hữu dữ liệu, không để bất cứ đối thủ cạnh tranh nào truy cập hay sử dụng bộ dữ liệu bạn đã thu thập.

Hạn chế:

  • Hạn chế về tùy chỉnh âm thanh. Vì dữ liệu được thu thập từ xa thông qua điện thoại di động hoặc tai nghe của người tham gia, do đó bạn không có nhiều lựa chọn về thông số kỹ thuật của âm thanh hoặc micrô.
  • Hạn chế về kịch bản âm thanh. Nếu bạn yêu cầu một kịch bản âm thanh cụ thể, chẳng hạn như xuất hiện một số loại tiếng ồn nhất định, thì thu âm trực tiếp sẽ là lựa chọn phù hợp hơn.

4, Bộ dữ liệu thu âm trực tiếp

Thu âm trực tiếp thường đòi hỏi một khoản đầu tư lớn hơn so với thu thập dữ liệu từ xa. Tuy nhiên, đây lại là lựa chọn tốt nhất để đáp ứng yêu cầu của những nhà phát triển khó tính.

Ưu điểm

  • Có thể tùy chỉnh: Thu âm trực tiếp là phương pháp dễ tùy chỉnh nhất, vì bạn có thể kiểm soát mọi yếu tố của bộ dữ liệu
  • Thông số kỹ thuật âm thanh: Thu âm trực tiếp đáp ứng bất kỳ yêu cầu nào về thông số kỹ thuật, từ đó, hỗ trợ việc xây dựng bộ dữ liệu đào tạo và kiểm tra đạt chuẩn.
  • Tính tự nhiên của dữ liệu: Với việc thu âm trực tiếp, bạn có thể ghi lại âm thanh trong môi trường tự nhiên.
  • Quyền sở hữu dữ liệu: Với việc tự tiến hành thu âm trực tiếp, bạn có toàn quyền sở hữu độc quyền đối với bộ dữ liệu.

Hạn chế:

  • Chi phí: Đây là phương pháp thu thập dữ liệu tốn kém nhất, vì nó liên quan đến việc xây dựng hoặc vận chuyển thiết bị ghi âm chuyên dụng.
  • Thời gian: Thu âm trực tiếp tốn nhiều thời gian hơn so với việc thu thập dữ liệu từ xa hoặc sử dụng các bộ dữ liệu có sẵn của bên thứ ba. 

Với hơn 10,000 giờ phân tích các dữ liệu tiếng Việt chất lượng, được phân loại và chọn lọc kỹ càng, Trợ lý giọng nói tiếng Việt ViVi (phát triển bởi VinBigData) có khả năng phản hồi câu thoại nhanh chóng và chính xác. Mô hình AI giúp chuyển đổi giọng nói thành văn bản với tỷ lệ WER nhỏ hơn 6%. Đặc biệt, lần đầu tiên tại Việt Nam, trợ lý ảo có thể hiểu ngôn ngữ đặc thù từng vùng miền, giúp đem lại trải nghiệm sử dụng đầy thuận tiện, dễ dàng cho người sử dụng. Đồng thời, sở hữu giọng đọc tự nhiên và chất lượng từ MC Hoài Anh, ViVi có thể giao tiếp một cách tự nhiên và thân thiện, với tông giọng lên xuống để biểu hiện cảm xúc.

Trải nghiệm ViVi tại đây.

Tags:

Chia sẻ:
Share on facebook
Share on twitter
Share on linkedin

Có thể bạn quan tâm

Cách phát triển trợ lý ảo cho môi trường nhiều tiếng ồn

Đối với trợ lý ảo, hệ thống nhận dạng tiếng nói (voice recognition) dễ dàng bị

Chatbot hỗ trợ phân tích dữ liệu và “nuôi” tệp khách hàng tiềm năng

Theo Juniper Research, trong năm 2022, ứng dụng chatbot sẽ giúp các doanh nghiệp trên toàn