Nếu bạn đang xây dựng hệ thống nhận dạng tiếng nói hoặc AI đàm thoại, vậy thì chắc chắn sẽ cần đến các bộ dữ liệu huấn luyện và thử nghiệm các mô hình. Tuy nhiên, có thể tìm kiếm dữ liệu chất lượng về nhận dạng tiếng nói ở đâu? Làm thế nào để tìm được các bản ghi âm giọng nói đáp ứng chính xác thông số kỹ thuật đào tạo mà bạn cần?

Thực tế có hàng trăm bộ dữ liệu tiếng nói được chia sẻ trên Internet. Song, để có được dữ liệu giọng nói phù hợp với chính sản phẩm/giải pháp đang phát triển, bạn sẽ cần thu thập dữ liệu của riêng mình. Dưới đây là 04 phương pháp gợi ý giúp bạn xây dựng bộ dữ liệu đào tạo cho các mô hình học máy. Đi kèm với mỗi phương pháp là những phân tích về ưu, nhược điểm của chúng.

1, Các bộ dữ liệu tiếng nói mở cho cộng đồng

Trước tiên, hãy tận dụng những tài nguyên miễn phí trên Internet. Các bộ dữ liệu nhận dạng tiếng nói được mở cho cộng đồng là một lựa chọn tuyệt vời để khởi đầu. Những bộ dữ liệu này được thu thập từ các dự án nghiên cứu công khai và chia sẻ mã nguồn với mục tiêu thúc đẩy đổi mới sáng tạo trong cộng đồng xử lý ngôn ngữ và tiếng nói.

Một số nguồn bạn có thể tham khảo bao gồm:

Ưu điểm:

Hạn chế: 

2, Tập dữ liệu tiếng nói được đóng gói sẵn

Trong trường hợp không thể tự xây dựng bộ dữ liệu riêng, đồng thời cảm thấy các bộ dữ liệu nguồn mở là không phù hợp, bạn có thể cân nhắc đến việc mua các bộ dữ liệu được đóng gói sẵn. Dữ liệu này đã được nhà cung cấp thu thập và tổng hợp, phục vụ mục tiêu của từng khách hàng.

Ưu điểm:

Hạn chế:

3, Bộ dữ liệu thu thập từ xa 

Để xây dựng ứng dụng điều khiển bằng giọng nói, bạn sẽ cần một bộ dữ liệu với ngôn ngữ chuyên ngành đặc thù. Ví dụ: đối với lĩnh vực ngân hàng, bạn sẽ cần các mẫu giọng nói liên quan đến hoạt động giao dịch, sao kê, tiết kiệm,… Không phải bất kỳ bộ dữ liệu nào cũng đáp ứng được yêu cầu này. Đó là khi bạn phải tự thu thập dữ liệu riêng hoặc thông qua các nhà cung cấp giải pháp dữ liệu. 

Để thu thập dữ liệu giọng nói, có hai lựa chọn: thu thập từ xa hoặc trực tiếp.

Thu thập dữ liệu giọng nói từ xa
Người tham gia dự án có thể thu giọng qua các thiết bị di động, tiến hành dán nhãn hoặc phiên âm và gửi bộ dữ liệu về các nhà phát triển

Với lựa chọn thứ nhất, dữ liệu giọng nói được thu thập từ xa thông qua các ứng dụng dành cho thiết bị di động hoặc nền tảng trình duyệt web từ một nhóm đáng tin cậy. Những người tham gia được tuyển chọn trực tuyến dựa trên hồ sơ ngôn ngữ và nhân khẩu học. Sau đó, họ được yêu cầu ghi lại các mẫu giọng nói bằng cách đọc lời nhắc trên màn hình hoặc bằng giao tiếp qua nhiều tình huống khác nhau.

Đối với hầu hết các dự án thu thập dữ liệu, đây là lựa chọn tối ưu nhất bởi giá cả phải chăng, khả năng mở rộng và tùy chỉnh theo nhu cầu của nhà phát triển.

Ưu điểm

Hạn chế:

4, Bộ dữ liệu thu âm trực tiếp

Thu âm trực tiếp thường đòi hỏi một khoản đầu tư lớn hơn so với thu thập dữ liệu từ xa. Tuy nhiên, đây lại là lựa chọn tốt nhất để đáp ứng yêu cầu của những nhà phát triển khó tính.

Ưu điểm

Hạn chế:

Với hơn 10,000 giờ phân tích các dữ liệu tiếng Việt chất lượng, được phân loại và chọn lọc kỹ càng, Trợ lý giọng nói tiếng Việt ViVi (phát triển bởi VinBigData) có khả năng phản hồi câu thoại nhanh chóng và chính xác. Mô hình AI giúp chuyển đổi giọng nói thành văn bản với tỷ lệ WER nhỏ hơn 6%. Đặc biệt, lần đầu tiên tại Việt Nam, trợ lý ảo có thể hiểu ngôn ngữ đặc thù từng vùng miền, giúp đem lại trải nghiệm sử dụng đầy thuận tiện, dễ dàng cho người sử dụng. Đồng thời, sở hữu giọng đọc tự nhiên và chất lượng từ MC Hoài Anh, ViVi có thể giao tiếp một cách tự nhiên và thân thiện, với tông giọng lên xuống để biểu hiện cảm xúc.

Trải nghiệm ViVi tại đây.

Việc triển khai các hệ thống chatbot, đặc biệt là chatbot sử dụng trí tuệ nhân tạo (AI chatbot), mang lại nhiều lợi ích đáng kể cho doanh nghiệp như: nâng cao trải nghiệm khách hàng với các phản hồi 24/7, giảm thiểu chi phí và gia tăng doanh số. Vì vậy, sử dụng chatbot cho các kênh truyền thông là phương pháp được các doanh nghiệp trên thế giới ưa chuộng sử dụng trong thời gian gần đây. 

Tuy nhiên, không phải bất kì doanh nghiệp nào triển khai chatbot cũng thực sự mang lại hiệu quả và thành công như mong đợi. Đôi khi chatbot vẫn gặp một số lỗi như nhầm lẫn các lệnh đơn giản, cung cấp các phản hồi không hữu ích hoặc không liên quan đến vấn đề khách hàng hỏi. 

Những lợi ích nổi bật mà chatbot mang lại 

Với khả năng phản hồi và giải đáp thông tin trong thời gian thực, hỗ trợ liên tục 24/7, chatbot cải thiện các dịch vụ chăm sóc khách hàng cho mỗi doanh nghiệp. Xử lý khối lượng yêu cầu lớn với độ chính xác cao, chatbot giúp gia tăng trải nghiệm khách hàng và giảm thiểu chi phí đáng kể.  

Xem thêm về Chatbot và những lợi ích Chatbot mang lại: Tại đây 

Ba loại rào cản chính khi triển khai chatbot các doanh nghiệp thường xuyên gặp phải

1. Xác định trường hợp sử dụng chatbot chưa phù hợp

Các doanh nghiệp có thể dễ dàng đưa ra danh sách những vấn đề phổ biến mà khách hàng gặp phải, tuy nhiên, không phải vấn đề nào cũng phù hợp với chatbot. Họ thường không chắc chắn khi xác định chủ đề nào phù hợp nhất với chatbot và chủ đề nào nên được xử lý bởi các nhân viên chăm sóc khách hàng. Chatbot dễ gặp khó khăn khi phải xử lý các chủ đề mang tính cảm xúc cao hoặc yêu cầu các tương tác qua lại phức tạp, lâu dài. 

2. Không thiết kế và huấn luyện chatbot theo kịch bản riêng của doanh nghiệp

Một số doanh nghiệp thường triển khai chatbot theo một mô hình chung, hoặc dựa theo các nguyên mẫu có sẵn từ các doanh nghiệp khác. Họ chưa thực sự quan tâm đến mức độ phù hợp khi triển khai. Chatbot phải phù hợp với sản phẩm, dịch vụ mà doanh nghiệp cung cấp, đồng thời phải có kịch bản làm hài lòng khách hàng. Khi tích hợp chatbot với các kênh truyền thông, các công ty nên ưu tiên nhu cầu của khách hàng và chú ý đến các đặc tính của sản phẩm, để chatbot hoạt động hiệu quả hơn. 

Trò chuyện với khách hàng cũng tùy thuộc vào trường hợp sử dụng và đặc điểm nhận dạng thương hiệu. Một công ty bán sản phẩm giải trí cho thế hệ millennial sẽ muốn cuộc trò chuyện trở nên vui vẻ và hiện đại trong khi một chatbot chăm sóc sức khỏe không nên hồi đáp với ngữ điệu và câu từ mang tính vui đùa, hoặc pha trò. 

3. Không xây dựng đủ dữ liệu để huấn luyện chatbot thông minh

Giống như các công cụ ứng dụng trí tuệ nhân tạo khác, chatbot cần sử dụng nhiều dữ liệu đầu vào để học cách xử lý các yêu cầu một cách hiệu quả. Đào tạo chatbot thông minh có nghĩa là tạo cơ hội cho chatbot tiếp xúc với vô số cuộc trò chuyện mẫu về các chủ đề doanh nghiệp muốn giải quyết, sau đó học hỏi từ các trường hợp thực tế đó để câu trả lời linh hoạt hơn. Đặc biệt, chatbot còn có thể học để trở nên cá nhân hóa, hiểu phong cách và ngữ điệu nói chuyện của khách hàng, sau đó đối thoại sao cho phù hợp với từng người. 

Doanh nghiệp nên làm gì để triển khai chatbot thực sự hiệu quả

triển khai chatbot hiệu quả
Triển khai chatbot hiệu quả là một trong những điều mà doanh nghiệp quan tâm thời gian gần đây.

Kết hợp triển khai chatbot với hệ thống chăm sóc khách hàng đúng cách 

Với khả năng trực tuyến 24/7, chatbot luôn sẵn sàng giải đáp thắc mắc cho khách hàng ở bất kì thời điểm nào trong ngày. Tuy nhiên, chatbot không phải công cụ toàn năng, và có hiểu biết trong phạm vi nhất định. Trong quá trình triển khai Chatbot, đôi khi sẽ có một số vấn đề xảy ra nằm ngoài giới hạn hiểu biết của chatbot. Trường hợp này các doanh nghiệp nên chuẩn bị phương án linh hoạt bằng việc tự động chuyển giao một số câu hỏi cho nhân viên tư vấn để tiếp tục cuộc trò chuyện với khách hàng. 

Doanh nghiệp phải khéo léo triển khai Chatbot kết hợp với các yếu tố khác để hoàn thiện khâu chăm sóc khách hàng hiệu quả nhất. Chatbot có thể nhanh chóng trả lời các câu hỏi phổ biến và chuyển tiếp lại cho các nhân viên hỗ trợ với các cuộc đối thoại có tính chất phức tạp và mang nhiều sắc thái cảm xúc. Chatbot có khả năng thu thập thông tin, xuất báo cáo nhưng việc xử lý thông tin vẫn cần các nhà quản trị hay các nhân viên chuyên môn dành thời gian phân tích. 

Xây dựng kịch bản trả lời phù hợp với doanh nghiệp và đúng trọng tâm

Chatbot nên được coi như các tác nhân trong một trung tâm chăm sóc khách hàng: phải huấn luyện và đào tạo chatbot với những nghiệp vụ khách hàng mà doanh nghiệp đang triển khai, nắm bắt đầy đủ thông tin và định vị thương hiệu và học cách đối thoại khéo léo để mang lại cho khách hàng những trải nghiệm tốt. 

Với vai trò chính là giải đáp thắc mắc và cung cấp thông tin, tin nhắn của bot nên là các câu ngắn và rõ ràng. Khách hàng cần những lời đáp đúng trọng tâm và nhu cầu họ mong muốn. Khách hàng dễ cảm thấy không hài lòng nếu bot trả lời quá dài, lan man, không đúng ý. 

Đặt mình vào vị trí của khách hàng để đào tạo chatbot thông minh 

Doanh nghiệp nên đặt mình vào vị trí của khách hàng để nghiên cứu xem vấn đề nào đang được quan tâm, những thắc mắc khi sử dụng sản phẩm là gì, những câu hỏi nào khách hàng thường đặt ra… Trước khi triển khai, doanh nghiệp phải xây dựng kịch bản đầy đủ thông tin nhất có thể. Sau khi hoàn thành việc thiết lập kịch bản, các nhà quản trị nên trải nghiệm thử với bot, xem xét xem câu trả lời của bot đã đáp ứng được hết nhu cầu và mong đợi của khách hàng hay chưa. Đồng thời khi thử nghiệm cũng giúp doanh nghiệp phát hiện lỗi để điều chỉnh kịp thời trước khi tới tay khách hàng. 

Ngoài ra, sau thời gian vận hành, doanh nghiệp cũng cần thường xuyên theo dõi và điều chỉnh kịch bản để phù hợp với văn phong giao tiếp của khách hàng. Việc theo dõi và học hỏi giúp chatbot trở nên linh hoạt và thông minh hơn, gần gũi và cá nhân hóa vời từng người dùng. Cách diễn đạt, ngữ điệu, cách dùng từ phù hợp sẽ khiến khách hàng thoải mái, và mong muốn chia sẻ thông tin nhiều hơn. Những thông tin này sẽ dễ dàng có được nếu quan sát hành và nắm bắt hành vi của khách hàng trong một khoảng thời gian nhất định.

Chatbot đã và đang là xu thế tất yếu và một nhân tố không thể thiếu giúp doanh nghiệp tối ưu trải nghiệm khách hàng, tiết kiệm nhân lực và chi phí. Tuy nhiên, doanh nghiệp cần cân nhắc kỹ lưỡng quy trình tạo lập và thiết kể để khai thác chatbot hiệu quả nhất. Với chatbot điều nên quan tâm hàng đầu là chất lượng của chatbot, tránh trường hợp tác dụng ngược khi chatbot hoạt động thiếu chuyên nghiệp.

VinBot cung cấp nền tảng tạo lập, cấu hình, huấn luyện chatbot theo kịch bản nghiệp vụ của khách hàng, hỗ trợ tích hợp đa dạng kênh truyền thông để tương tác với người dùng cuối. Với VinBot, đội ngũ sẽ tiến hành tìm hiểu và phân tích kịch bản thật sự phù hợp cho mỗi doanh nghiệp, xây dựng hệ thống chatbot phản hồi mang tính cá nhân hóa tới từng khách hàng, cung cấp trải nghiệm ưu việt nhất. Thành tạo nhiều ngôn ngữ như Việt, Anh, Nhật, Trung,.. tốc độ phản hồi chưa tới 0,1s và khả năng xử lý 10.000 yêu cầu cùng lúc, VinBot hứa hẹn là công cụ nâng tầm dịch vụ khách hàng cho các doanh nghiệp. 
Tìm hiểu thêm về VinBot: Tại đây

Tư liệu tham khảo: Topbots

Từ thẻ đục lỗ, bàn phím gõ đến màn hình cảm ứng là cả một tiến trình không ngừng thay đổi trong cách thức con người tương tác với máy tính. Vậy trên tiến trình này, điều gì sẽ xảy ra tiếp theo? 

Câu trả lời không đâu khác ngoài giọng nói và kỷ nguyên “không chạm”. Để thực hiện các tương tác theo cách thức này, công nghệ tự động nhận dạng tiếng nói (Automatic Speech Recognition – ASR) là chìa khóa trong việc chuyển đổi ngôn ngữ nói thành ngôn ngữ viết nhằm giúp máy tính có thể hiểu được.

Công nghệ nhận dạng tiếng nói giúp thay đổi cách thức con người tương tác với máy tính
Công nghệ ASR giúp thay đổi cách thức con người tương tác với máy tính

Khái quát về công nghệ nhận dạng tiếng nói

ASR là một nhánh của Học máy (Machine Learning – ML). Về cơ bản, thay vì lập trình các quy tắc để chuyển đổi dữ liệu đầu vào (giọng nói) thành đầu ra (văn bản), thì mô hình Học máy được đào tạo bằng cách đưa các tập dữ liệu lớn vào một thuật toán, chẳng hạn như mạng nơ-ron tích chập (CNN). Trải qua quá trình đào tạo, mô hình ngày càng suy luận tốt hơn, và có khả năng nhận dạng tiếng nói của con người.

Đáng nói, cần phân biệt giữa công nghệ tự động nhận dạng tiếng nói (ASR) và xử lý ngôn ngữ tự nhiên (NLP). ASR liên quan đến việc chuyển đổi dữ liệu giọng nói thành dữ liệu văn bản, trong khi NLP tìm cách “hiểu” ngôn ngữ để thực hiện các tác vụ khác. Hai công nghệ này thường đi kèm với nhau. Ví dụ, một chiếc loa thông minh sử dụng ASR để chuyển đổi lệnh thoại thành một định dạng có thể sử dụng, trong khi NLP xác định nội dung, ý nghĩa của lệnh thoại đó. 

Một số công nghệ và thuật ngữ trong ASR

Theo cách truyền thống, hầu hết ASR bắt đầu với một mô hình âm thanh, thể hiện mối quan hệ giữa tín hiệu âm thanh với các đơn vị cơ bản cấu thành nên từ. Mô hình âm thanh này thực hiện chuyển đổi sóng âm thanh thành các bit mà máy tính có thể sử dụng. Sau đó, các mô hình ngôn ngữ và phát âm lấy dữ liệu này, áp dụng ngôn ngữ học tính toán (computational linguistics) và đặt từng âm thanh theo trình tự và ngữ cảnh để tạo thành từ và câu.

Tuy nhiên, các nghiên cứu mới nhất đang bỏ qua cách tiếp cận đa thuật toán này để chuyển sang sử dụng một mạng nơ-ron duy nhất được gọi là mô hình đầu cuối (end-to-end – E2E). Theo nhiều nhà khoa học, mô hình E2E cho phép việc mở rộng sang nhiều ngôn ngữ khác ngoài tiếng Anh trở nên nhanh chóng hơn, đồng thời dễ dàng đào tạo các mô hình mới và tiết kiệm thời gian giải mã (decoding).

Một kỹ thuật quan trọng khác là tách kênh giọng nói (speaker diarization), cho phép mô hình nhận dạng giọng nói xác định người nói và thời điểm nói. Điều này không chỉ quan trọng đối với các trường hợp ghi chép báo cáo cuộc họp, hội nghị với nhiều diễn giả, mà còn góp phần hướng tới cá nhân hóa trải nghiệm người dùng. 

Để đánh giá mức độ chính xác của mô hình ASR, các nhà nghiên cứu hay sử dụng tỷ lệ lỗi từ (Word Error Rate – WER) theo công thức:

Tỷ lệ lỗi từ = (số lần chèn + xóa + sai) / số từ trong bảng điểm tham chiếu

Như vậy, đơn giản hơn, có thể hiểu WER cung cấp tỷ lệ phần trăm các từ mà ASR đã nhầm lẫn. 

Tương lai của ASR

Chúng ta đang bước vào kỷ nguyên của Internet vạn vật kết nối (Internet of Things – IoT). IoT bao gồm tất cả các thiết bị “thông minh” tồn tại xung quanh ta, từ thiết bị gia đình như điều hòa, loa đến các thiết bị công nghiệp nhằm tối ưu hóa quy trình sản xuất và thúc đẩy quá trình tự động hóa. Tương lai, giọng nói sẽ nhanh chóng trở chiếm ưu thế và trở thành cách thức ưu việt nhất để người dùng tương tác với IoT. Chỉ cần nói “bật đèn” hoặc “tăng nhiệt độ”, chúng ta có thể kiểm soát điều kiện môi trường trong thời gian thực, mà không cần phải nhìn vào màn hình hay nhấn các nút vật lý.

Trợ lý giọng nói đa vùng miền ViVi được tích hợp trên xe ô tô điện VinFast VFe34
Trợ lý giọng nói đa vùng miền ViVi được tích hợp trên xe ô tô điện VinFast VFe34

Tự động nhận dạng tiếng nói là một trong những công nghệ được tích hợp trong Trợ lý giọng nói tiếng Việt đa vùng miền ViVi. Mô hình AI giúp chuyển đổi giọng nói thành văn bản với tỷ lệ WER nhỏ hơn 6%. Đặc biệt, lần đầu tiên tại Việt Nam, trợ lý ảo có thể hiểu ngôn ngữ đặc thù từng vùng miền, giúp đem lại trải nghiệm sử dụng đầy thuận tiện, dễ dàng cho người sử dụng. 

Trải nghiệm các tính năng thông minh của ViVi trên xe ô tô điện VinFast VF e34 tại đây.