Ngày nay, việc ra lệnh cho trợ lý ảo để thực hiện một số tác vụ đang dần trở nên phổ biến. Giao tiếp bằng giọng nói chính là cách thức tự nhiên nhất để tương tác, kết nối giữa người và máy. Trải nghiệm bằng giọng nói cũng đem lại sự tiện lợi rõ rệt cho người dùng cuối, giúp họ tiết kiệm thời gian nhập lệnh/truy vấn/tác vụ cần thực hiện.

Vậy công nghệ nào đã giúp máy có thể giao tiếp như người thật? Đây có phải nhân tố chính nằm sau sự ra đời của các sản phẩm trợ lý ảo hay không?

Giống như hầu hết các công nghệ mang tính cách mạng, câu trả lời nằm ở trí tuệ nhân tạo (AI) – đặc biệt là trí tuệ nhân tạo hội thoại (Conversational AI). Bài viết dưới đây sẽ hé mở một số hiểu biết cơ bản về AI hội thoại và những kỹ thuật hỗ trợ máy có thể tương tác với người thông qua giọng nói.

AI đàm thoại là gì?

AI đàm thoại có thể được định nghĩa là một cơ chế thông minh bắt chước các cuộc trò chuyện của con người ngoài đời thực. Công nghệ này được xây dựng trên nền tảng của học máy (ML) và xử lý ngôn ngữ tự nhiên (NLP). Bằng cách cung cấp một lượng lớn dữ liệu, máy tính có thể học bản chất của các tương tác giữa con người, từ đó nhận dạng giọng nói và văn bản đầu vào, đồng thời dịch nghĩa sang một loạt các ngôn ngữ khác mà người dùng mong muốn.

Trợ lý giọng nói có phải là ví dụ của AI hội thoại hay không?

Câu trả lời là có. Trợ lý giọng nói chính là một ví dụ điển hình về AI hội thoại. AI bot hiện nay tiên tiến hơn các chatbot thông thường (đơn thuần chỉ cung cấp câu trả lời được lập trình sẵn cho một số câu hỏi nhất định). Chúng được cấu hình để tạo ra các phản hồi tự nhiên như người thực, hạn chế tối đa cảm giác như trò chuyện giữa người và máy.

Nếu bạn hỏi trợ lý ảo “Thời tiết hôm nay thế nào?” hoặc yêu cầu ứng dụng “phát danh sách nhạc ưa thích tối thứ bảy!”, nó sẽ đưa ra phản hồi phù hợp chỉ trong vài giây và có thể thực hiện tác vụ nhanh hơn so với thao tác chạm/gõ phím thông thường. Tất cả điều này có thể thực hiện được nhờ phần mềm hội thoại tạo ra bằng trí tuệ nhân tạo.

AI hội thoại vận hành như thế nào?

Học máy là một phần không thể thiếu giúp trợ lý ảo có được những năng lực như của con người. Ứng dụng Trí tuệ nhân tạo, học máy tập trung vào việc đào tạo để các hệ thống cải thiện khả năng học hỏi, từ đó thực hiện các tác vụ một cách tốt hơn. Muốn làm được như vậy, cần cung cấp một bộ dữ liệu để máy tự động tiến hành phân tích các mẫu. Một số lĩnh vực khác của học máy như xử lý ngôn ngữ tự nhiên và học sâu cũng được ứng dụng trong việc xây dựng AI đàm thoại. Những công nghệ này trang bị cho trợ lý ảo năng lực tự học, nhằm sử dụng kinh nghiệm thu được từ các lần phản hồi đúng/sai trước đó để cải thiện trong tương lai. 

Tóm tắt quy trình vận hành của AI đàm thoại
Tóm tắt quy trình vận hành của AI đàm thoại

Quy trình hoạt động của AI hội thoại cơ bản gồm các bước: 

Sau khi truy vấn được đưa ra, AI phải hiểu được tiếng nói của người dùng, thông qua công nghệ tự động nhận dạng giọng nói (ASR) giúp chuyển tiếng nói thành văn bản.

Hiểu ngôn ngữ tự nhiên (NLU) giúp hệ thống diễn giải, phân tích cảm xúc và ý định đằng sau truy vấn. Các hệ thống tiên tiến thậm chí có thể hiểu được nội dung những câu thoại không tuân thủ nguyên tắc ngữ pháp hoặc khi người dùng nói tắt. 

Dựa trên ý định của người dùng, học máy sẽ tạo ra phản hồi phù hợp. Theo thời gian, phản hồi của máy sẽ ngày một tốt lên, bằng cách học hỏi các biến thể khác nhau của cùng một truy vấn, một mục đích.

Sau khi tổng hợp tất cả thông tin này, máy tạo ra phản hồi có thể hiểu được dựa trên công nghệ tạo ngôn ngữ tự nhiên (NLG). Dù là yêu cầu hoàn thành tác vụ hay trả lời một truy vấn, hệ thống cũng có thể hoàn tất quy trình này tương tự như con người. 

Với công nghệ chuyển văn bản thành giọng nói (TTS), trợ lý ảo sẽ trò chuyện, giao tiếp tự nhiên với con người.

Vì sao AI hội thoại quan trọng đối với doanh nghiệp?

1. Nâng cao trải nghiệm khách hàng

Với tương tác tự nhiên, đơn giản chỉ bằng giọng nói, trợ lý ảo giúp đem lại trải nghiệm “không chạm” tiện lợi và an toàn đối với người dùng cuối. Đồng thời, ứng dụng trợ lý ảo góp phần xây dựng hệ sinh thái thông minh, đồng bộ, tối ưu cho khách hàng.

2. Tối ưu hóa các tác vụ lặp lại

RPA (Robotics Process Automation) ra đời, giúp tự động hóa các tác vụ lặp lại. Tuy nhiên, RPA gặp hạn chế đáng kể trong việc hướng đến trải nghiệm khách hàng. Trong những trường hợp này, AI hội thoại là giải pháp hữu ích hơn, vừa hỗ trợ tương tác với khách hàng một cách tự nhiên, thân thiện, vừa giải phóng một khối lượng lớn công việc cho đội ngũ nhân sự. 

3. Xây dựng cơ sở dữ liệu về khách hàng

AI hội  thoại là một cơ chế giao tiếp không cấu trúc, giúp thu thập thông tin trong mọi tương tác để cải tiến thuật toán. Điều này mang đến cho doanh nghiệp một cái nhìn cụ thể về khách hàng mục tiêu, từ đó tiếp tục xây dựng và cải thiện các sản phẩm, dịch vụ hướng khách hàng.

Với hơn 10,000 giờ phân tích các dữ liệu tiếng Việt chất lượng, được phân loại và chọn lọc kỹ càng, Trợ lý giọng nói tiếng Việt ViVi (phát triển bởi VinBigData) có khả năng phản hồi câu thoại nhanh chóng và chính xác. Công nghệ chuyển đổi giọng nói thành văn bản với tỷ lệ WER nhỏ hơn 6% và sẽ tiếp tục được cải thiện, nhờ quy trình không ngừng làm giàu, làm mới và xử lý dữ liệu. Đặc biệt, từ cơ sở dữ liệu lớn và đặc thù, lần đầu tiên tại Việt Nam, trợ lý ảo có thể hiểu ngôn ngữ từng vùng miền, giúp đem lại trải nghiệm sử dụng đầy thuận tiện, dễ dàng cho người sử dụng. Đồng thời, sở hữu giọng đọc tự nhiên và chất lượng từ MC Hoài Anh, ViVi có thể giao tiếp một cách tự nhiên và thân thiện, với tông giọng lên xuống để biểu hiện cảm xúc.

Nếu bạn đang xây dựng hệ thống nhận dạng tiếng nói hoặc AI đàm thoại, vậy thì chắc chắn sẽ cần đến các bộ dữ liệu huấn luyện và thử nghiệm các mô hình. Tuy nhiên, có thể tìm kiếm dữ liệu chất lượng về nhận dạng tiếng nói ở đâu? Làm thế nào để tìm được các bản ghi âm giọng nói đáp ứng chính xác thông số kỹ thuật đào tạo mà bạn cần?

Thực tế có hàng trăm bộ dữ liệu tiếng nói được chia sẻ trên Internet. Song, để có được dữ liệu giọng nói phù hợp với chính sản phẩm/giải pháp đang phát triển, bạn sẽ cần thu thập dữ liệu của riêng mình. Dưới đây là 04 phương pháp gợi ý giúp bạn xây dựng bộ dữ liệu đào tạo cho các mô hình học máy. Đi kèm với mỗi phương pháp là những phân tích về ưu, nhược điểm của chúng.

1, Các bộ dữ liệu tiếng nói mở cho cộng đồng

Trước tiên, hãy tận dụng những tài nguyên miễn phí trên Internet. Các bộ dữ liệu nhận dạng tiếng nói được mở cho cộng đồng là một lựa chọn tuyệt vời để khởi đầu. Những bộ dữ liệu này được thu thập từ các dự án nghiên cứu công khai và chia sẻ mã nguồn với mục tiêu thúc đẩy đổi mới sáng tạo trong cộng đồng xử lý ngôn ngữ và tiếng nói.

Một số nguồn bạn có thể tham khảo bao gồm:

Ưu điểm:

Hạn chế: 

2, Tập dữ liệu tiếng nói được đóng gói sẵn

Trong trường hợp không thể tự xây dựng bộ dữ liệu riêng, đồng thời cảm thấy các bộ dữ liệu nguồn mở là không phù hợp, bạn có thể cân nhắc đến việc mua các bộ dữ liệu được đóng gói sẵn. Dữ liệu này đã được nhà cung cấp thu thập và tổng hợp, phục vụ mục tiêu của từng khách hàng.

Ưu điểm:

Hạn chế:

3, Bộ dữ liệu thu thập từ xa 

Để xây dựng ứng dụng điều khiển bằng giọng nói, bạn sẽ cần một bộ dữ liệu với ngôn ngữ chuyên ngành đặc thù. Ví dụ: đối với lĩnh vực ngân hàng, bạn sẽ cần các mẫu giọng nói liên quan đến hoạt động giao dịch, sao kê, tiết kiệm,… Không phải bất kỳ bộ dữ liệu nào cũng đáp ứng được yêu cầu này. Đó là khi bạn phải tự thu thập dữ liệu riêng hoặc thông qua các nhà cung cấp giải pháp dữ liệu. 

Để thu thập dữ liệu giọng nói, có hai lựa chọn: thu thập từ xa hoặc trực tiếp.

Thu thập dữ liệu giọng nói từ xa
Người tham gia dự án có thể thu giọng qua các thiết bị di động, tiến hành dán nhãn hoặc phiên âm và gửi bộ dữ liệu về các nhà phát triển

Với lựa chọn thứ nhất, dữ liệu giọng nói được thu thập từ xa thông qua các ứng dụng dành cho thiết bị di động hoặc nền tảng trình duyệt web từ một nhóm đáng tin cậy. Những người tham gia được tuyển chọn trực tuyến dựa trên hồ sơ ngôn ngữ và nhân khẩu học. Sau đó, họ được yêu cầu ghi lại các mẫu giọng nói bằng cách đọc lời nhắc trên màn hình hoặc bằng giao tiếp qua nhiều tình huống khác nhau.

Đối với hầu hết các dự án thu thập dữ liệu, đây là lựa chọn tối ưu nhất bởi giá cả phải chăng, khả năng mở rộng và tùy chỉnh theo nhu cầu của nhà phát triển.

Ưu điểm

Hạn chế:

4, Bộ dữ liệu thu âm trực tiếp

Thu âm trực tiếp thường đòi hỏi một khoản đầu tư lớn hơn so với thu thập dữ liệu từ xa. Tuy nhiên, đây lại là lựa chọn tốt nhất để đáp ứng yêu cầu của những nhà phát triển khó tính.

Ưu điểm

Hạn chế:

Với hơn 10,000 giờ phân tích các dữ liệu tiếng Việt chất lượng, được phân loại và chọn lọc kỹ càng, Trợ lý giọng nói tiếng Việt ViVi (phát triển bởi VinBigData) có khả năng phản hồi câu thoại nhanh chóng và chính xác. Mô hình AI giúp chuyển đổi giọng nói thành văn bản với tỷ lệ WER nhỏ hơn 6%. Đặc biệt, lần đầu tiên tại Việt Nam, trợ lý ảo có thể hiểu ngôn ngữ đặc thù từng vùng miền, giúp đem lại trải nghiệm sử dụng đầy thuận tiện, dễ dàng cho người sử dụng. Đồng thời, sở hữu giọng đọc tự nhiên và chất lượng từ MC Hoài Anh, ViVi có thể giao tiếp một cách tự nhiên và thân thiện, với tông giọng lên xuống để biểu hiện cảm xúc.

Trải nghiệm ViVi tại đây.

Từ thẻ đục lỗ, bàn phím gõ đến màn hình cảm ứng là cả một tiến trình không ngừng thay đổi trong cách thức con người tương tác với máy tính. Vậy trên tiến trình này, điều gì sẽ xảy ra tiếp theo? 

Câu trả lời không đâu khác ngoài giọng nói và kỷ nguyên “không chạm”. Để thực hiện các tương tác theo cách thức này, công nghệ tự động nhận dạng tiếng nói (Automatic Speech Recognition – ASR) là chìa khóa trong việc chuyển đổi ngôn ngữ nói thành ngôn ngữ viết nhằm giúp máy tính có thể hiểu được.

Công nghệ nhận dạng tiếng nói giúp thay đổi cách thức con người tương tác với máy tính
Công nghệ ASR giúp thay đổi cách thức con người tương tác với máy tính

Khái quát về công nghệ nhận dạng tiếng nói

ASR là một nhánh của Học máy (Machine Learning – ML). Về cơ bản, thay vì lập trình các quy tắc để chuyển đổi dữ liệu đầu vào (giọng nói) thành đầu ra (văn bản), thì mô hình Học máy được đào tạo bằng cách đưa các tập dữ liệu lớn vào một thuật toán, chẳng hạn như mạng nơ-ron tích chập (CNN). Trải qua quá trình đào tạo, mô hình ngày càng suy luận tốt hơn, và có khả năng nhận dạng tiếng nói của con người.

Đáng nói, cần phân biệt giữa công nghệ tự động nhận dạng tiếng nói (ASR) và xử lý ngôn ngữ tự nhiên (NLP). ASR liên quan đến việc chuyển đổi dữ liệu giọng nói thành dữ liệu văn bản, trong khi NLP tìm cách “hiểu” ngôn ngữ để thực hiện các tác vụ khác. Hai công nghệ này thường đi kèm với nhau. Ví dụ, một chiếc loa thông minh sử dụng ASR để chuyển đổi lệnh thoại thành một định dạng có thể sử dụng, trong khi NLP xác định nội dung, ý nghĩa của lệnh thoại đó. 

Một số công nghệ và thuật ngữ trong ASR

Theo cách truyền thống, hầu hết ASR bắt đầu với một mô hình âm thanh, thể hiện mối quan hệ giữa tín hiệu âm thanh với các đơn vị cơ bản cấu thành nên từ. Mô hình âm thanh này thực hiện chuyển đổi sóng âm thanh thành các bit mà máy tính có thể sử dụng. Sau đó, các mô hình ngôn ngữ và phát âm lấy dữ liệu này, áp dụng ngôn ngữ học tính toán (computational linguistics) và đặt từng âm thanh theo trình tự và ngữ cảnh để tạo thành từ và câu.

Tuy nhiên, các nghiên cứu mới nhất đang bỏ qua cách tiếp cận đa thuật toán này để chuyển sang sử dụng một mạng nơ-ron duy nhất được gọi là mô hình đầu cuối (end-to-end – E2E). Theo nhiều nhà khoa học, mô hình E2E cho phép việc mở rộng sang nhiều ngôn ngữ khác ngoài tiếng Anh trở nên nhanh chóng hơn, đồng thời dễ dàng đào tạo các mô hình mới và tiết kiệm thời gian giải mã (decoding).

Một kỹ thuật quan trọng khác là tách kênh giọng nói (speaker diarization), cho phép mô hình nhận dạng giọng nói xác định người nói và thời điểm nói. Điều này không chỉ quan trọng đối với các trường hợp ghi chép báo cáo cuộc họp, hội nghị với nhiều diễn giả, mà còn góp phần hướng tới cá nhân hóa trải nghiệm người dùng. 

Để đánh giá mức độ chính xác của mô hình ASR, các nhà nghiên cứu hay sử dụng tỷ lệ lỗi từ (Word Error Rate – WER) theo công thức:

Tỷ lệ lỗi từ = (số lần chèn + xóa + sai) / số từ trong bảng điểm tham chiếu

Như vậy, đơn giản hơn, có thể hiểu WER cung cấp tỷ lệ phần trăm các từ mà ASR đã nhầm lẫn. 

Tương lai của ASR

Chúng ta đang bước vào kỷ nguyên của Internet vạn vật kết nối (Internet of Things – IoT). IoT bao gồm tất cả các thiết bị “thông minh” tồn tại xung quanh ta, từ thiết bị gia đình như điều hòa, loa đến các thiết bị công nghiệp nhằm tối ưu hóa quy trình sản xuất và thúc đẩy quá trình tự động hóa. Tương lai, giọng nói sẽ nhanh chóng trở chiếm ưu thế và trở thành cách thức ưu việt nhất để người dùng tương tác với IoT. Chỉ cần nói “bật đèn” hoặc “tăng nhiệt độ”, chúng ta có thể kiểm soát điều kiện môi trường trong thời gian thực, mà không cần phải nhìn vào màn hình hay nhấn các nút vật lý.

Trợ lý giọng nói đa vùng miền ViVi được tích hợp trên xe ô tô điện VinFast VFe34
Trợ lý giọng nói đa vùng miền ViVi được tích hợp trên xe ô tô điện VinFast VFe34

Tự động nhận dạng tiếng nói là một trong những công nghệ được tích hợp trong Trợ lý giọng nói tiếng Việt đa vùng miền ViVi. Mô hình AI giúp chuyển đổi giọng nói thành văn bản với tỷ lệ WER nhỏ hơn 6%. Đặc biệt, lần đầu tiên tại Việt Nam, trợ lý ảo có thể hiểu ngôn ngữ đặc thù từng vùng miền, giúp đem lại trải nghiệm sử dụng đầy thuận tiện, dễ dàng cho người sử dụng. 

Trải nghiệm các tính năng thông minh của ViVi trên xe ô tô điện VinFast VF e34 tại đây.