Trợ lý ảo là một thuật ngữ không quá xa lạ trong thời gian gần đây, bởi chúng được tích hợp trong nhiều thiết bị thông minh như điện thoại, tivi, ô tô,… Chúng là sản phẩm ứng dụng của trí tuệ nhân tạo (AI), kết hợp với các mô hình và thuật toán của học máy (ML). Các trợ lý ảo được phát triển nhằm mục đích hỗ trợ thực hiện nhiều tác vụ và tối ưu hóa trải nghiệm người dùng. Vậy trợ lý ảo là gì, có những tính năng đột phá nào. Hãy cùng tìm hiểu trong bài viết dưới đây nhé!
Trợ lý ảo là gì?
Trợ lý ảo, còn được gọi là trợ lý AI hoặc trợ lý kỹ thuật số, là một chương trình ứng dụng có thể hiểu được các lệnh thoại bằng ngôn ngữ tự nhiên, hay bằng văn bản của con người và hỗ trợ người dùng thực hiện các tác vụ. Một số tác vụ có thể kể đến như: đọc tin nhắn, email, tra cứu số điện thoại, lên lịch, gọi điện và nhắc lịch hẹn.
Được phát triển dựa trên trí tuệ nhân tạo AI, trợ lý ảo đóng vai trò như một thư ký cá nhân cho người dùng. Chúng thường được tích hợp trong các thiết bị thông minh sử dụng hàng ngày, để người dùng có thể dễ dàng kết nối và ra lệnh cho trợ lý ảo mọi lúc mọi nơi. Các nhà nghiên cứu đang không ngừng phát triển để trợ lý ảo trở nên thông minh, linh hoạt hơn, có thể thấu hiểu người dùng và xử lý nhiều yêu cầu cùng lúc. Những trợ lý ảo nổi tiếng được cả thế giới biết đến hiện nay: Siri của Apple, Alexa của Amazon, Trợ lý Google,…
Phương thức tương tác của trợ lý ảo
Cùng với sự phát triển của Trí tuệ nhân tạo (AI) cũng như các mô hình học máy (ML), trợ lý ảo ngày càng có nhiều phương thức tương tác với người dùng. Các phương thức dần trở nên linh hoạt, gần gũi như những cuộc đối thoại hàng ngày.
Văn bản
Phương thức tương tác đầu tiên được sử dụng cho các trợ lý ảo là văn bản. Hầu như bất kỳ 1 trợ lý ảo nào hiện nay cũng hỗ trợ tương tác bằng văn bản. Người dùng chỉ cần đưa ra yêu cầu bằng cách gửi tin nhắn và trợ lý ảo sẽ phản hồi thông tin ngay lập tức dựa trên yêu cầu đó. Ví dụ điển hình của phương thức này là các hệ thống chatbot. Khi bạn tương tác với một số fanpage trên Facebook, bạn thường nhận được ngay câu trả lời mà không phải mất thời gian chờ đợi quá lâu thì có lẽ doanh nghiệp đó đang sử dụng chatbot.
Chatbot ngày càng trở nên phổ biến và cách xử lý yêu cầu cũng thông minh và gần gũi với người dùng hơn. Giờ đây, không cần phải gửi những yêu cầu theo mẫu như thời mới ra mắt, người dùng chabot hoàn toàn có thể hỏi-đáp bằng ngôn ngữ hội thoại tự nhiên, thoải mái nhất. Hiện nay, chatbot được áp dụng trí tuệ nhân tạo (AI) và các quy trình xử lý ngôn ngữ tự nhiên (NLP) tiên tiến, với khả năng xử lý hàng nghìn yêu cầu cùng lúc, với tốc độ xử lý nhanh, chính xác, đáp ứng được nhiều bài toán chăm sóc khách hàng của doanh nghiệp.
Xem thêm: AI chatbot là gì và những đột phá so với chatbot thông thường
Giọng nói
Ngoài văn bản, để có thể dễ dàng giao tiếp với người dùng hơn, trợ lý ảo ngày nay được phát triển tương tác với người dùng bằng giọng nói. Chúng thường được gọi là các trợ lý giọng nói. Các trợ lý giọng nói hoạt động theo nguyên tắc: Người dùng chỉ cần gọi chúng bằng các wake-up words (câu mệnh lệnh khởi động), sau đó tiến hành giao tiếp với chúng như những cuộc hội thoại thông thường. Trợ lý giọng nói không chỉ xử lý yêu cầu trên thiết bị thông minh, mà còn có thể trở thành một người bạn dễ dàng tâm sự cùng người dùng, trò chuyện và cung cấp thông tin bất cứ khi nào người dùng muốn.
Tuy nhiên, các trợ lý giọng nói nổi tiếng hiện nay từ các gã khổng lồ công nghệ như Apple Siri, Amazon Alexa, Google,… hầu hết chỉ đang hỗ trợ ngôn ngữ bằng tiếng Anh. Điều này khiến cho một số người dùng Việt Nam vẫn đang gặp khó khăn trong việc giao tiếp với các trợ lý giọng nói của mình.
Trong thời gian gần đây, Trợ lý giọng nói Tiếng Việt ViVi, phát triển bởi Viện Nghiên cứu Dữ liệu lớn Vingroup – VinBigdata, đã được giới thiệu với công chúng và dự kiến ứng dụng trong các dòng xe Vinfast.
Trải nghiệm ViVi: Tại đây
Hình ảnh
Trên thế giới đã xuất hiện một số trợ lý ảo có thể xử lý thông tin với hình ảnh do người dùng cung cấp. Tuy nhiên việc xử lý dữ liệu hình ảnh và phương thức giao tiếp bằng hình ảnh vẫn còn chưa phổ biến, nên trợ lý ảo hình ảnh đang chưa được chú trọng phát triển. Hy vọng đây sẽ là một trong những dự án đột phá của tương lai.
Các trợ lý ảo hàng đầu trong ngành như Apple Siri, Google Assistant hay Samsung Bixby hiện nay đều đang cố gắng hỗ trợ người dùng bằng nhiều phương pháp đa dạng khác nhau. Tuy nhiên, chủ yếu, thông minh và linh hoạt nhất vẫn là phương thức bằng văn bản hay giọng nói.
Các nền tảng hỗ trợ sử dụng trợ lý ảo
Trợ lý ảo hiện nay được hỗ trợ sử dụng trên rất nhiều thiết bị và nền tảng khác nhau để phục vụ nhu cầu đa dạng và thường xuyên của người dùng. Dưới đây là một số nền tảng phổ biến:
Hệ điều hành của các thiết bị điện tử thông minh
Được tích hợp ngay vào hệ điều hành của điện thoại, đồng hồ, máy tính, TV thông minh,… các trợ lý ảo không còn quá xa lạ với người dùng. Thuận tiện mang theo bất cứ đâu, xử lý nhiều tác vụ từ công việc đến đời sống, sự có mặt của trợ lý ảo khiến mọi việc dần trở nên dễ dàng hơn.
Tính năng của các thiết bị trong gia đình
Thời gian gần đây, các trợ lý ảo được tích hợp nhiều trong cả loa hay hệ thống thiết bị gia dụng, để cuộc sống người dùng trở nên thuận tiện hơn. Dễ dàng ra lệnh cho trợ lý ảo bật nhạc, chỉnh độ sáng, chỉnh quạt gió, hay tăng nhiệt độ,… khiến căn nhà trở nên thông minh và mang đến những trải nghiệm thoải mái, tiện nghi.
Tích hợp trong các dịch vụ nhắn tin trên một số nền tảng website, mạng xã hội
Các trợ lý ảo giao tiếp với người dùng bằng văn bản, thường được tích hợp theo cách này. Các doanh nghiệp, tổ chức sử dụng chúng như một nhân viên chăm sóc khách hàng, giải đáp thắc mắc của người dùng trong thời gian thực. Chúng có thể cung cấp thông tin doanh nghiệp và thu thập thông tin khách hàng, giúp các công đoạn gia tăng trải nghiệm người dùng được tối ưu hóa.
Các khả năng của trợ lý ảo
Khả năng xử lý yêu cầu
Dựa trên cơ sở dữ liệu khổng lồ, các thuật toán học máy (ML) và trí tuệ nhân tạo (AI) hiện đại, các trợ lý ảo có khả năng nhận nhiều yêu cầu cùng lúc và xử lý chúng trong thời gian thực. Các trợ lý ảo tiến hành phân tích lời thoại hoặc tin nhắn văn bản từ người dùng, sau đó chuyển hóa thành dữ liệu và truyền về máy chủ để xử lý trong thời gian vài mili giây. Chúng sử dụng tri thức được lập trình và đào tạo từ trước để thực thi mệnh lệnh hoặc trả lời câu hỏi phù hợp. Ngày nay, dựa vào công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP), các trợ lý ảo còn có thể phân tích ngôn ngữ thoại đời sống, các từ ngữ vùng miền, để chọn lọc thông tin và đáp ứng yêu cầu chính xác, linh hoạt.
Khả năng nhận diện tiếng nói (Automatic Speech Recognition – ASR)
Với các trợ lý ảo sử dụng giọng nói, ngoài khả năng xử lý yêu cầu thì khả năng nhận diện tiếng nói cũng cho thấy một bước đột phá ấn tượng từ các nhà nghiên cứu. Trợ lý ảo lắng nghe giọng nói người dùng, ghi lại và chuyển thành dạng dữ liệu có thể hiểu và xử lý được. Sử dụng các thuật toán đặc trưng để xem xét các đặc tính của tín hiệu tiếng nói như tần số, năng lượng, trường độ,… mang đến tính chính xác cao. Các trợ lý ảo sử dụng giọng nói cũng được áp dụng công nghệ Chuyển văn bản thành giọng nói (Text to speech – TTS), để tiến hành hồi đáp và trò chuyện cùng người dùng.
Khả năng tìm kiếm và truy xuất thông tin
Chúng ta thường yêu cầu trợ lý ảo hỗ trợ một số tác vụ như: bật một bài nhạc, cập nhật thông tin mới, hay điều chỉnh âm lượng,… Những công việc này đòi hỏi khả năng xử lý lượng thông tin khổng lồ từ trợ lý ảo. Chúng phải truy cập nền tảng nghe nhạc số sau đó tra cứu và phát bài hát người dùng yêu cầu, hay truy cập các nền tảng tin tức để trích xuất tin nóng trong ngày, hoặc truy cập nhanh chóng vào hệ điều hành để điều chỉnh thông số,… Tất cả các tác vụ này được xử lý chỉ trong vài tích tắc.
Khả năng học hỏi người dùng
Một khả năng được đánh giá cao của các trợ lý AI trong thời gian gần đây. Chúng thu thập thông tin từ thói quen sử dụng và tìm kiếm dữ liệu, để đưa ra các gợi ý phù hợp với mong muốn của người dùng nhất. Thời gian người dùng sử dụng càng lâu, trợ lý ảo càng trở nên linh hoạt và phục vụ chính xác những gì người dùng ưa thích. Chẳng hạn như, thay vì phải nói “Bật bài nhạc Peaches của Justin Bieber”, người dùng có thể nói “Bật bài hát tôi yêu thích”, hay chỉ đơn giản là “Bật nhạc cho tôi”.
Khả năng tự động kết hợp các ứng dụng
Điểm mạnh mới của trợ lý ảo đang được các nhà nghiên cứu phát triển. Một minh chứng cụ thể cho khả năng này: Trợ lý ảo có thể vừa giúp người dùng ghi lại báo cáo cuộc họp, lưu lại lịch trình mới được nêu ra trong cuộc họp này, sau đó truy cập vào ứng dụng báo thức để bật nhắc nhở. Người dùng giờ đây không còn cần phải ghi chép hay ghi nhớ các lịch hẹn, vì trợ lý ảo đã đảm nhận chức năng này.
Ứng dụng của trợ lý ảo
Trợ lý ảo đối với cá nhân
Giao tiếp, trò chuyện với người dùng, cung cấp thông tin, giải đáp thắc mắc: Được phát triển dựa trên trí tuệ nhân tạo (AI) và các công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) tiên tiến, trợ lý ảo ngày nay có thể dễ dàng tìm hiểu và xử lý dữ liệu thông qua thông tin người dùng cung cấp. Với hệ thống cơ sở dữ liệu lớn và ngày càng được mở rộng, chúng ngày càng có vốn từ vựng phong phú, linh hoạt sử dụng đối thoại tự nhiên.
Trợ lý ảo có thể trả lời các câu hỏi của người dùng với các thông tin thường thức như: thời tiết, thời sự mới, cập nhật chính trị, y khoa,… Một số trợ lý ảo còn có thể thấu hiểu chân dung người dùng và đưa ra các câu thoại trò chuyện phù hợp trong các tình huống giao tiếp.
Rảnh tay thực hiện một số tác vụ trên các thiết bị thông minh: Đây là tính năng được ưa chuộng hàng đầu đối với các trợ lý ảo sử dụng giọng nói. Một cuộc khảo sát của Trung tâm Nghiên cứu Pew vào tháng 5 năm 2017 cho thấy gần một nửa số người trưởng thành ở Hoa Kỳ sử dụng trợ lý giọng nói trên điện thoại thông minh và các thiết bị khác của họ. Trợ lý giọng nói có thể hỗ trợ người dùng thực hiện cuộc gọi, gửi tin nhắn văn bản, tra cứu mọi thứ trực tuyến, cung cấp chỉ đường, mở ứng dụng, đặt lịch hẹn trên lịch có sẵn và khởi động hoặc hoàn thành nhiều tác vụ khác. Người dùng không cần chạm tay vào bất kỳ một thiết bị nào mà vẫn dễ dàng xử lý được yêu cầu nhanh chóng.
Ngày nay, trợ lý giọng nói ngày càng được tích hợp vào nhiều thiết bị và trở nên đa năng hơn. Ngoài hoạt động linh hoạt trên điện thoại thông minh, trợ lý giọng nói có thể điều khiển nhiều thiết bị trong đời sống hàng ngày: ô tô thông minh, loa thông minh, thiết bị gia đình (TV, điều hòa,…) với nhiều tính năng hữu ích: mở khóa ô tô và nhà cửa, bật đèn, điều chỉnh nhiệt độ, quạt gió, thay đổi kênh truyền hình, chỉnh âm lượng và hơn thế nữa.
Trợ lý ảo đối với Doanh nghiệp
Gia tăng trải nghiệm khách hàng: Việc sử dụng nhân lực để chăm sóc và giải đáp thông tin cho hàng trăm khách hàng truy cập fanpage mỗi ngày dễ gây ra sai sót và nhầm lẫn, đồng thời cũng khiến khách hàng mất nhiều thời gian chờ đợi để được hồi đáp. Những điều này giảm thiểu trải nghiệm khách hàng đáng kể, dễ gây hao hụt doanh thu và ảnh hưởng tiêu cực đến hình ảnh doanh nghiệp. Thay vào đó, sử dụng trợ lý kĩ thuật số, điển hình là chatbot, hồi đáp khách hàng nhanh chóng trong thời gian thực và đảm bảo lượng thông tin chính xác được lập trình sẵn, là một giải pháp tuyệt vời.
Thay đổi phương thức sản xuất: Trợ lý ảo là một phần của quy trình tự động hóa trong các nhà máy. Ví dụ về một phòng thí nghiệm nơi mọi người phải đeo găng tay dày và mặc đồ bó sát vì lý do an toàn và ô nhiễm. Việc họ gõ bất kỳ thứ gì hoặc nhấn nút để thực hiện điều gì đó là rất khó khăn, nhưng trợ lý giọng nói có thể thay đổi mọi thứ bằng cách tự động hóa các tác vụ.
Thay đổi phương thức quản lý và làm việc: Đối với các công ty nắm bắt công nghệ, nhiều nhân viên sử dụng loa thông minh cho các nhiệm vụ khác nhau trong các cuộc họp. Trợ lý giọng nói có thể tìm kiếm thông tin, ghi chú, thiết lập cuộc họp trên lịch và tạo danh sách việc cần làm và theo dõi,… Điều này giúp tiết kiệm thời gian và giúp mọi người tập trung vào cuộc họp. Ngoài ra, với một số trợ lý AI có quyền truy cập vào cơ sở dữ liệu của công ty, chúng cũng có thể biên dịch số liệu thống kê, tự động hóa các tác vụ và hỗ trợ một phần các báo cáo văn bản.
Một số trở ngại của trợ lý ảo
Lo ngại về quyền riêng tư
Quyền riêng tư là một mối quan tâm của rất nhiều người dùng, đặc biệt là liên quan đến các thiết bị thông minh được sử dụng hàng ngày. Sau khi được kích hoạt bằng các câu lệnh khởi động (wake-up words), trợ lý ảo sử dụng giọng nói sẽ bắt đầu ghi lại những âm thanh xung quanh. Những dữ liệu này được gửi đến máy chủ để xử lý thông tin và hình thành phản hồi. Vì vậy, người dùng thường lo ngại việc thông tin riêng tư của mình bị lưu lại hoặc theo dõi. Tuy nhiên, các nhà nghiên cứu gần đây đã cho ra mắt tính năng mới cho phép người dùng truy cập vào các bản ghi âm của trợ lý AI và lựa chọn giữ lại hay xóa chúng.
Độ chính xác
Các trợ lý ảo không phải lúc nào cũng hiểu những gì người dùng yêu cầu. Có những điều người dùng cần nhưng trợ lý ảo chưa được đào tạo. Vì vậy, chúng thường khó đưa ra câu trả lời chính xác, thậm chí đôi khi chúng không đưa ra phản hồi. Một phần nguyên nhân ảnh hưởng đến độ chính xác là do đặc trưng ngôn ngữ và âm sắc của người dùng. Họ đến từ nhiều nơi khác nhau, với vốn từ vựng và khả năng phát âm phong phú, bị ảnh hưởng bởi các yếu tố vùng miền, nên nhiều khi chưa đáp ứng được quy chuẩn mà trợ lý giọng nói có thể phân tích.
Khả năng bảo mật
Mặc dù các trợ lý ảo truyền thông tin về máy chủ bằng các kết nối được mã hóa, tuy nhiên vẫn tiềm ẩn khả năng bị hack, rò rỉ thông tin và ảnh hưởng tới vấn đề bảo mật. Vào đầu năm 2018, một số người dùng Amazon’s Echo báo cáo rằng nó sẽ đột nhiên phát ra tiếng cười ác độc mà không rõ lý do và mọi người nghĩ rằng ai đó đã xâm nhập vào loa thông minh của họ. Amazon đã điều tra vấn đề và sau đó thông báo rằng Echo đã nghe thấy những từ tương tự như “Alexa cười”, vì vậy nó bắt đầu cười.
Vì một số trợ lý giọng nói có thể nhận dạng và phản hồi với bất kỳ giọng nói nào gần đó nên người lạ có thể kiểm tra hoặc thay đổi một số thông tin trên thiết bị thông minh của chủ sở hữu. Hoặc nguy hiểm hơn, là các vấn đề về giả dạng giọng nói để điều khiển các thiết bị của người dùng.
Trợ lý ảo, với nhiều tính năng đột phá, được dự đoán sẽ trở thành người bạn đồng hành thông minh với con người trong tương lai. Một kỷ nguyên mới về các công nghệ trợ lý ảo đang được mở ra, với bất kỳ cá nhân hay doanh nghiệp nào cũng không nằm ngoài xu thế này. Cùng chờ đón các trợ lý ảo vượt trội ra đời trên thế giới và cả ở Việt Nam nhé!
Trợ lý ảo đang là giải pháp công nghệ mũi nhọn được VinBigdata tập trung phát triển, bởi những tính năng đột phá có khả năng ứng dụng cao. Thời gian gần đây, Trợ lý ảo Tiếng Việt ViVi đã được thử nghiệm trên xe Vinfast với khả năng nhận diện ngôn ngữ tiếng Việt chính xác khoảng 98% với nhóm từ phổ thông. Tỷ lệ lỗi khi nhận dạng giọng nói nhỏ hơn hoặc bằng 6% khi có kết nối mạng và mất kết nối mạng (ngoại tuyến) là 15%. ViVi hỗ trợ hơn 100 tính năng về thông tin, tiện ích, giải trí cũng như dịch vụ và điều khiển xe thông minh.Tìm hiểu thêm về trợ lý ảo của VinBigdata: Tại đây |
Trợ lý ảo sử dụng giọng nói (hay Voice Assistant – VA) đang dần trở nên quen thuộc và là người bạn đồng hành của nhiều người sử dụng điện thoại thông minh thời gian gần đây. Chỉ với một câu nói làm mệnh lệnh, trợ lý giọng nói có thể hỗ trợ chúng ta thực hiện các tác vụ mà chúng ta mong muốn. Phát triển dựa trên nền tảng trí tuệ nhân tạo (AI), trợ lý giọng nói như một trợ lý ảo cá nhân thông minh, giúp người dùng tiến hành một số hoạt động hàng ngày dễ dàng như cung cấp thông tin, trò chuyện, bật nhạc,…
Trợ lý ảo sử dụng giọng nói ra đời như thế nào?

Khởi điểm tại Hội chợ thế giới Seattle năm 1962, IBM đã trưng bày bộ máy độc đáo với tên gọi là Shoebox, mở ra kỷ nguyên tiến hóa cho trợ lý giọng nói. Đúng như tên gọi, Shoebox có kích thước của một chiếc hộp giày, nhưng lại có khả năng nhận biết khoảng 16 từ thông dụng, bao gồm các chữ số từ 0 đến 9. Shoebox cũng có thể thực hiện các chức năng toán học như cộng và trừ. Shoebox được phát triển bởi William C. Dersch trong Phòng thí nghiệm Bộ phận Phát triển Hệ thống Tiên tiến tại IBM năm 1961.
Tiếp theo đó, vào những năm 1970s của thế kỷ 20, các nhà nghiên cứu tại Đại học Carnegie Mellon ở Pittsburgh, Pennsylvania cùng với sự hỗ trợ của Bộ Quốc phòng Hoa Kỳ và Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến (DARPA) – đã tạo ra Harpy. Harpy có sự phát triển đột phá, với khả năng thông hiểu khoảng 1.000 từ, gần bằng từ vựng của một đứa trẻ 3 tuổi.
Tháng 4 năm 1997, một phần mềm có khả năng tự đọc ra đời mang tên Dragon NataturalSpeaking. Tiền thân là phần mềm chỉnh sửa chính tả, Dragon NataturalSpeaking có thể hiểu khoảng 100 từ và biến nó thành nội dung có thể đọc được.
Cùng với sự phát triển của các công nghệ mới, và nhận được sự đầu tư mạnh mẽ, một kỷ nguyên trợ lý ảo thông minh tân tiến ra đời: Với sự ra mắt của Apple Siri năm 2011, sau đó là Google Now, Google Assistant, Amazon Alexa, Microsoft Cortana,…Và mới đây nhất là Trợ lý giọng nói tiếng Việt ViVi, được phát triển bởi Viện Nghiên cứu Dữ liệu lớn VinBigdata và được Tập đoàn Vingroup dự kiến ứng dụng trong các dòng xe Vinfast.
Công nghệ phát triển trợ lý ảo sử dụng giọng nói
Những công nghệ và kiến thức nền tảng nào được ứng dụng vào xây dựng và phát triển trợ lý giọng nói?
Trợ lý giọng nói dựa trên sự kết hợp của nhiều công nghệ trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) và trí tuệ nhân tạo (AI) như công nghệ nhận dạng tiếng nói (Automatic Speech Recognition – ASR), hiểu ngôn ngữ tư nhiên (Natural language Understanding – NLU), chuyển văn bản thành tiếng nói (Text to Speech – TTS). Các thuật toán cho phép trợ lý giọng nói nhận dạng tiếng nói, hiểu yêu cầu, đưa ra câu trả lời và hoàn thành nhiệm vụ theo lệnh của người dùng.
Dưới đây là các bước trong quy trình mà 1 trợ lý giọng nói hoạt động
Trợ lý giọng nói nghe và nhận lệnh từ người dùng
Sau khi nghe được câu gọi khởi động (Wake-up words), trợ lý giọng nói sẽ được kích hoạt để phản ứng. Nó tiếp nhận các yêu cầu của người dùng và bắt đầu tiến trình xử lý chúng.
Nhận dạng tiếng nói (ASR)
Sử dụng trí tuệ nhân tạo (AI) và học sâu (Deep Learning), ở giai đoạn này bắt đầu quá trình chuyển đổi sóng âm thanh thành dữ liệu mà máy có thể hiểu được. Các yếu tố được công nghệ xem xét ở giai đoạn này bao gồm các đặc tính của tín hiệu tiếng nói như tần số, năng lượng, trường độ v.v..
Hiểu ngôn ngữ (NLU)
Bởi sự đa dạng trong cách thức sử dụng ngôn ngữ của người dùng, từ mục đích, ngữ cảnh, giọng địa phương, tiếng lóng cho đến trọng âm và các yếu tố khác của phương thức hội thoại, trợ lý giọng nói nhiều khi sẽ gặp khó khăn trong việc phân biệt câu lệnh cần thực hiện. Xử lý ngôn ngữ tự nhiên là thao tác quan trọng để giúp trợ lý giọng nói hiểu được mệnh lệnh từ người dùng.
Truy xuất thông tin
Sau khi trợ lý giọng nói xử lý lệnh thông qua nhận dạng tiếng nói (ASR) và hiểu ngôn ngữ (NLU), bước tiếp theo là truy xuất thông tin. Phần mềm tiến hành truy cập các nguồn thông tin / dữ liệu khác nhau để xây dựng các câu trả lời và phản hồi cho yêu cầu nhận được.
Trả ra câu trả lời và thực thi
Cuối cùng người dùng sẽ nhận được phản hồi âm thanh và cả một số hỗ trợ tác vụ từ trợ lý giọng nói của mình.
Tất cả các thao tác này trợ lý giọng nói chỉ xử lý trong mili giây, vì vậy người dùng luôn nhận được những phản hồi ngay lập tức như một cuộc hội thoại tự nhiên.
Trợ lý giọng nói được dự đoán là xu thế của tương lai, khi một trợ lý ảo đa nhiệm được tích hợp trên điện thoại và máy tính ngày càng được con người ưa chuộng. Hãy cùng mong chờ sự ra đời của những trợ lý ảo vượt trội trên thế giới và ở Việt Nam nhé!
Giải pháp Trợ lý giọng nói là giải pháp công nghệ đang được Viên Nghiên cứu dữ liệu lớn Vingroup – VinBigdata tập trung phát triển. Được xây dựng dựa trên công nghệ Xử lý ngôn ngữ tự nhiên (NLP) tiên tiến nhất, sản phẩm mang đến một hệ sinh thái thông minh, có nhiều ưu thế vượt trội như nhận diện ngôn ngữ Tiếng Việt chính xác tới 98% với nhóm từ phổ thông, tỷ lệ lỗi khi nhận dạng giọng nói nhỏ hơn hoặc bằng 6% khi có kết nối mạng và mất kết nối mạng (ngoại tuyến) là 15%. Thêm vào đó, ViVi hỗ trợ hơn 100 tính năng về thông tin, tiện ích, giải trí cũng như dịch vụ và điều khiển xe thông minh, mang đến trải nghiệm tuyệt vời và khác biệt cho người dùng. Tìm hiểu thêm: Tại đây |
Tư liệu tham khảo: Analytics Vidhya
Tạo lập chatbot là một trong những vấn đề đang được nhiều doanh nghiệp quan tâm thời gian gần đây. Bởi chatbot là một trong những cách gia tăng trải nghiệm khách hàng hiệu quả, với các tính năng đột phá: phản hồi linh hoạt trong thời gian thực, cung cấp thông tin chính xác, giải quyết nhiều yêu cầu cùng lúc,.. Bài viết dưới đây sẽ cung cấp một số phương pháp và quy trình gợi ý để tạo lập hệ thống chatbot thông minh.
Chatbot là gì?
Khi truy cập vào một fanpage trên Facebook, bạn gửi tin nhắn tìm hiểu thông tin và nhận được lời hồi đáp ngay sau đó. Những tin nhắn như vậy có thể không đến từ người quản lý fanpage mà đến từ chatbot. Chatbot là một hình thức trò chuyện được các fanpage ưa chuộng sử dụng bởi tốc độ hồi đáp nhanh, với những thông tin chính xác được lập trình từ trước. Điều này mang đến trải nghiệm tuyệt vời hơn cho người truy cập fanpage khi không phải chờ đợi quá lâu để nhận được câu trả lời mong muốn.
Chatbot, hay còn được gọi là talkbot, chatterbot, bot, bot IM, hay thực thể trò chuyện tự động, là một chương trình máy tính thực hiện một cuộc trò chuyện thông qua việc tiếp nhận thông tin bằng văn bản và giọng nói. Chatbot được thiết kế để mô phỏng các cuộc hội thoại của con người, diễn giải, xử lý yêu cầu của người dùng và cuối cùng đưa ra câu trả lời một cách nhanh chóng. Chatbot được sử dụng trong các hệ thống hội thoại của các fanpage cho nhiều mục đích cụ thể, phổ biến nhất là dịch vụ khách hàng và thu thập thông tin.
️Phân loại chatbot
Tùy thuộc vào cách lập trình của bot, có 2 loại chat bot
Chatbot dựa trên quy tắc (Rule-Based Chatbot): Với loại chatbot này, quy tắc là đi theo các đường dẫn được định sẵn trong cuộc trò chuyện. Người dùng chọn các tùy chọn sẵn mà bot đưa ra để thực hiện yêu cầu với bot theo từng bước. Bot loại này thường đơn giản và dễ tạo lập hơn.
Chatbots trò chuyện tự động (Self-Learning Chatbot), hay còn gọi là AI chatbot: Sử dụng Trí tuệ nhân tạo (AI) & Học máy (ML) để đưa ra phân tích và dự đoán dựa trên yêu cầu sau đó trò chuyện với người dùng. Mức độ tương tác và cá nhân hóa của chúng cao hơn so với Chatbot dựa trên quy tắc.
Tìm hiểu thêm: AI chatbot là gì và những đột phá so với chatbot thông thường.
Các phương pháp tạo lập chatbot gợi ý
Để đáp ứng và nâng cao trải nghiệm người dùng, AI chatbot là một lựa chọn tuyệt vời của các doanh nghiệp, tổ chức. Trong bài viết này giới thiệu một số định hướng xây dựng AI chatbot phổ biến, được đề xuất sử dụng rộng rãi bởi các nhà nghiên cứu.
Những nghiên cứu gần đây về chatbot thường phân theo 2 hướng lớn: (1) phương pháp pipeline và (2) phương pháp end-to-end.
Trong phương pháp pipeline, toàn bộ hệ thống chatbot được chia thành nhiều công đoạn, và thành phần khác nhau, chẳng hạn như đọc hiểu ngôn ngữ tự nhiên (Natural Language Understanding – NLU), quản lý hội thoại (Dialog Management) bao gồm theo dõi trạng thái hội thoại (Dialog State Tracking – DST) học các nguyên lý hội thoại (Policy Learning); sinh ngôn ngữ tự nhiên (Natural Language Generation – NLG). Ngược lại với các phương pháp tiếp cận theo pipeline, các phương pháp end-to-end xây dựng một hệ thống hội thoại bằng cách sử dụng một mô hình duy nhất, trong đó ngữ cảnh ngôn ngữ tự nhiên được lấy làm đầu vào và phản hồi ngôn ngữ tự nhiên được tạo ra làm đầu ra.
Rõ ràng, các hệ thống pipeline với cấu trúc mô-đun dễ hiểu và ổn định hơn, do đó được ứng dụng trong thương mại hóa nhiều hơn. Tuy nhiên, với việc yêu cầu ít chú thích hơn, các hệ thống end-to-end có thể trở thành một giải pháp thay thế đầy hứa hẹn trong tương lai.

Chi tiết quy trình nghiên cứu theo cả 2 phương pháp pipeline và end-to-end như sau:
Tạo lập chatbot bằng phương pháp Pipeline
Quy trình trong phương pháp Pipelines như sau:
- Hiểu ngôn ngữ tự nhiên (Natural Language Understanding – NLU)
Ở công đoạn này, NLU có nhiệm vụ phân tích cú pháp của người dùng và đưa chúng thành một biểu diễn ngữ nghĩa có cấu trúc, thường bao gồm các cặp ý định (intent) và các cặp thuộc tính – giá trị (slot: value). Ý định (intent) ở đây chỉ ra chức năng của lời nói, ví dụ: truy vấn hoặc cung cấp thông tin. Các cặp thuộc tính – giá trị là các yếu tố ngữ nghĩa được đề cập trong câu nói.
Ví dụ: trong câu nói “Bạn có thể giới thiệu một nhà hàng Trung Quốc ở Manhattan không?”, Các cặp thuộc tính – giá trị có thể là (“ẩm thực” : “Trung Quốc”) và (“địa điểm” : “Manhattan”). Ý định ở đây là “cung cấp thông tin”.
Phát hiện ý định (intent detection) và trích xuất thuộc tính – giá trị (slot-value extraction) có thể được giải quyết bằng cách sử dụng Mạng nơ-ron hồi quy (RNN), Mạng nơ-ron tích chập (CNN), Mạng nơ-ron đệ quy, CRF (conditional random fields) hoặc mô hình BERT bên cạnh việc kết hợp cơ chế attention..
- Theo dõi trạng thái hội thoại (Dialog state tracking – DST)
Ở bước này của quy trình, trình theo dõi trạng thái hộp thoại ước tính mục tiêu của người dùng bằng cách lấy toàn bộ ngữ cảnh hộp thoại làm đầu vào. Trong hầu hết các nghiên cứu gần đây, mục tiêu của người dùng được thể hiện bằng các cặp thuộc tính – giá trị.
Năm 2013, Henderson từ Đại học Cambridge đã giới thiệu phương pháp học sâu để theo dõi trạng thái hộp thoại, trong đó sử dụng cửa sổ trượt để xuất ra một chuỗi phân phối xác suất trên một số giá trị tùy ý. Tại một số vị trí cố định cho phép áp dụng phân loại để dự đoán giá trị. Đối với các vị trí tự do có thể tạo ra giá trị trực tiếp hoặc dự đoán khoảng giá trị trong lời thoại.
Theo dõi trạng thái hộp thoại cũng có thể được thực hiện bằng cách sử dụng Mạng nơ-ron hồi quy (RNN) và Neural Belief Tracker (NBT), kết hợp một số các phương pháp tiếp cận khác.
- Học nguyên lý hội thoại (Dialog policy learning – DPL)
Sau khi xác định trạng thái hội thoại, bước tiếp theo là tiến hành đưa ra quyết định hành động tiếp theo của hệ thống. DPL sẽ học các nguyên lý hội thoại của con người bằng các phương thức như học có giám sát hoặc học tăng cường. Ngoài ra, phương pháp tiếp cận dựa trên quy tắc (rule-based) được sử dụng đầu tiên để khởi động hệ thống.
Hiện nay, để học nguyên lý hội thoại hầu như đều dựa vào học tăng cường (RL). Tuy nhiên, việc đào tạo một chính sách học tăng cường đòi hỏi nhiều tương tác với người dùng, điều này tốn nhiều thời gian và chi phí. Do đó, nhiều phương thức tiếp cận khác nhau đã được đề xuất để giải quyết vấn đề này, bao gồm cả việc sử dụng trình mô phỏng người dùng.
- Sinh ngôn ngữ tự nhiên (Natural language generation – NLG)
Ở công đoạn này; chúng ta sẽ dùng hành động được quyết định từ nguyên lý đối thoại tạo thành câu nói tự nhiên để phản hồi lại người dùng. Phản hồi tương ứng với một lời thoại của máy tính phải đảm bảo độ chính xác về mặt thông tin, cụ thể và tự nhiên.
Công đoạn này có thể được tiếp cận như một nhiệm vụ xử lý ngôn ngữ có điều kiện, bắt đầu bằng cách đào tạo trước một GPT với kho ngữ liệu quy mô lớn, và sau đó tinh chỉnh (fine-tune) mô hình về các nhiệm vụ sản sinh ngôn ngữ tự nhiên mục tiêu với một số lượng nhỏ các mẫu đã đào tạo.
Tạo lập chatbot bằng phương pháp End-to-end
Phương pháp End-to-end được đề xuất khi người ta nhận thấy một số hạn chế của phương pháp Pipeline. Đầu tiên, liên quan tới vấn đề chỉ định, với phương pháp pipeline thường khó có thể chỉ định các phản hồi của người dùng với mô-đun cụ thể tương ứng. Ngoài ra, các công đoạn có sự phụ thuộc và tương quan lẫn nhau, trong đó bất kỳ thay đổi về dữ liệu hoặc huấn luyện lại một thành phần nào của hệ thống pipeline cũng yêu cầu tất cả các thành phần khác phải được điều chỉnh cho phù hợp.
Những vấn đề này có thể được giải quyết bằng cách xây dựng một mô hình sinh (generative models) mạng nơ-ron cho các hệ thống hội thoại. Hầu hết các phương pháp end-to-end này sử dụng mô hình seq2seq (sequence to sequence).
Tuy nhiên, cách tiếp cận truyền thống của end-to-end yêu cầu dữ liệu hội thoại rất nhiều và đa dạng để học các hành vi đối thoại cơ bản của con người.
Trên đây, là một số phương pháp gợi ý được sử dụng rộng rãi để tạo lập Chatbot. Chatbot được dự đoán là sẽ càng ngày càng phổ biến bởi bất kỳ doanh nghiệp nào cũng muốn tối ưu trải nghiệm người dùng. Trong tương lai, Chatbot được kỳ vọng sẽ cải tiến nhiều hơn để phù hợp với tâm lý của người dùng, và sự phong phú của ngôn ngữ. Bạn có quan tâm đến chatbot và muốn phát triển chúng hay không, để lại comment thảo luận với VinBigdata nhé!
Chatbot hiện nay đang là một sản phẩm công nghệ nổi bật, được VinBigdata đầu tư phát triển với những tính năng vượt trội: Xử lý đa ngôn ngữ; tích hợp đa kênh, dễ dàng kết nối với các nền tảng hội thoại có sẵn chỉ bằng vài thao tác; nền tảng điện toán đám mây cho phép mở rộng quy mô không giới hạn, với khả năng xử lý hơn 10,000 yêu cầu cùng lúc; kinh nghiệm đa ngành đã được ứng dụng với hệ sinh thái Vingroup; giao diện thân thiện, đơn giản và dễ sử dụng.Tìm hiểu thêm về Chatbot VinBigdata: Tại đây |
Tư liệu tham khảo: TopBots