Trợ lý ảo sử dụng giọng nói: Đột phá từ NLP

14/09/2021
1900 lượt xem

Trợ lý ảo sử dụng giọng nói (hay Voice Assistant – VA) đang dần trở nên quen thuộc và là người bạn đồng hành của nhiều người sử dụng điện thoại thông minh thời gian gần đây. Chỉ với một câu nói làm mệnh lệnh, trợ lý giọng nói có thể hỗ trợ chúng ta thực hiện các tác vụ mà chúng ta mong muốn. Phát triển dựa trên nền tảng trí tuệ nhân tạo (AI), trợ lý giọng nói như một trợ lý ảo cá nhân thông minh, giúp người dùng tiến hành một số hoạt động hàng ngày dễ dàng như cung cấp thông tin, trò chuyện, bật nhạc,…

Trợ lý ảo sử dụng giọng nói ra đời như thế nào?

Lịch sử của trợ lý ảo sử dụng giọng nói — *Lịch sử ra đời và phát triển của trợ lý ảo sử dụng giọng nói đã trải qua gần 7 thập kỉ*

Khởi điểm tại Hội chợ thế giới Seattle năm 1962, IBM đã trưng bày bộ máy độc đáo với tên gọi là Shoebox, mở ra kỷ nguyên tiến hóa cho trợ lý giọng nói. Đúng như tên gọi, Shoebox có kích thước của một chiếc hộp giày, nhưng lại có khả năng nhận biết khoảng 16 từ thông dụng, bao gồm các chữ số từ 0 đến 9. Shoebox cũng có thể thực hiện các chức năng toán học như cộng và trừ. Shoebox được phát triển bởi William C. Dersch trong Phòng thí nghiệm Bộ phận Phát triển Hệ thống Tiên tiến tại IBM năm 1961.

Tiếp theo đó, vào những năm 1970s của thế kỷ 20, các nhà nghiên cứu tại Đại học Carnegie Mellon ở Pittsburgh, Pennsylvania cùng với sự hỗ trợ của Bộ Quốc phòng Hoa Kỳ và Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến (DARPA) – đã tạo ra Harpy. Harpy có sự phát triển đột phá, với khả năng thông hiểu khoảng 1.000 từ, gần bằng từ vựng của một đứa trẻ 3 tuổi.

Tháng 4 năm 1997, một phần mềm có khả năng tự đọc ra đời mang tên Dragon NataturalSpeaking. Tiền thân là phần mềm chỉnh sửa chính tả, Dragon NataturalSpeaking có thể hiểu khoảng 100 từ và biến nó thành nội dung có thể đọc được.

Cùng với sự phát triển của các công nghệ mới, và nhận được sự đầu tư mạnh mẽ, một kỷ nguyên trợ lý ảo thông minh tân tiến ra đời: Với sự ra mắt của Apple Siri năm 2011, sau đó là Google Now, Google Assistant, Amazon Alexa, Microsoft Cortana,…Và mới đây nhất là Trợ lý giọng nói tiếng Việt ViVi, được phát triển bởi Viện Nghiên cứu Dữ liệu lớn VinBigdata và được Tập đoàn Vingroup dự kiến ứng dụng trong các dòng xe Vinfast.

Công nghệ phát triển trợ lý ảo sử dụng giọng nói

Những công nghệ và kiến thức nền tảng nào được ứng dụng vào xây dựng và phát triển trợ lý giọng nói?

Trợ lý giọng nói dựa trên sự kết hợp của nhiều công nghệ trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) và trí tuệ nhân tạo (AI) như công nghệ nhận dạng tiếng nói (Automatic Speech Recognition – ASR), hiểu ngôn ngữ tư nhiên (Natural language Understanding – NLU), chuyển văn bản thành tiếng nói (Text to Speech – TTS). Các thuật toán cho phép trợ lý giọng nói nhận dạng tiếng nói, hiểu yêu cầu, đưa ra câu trả lời và hoàn thành nhiệm vụ theo lệnh của người dùng.

Dưới đây là các bước trong quy trình mà 1 trợ lý giọng nói hoạt động

Trợ lý giọng nói nghe và nhận lệnh từ người dùng

Sau khi nghe được câu gọi khởi động (Wake-up words), trợ lý giọng nói sẽ được kích hoạt để phản ứng. Nó tiếp nhận các yêu cầu của người dùng và bắt đầu tiến trình xử lý chúng.

Nhận dạng tiếng nói (ASR)

Sử dụng trí tuệ nhân tạo (AI) và học sâu (Deep Learning), ở giai đoạn này bắt đầu quá trình chuyển đổi sóng âm thanh thành dữ liệu mà máy có thể hiểu được. Các yếu tố được công nghệ xem xét ở giai đoạn này bao gồm các đặc tính của tín hiệu tiếng nói như tần số, năng lượng, trường độ v.v..

Hiểu ngôn ngữ (NLU)

Bởi sự đa dạng trong cách thức sử dụng ngôn ngữ của người dùng, từ mục đích, ngữ cảnh, giọng địa phương, tiếng lóng cho đến trọng âm và các yếu tố khác của phương thức hội thoại, trợ lý giọng nói nhiều khi sẽ gặp khó khăn trong việc phân biệt câu lệnh cần thực hiện. Xử lý ngôn ngữ tự nhiên là thao tác quan trọng để giúp trợ lý giọng nói hiểu được mệnh lệnh từ người dùng.

Truy xuất thông tin

Sau khi trợ lý giọng nói xử lý lệnh thông qua nhận dạng tiếng nói (ASR) và hiểu ngôn ngữ (NLU), bước tiếp theo là truy xuất thông tin. Phần mềm tiến hành truy cập các nguồn thông tin / dữ liệu khác nhau để xây dựng các câu trả lời và phản hồi cho yêu cầu nhận được.

Trả ra câu trả lời và thực thi

Cuối cùng người dùng sẽ nhận được phản hồi âm thanh và cả một số hỗ trợ tác vụ từ trợ lý giọng nói của mình.

Tất cả các thao tác này trợ lý giọng nói chỉ xử lý trong mili giây, vì vậy người dùng luôn nhận được những phản hồi ngay lập tức như một cuộc hội thoại tự nhiên.

Trợ lý giọng nói được dự đoán là xu thế của tương lai, khi một trợ lý ảo đa nhiệm được tích hợp trên điện thoại và máy tính ngày càng được con người ưa chuộng. Hãy cùng mong chờ sự ra đời của những trợ lý ảo vượt trội trên thế giới và ở Việt Nam nhé!

Giải pháp Trợ lý giọng nói là giải pháp công nghệ đang được Viên Nghiên cứu dữ liệu lớn Vingroup – VinBigdata tập trung phát triển. Được xây dựng dựa trên công nghệ Xử lý ngôn ngữ tự nhiên (NLP) tiên tiến nhất, sản phẩm mang đến một hệ sinh thái thông minh, có nhiều ưu thế vượt trội như nhận diện ngôn ngữ Tiếng Việt chính xác tới 98% với nhóm từ phổ thông, tỷ lệ lỗi khi nhận dạng giọng nói nhỏ hơn hoặc bằng 6% khi có kết nối mạng và mất kết nối mạng (ngoại tuyến) là 15%. Thêm vào đó, ViVi hỗ trợ hơn 100 tính năng về thông tin, tiện ích, giải trí cũng như dịch vụ và điều khiển xe thông minh, mang đến trải nghiệm tuyệt vời và khác biệt cho người dùng.
Tìm hiểu thêm: Tại đây