Trợ lý ảo được đánh giá là xu hướng của tương lai, mang lại tiềm năng ứng dụng trong nhiều lĩnh vực, hỗ trợ thực hiện các tác vụ nhanh chóng, hiệu quả và nâng cao trải nghiệm người dùng. Từ đó giúp các doanh nghiệp tối ưu hóa chu trình, giảm thiểu chi phí, gia tăng lợi nhuận. Hãy cùng VinBigData tìm hiểu một số ứng dụng của trợ lý ảo trong nhiều lĩnh vực thông qua bài viết dưới đây nhé!

ứng dụng của trợ lý ảo trong đa lĩnh vực
Trợ lý ảo có nhiều ứng dụng hữu ích & thiết thực trong các lĩnh vực, hướng tới nâng tầm trải nghiệm khách hàng cá nhân, hỗ trợ hoạt động vận hành, gia tăng hiệu suất hoạt động cho các doanh nghiệp.

Ứng dụng của trợ lý ảo trong chu trình vận hành doanh nghiệp 

Trợ lý văn phòng “ảo”

Theo Gartner, 50% nhân viên tri thức sẽ sử dụng trợ lý ảo mỗi ngày vào năm 2025, con số này chỉ là 2% vào năm 2019. Những trợ lý ảo bằng giọng nói có thể được tích hợp vào nhiều công cụ và phần mềm hiện tại các doanh nghiệp đang sử dụng, nhằm hỗ trợ thực hiện một số nhiệm vụ văn phòng, chẳng hạn như lên lịch họp, gửi email, ghi chép biên bản họp… Điều này giúp các doanh nghiệp cải thiện năng suất làm việc và tối ưu nguồn lực cho các công việc mang tính chuyên môn hơn.

Quản lý chuỗi cung ứng và hàng tồn kho

Đối với các doanh nghiệp có chuỗi cung ứng trên toàn cầu, công nghệ giọng nói có thể được sử dụng để truy cập dữ liệu liên quan nhanh hơn. Thay vì theo dõi lộ trình chi tiết và luồng email để phát hiện trạng thái mới nhất của một mặt hàng, doanh nghiệp có thể sử dụng các truy vấn thoại để tìm ra trạng thái vận chuyển hàng hóa hoặc vị trí đơn hàng.

Tại  văn phòng, công nghệ giọng nói cũng có thể được ứng dụng để đặt các thiết bị thiết yếu thay vì phải nhập liệu chi tiết trên máy tính hoặc thu thập thông tin theo cách thủ công. Việc tích hợp giọng nói với các hệ thống khác trong văn phòng sẽ cho phép các thiết bị tự quét mức tồn kho hiện tại để có số lượng đặt hàng tối ưu hơn.

Quản lý Quan hệ khách hàng & Nhân sự

Với công nghệ giọng nói, hệ thống có thể tự động cập nhật các bản ghi chứa thông tin liên quan và cung cấp cho những người đang tìm kiếm nó. Các trợ lý giọng nói này cũng có thể giúp các bộ phận nhân sự lên lịch đào tạo, đánh giá hiệu suất và thời gian nghỉ phép cho nhân viên tại văn phòng và hỗ trợ quản lý nhân viên làm việc từ xa.

Với sự phổ biến của các cuộc họp qua Zoom và các công cụ hội nghị truyền hình khác, công nghệ giọng nói có thể được sử dụng để ghi và chép lại cuộc họp, xác định người nói và gắn thẻ các khu vực chính để có thể tìm kiếm biên bản cuộc họp sau này. Những khả năng phiên âm này cũng có thể giúp các nhóm nhân sự tổ chức quá trình tuyển dụng cũng như dán nhãn các kỹ năng chính được liệt kê trong mô tả công việc trong các cuộc phỏng vấn video.

Ứng dụng của trợ lý ảo nâng tầm trải nghiệm khách hàng cá nhân 

Loa thông minh

Ngoài các ứng dụng phục vụ mục đích giải trí, trợ lý ảo giúp người dùng có nhiều trải nghiệm khác biệt với loa thông minh. Tự động phát nhạc, tìm kiếm thông tin, mua sắm trực tuyến… chỉ là một trong nhiều tính năng đột phá mà trợ lý ảo có thể đáp ứng người dùng thông qua loa thông minh. 

Thiết bị thông minh

Các thiết bị gia đình thông minh hỗ trợ giọng nói không chỉ giới hạn ở loa thông minh. Hệ thống an ninh gia đình, thiết bị nhà bếp, đèn chiếu sáng và thậm chí cả máy hút bụi sử dụng công nghệ giọng nói hiện đang được phát triển trên toàn cầu. Các thiết bị giặt là và nhà bếp được kích hoạt bằng giọng nói có thể bắt đầu quá trình nấu nướng và giặt là bằng các lệnh đơn giản, đồng thời giúp người dùng tiết kiệm thời gian trong khi thực hiện những việc khác trong nhà.

Trợ lý ảo thông minh trên ô tô

Tích hợp sâu với các tính năng cho phép điều khiển xe thông minh, điều hướng, dẫn đường, đảm bảo an ninh an toàn, hỗ trợ nhiều tiện ích gia đình & văn phòng, thực hiện mua sắm sản phẩm dịch vụ trực tuyến, cập nhật phần mềm từ xa…

Ứng dụng của trợ lý ảo cụ thể trong nhiều lĩnh vực 

Ứng dụng của trợ lý ảo trong ngành ngân hàng

Khách hàng tại các ngân hàng có thể nhận thông tin tài khoản như số dư và các giao dịch mới nhất của họ, chuyển tiền, thanh toán hóa đơn, thu thập thông tin lãi suất và tỷ giá hối đoái… cùng nhiều tiện ích khác thông qua trợ lý ảo. Chu trình xử lý thủ tục giờ đây nhanh chóng và thuận tiện hơn rất nhiều. 

Ứng dụng của trợ lý ảo trong lĩnh vực chăm sóc sức khỏe

Một số ứng dụng bao gồm trợ lý sức khỏe cá nhân có thể hoạt động như huấn luyện viên cá nhân, giúp đặt lịch hẹn với bác sĩ, gọi y tá và nhận lời nhắc uống thuốc đúng giờ. Ngoài ra, những người mắc bệnh tiểu đường có thể sử dụng thang đo hỗ trợ giọng nói để theo dõi lượng đường trong máu.

Ứng dụng của trợ lý ảo trong ngành khách sạn

Ngành công nghiệp khách sạn cũng đã và đang áp dụng công nghệ giọng nói. Du khách có thể sử dụng lệnh thoại để vận hành các thiết bị, tìm các đề xuất về các điểm du lịch trong khu vực, đặt phương tiện đi lại, đặt dịch vụ phòng và truy vấn thông tin về khách sạn mong muốn.

Ứng dụng của trợ lý ảo trong các đại lý xe hơi

Công nghệ giọng nói không chỉ được sử dụng trên ô tô mà các đại lý cũng đang tận dụng công nghệ này để nâng cao trải nghiệm của khách hàng. Người tiêu dùng có thể nhận được hỗ trợ bán hàng, đặt vé lái thử và các buổi trình chiếu cũng như nhận được lời nhắc dịch vụ và đặt lịch hẹn bằng công nghệ thoại.

Mặc dù trợ lý ảo đang là một mảng công nghệ được đầu tư phát triển mạnh mẽ, nhưng vẫn còn nhiều thách thức dành cho các đơn vị phát triển sản phẩm. Bởi nội dung giọng nói trong ngữ cảnh phức tạp hơn rất nhiều so với nội dung viết, có rất nhiều điều cần phải xem xét, từ âm lượng, sắc thái cảm xúc cho đến khác biệt trong văn hóa và sử dụng phương ngữ. Các nhà phát triển đang cố gắng nghiên cứu và hoàn thiện công nghệ, để có thể mang đến phiên bản tốt hơn của trợ lý ảo trong tương lai gần. 

Giải pháp trợ lý ảo của VinBigData – ViVi được xây dựng dựa trên công nghệ Xử lý ngôn ngữ tự nhiên (NLP) và các thuật toán trí tuệ nhân tạo (AI) tiên tiến, sở hữu nhiều ưu thế vượt trội như nhận diện ngôn ngữ Tiếng Việt chính xác tới 98% với nhóm từ phổ thông. Trợ lý ảo tiếng Việt hiện nay đang được trang bị trên xe điện VF e34, kỳ vọng mang đến những trải nghiệm khác biệt và tuyệt vời cho người lái trên hành trình di chuyển.
Tìm hiểu thêm về ViVi và các sản phẩm khác của VinBigData tại: https://product.vinbigdata.org/ 

Nguồn tham khảo: Storyblok

Công nghệ thị giác máy tính (Computer Vision) sử dụng các thuật toán để máy tính có khả năng mô phỏng tầm nhìn của con người, bao gồm việc chụp ảnh ban đầu, phát hiện và nhận dạng đối tượng, nhận biết bối cảnh tạm thời giữa các cảnh và phát triển sự hiểu biết ở mức độ cao về những gì đang xảy ra trong khoảng thời gian thích hợp. Tuy nhiên, một thách thức đặt ra cho máy tính khi phải xử lý với các đối tượng nhỏ hoặc rất nhỏ, vì chúng thường có kích thước và chất lượng thấp, khiến máy khó có thể xác định chính xác đặc trưng nhận dạng để chỉ rõ chúng là gì. 

Bài viết dưới đây gợi ý phương thức sử dụng Mô hình mạng tính năng thiết kế dạng kim tự tháp mở rộng (Extended Feature Pyramid Network – EFPN) để phát hiện các vật thể nhỏ. 

Kiến trúc của mô hình EFPN

Các pipeline của EFPN (Biểu đồ minh họa từ paper)

Như thể hiện trong hình trên, kiến trúc của EFPN có 1 số đặc trưng như sau: 

Mô-đun FTT

Các pipeline của mô-đun FTT (Biểu đồ từ paper)

Trong mô-đun FTT, bước đầu tiên sử dụng kỹ thuật trích xuất nội dung để trích xuất các đặc trưng ngữ nghĩa từ P3 (bước chính). Sau đó, một lớp tích chập điểm ảnh phụ được áp dụng để cải thiện đầu ra của kỹ thuật trích xuất nội dung. Tiếp theo, thông tin mới nhất được liên kết với bản đồ đặc trưng P2 (tham khảo) để tạo thành đầu vào cho công cụ trích xuất đặc thù, với kết cấu được thiết kế dành riêng cho các vật thể nhỏ. Cuối cùng, thiết lập một kết nối dư để kết hợp đặc trưng và tạo thành bản đồ đặc trưng đầu ra P3′. Áp dụng phương thức này, P3′ truyền trọn vẹn các đặc trưng được chọn lọc từ bản đồ đặc trưng nông P2 và nhận ngữ nghĩa từ lớp sâu hơn P3.

Foreground-background-balanced Loss

Foreground-background-balanced loss là hàm mất mát đa tiêu – hàm loss, bao gồm: Foreground (chứa vật thể) và Background (nền và không chứa vật thể). Các nhà nghiên cứu đã chỉ ra rằng sự mất cân bằng dữ liệu giữa các nhóm foreground-background là nguyên nhân chính dẫn tới sự kém hiệu quả trong việc phát hiện vật thể.

Các phương pháp cổ điển thường cải thiện hiệu suất phát hiện đối tượng bằng cách sử dụng ảnh đầu vào có độ phân giải cao. Khởi điểm từ nền tảng cơ bản này, các nhà nghiên cứu đã đề xuất một cơ chế đào tạo mới mang tên là Cross Resolution Distillation.

Ở đây chúng ta sử dụng mô hình để kiểm tra với đầu vào 2x (độ phân giải gấp đôi đầu vào bình thường) sau đó sử dụng đầu ra của 4 lớp trên cùng của hệ thống làm mục tiêu đào tạo. Ví dụ: P5 của đầu vào 2x có độ phân giải gấp đôi so với P5 của đầu vào ban đầu (đầu vào 1x) và có cùng độ phân giải với P4 của đầu vào ban đầu (đầu vào 1x), như được minh họa trong hình trên. Do đó, P3 và P2 của đầu vào 2x sẽ được sử dụng làm mục tiêu để đào tạo P3′ và P2′ của đầu vào ban đầu (đầu vào 1x), tương ứng. 

Đào tạo mô hình EFPN bằng cách sử dụng hàm loss như sau:

Trong đó L_fbb là Foreground-background-balanced loss được đề xuất. Hàm mất mát đa tiêu bao gồm hai phần: mất mát tái tạo toàn cục L_glob và mất mát bản vá tích cực L_pos. 

Trong đó P_pos thể hiện tọa độ bản đồ đối tượng (x,y) và N mô tả số lượng pixel dương. Thông tin chi tiết về các hàm được trình bày trong bài báo khoa học của Cornell University.

Hiệu quả của EFPN 

So với các phương pháp hiện đại khác, các tác giả đã thử nghiệm EFPN trên tập dữ liệu biển báo giao thông nhỏ 100K trên Tsinghua-Tencent và tập dữ liệu đối tượng nhỏ của MS COCO, đã nhận được những dấu hiệu tích cực hơn với độ chính xác cao hơn. 

So với FPN (bên trái), EFPN (phải) nhận diện và phát hiện đối tượng nhỏ với hiệu quả cao hơn. Nguồn: Paper
Phát hiện vật thể là một trong những tính năng vượt trội được VinBigData tập trung phát triển trong hệ thống Camera AI giám sát thông minh – VinCamAI. VinCamAI có thể ứng dụng trên quy mô lớn, đáp ứng đa dạng nhu cầu, và phù hợp với nhiều quy mô doanh nghiệp, với độ chính xác tới 99%. Tìm hiểu thêm về VinCamAI: Tại đây 

Nguồn tham khảo: Towards Data Science

Nhận dạng ký tự quang học (Optical Character Recognition – OCR) là công nghệ hỗ trợ phát hiện, nhận dạng và trích xuất thông tin từ hình ảnh, vật thể, chữ viết tay, giấy tờ, biểu mẫu… được sử dụng phổ biến thời gian gần đây, nhằm tiết kiệm thời gian và chi phí, cũng như tối ưu hóa các chu trình xử lý thủ tục giấy tờ.  Sau khi tiến hành dán nhãn, xử lý hình ảnh, thiết lập thuật toán,… để hoàn thiện mô hình OCR, các nhà nghiên cứu cần đánh giá xem mô hình này có hoạt động hiệu quả hay không, bằng cách sử dụng các chỉ số tiêu chuẩn. Bài viết này cung cấp thông tin về 2 chỉ số được sử dụng phổ biến, bao gồm Tỷ lệ lỗi ký tự (Character Error Rate – CER) và Tỷ lệ lỗi từ (Word Error Rate – WER). Sử dụng tỷ lệ lỗi để xác định mức độ khác nhau giữa văn bản được trích xuất với OCR và văn bản tham chiếu được dán nhãn thủ công. 

Các nhóm lỗi cơ bản được xem xét 

Với CER và WER có 3 loại lỗi cơ bản cần được xem xét bao gồm 

Lỗi thay thế (Substitution): Các ký tự/ từ sai chính tả

Lỗi xóa (Deletion): Các ký tự/ từ bị mất hoặc bị thiếu

Lỗi chèn (Insertion): Các ký tự/ từ không chính xác

Hình ảnh minh họa 3 nhóm lỗi cơ bản. Nguồn: Towards Data Science 

Vấn đề ở đây là làm thế nào để đo lường mức độ sai lệch giữa 2 chuỗi văn bản. Thông thường chúng ta sử dụng kỹ thuật Khoảng cách Levenshtein (tên tiếng Anh: Levenshtein distance). Khoảng cách Levenshtein là một kỹ thuật đo lường sự khác biệt giữa hai chuỗi, thông qua thống kê số lần chỉnh sửa một ký tự (hoặc từ) tối thiểu (bao gồm chèn, xóa hoặc thay thế) cần thiết để thay đổi một từ (hoặc câu) thành một từ (hoặc câu) khác.

Ví dụ: khoảng cách Levenshtein giữa “mitten” và “fitting” là 3 vì cần tối thiểu 3 lần chỉnh sửa để biến từ này thành từ kia. 

mitten → fitten (thay thế “m” thành “f”)

fitten → fittin (thay thế “e” thành “i”)

fittin → fitting (thêm “g” ở cuối từ)

Chỉ số khoảng cách Levenshtein càng lớn thì hai chuỗi văn bản được xem xét càng có nhiều khác biệt. 

Tỷ lệ lỗi ký tự (Character Error Rate – CER)

Công thức tính CER 

Tính toán chỉ số CER dựa trên kỹ thuật khoảng cách Levenshtein bằng cách đếm số lượng tối thiểu các hoạt động cấp ký tự cần thiết để chuyển đổi văn bản tham chiếu đầu vào thành tệp đầu ra OCR.

CER được tính theo công thức sau: 

Công thức tính toán CER

Trong đó: 

S = Số lần thay thế

D = Số lần xóa

I = Số lần chèn

N = Tổng số ký tự trong văn bản tham chiếu

Mẫu số N có thể được tính theo công thức: N = S + D + C (trong đó C = Số ký tự đúng)

Kết quả của phương trình này đại diện cho tỷ lệ phần trăm ký tự trong đầu ra OCR không chính xác so với văn bản tham chiếu đầu vào. Giá trị CER càng thấp (mô hình hoàn hảo khi CER=0), hiệu suất của mô hình OCR càng tốt.

Ý nghĩa của tỷ lệ lỗi ký tự CER 

Tùy thuộc trường hợp sử dụng và điều kiện liên quan, tỷ lệ lỗi ký tự CER được sử dụng để đánh giá mức độ hiệu quả của OCR tương ứng. Các tình huống và độ phức tạp khác nhau (ví dụ: văn bản in so với văn bản viết tay, loại nội dung, v.v.) có thể dẫn đến các hiệu suất OCR khác nhau. Tuy nhiên, chúng ta có thể tham khảo đánh giá độ chính xác của một số tổ chức uy tín tại Úc như sau (đối với văn bản in):

Độ chính xác OCR tốt: CER 1‐2% (tức là chính xác 98–99%)

Độ chính xác OCR trung bình: CER 2-10%

Độ chính xác OCR kém: CER> 10% (tức là độ chính xác dưới 90%)

Đối với các trường hợp phức tạp liên quan đến văn bản viết tay có nội dung không đồng nhất và xa rời từ vựng (ví dụ: đơn đăng ký), giá trị CER cao khoảng 20% ​​có thể được coi là đạt yêu cầu.

Tỷ lệ lỗi từ (Word Error Rate – WER) 

Nếu CER thường được sử dụng trong việc phát hiện và trích xuất các tài liệu, chuỗi ký tự có trình tự cụ thể (ví dụ: biển số xe, số điện thoại…) thì WER thường được áp dụng khi liên quan đến việc phiên âm các đoạn văn và câu chứa các từ có nghĩa (ví dụ: các trang sách, báo).

Công thức tính tỷ lệ lỗi từ (WER)

Công thức của WER giống với công thức của CER, nhưng thay vào đó, WER hoạt động ở cấp độ từ. Nó thể hiện số lượng từ thay thế, xóa hoặc chèn cần thiết để chuyển một câu thành câu khác.

WER thường có mối liên quan quan mật thiết với CER (miễn là tỷ lệ lỗi không quá cao), mặc dù giá trị WER luôn luôn ghi nhận cao hơn CER.

Ví dụ: Văn bản tham chiếu gốc: “My name is kenneth”

Đầu ra OCR: “Myy nime iz kenneth”

Ở đây, tỷ lệ lỗi ký tự CER là 16.67%, trong khi tỷ lệ lỗi từ WER là 75%. Rõ ràng WER là 75% vì 3 trong số 4 từ trong câu đã bị phiên âm sai.

Công thức tính tỉ lệ lỗi từ WER 

Bài viết trên đây đã đề cập đến các khái niệm, công thức tính tỷ lệ lỗi ký tự CER và tỷ lệ lỗi từ WER cũng như cách áp dụng chúng trong thực tế. Mặc dù CER và WER rất tiện dụng nhưng đây không phải là các chỉ số duy nhất khi đo lường sự chính xác của mô hình OCR. Độ chính xác của OCR còn phụ thuộc nhiều yếu tố như chất lượng và tình trạng của tài liệu gốc (ví dụ: tính dễ đọc của chữ viết tay, DPI hình ảnh, v.v.), thế nên các chỉ số chỉ mang tính tương đối.

VinBigData đang phát triển giải pháp VinOCR hỗ trợ việc phát hiện, nhận dạng và trích xuất thông tin từ hình ảnh, vật thể, chữ viết tay, giấy tờ, biểu mẫu… với độ chính xác cao tới 96%, tốc độ xử lý chưa đến 0,1s. Hệ thống ứng dụng cụ thể trong đa lĩnh vực, số hóa trải nghiệm người dùng, tăng tỉ lệ chuyển đổi, giảm rủi ro cho các doanh nghiệp.
Tìm hiểu thêm về VinOCR tại: https://product.vinbigdata.org/vinocr/ 

Nguồn tham khảo: Towards Data Science