Việc triển khai các hệ thống chatbot, đặc biệt là chatbot sử dụng trí tuệ nhân tạo (AI chatbot), mang lại nhiều lợi ích đáng kể cho doanh nghiệp như: nâng cao trải nghiệm khách hàng với các phản hồi 24/7, giảm thiểu chi phí và gia tăng doanh số. Vì vậy, sử dụng chatbot cho các kênh truyền thông là phương pháp được các doanh nghiệp trên thế giới ưa chuộng sử dụng trong thời gian gần đây. 

Tuy nhiên, không phải bất kì doanh nghiệp nào triển khai chatbot cũng thực sự mang lại hiệu quả và thành công như mong đợi. Đôi khi chatbot vẫn gặp một số lỗi như nhầm lẫn các lệnh đơn giản, cung cấp các phản hồi không hữu ích hoặc không liên quan đến vấn đề khách hàng hỏi. 

Những lợi ích nổi bật mà chatbot mang lại 

Với khả năng phản hồi và giải đáp thông tin trong thời gian thực, hỗ trợ liên tục 24/7, chatbot cải thiện các dịch vụ chăm sóc khách hàng cho mỗi doanh nghiệp. Xử lý khối lượng yêu cầu lớn với độ chính xác cao, chatbot giúp gia tăng trải nghiệm khách hàng và giảm thiểu chi phí đáng kể.  

Xem thêm về Chatbot và những lợi ích Chatbot mang lại: Tại đây 

Ba loại rào cản chính khi triển khai chatbot các doanh nghiệp thường xuyên gặp phải

1. Xác định trường hợp sử dụng chatbot chưa phù hợp

Các doanh nghiệp có thể dễ dàng đưa ra danh sách những vấn đề phổ biến mà khách hàng gặp phải, tuy nhiên, không phải vấn đề nào cũng phù hợp với chatbot. Họ thường không chắc chắn khi xác định chủ đề nào phù hợp nhất với chatbot và chủ đề nào nên được xử lý bởi các nhân viên chăm sóc khách hàng. Chatbot dễ gặp khó khăn khi phải xử lý các chủ đề mang tính cảm xúc cao hoặc yêu cầu các tương tác qua lại phức tạp, lâu dài. 

2. Không thiết kế và huấn luyện chatbot theo kịch bản riêng của doanh nghiệp

Một số doanh nghiệp thường triển khai chatbot theo một mô hình chung, hoặc dựa theo các nguyên mẫu có sẵn từ các doanh nghiệp khác. Họ chưa thực sự quan tâm đến mức độ phù hợp khi triển khai. Chatbot phải phù hợp với sản phẩm, dịch vụ mà doanh nghiệp cung cấp, đồng thời phải có kịch bản làm hài lòng khách hàng. Khi tích hợp chatbot với các kênh truyền thông, các công ty nên ưu tiên nhu cầu của khách hàng và chú ý đến các đặc tính của sản phẩm, để chatbot hoạt động hiệu quả hơn. 

Trò chuyện với khách hàng cũng tùy thuộc vào trường hợp sử dụng và đặc điểm nhận dạng thương hiệu. Một công ty bán sản phẩm giải trí cho thế hệ millennial sẽ muốn cuộc trò chuyện trở nên vui vẻ và hiện đại trong khi một chatbot chăm sóc sức khỏe không nên hồi đáp với ngữ điệu và câu từ mang tính vui đùa, hoặc pha trò. 

3. Không xây dựng đủ dữ liệu để huấn luyện chatbot thông minh

Giống như các công cụ ứng dụng trí tuệ nhân tạo khác, chatbot cần sử dụng nhiều dữ liệu đầu vào để học cách xử lý các yêu cầu một cách hiệu quả. Đào tạo chatbot thông minh có nghĩa là tạo cơ hội cho chatbot tiếp xúc với vô số cuộc trò chuyện mẫu về các chủ đề doanh nghiệp muốn giải quyết, sau đó học hỏi từ các trường hợp thực tế đó để câu trả lời linh hoạt hơn. Đặc biệt, chatbot còn có thể học để trở nên cá nhân hóa, hiểu phong cách và ngữ điệu nói chuyện của khách hàng, sau đó đối thoại sao cho phù hợp với từng người. 

Doanh nghiệp nên làm gì để triển khai chatbot thực sự hiệu quả

triển khai chatbot hiệu quả
Triển khai chatbot hiệu quả là một trong những điều mà doanh nghiệp quan tâm thời gian gần đây.

Kết hợp triển khai chatbot với hệ thống chăm sóc khách hàng đúng cách 

Với khả năng trực tuyến 24/7, chatbot luôn sẵn sàng giải đáp thắc mắc cho khách hàng ở bất kì thời điểm nào trong ngày. Tuy nhiên, chatbot không phải công cụ toàn năng, và có hiểu biết trong phạm vi nhất định. Trong quá trình triển khai Chatbot, đôi khi sẽ có một số vấn đề xảy ra nằm ngoài giới hạn hiểu biết của chatbot. Trường hợp này các doanh nghiệp nên chuẩn bị phương án linh hoạt bằng việc tự động chuyển giao một số câu hỏi cho nhân viên tư vấn để tiếp tục cuộc trò chuyện với khách hàng. 

Doanh nghiệp phải khéo léo triển khai Chatbot kết hợp với các yếu tố khác để hoàn thiện khâu chăm sóc khách hàng hiệu quả nhất. Chatbot có thể nhanh chóng trả lời các câu hỏi phổ biến và chuyển tiếp lại cho các nhân viên hỗ trợ với các cuộc đối thoại có tính chất phức tạp và mang nhiều sắc thái cảm xúc. Chatbot có khả năng thu thập thông tin, xuất báo cáo nhưng việc xử lý thông tin vẫn cần các nhà quản trị hay các nhân viên chuyên môn dành thời gian phân tích. 

Xây dựng kịch bản trả lời phù hợp với doanh nghiệp và đúng trọng tâm

Chatbot nên được coi như các tác nhân trong một trung tâm chăm sóc khách hàng: phải huấn luyện và đào tạo chatbot với những nghiệp vụ khách hàng mà doanh nghiệp đang triển khai, nắm bắt đầy đủ thông tin và định vị thương hiệu và học cách đối thoại khéo léo để mang lại cho khách hàng những trải nghiệm tốt. 

Với vai trò chính là giải đáp thắc mắc và cung cấp thông tin, tin nhắn của bot nên là các câu ngắn và rõ ràng. Khách hàng cần những lời đáp đúng trọng tâm và nhu cầu họ mong muốn. Khách hàng dễ cảm thấy không hài lòng nếu bot trả lời quá dài, lan man, không đúng ý. 

Đặt mình vào vị trí của khách hàng để đào tạo chatbot thông minh 

Doanh nghiệp nên đặt mình vào vị trí của khách hàng để nghiên cứu xem vấn đề nào đang được quan tâm, những thắc mắc khi sử dụng sản phẩm là gì, những câu hỏi nào khách hàng thường đặt ra… Trước khi triển khai, doanh nghiệp phải xây dựng kịch bản đầy đủ thông tin nhất có thể. Sau khi hoàn thành việc thiết lập kịch bản, các nhà quản trị nên trải nghiệm thử với bot, xem xét xem câu trả lời của bot đã đáp ứng được hết nhu cầu và mong đợi của khách hàng hay chưa. Đồng thời khi thử nghiệm cũng giúp doanh nghiệp phát hiện lỗi để điều chỉnh kịp thời trước khi tới tay khách hàng. 

Ngoài ra, sau thời gian vận hành, doanh nghiệp cũng cần thường xuyên theo dõi và điều chỉnh kịch bản để phù hợp với văn phong giao tiếp của khách hàng. Việc theo dõi và học hỏi giúp chatbot trở nên linh hoạt và thông minh hơn, gần gũi và cá nhân hóa vời từng người dùng. Cách diễn đạt, ngữ điệu, cách dùng từ phù hợp sẽ khiến khách hàng thoải mái, và mong muốn chia sẻ thông tin nhiều hơn. Những thông tin này sẽ dễ dàng có được nếu quan sát hành và nắm bắt hành vi của khách hàng trong một khoảng thời gian nhất định.

Chatbot đã và đang là xu thế tất yếu và một nhân tố không thể thiếu giúp doanh nghiệp tối ưu trải nghiệm khách hàng, tiết kiệm nhân lực và chi phí. Tuy nhiên, doanh nghiệp cần cân nhắc kỹ lưỡng quy trình tạo lập và thiết kể để khai thác chatbot hiệu quả nhất. Với chatbot điều nên quan tâm hàng đầu là chất lượng của chatbot, tránh trường hợp tác dụng ngược khi chatbot hoạt động thiếu chuyên nghiệp.

VinBot cung cấp nền tảng tạo lập, cấu hình, huấn luyện chatbot theo kịch bản nghiệp vụ của khách hàng, hỗ trợ tích hợp đa dạng kênh truyền thông để tương tác với người dùng cuối. Với VinBot, đội ngũ sẽ tiến hành tìm hiểu và phân tích kịch bản thật sự phù hợp cho mỗi doanh nghiệp, xây dựng hệ thống chatbot phản hồi mang tính cá nhân hóa tới từng khách hàng, cung cấp trải nghiệm ưu việt nhất. Thành tạo nhiều ngôn ngữ như Việt, Anh, Nhật, Trung,.. tốc độ phản hồi chưa tới 0,1s và khả năng xử lý 10.000 yêu cầu cùng lúc, VinBot hứa hẹn là công cụ nâng tầm dịch vụ khách hàng cho các doanh nghiệp. 
Tìm hiểu thêm về VinBot: Tại đây

Tư liệu tham khảo: Topbots

Chatbot là hình thức tự động thực hiện hội thoại được nhiều fanpage ưa chuộng hiện nay, bởi tốc độ hồi đáp nhanh và lượng thông tin chính xác cung cấp cho người dùng. Tuy nhiên, do sự đa dạng trong ngôn ngữ nên chatbot nhiều khi vẫn mang đến những câu trả lời chưa phù hợp hoặc thậm chí không thể đưa ra câu trả lời. Cùng với sự phát triển của kỷ nguyên số, trí tuệ nhân tạo (AI) ngày càng được ứng dụng vào nhiều lĩnh vực trong cuộc sống và chatbot cũng không ngoại lệ. AI chatbot được đánh giá là đang cải tiến những khó khăn của chatbot thế hệ cũ. Hãy cùng tìm hiểu AI chatbot là gì và những ưu việt của AI chatbot so với các loại chatbot thông thường thông qua bài viết dưới đây.

Chatbot là gì và những công dụng của chatbot 

Chatbot là gì 

Khi truy cập vào một fanpage trên Facebook, bạn gửi tin nhắn tìm hiểu thông tin và nhận được lời hồi đáp ngay sau đó. Những tin nhắn như vậy có thể không đến từ người quản lý fanpage mà đến từ chatbot. Chatbot, hay còn được gọi là talkbot, chatterbot, bot, bot IM, hay thực thể trò chuyện tự động, là một chương trình máy tính thực hiện một cuộc trò chuyện thông qua việc tiếp nhận thông tin bằng văn bản. Chatbot được thiết kế để tiếp nhận và xử lý yêu cầu của người dùng, sau đó đưa ra câu trả lời trong thời gian thực. 

Công dụng của chatbot 

Chatbot là một hình thức trò chuyện được các fanpage ưa chuộng sử dụng bởi tốc độ hồi đáp nhanh, với những thông tin chính xác được cài đặt sẵn. Điều này mang đến trải nghiệm tuyệt vời hơn cho người truy cập fanpage khi không phải chờ đợi quá lâu để nhận được câu trả lời mong muốn. Chatbot cũng giúp các doanh nghiệp tiết kiệm thời gian và chi phí cho dịch vụ chăm sóc khách hàng. Doanh nghiệp không cần quá nhiều nhân lực để hồi đáp thắc mắc của lượng lớn khách hàng. Thay vào đó, đội ngũ nhân sự có thể tập trung vào những công việc mang tính chuyên môn cao hơn.

Chatbot được sử dụng trong các hệ thống hội thoại của các fanpage cho nhiều mục đích cụ thể, phổ biến nhất là dịch vụ khách hàng và thu thập thông tin. 

>> Đọc thêm: Chatbot là gì? Tất cả những điều cần biết về chatbot

AI chatbot là gì 

Chatbot là thuật ngữ quen thuộc nhưng AI chatbot còn khá mới lạ với các doanh nghiệp. Vậy AI chatbot là gì? AI chatbot được hiểu là chatbot sử dụng trí tuệ nhân tạo (AI) và học máy (ML). Dựa trên các công nghệ và mô hình nền tảng, AI chatbot có thể phân tích và dự đoán dựa trên đoạn hội thoại của người dùng, sau đó trò chuyện với người dùng theo ngôn ngữ hội thoại tự nhiên. Nó có khả năng tiếp nhận cả những câu nói thông thường của người dùng để phân tích và sàng lọc yêu cầu, cùng những từ khóa liên quan. Với AI chatbot, người dùng không cần phải thực hiện theo quy trình, nhập những câu hỏi theo kịch bản của chatbot.

AI chatbot có điểm gì đột phá so với chatbot thông thường 

Điểm yếu của chatbot thông thường 

Chatbot lần đầu được sử dụng gần 10 năm trước. Tuy nhiên, khi đó hầu hết sử dụng loại chatbot dựa trên quy tắc (Rule-Based Chatbot). Với loại chatbot này, quy tắc là đi theo các đường dẫn được định sẵn trong cuộc trò chuyện. Người dùng chọn các tùy chọn sẵn mà bot đưa ra để thực hiện yêu cầu với bot theo từng bước. Hoặc người dùng phải đưa ra những câu hỏi hoàn toàn trùng khớp với kịch bản có sẵn thì mới nhận được hồi đáp từ chatbot. 

Việc quá phụ thuộc vào kịch bản theo mẫu khiến giao tiếp giữa chatbot và người dùng trở nên rập khuôn. Vì vậy, hầu hết người dùng không hoàn toàn hài lòng với những hội thoại kiểu này. Bởi lẽ, phong cách hội thoại và khả năng sử dụng ngôn ngữ của con người rất phong phú đa dạng. Họ muốn đưa ra câu hỏi theo cách của mình và mỗi người sẽ có mong muốn và ý hiểu khác nhau cho từng vấn đề. 

AI chatbot có khắc phục được những khó khăn đó hay không?

Thời gian gần đây, trí tuệ nhân tạo (AI) cho thấy những bước tiến vượt bậc trong nghiên cứu và cung cấp các giải pháp phát triển sản phẩm. Với chatbot, trí tuệ nhân tạo (AI) được sử dụng để phân tích hội thoại tự nhiên nhất của con người và khắc phục những khó khăn của chatbot thế hệ cũ.

Dựa trên nền tảng trí tuệ nhân tạo (AI), cùng với công nghệ học máy (ML), chatbot có khả năng thấu hiểu, phân tích và tự học từ những cuộc hội thoại thông thường của con người. Khả năng sử dụng ngôn ngữ được tích lũy từ các cuộc trò chuyện thực tế khiến chatbot trở nên linh hoạt và gần gũi hơn. Người dùng có thể diễn tả ý định và câu hỏi theo ý của riêng mình. AI chatbot có năng lực tự nhận thức và phân tích từ khóa để đưa ra câu trả lời. Vì vậy người dùng không còn phải tuân thủ các quy tắc hay đưa ra những câu hỏi máy móc theo kịch bản mà vẫn nhận được những câu trả lời ưng ý. 

Ngoài ra, nhờ công nghệ xử lý ngôn ngữ tự nhiên (NLP), AI chatbot có thể nhận thức ý định người dùng thông qua các câu nói. Do đó, phản hồi mang tính chính xác cao hơn. Người dùng có thể thoải mái diễn đạt mọi thứ theo cách của riêng mình. AI chatbot sẽ linh hoạt theo ngôn ngữ người dùng, thông minh trong việc chỉ ra mong muốn và đưa ra câu trả lời hợp lý. 

Ngoài ra, với xu thế phát triển trong các công nghệ và thuật toán, AI chatbot được bổ sung thêm nhiều tính năng: vừa đáp lời, giải đáp thắc mắc, vừa thu thập thông tin, tiến hành đặt lịch, hẹn giờ,v.v. AI chatbot sẽ trở thành công cụ tích hợp phát triển và hoàn thiện dịch vụ chăm sóc khách hàng của doanh nghiệp. 

Tại sao doanh nghiệp nên sử dụng AI chatbot cho hệ sinh thái của mình?

Một trong những khâu quan trọng nhất trong vận hành doanh nghiệp là chăm sóc khách hàng. Bởi lẽ, dịch vụ chăm sóc khách hàng gắn liền với trải nghiệm và quyết định mua của người dùng cuối, những người mang đến nguồn doanh thu và lợi nhuận bền vững cho doanh nghiệp. Do đó, doanh nghiệp dù có quy mô như thế nào cũng cần coi trọng và không ngừng cải thiện dịch vụ này. 

Trang bị AI chatbot giúp giải đáp thắc mắc nhanh chóng, gia tăng trải nghiệm khách hàng. Đặc biệt, AI chatbot hoạt động mỗi ngày mỗi giờ, điều mà bất kỳ nhân viên nào cũng không làm được. Ngoài ra, AI chatbot cũng giảm thiểu sai sót thông tin, đặc biệt trong các trường hợp lượng lớn khách hàng có nhu cầu tư vấn. Sử dụng AI chatbot cũng giúp doanh nghiệp giảm thiểu tối đa chi phí nhân lực, thời gian cho khâu chăm sóc khách hàng. Đội ngũ nhân sự có thể tham gia vào các công đoạn công việc mang tính chuyên môn hóa hơn.

AI chatbot giúp doanh nghiêp gia tăng trải nghiệm khách hàng
AI chatbot với tốc độ hồi đáp nhanh mang lại hội thoại gần gũi, giải đáp chính xác và gia tăng trải nghiệm khách hàng 

Theo khảo sát của Harvard Business Review  tại khu vực điều hành truyền hình vệ tinh Dish Network của Hoa Kỳ, khách hàng đã đánh giá mức độ hài lòng của họ sau các cuộc trò chuyện với chatbot cao hơn với phản hồi từ nhân viên.

Các doanh nghiệp có thể dễ dàng tích hợp AI chatbot với các trang mạng xã hội, hoặc các kênh truyền thông của mình. Đây là cầu nối vững chắc giữ mối quan hệ tốt với khách hàng mục tiêu và biến họ trở thành các khách hàng trung thành. 

VinBot: Nền tảng tạo lập AI Chatbot được phát triển bởi VinBigdata

VinBot là giải pháp công nghệ với mục đích mang đến một nền tảng giúp doanh nghiệp xây dựng và đào tạo chatbot theo dịch vụ khách hàng, thấu hiểu và hoạt động đúng nghiệp vụ chăm sóc người dùng. VinBot được hỗ trợ có thể tích hợp trên hệ thống kênh truyền thông đa dạng: Website, mạng xã hội Facebook, Zalo,… phù hợp với xu hướng kinh doanh của doanh nghiệp. Sau thời gian triển khai cùng hệ sinh thái đa ngành tại Tập đoàn Vingroup, VinBot đã cho thấy nhiều ưu điểm nổi trội và là một sản phẩm đáng để doanh nghiệp đầu tư. 

Chăm sóc khách hàng thông minh, gia tăng trải nghiệm, giảm thiểu chi phí cùng VinBot : Tại đây 

Bài viết trên đã làm rõ AI chatbot là gì và những đặc tính vượt trội so với chatbot thông thường. AI chatbot được đánh giá là nhân tố mới, giúp tối ưu hoạt động vận hành của doanh nghiệp. Ngày càng thông minh linh hoạt nhờ các công nghệ lõi ưu việt, AI chatbot kỳ vọng trở thành một phần không thể thiếu, giúp doanh nghiệp chăm sóc khách hàng mọi lúc mọi nơi và giảm thiểu tối đa phần chi phí tốn kém của những khâu không cần thiết. Vậy nên, tại sao không trang bị AI chatbot ngay hôm nay cho doanh nghiệp của bạn?

Xử lý ngôn ngữ tự nhiên (NLP) là một nhánh của Trí tuệ nhân tạo (AI) cung cấp cho máy tính khả năng hiểu ngôn ngữ viết và nói của con người. Dễ dàng kể đến một số ứng dụng của NLP trong kiểm tra chính tả, tự động điền, phát hiện thư rác, trợ lý ảo trên điện thoại và ô tô. Tuy nhiên, ít ai biết rằng máy móc hoạt động với các con số chứ không phải các chữ cái/từ/câu. Vì vậy, để làm việc với một lượng lớn dữ liệu văn bản có sẵn, tiền xử lý văn bản (text pre-processing) là quá trình cần thiết giúp làm sạch văn bản. Bản thân tiền xử lý văn bản bao gồm nhiều giai đoạn, và một trong số đó là tách từ (hay còn gọi là Tokenization).

Tokenization là gì?

Tokenization (tách từ) là một trong những bước quan trọng nhất trong quá trình tiền xử lý văn bản. Cho dù bạn đang làm việc với các kỹ thuật NLP truyền thống hay sử dụng các kỹ thuật học sâu nâng cao thì vẫn không thể bỏ qua bước này. Nói một cách đơn giản, tokenization là quá trình tách một cụm từ, câu, đoạn văn, một hoặc nhiều tài liệu văn bản thành các đơn vị nhỏ hơn. Mỗi đơn vị nhỏ hơn này được gọi là Tokens. 

Có thể coi tokens là các khối xây dựng của NLP và tất cả các mô hình NLP đều xử lý văn bản thô ở cấp độ các Tokens. Chúng được sử dụng để tạo từ vựng trong một kho ngữ liệu (một tập dữ liệu trong NLP). Từ vựng này sau đó được chuyển thành số (ID) và giúp chúng ta lập mô hình. Tokens có thể là bất cứ thứ gì – một từ (word), một từ phụ (sub-word) hoặc thậm chí là một ký tự (character). Các thuật toán khác nhau tuân theo các quy trình khác nhau trong việc thực hiện mã hóa và sự khác biệt giữa ba loại tokens này sẽ được chỉ ra dưới đây.

Ví dụ: Câu gốc là “Let us learn tokenization.”

Phân loại các kỹ thuật tách từ dựa trên ví dụ cụ thể
Phân loại các kỹ thuật tách từ dựa trên ví dụ cụ thể

Thuật toán mã hóa dựa trên từ (word-based tokenization algorithm) sẽ chia câu thành các từ: [“Let”, “us”, “learn”, “tokenization.”]

Thuật toán mã hóa dựa trên từ phụ (subword-based tokenization algorithm) sẽ chia câu thành các từ khóa phụ: [“Let”, “us”, “learn”, “token”, “ization.”]

Thuật toán mã hóa dựa trên ký tự (character-based tokenization algorithm) sẽ chia câu thành các ký tự, ở đây là từng chữ cái một.

Ba kỹ thuật mã hóa này hoạt động khác nhau và có những ưu điểm và nhược điểm riêng sẽ được phân tích cụ thể bên dưới.

Word-based tokenization

Đây là kĩ thuật tokenization được sử dụng phổ biến trong phân tích văn bản. Nó chia một đoạn văn bản thành các từ (ví dụ tiếng Anh) hoặc âm tiết (ví dụ tiếng Việt) dựa trên dấu phân cách. Dấu phân cách hay được dùng chính là dấu cách trắng. Tuy nhiên, cũng có thể tách văn bản không theo dấu phân cách. Ví dụ tách từ trong tiếng Việt vì một từ trong tiếng Việt có thể chứa 2 hoặc 3 âm tiết được nối với nhau bởi dấu cách trắng.

Tách từ có thể được thực hiện dễ dàng bằng cách sử dụng phương thức split () của RegEx hoặc Python. Ngoài ra, có rất nhiều thư viện Python – NLTK, spaCy, Keras, Gensim, có thể giúp bạn thực hiện việc này một cách thuận tiện.

Thực tế, các mô hình NLP sử dụng các phương pháp tách từ phù hợp theo từng ngôn ngữ. Tuỳ thuộc vào từng bài toán, mà cùng một văn bản có thể được xử lý dưới các loại tokens khác nhau. Mỗi token thường có tính duy nhất và được biểu diễn bằng một ID, các ID này là một cách mã hoá hay cách định danh token trên không gian số.

Hạn chế của kỹ thuật này là nó dẫn đến một kho ngữ liệu khổng lồ và một lượng từ vựng lớn, khiến mô hình cồng kềnh hơn và đòi hỏi nhiều tài nguyên tính toán hơn. Bên cạnh đó, một hạn chế nữa là liên quan đến các từ sai chính tả. Nếu kho ngữ liệu có từ “knowledge” viết sai chính tả thành “knowldge”, mô hình sẽ gán token OOV cho từ sau đó. Do đó, để giải quyết tất cả những vấn đề này, các nhà nghiên cứu đã đưa ra kỹ thuật mã hóa dựa trên ký tự.

Character-based tokenization

Mã hóa dựa trên ký tự chia văn bản thô thành các ký tự riêng lẻ. Logic đằng sau mã hóa này là một ngôn ngữ có nhiều từ khác nhau nhưng có một số ký tự cố định. Điều này dẫn đến một lượng từ vựng rất nhỏ. Ví dụ  tiếng Anh có 256 ký tự khác nhau (chữ cái, số, ký tự đặc biệt) trong khi chứa gần 170.000 từ trong vốn từ vựng. Do đó, mã hóa dựa trên ký tự sẽ sử dụng ít token hơn so với mã hóa dựa trên từ.

Một trong những lợi thế chính của mã hóa dựa trên ký tự là sẽ không có hoặc rất ít từ không xác định hoặc OOV. Do đó, nó có thể biểu diễn các từ chưa biết (những từ không được nhìn thấy trong quá trình huấn luyện) bằng cách biểu diễn cho mỗi ký tự. Một ưu điểm khác là các từ sai chính tả có thể được viết đúng chính tả lại, thay vì có thể đánh dấu chúng là mã thông báo OOV và làm mất thông tin.

Loại mã hóa này khá đơn giản và có thể làm giảm độ phức tạp của bộ nhớ và thời gian. Vì vậy, liệu nó có phải thuật toán tốt nhất hay hoàn hảo để tách từ? Câu trả lời là không (ít nhất là đối với Ngôn ngữ tiếng Anh)! Một ký tự thường không mang bất kỳ ý nghĩa hoặc thông tin nào như một từ. Ngoài ra, tuy kỹ thuật này giúp giảm kích thước từ vựng nhưng lại làm tăng độ dài chuỗi trong mã hóa dựa trên ký tự. Mỗi từ được chia thành từng ký tự và do đó, chuỗi mã hóa dài hơn nhiều so với văn bản thô ban đầu. Vì vậy, có thể thấy, dù đã giải quyết được rất nhiều thách thức mà mã hóa dựa trên từ gặp phải, mã hóa dựa trên ký tự vẫn có một số vấn đề nhất định.

Subword-based tokenization

Một kỹ thuật phổ biến khác là mã hóa dựa trên từ khóa phụ. Đây là một giải pháp nằm giữa mã hóa dựa trên từ và ký tự. Ý tưởng chính là giải quyết đồng thời các vấn đề của mã hóa dựa trên từ (kích thước từ vựng rất lớn, có nhiều tokens OOV, sự khác biệt trong ý nghĩa của các từ rất giống nhau) và mã hóa dựa trên ký tự (chuỗi rất dài và token riêng lẻ ít ý nghĩa hơn).

Các thuật toán mã hóa dựa trên từ khóa phụ sử dụng các nguyên tắc sau.

Hầu hết các mô hình tiếng Anh đều sử dụng các dạng thuật toán của mã hóa từ phụ, trong đó, phổ biến là WordPeces được sử dụng bởi BERT và DistilBERT, Unigram của XLNet và ALBERT, và Bye-Pair Encoding của GPT-2 và RoBERTa.

Mã hóa dựa trên từ khóa phụ cho phép mô hình có kích thước từ vựng phù hợp và cũng có thể học các biểu diễn độc lập theo ngữ cảnh có ý nghĩa. Mô hình thậm chí có thể xử lý một từ mà nó chưa từng thấy trước đây vì sự phân tách có thể dẫn đến các từ phụ đã biết. 

Như vậy, trên đây là cách các phương pháp mã hóa phát triển theo thời gian để đáp ứng nhu cầu ngày càng tăng của NLP và đưa ra các giải pháp tốt hơn cho các vấn đề.

Các kỹ thuật kể trên cũng đang được VinBigdata ứng dụng trực tiếp trong quá trình nghiên cứu, phân tích dữ liệu tiếng nói và chữ viết, từ đó, giải quyết các bài toán về nhận dạng/tổng hợp tiếng nói, dịch máy, hỏi đáp tự động,…. Đây là cơ sở để phát triển nhiều giải pháp mang tính ứng dụng cao như chatbot, voicebot, trợ lý ảo đa năng,…, phục vụ mục tiêu gia tăng trải nghiệm người dùng và tối ưu hóa hiệu quả sản xuất, kinh doanh.

(Nguồn tham khảo: Towards Data Science)