Xử lý ngôn ngữ tự nhiên (NLP) có nhiều ứng dụng thiết thực, đóng góp đáng kể cho sự phát triển của các thiết bị thông minh, điển hình là tính năng trợ lý ảo đang rất được quan tâm thời gian gần đây. Liên quan trực tiếp đến đối thoại tự nhiên của con người, các mô hình của NLP có những đòi hỏi khắt khe về hàm lượng dữ liệu đầu vào và thời gian đào tạo chuyên sâu để hoàn thiện khả năng phân tích chính xác và giao tiếp phù hợp ngữ cảnh. Có vô số cơ sở dữ liệu mã nguồn mở hỗ trợ cho chu trình Xử lý ngôn ngữ tự nhiên, với nội dung tập trung vào các từ, các câu, đoạn văn bản, bài phát biểu, tiếng lóng và những điều liên quan tới đối thoại tự nhiên của con người. y nhiên, sự nở rộ của các cơ sở dữ liệu mở lại đang khiến nhiều nhà nghiên cứu hoang mang trong việc “chọn mặt gửi vàng”, thậm chí là có thể đi sai hướng nếu họ sử dụng các nguồn không đầy đủ hoặc bộ dữ liệu lỗi thời
Dưới đây là gợi ý những cơ sở dữ liệu mã nguồn mở được ưa chuộng và đánh giá cao trên thế giới, nhằm cung cấp thông tin hữu ích cho các nhà nghiên cứu và phát triển trong lĩnh vực NLP.
1. Quora Question Insincerity Dataset
Đây là một bộ dữ liệu sử dụng trong bài toán phân loại câu hỏi của người dùng có trung thực hay không. Bộ dữ liệu này được cung cấp bởi Quora và sử dụng trong một cuộc thi trên Kaggle. Bộ dữ liệu này mang lại nhiều hữu ích với những người đang tiếp cận các bài toán phân loại văn bản chỉ với hai lớp (binary classification).
Dưới đây là một số bài viết khoa học hữu ích có thể giúp các bạn giải quyết bài toán phân loại sử dụng bộ dữ liệu Quora Question Insincerity Dataset:
- Bài viết “Phương pháp tiền xử lý văn bản cho Học sâu” cung cấp các thông tin liên quan đến các kỹ thuật tiền xử lý trong các mô hình Học sâu, đặc biệt về các kỹ thuật embeddings.
- Các chủ đề liên quan đến các phương pháp phổ biến để phân loại văn bản, với các mô hình cơ bản và hữu dụng như TFIDF, Countvectorizer, Hashing, v.v., ứng dụng để phân loại văn bản và xây dựng một mô hình cơ sở (baseline) để so sánh hiệu quả của các mô hình.
- Các bài báo chuyên sâu về các mô hình Học sâu từ Attention, CNN, tập trung vào các kiến trúc khác nhau để giải quyết vấn đề phân loại văn bản.
- Các nội dung transfer learning bằng cách sử dụng BERT và ULMFit.
2. Stanford Question Answering Dataset (SQuAD)
SQuAD là một bộ dữ liệu phổ biến được sử dụng trong các bài toán hỏi – đáp tự động dựa trên đọc hiểu (machine reading comprehension – MRC). MRC là một cách tiếp cận mô phỏng quá trình chúng ta đọc một văn bản rồi trả lời các câu hỏi liên quan trong văn bản đó. Để giải quyết bài toán hỏi – đáp tự động dựa trên cách tiếp cận này, Stanford xây dựng bộ dữ liệu gồm tập hợp các cặp câu hỏi – trả lời cùng với đoạn văn bản có thể chứa câu trả lời (các bài viết trên Wikipedia).
Nói một cách đơn giản, trong tập dữ liệu này, người dùng được đưa ra một câu hỏi và một đoạn văn bản chứa câu trả lời. Nhiệm vụ sau đó là tìm ra vị trí câu trả lời đang ở đâu. Nhiệm vụ này thường được gọi là Nhiệm vụ Câu hỏi & Trả lời.
Để tìm hiểu sâu hơn về vấn đề này có thể tham khảo bài viết “Understanding BERT with Hugging Face”, gợi ý phương thức dự đoán câu trả lời cho các câu hỏi với tập dữ liệu có sẵn và sử dụng mô hình BERT đồng thời với thư viện Hugging Face.
Đây là cơ sở dữ liệu chuyên về đánh giá các loại thuốc. Tại đây cung cấp đánh giá của bệnh nhân về từng mẫu thuốc cụ thể cùng với các tình trạng bệnh tương ứng. Hệ thống xếp hạng trên thang điểm 10 để minh chứng sự hài lòng của bệnh nhân.
Tập dữ liệu này có thể được sử dụng để phân loại nhiều nhãn, thành một trong ba hoặc nhiều lớp (Multiclass classification).
Tập dữ liệu Yelp cung cấp các đánh giá về nhà hàng kèm theo các thông tin khác như danh mục, thời gian mở cửa và thời gian đóng cửa ở định dạng JSON. Ngoài ra, cơ sở dữ liệu này cũng tạo ra hệ thống để phân loại món ăn. Chúng ta có thể sử dụng các kỹ thuật nhận dạng tên thực thể (NER) để tìm ra các món ăn trong từng bài đánh giá. Bộ dữ liệu này được đánh giá khá cao với hoạt động kinh doanh và tìm kiếm của Yelp.
Bộ dữ liệu dành riêng cho lĩnh vực phim ảnh, bao gồm các thông tin mô tả phim, xếp hạng trung bình, số phiếu bầu, thể loại và dàn diễn viên từ hệ thống 50k phim của IMDB.
Không chỉ hỗ trợ chu trình Xử lý ngôn ngữ tự nhiên (NLP), bộ dữ liệu này còn có thể được sử dụng theo nhiều phương thức và mục đích để đào tạo nhiều mô hình thuật toán khác nhau. Các nhà nghiên cứu có thể sử dụng tập dữ liệu để xây dựng thuật toán hệ thống gợi ý, phân loại thể loại và tìm kiếm các bộ phim tương tự.
Bộ dữ liệu thông tin thường thức được chia thành 20 nhóm, bao gồm khoảng 18.000 bài đăng về đa dạng chủ đề như giải trí, tiện ích, thể thao, hệ tư tưởng, chính trị, v.v. Đây là tập dữ liệu phân loại đa lớp và các nhà phát triển có thể sử dụng tập dữ liệu này để học lập mô hình chủ đề (Topic Modeling).
7. IWSLT (International Workshop on Spoken Language Translation) Dataset
Đây là bộ dữ liệu liên quan tới lĩnh vực dịch máy với nhiều tiêu chuẩn thực tế sử dụng cho các nhiệm vụ dịch thuật. Nó cung cấp bản dịch các bài nói chuyện của TED và TEDx về nhiều chủ đề khác nhau bằng các ngôn ngữ Đức, Anh, Ý, Hà Lan và Rumani. Nguồn dữ liệu tại IWSLT có thể được sử dụng để phục vụ huấn luyện mô hình dịch máy với các các ngôn ngữ trên. Ngoài ra, IWSLT có thể được truy cập bằng PyTorch khi sử dụng torchtext.datasets.
Trên đây là các bộ dữ liệu mã nguồn mở mà bất kỳ nhà nghiên cứu nào trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) nên tham khảo.
Nếu bạn mong muốn trải nghiệm chuyên sâu và tham gia vào các dự án đột phá về Xử lý ngôn ngữ tự nhiên (NLP), đừng ngại ứng tuyển để trở thành Chuyên gia quản lý dự án (Senior Technical Project Manager) tại Trung tâm Công nghệ Trợ lý ảo VinBigData. Gia nhập ngay để cùng đội ngũ chuyên gia, kỹ sư giàu kinh nghiệm giải quyết những bài toán thú vị về Trợ lý giọng nói, chatbot, voicebot hàng đầu Việt Nam. Tìm hiểu về vị trí Chuyên gia quản lý dự án (Senior Technical Project Manager): Tại đây |
Nguồn tham khảo: Kdnuggets