Thị giác máy tính (Computer Vision) là một lĩnh vực khoa học máy tính nổi tiếng những năm trở lại đây, và đang đóng vai trò quan trọng trong nhiều mặt của đời sống. Thị giác máy tính đang dần thay đổi một số thói quen làm việc và sinh hoạt của chúng ta với những ứng dụng vô cùng thiết thực như: Phát hiện các khiếm khuyết, khuyết tật và kiểm soát chất lượng; Trình đọc tự động; Phát triển bộ điều khiển cho xe tự hành; Nhận diện và phát hiện khuôn mặt , vật thể; Ứng dụng trong xử lý và dán nhãn dữ liệu;… Bài viết này cung cấp một số cơ sở dữ liệu mã nguồn mở với các công cụ giúp phát triển các giải pháp và sản phẩm thị giác máy tính nhanh chóng, dễ dàng hơn.
Về mặt học thuật, Thị giác máy tính bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh, dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng, ví dụ trong các dạng quyết định. Thị giác máy tính sử dụng các mô hình kết hợp với lý thuyết nền tảng của các ngành thống kê, vật lý, hình học để giải quyết vấn đề liên quan đến xử lý dữ liệu hình ảnh. Gần đây, việc sử dụng các mạng nơ-ron sâu đã tạo ra một cuộc cách mạng trong lĩnh vực này và mang lại cho nó nguồn tài nguyên mới để thúc đẩy tăng trưởng nhanh chóng.
Các nhiệm vụ phổ biến của thị giác máy tính
▪️ Phân loại hình ảnh
▪️ Phát hiện đối tượng
▪️ Phân đoạn đối tượng
▪️ Chú thích nhiều đối tượng
▪️ Chú thích hình ảnh
▪️ Ước tính tư thế, hình dáng của đối tượng
▪️ Phân tích khung hình video
Danh sách các cơ sở dữ liệu mã nguồn mở dành cho lĩnh vực thị giác máy tính được quan tâm trong năm 2021
ImageNet: Cơ sở dữ liệu nổi tiếng nhất
Nổi tiếng nhất trong cộng đồng nghiên cứu toàn cầu và được coi như “tiêu chuẩn vàng”, ImageNet cung cấp cho các nhà nghiên cứu trên khắp thế giới một cơ sở dữ liệu hình ảnh dễ dàng truy cập và tổ chức theo hệ thống phân cấp mạng từ.
Mạng từ vựng được hiểu là hệ thống các từ được phân chia theo nghĩa hiểu của chúng, trong đó có nhiều tập hợp từ có chung nghĩa, được gọi là từ đồng nghĩa. Tương tự như Mạng từ vựng (Wordnet) chứa hơn 100.000 nhóm từ đồng nghĩa (synsets) thì ImageNet đặt mục tiêu cung cấp trung bình 1000 hình ảnh để minh họa cho mỗi tập hợp dữ liệu hệ thống.
Truy cập tại: https://image-net.org/
CIFAR-10: Cơ sở dữ liệu dành cho người mới bắt đầu
Là bộ sưu tập các hình ảnh thường xuyên được sử dụng để đào tạo người mới bắt đầu trong các lĩnh vực thị giác máy tính và học máy, CIFAR-10 thường giúp các nhà nghiên cứu so sánh nhanh các thuật toán. Bởi họ dễ dàng nắm bắt được điểm yếu và điểm mạnh của một kiến trúc cụ thể mà không cần quá tập trung vào các tính toán bất hợp lý và điều chỉnh siêu tham số.
CIFAR-10 chứa 60.000 hình ảnh màu kích thước 32 × 32 trong 10 nhãn khác nhau. Các nhãn đại diện theo ký hiệu máy bay, ô tô, chim, mèo, hươu, nai, chó, ếch, ngựa, tàu và xe tải.
Truy cập tại: https://www.cs.toronto.edu/~kriz/cifar.html
MegaFace and LFW: Tập trung vào mảng nhận diện khuôn mặt
Không giới hạn dữ liệu về khuôn mặt, Labeled Faces in the Wild (LFW) chứa 13.233 hình ảnh của 5.749 người, được thu thập và phát hiện từ nhiều website. Trong đó có 1.680 người có hai hoặc nhiều bức ảnh khác nhau trong tập dữ liệu. Do đó, LFW giúp các nhà nghiên cứu đáp ứng tiêu chuẩn xác minh khuôn mặt, đó là đối sánh cặp (yêu cầu ít nhất hai hình ảnh của cùng một người).
Truy cập tại: http://vis-www.cs.umass.edu/lfw/
MegaFace là một tập dữ liệu mã nguồn mở có quy mô lớn về nhận dạng khuôn mặt, đóng vai trò là một trong những tiêu chuẩn quan trọng nhất cho các vấn đề nhận dạng khuôn mặt thương mại. Chứa 4.753.320 khuôn mặt của 672.057 danh tính khác nhau, MegaFace rất thích hợp cho việc nghiên cứu các kiến trúc dữ liệu lớn. Tất cả hình ảnh được lấy từ Flickr (tập dữ liệu của Yahoo) và được cấp phép theo Creative Commons.
Truy cập tại: http://megaface.cs.washington.edu/dataset/download.html
IMDB-Wiki: Nhận dạng khuôn mặt với giới tính và độ tuổi
IMDB-Wiki là một trong những bộ dữ liệu mở nguồn mở lớn nhất tập trung vào hình ảnh khuôn mặt có bộ nhãn giới tính và độ tuổi để nghiên cứu. Tổng cộng IMDB-Wiki chứa 523.051 hình ảnh khuôn mặt, trong đó 460.723 hình ảnh khuôn mặt được lấy từ 20.284 người nổi tiếng từ IMDB và 62.328 từ Wikipedia.
Truy cập tại: https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
MS Coco: Tập trung vào phát hiện và phân đoạn đối tượng
COCO hay Common Objects in COntext là tập dữ liệu quy mô lớn sử dụng để phát hiện, phân đoạn và tạo phụ đề dành cho các đối tượng. Tập dữ liệu chứa ảnh của 91 loại đối tượng có thể dễ dàng nhận ra và có tổng cộng 2,5 triệu đối tượng được gắn nhãn trong 328 000 bức ảnh. Ngoài ra, MS Coco còn cung cấp tài nguyên cho các tác vụ thị giác máy tính phức tạp hơn như ghi nhãn đa đối tượng, chú thích mặt nạ phân đoạn, chú thích hình ảnh và phát hiện các điểm đặc trưng. MS Coco được hỗ trợ bởi hệ thống API trực quan nhằm phân tích cú pháp và hiển thị các chú thích trong COCO. API hỗ trợ nhiều định dạng chú thích.
Truy cập tại: https://cocodataset.org/#home
MPII Human Pose: Bộ dữ liệu phù hợp với các đánh giá và ước tính
Cơ sở dữ liệu này thường được sử dụng để đánh giá và ước tính tư thế con người trong các hoạt động và hình dáng khác nhau. MPII Human Pose chứa khoảng 25 nghìn hình ảnh của hơn 40 nghìn người với các tư thế khác nhau và gắn kèm các chú thích. Ở đây, mỗi hình ảnh được trích xuất từ một video YouTube và được cung cấp các khung hình không có chú thích trước và sau mỗi tư thế. Tổng thể, bộ dữ liệu này bao gồm 410 hoạt động đặc trưng của con người và các hình ảnh được cung cấp theo từng tư thế hoạt động khác nhau.
Truy cập tại: http://human-pose.mpi-inf.mpg.de/
Flickr-30k: Thế giới của những phụ đề hình ảnh
Flickr-30k là một kho tài liệu phụ đề hình ảnh bao gồm 158.915 phụ đề được các cá nhân đăng tải để mô tả 31.783 hình ảnh. Flickr-30k là hệ thống nâng cấp và mở rộng của Tập dữ liệu Flickr 8k trước đó. Hình ảnh và chú thích đính kèm thường chủ yếu tập trung vào hình ảnh đời thường, nội dung về việc mọi người tham gia vào các hoạt động và sự kiện hàng ngày.
Truy cập tại: http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html
Barkley DeepDrive: Phù hợp với việc nghiên cứu và đào tạo để phát triển xe tự hành
Bộ dữ liệu Berkeley DeepDrive của UC Berkeley bao gồm hơn 100.000 chuỗi video với các loại chú thích khác nhau, bao gồm từng mục giới hạn về đối tượng, khu vực có thể điều khiển, đánh dấu làn đường và phân loại phương tiện. Hơn nữa, tập dữ liệu này mang tính đa dạng và thích ứng cao bởi nó đề cập tới cả các điều kiện địa lý, môi trường và thời tiết khác nhau. Điều này rất hữu ích cho việc đào tạo các mô hình xe tự hành để chúng có thể linh hoạt trước các điều kiện đường xá và giao thông luôn thay đổi không ngừng.
Truy cập tại: https://www.bdd100k.com/
Trên đây là các cơ sở dữ liệu mã nguồn mở mà bất kỳ nhà nghiên cứu nào trong lĩnh vực thị giác máy tính cũng nên quan tâm. Ngoài ra còn có nhiều bộ dữ liệu mở khác phổ biến và hữu ích, các bạn hãy cùng chia sẻ với VinBigData dưới đây nhé!
Thị giác máy tính là một trong những lĩnh vực công nghệ lõi được VinBigData tập trung phát triển và kiến tạo thành những sản phẩm có tính ứng dụng cao, tăng trải nghiệm người dùng, nâng cao chất lượng cuộc sống và tối ưu hoạt động sản xuất kinh doanh. Một số sản phẩm điển hình có thể kể đến như: Giải pháp Camera thông minh VinCamAI nhận diện khuôn mặt chính xác tới 99% ứng dụng đa dạng nhu cầu của doanh nghiệp, hay Hệ thống trích xuất thông tin từ giấy tờ VinOCR với độ chính xác 96% và tốc độ xử lý chưa đến 0,1s. Tìm hiểu thêm về các sản phẩm: Tại đây |