Phân loại là một trong ba cách phổ biến nhất để xử lý dữ liệu hình ảnh. Nếu tác vụ phát hiện đối tượng (Object detection) nhằm mục tiêu xác định vị trí vật thể bằng cách xây dựng hộp tọa độ (bounding box); phân đoạn ảnh (Image segmentation) cung cấp thông tin chi tiết hơn về kích thước và hình dạng vật thể thì phân loại ảnh (Image classification) giúp tìm ra câu trả lời: Vậy hình ảnh thuộc loại nào?

Sự khác biệt giữa phát hiện đối tượng, phân đoạn ảnh và phân loại ảnh
Sự khác biệt giữa phát hiện đối tượng, phân đoạn ảnh và phân loại ảnh (Nguồn ảnh: Levity)

Phân loại hình ảnh là gì?

Phân loại hình ảnh (Image classification) hay Nhận dạng hình ảnh (Image recognition) là một trong những tác vụ của thị giác máy tính, ở đó thuật toán xem xét và dán nhãn cho hình ảnh từ một tập danh mục được xác định và đào tạo trước. 

Ví dụ, với một tập các hình ảnh, mỗi hình ảnh mô tả một con mèo hoặc một con chó, thuật toán sẽ “quan sát” toàn bộ dữ liệu và dựa trên hình dạng, màu sắc để hình thành giả thuyết liên quan đến nội dung của ảnh. Kết quả thu được là từ tập dữ liệu ban đầu, các hình ảnh chó/mèo đã được phân loại một cách tự động. 

Thực tế, thị giác góp phần tạo nên 80-85% nhận thức của con người về thế giới. Hàng ngày, mỗi người phải thực hiện phân loại trên bất kỳ dữ liệu hình ảnh nào mà chúng ta bắt gặp.

Do đó, mô phỏng nhiệm vụ phân loại với sự trợ giúp của mạng nơ-ron là một trong những ứng dụng đầu tiên của thị giác máy tính mà các nhà nghiên cứu nghĩ đến.

Các kỹ thuật phân loại ảnh

Có nhiều thuật toán khác nhau được ứng dụng trong việc phân loại hình ảnh. Các thuật toán này được chia thành hai nhóm chính là Học có giám sát (supervised learning) và Học không giám sát (unsupervised learning).

Phân loại có giám sát

Trong học máy có giám sát, thuật toán được huấn luyện trên một tập hình ảnh đã được dán nhãn. Từ dữ liệu mẫu này, thuật toán có thể trích xuất thông tin, phục vụ phân loại ngay cả những hình ảnh chưa từng nhìn thấy trước đó. 

Xuyên suốt quá trình đào tạo, đặc điểm của ma trận hình ảnh sẽ được trích xuất dưới dạng dữ liệu quan trọng để đưa vào xử lý. Các đặc điểm này đại diện cho hình ảnh trong không gian chiều thấp (lower-dimensional feature space) và là cơ sở để thuật toán tiến hành phân loại.

Trong quá trình đánh giá, các đặc điểm của ảnh thử nghiệm được thu thập và tái phân loại với sự hỗ trợ của mạng thần kinh nhân tạo. Hệ thống lúc này đã có thể nhận biết các đặc điểm điển hình của mọi lớp hình ảnh mà nó được đào tạo.

Các phương pháp phân loại phổ biến dựa trên học có giám sát bao gồm:

Các mạng nơ-ron thường được sử dụng để phân loại hình ảnh có giám sát bao gồm AlexNet, ResNet, DenseNet và Inception.

Đối với phân loại có giám sát, việc dán nhãn dữ liệu đóng vai trò quan trọng. Độ chính xác của dữ liệu được dán nhãn quyết định phần lớn hiệu suất của mô hình học máy. Các thuật toán phân loại có giám sát có thể được chia thành hai mục nhỏ hơn dựa trên nhãn dữ liệu.

Phân loại nhãn đơn

Phân loại nhãn đơn (Single-label classification) là tác vụ phổ biến nhất trong phân loại ảnh có giám sát. Theo đó, mỗi hình ảnh được đại diện bởi một nhãn/chú thích (a single label or annotation). Mô hình xuất ra một giá trị hoặc dự đoán duy nhất cho mỗi hình ảnh mà nó xử lý.

Đầu ra từ mô hình là mã hóa One-hot (từng giá trị được biến đổi thành các đặc trưng nhị phân chỉ chứa giá trị 1 hoặc 0). Mã hóa One-hot có độ dài bằng số lớp và giá trị biểu thị xác suất hình ảnh thuộc về lớp này.

Hàm Softmax được sử dụng để đảm bảo các xác suất tổng bằng một và xác suất tối đa được chọn làm đầu ra của mô hình. Mặc dù Softmax không có giá trị về mặt dự đoán, nhưng nó giúp ràng buộc đầu ra giữa 1 và 0, nhờ vậy, có thể đánh giá độ tin cậy của mô hình từ điểm Softmax.

Một số ví dụ về bộ dữ liệu phân loại nhãn đơn bao gồm MNIST, SVHN, ImageNet, v.v.

Phân loại nhãn đơn có thể được xếp vào phân loại đa lớp (Multiclass classification) hoặc phân loại nhị phân (binary classification).

Phân loại đa nhãn 

Phân loại đa nhãn là một tác vụ phân loại trong đó mỗi hình ảnh có thể chứa nhiều hơn một nhãn hoặc một số hình ảnh chứa đồng thời tất cả các nhãn.

Phân loại đa nhãn xuất hiện phổ biến trong lĩnh vực xử lý hình ảnh y tế, khi một bệnh nhân có thể được chẩn đoán mắc nhiều bệnh dựa trên dữ liệu chụp X-quang. 

Phân loại không giám sát

Trong học máy không giám sát, thuật toán chỉ sử dụng dữ liệu thô để đào tạo.Các nhãn phân loại thường không xuất hiện trong kiểu học này và mô hình học bằng cách nhận dạng các mẫu trong tập dữ liệu huấn luyện. 

Giống như phân loại có giám sát, các phương pháp dựa trên không giám sát cũng liên quan đến bước trích xuất đặc điểm với các thông tin chi tiết nhất về hình ảnh. Các đặc điểm này sau đó được xử lý bằng các phương pháp phân cụm tham số (Gaussian Mixture Models) và phi tham số (K-means) hoặc các thuật toán học không giám sát khác.

Các thuật toán và kỹ thuật phân loại của thị giác máy tính không chỉ giới hạn trong dữ liệu hình ảnh 2D đơn giản mà còn mở rộng ra dưới dạng Video và ảnh 3D.

Phân loại video

Khác với Phân loại hình ảnh, vốn chỉ sử dụng các thuật toán Xử lý ảnh và Mạng thần kinh tích chập (CNN), các tác vụ Phân loại video sử dụng cả dữ liệu hình ảnh và dữ liệu tạm thời (liên quan đến thời gian).

Để có thể áp dụng trực tiếp thuật toán phân loại hình ảnh tiêu chuẩn, mô hình phân loại video sẽ khai thác mối quan hệ giữa các khung hình khác nhau. Theo đó, các mạng thần kinh phù hợp với dữ liệu chuỗi thời gian như LSTM (Bộ nhớ ngắn hạn dài) và RNN (Mạng thần kinh hồi quy) sẽ kết hợp với CNN để phân tích mối quan hệ thời gian giữa các khung. 

Phân loại 3D

Khác biệt cơ bản của phân loại 3D khi so với phân loại 2D nằm ở cấu trúc của CNN và bản chất chuyển động của hạt nhân trượt (sliding kernel).

Nhân trong phân loại dữ liệu 3D cũng là 3D và di chuyển dọc theo cả ba trục, khác với chuyển động thẳng hai trục trong CNNs 2D. CNN có khả năng nắm bắt dữ liệu không gian rất tốt, và do đó dễ dàng xử lý khi dữ liệu được đặt cách nhau trên ba trục.

Bộ dữ liệu phân loại 3D dễ dàng được tìm thấy trong lĩnh vực y tế (vi dụ:  ảnh cộng hưởng từ não) và dữ liệu cấu trúc của các đại phân tử thu được từ Kính hiển vi điện tử lạnh.

Phân loại hình ảnh hoạt động như thế nào?

Máy tính xử lý một hình ảnh dưới dạng pixel. Theo đó, hình ảnh chỉ là một mảng ma trận, và kích thước của ma trận phụ thuộc vào độ phân giải hình ảnh.

Do đó, xử lý hình ảnh là tiến hành phân tích dữ liệu toán học với sự trợ giúp của các thuật toán. Các thuật toán này chia nhỏ hình ảnh thành một tập hợp các đặc điểm nổi bật, giúp giảm khối lượng công việc của bộ phân loại cuối cùng. 

Quá trình trích xuất đặc điểm là bước quan trọng nhất trong việc phân loại hình ảnh. Phân loại, đặc biệt là phân loại có giám sát, phụ thuộc phần lớn vào dữ liệu được cung cấp cho thuật toán. Một bộ dữ liệu phân loại tốt phải đảm bảo các yêu cầu về sự cân bằng của dữ liệu, chất lượng của ảnh và chú giải kèm theo. 

Ứng dụng trí tuệ nhân tạo, dựa trên nền tảng công nghệ Xử lý ảnh, Thị giác máy tính, Máy học, Học sâu, VinBigData phát triển các mô hình, thuật toán có khả năng thực hiện các nhiệm vụ nhận thức trực quan quan trọng như phân loại, phát hiện, nhận dạng, theo dấu đối tượng, nhận dạng hành động. Trên cơ sở đó, hệ sinh thái VinBase ra đời, cung cấp các sản phẩm Camera thông minh (VinCamAI) và nhận dạng ký tự quang học (VinOCR) giúp nhận diện khuôn mặt, phân tích thông tin khách hàng, nhận diện văn bản, trích xuất thông tin từ văn bản, phân loại phương tiện….

Công nghệ nhận dạng khuôn mặt là một trong những lĩnh vực quan trọng đang được đẩy mạnh nghiên cứu và phát triển, với các ứng dụng thiết thực giúp nâng cao trải nghiệm người dùng và tối ưu hoạt động sản xuất kinh doanh. Ngày nay, chúng được tích hợp vào nhiều thiết bị thông minh hỗ trợ cá nhân hóa thông tin, tăng tính bảo mật và thực hiện đa dạng thao tác. Tuy nhiên, trong bối cảnh tội phạm kỹ thuật số ngày càng gia tăng và tinh vi, chúng thường xuyên tìm cách giả mạo khuôn mặt để thâm nhập vào nhiều hệ thống, đánh cắp thông tin hay sử dụng thông tin giả để làm nhiễu loạn cơ sở dữ liệu. Vì vậy kỹ thuật chống giả mạo khuôn mặt có vai trò vô cùng quan trọng.

chống giả mạo khuôn mặt
Các hệ thống chống giả mạo khuôn mặt nhằm bảo vệ dữ liệu nhạy cảm, ngăn chặn hành vi trộm cắp và gian lận.

Các phương thức giả mạo khuôn mặt thường thấy  

Phần lớn các phương thức giả mạo để tấn công hệ thống sử dụng 2D và 3D (tĩnh hoặc động) để đánh lừa phần mềm nhận dạng khuôn mặt.

Phương thức giả mạo sử dụng 2D tĩnh dựa trên ảnh chụp, giấy phẳng hoặc mặt nạ, trong khi các phiên bản động sử dụng phát lại video màn hình hoặc hiệu ứng của một chuỗi các ảnh liên tiếp.

Phương thức giả mạo sử dụng 3D tĩnh có thể thực hiện bằng các bản in 3D, tác phẩm điêu khắc hoặc mặt nạ dạng 3D, trong khi các phiên bản động sử dụng robot tinh vi để tái tạo lại các biểu cảm một cách hoàn chỉnh và thậm chí bổ sung cả lớp trang điểm.

Những kỹ thuật chống giả mạo khuôn mặt được sử dụng phổ biến 

Ngày nay các cuộc tấn công thường sử dụng giả mạo 2D hơn 3D, bởi vì một số hạn chế về công nghệ và chi phí. Vì vậy, các hệ thống nhận diện khuôn mặt thường dựa vào độ sống động để phát hiện và nhận dạng một cá nhân. Các bước kiểm tra có thể xác minh xem một cá nhân có thực sự hiện diện hay sử dụng ảnh để giả mạo hệ thống.

Kỹ thuật phát hiện nháy, chớp mắt

Phát hiện nháy, chớp mắt là một trong những bước kiểm tra độ sống động một cách chính xác. Con người trung bình chớp mắt 15–30 lần mỗi phút. Mỗi lần nháy mắt, mắt thường nhắm trong khoảng 250 mili giây. Khi quay video bằng máy quay, máy ảnh thì khoảng cách giữa các khung hình nhỏ hơn nhiều (50 mili giây ở tốc độ 30 khung hình/giây).

Các kỹ sư thường áp dụng một số cách để phát hiện nháy, chớp mắt như: sử dụng video để tìm khung hình nhắm mắt và đếm số lượng để có được con số mong đợi, hoặc sử dụng phân tích các mốc trên khuôn mặt và tính toán diện tích bề mặt của mắt. Với nhiệm vụ này có thể áp dụng các thuật toán học sâu để hỗ trợ, bao gồm các Mạng nơ-ron tích chập (Convolutional Neural Network – CNN) và huấn luyện CNN để nhận ra đâu là ảnh thật và đâu là ảnh giả mạo. 

Kỹ thuật phản ứng thách thức

Kỹ thuật này sử dụng một hành động đặc biệt của con người được gọi là một mẫu thách thức. Hệ thống hoạt động để xác minh rằng mẫu thách thức này sẽ xảy ra trong một chuỗi video và dựa trên một loạt các mẫu để xác thực danh tính của một cá nhân.

Những mẫu thách thức này có thể bao gồm:

Mặc dù phương pháp này có những hiệu quả đáng kể nhưng lại yêu cầu đầu vào có quy chuẩn nhất định, và bị giới hạn bởi các mẫu. Vì vậy nó vẫn chưa được coi là phương pháp tối ưu. 

Phương pháp sử dụng Camera 3D

Sử dụng Camera 3D là phương thức chống giả mạo đáng tin cậy nhất. Dễ dàng phân biệt giữa các khuôn mặt có chuyển động và những bức hình phẳng nhờ vào độ pixel chính xác. Tuy nhiên, phương pháp này vẫn gặp phải hạn chế khi tội phạm sử dụng phương thức giả mạo 3D.

Phương pháp sử dụng ánh đèn Flash

Đây là một kỹ thuật thú vị, được các chuyên gia kỳ vọng sẽ có nhiều hứa hẹn trong tương lai. Giải pháp này cho phép phát hiện giả mạo bằng cách sử dụng những phản xạ ánh sáng trên khuôn mặt. Ý tưởng này bắt nguồn từ việc nghiên cứu các môi trường xung quanh có ánh sáng liên tục thay đổi, sau đó sử dụng ánh sáng bổ sung đến từ màn hình của thiết bị. Ánh sáng trắng tạo ra phản xạ thích hợp trên mỗi khuôn mặt.

Kỹ thuật này được gọi là Kỹ thuật chống giả mạo Active Flash. Kỹ thuật này huấn luyện các chương trình bởi các khung hình trước và sau khi có ánh đèn Flash chiếu vào. Đèn flash hoạt động giúp người quản trị phân tách các đặc điểm khuôn mặt và phân loại chúng.

Các tiêu chuẩn đánh giá kỹ thuật chống giả mạo khuôn mặt thành công hay thất bại 

Mỗi kỹ thuật chống giả mạo đều khả thi nếu đặt trong hoàn cảnh phù hợp, tùy nhiên chúng đều có ưu và khuyết điểm riêng. Đôi khi người ta cũng sử dụng kết hợp hai hay nhiều kỹ thuật để mang đến hiệu quả cao hơn.

Dưới đây là một số chỉ số là cần thiết thường dùng để đo độ chính xác của hệ thống chống giả mạo khuôn mặt.

Tỷ lệ chấp nhận sai (False Acceptance Rate – FAR) và Tỷ lệ từ chối sai (False Rejection Rate – FRR) là các chỉ số phổ biến được sử dụng trong xác minh sinh trắc học cũng có thể áp dụng cho việc chống giả mạo. 

Tỷ lệ chấp nhận sai đo và đánh giá hiệu quả và độ chính xác của một hệ thống sinh trắc học bằng cách xác định tốc độ mà người sử dụng trái phép hoặc bất hợp pháp được xác minh trên một hệ thống cụ thể.

Tỷ lệ từ chối sai là một cách để đo độ chính xác của hệ thống sinh trắc, tỉ lệ người dùng trái phép bị từ chối truy cập vào hệ thống như những người dùng không hợp lệ

Với mục đích tối ưu trải nghiệm người dùng – thì tập trung vào tỷ lệ FRR được đánh giá là quan trọng hơn.  

Kỹ thuật chống là mạo là một trong những kỹ thuật quan trọng của công nghệ nhận diện khuôn mặt, nhằm đảm bảo tính bảo mật thông tin và kiểm soát an toàn cho hệ thống. Vì vậy, kỹ thuật này đang được tập trung nghiên cứu và phát triển để tích hợp trong các hệ thống camera thông minh. Hy vọng rằng các kỹ thuật này có thể góp phần nâng cao trải nghiệm khách hàng, cũng như tối ưu các hoạt động vận hành của doanh nghiệp trong tương lai.

Kỹ thuật chống giả mạo khuôn mặt đã được VinBigData tích hợp trong giải pháp Camera thông minh (VinCamAI). VinCamAI đáp ứng mọi nhu cầu của doanh nghiệp như kiểm soát ra vào, đảm bảo an ninh, chấm công không chạm… ứng dụng cho đa dạng quy mô, với độ chính xác tới 99%, và tối ưu chi phí vận hành, tiết kiệm 50% chi phí đầu tư so với hệ thống cảm biến nhiệt. Tìm hiểu thêm về VinCamAI: Tại đây 

Tư liệu tham khảo: Towards Data Science

Thị giác máy tính (Computer Vision) là một lĩnh vực khoa học máy tính nổi tiếng những năm trở lại đây, và đang đóng vai trò quan trọng trong nhiều mặt của đời sống. Thị giác máy tính đang dần thay đổi một số thói quen làm việc và sinh hoạt của chúng ta với những ứng dụng vô cùng thiết thực như: Phát hiện các khiếm khuyết, khuyết tật và kiểm soát chất lượng; Trình đọc tự động; Phát triển bộ điều khiển cho xe tự hành; Nhận diện và phát hiện khuôn mặt , vật thể; Ứng dụng trong xử lý và dán nhãn dữ liệu;… Bài viết này cung cấp một số cơ sở dữ liệu mã nguồn mở với các công cụ giúp phát triển các giải pháp và sản phẩm thị giác máy tính nhanh chóng, dễ dàng hơn.

Về mặt học thuật, Thị giác máy tính bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh, dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng, ví dụ trong các dạng quyết định. Thị giác máy tính sử dụng các mô hình kết hợp với lý thuyết nền tảng của các ngành thống kê, vật lý, hình học để giải quyết vấn đề liên quan đến xử lý dữ liệu hình ảnh. Gần đây, việc sử dụng các mạng nơ-ron sâu đã tạo ra một cuộc cách mạng trong lĩnh vực này và mang lại cho nó nguồn tài nguyên mới để thúc đẩy tăng trưởng nhanh chóng.

cơ sở dữ liệu thị giác máy tính
Thị giác máy tính sử dụng các mô hình kết hợp với lý thuyết nền tảng của các ngành thống kê, vật lý, hình học để giải quyết vấn đề liên quan đến xử lý dữ liệu hình ảnh.

Các nhiệm vụ phổ biến của thị giác máy tính

▪️ Phân loại hình ảnh

▪️ Phát hiện đối tượng

▪️ Phân đoạn đối tượng

▪️ Chú thích nhiều đối tượng

▪️ Chú thích hình ảnh

▪️ Ước tính tư thế, hình dáng của đối tượng

▪️ Phân tích khung hình video

Danh sách các cơ sở dữ liệu mã nguồn mở dành cho lĩnh vực thị giác máy tính được quan tâm trong năm 2021 

ImageNet: Cơ sở dữ liệu nổi tiếng nhất

Nổi tiếng nhất trong cộng đồng nghiên cứu toàn cầu và được coi như “tiêu chuẩn vàng”, ImageNet cung cấp cho các nhà nghiên cứu trên khắp thế giới một cơ sở dữ liệu hình ảnh dễ dàng truy cập và tổ chức theo hệ thống phân cấp mạng từ. 

Mạng từ vựng được hiểu là hệ thống các từ được phân chia theo nghĩa hiểu của chúng, trong đó có nhiều tập hợp từ có chung nghĩa, được gọi là từ đồng nghĩa. Tương tự như Mạng từ vựng (Wordnet) chứa hơn 100.000 nhóm từ đồng nghĩa (synsets) thì ImageNet đặt mục tiêu cung cấp trung bình 1000 hình ảnh để minh họa cho mỗi tập hợp dữ liệu hệ thống.

Truy cập tại: https://image-net.org/ 

CIFAR-10: Cơ sở dữ liệu dành cho người mới bắt đầu 

Là bộ sưu tập các hình ảnh thường xuyên được sử dụng để đào tạo người mới bắt đầu trong các lĩnh vực thị giác máy tính và học máy, CIFAR-10 thường giúp các nhà nghiên cứu so sánh nhanh các thuật toán. Bởi họ dễ dàng nắm bắt được điểm yếu và điểm mạnh của một kiến trúc cụ thể mà không cần quá tập trung vào các tính toán bất hợp lý và điều chỉnh siêu tham số.

CIFAR-10 chứa 60.000 hình ảnh màu kích thước 32 × 32 trong 10 nhãn khác nhau. Các nhãn đại diện theo ký hiệu máy bay, ô tô, chim, mèo, hươu, nai, chó, ếch, ngựa, tàu và xe tải.

Truy cập tại: https://www.cs.toronto.edu/~kriz/cifar.html 

MegaFace and LFW: Tập trung vào mảng nhận diện khuôn mặt 

Không giới hạn dữ liệu về khuôn mặt, Labeled Faces in the Wild (LFW) chứa 13.233 hình ảnh của 5.749 người, được thu thập và phát hiện từ nhiều website. Trong đó có 1.680 người có hai hoặc nhiều bức ảnh khác nhau trong tập dữ liệu. Do đó, LFW giúp các nhà nghiên cứu đáp ứng tiêu chuẩn xác minh khuôn mặt, đó là đối sánh cặp (yêu cầu ít nhất hai hình ảnh của cùng một người).

Truy cập tại: http://vis-www.cs.umass.edu/lfw/ 

MegaFace là một tập dữ liệu mã nguồn mở có quy mô lớn về nhận dạng khuôn mặt, đóng vai trò là một trong những tiêu chuẩn quan trọng nhất cho các vấn đề nhận dạng khuôn mặt thương mại. Chứa 4.753.320 khuôn mặt của 672.057 danh tính khác nhau, MegaFace rất thích hợp cho việc nghiên cứu các kiến trúc dữ liệu lớn. Tất cả hình ảnh được lấy từ Flickr (tập dữ liệu của Yahoo) và được cấp phép theo Creative Commons.

Truy cập tại: http://megaface.cs.washington.edu/dataset/download.html 

IMDB-Wiki: Nhận dạng khuôn mặt với giới tính và độ tuổi 

IMDB-Wiki là một trong những bộ dữ liệu mở nguồn mở lớn nhất tập trung vào hình ảnh khuôn mặt có bộ nhãn giới tính và độ tuổi để nghiên cứu. Tổng cộng IMDB-Wiki chứa 523.051 hình ảnh khuôn mặt, trong đó 460.723 hình ảnh khuôn mặt được lấy từ 20.284 người nổi tiếng từ IMDB và 62.328 từ Wikipedia.

Truy cập tại: https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/ 

MS Coco: Tập trung vào phát hiện và phân đoạn đối tượng

COCO hay Common Objects in COntext là tập dữ liệu quy mô lớn sử dụng để phát hiện, phân đoạn và tạo phụ đề dành cho các đối tượng. Tập dữ liệu chứa ảnh của 91 loại đối tượng có thể dễ dàng nhận ra và có tổng cộng 2,5 triệu đối tượng được gắn nhãn trong 328 000 bức ảnh. Ngoài ra, MS Coco còn cung cấp tài nguyên cho các tác vụ thị giác máy tính phức tạp hơn như ghi nhãn đa đối tượng, chú thích mặt nạ phân đoạn, chú thích hình ảnh và phát hiện các điểm đặc trưng. MS Coco được hỗ trợ bởi hệ thống API trực quan nhằm phân tích cú pháp và hiển thị các chú thích trong COCO. API hỗ trợ nhiều định dạng chú thích.

Truy cập tại: https://cocodataset.org/#home 

MPII Human Pose: Bộ dữ liệu phù hợp với các đánh giá và ước tính 

Cơ sở dữ liệu này thường được sử dụng để đánh giá và ước tính tư thế con người trong các hoạt động và hình dáng khác nhau. MPII Human Pose chứa khoảng 25 nghìn hình ảnh của hơn 40 nghìn người với các tư thế khác nhau và gắn kèm các chú thích. Ở đây, mỗi hình ảnh được trích xuất từ một video YouTube và được cung cấp các khung hình không có chú thích trước và sau mỗi tư thế. Tổng thể, bộ dữ liệu này bao gồm 410 hoạt động đặc trưng của con người và các hình ảnh được cung cấp theo từng tư thế hoạt động khác nhau.

Truy cập tại: http://human-pose.mpi-inf.mpg.de/ 

Flickr-30k: Thế giới của những phụ đề hình ảnh

Flickr-30k là một kho tài liệu phụ đề hình ảnh bao gồm 158.915 phụ đề được các cá nhân đăng tải để mô tả 31.783 hình ảnh. Flickr-30k là hệ thống nâng cấp và mở rộng của Tập dữ liệu Flickr 8k trước đó. Hình ảnh và chú thích đính kèm thường chủ yếu tập trung vào hình ảnh đời thường, nội dung về việc mọi người tham gia vào các hoạt động và sự kiện hàng ngày.

Truy cập tại: http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html 

Barkley DeepDrive: Phù hợp với việc nghiên cứu và đào tạo để phát triển xe tự hành 

Bộ dữ liệu Berkeley DeepDrive của UC Berkeley bao gồm hơn 100.000 chuỗi video với các loại chú thích khác nhau, bao gồm từng mục giới hạn về đối tượng, khu vực có thể điều khiển, đánh dấu làn đường và phân loại phương tiện. Hơn nữa, tập dữ liệu này mang tính đa dạng và thích ứng cao bởi nó đề cập tới cả các điều kiện địa lý, môi trường và thời tiết khác nhau. Điều này rất hữu ích cho việc đào tạo các mô hình xe tự hành để chúng có thể linh hoạt trước các điều kiện đường xá và giao thông luôn thay đổi không ngừng.

Truy cập tại: https://www.bdd100k.com/ 

Trên đây là  các cơ sở dữ liệu mã nguồn mở mà bất kỳ nhà nghiên cứu nào trong lĩnh vực thị giác máy tính cũng nên quan tâm. Ngoài ra còn có nhiều bộ dữ liệu mở khác phổ biến và hữu ích, các bạn hãy cùng chia sẻ với VinBigData dưới đây nhé! 

Thị giác máy tính là một trong những lĩnh vực công nghệ lõi được VinBigData tập trung phát triển và kiến tạo thành những sản phẩm có tính ứng dụng cao, tăng trải nghiệm người dùng, nâng cao chất lượng cuộc sống và tối ưu hoạt động sản xuất kinh doanh. Một số sản phẩm điển hình có thể kể đến như: Giải pháp Camera thông minh VinCamAI nhận diện khuôn mặt chính xác tới 99% ứng dụng đa dạng nhu cầu của doanh nghiệp, hay Hệ thống trích xuất thông tin từ giấy tờ VinOCR với độ chính xác 96% và tốc độ xử lý chưa đến 0,1s.
Tìm hiểu thêm về các sản phẩm: Tại đây