Nhận dạng ký tự quang học là một trong những lĩnh vực đang nổi của trí tuệ nhân tạo (AI). Công nghệ này có thể dễ dàng ứng dụng trong nhiều giải pháp, sản phẩm giúp doanh nghiệp tự động hóa quá trình nhập liệu và lưu trữ hồ sơ giấy tờ, từ đó, hỗ trợ tối ưu hiệu quả vận hành và gia tăng trải nghiệm khách hàng. Vậy cụ thể, OCR là gì và cùng với OCR còn có những công nghệ nào khác? Bài viết dưới đây sẽ đem tới cái nhìn cụ thể, qua những phân tích, so sánh giữa OCR và những công nghệ tương cận.
OCR, ICR, OMR là gì?
OCR (Optical Character Recognition – Nhận dạng ký tự quang học) là một hệ thống cung cấp đầy đủ khả năng nhận dạng chữ và số trên giấy tờ bản in hoặc viết tay thông qua việc quét biểu mẫu.
Chức năng của OCR: Máy quét sẽ quét biểu mẫu chứa hình ảnh ký tự, sau đó công cụ nhận dạng tiến hành đọc hiểu các hình ảnh và chuyển chúng thành dữ liệu ASCII (các ký tự máy có thể đọc được). Như vậy, OCR giúp tự động hóa việc nhập và lưu trữ dữ liệu, đảm bảo độ chính xác cao và tiết kiệm chi phí nhập liệu thủ công.
Cùng với OCR, gần đây, thuật ngữ Nhận dạng ký tự thông minh (Intelligent Character Recognition – ICR) được sử dụng để mô tả quá trình đọc hiểu dữ liệu hình ảnh, cụ thể là văn bản chữ và số. ICR là một mô-đun của OCR, có khả năng biến hình ảnh viết tay hoặc các ký tự in thành dữ liệu ASCII. Trong một số trường hợp, OCR cũng được gọi là ICR.
OMR (Optical Mark Reader – Nhận dạng dấu quang học) là một phương pháp điện tử thu thập dữ liệu do con người xử lý bằng cách xác định một số dấu hiệu nhất định trên tài liệu. Thông thường, quá trình nhận dạng dấu quang học được thực hiện với sự hỗ trợ của máy quét kiểm tra truyền tải hoặc phản xạ ánh sáng qua giấy; những nơi có đánh dấu sẽ phản xạ ít ánh sáng hơn phần giấy trắng, dẫn đến độ tương phản kém hơn. OMR thường được ứng dụng để xử lý dữ liệu từ phiếu điều tra hay chấm các bài thi trắc nghiệm.
So sánh OCR/ICR với OMR
Khác biệt cơ bản giữa OCR/ICR và OMR: ICR và OCR là công cụ nhận dạng trên hình ảnh; trong khi OMR là công nghệ thu thập dữ liệu không yêu cầu một công cụ nhận dạng nào. Do đó, về cơ bản OMR không thể nhận dạng ký tự viết tay hoặc đánh máy.


Dựa trên công nghệ Nhận dạng ký tự quang học, VinOCR là hệ thống các sản phẩm được phát triển bởi VinBigData nhằm hỗ trợ việc nhận dạng, phát hiện và trích xuất thông tin chữ viết từ ảnh chụp của các loại giấy tờ. Hệ thống có thể xử lý các loại giấy tờ theo mẫu, không theo mẫu, bảng biểu và chữ viết tay. Với công nghệ nhận dạng và trích xuất thông tin chính xác đến 96%, tốc độ xử lý dưới 0,1 giây và hỗ trợ 6 loại giấy tờ, VinOCR có thể ứng dụng trong đa lĩnh vực như định danh khách hàng điện tử, mở tài khoản ngân hàng trực tuyến, mở thẻ tín dụng và cho vay trực tuyến,….
Thị giác máy tính (Computer Vision) là một lĩnh vực khoa học máy tính nổi tiếng những năm trở lại đây, và đang đóng vai trò quan trọng trong nhiều mặt của đời sống. Thị giác máy tính đang dần thay đổi một số thói quen làm việc và sinh hoạt của chúng ta với những ứng dụng vô cùng thiết thực như: Phát hiện các khiếm khuyết, khuyết tật và kiểm soát chất lượng; Trình đọc tự động; Phát triển bộ điều khiển cho xe tự hành; Nhận diện và phát hiện khuôn mặt , vật thể; Ứng dụng trong xử lý và dán nhãn dữ liệu;… Bài viết này cung cấp một số cơ sở dữ liệu mã nguồn mở với các công cụ giúp phát triển các giải pháp và sản phẩm thị giác máy tính nhanh chóng, dễ dàng hơn.
Về mặt học thuật, Thị giác máy tính bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh, dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng, ví dụ trong các dạng quyết định. Thị giác máy tính sử dụng các mô hình kết hợp với lý thuyết nền tảng của các ngành thống kê, vật lý, hình học để giải quyết vấn đề liên quan đến xử lý dữ liệu hình ảnh. Gần đây, việc sử dụng các mạng nơ-ron sâu đã tạo ra một cuộc cách mạng trong lĩnh vực này và mang lại cho nó nguồn tài nguyên mới để thúc đẩy tăng trưởng nhanh chóng.

Các nhiệm vụ phổ biến của thị giác máy tính
▪️ Phân loại hình ảnh
▪️ Phát hiện đối tượng
▪️ Phân đoạn đối tượng
▪️ Chú thích nhiều đối tượng
▪️ Chú thích hình ảnh
▪️ Ước tính tư thế, hình dáng của đối tượng
▪️ Phân tích khung hình video
Danh sách các cơ sở dữ liệu mã nguồn mở dành cho lĩnh vực thị giác máy tính được quan tâm trong năm 2021
ImageNet: Cơ sở dữ liệu nổi tiếng nhất
Nổi tiếng nhất trong cộng đồng nghiên cứu toàn cầu và được coi như “tiêu chuẩn vàng”, ImageNet cung cấp cho các nhà nghiên cứu trên khắp thế giới một cơ sở dữ liệu hình ảnh dễ dàng truy cập và tổ chức theo hệ thống phân cấp mạng từ.
Mạng từ vựng được hiểu là hệ thống các từ được phân chia theo nghĩa hiểu của chúng, trong đó có nhiều tập hợp từ có chung nghĩa, được gọi là từ đồng nghĩa. Tương tự như Mạng từ vựng (Wordnet) chứa hơn 100.000 nhóm từ đồng nghĩa (synsets) thì ImageNet đặt mục tiêu cung cấp trung bình 1000 hình ảnh để minh họa cho mỗi tập hợp dữ liệu hệ thống.
Truy cập tại: https://image-net.org/
CIFAR-10: Cơ sở dữ liệu dành cho người mới bắt đầu
Là bộ sưu tập các hình ảnh thường xuyên được sử dụng để đào tạo người mới bắt đầu trong các lĩnh vực thị giác máy tính và học máy, CIFAR-10 thường giúp các nhà nghiên cứu so sánh nhanh các thuật toán. Bởi họ dễ dàng nắm bắt được điểm yếu và điểm mạnh của một kiến trúc cụ thể mà không cần quá tập trung vào các tính toán bất hợp lý và điều chỉnh siêu tham số.
CIFAR-10 chứa 60.000 hình ảnh màu kích thước 32 × 32 trong 10 nhãn khác nhau. Các nhãn đại diện theo ký hiệu máy bay, ô tô, chim, mèo, hươu, nai, chó, ếch, ngựa, tàu và xe tải.
Truy cập tại: https://www.cs.toronto.edu/~kriz/cifar.html
MegaFace and LFW: Tập trung vào mảng nhận diện khuôn mặt
Không giới hạn dữ liệu về khuôn mặt, Labeled Faces in the Wild (LFW) chứa 13.233 hình ảnh của 5.749 người, được thu thập và phát hiện từ nhiều website. Trong đó có 1.680 người có hai hoặc nhiều bức ảnh khác nhau trong tập dữ liệu. Do đó, LFW giúp các nhà nghiên cứu đáp ứng tiêu chuẩn xác minh khuôn mặt, đó là đối sánh cặp (yêu cầu ít nhất hai hình ảnh của cùng một người).
Truy cập tại: http://vis-www.cs.umass.edu/lfw/
MegaFace là một tập dữ liệu mã nguồn mở có quy mô lớn về nhận dạng khuôn mặt, đóng vai trò là một trong những tiêu chuẩn quan trọng nhất cho các vấn đề nhận dạng khuôn mặt thương mại. Chứa 4.753.320 khuôn mặt của 672.057 danh tính khác nhau, MegaFace rất thích hợp cho việc nghiên cứu các kiến trúc dữ liệu lớn. Tất cả hình ảnh được lấy từ Flickr (tập dữ liệu của Yahoo) và được cấp phép theo Creative Commons.
Truy cập tại: http://megaface.cs.washington.edu/dataset/download.html
IMDB-Wiki: Nhận dạng khuôn mặt với giới tính và độ tuổi
IMDB-Wiki là một trong những bộ dữ liệu mở nguồn mở lớn nhất tập trung vào hình ảnh khuôn mặt có bộ nhãn giới tính và độ tuổi để nghiên cứu. Tổng cộng IMDB-Wiki chứa 523.051 hình ảnh khuôn mặt, trong đó 460.723 hình ảnh khuôn mặt được lấy từ 20.284 người nổi tiếng từ IMDB và 62.328 từ Wikipedia.
Truy cập tại: https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
MS Coco: Tập trung vào phát hiện và phân đoạn đối tượng
COCO hay Common Objects in COntext là tập dữ liệu quy mô lớn sử dụng để phát hiện, phân đoạn và tạo phụ đề dành cho các đối tượng. Tập dữ liệu chứa ảnh của 91 loại đối tượng có thể dễ dàng nhận ra và có tổng cộng 2,5 triệu đối tượng được gắn nhãn trong 328 000 bức ảnh. Ngoài ra, MS Coco còn cung cấp tài nguyên cho các tác vụ thị giác máy tính phức tạp hơn như ghi nhãn đa đối tượng, chú thích mặt nạ phân đoạn, chú thích hình ảnh và phát hiện các điểm đặc trưng. MS Coco được hỗ trợ bởi hệ thống API trực quan nhằm phân tích cú pháp và hiển thị các chú thích trong COCO. API hỗ trợ nhiều định dạng chú thích.
Truy cập tại: https://cocodataset.org/#home
MPII Human Pose: Bộ dữ liệu phù hợp với các đánh giá và ước tính
Cơ sở dữ liệu này thường được sử dụng để đánh giá và ước tính tư thế con người trong các hoạt động và hình dáng khác nhau. MPII Human Pose chứa khoảng 25 nghìn hình ảnh của hơn 40 nghìn người với các tư thế khác nhau và gắn kèm các chú thích. Ở đây, mỗi hình ảnh được trích xuất từ một video YouTube và được cung cấp các khung hình không có chú thích trước và sau mỗi tư thế. Tổng thể, bộ dữ liệu này bao gồm 410 hoạt động đặc trưng của con người và các hình ảnh được cung cấp theo từng tư thế hoạt động khác nhau.
Truy cập tại: http://human-pose.mpi-inf.mpg.de/
Flickr-30k: Thế giới của những phụ đề hình ảnh
Flickr-30k là một kho tài liệu phụ đề hình ảnh bao gồm 158.915 phụ đề được các cá nhân đăng tải để mô tả 31.783 hình ảnh. Flickr-30k là hệ thống nâng cấp và mở rộng của Tập dữ liệu Flickr 8k trước đó. Hình ảnh và chú thích đính kèm thường chủ yếu tập trung vào hình ảnh đời thường, nội dung về việc mọi người tham gia vào các hoạt động và sự kiện hàng ngày.
Truy cập tại: http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html
Barkley DeepDrive: Phù hợp với việc nghiên cứu và đào tạo để phát triển xe tự hành
Bộ dữ liệu Berkeley DeepDrive của UC Berkeley bao gồm hơn 100.000 chuỗi video với các loại chú thích khác nhau, bao gồm từng mục giới hạn về đối tượng, khu vực có thể điều khiển, đánh dấu làn đường và phân loại phương tiện. Hơn nữa, tập dữ liệu này mang tính đa dạng và thích ứng cao bởi nó đề cập tới cả các điều kiện địa lý, môi trường và thời tiết khác nhau. Điều này rất hữu ích cho việc đào tạo các mô hình xe tự hành để chúng có thể linh hoạt trước các điều kiện đường xá và giao thông luôn thay đổi không ngừng.
Truy cập tại: https://www.bdd100k.com/
Trên đây là các cơ sở dữ liệu mã nguồn mở mà bất kỳ nhà nghiên cứu nào trong lĩnh vực thị giác máy tính cũng nên quan tâm. Ngoài ra còn có nhiều bộ dữ liệu mở khác phổ biến và hữu ích, các bạn hãy cùng chia sẻ với VinBigData dưới đây nhé!
Thị giác máy tính là một trong những lĩnh vực công nghệ lõi được VinBigData tập trung phát triển và kiến tạo thành những sản phẩm có tính ứng dụng cao, tăng trải nghiệm người dùng, nâng cao chất lượng cuộc sống và tối ưu hoạt động sản xuất kinh doanh. Một số sản phẩm điển hình có thể kể đến như: Giải pháp Camera thông minh VinCamAI nhận diện khuôn mặt chính xác tới 99% ứng dụng đa dạng nhu cầu của doanh nghiệp, hay Hệ thống trích xuất thông tin từ giấy tờ VinOCR với độ chính xác 96% và tốc độ xử lý chưa đến 0,1s. Tìm hiểu thêm về các sản phẩm: Tại đây |
Trong Thị giác máy tính, phân vùng ảnh là một kỹ thuật quan trọng, giúp giải nhiều bài toán thuộc các lĩnh vực khác nhau như xử lý ảnh y tế, phát hiện và nhận dạng đối tượng, hệ thống camera thông minh… Đây là tiền đề của quá trình xử lý dữ liệu hình ảnh. Kết quả phân vùng tốt sẽ tạo điều kiện thuận lợi cho các khâu xử lý về sau, đảm bảo tính hiệu quả cao, gia tăng mức độ chính xác, đồng thời giảm thiểu nguồn lực tính toán.
Phân vùng ảnh là gì?
Phân vùng ảnh (Image segmentation) là một phương pháp mà trong đó, hình ảnh kỹ thuật số được chia thành nhiều nhóm con khác nhau được gọi là segments. Mục tiêu của phân vùng ảnh là làm giảm độ phức tạp của hình ảnh, giúp cho quá trình xử lý hoặc phân tích hình ảnh sau đó trở nên đơn giản hơn. Nói một cách dễ hiểu, phân vùng là dán nhãn cho từng pixel. Tất cả các yếu tố hình ảnh hoặc pixel thuộc cùng một danh mục sẽ có chung một nhãn. Ví dụ: Đối với bài toán phát hiện đối tượng, thay vì xử lý toàn bộ hình ảnh, máy có thể chỉ thực hiện trên một đoạn được chọn bởi thuật toán phân vùng. Điều này sẽ ngăn máy xử lý toàn bộ hình ảnh, do đó làm giảm thời gian suy luận.

Các cách tiếp cận phân vùng ảnh
- Cách tiếp cận tương đồng (Similarity approach), có nghĩa là phát hiện sự tương đồng giữa các pixel hình ảnh để tạo thành một phân đoạn, dựa trên một ngưỡng. Các thuật toán học máy như phân cụm thường dựa trên kiểu tiếp cận này để phân vùng một hình ảnh.
- Cách tiếp cận gián đoạn (Discontinuity approach): Cách tiếp cận này dựa trên sự gián đoạn của các giá trị cường độ pixel trong hình ảnh. Các kỹ thuật phát hiện đường, điểm và cạnh sử dụng kiểu tiếp cận gián đoạn để thu được các kết quả phân vùng trung gian. Kết quả này sau đó có thể được xử lý để cho ra hình ảnh được phân vùng cuối cùng.
Một số kỹ thuật phân vùng ảnh
Có 05 kỹ thuật phân vùng ảnh, bao gồm:
- Phân vùng dựa trên ngưỡng (Threshold Based Segmentation)
- Phân vùng dựa trên cạnh (Edge Based Segmentation)
- Phân vùng dựa trên khu vực (Region-Based Segmentation)
- Phân vùng dựa trên kỹ thuật phân cụm (Clustering Based Segmentation)
- Phân vùng dựa trên mạng nơron nhân tạo (Artificial Neural Network Based Segmentation)
Dưới đây là những thông tin cụ thể về từng loại kỹ thuật phân vùng này.
1, Phân vùng dựa trên ngưỡng (Threshold Based Segmentation)
Phân đoạn ngưỡng ảnh là một dạng phân vùng ảnh đơn giản, giúp tạo ra một hình ảnh nhị phân hoặc nhiều màu dựa trên việc đặt giá trị ngưỡng theo cường độ pixel của hình ảnh gốc.
Trong quá trình xác định ngưỡng, cần xem xét biểu đồ cường độ của tất cả các pixel trong hình ảnh. Sau đó, tiến hành đặt một ngưỡng để chia hình ảnh thành các phần. Ví dụ: khi xem xét các pixel hình ảnh nằm trong khoảng từ 0 đến 255, ngưỡng có thể đặt là 60. Vì vậy, tất cả các pixel có giá trị nhỏ hơn hoặc bằng 60 sẽ được cung cấp giá trị 0 (màu đen) và tất cả các pixel có giá trị lớn hơn hơn 60 sẽ được cung cấp với giá trị 255 (màu trắng).
Đối với một ảnh có nền và đối tượng, có thể chia ảnh thành các vùng dựa trên cường độ của đối tượng và nền. Nhưng ngưỡng này phải được thiết lập hoàn hảo để phân đoạn hình ảnh thành một đối tượng và một nền.
Phân ngưỡng bao gồm các kỹ thuật như ngưỡng toàn cục (Global thresholding); ngưỡng thủ công (Manual thresholding); ngưỡng thích ứng (Adaptive Thresholding); ngưỡng tối ưu (Optimal Thresholding); ngưỡng thích ứng cục bộ (Local Adaptive Thresholding).
2, Phân vùng dựa trên cạnh (Edge Based Segmentation)
Cạnh trong ảnh đánh dấu những vị trí hình ảnh không liên tục về mức xám, màu sắc, kết cấu, v.v. Khi di chuyển từ vùng này sang vùng khác, mức xám có thể thay đổi. Vì vậy, nếu tìm thấy sự gián đoạn đó, ta có thể tìm thấy cạnh. Thực tế, có nhiều toán tử phát hiện cạnh, nhưng hình ảnh thu được là kết quả phân vùng trung gian, và không nên nhầm lẫn với hình ảnh được phân vùng cuối cùng. Để ra được kết quả cuối, cần thực hiện một số bước bổ sung bao gồm: kết hợp các phân vùng cạnh thu được làm một, để giảm số lượng phân vùng và có được một đường viền liền mạch của đối tượng.
Như vậy, có thể thấy, phân vùng cạnh đưa ra một kết quả phân vùng trung gian. Kết quả này sau đó có thể áp dụng theo vùng hoặc bất kỳ kiểu phân đoạn nào khác, nhằm có được hình ảnh được phân vùng cuối.

Các cạnh thường được liên kết với “Độ lớn” và “Hướng”. Một số toán tử phát hiện cạnh cung cấp cả hai yếu tố này, chẳng hạn như Sobel edge operator, canny edge detector, Kirsch edge operator, Prewitt edge operator, Robert’s edge operator,….
3, Phân vùng dựa trên khu vực (Region-Based Segmentation)
Một vùng có thể được phân loại là một nhóm các pixel kết nối với nhau và có các thuộc tính tương đồng về cường độ, màu sắc, v.v. Trong kiểu phân vùng này, có một số quy tắc được định sẵn mà pixel phải tuân theo để đảm bảo có thể phân loại thành các vùng pixel tương tự. Phương pháp phân vùng dựa trên khu vực được ưu tiên hơn phương pháp phân vùng dựa trên cạnh trong trường hợp ảnh bị nhiễu.
Có 2 nhóm kỹ thuật chính trong phân vùng dựa trên khu vực, bao gồm:
- Phát triển khu vực (Region growing method)
- Phân tách và hợp nhất khu vực (Region splitting and merging method)
Phát triển khu vực (Region growing method)
Đối với kỹ thuật này, chúng ta bắt đầu với một số pixel làm pixel hạt giống và sau đó kiểm tra các pixel liền kề. Nếu các pixel liền kề tuân theo các quy tắc được xác định trước, thì pixel đó sẽ được thêm vào vùng của pixel gốc và quá trình sẽ tiếp tục cho đến khi không còn điểm tương đồng nào. Phương pháp này thực hiện theo cách tiếp cận từ dưới lên. Trong trường hợp khu vực đang phát triển, quy tắc ưu tiên có thể được đặt làm ngưỡng.
Phân tách và hợp nhất khu vực
Đối với phân tách khu vực, toàn bộ hình ảnh đầu tiên được chụp dưới dạng một vùng duy nhất. Nếu không tuân theo các quy tắc được xác định trước, vùng đó sẽ lại được chia thành nhiều vùng (thường là 4 góc phần tư) và tiếp tục áp dụng các quy tắc để quyết định có chia nhỏ hơn nữa hay không. Quá trình này kéo dài cho đến khi không có sự phân chia khu vực nào nữa, tức là mọi khu vực đều tuân theo các quy tắc được xác định trước.
Điều kiện kiểm tra để quyết định có nên chia nhỏ một vùng hay không là: Nếu giá trị tuyệt đối của sự chênh lệch giữa cường độ pixel tối đa và tối thiểu trong một vùng nhỏ hơn hoặc bằng một giá trị ngưỡng do người dùng quyết định thì vùng đó không yêu cầu chia nhỏ thêm.

Đối với hợp nhất khu vực, mỗi pixel được coi là một vùng riêng lẻ. Ta chọn một vùng làm vùng hạt giống để kiểm tra tính tương đồng của các vùng lân cận dựa trên quy tắc được định trước. Nếu giống nhau, chúng sẽ được hợp nhất thành một vùng duy nhất và cứ tiếp tục như vậy cho đến khi xây dựng các vùng được phân đoạn của toàn bộ hình ảnh.
Cả phân tách và hợp nhất khu vực đều là quá trình lặp đi lặp lại. Thông thường, việc tách vùng đầu tiên được thực hiện trên một hình ảnh để chia ảnh đó thành các vùng tối đa, trước khi các vùng này được hợp nhất để tạo thành hình ảnh mới, với những phân vùng tốt hơn so với hình ảnh gốc.
4, Phân vùng dựa trên kỹ thuật phân cụm (Clustering Based Segmentation)
Phân cụm (Clustering) là một loại thuật toán học máy không giám sát, được sử dụng phổ biến trong phân vùng ảnh. Một trong những thuật toán Clustering thường được ứng dụng cho tác vụ phân vùng ảnh là KMeans Clustering. Loại phân cụm này có thể được sử dụng để tạo các phân đoạn trong một hình ảnh có màu.
KMeans Clustering
Hãy hình dung về một tập dữ liệu 2 chiều. Đầu tiên, trong tập dữ liệu, các trọng tâm – centroid (do người dùng chọn) được khởi tạo ngẫu nhiên. Sau đó, tiến hành tính toán khoảng cách của tất cả các điểm đến tất cả các cụm. Điểm được gán cho cụm có khoảng cách nhỏ nhất. Tiếp đến, trọng tâm của tất cả các cụm được tính toán lại bằng cách lấy giá trị trung bình của cụm đó và các điểm dữ liệu lại một lần nữa được gán cho các cụm. Quá trình này tiếp diễn cho đến khi thuật toán hội tụ thành một giải pháp tốt. Thông thường, số lần lặp lại như vậy rất nhỏ.
5, Phân vùng dựa trên mạng nơron nhân tạo (Artificial Neural Network Based Segmentation)
Kỹ thuật này sử dụng AI để tự động phân tích một hình ảnh và xác định các thành phần khác nhau của nó như khuôn mặt, đối tượng, văn bản, v.v. Mạng thần kinh tích chập (convolutional neural networks) khá phổ biến đối với việc phân vùng ảnh vì chúng có thể xác định và xử lý dữ liệu hình ảnh một cách nhanh chóng và hiệu quả.
Các chuyên gia tại Facebook AI Research (FAIR) đã tạo ra một kiến trúc học sâu được gọi là Mask R-CNN, có thể được sử dụng như một bộ lọc pixel thông minh cho mọi đối tượng trong ảnh. Đây là phiên bản nâng cao của kiến trúc phát hiện đối tượng Faster R-CNN.
Trong quá trình phân vùng ảnh, trước tiên phải chuyển hình ảnh đầu vào đến ConvNet để tạo bản đồ đối tượng cho hình ảnh. Sau đó, hệ thống áp dụng mạng đề xuất vùng (Region Proposal Network – RPN) trên bản đồ đối tượng và tạo đề xuất đối tượng cùng với điểm số của chúng. Sau đó, lớp tổng hợp ROI (Region of interest) được triển khai cho các đề xuất để giảm chúng xuống một kích thước. Trong giai đoạn cuối cùng, hệ thống chuyển các đề xuất đến lớp kết nối để phân loại và tạo ra kết quả với các hộp giới hạn được gán cho mọi đối tượng.
Từ các kỹ thuật phân vùng ảnh, VinBigdata phát triển các sản phẩm, giải pháp khác nhau liên quan đến công nghệ Thị giác máy tính. Trong lĩnh vực xử lý ảnh y tế, VinDr là giải pháp AI toàn diện hỗ trợ các bác sĩ chẩn đoán hình ảnh đưa ra quyết định nhanh chóng, chính xác và giảm thiểu bỏ sót tổn thương. Chỉ mất vài giây cho mỗi ca chụp, VinDr đã có thể phát hiện, khoanh vùng và phân loại đa dạng tổn thương trên phổi, vú, não, cột sống, gan mật, với độ chính xác trên 90%. Không những giải quyết bài toán về y tế, VinBigdata còn nghiên cứu, kiến tạo các sản phẩm công nghệ hỗ trợ doanh nghiệp tối ưu hóa hiệu quả sản xuất, kinh doanh. Dựa trên các công nghệ hiện đại, trong đó có công nghệ nhận diện và phân tích khuôn mặt chính xác đến 99%, VinCamAI là giải pháp camera thông minh có khả năng phát hiện và nhận diện khuôn mặt, phân tích thuộc tính khuôn mặt (độ tuổi, giới tính, cảm xúc, phụ trang), nhận diện người, phương tiện, nhận diện hành vi, theo dõi luồng di chuyển. Sản phẩm có thể được tích hợp trong các hệ thống camera thông minh hay phân tích, xác thực khách hàng tại các trung tâm thương mại, khu du lịch, nghỉ dưỡng, nhà thông minh,… |