Medical Imaging – VinBigdata Product

Việc đào tạo mạng nơ-ron thường yêu cầu một lượng lớn dữ liệu. Càng nhiều dữ liệu hình ảnh y tế được đưa vào huấn luyện thì mô hình càng có khả năng nhận ra các biểu hiện khác nhau của bệnh. Ví dụ, để phát triển một mô hình tự động phân loại khối u não trên ảnh cộng hưởng từ (MRI), một bộ dữ liệu đào tạo lý tưởng sẽ bao gồm hình ảnh của khối u ở nhiều kích thước và trong các vùng giải phẫu khác nhau của não. Tuy nhiên, thực tế rất khó để có được một bộ dữ liệu ảnh não đa dạng như vậy. Điều này xảy ra tương tự với nhiều bộ dữ liệu ảnh y tế khác.

Khó khăn khi xây dựng bộ dữ liệu ảnh y tế

Hiện nay, vì nhiều lý do khác nhau mà việc tiếp cận hoặc xây dựng các bộ dữ liệu ảnh y tế quy mô lớn là không hề dễ dàng. Nguyên nhân thứ nhất đến từ quá trình dán nhãn và chuẩn hóa dữ liệu. Để các mô hình học máy có thể đưa ra chẩn đoán bệnh một cách chính xác, bộ dữ liệu cần được chú giải bởi đội ngũ chuyên gia y khoa giàu kinh nghiệm. Tuy nhiên, việc dán nhãn thủ công tốn nhiều thời gian. Chính vì thế, hầu hết các bộ dữ liệu chuẩn hoá, có dãn nhãn bởi chuyên gia hình ảnh y tế đều có quy mô nhỏ.

Thứ hai, thách thức đến từ những hạn chế trong việc chia sẻ dữ liệu lâm sàng. Thực tế, các bộ dữ liệu hình ảnh y khoa điển hình có dán nhãn bởi chuyên gia y tế hiếm khi vượt quá quy mô 500-1000 bệnh nhân.

07 cách để tăng cường dữ liệu hình ảnh y tế

Tăng cường hình ảnh (image augmentation) là phương pháp phổ biến giúp khắc phục tình trạng các bộ dữ liệu hình ảnh y tế có quy mô nhỏ, không đủ đáp ứng yêu cầu đào tạo mô hình học sâu. Nói một cách đơn giản, tăng cường hình ảnh có nghĩa là áp dụng các thay đổi ngẫu nhiên, từ đó làm tăng lượng biến đổi trong bộ dữ liệu. Ví dụ: nếu tổng bộ dữ liệu bao gồm 100 ảnh MRI não, sau khi áp dụng 3 thay đổi ngẫu nhiên cho mỗi ảnh, kết quả thu được sẽ là 400 hình ảnh y tế có sẵn để đào tạo.

1. Tịnh tiến hình ảnh (Translating medical images): Một trong những thao tác đơn giản nhất là tịnh tiến hình ảnh, tức là thay đổi vùng quan tâm (region of interest – ROI), đối với trung tâm của dữ liệu hình ảnh đào tạo.

2. Xoay hình ảnh (Rotating medical images): Xoay các hình ảnh đào tạo theo một góc ngẫu nhiên. Bằng cách này, hình ảnh tăng cường có thể gần giống với các ca chụp được thực hiện dưới một góc nhỏ hơn.

3. Lật hình ảnh (Flipping medical images): Nhiều cấu trúc giải phẫu có tính đối xứng – ví dụ như não và thận. Phép lật ngẫu nhiên là phương pháp lý tưởng để tăng cường những hình ảnh y tế có chứa các cấu trúc đối xứng này, từ đó, phản chiếu thông tin của ảnh theo chiều ngang hoặc chiều dọc. Đây cũng là phương pháp giúp mô hình hạn chế việc bỏ sót các tổn thương nằm ở một trong hai phía của cùng một cơ quan.

Với 03 kỹ thuật xoay/lật/tịnh tiến, các hình dạng trong ảnh không thay đổi và hình ảnh chỉ bị dịch chuyển so với vị trí ban đầu. Điều này giúp bảo tồn tốt các đặc điểm của hình ảnh gốc.

Ví dụ về tăng cường dữ liệu ảnh y tế — Ví dụ về các thao tác tịnh tiến, xoay, lật hình ảnh y tế. *Nguồn ảnh: Quantib*

4. Kéo giãn hình ảnh (Stretching medical images): Các cấu trúc giải phẫu giống nhau có thể biểu hiện khác nhau giữa các lần chụp. Việc tăng cường hình ảnh dưới dạng phóng to và thu nhỏ ngẫu nhiên có khả năng bổ sung thêm bất biến cho các phiên bản này. Nếu tỷ lệ giữa tăng chiều ngang và chiều dọc không được giữ cố định, hình ảnh sẽ bị kéo giãn, do đó tạo ra nhiều phiên bản biến đổi hơn nữa. Lưu ý là không thêm các phần tăng cường không có khả năng xảy ra trong ca chụp gốc.

5. Xén hình ảnh (Shearing medical images): Giả sử không kéo giãn hình ảnh chỉ theo một hướng, nhưng tiến hành thay đổi như sau: lấy phần trên cùng của ảnh và di chuyển nó sang bên phải; đồng thời lấy phần dưới cùng của ảnh và di chuyển nó sang bên trái. Bằng cách này, ta đã kéo giãn hình ảnh theo hai hướng ngược nhau cùng một lúc. Đây được gọi là thao tác cắt xén.

Tăng cường hình ảnh y tế bằng cách kéo giãn — Ví dụ về thao tác kéo giãn và xén hình ảnh. *Nguồn ảnh:* *Quanti*b

6. Biến dạng đàn hồi của hình ảnh (Elastic deformation of medical images): 5 kỹ thuật đã thảo luận ở trên được gọi là tăng cường tuyến tính (linear augmentation). Một trong những dạng tăng cường khắc nghiệt hơn là biến dạng đàn hồi. Nó tương tự kéo giãn hình ảnh, tuy nhiên, với nhiều tùy chọn đa dạng hơn, gần giống như việc nhào một quả bóng. Cần cẩn thận khi áp dụng kỹ thuật này vì nó rất dễ dẫn đến tình trạng hầu như không thể nhận ra dữ liệu ảnh đào tạo.

Biến dạng đàn hồi của hình ảnh y khoa — Ví dụ về biến dạng đàn hồi của hình ảnh y khoa. *Nguồn ảnh: Quantib*

7. Tăng độ tương phản của hình ảnh (Contrast augmentation of medical images): Hình ảnh y tế thu được từ các thiết bị khác nhau có thể khác nhau về cường độ. Để đảm bảo rằng mô hình hoạt động tốt trên các ảnh không đồng nhất như vậy, các phép tăng độ tương phản thường được áp dụng cho dữ liệu đào tạo. Cụ thể, các kỹ sư AI sẽ tiến hành một số thay đổi ngẫu nhiên trên biểu đồ các giá trị cường độ mức xám.

Tăng độ tương phản của hình ảnh y khoa — Ví dụ về tăng độ tương phản của hình ảnh y khoa. *Nguồn ảnh:* *Quanti*b

Làm thế nào để áp dụng hiệu quả các kỹ thuật tăng cường hình ảnh y tế?

Sau khi chỉ ra một số phương pháp tăng cường dữ liệu hình ảnh y tế phổ biến hiện nay, câu hỏi đặt ra là làm thế nào để áp dụng các kỹ thuật này một cách tốt nhất. Cách tiếp cận đơn giản nhất là mở rộng tập dữ liệu ban đầu bằng cách thêm một số phần bổ sung cho mỗi hình ảnh y tế. Tuy nhiên, vẫn có khả năng mạng nơ-ron, trong một số trường hợp, bắt đầu nhận ra các đặc điểm riêng của tập dữ liệu, dẫn đến tình trạng “overfitting” (Khi mô hình có thể học và dự đoán tốt trên tập dữ liệu huấn luyện nhưng lại không tốt trên các tập dữ liệu kiểm thử). Do đó, một cách tiếp cận khác, phức tạp hơn là sử dụng một bộ tạo (generator) – thuật toán cụ thể để tạo ra các hình ảnh tăng cường một cách nhanh chóng. Trong quá trình huấn luyện, thuật toán này sẽ chuyển từng dữ liệu ảnh vào mạng, nhưng mỗi ảnh đều được tăng cường trước đó bằng một trong bảy kỹ thuật đã phân tích. Bằng cách ngẫu nhiên hóa loại và mức độ tăng cường cho mỗi mẫu, thuật toán cung cấp cho mạng nơ-ron các kết hợp tăng cường dữ liệu hoàn toàn khác so với việc thao tác thủ công. Điều này thậm chí còn giúp mô hình có nhiều dữ liệu đào tạo đa dạng hơn, từ đó thường cải thiện hiệu suất thuật toán.

Tăng cường dữ liệu ảnh y tế liệu có phải phương pháp tối ưu?

Thực tế, tồn tại nhiều ý kiến khác nhau xung quanh việc các hình ảnh y tế đã trải qua phép tăng cường có nhất thiết phải giống với dữ liệu gốc không. Một số quan điểm cho rằng việc tăng cường hình ảnh giúp mạng nơ-ron tìm hiểu tốt hơn các đặc điểm chung, chẳng hạn như hình dạng và đường cong thể hiện ranh giới của các cấu trúc giải phẫu, thay vì tập trung quá nhiều vào đặc điểm cụ thể của từng hình ảnh riêng lẻ. Đặc biệt, các lớp đầu tiên của mạng nơ-ron thường tìm kiếm những đặc điểm cơ bản của ảnh, những đặc điểm này vẫn được bảo toàn ngay cả khi thực hiện các phép tăng cường. Nói chung, tăng cường tuyến tính là một cách tiếp cận an toàn hơn, vì nó tốt hơn trong việc bảo tồn các đặc điểm của hình ảnh gốc.

Cuối cùng, mặc dù các kỹ thuật tăng cường rất hữu ích trong việc cải thiện quy mô tập dữ liệu một cách nhân tạo, song, yếu tố quan trọng và tối ưu hơn cả vẫn là các bộ dữ liệu hình ảnh y tế được chú giải chính xác.

Bắt nguồn từ thực tế này, VinBigdata phát triển VinDr Lab, chia sẻ cùng cộng đồng các bộ dữ liệu X-quang lồng ngực (VinDr-CXR), X-quang cột sống (VinDr-SpineXR) và cung xương sườn (VinDr-RibCXR) quy mô khoảng 29,000 ảnh. Bộ dữ liệu ảnh y tế được thu thập tại các hệ thống bệnh viện cả trong nước, thể hiện các đặc điểm sinh lý, giải phẫu của người Việt, đồng thời được dán nhãn bởi đội ngũ bác sĩ chẩn đoán hình ảnh giàu kinh nghiệm. Tháng 10 tới đây, VinDr Lab sẽ được bổ sung bộ dữ liệu X-quang nhi (quy mô khoảng 5,000 ảnh), phục vụ cộng đồng cùng truy cập, tham khảo và nghiên cứu.

Công cụ hỗ trợ chẩn đoán nâng cao được tích hợp trên VinDr PACS

Bên cạnh VinDr Lab, VinDr PACS – Giải pháp quản lý ảnh y tế thông minh cũng đang được mở để cộng đồng trải nghiệm trực tuyến. VinDr PACS hỗ trợ đọc ảnh DICOM, với đa dạng các thao tác xử lý, dán nhãn dữ liệu hình ảnh y tế, đồng thời, giúp các bác sĩ có thể xem toàn bộ thông tin DICOM về ca chụp. Đặc biệt, hệ thống tích hợp 3D và công cụ chẩn đoán nâng cao (CAD). Giải pháp có thể phát hiện và khoanh vùng tổn thương trên 7 loại ảnh: X-quang lồng ngực, X-quang tuyến vú, X-quang cột sống, CT lồng ngực, CT gan mật, CT não và MRI não, với tổng cộng gần 70 loại bất thường phổ biến.

Chế độ xem 3D trên VinDr PACS — Đối với tính năng đọc ảnh DICOM, VinDr PACS hỗ trợ chế độ xem 3D giúp định vị chính xác vùng tổn thương

Qua đó, VinBigdata kỳ vọng từng bước tháo gỡ những khó khăn của cộng đồng nghiên cứu AI trong và ngoài nước đối với việc tiếp cận và xây dựng các bộ dữ liệu ảnh y tế quy mô lớn và được chuẩn hóa. Nếu quan tâm, bạn cũng có thể tìm hiểu và trải nghiệm toàn bộ hệ sinh thái VinDr tại đây.

Nguồn tham khảo: Quantib

Trong Thị giác máy tính, phân vùng ảnh là một kỹ thuật quan trọng, giúp giải nhiều bài toán thuộc các lĩnh vực khác nhau như xử lý ảnh y tế, phát hiện và nhận dạng đối tượng, hệ thống camera thông minh… Đây là tiền đề của quá trình xử lý dữ liệu hình ảnh. Kết quả phân vùng tốt sẽ tạo điều kiện thuận lợi cho các khâu xử lý về sau, đảm bảo tính hiệu quả cao, gia tăng mức độ chính xác, đồng thời giảm thiểu nguồn lực tính toán.

Phân vùng ảnh là gì?

Phân vùng ảnh (Image segmentation) là một phương pháp mà trong đó, hình ảnh kỹ thuật số được chia thành nhiều nhóm con khác nhau được gọi là segments. Mục tiêu của phân vùng ảnh là làm giảm độ phức tạp của hình ảnh, giúp cho quá trình xử lý hoặc phân tích hình ảnh sau đó trở nên đơn giản hơn. Nói một cách dễ hiểu, phân vùng là dán nhãn cho từng pixel. Tất cả các yếu tố hình ảnh hoặc pixel thuộc cùng một danh mục sẽ có chung một nhãn. Ví dụ: Đối với bài toán phát hiện đối tượng, thay vì xử lý toàn bộ hình ảnh, máy có thể chỉ thực hiện trên một đoạn được chọn bởi thuật toán phân vùng. Điều này sẽ ngăn máy xử lý toàn bộ hình ảnh, do đó làm giảm thời gian suy luận.

Thay vì xử lý toàn bộ hình ảnh, máy chỉ thực hiện trên một đoạn được chọn bởi thuật toán phân vùng.

Các cách tiếp cận phân vùng ảnh

Cách tiếp cận tương đồng (Similarity approach), có nghĩa là phát hiện sự tương đồng giữa các pixel hình ảnh để tạo thành một phân đoạn, dựa trên một ngưỡng. Các thuật toán học máy như phân cụm thường dựa trên kiểu tiếp cận này để phân vùng một hình ảnh.
Cách tiếp cận gián đoạn (Discontinuity approach): Cách tiếp cận này dựa trên sự gián đoạn của các giá trị cường độ pixel trong hình ảnh. Các kỹ thuật phát hiện đường, điểm và cạnh sử dụng kiểu tiếp cận gián đoạn để thu được các kết quả phân vùng trung gian. Kết quả này sau đó có thể được xử lý để cho ra hình ảnh được phân vùng cuối cùng.

Một số kỹ thuật phân vùng ảnh

Có 05 kỹ thuật phân vùng ảnh, bao gồm:

Phân vùng dựa trên ngưỡng (Threshold Based Segmentation)
Phân vùng dựa trên cạnh (Edge Based Segmentation)
Phân vùng dựa trên khu vực (Region-Based Segmentation)
Phân vùng dựa trên kỹ thuật phân cụm (Clustering Based Segmentation)
Phân vùng dựa trên mạng nơron nhân tạo (Artificial Neural Network Based Segmentation)

Dưới đây là những thông tin cụ thể về từng loại kỹ thuật phân vùng này.

1, Phân vùng dựa trên ngưỡng (Threshold Based Segmentation)

Phân đoạn ngưỡng ảnh là một dạng phân vùng ảnh đơn giản, giúp tạo ra một hình ảnh nhị phân hoặc nhiều màu dựa trên việc đặt giá trị ngưỡng theo cường độ pixel của hình ảnh gốc.

Trong quá trình xác định ngưỡng, cần xem xét biểu đồ cường độ của tất cả các pixel trong hình ảnh. Sau đó, tiến hành đặt một ngưỡng để chia hình ảnh thành các phần. Ví dụ: khi xem xét các pixel hình ảnh nằm trong khoảng từ 0 đến 255, ngưỡng có thể đặt là 60. Vì vậy, tất cả các pixel có giá trị nhỏ hơn hoặc bằng 60 sẽ được cung cấp giá trị 0 (màu đen) và tất cả các pixel có giá trị lớn hơn hơn 60 sẽ được cung cấp với giá trị 255 (màu trắng).

Đối với một ảnh có nền và đối tượng, có thể chia ảnh thành các vùng dựa trên cường độ của đối tượng và nền. Nhưng ngưỡng này phải được thiết lập hoàn hảo để phân đoạn hình ảnh thành một đối tượng và một nền.

Phân ngưỡng bao gồm các kỹ thuật như ngưỡng toàn cục (Global thresholding); ngưỡng thủ công (Manual thresholding); ngưỡng thích ứng (Adaptive Thresholding); ngưỡng tối ưu (Optimal Thresholding); ngưỡng thích ứng cục bộ (Local Adaptive Thresholding).

2, Phân vùng dựa trên cạnh (Edge Based Segmentation)

Cạnh trong ảnh đánh dấu những vị trí hình ảnh không liên tục về mức xám, màu sắc, kết cấu, v.v. Khi di chuyển từ vùng này sang vùng khác, mức xám có thể thay đổi. Vì vậy, nếu tìm thấy sự gián đoạn đó, ta có thể tìm thấy cạnh. Thực tế, có nhiều toán tử phát hiện cạnh, nhưng hình ảnh thu được là kết quả phân vùng trung gian, và không nên nhầm lẫn với hình ảnh được phân vùng cuối cùng. Để ra được kết quả cuối, cần thực hiện một số bước bổ sung bao gồm: kết hợp các phân vùng cạnh thu được làm một, để giảm số lượng phân vùng và có được một đường viền liền mạch của đối tượng.

Như vậy, có thể thấy, phân vùng cạnh đưa ra một kết quả phân vùng trung gian. Kết quả này sau đó có thể áp dụng theo vùng hoặc bất kỳ kiểu phân đoạn nào khác, nhằm có được hình ảnh được phân vùng cuối.

Các loại cạnh trong ảnh. Nguồn ảnh: Towards Data Science

Các cạnh thường được liên kết với “Độ lớn” và “Hướng”. Một số toán tử phát hiện cạnh cung cấp cả hai yếu tố này, chẳng hạn như Sobel edge operator, canny edge detector, Kirsch edge operator, Prewitt edge operator, Robert’s edge operator,….

3, Phân vùng dựa trên khu vực (Region-Based Segmentation)

Một vùng có thể được phân loại là một nhóm các pixel kết nối với nhau và có các thuộc tính tương đồng về cường độ, màu sắc, v.v. Trong kiểu phân vùng này, có một số quy tắc được định sẵn mà pixel phải tuân theo để đảm bảo có thể phân loại thành các vùng pixel tương tự. Phương pháp phân vùng dựa trên khu vực được ưu tiên hơn phương pháp phân vùng dựa trên cạnh trong trường hợp ảnh bị nhiễu.

Có 2 nhóm kỹ thuật chính trong phân vùng dựa trên khu vực, bao gồm:

Phát triển khu vực (Region growing method)
Phân tách và hợp nhất khu vực (Region splitting and merging method)

Phát triển khu vực (Region growing method)

Đối với kỹ thuật này, chúng ta bắt đầu với một số pixel làm pixel hạt giống và sau đó kiểm tra các pixel liền kề. Nếu các pixel liền kề tuân theo các quy tắc được xác định trước, thì pixel đó sẽ được thêm vào vùng của pixel gốc và quá trình sẽ tiếp tục cho đến khi không còn điểm tương đồng nào. Phương pháp này thực hiện theo cách tiếp cận từ dưới lên. Trong trường hợp khu vực đang phát triển, quy tắc ưu tiên có thể được đặt làm ngưỡng.

Phân tách và hợp nhất khu vực

Đối với phân tách khu vực, toàn bộ hình ảnh đầu tiên được chụp dưới dạng một vùng duy nhất. Nếu không tuân theo các quy tắc được xác định trước, vùng đó sẽ lại được chia thành nhiều vùng (thường là 4 góc phần tư) và tiếp tục áp dụng các quy tắc để quyết định có chia nhỏ hơn nữa hay không. Quá trình này kéo dài cho đến khi không có sự phân chia khu vực nào nữa, tức là mọi khu vực đều tuân theo các quy tắc được xác định trước.

Điều kiện kiểm tra để quyết định có nên chia nhỏ một vùng hay không là: Nếu giá trị tuyệt đối của sự chênh lệch giữa cường độ pixel tối đa và tối thiểu trong một vùng nhỏ hơn hoặc bằng một giá trị ngưỡng do người dùng quyết định thì vùng đó không yêu cầu chia nhỏ thêm.

Đối với hợp nhất khu vực, mỗi pixel được coi là một vùng riêng lẻ. Ta chọn một vùng làm vùng hạt giống để kiểm tra tính tương đồng của các vùng lân cận dựa trên quy tắc được định trước. Nếu giống nhau, chúng sẽ được hợp nhất thành một vùng duy nhất và cứ tiếp tục như vậy cho đến khi xây dựng các vùng được phân đoạn của toàn bộ hình ảnh.

Cả phân tách và hợp nhất khu vực đều là quá trình lặp đi lặp lại. Thông thường, việc tách vùng đầu tiên được thực hiện trên một hình ảnh để chia ảnh đó thành các vùng tối đa, trước khi các vùng này được hợp nhất để tạo thành hình ảnh mới, với những phân vùng tốt hơn so với hình ảnh gốc.

4, Phân vùng dựa trên kỹ thuật phân cụm (Clustering Based Segmentation)

Phân cụm (Clustering) là một loại thuật toán học máy không giám sát, được sử dụng phổ biến trong phân vùng ảnh. Một trong những thuật toán Clustering thường được ứng dụng cho tác vụ phân vùng ảnh là KMeans Clustering. Loại phân cụm này có thể được sử dụng để tạo các phân đoạn trong một hình ảnh có màu.

KMeans Clustering

Hãy hình dung về một tập dữ liệu 2 chiều. Đầu tiên, trong tập dữ liệu, các trọng tâm – centroid (do người dùng chọn) được khởi tạo ngẫu nhiên. Sau đó, tiến hành tính toán khoảng cách của tất cả các điểm đến tất cả các cụm. Điểm được gán cho cụm có khoảng cách nhỏ nhất. Tiếp đến, trọng tâm của tất cả các cụm được tính toán lại bằng cách lấy giá trị trung bình của cụm đó và các điểm dữ liệu lại một lần nữa được gán cho các cụm. Quá trình này tiếp diễn cho đến khi thuật toán hội tụ thành một giải pháp tốt. Thông thường, số lần lặp lại như vậy rất nhỏ.

5, Phân vùng dựa trên mạng nơron nhân tạo (Artificial Neural Network Based Segmentation)

Kỹ thuật này sử dụng AI để tự động phân tích một hình ảnh và xác định các thành phần khác nhau của nó như khuôn mặt, đối tượng, văn bản, v.v. Mạng thần kinh tích chập (convolutional neural networks) khá phổ biến đối với việc phân vùng ảnh vì chúng có thể xác định và xử lý dữ liệu hình ảnh một cách nhanh chóng và hiệu quả.

Các chuyên gia tại Facebook AI Research (FAIR) đã tạo ra một kiến trúc học sâu được gọi là Mask R-CNN, có thể được sử dụng như một bộ lọc pixel thông minh cho mọi đối tượng trong ảnh. Đây là phiên bản nâng cao của kiến trúc phát hiện đối tượng Faster R-CNN.

Trong quá trình phân vùng ảnh, trước tiên phải chuyển hình ảnh đầu vào đến ConvNet để tạo bản đồ đối tượng cho hình ảnh. Sau đó, hệ thống áp dụng mạng đề xuất vùng (Region Proposal Network – RPN) trên bản đồ đối tượng và tạo đề xuất đối tượng cùng với điểm số của chúng. Sau đó, lớp tổng hợp ROI (Region of interest) được triển khai cho các đề xuất để giảm chúng xuống một kích thước. Trong giai đoạn cuối cùng, hệ thống chuyển các đề xuất đến lớp kết nối để phân loại và tạo ra kết quả với các hộp giới hạn được gán cho mọi đối tượng.

Từ các kỹ thuật phân vùng ảnh, VinBigdata phát triển các sản phẩm, giải pháp khác nhau liên quan đến công nghệ Thị giác máy tính.

Trong lĩnh vực xử lý ảnh y tế, VinDr là giải pháp AI toàn diện hỗ trợ các bác sĩ chẩn đoán hình ảnh đưa ra quyết định nhanh chóng, chính xác và giảm thiểu bỏ sót tổn thương. Chỉ mất vài giây cho mỗi ca chụp, VinDr đã có thể phát hiện, khoanh vùng và phân loại đa dạng tổn thương trên phổi, vú, não, cột sống, gan mật, với độ chính xác trên 90%.

Không những giải quyết bài toán về y tế, VinBigdata còn nghiên cứu, kiến tạo các sản phẩm công nghệ hỗ trợ doanh nghiệp tối ưu hóa hiệu quả sản xuất, kinh doanh. Dựa trên các công nghệ hiện đại, trong đó có công nghệ nhận diện và phân tích khuôn mặt chính xác đến 99%, VinCamAI là giải pháp camera thông minh có khả năng phát hiện và nhận diện khuôn mặt, phân tích thuộc tính khuôn mặt (độ tuổi, giới tính, cảm xúc, phụ trang), nhận diện người, phương tiện, nhận diện hành vi, theo dõi luồng di chuyển. Sản phẩm có thể được tích hợp trong các hệ thống camera thông minh hay phân tích, xác thực khách hàng tại các trung tâm thương mại, khu du lịch, nghỉ dưỡng, nhà thông minh,…

Là hệ thống trí tuệ nhân tạo cộng hưởng sức mạnh của các bộ não y khoa hàng đầu và hàng trăm nghìn dữ liệu lâm sàng về ảnh y tế, với 05 tính năng đã được hoàn thiện, VinDr đang hỗ trợ đắc lực cho các bác sĩ trong việc chẩn đoán, phát hiện và khoanh vùng đa dạng tổn thương trên phổi, gan, vú, cột sống. Chỉ mất vài giây cho mỗi ca chụp, VinDr đã cho kết quả với độ chính xác trung bình trên 90%.

Theo thống kê của GLOBOCAN, năm 2020, ước tính cứ trên 100,000 người Việt thì có 159 người mắc và 106 người tử vong do ung thư. Tỷ suất này đã đưa Việt Nam tăng nhanh từ 6 đến 8 bậc trên bảng xếp hạng ung thư thế giới, lần lượt ở vị trí 91/185 về tỷ suất mắc mới và thứ 50/185 về tỷ suất tử vong. Dẫn đầu trong số các bệnh trọng ở cả hai giới phải kể đến ung thư gan, phổi và vú.

Cùng với ung thư, các bệnh về xương khớp cũng đang trở thành một vấn đề đe dọa đến tình trạng sức khỏe của người Việt. Thống kê cho thấy, tính riêng bệnh thoái hóa cột sống, tỷ lệ mắc trên toàn dân số là khoảng 35%, đặc biệt, với nhóm tuổi từ 60-69, con số này lên tới 89%.

Đối diện với hai bài toán lớn kể trên, một phần lời giải nằm ở công tác chẩn đoán, sàng lọc bệnh. Tuy nhiên, vấn đề đặt ra là làm thế nào để gia tăng số lượng, chất lượng và tốc độ chẩn đoán, trong khi Việt Nam đang phải giải quyết tình trạng quá tải hệ thống y tế, cũng như việc phân bổ không đồng đều về nguồn lực ngành y giữa bệnh viện tuyến trên và tuyến dưới.

VinDr và hành trình đi tìm lời giải bằng công nghệ

Bắt nguồn từ tính cấp bách phải giải quyết đồng thời ba vấn đề: sàng lọc các bệnh lý nguy hiểm, có tỷ lệ tử vong cao; chẩn đoán xương khớp và giảm tải áp lực cho hệ thống y tế tuyến trên, đội ngũ khoa học, kỹ sư công nghệ thuộc Trung tâm Xử lý ảnh y tế, Viện Nghiên cứu Dữ liệu lớn VinBigdata đã bắt tay vào nghiên cứu, xây dựng VinDr AI: nhóm tính năng tự động chẩn đoán và khoanh vùng tổn thương trên hình ảnh y tế. Sau một năm kể từ khi công bố, giải pháp đã hoàn thiện 05 tính năng, bao gồm: chẩn đoán X-quang lồng ngực, X-quang tuyến vú, X-quang cột sống, CT lồng ngực và CT gan mật. Đây là kết quả của sự cộng hưởng công nghệ đạt chuẩn thế giới, dữ liệu đặc trưng của người Việt và khối óc của đội ngũ bác sĩ hàng đầu tại Việt Nam.

Về công nghệ, VinDr được xây dựng dựa trên các mô hình thị giác máy tính (CV), máy học (ML) và học sâu (DL). So với các phương pháp truyền thống (các thuật toán tính năng được định trước), công nghệ học sâu nổi trội ở chỗ nó cho phép VinDr tự học các đặc trưng của bệnh lý dựa trên dữ liệu quy mô lớn để cho ra kết quả chẩn đoán nhanh và chính xác nhất.

Công nghệ nổi bật của giải pháp VinDr hỗ các bác sĩ chẩn đoán hình ảnh.

Đồng thời, giải pháp được huấn luyện từ những bộ dữ liệu lâm sàng quy mô lớn (bao gồm hơn 300,000 hình ảnh y tế có dán nhãn thuộc nhiều loại như X-quang, CT, MRI,…) thu thập tại nhiều bệnh viện trong cả nước. Sau khi trải qua các khâu xóa định danh bệnh nhân và xử lý, dữ liệu ảnh được lưu trữ trên hệ thống Label-PACS để các bác sĩ truy cập và dán nhãn từ xa.

Với nền tảng công nghệ và dữ liệu kể trên, VinDr có khả năng tự động chẩn đoán đồng thời nhiều ca chụp theo thời gian thực. Độ chính xác của tác vụ khoanh vùng tổn thương đạt trung bình trên 90%. Bên cạnh đó, giải pháp cũng chứng minh sự vượt trội về mặt thời gian, khi chỉ mất vài giây để đọc mỗi ca chụp. Đáng nói, tốc độ và độ chính xác này là không đổi và hệ thống có thể làm việc suốt ngày đêm.

Như vậy, rõ ràng, lời giải cho những bài toán lớn hiện có của hệ thống y tế Việt Nam nằm ở chính công nghệ. Song song với việc đào tạo một thế hệ đội ngũ y bác sĩ mới, đủ chất và đủ lượng để đáp ứng yêu cầu ngày càng tăng của bệnh nhân trong việc phát hiện sớm nguy cơ của bệnh, AI sẽ là nguồn lực đủ nhanh, đủ mạnh và đủ bền để liên tục giải quyết các bài toán y tế. Một khi ứng dụng VinDr vào triển khai thực tế tại bệnh viện, trí tuệ nhân tạo sẽ không thay thế hoàn toàn vai trò của bác sĩ chẩn đoán hình ảnh, mà sẽ cung cấp thêm một ý kiến để các bác sĩ tham khảo sau khi hoàn thành việc đọc phim. Nói cách khác, hệ thống sẽ là một công cụ hỗ trợ đắc lực, một người cùng hội chẩn với bác sĩ. Điều này đồng nghĩa với việc gia tăng mức độ chính xác trong chẩn đoán bệnh.

Chẩn đoán các bệnh lý về phổi

Để từng bước giải quyết bài toán ung thư phổi, vấn đề cốt lõi là làm sao gia tăng số ca bệnh được chẩn đoán sớm. Một trong những dấu hiệu nhận biết ung thư phổi là tình trạng nhiễm trùng ảnh hưởng đến đường hô hấp và dẫn đến các bệnh như viêm phế quản hoặc các bệnh nhiễm trùng mãn tính khác. Nhiễm trùng phổi mãn tính hoàn toàn có thể được chẩn đoán sớm bằng cách sử dụng X-quang lồng ngực để khoanh vùng tổn thương. Do đó, hiện nay, chụp X-quang lồng ngực là bước đầu tiên để các bác sĩ phát hiện những bất thường, tiến tới thực hiện những can thiệp sâu hơn như chụp cắt lớp vi tính (CT lồng ngực) hay sinh thiết.

VinDr hỗ trợ chẩn đoán bệnh lý phổi trên ảnh X-quang và CT lồng ngực

Từ thực tế này, đội ngũ phát triển VinBigdata đã xây dựng và hoàn thiện hai tính năng có liên quan là VinDr-ChestXR (Chẩn đoán X-quang lồng ngực) và VinDr-ChestCT (Chẩn đoán CT lồng ngực).

VinDr-ChestXR được phát triển và đánh giá từ hàng trăm nghìn ca chụp X-quang lồng ngực thu thập từ các bệnh viện tại Việt Nam. Với sự hỗ trợ của AI, hiện hệ thống có thể phát hiện 06 bệnh lý phổi và khoanh vùng 22 loại bất thường phổ biến trên ảnh X-quang lồng ngực, chỉ mất dưới 01 giây. Trong quá trình triển khai thực tế tại các bệnh viện lớn của Việt Nam: Bệnh viện 108, Bệnh viện ĐH Y Hà Nội, Bệnh viện Vimec Times City và 05 bệnh viện của tỉnh Phú Thọ, kết quả đánh giá cho thấy tại Bệnh viện 108 trung bình 10,5% số ca chẩn đoán thay đổi sau khi bác sĩ tham khảo AI, độ đồng thuận trung bình của bác sĩ với AI cũng đạt 90%. Kết quả này tương đương tại bệnh viện ĐH Y Hà Nội, với các tỉ lệ tương ứng lần lượt là 4,8% và 89,5%. Tính trung bình, độ chính xác trong chẩn đoán các bệnh lý phổi của VinDr-ChestXR đạt trên 90%.

Bên cạnh chẩn đoán X-quang lồng ngực, VinDr cũng cung cấp tính năng chẩn đoán CT lồng ngực (VinDr-ChestCT). Được huấn luyện dựa trên 4000 ca CT và đánh giá trên 1000 ca, phần mềm có thể phát hiện 5 tổn thương, bao gồm: đông đặc, phù phổi, hạch trung thất, nốt / khối phổi và tràn dịch màng phổi. So với chẩn đoán trên ảnh X-quang, chẩn đoán trên ảnh chụp cắt lớp vi tính cho phép phát hiện rõ ràng những đám mờ và đánh giá chi tiết kích thước, cũng như mức độ tổn thương ở phổi. Hiện nay, VinDr-ChestCT đã được triển khai tại sáu bệnh viện, trung tâm y tế ở Phú Thọ, Bình Định và Hải Phòng. Giải pháp chứng minh được độ chính xác 78% và tốc độ đọc mỗi ca chụp là 10 giây. Kỳ vọng, đây sẽ là phương pháp được sử dụng rộng rãi trong quá trình chẩn đoán, sàng lọc và điều trị sớm bệnh ung thư phổi.

Chẩn đoán các bệnh lý về gan

Các bệnh lý về gan, đặc biệt là ung thư gan hiện đang là bệnh lý gây tử vong hàng đầu tại Việt Nam. Để xác định chính xác các tổn thương gan, chụp cắt lớp gan là phương pháp phổ biến, hiệu quả hơn so với chụp X-quang. Tuy nhiên, việc đọc ảnh CT gan đòi hỏi không ít thời gian, cũng như sự tham gia của các bác sĩ giàu kinh nghiệm. Chính vì thế, VinDr-LiverCT ra đời, như một công cụ AI hỗ trợ bác sĩ chẩn đoán nhanh và chính xác hơn.

VinDr-LiverCT phát hiện 04 tổn thương phổ biến trên gan mật, với độ chính xác 80,5%

Với VinDr-LiverCT, thuật toán được huấn luyện trên 3000 ca CT và đánh giá trên 1000 ca. Dữ liệu được thu thập từ nhiều bệnh viện lớn tại Việt Nam, trong đó có BV 108, BV Đại học Y Hà Nội. Nhờ công nghệ học sâu, thuật toán có thể phát hiện 4 tổn thương: khối, vôi hóa, tổn thương dạng nang và giãn đường mật, với tốc độ trung bình 10 giây cho mỗi ca chụp và độ chính xác 80,5%. Tương như như VinDr-ChestCR, giải pháp này hiện đang được triển khai tại sáu bệnh viện, trung tâm y tế ở ba tỉnh thành gồm Phú Thọ, Bình Định và Hải Phòng.

Dự kiến, VinDr-LiverCT sẽ tiếp tục được phát triển, cung cấp các khả năng xác định 10 bệnh lý về gan, bao gồm các loại ung thư gan khác nhau, và khoanh vùng 24 loại bất thường phổ biến trên gan.

Chẩn đoán, sàng lọc ung thư vú trên diện rộng

Theo Cục quản lý Thực phẩm và Dược phẩm Hoa Kỳ FDA, chụp X-quang tuyến vú là phương pháp phổ biến và ít tốn kém nhất, giúp sàng lọc làm giảm tỷ lệ tử vong do ung thư vú. Ảnh X-quang có thể hiển thị vôi hóa và các khối, đây là những triệu chứng điển hình đầu tiên của ung thư. Phương pháp này vì thế mà được sử dụng cả trong chẩn đoán và sàng lọc, nhằm tầm soát trên diện rộng khi bệnh nhân chưa có biểu hiện cụ thể, hay quan sát tổn thương một cách rõ ràng hơn.

Do đó, nhằm giải quyết bài toán ung thư vú, đội ngũ VinBigdata đã phát triển tính năng chẩn đoán X-quang tuyến vú (VinDr-Mammo). Để có khả năng thực hiện đa tác vụ trên ảnh X-quang tuyến vú, VinDr-Mammo được đào tạo từ 50.000 ca chụp thu thập tại các bệnh viện lớn trong nước. Kết hợp công nghệ hiện đại và bộ dữ liệu quy mô lớn, giải pháp có thể phân loại mật độ nhu vú, cũng như định vị, khoanh vùng nhiều loại tổn thương khác nhau trên phim X-quang vú, với độ chính xác đạt trung bình trên 85% và thời gian chẩn đoán dưới 05 giây cho mỗi ca chụp.

VinDr-Mammo hỗ trợ phân loại mật độ nhu vú; định vị và khoanh vùng nhiều loại tổn thương trên phim X-quang tuyến vú.

Bên cạnh đó, phần mềm cũng có khả năng phân loại BIRADS – hệ thống phân loại kết quả chụp nhũ ảnh tuyến vú theo thang đo có sẵn. Dựa trên thang đo BIRADS 1 đến BIRADS 6, VinDr-Mammo cho biết có tồn tại tổn thương hay không, và nguy cơ tổn thương trên vú là lành tính hay ác tính. Đây chính là một trong những cơ sở đầu tiên để bác sĩ quyết định có tiến hành sinh thiết, nhằm xác định chính xác dấu hiệu của ung thư vú.

Thực tế thử nghiệm VinDr-Mammo tại những bệnh viện lớn trong nước (Bệnh viện 108, Bệnh viện ĐH Y Hà Nội, Bệnh viện Vinmec Times City và 05 bệnh viện tỉnh Phú Thọ) cho thấy trung bình trên 10% số ca chẩn đoán thay đổi kết quả sau khi bác sĩ tham khảo AI. Cùng với đó, độ đồng thuận trung bình của AI với bác sĩ cũng đạt 84% (tại Bệnh viện ĐH Y Hà Nội).

Chẩn đoán bệnh lý cột sống

Với tính năng VinDr-SpineXR, VinBigdata hiện là đơn vị tiên phong ứng dụng AI vào chẩn đoán X-quang cột sống. Giải pháp cho phép phân loại phim chụp (bất thường/không có bất thường) sử dụng một bộ phân loại nhị phân. Bộ dữ liệu huấn luyện của phần mềm này bao gồm các hình ảnh X-quang xương cột sống định dạng DICOM thu thập từ nhiều bệnh viện tại Việt Nam và được dán nhãn bởi các bác sĩ chẩn đoán hình ảnh giàu kinh nghiệm.

VinDr-SpineXR hỗ trợ phát hiện 06 loại tổn thương cột sống phổ biến với độ chính xác 90%

Được phát triển dựa trên công nghệ học sâu, VinDr-SpineXR có thể phân loại giữa hình ảnh X-quang cột sống bình thường và bất thường với độ chính xác 90% tính trên độ đo AUC (diện tích dưới đường cong cho biết khả năng phân biệt giữa bệnh nhân mắc bệnh và không mắc bệnh). Độ chính xác trong việc phát hiện và khoanh vùng tổn thương đạt mAP = 0.55 (mAP là chỉ số độ chính xác trung bình, cho phép đo hiệu suất của các mô hình phát hiện đối tượng trong ảnh).

Hiện VinDr-SpineXR đang hỗ trợ phát hiện 06 loại tổn thương cột sống phổ biến tại Việt Nam, bao gồm: gai xương; hẹp khe đĩa đệm; vật liệu phẫu thuật; hẹp lỗ tiếp hợp; trượt đốt sống và xẹp đốt sống. Được đánh giá cao cả về số lượng và chất lượng chẩn đoán, VinDr-SpineXR đang hỗ trợ đắc lực cho các bác sĩ chẩn đoán hình ảnh cột sống tại sáu cơ sở khám chữa bệnh trong nước, gồm: Bệnh viện Đa khoa tỉnh Phú Thọ, bệnh viện Sản nhi Phú Thọ, Trung tâm y tế Cẩm Khê, Thanh Ba, Thanh Thủy và bệnh viện Đa khoa tỉnh Bình Định. Đây được kỳ vọng sẽ là lời giải cho bài toán bệnh lý xương khớp đang ngày càng phổ biến và trẻ hóa trong dân số Việt Nam.

Cùng với 05 tính năng đã triển khai, dự kiến, thời gian tới, VinDr sẽ tiếp tục hoàn thiện thêm hai tính năng chẩn đoán các bệnh lý về não, gồm chẩn đoán CT sọ não (VinDr-BrainCT) và chẩn đoán MRI sọ não (VinDr-BrainMRI). Đồng thời, hiện nay Trung tâm Xử lý ảnh y tế VinBigdata cũng đang khởi động một dự án mới là ứng dụng AI trong nội soi tiêu hóa. Giải pháp hướng đến đưa AI tích hợp với máy nội soi, khi bác sĩ di chuyển đầu dò nội soi đến đâu, máy có thể nhìn thấy những tổn thương ngay tại chỗ và đưa ra gợi ý tức thời. Đây là hướng đi mới trong chẩn đoán đối với hình ảnh động, hứa hẹn là bước tiến cho ngành chẩn đoán hình ảnh y tế tại Việt Nam. Kết hợp với những tính năng đã phát triển và các đột phá mới, VinDr AI kỳ vọng sẽ trở thành trợ lý chẩn đoán hình ảnh y tế tin cậy cho các bác sĩ, góp phần nâng cao chất lượng khám chữa bệnh, cải thiện sức khỏe cộng đồng.