Dạy sinh viên AI: Trước khi xây mô hình, hãy học cách nghi ngờ dữ liệu

Các khóa học về phát triển mô hình AI cho lĩnh vực chăm sóc sức khỏe cần chú trọng hơn vào việc nhận diện và xử lý thiên lệch, theo nhận định của nhà nghiên cứu cao cấp tại Viện Kỹ thuật Y sinh và Khoa học của MIT - ông Leo Anthony Celi.

Mỗi năm, hàng ngàn sinh viên theo học các khóa học dạy cách triển khai các mô hình AI hỗ trợ bác sĩ chẩn đoán bệnh và xác định phương pháp điều trị phù hợp. Tuy nhiên, nhiều khóa học trong số đó lại bỏ qua một yếu tố then chốt: đào tạo sinh viên cách phát hiện các sai sót trong tập dữ liệu huấn luyện được sử dụng để xây dựng mô hình.

Các khóa học về phát triển mô hình AI trong chăm sóc sức khỏe cần tập trung nhiều hơn vào việc giảng dạy cách nhận diện và xử lý sự thiên lệch. Ảnh: Midjourney

Các khóa học về phát triển mô hình AI trong chăm sóc sức khỏe cần tập trung nhiều hơn vào việc giảng dạy cách nhận diện và xử lý sự thiên lệch. Ảnh: Midjourney

Leo Anthony Celi, nhà nghiên cứu cao cấp tại Viện Kỹ thuật Y sinh và Khoa học (Institute for Medical Engineering and Science) của MIT, bác sĩ tại Trung tâm Y tế Beth Israel Deaconess, và Phó Giáo sư tại Trường Y Harvard, đã nêu bật những thiếu sót này trong một bài báo mới và hy vọng sẽ thuyết phục các nhà xây dựng chương trình giảng dạy đào tạo sinh viên đánh giá kỹ lưỡng dữ liệu trước khi tích hợp chúng vào các mô hình AI.

Dưới đây là chia sẻ Leo Anthony Celi về tác động của loại thiên lệch này và cách các nhà giáo dục có thể xử lý vấn đề trong quá trình giảng dạy về mô hình AI.

- Thiên lệch xuất hiện trong các tập dữ liệu như thế nào và làm sao có thể khắc phục được những thiếu sót này?

Bất kỳ vấn đề nào trong dữ liệu đều sẽ ăn sâu vào bất kỳ mô hình nào được xây dựng từ dữ liệu đó. Trước đây chúng tôi từng mô tả các thiết bị và công cụ không hoạt động đồng đều trên các cá nhân. Ví dụ, chúng tôi phát hiện ra rằng máy đo nồng độ oxy trong máu có xu hướng đánh giá quá cao mức oxy ở người da màu, do thiếu người da màu tham gia các thử nghiệm lâm sàng của thiết bị.

Chúng tôi luôn nhắc sinh viên rằng các thiết bị và công cụ y tế thường được tối ưu hóa dựa trên nhóm nam giới trẻ khỏe mạnh. Chúng chưa bao giờ được tối ưu cho những đối tượng như phụ nữ 80 tuổi bị suy tim, nhưng chúng ta vẫn sử dụng cho nhóm bệnh nhân đó. Và FDA không yêu cầu thiết bị phải hoạt động tốt trên nhóm dân số đa dạng mà thực tế chúng ta sẽ sử dụng. Họ chỉ cần chứng minh rằng thiết bị hoạt động tốt trên các đối tượng khỏe mạnh.

Ngoài ra, hệ thống hồ sơ sức khỏe điện tử (EHR) hiện tại không được thiết kế để làm nền tảng cho AI. Những bản ghi này không phải là một hệ thống học tập. Do đó, ta phải rất cẩn trọng khi sử dụng EHR. Việc thay thế hệ thống EHR sẽ không xảy ra sớm, nên chúng ta cần thông minh hơn, sáng tạo hơn khi khai thác dữ liệu hiện có, dù chúng còn nhiều vấn đề.

Một hướng đi đầy hứa hẹn mà chúng tôi đang khám phá là xây dựng mô hình Transformer cho dữ liệu số từ hồ sơ sức khỏe điện tử, bao gồm cả kết quả xét nghiệm. Việc mô hình hóa mối quan hệ giữa kết quả xét nghiệm, dấu hiệu sinh tồn, và phác đồ điều trị có thể giúp giảm thiểu tác động của các dữ liệu bị thiếu do các yếu tố xã hội hoặc thiên lệch ngầm trong hành vi của nhân viên y tế.

- Tại sao các khóa học AI cần đề cập đến nguồn gốc của các nguy cơ thiên lệch? Ông đã phát hiện gì khi phân tích nội dung của các khóa học đó?

Khóa học của chúng tôi tại MIT bắt đầu từ năm 2016, và đến một thời điểm, chúng tôi nhận ra rằng mình đang khuyến khích sinh viên chạy đua xây mô hình tối ưu chỉ dựa trên một số chỉ số hiệu suất, trong khi dữ liệu họ sử dụng lại đầy rẫy những vấn đề mà họ không nhận ra. Khi đó, chúng tôi tự hỏi: Liệu đây có phải là vấn đề phổ biến không?

Chúng tôi nghi ngờ rằng nếu xem các khóa học có chương trình học công khai trên mạng, hoặc các khóa học trực tuyến, thì hầu như không có khóa nào cảnh báo sinh viên rằng họ nên nghi ngờ dữ liệu mình đang dùng. Và đúng như vậy, khi chúng tôi xem xét 11 khóa học online khác nhau, tất cả đều tập trung vào cách xây mô hình, cách trực quan hóa dữ liệu. Chỉ 5 trong số 11 khóa có đề cập đến thiên lệch trong tập dữ liệu, và chỉ 2 khóa có thảo luận sâu về chủ đề này.

- Các nhà phát triển khóa học nên bổ sung nội dung gì?

Đầu tiên, hãy cung cấp cho sinh viên một danh sách câu hỏi kiểm tra ngay từ đầu: Dữ liệu này đến từ đâu? Ai là người quan sát, ai là bác sĩ và y tá thu thập dữ liệu? Và cần tìm hiểu bối cảnh của các tổ chức đó. Nếu là dữ liệu từ khoa ICU, sinh viên cần hỏi: Ai được nhập ICU và ai không? Vì điều đó đã tạo ra thiên lệch chọn mẫu. Nếu bệnh nhân thuộc nhóm thiểu số không thể vào ICU vì không kịp tiếp cận dịch vụ, thì mô hình sẽ không hiệu quả cho nhóm đó. Theo tôi, ít nhất 50% nội dung khóa học nên tập trung vào việc hiểu dữ liệu, vì một khi đã hiểu dữ liệu, việc xây mô hình sẽ dễ dàng hơn rất nhiều.

Mục tiêu chính của chúng tôi hiện nay là dạy kỹ năng tư duy phản biện. Và yếu tố cốt lõi của tư duy phản biện là tập hợp những người có nền tảng khác nhau.

Chúng tôi luôn dặn sinh viên và người tham dự: Xin đừng bắt đầu xây bất kỳ mô hình nào nếu chưa thực sự hiểu rõ dữ liệu này đến từ đâu, bệnh nhân nào được đưa vào tập dữ liệu, thiết bị nào đã được sử dụng để đo đạc, và những thiết bị đó có chính xác đồng đều với mọi người không.

(Nguồn: Theo MIT News)

Huyền Chi

Nguồn VietnamNet: https://vietnamnet.vn/day-sinh-vien-ai-truoc-khi-xay-mo-hinh-hay-hoc-cach-nghi-ngo-du-lieu-2411249.html