Công cụ y tế AI thường giảm nhẹ triệu chứng ở một số trường hợp
Các mô hình ngôn ngữ lớn phản ánh định kiến có thể dẫn đến lời khuyên chăm sóc sức khỏe kém hơn cho bệnh nhân nữ, hoặc đối với một số trường hợp ở các khu vực, châu lục khác nhau.
Không phản ánh đúng mức độ nghiêm trọng của triệu chứng ở bệnh nhân nữ
Các công cụ trí tuệ nhân tạo mà bác sĩ sử dụng có nguy cơ dẫn đến kết quả sức khỏe tồi tệ hơn cho phụ nữ và các nhóm dân tộc thiểu số, khi ngày càng nhiều nghiên cứu cho thấy nhiều mô hình ngôn ngữ lớn (LLM) thường làm nhẹ triệu chứng của những bệnh nhân này.

Công cụ y tế AI không phản ánh đúng mức độ nghiêm trọng của triệu chứng ở bệnh nhân nữ.
Một loạt nghiên cứu gần đây phát hiện việc áp dụng các mô hình AI trong lĩnh vực y tế có thể dẫn đến quyết định y tế thiên vị, củng cố các mô hình điều trị thiếu sót vốn đã tồn tại giữa các nhóm khác nhau trong xã hội phương Tây.
Các phát hiện từ các nhà nghiên cứu tại các trường đại học hàng đầu ở Mỹ và Anh cho thấy các công cụ y tế AI dựa trên LLM có xu hướng không phản ánh đúng mức độ nghiêm trọng của triệu chứng ở bệnh nhân nữ, đồng thời thể hiện ít "sự đồng cảm" hơn đối với bệnh nhân da đen và châu Á.
Những cảnh báo này được đưa ra trong bối cảnh các tập đoàn AI hàng đầu thế giới như Microsoft, Amazon, OpenAI và Google đang hối hả phát triển sản phẩm nhằm giảm tải công việc cho bác sĩ và đẩy nhanh quá trình điều trị, tất cả để hỗ trợ các hệ thống y tế đang quá tải trên toàn cầu.
Nhiều bệnh viện và bác sĩ trên thế giới đang sử dụng các LLM như Gemini và ChatGPT, cũng như các ứng dụng ghi chép y tế AI từ các startup như Nabla và Heidi, để tự động tạo bản ghi cuộc gặp bệnh nhân, nhấn mạnh các chi tiết liên quan đến y tế và soạn thảo tóm tắt lâm sàng.
Vào tháng 6, Microsoft công bố đã xây dựng một công cụ y tế hỗ trợ AI mà họ cho rằng thành công gấp bốn lần so với bác sĩ con người trong việc chẩn đoán các bệnh phức tạp.
Nhưng nghiên cứu của Phòng khám Jameel thuộc MIT vào tháng 6 phát hiện rằng các mô hình AI như GPT-4 của OpenAI, Llama 3 của Meta và Palmyra-Med – một LLM tập trung vào y tế – khuyến nghị mức độ chăm sóc thấp hơn nhiều cho bệnh nhân nữ và gợi ý một số bệnh nhân tự điều trị tại nhà thay vì tìm kiếm sự giúp đỡ.
Một nghiên cứu riêng biệt của nhóm MIT cho thấy GPT-4 của OpenAI và các mô hình khác cũng đưa ra câu trả lời ít lòng trắc ẩn hơn đối với người da đen và châu Á tìm kiếm hỗ trợ cho các vấn đề sức khỏe tâm thần.
Điều này gợi ý rằng "một số bệnh nhân có thể nhận được hướng dẫn hỗ trợ ít hơn chỉ dựa trên nhận thức về chủng tộc của họ từ mô hình", Marzyeh Ghassemi, phó giáo sư tại Phòng khám Jameel của MIT, cho biết.
Tương tự, nghiên cứu của Trường Kinh tế London phát hiện mô hình Gemma của Google, được hơn một nửa các cơ quan địa phương ở Anh sử dụng để hỗ trợ nhân viên xã hội, đã làm nhẹ các vấn đề thể chất và tinh thần của phụ nữ so với nam giới khi được dùng để tạo và tóm tắt hồ sơ trường hợp.
Nhóm của Ghassemi tại MIT phát hiện bệnh nhân có tin nhắn chứa lỗi chính tả, ngôn ngữ không trang trọng hoặc cách diễn đạt không chắc chắn có khả năng cao hơn 7-9% bị các mô hình AI trong môi trường y tế khuyên không nên tìm kiếm chăm sóc y tế, so với những người có giao tiếp hoàn hảo, ngay cả khi nội dung lâm sàng giống nhau. Điều này có thể dẫn đến việc những người không nói tiếng Anh là ngôn ngữ mẹ đẻ hoặc không quen sử dụng công nghệ bị đối xử bất công.
Vấn đề định kiến có hại xuất phát một phần từ dữ liệu dùng để huấn luyện LLM. Các mô hình đa năng như GPT-4, Llama và Gemini được huấn luyện bằng dữ liệu từ internet, do đó các định kiến từ những nguồn đó được phản ánh trong phản hồi. Các nhà phát triển AI cũng có thể ảnh hưởng đến cách định kiến này len lỏi vào hệ thống bằng cách thêm các biện pháp bảo vệ sau khi mô hình đã được huấn luyện.
"Nếu bạn ở trong tình huống mà một diễn đàn subreddit có thể ảnh hưởng đến quyết định sức khỏe của bạn, tôi nghĩ đó không phải là nơi an toàn", ông Travis Zack, phó giáo sư kiêm giảng viên của Đại học California, San Francisco và giám đốc y tế của startup thông tin y tế AI Open Evidence, cho biết.
Công cụ y tế AI có thể "ảo tưởng", bịa ra câu trả lời
Trong một nghiên cứu năm ngoái, ông Zack và cộng sự phát hiện GPT-4 không tính đến sự đa dạng nhân khẩu học của các tình trạng y tế và có xu hướng định kiến hóa một số chủng tộc, dân tộc và giới tính.

Các chuyên gia cảnh báo rằng các hệ thống AI thường "ảo tưởng" – hoặc bịa ra câu trả lời - điều này đặc biệt có hại trong y tế.
Các nhà nghiên cứu cảnh báo rằng các công cụ AI có thể củng cố các mô hình điều trị thiếu sót vốn đã tồn tại trong lĩnh vực y tế, vì dữ liệu trong nghiên cứu y tế thường bị lệch nặng về phía nam giới và các vấn đề sức khỏe phụ nữ, chẳng hạn, thường bị thiếu kinh phí và nghiên cứu mãn tính.
OpenAI cho biết nhiều nghiên cứu đánh giá phiên bản cũ của GPT-4, và công ty đã cải thiện độ chính xác kể từ khi ra mắt. Họ có các đội ngũ làm việc để giảm đầu ra có hại hoặc gây hiểu lầm, với trọng tâm đặc biệt vào y tế. Công ty cũng hợp tác với các bác sĩ lâm sàng và nhà nghiên cứu bên ngoài để đánh giá mô hình, kiểm tra căng thẳng hành vi và xác định rủi ro.
Nhóm này cũng đã phát triển một tiêu chuẩn cùng với các bác sĩ để đánh giá khả năng của LLM trong y tế, bao gồm các truy vấn người dùng với phong cách, mức độ liên quan và chi tiết khác nhau.
Google cho biết họ coi trọng vấn đề định kiến mô hình "cực kỳ nghiêm túc" và đang phát triển các kỹ thuật bảo mật có thể làm sạch dữ liệu nhạy cảm và xây dựng biện pháp bảo vệ chống định kiến và phân biệt đối xử.
Các nhà nghiên cứu đề xuất rằng một cách để giảm định kiến y tế trong AI là xác định các tập dữ liệu không nên dùng để huấn luyện ngay từ đầu, sau đó huấn luyện trên các tập dữ liệu y tế đa dạng và đại diện hơn. Ông Zack cho biết Open Evidence, được 400.000 bác sĩ ở Mỹ sử dụng để tóm tắt lịch sử bệnh nhân và truy xuất thông tin, huấn luyện mô hình trên các tạp chí y tế, nhãn của Cục Quản lý Thực phẩm và Dược phẩm Mỹ, hướng dẫn y tế và đánh giá chuyên gia. Mọi đầu ra AI cũng được hỗ trợ bằng trích dẫn nguồn.
Đầu năm nay, các nhà nghiên cứu tại Đại học College London và King's College London đã hợp tác với NHS của Anh để xây dựng một mô hình AI tạo sinh gọi là Foresight. Mô hình này được huấn luyện trên dữ liệu bệnh nhân ẩn danh từ 57 triệu người về các sự kiện y tế như nhập viện và tiêm chủng Covid-19. Foresight được thiết kế để dự đoán kết quả sức khỏe có thể xảy ra, chẳng hạn như nhập viện hoặc nhồi máu cơ tim.
"Việc làm việc với dữ liệu quy mô quốc gia cho phép chúng tôi đại diện đầy đủ cho trạng thái đa dạng về nhân khẩu học và bệnh tật của Anh", Chris Tomlinson, nghiên cứu viên cao cấp danh dự tại UCL và trưởng nhóm Foresight, cho biết. Mặc dù không hoàn hảo, Tomlinson nói rằng nó cung cấp điểm khởi đầu tốt hơn so với các tập dữ liệu chung chung hơn.
Các nhà khoa học châu Âu cũng đã huấn luyện một mô hình AI gọi là Delphi-2M để dự đoán khả năng mắc bệnh hàng thập kỷ sau, dựa trên hồ sơ y tế ẩn danh từ 400.000 người tham gia UK Biobank.
Nhưng với dữ liệu bệnh nhân thực tế quy mô lớn như vậy, vấn đề bảo mật thường nổi lên. Dự án Foresight của NHS đã bị tạm dừng vào tháng 6 để Văn phòng Ủy viên Thông tin của Anh xem xét khiếu nại bảo vệ dữ liệu, do Hiệp hội Y khoa Anh và Hội đồng Hoàng gia Các Bác sĩ Gia đình nộp, liên quan đến việc sử dụng dữ liệu sức khỏe nhạy cảm trong huấn luyện mô hình.
Ngoài ra, các chuyên gia cảnh báo rằng các hệ thống AI thường "ảo tưởng" – hoặc bịa ra câu trả lời – điều này đặc biệt có hại trong y tế.
Nhưng Ghassemi của MIT cho biết AI đang mang lại lợi ích lớn cho y tế. "Hy vọng của tôi là chúng ta sẽ bắt đầu tập trung lại các mô hình y tế vào việc giải quyết các khoảng trống sức khỏe quan trọng, thay vì thêm một phần trăm hiệu suất nhiệm vụ mà bác sĩ vốn đã làm khá tốt rồi".