AI giúp dự đoán vị trí của protein trong tế bào người
Với sự hỗ trợ của AI, các nhà nghiên cứu có thể dự đoán vị trí của protein trong tế bào người. Mô hình học máy được huấn luyện dựa trên sự hiểu biết tổng hợp về hành vi của protein và tế bào có thể giúp chẩn đoán bệnh, phát triển thuốc mới.

Thí nghiệm kiểm chứng đánh giá mô hình mới: hàng trên cho thấy dự đoán của mô hình đối với các dòng tế bào và protein chưa từng thấy, trong khi hàng dưới thể hiện kết quả kiểm chứng bằng thực nghiệm. Ảnh: MIT News
Việc protein nằm sai vị trí trong tế bào có thể góp phần gây ra nhiều bệnh như Alzheimer, xơ nang và ung thư. Tuy nhiên, trong một tế bào người có tới khoảng 70.000 protein và biến thể protein khác nhau, trong khi mỗi thí nghiệm thông thường chỉ kiểm tra được một số rất ít, khiến việc xác định vị trí của protein một cách thủ công trở nên cực kỳ tốn kém và mất thời gian.
Một thế hệ mới của các kỹ thuật tính toán hiện đang tìm cách đơn giản hóa quy trình này thông qua các mô hình học máy, tận dụng các tập dữ liệu chứa hàng nghìn protein và vị trí của chúng được đo trên nhiều dòng tế bào khác nhau. Một trong những tập dữ liệu lớn nhất là Bản đồ Protein Người (Human Protein Atlas), lưu trữ hành vi nội bào của hơn 13.000 protein trên hơn 40 dòng tế bào. Tuy nhiên, khối lượng dữ liệu khổng lồ này mới chỉ bao phủ khoảng 0,25% tổng số kết hợp có thể có giữa tất cả protein và dòng tế bào.
Giờ đây, các nhà nghiên cứu từ MIT, Đại học Harvard và Viện Broad của MIT và Harvard đã phát triển một phương pháp tính toán mới có khả năng khám phá hiệu quả toàn bộ phần dữ liệu còn lại chưa được nghiên cứu. Phương pháp này có thể dự đoán vị trí của bất kỳ protein nào trong bất kỳ dòng tế bào người nào, ngay cả khi cả protein lẫn tế bào đó chưa từng được thử nghiệm trước đó.
Không chỉ vậy, kỹ thuật này còn xác định vị trí protein ở cấp độ tế bào đơn lẻ, thay vì chỉ ước tính trung bình trên toàn bộ quần thể tế bào. Điều này mở ra khả năng xác định vị trí protein trong một tế bào ung thư cụ thể sau điều trị.
Để làm được điều đó, nhóm nghiên cứu đã kết hợp mô hình ngôn ngữ protein với một mô hình thị giác máy tính đặc biệt, nhằm thu thập thông tin chi tiết về cả protein và tế bào. Kết quả, người dùng sẽ nhận được hình ảnh tế bào với vùng được đánh dấu, cho thấy vị trí dự đoán của protein.
Do vị trí của protein phản ánh chức năng của nó, kỹ thuật này có thể giúp các nhà khoa học và bác sĩ chẩn đoán bệnh hiệu quả hơn hoặc xác định mục tiêu điều trị, đồng thời hỗ trợ các nhà sinh học hiểu rõ hơn về cách các quá trình sinh học phức tạp liên quan đến sự phân bố protein trong tế bào.
“Bạn có thể thực hiện các thí nghiệm định vị protein ngay trên máy tính mà không cần đến phòng thí nghiệm, tiết kiệm hàng tháng trời công sức. Dù vẫn cần kiểm nghiệm lại dự đoán, kỹ thuật này có thể đóng vai trò như bước sàng lọc ban đầu để xác định những gì đáng thử nghiệm”, theo Yitong Tseo, nghiên cứu sinh tại MIT và đồng tác giả bài báo.
Sự phối hợp giữa hai mô hình AI
Nhiều mô hình hiện nay chỉ có thể dự đoán dựa trên dữ liệu protein và tế bào đã được huấn luyện, hoặc không xác định được vị trí protein ở cấp độ tế bào đơn lẻ.
Để vượt qua giới hạn này, nhóm nghiên cứu đã phát triển phương pháp gồm hai phần có tên là PUPS (Protein localization Using Protein and cell representations).
Phần đầu tiên sử dụng mô hình chuỗi axit amin để hiểu tính chất của protein liên quan đến vị trí nội bào và cấu trúc 3D của nó.
Phần thứ hai là mô hình “chắp vá ảnh” (image inpainting), thu thập thông tin từ ba hình ảnh nhuộm màu của một tế bào (hạt nhân, vi ống, mạng nội chất) để nắm được đặc điểm và tình trạng tế bào.
Sau đó, PUPS kết hợp hai mô hình này để tạo ra hình ảnh với vùng được đánh dấu là vị trí dự đoán của protein trong một tế bào cụ thể.
“Ngay cả trong cùng một dòng tế bào, các tế bào riêng lẻ có đặc điểm khác nhau, và mô hình của chúng tôi có thể hiểu được sự tinh tế đó”, Tseo nói.
Dạy AI hiểu sâu hơn
Trong quá trình huấn luyện, các nhà nghiên cứu đã sử dụng một số kỹ thuật đặc biệt để giúp PUPS học cách liên kết thông tin từ hai mô hình, ngay cả khi gặp protein hoàn toàn mới.
Ví dụ: họ giao thêm nhiệm vụ phụ cho mô hình, như xác định tên khoang nội bào chứa protein (ví dụ: nhân tế bào). Điều này giống như việc giáo viên yêu cầu học sinh không chỉ vẽ hoa mà còn viết tên từng bộ phận - giúp nâng cao hiểu biết toàn diện hơn.
PUPS cũng có thể tự học được cách mỗi phần trong chuỗi axit amin của protein đóng vai trò ra sao trong việc định vị nội bào, mà không cần mô hình hóa thủ công.
“Hầu hết phương pháp hiện nay đều cần có ảnh nhuộm màu protein trước, tức là đã từng được huấn luyện qua. Phương pháp của chúng tôi khác biệt ở chỗ có thể khái quát hóa trên cả protein và dòng tế bào chưa từng thấy trước đó”, Xinyi Zhang, đồng tác giả, cho biết.
Tính ứng dụng cao và định hướng tương lai
Do khả năng khái quát hóa mạnh mẽ, PUPS có thể phát hiện sự thay đổi vị trí protein do đột biến - điều chưa được ghi nhận trong Human Protein Atlas.
Nhóm nghiên cứu đã xác minh độ chính xác của PUPS qua thí nghiệm thực tế trên các dòng tế bào chưa từng huấn luyện, và kết quả cho thấy PUPS dự đoán chính xác hơn so với các mô hình AI nền tảng hiện có.
Trong tương lai, nhóm kỳ vọng sẽ mở rộng khả năng của PUPS để: Hiểu tương tác giữa các protein với nhau trong cùng một tế bào; Dự đoán vị trí của nhiều protein cùng lúc; Xa hơn nữa, áp dụng mô hình cho mô hình mô người sống, thay vì chỉ các tế bào nuôi cấy trong phòng thí nghiệm.
(Theo MIT News)