Ứng dụng AI tạo sinh giúp robot tương tác thông minh hơn
Nghiên cứu mới cho phép con người điều chỉnh hành động của robot trong thời gian thực, tương tự như cách họ đưa ra phản hồi cho một người khác.

Felix Yanwei Wang - nghiên cứu sinh ngành Kỹ thuật điện và Khoa học máy tính (EECS)MIT. Nguồn: MIT News
Hãy tưởng tượng một con robot đang giúp bạn rửa bát. Bạn yêu cầu nó lấy một chiếc bát xà phòng từ bồn rửa, nhưng kẹp của nó không nắm chính xác vào vị trí cần thiết.
Với một khung phương pháp mới do các nhà nghiên cứu tại MIT và NVIDIA phát triển, bạn có thể điều chỉnh hành vi của robot bằng những thao tác đơn giản. Bạn có thể chỉ vào chiếc bát hoặc vẽ đường di chuyển trên màn hình, hoặc đơn giản là đẩy nhẹ cánh tay của robot theo hướng đúng.
Không giống như các phương pháp chỉnh sửa hành vi robot khác, kỹ thuật này không yêu cầu người dùng phải thu thập dữ liệu mới và huấn luyện lại mô hình máy học điều khiển robot. Thay vào đó, nó cho phép robot sử dụng phản hồi trực quan, theo thời gian thực của con người để lựa chọn chuỗi hành động phù hợp nhất với ý định của người dùng.
Khi các nhà nghiên cứu thử nghiệm khung phương pháp này, tỷ lệ thành công của nó cao hơn 21% so với một phương pháp thay thế không tận dụng sự can thiệp của con người.
Trong tương lai, khung phương pháp này có thể giúp người dùng dễ dàng hướng dẫn một con robot được đào tạo trong nhà máy thực hiện nhiều nhiệm vụ gia đình khác nhau, ngay cả khi robot chưa từng thấy môi trường hoặc các vật dụng trong ngôi nhà đó trước đây.
“Chúng ta không thể mong đợi người dùng phổ thông phải tự thu thập dữ liệu và tinh chỉnh một mô hình mạng nơ-ron. Họ sẽ mong muốn robot hoạt động ngay khi mở hộp, và nếu có lỗi xảy ra, họ cần một cơ chế trực quan để điều chỉnh nó. Đây chính là thách thức mà chúng tôi đã giải quyết trong nghiên cứu này”, Felix Yanwei Wang - nghiên cứu sinh ngành Kỹ thuật điện và Khoa học máy tính (EECS) tại MIT, tác giả chính của nghiên cứu cho biết.
Giảm thiểu sự lệch hướng
Gần đây, các nhà nghiên cứu đã sử dụng mô hình AI tạo sinh được huấn luyện sẵn để học một "chính sách" - tập hợp các quy tắc mà robot tuân theo để hoàn thành một nhiệm vụ. Các mô hình này có thể giải quyết nhiều tác vụ phức tạp.
Trong quá trình huấn luyện, mô hình chỉ được tiếp xúc với các chuyển động hợp lệ của robot, do đó nó học cách tạo ra các quỹ đạo di chuyển phù hợp.
Tuy nhiên, điều này không có nghĩa là mọi hành động của robot đều phù hợp với mong muốn của người dùng trong thực tế. Ví dụ, một con robot có thể được huấn luyện để lấy hộp trên kệ mà không làm đổ chúng, nhưng có thể thất bại khi với tới một chiếc hộp trên giá sách của ai đó nếu bố cục kệ sách khác với những gì nó từng thấy trong quá trình đào tạo.
Để khắc phục những lỗi như vậy, kỹ sư thường thu thập thêm dữ liệu về nhiệm vụ mới và huấn luyện lại mô hình, một quy trình tốn kém và mất nhiều thời gian, đòi hỏi chuyên môn về máy học.
Thay vào đó, nhóm nghiên cứu tại MIT muốn cho phép người dùng điều chỉnh hành vi của robot ngay khi nó mắc lỗi.
Tuy nhiên, nếu con người can thiệp vào quá trình ra quyết định của robot, điều đó có thể vô tình khiến mô hình tạo sinh chọn một hành động không hợp lệ. Robot có thể lấy được chiếc hộp mà người dùng muốn, nhưng có thể làm đổ sách trên giá trong quá trình đó.
“Chúng tôi muốn người dùng tương tác với robot mà không tạo ra những lỗi như vậy, từ đó đạt được hành vi phù hợp hơn với ý định của người dùng, nhưng vẫn đảm bảo tính hợp lệ và khả thi”, Felix Yanwei Wang nói.
Tăng cường khả năng ra quyết định
Để đảm bảo những tương tác này không khiến robot thực hiện hành động không hợp lệ, nhóm nghiên cứu sử dụng một quy trình lấy mẫu đặc biệt. Kỹ thuật này giúp mô hình chọn hành động từ tập hợp các lựa chọn hợp lệ, sao cho phù hợp nhất với mục tiêu của người dùng.
“Thay vì áp đặt ý muốn của người dùng, chúng tôi giúp robot hiểu ý định của họ, đồng thời để quy trình lấy mẫu dao động xung quanh các hành vi mà nó đã học”, Felix Yanwei Wang cho biết.
Nhờ phương pháp này, khung nghiên cứu của họ đã vượt trội so với các phương pháp khác trong các thí nghiệm mô phỏng cũng như thử nghiệm với cánh tay robot thực tế trong một nhà bếp mô hình.
Dù phương pháp này không phải lúc nào cũng hoàn thành nhiệm vụ ngay lập tức, nhưng nó mang lại lợi ích lớn cho người dùng: họ có thể sửa robot ngay khi phát hiện lỗi, thay vì đợi robot hoàn thành nhiệm vụ rồi mới đưa ra hướng dẫn mới.
Ngoài ra, sau khi người dùng đẩy nhẹ robot vài lần để hướng dẫn nó nhặt đúng chiếc bát, robot có thể ghi nhớ hành động chỉnh sửa đó và tích hợp vào quá trình học trong tương lai. Nhờ đó, vào ngày hôm sau, robot có thể nhặt đúng chiếc bát mà không cần phải được hướng dẫn lại.
“Nhưng chìa khóa của sự cải tiến liên tục này là phải có một cơ chế để người dùng tương tác với robot, và đó chính là điều mà chúng tôi đã chứng minh trong nghiên cứu này”, Felix Yanwei Wang nói.
Trong tương lai, nhóm nghiên cứu muốn tăng tốc độ của quy trình lấy mẫu trong khi vẫn duy trì hoặc cải thiện hiệu suất. Họ cũng muốn thử nghiệm phương pháp này trong các môi trường mới để đánh giá khả năng thích ứng của robot.
(Nguồn: MIT News)