Chuyện chưa kể về nghề 'dạy việc' cho robot
Giấc mơ robot làm việc nhà đang đến gần, nhưng để đạt được điều đó, chúng cần học từ chính con người. Điều thú vị là phần lớn dữ liệu 'dạy' robot lại đến từ chính khoảnh khắc con người tự quay lại quá trình làm những công việc thường ngày trong cuộc sống...

Ảnh minh họa
Giấc mơ đưa robot hình người vào từng gia đình đang dần trở thành hiện thực và kéo theo đó là sự xuất hiện của một kiểu công việc hoàn toàn mới. Công việc này không đòi hỏi kỹ năng phức tạp hay thiết bị đắt tiền, chỉ cần một chiếc dây đeo đầu để gắn camera, một chiếc smartphone và một danh sách các việc nhà quen thuộc.
Khi trí tuệ nhân tạo phát triển nhanh chóng, robot hình người đã trở thành “chiến tuyến” mới trong cuộc đua công nghệ toàn cầu. Các hãng liên tục giới thiệu những mẫu robot ngày càng linh hoạt, có thể đi lại, nhảy múa, thậm chí thực hiện những chuyển động phức tạp một cách mượt mà hơn trước.
Tuy vậy, mục tiêu lớn nhất của ngành là tạo ra một robot đa năng có thể làm việc trong cửa hàng, văn phòng lẫn gia đình vẫn còn là một thách thức lớn. Để đạt được điều đó, robot cần được “học” từ một lượng dữ liệu khổng lồ, nhằm hiểu và thay thế con người một cách an toàn, hiệu quả.
Điều thú vị là phần lớn dữ liệu này lại đến từ chính con người, khi họ tự quay lại quá trình làm những công việc thường ngày trong cuộc sống.
Từ đó, nhu cầu về các video quay ở góc nhìn thứ nhất (còn gọi là “dữ liệu vị kỷ” hay “dữ liệu con người”) tăng vọt. Nhiều startup đã nhanh chóng tham gia thị trường này, tổ chức thu thập và gán nhãn video từ hàng nghìn lao động tự do trên khắp thế giới để phục vụ việc huấn luyện robot.

Nhiều startup đã nhanh chóng tham gia tổ chức thu thập và gán nhãn video từ hàng nghìn lao động tự do trên khắp thế giới để phục vụ việc huấn luyện robot
Theo Arian Sadeghi, phụ trách mảng dữ liệu robot tại Micro1, loại dữ liệu này gần như cần thiết trong mọi môi trường, từ nhà máy, kho bãi, cửa hàng cho đến viện dưỡng lão hay bệnh viện, bởi mỗi nơi đều có những chuyển động và thao tác rất khác nhau.
Những người tham gia công việc này sẽ được cung cấp thiết bị gắn camera trên đầu, hướng dẫn quay và một danh sách nhiệm vụ như nấu ăn, dọn dẹp, làm vườn hay chăm sóc thú cưng. Họ luân phiên thực hiện các công việc và ghi lại ít nhất 10 giờ video mỗi tuần.
Dù hiện tại nội dung chủ yếu xoay quanh việc nhà, các công ty vẫn khuyến khích người tham gia sáng tạo và thử nghiệm nhiều tình huống khác nhau. Lý do là bất kỳ hành động nào được ghi lại cũng có thể giúp robot học nhanh hơn và thích nghi tốt hơn với những môi trường mới.
Như Sadeghi nói một cách đơn giản “nếu bạn từng nghĩ giá mà có robot làm việc này thay mình, thì cứ việc ghi lại bởi rất có thể đó chính là điều robot cần học”.
HÀNG TỶ GIỜ
Dù đặt trụ sở tại Palo Alto (California), Micro1 hiện có khoảng 4.000 “chuyên viên robot tổng quát” làm việc tại các hộ gia đình ở 71 quốc gia, mỗi tháng gửi về hơn 160.000 giờ video. Tuy nhiên, theo Sadeghi, con số này vẫn chỉ là muối bỏ bể so với nhu cầu thực tế.
Ông cho rằng để huấn luyện robot một cách đầy đủ, có thể cần tới hàng tỷ giờ dữ liệu. Ngay cả những tương tác phức tạp giữa con người với nhau cũng còn chưa được chạm tới, những gì đang có hiện nay mới chỉ dừng lại ở các công việc gia đình đơn giản.
Theo Sadeghi, cơn khát dữ liệu trong lĩnh vực robot hiện nay khá giống với giai đoạn đầu của các chatbot như ChatGPT. Những hệ thống này được huấn luyện trên khối lượng văn bản khổng lồ từ Internet, từ đó học được các mẫu ngôn ngữ để tạo ra câu trả lời phù hợp nhất cho người dùng.
Sau văn bản, AI tiếp tục tiến hóa để có thể tạo ra hình ảnh và video theo yêu cầu, tận dụng nguồn dữ liệu phong phú có sẵn trên mạng. Tuy nhiên, với robot, mọi thứ phức tạp hơn nhiều.
Các nhà phát triển cần những dữ liệu mang tính đặc thù cao về hành động trong thế giới thực, thứ mà Internet không thể cung cấp sẵn dưới dạng thư viện dùng ngay.
Chính khoảng trống này đã mở ra một thị trường trị giá hàng tỷ USD cho các startup như Micro1. Không chỉ thu thập video, họ còn gán nhãn chi tiết để giúp robot hiểu được vật thể, khoảng cách và cách chuyển động trong không gian.
Các công ty nghiên cứu dự đoán ngành thu thập và gán nhãn dữ liệu sẽ tăng trưởng khoảng 30%/năm, đặc biệt mạnh ở châu Á và có thể đạt quy mô ít nhất 10 tỷ USD vào năm 2030.
Ravi Rajalingam, nhà sáng lập Objectways, vốn từng cung cấp dữ liệu cho trợ lý ảo và xe tự lái, đã chuyển hướng sang robot từ năm ngoái. Ông cho biết, dù đã thuê nhiều cộng tác viên thu thập dữ liệu nhưng chỉ khoảng một nửa số video gửi về là thực sự sử dụng được.
Dẫu vậy, do phần lớn khách hàng của ông đến từ Mỹ, nhiều công ty sẵn sàng chi trả cao hơn để có dữ liệu từ các hộ gia đình Mỹ.
Rajalingam nhấn mạnh rằng sự khác biệt giữa các môi trường sống là yếu tố rất quan trọng, từ căn bếp cho đến những vật dụng quen thuộc như cây chổi cũng có thể khác nhau đáng kể giữa các quốc gia. Vì vậy, việc thu thập dữ liệu trên phạm vi toàn cầu là điều cần thiết, dù cuối cùng robot sẽ được triển khai ở đâu đi nữa.
CÁCH HUẤN LUYỆN ROBOT
Trong suốt nhiều thập kỷ, robot chủ yếu được dạy cách thực hiện nhiệm vụ thông qua điều khiển từ xa của con người. Cách làm này khá chính xác nhưng lại tốn kém vì cần đến hệ thống phần cứng phức tạp.
Gần đây, một hướng đi tiết kiệm hơn là sử dụng phần mềm để mô phỏng các tình huống trong môi trường ảo. Tuy vậy, phương pháp này thường gặp hạn chế khi robot phải tương tác với thế giới thực, chẳng hạn như cầm nắm một chiếc ly.
Theo Alicia Veneziani từ startup Sharpa, bài toán dữ liệu luôn xoay quanh sự đánh đổi giữa chất lượng và số lượng. Dữ liệu càng nhiều thì càng đa dạng, nhưng không phải lúc nào cũng đủ chính xác để huấn luyện hiệu quả.
Ở cấp độ quốc gia, Trung Quốc đang đẩy mạnh đầu tư vào lĩnh vực này với kế hoạch xây dựng ít nhất 60 trung tâm huấn luyện robot. Phần lớn robot hình người sản xuất hàng loạt tại đây hiện vẫn được sử dụng chủ yếu cho mục đích nghiên cứu và đào tạo, thay vì triển khai thực tế.
Một xu hướng mới bắt đầu nổi lên từ cuối năm ngoái là sử dụng dữ liệu do con người trực tiếp tạo ra như một giải pháp trung gian. Cách này đơn giản hơn nhiều về chi phí vì chỉ cần các thiết bị ghi hình phổ biến như GoPro, kính thông minh hoặc điện thoại, cùng với chi phí thuê nhân công dao động từ 5 - 20 USD/giờ tùy khu vực.

Chỉ cần các thiết bị ghi hình phổ biến như GoPro hay kính thông minh đã có thể ghi lại dữ liệu từ chính con người
Ý tưởng cốt lõi khá rõ ràng. Thay vì để robot tự làm nhiệm vụ ngay từ đầu, hãy để con người làm trước và ghi lại toàn bộ quá trình. Nhờ đó, các công ty không cần đầu tư quá nhiều vào robot ở giai đoạn đầu, mà chỉ cần chi cho thiết bị và công sức của con người.
Mô hình này không chỉ xuất hiện ở Trung Quốc mà còn được áp dụng tại Nhật Bản và Hàn Quốc, với các trung tâm đặt ở Đông Nam Á để tận dụng chi phí lao động thấp. Trong khi đó, các công ty như Tesla đang huấn luyện robot hình người Optimus tại Mỹ, còn thị trường Mỹ và châu Âu vẫn thiên về phương pháp mô phỏng, được thúc đẩy bởi Nvidia.
Dù vậy, sự kết hợp giữa các phương pháp đang cho thấy hiệu quả rõ rệt. Theo một báo cáo gần đây của Nvidia, việc bổ sung hơn 20.000 giờ video góc nhìn thứ nhất vào quá trình huấn luyện đã giúp cải thiện tỷ lệ thành công của robot trong nhiều nhiệm vụ thực tế như cuộn áo, phân loại bài, mở nắp chai hay sử dụng ống tiêm lên hơn 50%.
Nhìn chung, không có một cách tiếp cận nào là hoàn hảo. Các chuyên gia dự đoán tương lai của việc huấn luyện robot sẽ là sự kết hợp linh hoạt giữa nhiều phương pháp khác nhau, tận dụng điểm mạnh của từng cách để đạt hiệu quả tốt nhất.
CHẶNG CUỐI CỦA TỰ ĐỘNG HÓA
Bước ngoặt của robot tự hành được cho là xuất hiện cách đây khoảng ba năm, khi các mô hình ngôn ngữ lớn như ChatGPT mở đường cho những thuật toán mới có khả năng chuyển đổi tín hiệu hình ảnh thành hành động vật lý.
Nhờ đó, những robot vốn chỉ quen với các nhiệm vụ lặp đi lặp lại bắt đầu có thể “hiểu” môi trường xung quanh và tự điều hướng trong thế giới thực.
Trong năm nay, công ty gán nhãn dữ liệu Labellerr AI đã bắt đầu thu thập các video góc nhìn thứ nhất từ công nhân tại các nhà máy ở Ấn Độ để phục vụ việc huấn luyện robot. Puneet Jindal, đồng sáng lập công ty cho rằng trong vài năm tới, việc ưu tiên dữ liệu do con người tạo ra là lựa chọn gần như hiển nhiên.
Tuy nhiên, xu hướng này có thể không kéo dài mãi. Những dữ liệu đó có thể giúp cải thiện các mô hình mô phỏng hoặc AI trong tương lai có thể chuyển đổi video sẵn có trên mạng thành góc nhìn thứ nhất, trở thành một nguồn thay thế.
Thực tế, ngay cả các phòng thí nghiệm robot cũng chưa chắc chắn họ sẽ cần loại dữ liệu nào trong tương lai gần. Điều này phản ánh một lĩnh vực vẫn đang trong giai đoạn thử nghiệm và thay đổi rất nhanh.
Một trong những lý do khiến robot đa năng khó phát triển là môi trường sống của con người quá phức tạp và khó đoán. Trong gia đình, mọi thứ luôn thay đổi, đồ đạc được di chuyển, thiết bị được sử dụng theo nhiều cách khác nhau và con người thì không ngừng tương tác.
Theo các nhà nghiên cứu, điều robot còn thiếu chính là trực giác, khả năng cảm nhận lực, ma sát và sự không chắc chắn mà con người tích lũy qua cả cuộc đời.
Chính vì vậy, việc tạo ra những robot có thể thực sự hữu ích trong các công việc thường ngày như nấu ăn hay dọn dẹp được xem là chặng cuối cùng và cũng là khó khăn nhất của quá trình tự động hóa.
Hiện tại, robot hình người vẫn hoạt động tốt nhất trong những môi trường được kiểm soát chặt chẽ như nhà máy, nơi chúng có thể đạt độ chính xác gần như tuyệt đối. Nhưng khi bước ra khỏi môi trường này, hiệu suất giảm đáng kể.
Ngay cả những nhiệm vụ tưởng chừng đơn giản như gấp áo phông, tỷ lệ thành công cũng chỉ dao động khoảng 70 – 80%, chưa đủ để đưa vào ứng dụng thương mại rộng rãi.

Những nhiệm vụ tưởng chừng đơn giản như gấp áo phông, tỷ lệ thành công của robot cũng chỉ dao động khoảng 70 – 80% (Ảnh minh họa)
Bên cạnh đó là vấn đề an toàn. Nếu robot không phân biệt được giữa một con búp bê và một em bé thật trong lúc dọn dẹp, hậu quả có thể rất nghiêm trọng. Những rủi ro như vậy cho thấy công nghệ này vẫn còn một chặng đường dài phía trước.
Việc thử nghiệm robot trong những tình huống liên quan đến trẻ nhỏ vẫn còn xa vời. Tuy nhiên, một số bước đi ban đầu đã được thực hiện, chẳng hạn như thử nghiệm với vật nuôi như chó, trước khi tiến tới những ứng dụng phức tạp và nhạy cảm hơn trong tương lai.











