Mô hình o3 và o4-mini của OpenAI suy luận đỉnh hơn nhưng 'bịa chuyện' nhiều hơn

o3 và o4-mini, hai mô hình trí tuệ nhân tạo (AI) suy luận mới của OpenAI, được xem là công nghệ tiên tiến hàng đầu hiện này ở nhiều khía cạnh. Tuy nhiên, o3 và o4-mini vẫn gặp bị 'ảo giác', thậm chí còn nhiều hơn một số mô hình AI cũ của OpenAI.

"Ảo giác" có nghĩa là mô hình AI đưa ra thông tin sai, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và thuyết phục. Mô hình ngôn ngữ đôi khi không thực sự hiểu câu hỏi mà chỉ dự đoán từ tiếp theo dựa trên dữ liệu học được. Nếu không có đủ thông tin rõ ràng từ ngữ cảnh, AI có thể "đoán đại" theo cách có vẻ hợp lý.

"Ảo giác" đã được chứng minh là một trong những vấn đề lớn nhất và khó giải quyết nhất trong AI, ngay cả với những hệ thống có hiệu suất cao nhất hiện nay. Trong quá khứ, mỗi mô hình AI mới đều cải thiện phần nào về mặt này, "ảo giác" ít hơn so với thế hệ trước. Tuy nhiên, điều đó dường như không đúng với o3 và o4-mini.

Theo các bài kiểm tra nội bộ của OpenAI, o3 và o4-mini "ảo giác" thường xuyên hơn so với các mô hình suy luận trước đó như o1, o1-mini và o3-mini, cũng như mô hình truyền thống như GPT-4o. Điều đáng lo hơn là OpenAI hiện vẫn chưa rõ nguyên nhân vì sao điều này xảy ra.

Trong báo cáo kỹ thuật về o3 và o4-mini, OpenAI cho biết “cần có thêm nghiên cứu” để hiểu lý do tại sao việc mở rộng các mô hình suy luận lại khiến vấn đề "ảo giác" trở nên nghiêm trọng hơn. Dù o3 và o4-mini có hiệu suất tốt hơn ở một số lĩnh vực như lập trình và toán học, nhưng vì chúng "đưa ra nhiều tuyên bố hơn", nên cũng thường tạo ra cả “nhiều thông tin chính xác hơn và nhiều thông tin sai lệch/ảo giác hơn”, theo báo cáo.

OpenAI phát hiện o3 đã "ảo giác" trong 33% câu hỏi thuộc PersonQA (bộ chỉ số nội bộ công ty dùng để đánh giá độ chính xác kiến thức về con người của mô hình). Con số này gần như gấp đôi tỷ lệ "ảo giác" của các mô hình suy luận trước đó là o1 (16%) và o3-mini (14.8%). Trong khi o4-mini còn tệ hơn, "ảo giác" tới 48% trên PersonQA.

o3 và o4-mini bị "ảo giác" nhiều hơn một số mô hình AI cũ của OpenAI - Ảnh: TechCrunch

o3 và o4-mini bị "ảo giác" nhiều hơn một số mô hình AI cũ của OpenAI - Ảnh: TechCrunch

Cuộc kiểm tra độc lập từ Transluce, phòng thí nghiệm nghiên cứu AI phi lợi nhuận, cũng ghi nhận o3 có xu hướng “bịa ra” những bước mà nó đã làm để đi đến kết luận trong quá trình đưa ra câu trả lời. Trong một ví dụ, Transluce quan sát thấy o3 khẳng định rằng nó đã chạy một đoạn mã trên MacBook Pro 2021 “bên ngoài ChatGPT” rồi sao chép kết quả vào câu trả lời – điều mà mô hình suy luận này hoàn toàn không thể làm được.

Neil Chowdhury, nhà nghiên cứu tại Transluce và là cựu nhân viên OpenAI, cho rằng: “Giả thuyết của chúng tôi là loại học tăng cường được sử dụng trong các mô hình dòng o có thể đã khuếch đại các vấn đề vốn thường được giảm thiểu (nhưng không bị loại bỏ hoàn toàn) bởi các quy trình xử lý hậu huấn luyện tiêu chuẩn”.

Sau khi một mô hình AI được huấn luyện xong trên dữ liệu lớn, nó sẽ chưa sẵn sàng để sử dụng ngay. Thường sẽ cần thêm các bước hậu huấn luyện để cải thiện chất lượng đầu ra, độ an toàn và khả năng hiểu biết.

Học tăng cường là phương pháp học máy, trong đó một tác tử AI học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác tử AI tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.

Ứng dụng của học tăng cường

Chơi game: Học tăng cường đã được sử dụng để huấn luyện các hệ thống AI chơi game, chẳng hạn AlphaGo của Google DeepMind.

Robot: Điều khiển robot để học cách thực hiện các tác vụ phức tạp như di chuyển hoặc thu thập vật phẩm.

Tối ưu hóa: Ứng dụng trong các lĩnh vực như quảng cáo, tài chính và quản lý tài nguyên để tối đa hóa lợi nhuận hoặc hiệu quả.

Ô tô tự lái: Học tăng cường giúp ô tô tự lái học cách điều khiển an toàn trong môi trường giao thông phức tạp.

Sarah Schwettmann, nhà đồng sáng lập Transluce, nói thêm rằng tỷ lệ "ảo giác" cao có thể khiến o3 kém hữu dụng hơn so với tiềm năng thực sự.

Kian Katanforoosh, giáo sư thỉnh giảng tại Đại học Stanford (Mỹ) và là Giám đốc điều hành công ty khởi nghiệp đào tạo kỹ năng Workera, cho biết đội ngũ của anh đã thử nghiệm o3 trong quy trình viết mã và đánh giá nó cao hơn đối thủ. Tuy nhiên, Kian Katanforoosh lưu ý rằng o3 có xu hướng bịa ra các liên kết web, khi nhấp vào thì không hoạt động.

"Ảo giác" có thể giúp mô hình AI nghĩ ra ý tưởng thú vị và sáng tạo hơn, nhưng cũng khiến chúng khó được chấp nhận trong môi trường kinh doanh – nơi tính chính xác là ưu tiên hàng đầu. Ví dụ, một công ty luật sẽ không chấp nhận được việc mô hình AI đưa hàng loạt lỗi thực tế vào hợp đồng của khách hàng.

Trang bị khả năng tìm kiếm web

Một hướng đi đầy hứa hẹn để tăng độ chính xác cho mô hình AI là trang bị khả năng tìm kiếm web. Khi được tích hợp tìm kiếm web, GPT-4o đạt độ chính xác 90% trên SimpleQA (bộ chỉ số đánh giá độ chính xác khác của OpenAI). Tìm kiếm có thể giúp cải thiện tỷ lệ "ảo giác" trong các mô hình suy luận, ít nhất là trong những trường hợp người dùng chấp nhận chia sẻ lời nhắc với nhà cung cấp tìm kiếm bên thứ ba.

Nếu mở rộng mô hình suy luận tiếp tục làm tăng tỷ lệ "ảo giác", việc tìm ra giải pháp sẽ càng trở nên cấp thiết hơn.

“Giải quyết vấn đề 'ảo giác' trong tất cả mô hình của chúng tôi là một lĩnh vực nghiên cứu đang diễn ra. Chúng tôi không ngừng nỗ lực để cải thiện độ chính xác và độ tin cậy của chúng”, Niko Felix, người phát ngôn của OpenAI, chia sẻ với trang TechCrunch.

Trong năm qua, ngành công nghiệp AI đã chuyển hướng sang tập trung vào các mô hình suy luận sau khi những kỹ thuật cải thiện mô hình truyền thống có dấu hiệu chững lại. Suy luận giúp mô hình AI thực hiện tốt hơn ở nhiều nhiệm vụ mà không cần tiêu tốn lượng lớn tài nguyên điện toán và dữ liệu. Tuy nhiên, dường như suy luận cũng có thể dẫn đến "ảo giác" nhiều hơn và đó là một thách thức lớn.

OpenAI thêm hệ thống giám sát ngăn o3, o4-mini giúp kẻ xấu phát triển vũ khí sinh học và hóa học

OpenAI cho biết đã triển khai hệ thống giám sát mới nhằm theo dõi o3 và o4-mini với các yêu cầu liên quan đến mối đe dọa sinh học và hóa học.

Theo báo cáo an toàn của OpenAI, hệ thống này nhằm ngăn chặn o3 và o4-mini đưa ra lời khuyên có thể giúp ai đó thực hiện các cuộc tấn công gây hại tiềm tàng.

OpenAI cho biết o3 và o4-mini thể hiện bước tiến lớn về năng lực so với các mô hình trước đó của công ty, nên gây ra những rủi ro mới khi rơi vào tay kẻ xấu. Theo các chỉ số đánh giá nội bộ của OpenAI, o3 đặc biệt thành thạo hơn trong việc trả lời các câu hỏi liên quan đến việc tạo ra một số loại mối đe dọa sinh học. Vì lý do đó, cũng như để giảm thiểu các rủi ro khác, OpenAI đã phát triển hệ thống giám sát mới, được mô tả là một “bộ theo dõi suy luận tập trung vào an toàn”.

Hệ thống này được huấn luyện riêng để hiểu và lý giải theo chính sách nội dung của OpenAI, được tích hợp trực tiếp trên o3 và o4-mini. Nó có nhiệm vụ nhận diện các yêu cầu liên quan đến nguy cơ sinh học và hóa học, hướng dẫn mô hình AI từ chối đưa ra lời khuyên về những chủ đề đó.

Để xây dựng cơ sở dữ liệu huấn luyện, OpenAI đã để các nhóm kiểm tra an toàn dành khoảng 1.000 giờ đánh dấu các đoạn hội thoại liên quan đến rủi ro sinh học không an toàn từ o3 và o4-mini. Trong một thử nghiệm mô phỏng “logic chặn” của hệ thống an toàn này, o3 và o4-mini đã từ chối phản hồi các yêu cầu nguy hiểm với tỷ lệ 98,7%, theo báo cáo từ OpenAI.

Logic chặn có thể hiểu là cơ chế hoặc quy trình mà hệ thống sử dụng để ngăn chặn hoặc từ chối một hành động cụ thể. Trong trường hợp hệ thống giám sát an toàn của OpenAI, logic chặn đề cập đến các quy tắc và thuật toán được lập trình để xác định các yêu cầu liên quan đến rủi ro sinh học và hóa học, sau đó ngăn chặn o3 và o4-mini đưa ra câu trả lời hoặc lời khuyên về những chủ đề đó.

Tuy nhiên, OpenAI thừa nhận rằng thử nghiệm này không tính đến việc người dùng có thể thay đổi yêu cầu sau khi bị chặn. Đó là lý do tại sao công ty khởi nghiệp Mỹ cho biết sẽ tiếp tục dựa một phần vào giám sát của con người.

Theo OpenAI, o3 và o4-mini không vượt qua ngưỡng “rủi ro cao” với các mối đe dọa sinh học. Tuy nhiên, so với o1 và GPT-4, các phiên bản đầu tiên của o3 và o4-mini lại tỏ ra hiệu quả hơn khi trả lời câu hỏi liên quan đến phát triển vũ khí sinh học.

OpenAI cho biết đang tích cực theo dõi cách mà các mô hình AI của mình có thể bị lợi dụng để tạo điều kiện cho hành vi phát triển vũ khí sinh học và hóa học, theo Preparedness Framework được công ty cập nhật gần đây.

Preparedness Framework (Khung chuẩn bị hoặc Khung năng lực ứng phó) là một hệ thống hoặc kế hoạch do OpenAI xây dựng để đánh giá, theo dõi và quản lý rủi ro tiềm ẩn từ các mô hình AI tiên tiến, đặc biệt là khi chúng đạt đến những năng lực nguy hiểm hoặc có thể bị lạm dụng.

OpenAI ngày càng dựa vào các hệ thống tự động để giảm thiểu rủi ro từ các mô hình AI. Ví dụ, để ngăn hệ thống tạo ảnh gốc của GPT-4o tạo ra nội dung lạm dụng tình dục trẻ em, OpenAI cho biết cũng sử dụng một bộ giám sát suy luận tương tự như áp dụng với o3 và o4-mini.

Tuy vậy, một số nhà nghiên cứu đã bày tỏ lo ngại rằng OpenAI không đặt ưu tiên cho vấn đề an toàn một cách đúng mức. Metr, một trong các đối tác kiểm tra an toàn của OpenAI, cho biết họ có rất ít thời gian để kiểm tra o3 với các chỉ số liên quan đến hành vi lừa đảo. Trong khi đó, OpenAI lại không công bố báo cáo an toàn cho mô hình mới GPT-4.1.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/mo-hinh-o3-va-o4-mini-cua-openai-suy-luan-dinh-hon-nhung-bia-chuyen-nhieu-hon-231710.html