Điểm yếu chí mạng của AI

12/4/2025Gốc

Nghiên cứu chỉ ra rằng bất chấp những tuyên bố táo bạo về khả năng lập trình của AI, xử lý lỗi vẫn là điểm mà con người giỏi hơn.

AI vẫn chưa thể thay thế con người trong lĩnh vực lập trình. Ảnh: John McGuire.

Trong thời gian gần đây, các mô hình AI hàng đầu từ OpenAI, Anthropic đang ngày càng được sử dụng rộng rãi hơn cho ứng dụng lập trình. ChatGPT và Claude được tăng bộ nhớ và khả năng xử lý để có thể phân tích hàng trăm dòng code, hay Gemini được tích hợp phần hiển thị kết quả Canvas dành riêng cho lập trình viên.

Vào tháng 10/2024, Sundar Pichai, CEO Google, cho biết 25% lượng mã mới tại công ty được tạo ra bởi AI. Mark Zuckerberg, CEO của Meta, cũng bày tỏ tham vọng triển khai rộng rãi các mô hình AI viết mã trong nội bộ tập đoàn.

Tuy nhiên, một nghiên cứu mới từ Microsoft Research, bộ phận R&D của Microsoft, cho thấy các mô hình AI, bao gồm Claude 3.7 Sonnet của Anthropic và o3-mini của OpenAI, không thể xử lý được nhiều lỗi trong một tiêu chuẩn kiểm tra lập trình có tên SWE-bench Lite.

Các tác giả của nghiên cứu đã kiểm tra 9 mô hình AI khác nhau được tích hợp một loạt công cụ gỡ lỗi như Python debugger, và có khả năng xử lý vấn đề trong một câu lệnh. Các mô hình được giao nhiệm vụ giải quyết 300 lỗi phần mềm đã được tuyển chọn từ bộ dữ liệu SWE-bench Lite.

Tỉ lệ thành công khi xử lý các vấn đề lập trình từ bộ dữ liệu SWE-bench Lite. Ảnh: Microsoft.

Ngay cả khi được trang bị các mô hình mạnh và mới hơn, kết quả cho thấy tác nhân AI cũng hiếm khi hoàn thành thành công quá một nửa số nhiệm vụ gỡ lỗi được giao. Trong số các mô hình được thử nghiệm thì Claude 3.7 Sonnet đạt tỷ lệ thành công trung bình cao nhất với 48,4%, theo sau là OpenAI’s o1 với 30,2%, và o3-mini với 22,1%.

Một số lý do dẫn đến hiệu quả thấp như trên bao gồm một số mô hình không hiểu cách ứng dụng của các công cụ gỡ lỗi được cung cấp. Ngoài ra theo các tác giả, vấn đề lớn hơn nằm ở việc không đủ dữ liệu.

Họ cho rằng hệ thống huấn luyện các mô hình vẫn còn thiếu dữ liệu mô phỏng các bước gỡ lỗi mà con người thực hiện từ đầu đến cuối. Nói cách khác, AI chưa được học đủ về cách con người suy nghĩ và hành động từng bước khi xử lý một lỗi phần mềm thực tế.

Việc huấn luyện và tinh chỉnh các mô hình sẽ giúp chúng hoàn thiện hơn trong việc gỡ lỗi phần mềm. “Tuy nhiên, điều này sẽ đòi hỏi những bộ dữ liệu chuyên biệt để phục vụ quá trình huấn luyện”, các tác giả cho biết.

Nhiều nghiên cứu đã chỉ ra lỗ hổng bảo mật và lỗi của AI trong quá trình tạo mã, do những điểm yếu như khả năng hiểu logic lập trình còn hạn chế. Một đánh giá gần đây về Devin, công cụ lập trình bằng AI, cho thấy nó chỉ hoàn thành được 3 trên 20 bài kiểm tra lập trình.

Khả năng lập trình của AI vẫn còn gây nhiều tranh cãi. Trước đó, ông Kevin Weil, Giám đốc Sản phẩm của OpenAI, cho rằng vào cuối năm nay, AI sẽ vượt qua các lập trình viên con người.

Mặt khác, Bill Gates, đồng sáng lập Microsoft, tin rằng lập trình vẫn sẽ là một nghề nghiệp bền vững trong tương lai. Các lãnh đạo khác như Amjad Masad (CEO của Replit), Todd McKinnon (CEO của Okta), và Arvind Krishna (CEO của IBM) cũng lên tiếng ủng hộ quan điểm này.

Nghiên cứu của Microsoft mặc dù không mới nhưng cũng là lời nhắc cho các lập trình viên, kể cả cấp quản lý, suy nghĩ kỹ hơn trước khi giao toàn quyền viết code cho AI.

Nhật Tường

Nguồn Znews: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html