Công cụ AI giúp hay cản trở năng suất của kỹ sư phần mềm?
Một nghiên cứu mới được công bố hôm 10.7 bởi tổ chức phi lợi nhuận nghiên cứu AI METR lại đặt dấu hỏi về mức độ thực sự mà các công cụ lập trình AI hiện nay giúp tăng năng suất cho các lập trình viên giàu kinh nghiệm.

Các lập trình viên ngày càng dựa nhiều vào AI hơn
Quy trình làm việc của kỹ sư phần mềm đã thay đổi đáng kể trong những năm gần đây nhờ làn sóng công cụ lập trình sử dụng AI như Cursor và GitHub Copilot, với lời hứa sẽ tăng năng suất bằng cách tự động viết mã, sửa lỗi và kiểm thử thay đổi. Các công cụ này được hỗ trợ bởi những mô hình AI của OpenAI, Google DeepMind, Anthropic và xAI, vốn đã cải thiện nhanh chóng hiệu suất trên nhiều bài kiểm tra kỹ thuật phần mềm trong vài năm gần đây.
Thử nghiệm của METR
Theo TechCrunch, METR đã tiến hành một thử nghiệm ngẫu nhiên có đối chứng bằng cách tuyển 16 lập trình viên mã nguồn mở dày dạn kinh nghiệm, để họ thực hiện 246 tác vụ thực tế trên các kho mã lớn mà họ thường xuyên đóng góp. Các nhà nghiên cứu chia ngẫu nhiên số tác vụ này làm hai nhóm: một nửa được phép sử dụng công cụ AI hiện đại như Cursor Pro (“AI-allowed”), nửa còn lại thì không được sử dụng bất kỳ công cụ AI nào.
Trước khi thực hiện nhiệm vụ, các lập trình viên dự đoán rằng việc sử dụng công cụ AI sẽ giúp họ hoàn thành nhanh hơn 24%. Nhưng thực tế không như kỳ vọng.
Nhóm nghiên cứu cho biết: “Ngạc nhiên thay, chúng tôi phát hiện rằng việc cho phép dùng AI lại khiến thời gian hoàn thành tăng lên 19% — tức là các lập trình viên làm chậm hơn khi sử dụng công cụ AI”.
Một chi tiết được TechCrunch lưu ý: chỉ có 56% lập trình viên trong nghiên cứu từng sử dụng Cursor — công cụ AI chính được cung cấp trong thử nghiệm. Dù gần như tất cả lập trình viên tham gia (94%) đều từng dùng một số mô hình ngôn ngữ lớn (LLM) qua nền tảng web trong quy trình lập trình, thì với một số người, đây là lần đầu tiên họ dùng Cursor. Nhóm nghiên cứu cho biết các lập trình viên đã được đào tạo sử dụng Cursor trước khi tham gia.
Tuy vậy, phát hiện của METR khiến người ta phải cân nhắc lại về những tuyên bố rằng các công cụ lập trình AI trong năm 2025 mang lại lợi ích năng suất “phổ quát”. Theo nghiên cứu, lập trình viên không nên mặc định rằng các công cụ lập trình AI — đặc biệt là những gì thường gọi là “vibe coder” (AI tạo mã dựa vào cảm nhận hoặc mô tả mơ hồ) — sẽ ngay lập tức giúp họ làm việc nhanh hơn.
Nhóm nghiên cứu METR chỉ ra một vài lý do tiềm năng khiến AI làm chậm lập trình viên thay vì giúp họ tăng tốc: lập trình viên mất nhiều thời gian hơn để viết prompt (lệnh đầu vào) cho AI và chờ phản hồi, thay vì trực tiếp viết mã. Ngoài ra, AI còn thường xuyên gặp khó khăn khi xử lý các kho mã phức tạp và quy mô lớn — đúng như các dự án được sử dụng trong thử nghiệm này.
Các tác giả nghiên cứu cẩn trọng không đưa ra kết luận mạnh tay, đồng thời nhấn mạnh rằng họ không cho rằng hệ thống AI hiện tại thất bại trong việc tăng tốc công việc của phần lớn lập trình viên. Các nghiên cứu quy mô lớn khác từng cho thấy rằng công cụ lập trình AI thực sự có thể cải thiện năng suất công việc của kỹ sư phần mềm.
Các tác giả cũng lưu ý rằng AI đã tiến bộ rất nhanh trong những năm gần đây và thừa nhận rằng nếu thử nghiệm lại sau ba tháng, kết quả có thể đã khác. METR cũng từng ghi nhận các công cụ lập trình AI đã cải thiện rõ rệt khả năng xử lý các tác vụ phức tạp, dài hơi trong những năm gần đây.
Tuy nhiên, nghiên cứu này vẫn là một lời cảnh báo nữa về việc cần thận trọng với những lời hứa “quá đà” về năng suất từ công cụ lập trình AI. Một số nghiên cứu khác cho thấy các công cụ lập trình AI hiện nay có thể tạo ra lỗi — và trong một số trường hợp, còn gây ra lỗ hổng bảo mật.
Nghịch lý nằm ở đâu?
Nghiên cứu của METR chỉ ra điều ngược lại so với những gì chúng ta thường nghe về AI trong lập trình, phải không? Nghịch lý này, khi các công cụ AI lại làm chậm các nhà phát triển có kinh nghiệm thay vì tăng tốc họ, có thể được giải thích bởi một số yếu tố quan trọng, đặc biệt là trong bối cảnh thực tế của quy trình làm việc và sự phát triển không ngừng của công nghệ AI.
1. Thời gian "thao túng" AI (Prompting Time)
Đây là lý do chính mà nghiên cứu của METR chỉ ra. Thay vì trực tiếp gõ code, lập trình viên dành nhiều thời gian hơn để:
Viết prompt (lệnh) chính xác: Để AI hiểu đúng ý và tạo ra code mong muốn, người dùng phải đầu tư thời gian vào việc viết các prompt rõ ràng, chi tiết và đôi khi phải lặp lại nhiều lần. Việc này không đơn giản như chúng ta nghĩ, đặc biệt với các tác vụ phức tạp.
Chờ đợi AI phản hồi: Mặc dù AI ngày càng nhanh, nhưng vẫn có độ trễ nhất định. Với những tác vụ cần nhiều bước hoặc prompt dài, thời gian chờ đợi này có thể tích lũy và làm chậm toàn bộ quy trình.
Kiểm tra và sửa lỗi đầu ra của AI: Code do AI tạo ra không phải lúc nào cũng hoàn hảo. Lập trình viên vẫn phải xem xét kỹ lưỡng, chỉnh sửa và đôi khi là debug những lỗi do AI gây ra. Việc này có thể tốn thời gian hơn là tự viết code ngay từ đầu nếu AI tạo ra một đoạn code không phù hợp hoặc chứa lỗi ngầm.
2. Sự phức tạp của cơ sở code (Codebase Complexity)
Nghiên cứu của METR sử dụng các tác vụ thực tế trên các kho code lớn và phức tạp mà các nhà phát triển thường xuyên đóng góp. Đây là một điểm khác biệt quan trọng:
AI gặp khó trong ngữ cảnh lớn: Các mô hình AI hiện tại, dù mạnh mẽ, vẫn gặp khó khăn trong việc hiểu toàn bộ kiến trúc, logic phức tạp và các ràng buộc của một cơ sở code khổng lồ. Chúng có thể tạo ra code hoạt động tốt trên lý thuyết nhưng lại không tương thích với phần còn lại của hệ thống, gây ra nhiều vấn đề hơn.
Thiếu sự hiểu biết sâu sắc: Lập trình viên có kinh nghiệm không chỉ viết code mà còn hiểu sâu sắc về thiết kế hệ thống, các quyết định kiến trúc trước đây và mục tiêu dài hạn. AI chưa thể thay thế hoàn toàn sự hiểu biết ngữ cảnh sâu sắc này, dẫn đến code AI cần được điều chỉnh nhiều.
3. Kinh nghiệm và thói quen của lập trình viên
Đường cong học tập: Như nghiên cứu đã đề cập, không phải tất cả các nhà phát triển đều có kinh nghiệm với Cursor – công cụ chính được sử dụng. Mặc dù được đào tạo, nhưng việc thích nghi với một công cụ mới, đặc biệt là công cụ AI, đòi hỏi thời gian để thành thạo các prompt, hiểu cách nó "suy nghĩ" và biết cách khai thác hiệu quả nhất.
"Thói quen" lập trình: Các lập trình viên kỳ cựu thường có quy trình làm việc và thói quen đã được tối ưu hóa qua nhiều năm. Việc thay đổi sang một quy trình mới, phụ thuộc vào AI, có thể tạm thời làm giảm hiệu quả cho đến khi họ thực sự tích hợp nó một cách liền mạch.
4. Các yếu tố tác động khác
Tâm lý "vibe coder": Nghiên cứu đề cập đến "vibe coders" – ám chỉ những người có thể phụ thuộc quá nhiều vào AI mà không thực sự hiểu sâu về code, hoặc dành quá nhiều thời gian để "thử và sai" với AI thay vì tập trung vào logic lập trình.
Giới hạn của AI ở thời điểm nghiên cứu: Mặc dù AI tiến bộ rất nhanh, nhưng nghiên cứu này được thực hiện tại một thời điểm cụ thể. Các tác giả cũng lưu ý rằng kết quả có thể khác chỉ sau ba tháng. Có thể tại thời điểm nghiên cứu, AI chưa đủ "thông minh" để xử lý các tác vụ phức tạp một cách hiệu quả đối với lập trình viên có kinh nghiệm.