Claude Opus 4.5 thắng con người trong phần thi tuyển dụng kỹ sư

2 giờ trướcGốc

Đây không chỉ là cột mốc kỹ thuật của Claude Opus 4.5, mà còn là tín hiệu cho thấy khả năng AI thắng con người trong những công việc trí tuệ phức tạp nhất.

Tình trạng thất nghiệp do AI ngày càng gia tăng khi AI thắng luôn trong phần thi đầu vào tuyển dụng

Cuộc đua phát triển trí tuệ nhân tạo dành cho doanh nghiệp vừa chứng kiến một bước ngoặt đáng chú ý. Anthropic PBC, startup AI có trụ sở tại San Francisco, đã tung ra phiên bản mới của mô hình mạnh nhất của mình với một tuyên bố táo bạo: Claude Opus 4.5 đã trở thành mô hình AI đầu tiên của công ty đạt điểm cao hơn bất kỳ ứng viên con người nào trong bài kiểm tra tuyển dụng kỹ sư phần mềm của chính Anthropic.

Vượt qua ngưỡng cửa của những bộ óc xuất sắc nhất

Scott White, Giám đốc sản phẩm cho các mô hình Claude AI, mô tả thành tích này như một "điểm uốn" trong cách đánh giá năng lực kỹ thuật phần mềm của AI. Bài kiểm tra mà Opus 4.5 đã vượt qua không phải dạng bài tập đơn giản. Đây là một bài tập về nhà đầy thử thách mà các ứng viên tiềm năng phải hoàn thành, được thiết kế để đánh giá khả năng của những người có trình độ cao và thường mất nhiều giờ để hoàn thành ngay cả khi họ được sử dụng chính mô hình Claude.

White từ chối tiết lộ chi tiết cụ thể về bài tập, nhưng chính sự giữ kín này lại làm nổi bật tầm quan trọng của nó. Trong thế giới tuyển dụng công nghệ, những bài kiểm tra take-home thường là bài kiểm tra cuối cùng, được thiết kế để sàng lọc những ứng viên thực sự xuất sắc khỏi đám đông. Việc một mô hình AI có thể vượt qua rào cản này không chỉ chứng tỏ khả năng kỹ thuật, mà còn cho thấy nó có thể tư duy và giải quyết vấn đề theo cách tiếp cận gần với con người.

Opus 4.5 được thiết kế để có khả năng vượt trội hơn các phiên bản trước trong công việc kỹ thuật phần mềm, đặc biệt là sửa lỗi mà không cần sự trợ giúp của người dùng. Đây là một bước tiến quan trọng. Trước đây, các mô hình AI thường cần sự giám sát và hướng dẫn liên tục của con người, nhưng khả năng tự chủ sửa lỗi cho thấy một mức độ hiểu biết và tự chủ cao hơn nhiều.

Từ lập trình đến văn phòng: Tham vọng bao trùm công việc tri thức

Nhưng Anthropic không dừng lại ở lập trình. Opus 4.5 còn được thiết kế để thực hiện tốt hơn các nhiệm vụ phức tạp nhiều bước trên máy tính và internet của người dùng. Điều này bao gồm các công việc như phân tích tài chính, tạo bài thuyết trình và bảng tính – những nhiệm vụ văn phòng mà hàng triệu người làm hàng ngày.

White nhấn mạnh một điểm khác biệt quan trọng: Opus 4.5 được thiết kế để tham gia vào quá trình tinh chỉnh công việc qua lại với người dùng, thay vì chỉ tạo ra một bản nháp thô mà người dùng sau đó phải tự mình cải thiện. Đây là sự thay đổi về tư duy sử dụng AI. Thay vì coi AI như một công cụ tạo nội dung một chiều, Anthropic đang định hình nó như một cộng sự có thể hợp tác, phản hồi và cải thiện công việc theo thời gian thực.

Tính năng tích hợp với Excel của Microsoft là một ví dụ cụ thể về tầm nhìn này. Opus 4.5 hiện có sẵn trong phần mềm bảng tính Excel cho khách hàng doanh nghiệp của Anthropic và những cá nhân đăng ký gói Max cao cấp. Chức năng trò chuyện trong Excel cho phép người dùng ra lệnh cho chatbot Claude thực hiện các tác vụ như chỉnh sửa bảng tính. Tính năng này trước đây chỉ khả dụng cho một số người dùng trong giai đoạn thử nghiệm beta chỉ theo lời mời và giờ đây được mở rộng cho phép tiếp cận rộng hơn.

Cuộc chiến giành khách hàng doanh nghiệp

Việc ra mắt Opus 4.5 diễn ra trong bối cảnh cạnh tranh ngày càng khốc liệt giữa các gã khổng lồ AI. Anthropic, được thành lập vào năm 2021 bởi các cựu nhân viên của OpenAI, hiện có hơn 300.000 khách hàng doanh nghiệp sử dụng các mô hình của mình để tối ưu hóa các nhiệm vụ tại nơi làm việc. Đặc biệt trong lĩnh vực lập trình máy tính, startup này đã nổi lên như một nhà lãnh đạo thị trường.

Tuy nhiên, áp lực cạnh tranh không hề nhỏ. OpenAI, công ty mà nhiều người sáng lập Anthropic từng làm việc, vẫn là đối thủ đáng gờm nhất với ChatGPT và các mô hình GPT của mình. Nhưng mối đe dọa gần đây nhất đến từ Google, công ty vừa gây ấn tượng mạnh với cộng đồng AI và giới đầu tư tuần trước khi phát hành Gemini 3. Mô hình mới của Google được thiết kế để vượt trội trong lập trình, cùng với nhiều công việc khác.

Thị trường AI doanh nghiệp đang trở thành một chiến trường đắt giá. Các công ty công nghệ lớn và nhỏ đều nhận ra rằng khả năng tự động hóa các nhiệm vụ văn phòng và lập trình không chỉ tiết kiệm thời gian và chi phí, mà còn có thể tạo ra lợi thế cạnh tranh đáng kể. Ai có thể cung cấp mô hình tốt nhất cho những nhiệm vụ này sẽ giành được một phần đáng kể trong thị trường tỷ đô này.

Ý nghĩa của một mô hình "vượt qua con người"

Thành tích của Opus 4.5 trong bài kiểm tra tuyển dụng đặt ra những câu hỏi sâu sắc về tương lai của công việc tri thức. Nếu một mô hình AI có thể vượt qua bài kiểm tra dành cho những kỹ sư phần mềm xuất sắc nhất, điều đó có nghĩa gì cho hàng triệu lập trình viên hiện tại? Và quan trọng hơn, nó nói lên điều gì về các ngành nghề tri thức khác?

Câu trả lời có lẽ không đơn giản như "AI sẽ thay thế con người". Thay vào đó, chúng ta đang chứng kiến một sự chuyển dịch trong bản chất của công việc. Những nhiệm vụ mà trước đây đòi hỏi nhiều giờ từ một kỹ sư có trình độ cao giờ đây có thể được tự động hóa, cho phép những kỹ sư đó tập trung vào các vấn đề phức tạp hơn, sáng tạo hơn, hoặc mang tính chiến lược hơn.

Khả năng của Opus 4.5 trong việc tham gia vào quá trình tinh chỉnh qua lại cũng gợi ý một mô hình làm việc mới, trong đó con người và AI không phải là đối thủ mà là đồng nghiệp. Con người đưa ra tầm nhìn, phán đoán và quyết định cuối cùng, trong khi AI xử lý phần lớn công việc thực thi và lặp lại.

Thách thức và câu hỏi chưa có lời giải

Dù ấn tượng, Opus 4.5 vẫn phải đối mặt với nhiều thách thức. Một là vấn đề chi phí và hiệu suất. Các mô hình AI mạnh mẽ như Opus thường đòi hỏi nguồn lực tính toán đáng kể, điều này có thể dẫn đến chi phí cao cho người dùng. Anthropic sẽ cần cân bằng giữa khả năng và khả năng tiếp cận.

Hai là vấn đề tin cậy. Trong lập trình và phân tích tài chính, sai lầm có thể gây ra hậu quả nghiêm trọng. Việc một mô hình AI có thể vượt qua bài kiểm tra không có nghĩa là nó không bao giờ mắc lỗi. Doanh nghiệp cần có quy trình kiểm tra và giám sát phù hợp khi triển khai những công cụ này.

Ba là câu hỏi về đạo đức và trách nhiệm. Khi AI có khả năng tự chủ thực hiện các nhiệm vụ phức tạp, ai chịu trách nhiệm khi có sự cố? Đây là câu hỏi mà không chỉ Anthropic, mà toàn ngành công nghiệp AI cần phải trả lời.

Sự ra mắt của Claude Opus 4.5 là một dấu mốc quan trọng không chỉ cho Anthropic, mà cho toàn bộ ngành AI. Nó cho thấy rằng ranh giới giữa khả năng của con người và máy móc trong các nhiệm vụ tri thức đang ngày càng mờ nhạt. Nhưng thay vì lo sợ, chúng ta có thể coi đây là cơ hội để định nghĩa lại vai trò của mình trong một thế giới nơi AI có thể xử lý nhiều công việc thường ngày.

Cuộc đua giữa Anthropic, OpenAI và Google không chỉ là về công nghệ, mà còn về việc định hình cách chúng ta làm việc trong tương lai. Và với Opus 4.5 đã vượt qua ngưỡng cửa của những bộ óc xuất sắc nhất, tương lai đó đang đến gần hơn bao giờ hết.

Bùi Tú

Nguồn Một Thế Giới: https://1thegioi.vn/claude-opus-4-5-thang-con-nguoi-trong-phan-thi-tuyen-dung-ky-su-241477.html