Lý do mô hình AI sửa lỗi ứng dụng trên iOS hiệu quả hơn Android

13 giờ trước Gốc

Khi ứng dụng di động gặp sự cố, thường sẽ có một cuộc chạy đua để truy tìm lỗi phần mềm và sửa chữa càng nhanh càng tốt. Giờ đây, đã có trí tuệ nhân tạo (AI) hỗ trợ cho việc đó.

Theo một nghiên cứu vừa được công bố, AI hoạt động hiệu quả hơn nhiều trên nền tảng iOS so với Android.

Android là hệ điều hành dành cho thiết bị di động (smartphone, máy tính bảng, tivi thông minh...) được Google phát triển. Đây là đối thủ lớn nhất của iOS, hệ điều hành của Apple cho iPhone.

Mô hình AI gặp khó khăn hơn khi sửa lỗi ứng dụng trên Android hơn so với iOS - Ảnh: Internet

Hãng phần mềm Instabug đã xây dựng công cụ SmartResolve, sử dụng các mô hình AI hàng đầu để tự động hóa quá trình phát hiện sự cố ứng dụng, chẩn đoán nguyên nhân và tạo ra mã sửa lỗi có thể sử dụng được.

Instabug đã dùng các mô hình AI của OpenAI, Anthropic, Google và Meta Platforms để xử lý một tập dữ liệu gồm các lỗi ứng dụng thực tế. Mỗi bản sửa lỗi được chấm điểm dựa trên độ chính xác, tính tương đồng với bản vá của con người, mức độ phân tích nguyên nhân gốc rễ, liên quan và mạch lạc tổng thể.

Điểm đáng chú ý là các mô hình AI liên tục cho kết quả tốt hơn trên iOS so với Android. Instabug nhận thấy rằng trên iOS, các bản sửa lỗi chính xác hơn, mạch lạc hơn và có cấu trúc tốt hơn ở hầu hết mô hình AI được kiểm tra. Ngay cả mô hình AI Gemini của Google cũng cho kết quả kém hơn trên Android.

Ví dụ, các mô hình AI của OpenAI cho kết quả tốt hơn đáng kể trên iOS. GPT-4o của do OpenAI đã giải quyết được chính xác 60% các lỗi ứng dụng trên iOS trong bài kiểm tra mà Instabug thực hiện, so với 49% trên Android.

Với mô hình o1 của OpenAI, sự khác biệt còn rõ rệt hơn là đạt 62% trên iOS nhưng chỉ còn 26% trên Android, thậm chí thường xuyên không phản hồi trong các bài kiểm tra trên hệ điều hành di động của Google.

Các mô hình AI khác cũng có xu hướng tương tự. Claude Sonnet 3.5 V1 của Anthropic đạt 58% trên iOS và 56% trên Android.

Ngay cả Gemini 1.5 Pro của Google cũng hoạt động kém hơn trên Android (51%), so với iOS (59%). Instabug còn phát hiện Gemini 1.5 Pro gặp nhiều vấn đề "ảo giác" hơn khi sử dụng cửa sổ ngữ cảnh lớn hơn.

1. "Ảo giác" có nghĩa là mô hình AI đưa ra thông tin sai, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và thuyết phục.

Tại sao AI bị "ảo giác"?

Mô hình ngôn ngữ đôi khi không thực sự hiểu câu hỏi mà chỉ dự đoán từ tiếp theo dựa trên dữ liệu học được.

Nếu không có đủ thông tin rõ ràng từ ngữ cảnh, AI có thể "đoán đại" theo cách có vẻ hợp lý.

Khi làm việc với dữ liệu phức tạp (như lỗi phần mềm Android), mức độ "ảo giác" có thể tăng lên do môi trường quá đa dạng và khó đoán.

Trong bài nghiên cứu nói trên, Instabug nhận thấy một số mô hình AI, đặc biệt là khi xử lý trên Android, dễ bị "ảo giác" hơn nghĩa là tạo ra các bản sửa lỗi sai, không liên quan, hoặc tự bịa cách xử lý không đúng.

2. Cửa sổ ngữ cảnh là một khái niệm quan trọng trong lĩnh vực AI, đặc biệt là với các mô hình ngôn ngữ lớn.

Nói một cách đơn giản, cửa sổ ngữ cảnh là lượng thông tin tối đa mà mô hình AI có thể xem xét khi xử lý một yêu cầu hoặc tạo ra phản hồi. Nó giống như "bộ nhớ ngắn hạn" của mô hình tại một thời điểm cụ thể.

Một số điểm quan trọng về cửa sổ ngữ cảnh

Cửa sổ ngữ cảnh thường được đo bằng token. Token có thể là một từ, một phần của từ hoặc thậm chí một ký tự, tùy thuộc vào cách mô hình AI được huấn luyện.

Kích thước của cửa sổ ngữ cảnh có ảnh hưởng lớn đến khả năng của mô hình.

Cửa sổ ngữ cảnh lớn: Cho phép mô hình AI hiểu được ngữ cảnh rộng hơn, xử lý các tác vụ phức tạp hơn như tóm tắt văn bản dài, trả lời các câu hỏi dựa trên nhiều đoạn thông tin hoặc duy trì cuộc trò chuyện dài hơn một cách mạch lạc.

Cửa sổ ngữ cảnh nhỏ: Hạn chế khả năng của mô hình AI trong việc hiểu các mối quan hệ xa hơn trong văn bản hoặc duy trì tính nhất quán trong các tương tác dài.

Giới hạn: Dù cửa sổ ngữ cảnh lớn mang lại nhiều lợi ích, nhưng cũng có những hạn chế về mặt tính toán và hiệu suất. Việc xử lý một lượng lớn thông tin cùng lúc có thể tốn nhiều tài nguyên và thời gian.

Ví dụ: Hãy tưởng tượng bạn đang hỏi mô hình AI về một nhân vật trong cuốn tiểu thuyết dài. Nếu cửa sổ ngữ cảnh của mô hình đủ lớn để chứa thông tin về nhân vật đó từ nhiều chương khác nhau, nó sẽ có thể cung cấp câu trả lời chi tiết và chính xác hơn. Ngược lại, nếu cửa sổ ngữ cảnh quá nhỏ, mô hình AI có thể chỉ dựa vào thông tin gần nhất và bỏ lỡ các chi tiết quan trọng khác.

Trong bối cảnh bài viết, việc Gemini 1.5 Pro gặp nhiều vấn đề "ảo giác" hơn khi sử dụng cửa sổ ngữ cảnh lớn hơn có thể là do mô hình này đang cố gắng xử lý lượng thông tin lớn và đôi khi tạo ra thông tin không chính xác hoặc không liên quan trong quá trình đó.

Tóm lại, cửa sổ ngữ cảnh là một phạm vi thông tin mà mô hình AI có thể "nhìn thấy" và sử dụng để đưa ra quyết định hoặc tạo ra phản hồi. Kích thước của nó là yếu tố quan trọng quyết định khả năng và hiệu suất của mô hình AI.

Vì sao Android tụt lại phía sau iOS?

Nguyên nhân có thể đến từ hệ sinh thái phân mảnh của Android. So với iOS, vốn có môi trường đồng nhất hơn, Android có dải thiết bị và loại sự cố rộng hơn, khiến cho các mô hình AI khó tổng quát hóa các cách sửa lỗi.

"Hiệu suất tốt hơn trên iOS một phần là do cấu trúc của các ngôn ngữ lập trình gốc như Swift và Objective-C. Cú pháp của chúng có tính dự đoán cao và chặt chẽ về kiểu dữ liệu, giúp các mô hình ngôn ngữ lớn dễ dàng tạo ra bản sửa lỗi chính xác hơn", Kenny Johnston, Gám đốc sản phẩm của Instabug, lý giải.

Kenny Johnston cũng cho biết các ngôn ngữ lập trình như Java và Kotlin của Android, cùng với sự đa dạng trong định dạng lỗi, khiến việc tạo ra bản sửa lỗi trở nên phức tạp hơn.

Swift và Objective-C là hai ngôn ngữ lập trình chính dùng để phát triển ứng dụng cho các thiết bị của Apple (như iPhone, iPad, MacBook, Apple Watch...). Tương tự, Java và Kotlin là hai ngôn ngữ lập trình chính được sử dụng để phát triển ứng dụng cho Android.

Apple và Google đều không phản hồi câu hỏi tìm kiếm bình luận của trang Insider.

Sơn Vân