SERIES: Muốn đi tắt đón đầu trong chuyển đổi số, trước hết phải hiểu đúng (kỳ 2)
Kỳ 2: AI nói rất mạch lạc, nhưng không phải lúc nào cũng đáng tin
Chúng ta ngày càng nhận thức rõ: chuyển đổi số không nằm ở hình thức bên ngoài. Có chatbot, có phần mềm, có hệ thống số chưa đồng nghĩa với việc công việc đã thay đổi về chất. Cần nhìn thẳng vào một thực tế: AI có thể viết tiếng Việt rất trôi chảy, trả lời rất hợp lý, nhưng khi dùng vào công việc cụ thể thì nhiều khi không chính xác. Muốn hiểu nguyên nhân vì sao, không thể chỉ nhìn riêng AI, mà phải nhìn cả tiến trình phát triển của công nghệ và cách vận hành.

Chat GPT có thể tổng hợp vô vàn các thông tin để giải đáp thắc mắc về nhiều lĩnh vực.
Ba bước phát triển của chuyển đổi số và vai trò của AI
AI không phải là công nghệ mới xuất sau này. Ngay từ các giai đoạn trước, AI đã tồn tại ở dạng đơn giản, như tìm kiếm, gợi ý, nhận dạng. Nhưng vai trò của AI thay đổi rất mạnh theo từng bước phát triển.
Ở giai đoạn đầu là tin học hóa, công việc được đưa từ giấy lên máy. Văn bản được đánh máy, hồ sơ được lưu file, có phần mềm quản lý. AI lúc này nếu có thì rất hạn chế, chủ yếu hỗ trợ những tác vụ đơn giản. Cách làm việc về cơ bản vẫn giữ nguyên, chỉ thay thế bằng công cụ tin học.
Sang giai đoạn tiếp theo là công nghệ số, các hệ thống bắt đầu kết nối với nhau. Người dân có thể nộp hồ sơ trực tuyến, cơ quan sử dụng phần mềm điều hành, một phần dữ liệu được chia sẻ. AI bắt đầu xuất hiện nhiều hơn, nhưng vẫn chủ yếu hỗ trợ từng chức năng riêng lẻ. Dữ liệu dù đã nhiều hơn, nhưng chưa thực sự dùng chung, chưa phản ánh kịp thời đời sống.
Đến giai đoạn dữ liệu lớn và mô hình lớn, bắt đầu rõ nét từ khoảng năm 2018 đến 2022 và bùng nổ mạnh từ năm 2023, vai trò của AI thay đổi hẳn. Lần đầu tiên, AI có thể sử dụng ngôn ngữ tự nhiên ở mức đủ tốt để con người cảm nhận rõ.
Hiện nay, nhiều nơi chuyển đổi số xoay quanh AI đang mắc kẹt ở giai đoạn này.
Giai đoạn mô hình lớn: AI bắt đầu “biết nói”
Ở giai đoạn thứ ba của chuyển đổi số, các mô hình lớn có thể đọc, viết, tóm tắt và trả lời bằng ngôn ngữ tự nhiên. Nhiều người thấy rất ấn tượng: AI có thể dùng tiếng Việt khá tốt, trả lời mạch lạc, thậm chí có vẻ “hiểu vấn đề” hơn cả người dùng. Nhưng bản chất lại không như vậy.
AI không học tiếng Việt như con người. Nó không học theo kiểu học ngữ pháp, từ vựng, chính tả như chúng ta vẫn học ở trường. Nó chia văn bản thành những mảnh nhỏ, rồi học quy luật xem mảnh nào thường đi với mảnh nào.
Hiểu đơn giản, AI giống như một người đọc rất nhiều, nhớ rất nhiều cách diễn đạt, và khi được hỏi thì ghép lại một câu trả lời nghe hợp lý nhất.
Nhờ được huấn luyện trên dữ liệu toàn cầu, trong đó có cả tiếng Việt, nên AI có thể “nói được tiếng Việt”. Nhưng nói được tiếng Việt không có nghĩa là hiểu đúng thực tế Việt Nam.
Điểm làm AI không hiệu quả khi giải bài toán cuộc sống là: nói hay không đồng nghĩa với nói đúng. Điểm quan trọng nhất cần chú ý giải quyết cũng nằm ở đây. AI tạo ra câu trả lời bằng cách dự đoán: trong ngữ cảnh này, câu nào nghe hợp lý nhất. Vì vậy, nó rất giỏi nói cho “xuôi”, cho “hợp lý”, cho “thuyết phục”. Nhưng nó không có cơ chế tự kiểm tra xem thông tin đó có đúng với thực tế hay không. Đây là lý do xuất hiện hiện tượng thường gọi là “ảo giác”, tức là AI có thể đưa ra thông tin nghe rất giống thật, rất logic, nhưng không hoàn toàn chính xác.
Với tiếng Việt, rủi ro này còn rõ hơn, vì dữ liệu trên internet rất nhiều nhưng không đồng đều. Có những nội dung diễn giải lại văn bản gốc, có những thông tin đúng một phần nhưng thiếu bối cảnh, có những nội dung được lặp lại nhiều lần nhưng không được kiểm chứng. Khi học từ những nguồn như vậy, AI có thể trộn lẫn đúng và sai theo cách người dùng khó nhận ra.
Vấn đề cốt lõi: thiếu dữ liệu sống

Chủ tịch UBND tỉnh Lê Hải Hòa phát biểu tại buổi làm việc với Công ty cổ phần công nghệ số thông minh (SDT) đánh giá về hoạt động của về Hệ thống Quản lý dự án đầu tư công tỉnh Cao Bằng và trao đổi một số dịch vụ công nghệ thông tin, chuyển đổi số của Công ty.
Từ đây chúng ta cần thấy rõ bản chất của chuyển đổi số toàn diện với AI là trung tâm. AI giỏi nói, nhưng không tự biết thế nào là đúng - sai. Muốn AI đúng, phải có dữ liệu đúng. Mà dữ liệu đúng không phải là dữ liệu chung trên mạng, mà là dữ liệu của chính cuộc sống đang diễn ra, phải bắc cầu được các hoạt động của cuộc sống thành dòng chảy dữ liệu cho môi trường số.
Đó là những thông tin rất cụ thể như lưu lượng xe tại cửa khẩu trong ngày, hồ sơ đang tắc ở khâu nào, khu vực nào có nguy cơ sạt lở, điểm du lịch nào đang quá tải. Những thứ này không có sẵn trên internet. Nếu không được đưa vào hệ thống một cách kịp thời và chính xác và tự động thay vì thủ công, AI không thể tự biết cách giải quyết vấn đề đặt ra.
Vì vậy, nếu sử dụng AI chỉ dựa trên dữ liệu chung, rất dễ rơi vào tình trạng câu trả lời nghe hợp lý nhưng không giúp giải quyết đúng việc thực tế, càng không giúp ích gì cho giảm chi phí, đóng góp vào tăng trưởng.
Vì sao AI nói tiếng Việt nhưng chưa chắc hiểu đúng Việt Nam
AI có thể nói tiếng Việt rất trôi chảy, nhưng điều đó không có nghĩa là nó hiểu đúng đời sống Việt Nam, càng không có nghĩa là nó hiểu đúng thực tế của từng địa phương.
Một công cụ chung của thế giới có thể giúp tiếp cận công nghệ rất nhanh. Nhưng để giải quyết việc thật, thì dữ liệu phải là dữ liệu của mình, quy trình phải là quy trình của mình, và cách kiểm chứng cũng phải là của mình. Nếu thiếu những điều đó, AI chỉ dừng ở mức hỗ trợ diễn đạt và gợi ý, chưa thể thay thế việc hiểu và xử lý thực tế.
Nguy cơ khi dừng lại ở giai đoạn này Hiện nay, không ít nơi đang dừng chủ yếu ở giai đoạn sử dụng AI để hỏi - đáp, tổng hợp và tạo nội dung. Đây là bước tiến quan trọng, nhưng nếu dừng lại ở đây thì chưa đủ.
Nguy cơ là bắt đầu phụ thuộc vào AI trong khi dữ liệu nền chưa đầy đủ, dữ liệu sống chưa có, quy trình chưa được chuẩn hóa. Khi đó, AI càng được sử dụng nhiều thì càng dễ tạo ra cảm giác “đang làm rất nhanh”, nhưng hiệu quả thực tế không tương xứng, thậm chí có thể dẫn đến sai lệch trong nhận định và quyết định.
Trong khi đó, thế giới đã đi xa hơn. Ở nhiều nơi, AI không còn chỉ dừng ở việc trả lời, mà đã bắt đầu tham gia trực tiếp vào công việc và vận hành thực tế. Khoảng cách lúc này không chỉ nằm ở công nghệ, mà nằm ở cách hiểu và cách tổ chức dữ liệu.











