Không phải tiền, đây mới là chỉ số quan trọng nhất với Nvidia

Token, đơn vị cơ bản cho đầu ra AI, đang phát triển nhanh chóng, thúc đẩy nhu cầu về chip. Tăng trưởng token đang vượt xa công suất trung tâm dữ liệu của các siêu máy tính.

Doanh thu của Nvidia đã tăng lên 44,1 tỷ USD vào quý trước, nhưng một trong những chỉ số quan trọng nhất của gã khổng lồ chip lại không phải tiền.

Thay vào đó, trong suốt tháng 5 vừa qua, các CEO công nghệ hàng đầu trong ngành, những người cũng là khách hàng lớn nhất của Nvidia, đều bày tỏ sự hào hứng về sự tăng trưởng token.

"OpenAI, Microsoft và Google đang chứng kiến một bước nhảy vọt về chức năng trong việc tạo ra token. Microsoft đã xử lý hơn 100.000 tỷ token trong quý I, tăng gấp 5 lần so với cùng kỳ năm trước", Colette Kress, Giám đốc Tài chính Nvidia nhấn mạnh.

Đơn vị căn bản nhất trong AI

Trong thế giới trí tuệ nhân tạo (AI), token là một trong những khối xây dựng cơ bản nhất đằng sau khả năng xử lý ngôn ngữ của máy tính. Có thể hình dung token như những mảnh Lego giúp các mô hình AI xây dựng câu, ý tưởng và tương tác có giá trị.

Dù là một từ, một dấu câu, hay thậm chí một đoạn âm thanh trong nhận dạng giọng nói, token là những khối nhỏ bé cho phép AI hiểu và tạo nội dung. Nói cach khác, chúng là đội ngũ hậu trường giúp mọi thứ từ tạo văn bản đến phân tích cảm xúc hoạt động trơn tru.

Sự kỳ diệu của tokenization (phân chia token) đến từ tính linh hoạt của nó. Đối với các tác vụ đơn giản, các mô hình ngôn ngữ lớn (LLM) có thể coi mỗi từ là một token riêng. Nhưng khi mọi thứ trở nên phức tạp hơn, ví dụ với các từ bất thường hoặc từ mới, LLM có thể chia chúng thành các phần nhỏ hơn (từ con). Bằng cách này, AI vẫn hoạt động trơn tru, ngay cả với các thuật ngữ không quen thuộc.

 Token là một trong những khối xây dựng cơ bản nhất đằng sau khả năng xử lý ngôn ngữ của máy tính. Ảnh: CCN.

Token là một trong những khối xây dựng cơ bản nhất đằng sau khả năng xử lý ngôn ngữ của máy tính. Ảnh: CCN.

Các mô hình hiện đại, như GPT-4, hoạt động với các từ vựng khổng lồ, khoảng 50.000 token. Mỗi phần văn bản đầu vào sẽ đều phải thông qua quy trình phân chia thành từ vựng trước khi được xử lý.

Bước này rất quan trọng vì nó giúp mô hình AI chuẩn hóa cách nó diễn giải và tạo văn bản, làm cho mọi thứ diễn ra suôn sẻ nhất có thể. Bằng cách chia nhỏ ngôn ngữ thành các phần nhỏ hơn, tokenization cung cấp cho AI mọi thứ cần thiết để xử lý các tác vụ ngôn ngữ với độ chính xác và tốc độ cao.

Nếu không có quá trình này, AI hiện đại sẽ không thể phát huy sức mạnh của mình. Khi các công cụ AI ngày càng phát triển, số lượng token được tạo ra cho đầu ra, hoặc suy luận, cũng đang tăng nhanh hơn nhiều người mong đợi.

"Tăng trưởng token bùng nổ là điều thực sự quan trọng, về lâu dài", các nhà phân tích của Morgan Stanley nhận định.

Tại sao token quan trọng?

Khi trò chuyện với những nhân vật cấp cao trong ngành, Giám đốc điều hành NVIDIA Jensen Huang coi sự gia tăng của token là một dấu hiệu cho thấy các công cụ AI đang mang lại giá trị.

"Các công ty đang bắt đầu nói về số lượng token mà họ đã tạo ra trong quý trước và số lượng token mà họ đã tạo ra trong tháng trước. Rất sớm thôi chúng ta sẽ nói về số lượng token tạo ra mỗi giờ, giống như mọi nhà máy đều làm", Huang nói tại Computex 2025 - một trong những sự kiện công nghệ lớn nhất thế giới, đặc biệt ở mảng máy tính và linh kiện phụ trợ.

Token giúp các hệ thống AI phân tích và hiểu ngôn ngữ, cung cấp sức mạnh cho mọi thứ từ tạo văn bản đến phân tích cảm xúc. Google dịch chính là ví dụ điển hình nhất về tầm quan trọng của đơn vị tính này.

Cụ thể, khi AI dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác, trước tiên hệ thống sẽ chia nhỏ văn bản thành các token. Các token này giúp AI hiểu ý nghĩa đằng sau mỗi từ hoặc cụm từ, đảm bảo bản dịch không chỉ theo nghĩa đen mà còn chính xác về ngữ cảnh.

 Dù là một từ, một dấu câu, hay thậm chí một đoạn âm thanh trong nhận dạng giọng nói, token là những khối nhỏ bé cho phép AI hiểu và tạo nội dung. Ảnh: Tony Grayson.

Dù là một từ, một dấu câu, hay thậm chí một đoạn âm thanh trong nhận dạng giọng nói, token là những khối nhỏ bé cho phép AI hiểu và tạo nội dung. Ảnh: Tony Grayson.

Ngoài ra, token cũng khá hiệu quả để giúp AI đọc được cảm xúc của văn bản. Với phân tích cảm xúc, AI xem xét cách văn bản tác động cảm xúc người dùng, cho dù đó là một đánh giá sản phẩm tích cực, phản hồi tiêu cực hay một nhận xét trung lập.

Bằng cách chia nhỏ văn bản thành các token, AI có thể xác định xem một đoạn văn bản có giọng điệu tích cực, tiêu cực hay trung lập. Điều này đặc biệt hữu ích trong tiếp thị hoặc dịch vụ khách hàng, nơi việc hiểu cảm xúc của người dùng về một sản phẩm hoặc dịch vụ có thể định hình các chiến lược trong tương lai.

Bên cạnh đó, token còn cho phép AI nắm bắt các tín hiệu cảm xúc tinh tế trong ngôn ngữ, giúp các doanh nghiệp hành động nhanh chóng dựa trên phản hồi hoặc các xu hướng mới nổi.

Khi các hệ thống AI trở nên mạnh mẽ hơn, các kỹ thuật tokenization cũng sẽ cần phát triển để đáp ứng nhu cầu ngày càng tăng về hiệu quả, độ chính xác và tính linh hoạt.

Một trọng tâm chính là tốc độ. Theo đó, các phương pháp tokenization trong tương lai phải nhằm mục đích xử lý token nhanh hơn, giúp các mô hình AI phản hồi trong thời gian thực trong khi quản lý các bộ dữ liệu lớn hơn.

Quan trọng hơn, tương lai của hệ thống không chỉ giới hạn ở văn bản. Việc ứng dụng tokenization đa phương thức sẽ mang đến khả năng mở rộng của AI bằng cách tích hợp các loại dữ liệu đa dạng như hình ảnh, video và âm thanh.

Hãy tưởng tượng một AI có thể phân tích liền mạch một bức ảnh, trích xuất các chi tiết chính và tạo ra một câu chuyện mô tả lại. Để làm được điều này, hệ thống cần quy trình tokenization cải tiến. Đổi mới này có thể biến đổi các lĩnh vực như giáo dục, chăm sóc sức khỏe và giải trí với những hiểu biết toàn diện hơn.

Anh Tuấn

Nguồn Znews: https://znews.vn/khong-phai-tien-day-moi-la-chi-so-quan-trong-nhat-voi-nvidia-post1557810.html