AI sinh tạo là hệ thống thống kê xác suất ngôn ngữ, tạo ra các kết quả “cảm giác đúng” nhờ tính toán phụ hợp từ dựa trên dữ liệu. Chúng không có nhận thức hoặc hiểu biết thực sự, dù thường được mô tả như “máy tính cho từ ngữ”. Bản chất của LLM nằm ở phương pháp tính toán xác suất, chứ không phải khả năng tư duy.

Điểm nổi bật:

  • AI sinh tạo vận hành qua tính toán xác suất của từ và chuỗi từ.
  • Chatbot tạo ra kết quả “cảm giác đúng” nhờ hệ thống phụ hợp từ mạnh mẽ.
  • Mặc dù giống “máy tính từ ngữ”, AI không có hiểu biết hay ý thức thực sự.
  • Phương pháp phát triển LLM bắt nguồn từ dịch máy và nghiên cứu ngôn ngữ học.
  • Nhận thức AI chỉ là hệ thống tính toán giúp tránh đánh giá nhầm về khả năng nhận thức.

A sculpture of a human head made up entirely of white letters

Nhiều cố gắng nhằm truyền tải trí tuệ nhân tạo sinh tạo (generative artificial intelligence – AI) là gì và nó hoạt động ra sao đã tạo ra hàng loạt phép ẩn dụ và so sánh.

Từ “hộp đen” đến “tự động hoàn thành nâng cao”, “vẹt” và thậm chí một đôi “giày thể thao”, mục tiêu là giúp hiểu một công nghệ phức tạp bằng cách liên hệ với trải nghiệm hàng ngày – ngay cả khi phép so sánh đó thường đơn giản hóa hoặc gây hiểu nhầm.

Một phép ẩn dụ đang ngày càng lan rộng mô tả AI sinh tạo như một “máy tính cho từ ngữ”. Được phổ biến phần nào bởi giám đốc điều hành OpenAI, Sam Altman, phép so sánh này gợi ý rằng giống như những chiếc máy tính nhựa quen thuộc chúng ta từng dùng để tính toán trong lớp toán, mục đích của công cụ AI sinh tạo là giúp chúng ta xử lý lượng lớn dữ liệu ngôn ngữ.

Tuy nhiên, phép so sánh “máy tính” này đã bị chỉ trích một cách chính đáng, vì nó có thể che giấu những vấn đề đáng lo ngại hơn của AI sinh tạo. Khác với chatbot, máy tính không có thành kiến nội tại, không mắc lỗi và cũng không đặt ra các vấn đề đạo đức cơ bản.

Tuy vậy cũng có nguy cơ đánh giá thấp hoàn toàn phép so sánh này, khi bản chất của công cụ AI sinh tạo chính là một bộ tính toán từ ngữ.

Điều quan trọng, tuy nhiên, không phải là bản thân đối tượng, mà là hành động tính toán. Và các phép tính trong công cụ AI sinh tạo được thiết kế để mô phỏng những phép tính ẩn dưới việc sử dụng ngôn ngữ hàng ngày của con người.

Ngôn ngữ có thống kê tiềm ẩn

Hầu hết người dùng ngôn ngữ chỉ gián tiếp nhận thức được mức độ mà tương tác của họ là sản phẩm của các phép tính thống kê.

Hãy nghĩ về sự bối rối khi nghe ai đó nói “tiêu và muối” thay vì “muối và tiêu”. Hoặc ánh nhìn lạ khi bạn gọi “trà mạnh” thay vì “trà đậm” tại một quán cà phê.

Các quy tắc chi phối cách chúng ta chọn và sắp xếp từ, cùng nhiều chuỗi trong ngôn ngữ khác, xuất phát từ tần suất chúng ta gặp chúng trong giao tiếp xã hội. Càng thường nghe một cách diễn đạt nào đó, các lựa chọn thay thế càng kém thuyết phục hơn. Hay nói đúng hơn, chuỗi tính toán khác càng kém khả thi.

Trong ngôn ngữ học, lĩnh vực nghiên cứu ngôn ngữ rộng lớn này, những chuỗi đó được gọi là “phụ hợp từ” (collocations). Đây chỉ là một trong nhiều hiện tượng cho thấy con người tính toán các mẫu đa từ dựa trên cảm giác “đúng” – tức có vẻ phù hợp, tự nhiên và giống con người.

Tại sao đầu ra của chatbot “cảm giác đúng”

Một trong những thành tựu trung tâm của các mô hình ngôn ngữ lớn (LLM) – và do đó của chatbot – là họ đã chính thức hóa yếu tố “cảm giác đúng” này theo cách đủ để đánh lừa trực giác con người.

Thực tế, chúng là một trong những hệ thống phụ hợp từ mạnh nhất trên thế giới.

Bằng cách tính toán các phụ thuộc thống kê giữa các token (dù là từ, ký hiệu hay chấm màu) trong một không gian trừu tượng ánh xạ ý nghĩa và mối quan hệ của chúng, AI tạo ra các chuỗi mà ở thời điểm này không chỉ vượt qua bài kiểm tra Turing như con người mà còn có thể khiến người dùng phải “phải lòng” chúng.

ChatGPT-5 response when asked if it uses statistical calculations to form its responses

Phản hồi của ChatGPT-5 khi được hỏi về việc sử dụng tính toán thống kê trong phản hồi.

AI luôn chỉ đang tính toán

Vậy tại sao chúng ta không nhận ra điều này một cách rõ ràng?

Một lý do quan trọng liên quan đến cách các công ty mô tả và đặt tên cho hoạt động của công cụ AI sinh tạo. Thay vì “tính toán”, AI sinh tạo được gọi là “tư duy”, “lý luận”, “tìm kiếm” hoặc thậm chí “mơ”.

Ngụ ý là khi giải được bài toán cách con người sử dụng mẫu ngôn ngữ, AI sinh tạo đã có được các giá trị mà chúng ta truyền qua lời nói.

Nhưng ít nhất cho đến hiện tại, nó vẫn chưa có.

Nó có thể tính rằng “tôi” và “bạn” rất có khả năng ghép với “yêu”, nhưng nó không phải là “tôi” (nó không phải con người), cũng không hiểu “yêu” và dĩ nhiên không hiểu “bạn” – người đặt lệnh cho nó.

AI sinh tạo luôn chỉ đang tính toán. Và chúng ta không nên nhầm lẫn chúng với thứ gì hơn thế.

Tác động và góc nhìn cho thị trường Việt Nam

Việc tiếp cận và hiểu đúng bản chất “tính toán ngôn ngữ” của AI sinh tạo có thể giúp các doanh nghiệp và tổ chức Việt Nam xây dựng chiến lược ứng dụng phù hợp. Thay vì kỳ vọng AI có khả năng “tư duy” hay “cảm nhận”, chúng ta nên tận dụng thế mạnh của nó trong việc xử lý lượng lớn dữ liệu ngôn ngữ và hỗ trợ ra quyết định. Ứng dụng trong dịch thuật, chăm sóc khách hàng hay phân tích thị trường sẽ hiệu quả hơn nếu đặt trọng tâm vào phương pháp thống kê xác suất. Đồng thời, việc truyền đạt đầy đủ khái niệm này sẽ giúp người dùng cuối và cộng đồng công nghệ Việt Nam không bị hiểu nhầm về năng lực thực sự của AI, từ đó giảm thiểu rủi ro kỳ vọng quá cao và đảm bảo phát triển bền vững cho hệ sinh thái AI trong nước.