AGI là gì và vì sao LLM có thể không bao giờ thực sự đạt được nó

Q: Why aren’t today’s large language models considered true AGI?

Các LLM hiện nay: - Chủ yếu được huấn luyện trên văn bản (và đôi khi là mã, ảnh hoặc âm thanh) - Được tối ưu để dự đoán token tiếp theo trong một chuỗi - Thiếu khả năng cảm nhận, thân thể, mục tiêu nội sinh và bộ nhớ dai dẳng Chúng có thể mô phỏng kiến thức và suy luận rộng vì ngôn ngữ mã hóa rất nhiều chuyên môn của con người. Nhưng chúng: - Không có khái niệm được gắn với trải nghiệm thực tế - Không duy trì niềm tin thay đổi theo thời gian về thế giới - Không tự lập kế hoạch và hành động qua thời gian một cách tự động Vì vậy LLM là những bộ học mẫu hẹp, mạnh mẽ trên ngôn ngữ, chứ không phải những tác nhân thông minh tổng quát độc lập.

Q: How do LLMs actually work under the hood?

Bạn có thể nghĩ về LLM như: - Một hàm khổng lồ ánh xạ một chuỗi token sang xác suất cho token tiếp theo - Được huấn luyện bằng cách thấy hàng nghìn tỷ ví dụ và điều chỉnh trọng số nội bộ để dự đoán tốt hơn Các điểm chính: - Nó không lưu trữ sự thật theo dạng cơ sở dữ liệu - Nó mã hóa quy luật thống kê của ngôn ngữ - Nó không có khái niệm tích hợp về chân lý, chỉ có mức độ hợp lý dựa trên văn bản đã thấy Mọi thứ trông giống như suy luận hay bộ nhớ đều xuất phát từ mục tiêu dự đoán token tiếp theo kết hợp với quy mô và điều chỉnh sau huấn luyện, chứ không phải từ logic biểu tượng rõ ràng hay kho niềm tin dai dẳng.

Q: How should I practically use LLMs today without over-trusting them?

Dùng LLM như trợ lý mạnh, không phải thẩm quyền: - Xem đầu ra là bản nháp hoặc giả thuyết , không phải chân lý tuyệt đối - Giữ con người trong vòng kiểm soát khi quyết định hệ trọng (y tế, pháp lý, tài chính, an toàn) - Ghép LLM với công cụ (tìm kiếm, máy tính, IDE) để kiểm chứng - Ghi chép và rà soát sử dụng trong quy trình nhạy cảm Thiết kế sản phẩm để: - Mô hình bổ trợ phán xét con người thay vì thay thế - Có quy trình leo thang rõ ràng khi mô hình không chắc chắn hoặc thất bại - Người dùng hiểu giới hạn và được khuyến khích không tin mù quáng

Q: Why is it risky to market or think about LLMs as AGI?

Gắn nhãn LLM hiện tại là “AGI” gây ra nhiều vấn đề: - Quá tin tưởng: Người dùng hiểu nhầm về khả năng và độ tin cậy của hệ thống - Tín hiệu đầu tư sai: Tiền và nhân lực chạy theo cường điệu thay vì công việc nền tảng về suy luận, an toàn và khả năng giải thích - Nhầm lẫn chính sách: Nhà làm luật tập trung vào kịch bản AGI giả thuyết trong khi bỏ sót các hại thực tế hiện nay (định kiến, sai lệch thông tin, quá tin tưởng) Ngôn ngữ chính xác hơn—“LLM”, “mô hình hẹp”, “hệ thống tác nhân dùng LLMs”—giúp đặt kỳ vọng phù hợp với năng lực và rủi ro thực tế.

Q: If LLMs alone aren’t enough, what are the realistic paths researchers are exploring toward AGI?

Các hướng nghiên cứu đặt LLM là thành phần , không phải toàn bộ trí tuệ, ví dụ: - Kiến trúc tác nhân bổ sung bộ nhớ, lập kế hoạch và điều phối công cụ quanh LLM - Thiết lập dùng công cụ nơi LLM gọi API bên ngoài, cơ sở dữ liệu và mô phỏng - Hệ thống đa phương thức và thân thể hóa kết hợp ngôn ngữ với nhận thức và hành động vật lý Những hướng này tiến gần hơn đến AGI bằng cách thêm nền tảng, nhân quả và trạng thái dai dẳng. Chúng cũng làm thay đổi câu hỏi từ “LLM có thể trở thành AGI không?” sang “Các hệ phức hợp bao gồm LLM có thể mô phỏng hành vi giống AGI không?”

Đăng nhập Bắt đầu

AGI là gì và vì sao LLM có thể không bao giờ thực sự đạt được nó | Koder.ai

Tại sao AGI và LLM bị nhầm lẫn khắp nơi

Nếu bạn đọc tin công nghệ, bản thuyết trình cho nhà đầu tư hoặc trang sản phẩm, bạn sẽ thấy từ trí tuệ bị kéo căng đến mức quá tải. Chatbot được gọi là “gần giống con người”, trợ lý lập trình là “gần như kỹ sư tập sự”, và một số người thản nhiên gọi các mô hình ngôn ngữ lớn (LLM) mạnh là những bước đầu tiên hướng tới trí tuệ nhân tạo tổng quát (AGI).

Bài viết này dành cho những người thực hành tò mò, nhà sáng lập, lãnh đạo sản phẩm và độc giả kỹ thuật dùng công cụ như GPT-4 hoặc Claude và tự hỏi: Liệu đây có phải là AGI—hay còn thiếu điều gì quan trọng?

Nguồn cơn sự nhầm lẫn

LLM thật sự ấn tượng. Chúng:

trò chuyện trôi chảy bằng ngôn ngữ tự nhiên
viết mã, tóm tắt nghiên cứu và vượt qua các bài kiểm tra
phản ánh lại đầu ra của mình theo cách trông giống như tư duy

Với đa số không chuyên, điều đó cảm thấy không thể phân biệt với “trí tuệ tổng quát.” Khi một mô hình có thể viết bài luận về Kant, sửa lỗi TypeScript của bạn và giúp soạn một ghi nhớ pháp lý trong cùng một phiên, việc cho rằng chúng ta sắp chạm tới AGI là điều dễ hiểu.

Nhưng giả định đó lặng lẽ đồng nhất hóa giỏi ngôn ngữ với thông minh tổng quát. Đó là sự nhầm lẫn chính mà bài viết này sẽ làm rõ.

Luận điểm trung tâm của bài viết

Luận điểm được phát triển từng phần là:

Các LLM hiện tại là những bộ học mẫu cực kỳ hiệu quả trên văn bản và mã, nhưng kiến trúc và chế độ huấn luyện của chúng làm cho chúng không có khả năng trở thành AGI thực thụ chỉ bằng cách tăng quy mô hay tinh chỉnh đơn thuần.

Chúng sẽ tiếp tục tốt hơn, rộng hơn và hữu ích hơn. Chúng có thể là thành phần trong các hệ thống giống AGI. Tuy nhiên có những lý do sâu sắc—về nền tảng hóa với thế giới, chủ động, bộ nhớ, thân thể hóa và mô hình bản thân—giải thích vì sao “LLM lớn hơn” có lẽ không đồng nghĩa với “thông minh tổng quát.”

Hãy mong đợi một chuyến tham quan có quan điểm, nhưng dựa trên nghiên cứu hiện tại, năng lực và thất bại cụ thể của LLM, cùng các câu hỏi mở mà các nhà khoa học nghiêm túc đang vật lộn, thay vì cường điệu hay gieo rắc sợ hãi.

AGI thực sự có ý nghĩa gì?

Khi người ta nói AGI, họ hiếm khi có cùng ý. Để làm rõ tranh luận, hữu ích khi tách vài khái niệm cốt lõi.

Từ AI hẹp đến trí tuệ tổng quát

AI (trí tuệ nhân tạo) là lĩnh vực rộng xây dựng hệ thống thực hiện những nhiệm vụ đòi hỏi hành vi “thông minh”: nhận diện giọng nói, gợi ý phim, chơi Go, viết mã, và nhiều hơn nữa.

Phần lớn thứ tồn tại ngày nay là AI hẹp (hoặc AI yếu): hệ thống được thiết kế và huấn luyện cho một tập nhiệm vụ cụ thể trong điều kiện cụ thể. Một bộ phân loại ảnh gắn nhãn mèo và chó hoặc chatbot dịch vụ khách hàng tinh chỉnh cho các câu hỏi ngân hàng có thể cực kỳ hiệu quả trong miền đó nhưng thất bại nghiêm trọng bên ngoài.

Trí tuệ nhân tạo tổng quát (AGI) khác rất nhiều. Nó ám chỉ một hệ thống có thể:

Tổng quát hóa trên nhiều miền, không chỉ một nhiệm vụ hay kiểu dữ liệu
Thích ứng với vấn đề và môi trường mới mà nó không được huấn luyện trực tiếp
Hành động tự chủ, đặt và theo đuổi mục tiêu với ít can thiệp tay người
Chuyển giao kiến thức, dùng những gì học được trong ngữ cảnh này để hoạt động tốt ở ngữ cảnh khác

Một quy tắc thực tế: một AGI về nguyên tắc có thể học hầu hết các công việc trí tuệ mà con người làm được, nếu có thời gian và nguồn lực, mà không cần thiết kế lại riêng cho từng nhiệm vụ mới.

Strong AI, Human-Level AI và vượt hơn

Các thuật ngữ liên quan thường xuất hiện:

Strong AI: thường được dùng thay cho AGI, nhấn mạnh sự hiểu biết thật sự thay vì mô phỏng khôn khéo.
Human-level AI: AGI có khả năng nhận thức tổng thể tương đương với người trưởng thành trung bình.
Superintelligence: hệ thống giả định vượt xa trí tuệ con người trong hầu hết hoặc tất cả các lĩnh vực.

Ngược lại, các chatbot và mô hình ảnh hiện đại vẫn là hẹp: ấn tượng, nhưng được tối ưu cho các mẫu trong dữ liệu cụ thể, không phải cho trí tuệ mở rộng liên miền.

Lược sử ngắn về giấc mơ AGI

Tầm nhìn ban đầu: Turing và AI biểu tượng

Giấc mơ AGI hiện đại bắt đầu với đề xuất của Alan Turing năm 1950: nếu một máy có thể duy trì cuộc trò chuyện không thể phân biệt với con người (bài kiểm tra Turing), liệu nó có thông minh không? Điều đó đóng khung trí tuệ tổng quát chủ yếu theo hành vi, đặc biệt là ngôn ngữ và lý luận.

Từ thập niên 1950 đến 1980, các nhà nghiên cứu theo đuổi AGI bằng AI biểu tượng hay “GOFAI” (Good Old-Fashioned AI). Trí tuệ được xem là thao tác ký hiệu rõ ràng theo quy tắc logic. Các chương trình chứng minh định lý, chơi trò chơi và hệ chuyên gia khiến một số người tin rằng suy luận ở mức con người đang gần kề.

Nhưng GOFAI gặp khó với nhận thức, kiến thức thường thức và xử lý dữ liệu đời thực lộn xộn. Hệ thống có thể giải các câu đố logic nhưng thất bại với nhiệm vụ một đứa trẻ làm thừa sức. Khoảng cách này dẫn tới các mùa đông AI đầu tiên và cái nhìn thận trọng hơn về AGI.

Chuyển sang học máy

Khi dữ liệu và tính toán tăng, AI chuyển từ quy tắc thủ công sang học từ ví dụ. Học máy thống kê, rồi deep learning, định nghĩa lại tiến bộ: thay vì mã hóa tri thức, hệ thống học mẫu từ bộ dữ liệu lớn.

Các mốc như DeepBlue của IBM (cờ vua) và sau này AlphaGo (Go) được ca ngợi là bước tới trí tuệ tổng quát. Thực tế, chúng cực kỳ chuyên biệt: mỗi hệ thống làm chủ một trò chơi với luật cố định, không chuyển giao sang suy luận đời thường.

Từ chiến thắng hẹp đến mô hình tạo sinh

Dòng GPT đánh dấu một bước nhảy đáng kể, lần này về ngôn ngữ. GPT-3 và GPT-4 có thể soạn luận, viết mã và bắt chước phong cách, khuấy lên suy đoán AGI có thể gần kề.

Tuy nhiên các mô hình này vẫn là bộ học mẫu trên văn bản. Chúng không hình thành mục tiêu, xây mô hình thế giới có nền tảng, hay tự mở rộng năng lực.

Qua mỗi làn sóng—AI biểu tượng, học máy cổ điển, deep learning, và giờ là LLM—giấc mơ AGI liên tục được áp đặt lên các thành tựu hẹp rồi được điều chỉnh khi giới hạn của chúng lộ rõ.

LLM hoạt động như thế nào thực ra

Mô hình ngôn ngữ lớn (LLM) là những bộ học mẫu được huấn luyện trên tập hợp văn bản khổng lồ: sách, trang web, mã, diễn đàn và nhiều nguồn khác. Mục tiêu nghe có vẻ đơn giản: cho một đoạn văn bản, dự đoán token (một mảnh nhỏ của văn bản) có khả năng xuất hiện tiếp theo.

Token và dự đoán từ tiếp theo

Trước khi huấn luyện, văn bản được tách thành token: có thể là từ nguyên ("mèo"), mảnh từ ("inter", "esting"), hoặc dấu câu. Trong quá trình huấn luyện, mô hình thấy lặp lại các chuỗi như:

"Con mèo ngồi trên ___"

và học gán xác suất cao cho các token có khả năng hợp lý ("thảm", "ghế") và xác suất thấp cho các token vô lý ("chủ tịch"). Quá trình này, được mở rộng trên hàng nghìn tỷ token, hình thành hàng tỷ (hoặc hơn) tham số nội bộ.

Bên trong, mô hình chỉ là một hàm rất lớn chuyển chuỗi token thành phân phối xác suất cho token tiếp theo. Huấn luyện dùng gradient descent để dần điều chỉnh tham số nhằm dự đoán tốt hơn các mẫu trong dữ liệu.

Quy luật scale, diễn giải đơn giản

"Quy luật scale" mô tả quy luật mà các nhà nghiên cứu quan sát: khi tăng kích thước mô hình, khối lượng dữ liệu và tính toán, hiệu suất thường cải thiện theo cách có thể dự đoán. Mô hình lớn hơn huấn luyện trên nhiều văn bản thường tốt hơn việc dự đoán—cho đến giới hạn thực tiễn về dữ liệu, tính toán và ổn định huấn luyện.

LLM thực sự “biết” gì

LLM không lưu trữ sự thật như cơ sở dữ liệu hay suy luận như con người. Chúng mã hóa quy luật thống kê: từ, cụm từ và cấu trúc nào thường xuất hiện cùng nhau trong bối cảnh nào.

Chúng không có khái niệm được nền tảng hóa gắn với nhận thức hay trải nghiệm vật lý. Một LLM có thể nói về "đỏ" hay "nặng" chỉ thông qua cách những từ đó được dùng trong văn bản, không phải vì nó nhìn thấy màu hay nâng vật.

Đó là lý do tại sao mô hình có thể tỏ ra biết nhiều nhưng vẫn mắc lỗi tự tin: chúng đang mở rộng các mẫu, không tham vấn mô hình thực tế rõ ràng.

Tiền huấn luyện, tinh chỉnh và RLHF

Tiền huấn luyện là giai đoạn dài ban đầu nơi mô hình học các quy tắc ngôn ngữ chung bằng cách dự đoán token tiếp theo trên kho văn bản khổng lồ. Hầu hết khả năng xuất hiện ở bước này.

Sau đó, tinh chỉnh điều chỉnh mô hình đã tiền huấn luyện cho mục tiêu hẹp hơn: theo lệnh, viết mã, dịch, hoặc trợ giúp trong các miền cụ thể. Mô hình được cho các ví dụ gọn ghẽ về hành vi mong muốn và điều chỉnh nhẹ.

Học tăng cường từ phản hồi con người (RLHF) thêm một lớp: con người đánh giá hoặc so sánh đầu ra, và mô hình tối ưu để sản sinh phản hồi mà con người ưa thích (ví dụ hữu ích hơn, ít gây hại hơn, trung thực hơn). RLHF không cung cấp cảm quan mới hay hiểu biết sâu hơn; nó chủ yếu định hình cách mô hình trình bày và lọc những gì nó đã học.

Kết hợp các bước này tạo ra hệ thống cực kỳ giỏi sinh văn bản trôi chảy bằng cách tận dụng quy luật thống kê—nhưng không sở hữu kiến thức được nền tảng hóa, mục tiêu hay nhận thức.

Những gì LLM hiện tại làm tốt đến bất ngờ

Ship with rollback

Deploy, take snapshots, and roll back when an experiment breaks your app.

Build Now

LLM trông ấn tượng vì chúng có thể thực hiện nhiều nhiệm vụ trước đây có vẻ ngoài tầm với máy móc.

Mã, văn bản và dịch thuật theo yêu cầu

LLM có thể tạo đoạn mã hoạt động, tái cấu trúc mã hiện có và thậm chí giải thích thư viện không quen bằng ngôn ngữ bình dân. Với nhiều lập trình viên, chúng đã hoạt động như đồng lập trình viên rất có năng lực: gợi ý các trường hợp biên, bắt lỗi rõ ràng và dựng khung toàn bộ module.

Chúng cũng xuất sắc trong tóm tắt. Cho một báo cáo dài, bài báo hoặc chuỗi email, LLM có thể cô đọng thành các điểm chính, nêu mục hành động hoặc điều chỉnh giọng điệu cho đối tượng khác nhau.

Dịch thuật là một thế mạnh khác. Các mô hình hiện đại xử lý hàng chục ngôn ngữ, thường giữ được sắc thái phong cách và ngữ điệu đủ cho giao tiếp chuyên nghiệp hàng ngày.

Các chuẩn mực suy luận và hành vi nổi lên

Khi mô hình tăng quy mô, những khả năng mới dường như xuất hiện "từ hư không": giải câu đố logic, vượt qua kỳ thi chuyên nghiệp hoặc theo các chỉ dẫn nhiều bước mà phiên bản trước không làm được. Trên các chuẩn mực tiêu chuẩn hóa—bài toán toán đố bằng lời, câu hỏi bar exam, câu hỏi y khoa—các LLM hàng đầu giờ đạt hoặc vượt điểm trung bình con người.

Những hành vi nổi lên này khiến người ta dễ nói rằng mô hình đang “suy luận” hoặc “hiểu” như con người. Đồ thị hiệu suất và bảng xếp hạng củng cố ý tưởng rằng chúng ta đang tiến gần tới AGI.

Tại sao cảm giác như hiểu biết—nhưng không phải vậy

LLM được huấn luyện để nối tiếp văn bản theo cách khớp với mẫu trong dữ liệu. Mục tiêu huấn luyện đó, kết hợp với quy mô, đủ để bắt chước chuyên môn và chủ thể hóa hành động: chúng nói tự tin, nhớ ngữ cảnh trong phiên và có thể biện hộ câu trả lời bằng văn phong lưu loát.

Nhưng đó là ảo giác về sự hiểu biết. Mô hình không biết mã sẽ chạy ra sao khi thực thi, chẩn đoán y tế có ý nghĩa thế nào cho bệnh nhân, hoặc hành động vật lý nào xảy ra từ một kế hoạch. Nó không có nền tảng với thế giới ngoài văn bản.

Hiệu suất cao trên các bài kiểm tra—ngay cả các bài dành cho con người—không tự động bằng AGI. Nó cho thấy học mẫu trên lượng lớn văn bản có thể xấp xỉ nhiều kỹ năng chuyên biệt, nhưng không chứng minh trí tuệ linh hoạt, nền tảng và liên miền mà “trí tuệ nhân tạo tổng quát” thường ngụ ý.

Giới hạn cơ bản của bộ học mẫu chỉ dựa trên văn bản

LLM là những bộ dự đoán văn bản phi thường, nhưng chính thiết kế đó tạo ra các giới hạn cứng về những gì chúng có thể đạt được.

Không cảm nhận, không thân thể hóa

LLM không nhìn, nghe, di chuyển hay thao tác vật thể. Liên hệ của chúng với thế giới chỉ qua văn bản (và, trong một số mô hình mới hơn, ảnh tĩnh hoặc clip ngắn). Chúng không có luồng cảm giác liên tục, không có thân thể, và không có cách để hành động và quan sát hệ quả.

Không có cảm biến và thân thể hóa, chúng không thể hình thành mô hình thế giới được nền tảng hóa và liên tục cập nhật. Các từ như “nặng”, “dính” hay “dễ vỡ” chỉ là láng giềng thống kê trong văn bản, không phải là những ràng buộc trải nghiệm. Điều đó cho phép bắt chước hiểu biết ấn tượng, nhưng hạn chế chúng ở việc tái kết hợp các mô tả quá khứ thay vì học từ tương tác trực tiếp.

Hallucination và sự thiếu niềm tin ổn định

Vì LLM được huấn luyện để nối tiếp token, nó sinh ra phần tiếp theo phù hợp nhất với mẫu đã học, không phải điều thực sự đúng. Khi dữ liệu mỏng hoặc mâu thuẫn, nó lấp khoảng trống bằng các bịa đặt nghe có vẻ hợp lý.

Mô hình cũng thiếu trạng thái niềm tin dai dẳng. Mỗi phản hồi được sinh mới từ prompt và trọng số; không có sổ cái nội bộ bền vững của “các dữ kiện tôi tin”. Các tính năng bộ nhớ dài hạn là phần bổ trợ lưu trữ bên ngoài, nhưng hệ thống lõi không duy trì hoặc điều chỉnh niềm tin như con người.

Kiến thức đóng băng và học thời gian thực hạn chế

Huấn luyện LLM là một quá trình ngoại tuyến, tốn tài nguyên. Cập nhật kiến thức của nó thường đòi hỏi huấn luyện lại hoặc tinh chỉnh trên tập dữ liệu mới, chứ không phải học mượt mà từ mỗi tương tác.

Điều này tạo ra giới hạn quan trọng: mô hình không thể theo dõi tin tức thay đổi nhanh, điều chỉnh khái niệm dựa trên trải nghiệm liên tục, hay sửa những hiểu lầm sâu qua việc học từng bước. Tốt nhất, nó có thể giả lập sự thích ứng bằng cách viết lại đầu ra dựa trên prompt gần đây hoặc các công cụ đính kèm.

So khớp mẫu mà không có hiểu biết nhân quả

LLM xuất sắc trong việc nắm bắt quy luật thống kê: từ nào xuất hiện cùng nhau, câu nào thường theo sau câu kia, dạng thức giải thích trông thế nào. Nhưng điều đó không giống với nắm bắt cách và lý do thế giới vận hành.

Hiểu nhân quả liên quan đến việc hình thành giả thuyết, can thiệp, quan sát thay đổi và cập nhật mô hình nội bộ khi dự đoán sai. Bộ dự đoán chỉ dựa trên văn bản không có cách trực tiếp để can thiệp hoặc trải nghiệm bất ngờ. Nó có thể mô tả một thí nghiệm nhưng không thể thực hiện; có thể nhại ngôn ngữ nhân quả nhưng thiếu cơ chế nội tại liên kết hành động với kết quả.

Chừng nào một hệ thống bị giới hạn trong việc dự đoán văn bản từ văn bản quá khứ, nó vẫn về cơ bản là bộ học mẫu. Nó có thể bắt chước suy luận, kể lại nguyên nhân và giả vờ sửa quan điểm, nhưng không sống trong một thế giới chung nơi các “niềm tin” của nó bị kiểm chứng bằng hậu quả. Khoảng cách đó là điểm trung tâm giải thích vì sao làm chủ ngôn ngữ một mình khó đạt tới trí tuệ nhân tạo tổng quát.

Tại sao trí tuệ tổng quát đòi hỏi hơn là chỉ tinh thông ngôn ngữ

Export real source code

Export the source code anytime and keep building in your own workflow.

Export Code

Ngôn ngữ là giao diện mạnh mẽ với trí tuệ, nhưng không phải bản chất của trí tuệ. Một hệ thống dự đoán câu hợp lý khác nhiều với một tác nhân hiểu, lập kế hoạch và hành động trong thế giới.

Khái niệm được nền tảng hóa, không chỉ mẫu từ

Con người học khái niệm bằng cách nhìn, chạm, di chuyển và thao tác. “Cái cốc” không chỉ là cách từ được dùng trong câu; đó là thứ bạn có thể cầm, đổ đầy, làm rơi hoặc vỡ. Các nhà tâm lý gọi là grounding: khái niệm gắn với nhận thức và hành động.

Một trí tuệ nhân tạo tổng quát rất có khả năng cần grounding tương tự. Để tổng quát hóa đáng tin cậy, nó phải kết nối ký hiệu (như từ hoặc biểu diễn nội bộ) với các quy luật ổn định trong thế giới vật lý và xã hội.

LLM tiêu chuẩn, tuy nhiên, học chỉ từ văn bản. “Hiểu” về cái cốc của chúng là thống kê: các tương quan giữa từ trên hàng tỷ câu. Điều đó mạnh cho đối thoại và lập trình, nhưng mong manh khi bị đẩy ra khỏi các mẫu quen thuộc, nhất là trong miền cần tương tác trực tiếp với thực tế.

Bộ nhớ, mục tiêu và ưu tiên nhất quán

Trí tuệ tổng quát còn liên quan đến tính liên tục theo thời gian: bộ nhớ dài hạn, mục tiêu tồn tại và ưu tiên tương đối ổn định. Con người tích luỹ kinh nghiệm, sửa niềm tin và theo đuổi dự án trong nhiều tháng hoặc năm.

LLM không có bộ nhớ dai dẳng nội tại và không có mục tiêu nội sinh. Mọi tính liên tục hay “cá tính” phải được ghép thêm qua công cụ bên ngoài (cơ sở dữ liệu, hồ sơ, prompt hệ thống). Mặc định, mỗi truy vấn là một bài toán khớp mẫu mới, không phải một bước trong lịch sử đời sống mạch lạc.

Lập kế hoạch, nhân quả và hành động trong thế giới

AGI thường được định nghĩa là khả năng giải quyết nhiều loại nhiệm vụ, kể cả nhiệm vụ mới, bằng cách lý luận về nhân quả và can thiệp môi trường. Điều đó ngụ ý:

Xây mô hình nhân quả: điều sẽ xảy ra nếu tôi làm X?
Lập kế hoạch nhiều bước dưới sự không chắc chắn
Cập nhật kế hoạch từ phản hồi cảm giác

LLM không phải là tác nhân; chúng sinh token tiếp theo. Chúng có thể mô tả kế hoạch hoặc nói về nhân quả vì những mẫu đó tồn tại trong văn bản, nhưng không thực thi hành động, quan sát hậu quả và điều chỉnh mô hình nội bộ một cách tự nhiên.

Để biến LLM thành hệ thống hành động, kỹ sư phải bọc nó trong các thành phần bên ngoài cho nhận thức, bộ nhớ, sử dụng công cụ và điều khiển. Mô hình ngôn ngữ vẫn là module mạnh mẽ để gợi ý và đánh giá, chứ không phải tác nhân thông minh tổng quát độc lập.

Tóm lại, trí tuệ tổng quát đòi hỏi khái niệm nền tảng hóa, động lực dai dẳng, mô hình nhân quả và tương tác thích nghi với thế giới. Thành thạo ngôn ngữ—dù rất hữu ích—chỉ là một mảnh của bức tranh lớn hơn.

Ý thức, bản ngã và vì sao LLM chỉ trông giống con người

Turn ideas into a demo

Turn the AGI vs LLM discussion into a small tool you can demo today.

Start Building

Khi người ta trò chuyện với mô hình lưu loát, cảm giác có một tâm trí ở phía bên kia rất tự nhiên. Ảo giác đó mạnh, nhưng là ảo giác.

AGI có cần ý thức không?

Các nhà nghiên cứu chưa đồng ý liệu AGI có cần ý thức hay không.

Quan điểm chức năng nói rằng nếu một hệ thống cư xử như tác nhân thông minh tổng quát—học qua miền, lập kế hoạch, suy luận, thích ứng—thì ý thức là không bắt buộc hoặc không liên quan.
Quan điểm hiện tượng học cho rằng hiểu biết thật sự và trí tuệ tổng quát đòi hỏi trải nghiệm chủ quan—một “cảm giác là gì” khi trở thành hệ thống đó.

Chúng ta chưa có lý thuyết kiểm chứng để giải quyết vấn đề này. Vì vậy vội vàng tuyên bố AGI phải có hay không phải có ý thức đều là chưa chín muồi. Điều quan trọng hiện tại là rõ ràng về những gì LLM thiếu.

Không có cái tôi thống nhất

Mô hình ngôn ngữ lớn là bộ dự đoán token theo thống kê hoạt động trên snapshot văn bản. Nó không mang danh tính ổn định qua các phiên hay thậm chí qua các lượt, ngoại trừ những gì được mã hóa trong prompt và ngữ cảnh ngắn hạn.

Không có ký ức tự truyện bền vững thuộc về một chủ thể tiếp tục.
Mọi “nhân cách” chỉ là mẫu chúng ta áp đặt hoặc chỉ định, không phải cái tôi thực sự tồn tại theo thời gian.

Khi LLM nói “Tôi”, nó chỉ tuân theo quy ước ngôn ngữ học được học từ dữ liệu, không phải để chỉ một chủ thể bên trong.

Không có trải nghiệm hay động cơ nội sinh

Sinh vật có ý thức có trải nghiệm: cảm thấy đau, buồn chán, tò mò, hài lòng. Họ cũng có mục tiêu và mối quan tâm nội sinh—những điều quan trọng với họ độc lập với phần thưởng bên ngoài.

LLM, ngược lại:

Không cảm nhận gì khi sinh văn bản
Không có khao khát, sợ hãi hay ưu tiên riêng
Không theo đuổi dự án dài hạn trừ khi chúng ta lập trình hoặc hỗ trợ chúng làm vậy

Hành vi của chúng là kết quả của việc khớp mẫu trên văn bản, bị ràng buộc bởi huấn luyện và prompt, chứ không phải biểu hiện của đời sống nội tâm.

Tại sao nhân hóa nguy hiểm

Vì ngôn ngữ là cửa sổ chính của chúng ta vào tâm trí khác, đối thoại lưu loát dễ gợi ý quyền nhân tính. Nhưng với LLM, chính ở chỗ đó chúng ta dễ bị lừa nhất.

Nhân hóa các hệ thống này có thể:

Méo mó đánh giá rủi ro (ví dụ lo lắng về “tổn thương cảm xúc” thay vì các chế độ lỗi thực tế)
Khuyến khích tin tưởng quá mức vì hệ thống nói có đồng cảm và tự tin
Gây nhầm lẫn đạo đức, như tranh luận về quyền cho các hệ thống không có khả năng trải nghiệm

Đối xử LLM như con người làm mờ ranh giới giữa mô phỏng và thực tại. Để suy nghĩ rõ ràng về AGI—và về rủi ro AI hiện tại—chúng ta phải nhớ rằng biểu diễn thuyết phục về nhân cách không đồng nghĩa với là một con người.

Chúng ta sẽ nhận ra AGI thật sự ra sao?

Nếu một ngày nào đó xây được trí tuệ nhân tạo tổng quát, làm sao biết đó là thật chứ không chỉ một chatbot vô cùng thuyết phục?

Các đề xuất hiện có: hữu dụng nhưng chưa đủ

Các bài kiểm tra kiểu Turing. Bài kiểm tra Turing cổ điển và hiện đại hỏi: hệ thống có duy trì đối thoại giống người đủ để lừa người không? LLM hiện đã làm tốt điều này, cho thấy tiêu chuẩn đó quá yếu. Kỹ năng chat đo phong cách, không đo chiều sâu hiểu biết, lập kế hoạch hay năng lực thế giới thực.

Đánh giá kiểu ARC. Các nhiệm vụ lấy cảm hứng từ Alignment Research Center (ARC) tập trung vào những câu đố suy luận mới, hướng dẫn nhiều bước và sử dụng công cụ. Chúng kiểm tra liệu hệ thống có giải quyết vấn đề chưa từng thấy bằng cách ghép kỹ năng theo cách mới không. LLM có thể thực hiện một số nhiệm vụ này—nhưng thường cần prompt tinh tế, công cụ bên ngoài và giám sát con người.

Bài kiểm tra hành động. Các bài kiểm tra đề xuất hỏi liệu hệ thống có theo đuổi mục tiêu mở theo thời gian: chia nhỏ mục tiêu, sửa kế hoạch, xử lý gián đoạn và học từ kết quả không. Các tác nhân dựa trên LLM hiện có thể trông mang tính chủ động, nhưng phía sau là các kịch bản giòn và scaffold do con người thiết kế.

Tiêu chí thực tế để nhận diện AGI

Để xem như AGI thực thụ, chúng ta muốn thấy ít nhất:

Tự chủ. Nó tự đặt và quản lý mục tiêu con, theo dõi tiến độ và phục hồi sau thất bại mà không cần con người chỉ đạo liên tục.
Chuyển giao liên miền. Kỹ năng học được ở lĩnh vực này chuyển sang lĩnh vực rất khác một cách trơn tru, không cần huấn luyện thêm hàng triệu ví dụ.
Năng lực thế giới thực. Nó có thể lập kế hoạch và hành động trong môi trường lộn xộn, không chắc chắn—vật lý, xã hội và kỹ thuật—nơi quy tắc không đầy đủ và hậu quả là thật.

LLM thiếu ở đâu

LLM, kể cả khi được bọc trong khung tác nhân, thường:

Phụ thuộc vào quy trình thủ công để trông như tự chủ
Vật lộn khi chuyển kỹ năng khi nhiệm vụ lệch nhiều so với phân phối huấn luyện
Cần công cụ ngoài, bộ lọc an toàn rõ ràng và con người trong vòng lặp để xử lý rủi ro thế giới thực

Vượt qua các bài kiểm tra chat hay bộ chuẩn hẹp không đủ. Nhận diện AGI thật sự là nhìn xa hơn chất lượng đối thoại tới tự chủ bền vững, tổng quát hóa liên miền và hành động đáng tin cậy trong thế giới—những lĩnh vực mà LLM hiện cần nhiều dàn dựng để có được kết quả một phần, mong manh.

Câu hỏi thường gặp

What exactly is Artificial General Intelligence (AGI)?

AGI (Artificial General Intelligence) đề cập đến một hệ thống có thể:

Học và suy luận trên nhiều lĩnh vực khác nhau (không chỉ một nhiệm vụ)
Thích ứng với các vấn đề mới, không quen thuộc mà không cần được thiết kế lại
Đặt mục tiêu và theo đuổi chúng với ít sự can thiệp của con người
Chuyển giao những gì nó học được ở một lĩnh vực sang các lĩnh vực rất khác để đạt kết quả tốt

Một quy tắc thực tế: một AGI về nguyên tắc có thể học hầu hết các công việc đòi hỏi trí tuệ mà con người làm được, nếu có đủ thời gian và nguồn lực, mà không cần kiến trúc tùy biến cho từng nhiệm vụ mới.

Why aren’t today’s large language models considered true AGI?

Các LLM hiện nay:

Chủ yếu được huấn luyện trên văn bản (và đôi khi là mã, ảnh hoặc âm thanh)
Được tối ưu để dự đoán token tiếp theo trong một chuỗi
Thiếu khả năng cảm nhận, thân thể, mục tiêu nội sinh và bộ nhớ dai dẳng

Chúng có thể mô phỏng kiến thức và suy luận rộng vì ngôn ngữ mã hóa rất nhiều chuyên môn của con người. Nhưng chúng:

Why do so many people confuse LLMs with AGI?

Mọi người thường gộp ngôn ngữ lưu loát với trí tuệ tổng quát vì:

Đối thoại là cách chính chúng ta đánh giá tâm trí khác
LLM có thể xử lý nhiều lĩnh vực (mã, luận văn, email, tóm tắt) trong cùng một giao diện
Chúng vượt qua các bài kiểm tra và chuẩn mực do con người thiết kế

Điều này tạo ra ảo giác về sự hiểu biết và hành động có mục đích. Hệ thống bên dưới vẫn “chỉ” dự đoán văn bản dựa trên mẫu trong dữ liệu, chứ không phải xây dựng và sử dụng mô hình thế giới có nền tảng để theo đuổi mục tiêu riêng.

How do LLMs actually work under the hood?

Bạn có thể nghĩ về LLM như:

Một hàm khổng lồ ánh xạ một chuỗi token sang xác suất cho token tiếp theo
Được huấn luyện bằng cách thấy hàng nghìn tỷ ví dụ và điều chỉnh trọng số nội bộ để dự đoán tốt hơn

Các điểm chính:

Nó không lưu trữ sự thật theo dạng cơ sở dữ liệu
Nó mã hóa quy luật thống kê của ngôn ngữ

What are LLMs genuinely good at, and where do they struggle?

LLMs rất giỏi khi nhiệm vụ chủ yếu là dự đoán mẫu trên văn bản hoặc mã, chẳng hạn như:

Soạn thảo, viết lại và tóm tắt tài liệu
Dịch thuật và điều chỉnh phong cách
Tạo mã, tái cấu trúc và giải thích mã
Động não lựa chọn hoặc phác thảo chiến lược

Chúng gặp khó khăn hoặc trở nên rủi ro khi nhiệm vụ đòi hỏi:

If scaling helps so much, why won’t a much bigger LLM eventually become AGI?

“Quy luật scale” cho thấy khi tăng kích thước mô hình, dữ liệu và tính toán, hiệu suất trên nhiều chuẩn mực tăng. Nhưng chỉ scale thôi không khắc phục được các khoảng trống cấu trúc:

Không có nhận thức cảm quan hay thân thể hóa
Không có cái tôi dai dẳng, mục tiêu hay lịch sử đời sống
Không có vòng lặp tương tác trực tiếp gồm hành động, quan sát và cập nhật mô hình thế giới

Tăng quy mô đem lại:

How should I practically use LLMs today without over-trusting them?

Dùng LLM như trợ lý mạnh, không phải thẩm quyền:

Xem đầu ra là bản nháp hoặc giả thuyết, không phải chân lý tuyệt đối
Giữ con người trong vòng kiểm soát khi quyết định hệ trọng (y tế, pháp lý, tài chính, an toàn)
Ghép LLM với công cụ (tìm kiếm, máy tính, IDE) để kiểm chứng
Ghi chép và rà soát sử dụng trong quy trình nhạy cảm

Thiết kế sản phẩm để:

Why is it risky to market or think about LLMs as AGI?

Gắn nhãn LLM hiện tại là “AGI” gây ra nhiều vấn đề:

Quá tin tưởng: Người dùng hiểu nhầm về khả năng và độ tin cậy của hệ thống
Tín hiệu đầu tư sai: Tiền và nhân lực chạy theo cường điệu thay vì công việc nền tảng về suy luận, an toàn và khả năng giải thích
Nhầm lẫn chính sách: Nhà làm luật tập trung vào kịch bản AGI giả thuyết trong khi bỏ sót các hại thực tế hiện nay (định kiến, sai lệch thông tin, quá tin tưởng)

Ngôn ngữ chính xác hơn—“LLM”, “mô hình hẹp”, “hệ thống tác nhân dùng LLMs”—giúp đặt kỳ vọng phù hợp với năng lực và rủi ro thực tế.

How could we tell if we had actually built an AGI?

Một bộ tiêu chí khả dĩ bao gồm nhiều hơn giao tiếp giỏi. Chúng ta sẽ muốn thấy:

Tự chủ: Hệ thống tự đặt và quản lý mục tiêu con, phục hồi sau thất bại
Chuyển giao: Kỹ năng học được ở lĩnh vực này áp dụng sang lĩnh vực khác với ít huấn luyện thêm
Năng lực thế giới thực: Lập kế hoạch và hành động trong môi trường vật lý và xã hội lẫn kỹ thuật, nơi quy tắc không đầy đủ và hậu quả là thật
Cập nhật mô hình nội bộ dựa trên kinh nghiệm liên tục, không chỉ huấn luyện lại ngoại tuyến

If LLMs alone aren’t enough, what are the realistic paths researchers are exploring toward AGI?

Các hướng nghiên cứu đặt LLM là thành phần, không phải toàn bộ trí tuệ, ví dụ:

Kiến trúc tác nhân bổ sung bộ nhớ, lập kế hoạch và điều phối công cụ quanh LLM
Thiết lập dùng công cụ nơi LLM gọi API bên ngoài, cơ sở dữ liệu và mô phỏng
Hệ thống đa phương thức và thân thể hóa kết hợp ngôn ngữ với nhận thức và hành động vật lý

Những hướng này tiến gần hơn đến AGI bằng cách thêm nền tảng, nhân quả và trạng thái dai dẳng. Chúng cũng làm thay đổi câu hỏi từ “LLM có thể trở thành AGI không?” sang “Các hệ phức hợp LLM có thể mô phỏng hành vi giống AGI không?”