Tìm hiểu trí tuệ nhân tạo tổng quát (AGI) thực sự nghĩa là gì, cách các mô hình ngôn ngữ lớn (LLM) hoạt động, và những lập luận chính vì sao các mô hình văn bản hiện tại có thể không bao giờ trở thành AGI thực thụ.

Nếu bạn đọc tin công nghệ, bản thuyết trình cho nhà đầu tư hoặc trang sản phẩm, bạn sẽ thấy từ trí tuệ bị kéo căng đến mức quá tải. Chatbot được gọi là “gần giống con người”, trợ lý lập trình là “gần như kỹ sư tập sự”, và một số người thản nhiên gọi các mô hình ngôn ngữ lớn (LLM) mạnh là những bước đầu tiên hướng tới trí tuệ nhân tạo tổng quát (AGI).
Bài viết này dành cho những người thực hành tò mò, nhà sáng lập, lãnh đạo sản phẩm và độc giả kỹ thuật dùng công cụ như GPT-4 hoặc Claude và tự hỏi: Liệu đây có phải là AGI—hay còn thiếu điều gì quan trọng?
LLM thật sự ấn tượng. Chúng:
Với đa số không chuyên, điều đó cảm thấy không thể phân biệt với “trí tuệ tổng quát.” Khi một mô hình có thể viết bài luận về Kant, sửa lỗi TypeScript của bạn và giúp soạn một ghi nhớ pháp lý trong cùng một phiên, việc cho rằng chúng ta sắp chạm tới AGI là điều dễ hiểu.
Nhưng giả định đó lặng lẽ đồng nhất hóa giỏi ngôn ngữ với thông minh tổng quát. Đó là sự nhầm lẫn chính mà bài viết này sẽ làm rõ.
Luận điểm được phát triển từng phần là:
Các LLM hiện tại là những bộ học mẫu cực kỳ hiệu quả trên văn bản và mã, nhưng kiến trúc và chế độ huấn luyện của chúng làm cho chúng không có khả năng trở thành AGI thực thụ chỉ bằng cách tăng quy mô hay tinh chỉnh đơn thuần.
Chúng sẽ tiếp tục tốt hơn, rộng hơn và hữu ích hơn. Chúng có thể là thành phần trong các hệ thống giống AGI. Tuy nhiên có những lý do sâu sắc—về nền tảng hóa với thế giới, chủ động, bộ nhớ, thân thể hóa và mô hình bản thân—giải thích vì sao “LLM lớn hơn” có lẽ không đồng nghĩa với “thông minh tổng quát.”
Hãy mong đợi một chuyến tham quan có quan điểm, nhưng dựa trên nghiên cứu hiện tại, năng lực và thất bại cụ thể của LLM, cùng các câu hỏi mở mà các nhà khoa học nghiêm túc đang vật lộn, thay vì cường điệu hay gieo rắc sợ hãi.
Khi người ta nói AGI, họ hiếm khi có cùng ý. Để làm rõ tranh luận, hữu ích khi tách vài khái niệm cốt lõi.
AI (trí tuệ nhân tạo) là lĩnh vực rộng xây dựng hệ thống thực hiện những nhiệm vụ đòi hỏi hành vi “thông minh”: nhận diện giọng nói, gợi ý phim, chơi Go, viết mã, và nhiều hơn nữa.
Phần lớn thứ tồn tại ngày nay là AI hẹp (hoặc AI yếu): hệ thống được thiết kế và huấn luyện cho một tập nhiệm vụ cụ thể trong điều kiện cụ thể. Một bộ phân loại ảnh gắn nhãn mèo và chó hoặc chatbot dịch vụ khách hàng tinh chỉnh cho các câu hỏi ngân hàng có thể cực kỳ hiệu quả trong miền đó nhưng thất bại nghiêm trọng bên ngoài.
Trí tuệ nhân tạo tổng quát (AGI) khác rất nhiều. Nó ám chỉ một hệ thống có thể:
Một quy tắc thực tế: một AGI về nguyên tắc có thể học hầu hết các công việc trí tuệ mà con người làm được, nếu có thời gian và nguồn lực, mà không cần thiết kế lại riêng cho từng nhiệm vụ mới.
Các thuật ngữ liên quan thường xuất hiện:
Ngược lại, các chatbot và mô hình ảnh hiện đại vẫn là hẹp: ấn tượng, nhưng được tối ưu cho các mẫu trong dữ liệu cụ thể, không phải cho trí tuệ mở rộng liên miền.
Giấc mơ AGI hiện đại bắt đầu với đề xuất của Alan Turing năm 1950: nếu một máy có thể duy trì cuộc trò chuyện không thể phân biệt với con người (bài kiểm tra Turing), liệu nó có thông minh không? Điều đó đóng khung trí tuệ tổng quát chủ yếu theo hành vi, đặc biệt là ngôn ngữ và lý luận.
Từ thập niên 1950 đến 1980, các nhà nghiên cứu theo đuổi AGI bằng AI biểu tượng hay “GOFAI” (Good Old-Fashioned AI). Trí tuệ được xem là thao tác ký hiệu rõ ràng theo quy tắc logic. Các chương trình chứng minh định lý, chơi trò chơi và hệ chuyên gia khiến một số người tin rằng suy luận ở mức con người đang gần kề.
Nhưng GOFAI gặp khó với nhận thức, kiến thức thường thức và xử lý dữ liệu đời thực lộn xộn. Hệ thống có thể giải các câu đố logic nhưng thất bại với nhiệm vụ một đứa trẻ làm thừa sức. Khoảng cách này dẫn tới các mùa đông AI đầu tiên và cái nhìn thận trọng hơn về AGI.
Khi dữ liệu và tính toán tăng, AI chuyển từ quy tắc thủ công sang học từ ví dụ. Học máy thống kê, rồi deep learning, định nghĩa lại tiến bộ: thay vì mã hóa tri thức, hệ thống học mẫu từ bộ dữ liệu lớn.
Các mốc như DeepBlue của IBM (cờ vua) và sau này AlphaGo (Go) được ca ngợi là bước tới trí tuệ tổng quát. Thực tế, chúng cực kỳ chuyên biệt: mỗi hệ thống làm chủ một trò chơi với luật cố định, không chuyển giao sang suy luận đời thường.
Dòng GPT đánh dấu một bước nhảy đáng kể, lần này về ngôn ngữ. GPT-3 và GPT-4 có thể soạn luận, viết mã và bắt chước phong cách, khuấy lên suy đoán AGI có thể gần kề.
Tuy nhiên các mô hình này vẫn là bộ học mẫu trên văn bản. Chúng không hình thành mục tiêu, xây mô hình thế giới có nền tảng, hay tự mở rộng năng lực.
Qua mỗi làn sóng—AI biểu tượng, học máy cổ điển, deep learning, và giờ là LLM—giấc mơ AGI liên tục được áp đặt lên các thành tựu hẹp rồi được điều chỉnh khi giới hạn của chúng lộ rõ.
Mô hình ngôn ngữ lớn (LLM) là những bộ học mẫu được huấn luyện trên tập hợp văn bản khổng lồ: sách, trang web, mã, diễn đàn và nhiều nguồn khác. Mục tiêu nghe có vẻ đơn giản: cho một đoạn văn bản, dự đoán token (một mảnh nhỏ của văn bản) có khả năng xuất hiện tiếp theo.
Trước khi huấn luyện, văn bản được tách thành token: có thể là từ nguyên ("mèo"), mảnh từ ("inter", "esting"), hoặc dấu câu. Trong quá trình huấn luyện, mô hình thấy lặp lại các chuỗi như:
"Con mèo ngồi trên ___"
và học gán xác suất cao cho các token có khả năng hợp lý ("thảm", "ghế") và xác suất thấp cho các token vô lý ("chủ tịch"). Quá trình này, được mở rộng trên hàng nghìn tỷ token, hình thành hàng tỷ (hoặc hơn) tham số nội bộ.
Bên trong, mô hình chỉ là một hàm rất lớn chuyển chuỗi token thành phân phối xác suất cho token tiếp theo. Huấn luyện dùng gradient descent để dần điều chỉnh tham số nhằm dự đoán tốt hơn các mẫu trong dữ liệu.
"Quy luật scale" mô tả quy luật mà các nhà nghiên cứu quan sát: khi tăng kích thước mô hình, khối lượng dữ liệu và tính toán, hiệu suất thường cải thiện theo cách có thể dự đoán. Mô hình lớn hơn huấn luyện trên nhiều văn bản thường tốt hơn việc dự đoán—cho đến giới hạn thực tiễn về dữ liệu, tính toán và ổn định huấn luyện.
LLM không lưu trữ sự thật như cơ sở dữ liệu hay suy luận như con người. Chúng mã hóa quy luật thống kê: từ, cụm từ và cấu trúc nào thường xuất hiện cùng nhau trong bối cảnh nào.
Chúng không có khái niệm được nền tảng hóa gắn với nhận thức hay trải nghiệm vật lý. Một LLM có thể nói về "đỏ" hay "nặng" chỉ thông qua cách những từ đó được dùng trong văn bản, không phải vì nó nhìn thấy màu hay nâng vật.
Đó là lý do tại sao mô hình có thể tỏ ra biết nhiều nhưng vẫn mắc lỗi tự tin: chúng đang mở rộng các mẫu, không tham vấn mô hình thực tế rõ ràng.
Tiền huấn luyện là giai đoạn dài ban đầu nơi mô hình học các quy tắc ngôn ngữ chung bằng cách dự đoán token tiếp theo trên kho văn bản khổng lồ. Hầu hết khả năng xuất hiện ở bước này.
Sau đó, tinh chỉnh điều chỉnh mô hình đã tiền huấn luyện cho mục tiêu hẹp hơn: theo lệnh, viết mã, dịch, hoặc trợ giúp trong các miền cụ thể. Mô hình được cho các ví dụ gọn ghẽ về hành vi mong muốn và điều chỉnh nhẹ.
Học tăng cường từ phản hồi con người (RLHF) thêm một lớp: con người đánh giá hoặc so sánh đầu ra, và mô hình tối ưu để sản sinh phản hồi mà con người ưa thích (ví dụ hữu ích hơn, ít gây hại hơn, trung thực hơn). RLHF không cung cấp cảm quan mới hay hiểu biết sâu hơn; nó chủ yếu định hình cách mô hình trình bày và lọc những gì nó đã học.
Kết hợp các bước này tạo ra hệ thống cực kỳ giỏi sinh văn bản trôi chảy bằng cách tận dụng quy luật thống kê—nhưng không sở hữu kiến thức được nền tảng hóa, mục tiêu hay nhận thức.
LLM trông ấn tượng vì chúng có thể thực hiện nhiều nhiệm vụ trước đây có vẻ ngoài tầm với máy móc.
LLM có thể tạo đoạn mã hoạt động, tái cấu trúc mã hiện có và thậm chí giải thích thư viện không quen bằng ngôn ngữ bình dân. Với nhiều lập trình viên, chúng đã hoạt động như đồng lập trình viên rất có năng lực: gợi ý các trường hợp biên, bắt lỗi rõ ràng và dựng khung toàn bộ module.
Chúng cũng xuất sắc trong tóm tắt. Cho một báo cáo dài, bài báo hoặc chuỗi email, LLM có thể cô đọng thành các điểm chính, nêu mục hành động hoặc điều chỉnh giọng điệu cho đối tượng khác nhau.
Dịch thuật là một thế mạnh khác. Các mô hình hiện đại xử lý hàng chục ngôn ngữ, thường giữ được sắc thái phong cách và ngữ điệu đủ cho giao tiếp chuyên nghiệp hàng ngày.
Khi mô hình tăng quy mô, những khả năng mới dường như xuất hiện "từ hư không": giải câu đố logic, vượt qua kỳ thi chuyên nghiệp hoặc theo các chỉ dẫn nhiều bước mà phiên bản trước không làm được. Trên các chuẩn mực tiêu chuẩn hóa—bài toán toán đố bằng lời, câu hỏi bar exam, câu hỏi y khoa—các LLM hàng đầu giờ đạt hoặc vượt điểm trung bình con người.
Những hành vi nổi lên này khiến người ta dễ nói rằng mô hình đang “suy luận” hoặc “hiểu” như con người. Đồ thị hiệu suất và bảng xếp hạng củng cố ý tưởng rằng chúng ta đang tiến gần tới AGI.
LLM được huấn luyện để nối tiếp văn bản theo cách khớp với mẫu trong dữ liệu. Mục tiêu huấn luyện đó, kết hợp với quy mô, đủ để bắt chước chuyên môn và chủ thể hóa hành động: chúng nói tự tin, nhớ ngữ cảnh trong phiên và có thể biện hộ câu trả lời bằng văn phong lưu loát.
Nhưng đó là ảo giác về sự hiểu biết. Mô hình không biết mã sẽ chạy ra sao khi thực thi, chẩn đoán y tế có ý nghĩa thế nào cho bệnh nhân, hoặc hành động vật lý nào xảy ra từ một kế hoạch. Nó không có nền tảng với thế giới ngoài văn bản.
Hiệu suất cao trên các bài kiểm tra—ngay cả các bài dành cho con người—không tự động bằng AGI. Nó cho thấy học mẫu trên lượng lớn văn bản có thể xấp xỉ nhiều kỹ năng chuyên biệt, nhưng không chứng minh trí tuệ linh hoạt, nền tảng và liên miền mà “trí tuệ nhân tạo tổng quát” thường ngụ ý.
LLM là những bộ dự đoán văn bản phi thường, nhưng chính thiết kế đó tạo ra các giới hạn cứng về những gì chúng có thể đạt được.
LLM không nhìn, nghe, di chuyển hay thao tác vật thể. Liên hệ của chúng với thế giới chỉ qua văn bản (và, trong một số mô hình mới hơn, ảnh tĩnh hoặc clip ngắn). Chúng không có luồng cảm giác liên tục, không có thân thể, và không có cách để hành động và quan sát hệ quả.
Không có cảm biến và thân thể hóa, chúng không thể hình thành mô hình thế giới được nền tảng hóa và liên tục cập nhật. Các từ như “nặng”, “dính” hay “dễ vỡ” chỉ là láng giềng thống kê trong văn bản, không phải là những ràng buộc trải nghiệm. Điều đó cho phép bắt chước hiểu biết ấn tượng, nhưng hạn chế chúng ở việc tái kết hợp các mô tả quá khứ thay vì học từ tương tác trực tiếp.
Vì LLM được huấn luyện để nối tiếp token, nó sinh ra phần tiếp theo phù hợp nhất với mẫu đã học, không phải điều thực sự đúng. Khi dữ liệu mỏng hoặc mâu thuẫn, nó lấp khoảng trống bằng các bịa đặt nghe có vẻ hợp lý.
Mô hình cũng thiếu trạng thái niềm tin dai dẳng. Mỗi phản hồi được sinh mới từ prompt và trọng số; không có sổ cái nội bộ bền vững của “các dữ kiện tôi tin”. Các tính năng bộ nhớ dài hạn là phần bổ trợ lưu trữ bên ngoài, nhưng hệ thống lõi không duy trì hoặc điều chỉnh niềm tin như con người.
Huấn luyện LLM là một quá trình ngoại tuyến, tốn tài nguyên. Cập nhật kiến thức của nó thường đòi hỏi huấn luyện lại hoặc tinh chỉnh trên tập dữ liệu mới, chứ không phải học mượt mà từ mỗi tương tác.
Điều này tạo ra giới hạn quan trọng: mô hình không thể theo dõi tin tức thay đổi nhanh, điều chỉnh khái niệm dựa trên trải nghiệm liên tục, hay sửa những hiểu lầm sâu qua việc học từng bước. Tốt nhất, nó có thể giả lập sự thích ứng bằng cách viết lại đầu ra dựa trên prompt gần đây hoặc các công cụ đính kèm.
LLM xuất sắc trong việc nắm bắt quy luật thống kê: từ nào xuất hiện cùng nhau, câu nào thường theo sau câu kia, dạng thức giải thích trông thế nào. Nhưng điều đó không giống với nắm bắt cách và lý do thế giới vận hành.
Hiểu nhân quả liên quan đến việc hình thành giả thuyết, can thiệp, quan sát thay đổi và cập nhật mô hình nội bộ khi dự đoán sai. Bộ dự đoán chỉ dựa trên văn bản không có cách trực tiếp để can thiệp hoặc trải nghiệm bất ngờ. Nó có thể mô tả một thí nghiệm nhưng không thể thực hiện; có thể nhại ngôn ngữ nhân quả nhưng thiếu cơ chế nội tại liên kết hành động với kết quả.
Chừng nào một hệ thống bị giới hạn trong việc dự đoán văn bản từ văn bản quá khứ, nó vẫn về cơ bản là bộ học mẫu. Nó có thể bắt chước suy luận, kể lại nguyên nhân và giả vờ sửa quan điểm, nhưng không sống trong một thế giới chung nơi các “niềm tin” của nó bị kiểm chứng bằng hậu quả. Khoảng cách đó là điểm trung tâm giải thích vì sao làm chủ ngôn ngữ một mình khó đạt tới trí tuệ nhân tạo tổng quát.
Ngôn ngữ là giao diện mạnh mẽ với trí tuệ, nhưng không phải bản chất của trí tuệ. Một hệ thống dự đoán câu hợp lý khác nhiều với một tác nhân hiểu, lập kế hoạch và hành động trong thế giới.
Con người học khái niệm bằng cách nhìn, chạm, di chuyển và thao tác. “Cái cốc” không chỉ là cách từ được dùng trong câu; đó là thứ bạn có thể cầm, đổ đầy, làm rơi hoặc vỡ. Các nhà tâm lý gọi là grounding: khái niệm gắn với nhận thức và hành động.
Một trí tuệ nhân tạo tổng quát rất có khả năng cần grounding tương tự. Để tổng quát hóa đáng tin cậy, nó phải kết nối ký hiệu (như từ hoặc biểu diễn nội bộ) với các quy luật ổn định trong thế giới vật lý và xã hội.
LLM tiêu chuẩn, tuy nhiên, học chỉ từ văn bản. “Hiểu” về cái cốc của chúng là thống kê: các tương quan giữa từ trên hàng tỷ câu. Điều đó mạnh cho đối thoại và lập trình, nhưng mong manh khi bị đẩy ra khỏi các mẫu quen thuộc, nhất là trong miền cần tương tác trực tiếp với thực tế.
Trí tuệ tổng quát còn liên quan đến tính liên tục theo thời gian: bộ nhớ dài hạn, mục tiêu tồn tại và ưu tiên tương đối ổn định. Con người tích luỹ kinh nghiệm, sửa niềm tin và theo đuổi dự án trong nhiều tháng hoặc năm.
LLM không có bộ nhớ dai dẳng nội tại và không có mục tiêu nội sinh. Mọi tính liên tục hay “cá tính” phải được ghép thêm qua công cụ bên ngoài (cơ sở dữ liệu, hồ sơ, prompt hệ thống). Mặc định, mỗi truy vấn là một bài toán khớp mẫu mới, không phải một bước trong lịch sử đời sống mạch lạc.
AGI thường được định nghĩa là khả năng giải quyết nhiều loại nhiệm vụ, kể cả nhiệm vụ mới, bằng cách lý luận về nhân quả và can thiệp môi trường. Điều đó ngụ ý:
LLM không phải là tác nhân; chúng sinh token tiếp theo. Chúng có thể mô tả kế hoạch hoặc nói về nhân quả vì những mẫu đó tồn tại trong văn bản, nhưng không thực thi hành động, quan sát hậu quả và điều chỉnh mô hình nội bộ một cách tự nhiên.
Để biến LLM thành hệ thống hành động, kỹ sư phải bọc nó trong các thành phần bên ngoài cho nhận thức, bộ nhớ, sử dụng công cụ và điều khiển. Mô hình ngôn ngữ vẫn là module mạnh mẽ để gợi ý và đánh giá, chứ không phải tác nhân thông minh tổng quát độc lập.
Tóm lại, trí tuệ tổng quát đòi hỏi khái niệm nền tảng hóa, động lực dai dẳng, mô hình nhân quả và tương tác thích nghi với thế giới. Thành thạo ngôn ngữ—dù rất hữu ích—chỉ là một mảnh của bức tranh lớn hơn.
Khi người ta trò chuyện với mô hình lưu loát, cảm giác có một tâm trí ở phía bên kia rất tự nhiên. Ảo giác đó mạnh, nhưng là ảo giác.
Các nhà nghiên cứu chưa đồng ý liệu AGI có cần ý thức hay không.
Chúng ta chưa có lý thuyết kiểm chứng để giải quyết vấn đề này. Vì vậy vội vàng tuyên bố AGI phải có hay không phải có ý thức đều là chưa chín muồi. Điều quan trọng hiện tại là rõ ràng về những gì LLM thiếu.
Mô hình ngôn ngữ lớn là bộ dự đoán token theo thống kê hoạt động trên snapshot văn bản. Nó không mang danh tính ổn định qua các phiên hay thậm chí qua các lượt, ngoại trừ những gì được mã hóa trong prompt và ngữ cảnh ngắn hạn.
Khi LLM nói “Tôi”, nó chỉ tuân theo quy ước ngôn ngữ học được học từ dữ liệu, không phải để chỉ một chủ thể bên trong.
Sinh vật có ý thức có trải nghiệm: cảm thấy đau, buồn chán, tò mò, hài lòng. Họ cũng có mục tiêu và mối quan tâm nội sinh—những điều quan trọng với họ độc lập với phần thưởng bên ngoài.
LLM, ngược lại:
Hành vi của chúng là kết quả của việc khớp mẫu trên văn bản, bị ràng buộc bởi huấn luyện và prompt, chứ không phải biểu hiện của đời sống nội tâm.
Vì ngôn ngữ là cửa sổ chính của chúng ta vào tâm trí khác, đối thoại lưu loát dễ gợi ý quyền nhân tính. Nhưng với LLM, chính ở chỗ đó chúng ta dễ bị lừa nhất.
Nhân hóa các hệ thống này có thể:
Đối xử LLM như con người làm mờ ranh giới giữa mô phỏng và thực tại. Để suy nghĩ rõ ràng về AGI—và về rủi ro AI hiện tại—chúng ta phải nhớ rằng biểu diễn thuyết phục về nhân cách không đồng nghĩa với là một con người.
Nếu một ngày nào đó xây được trí tuệ nhân tạo tổng quát, làm sao biết đó là thật chứ không chỉ một chatbot vô cùng thuyết phục?
Các bài kiểm tra kiểu Turing. Bài kiểm tra Turing cổ điển và hiện đại hỏi: hệ thống có duy trì đối thoại giống người đủ để lừa người không? LLM hiện đã làm tốt điều này, cho thấy tiêu chuẩn đó quá yếu. Kỹ năng chat đo phong cách, không đo chiều sâu hiểu biết, lập kế hoạch hay năng lực thế giới thực.
Đánh giá kiểu ARC. Các nhiệm vụ lấy cảm hứng từ Alignment Research Center (ARC) tập trung vào những câu đố suy luận mới, hướng dẫn nhiều bước và sử dụng công cụ. Chúng kiểm tra liệu hệ thống có giải quyết vấn đề chưa từng thấy bằng cách ghép kỹ năng theo cách mới không. LLM có thể thực hiện một số nhiệm vụ này—nhưng thường cần prompt tinh tế, công cụ bên ngoài và giám sát con người.
Bài kiểm tra hành động. Các bài kiểm tra đề xuất hỏi liệu hệ thống có theo đuổi mục tiêu mở theo thời gian: chia nhỏ mục tiêu, sửa kế hoạch, xử lý gián đoạn và học từ kết quả không. Các tác nhân dựa trên LLM hiện có thể trông mang tính chủ động, nhưng phía sau là các kịch bản giòn và scaffold do con người thiết kế.
Để xem như AGI thực thụ, chúng ta muốn thấy ít nhất:
Tự chủ. Nó tự đặt và quản lý mục tiêu con, theo dõi tiến độ và phục hồi sau thất bại mà không cần con người chỉ đạo liên tục.
Chuyển giao liên miền. Kỹ năng học được ở lĩnh vực này chuyển sang lĩnh vực rất khác một cách trơn tru, không cần huấn luyện thêm hàng triệu ví dụ.
Năng lực thế giới thực. Nó có thể lập kế hoạch và hành động trong môi trường lộn xộn, không chắc chắn—vật lý, xã hội và kỹ thuật—nơi quy tắc không đầy đủ và hậu quả là thật.
LLM, kể cả khi được bọc trong khung tác nhân, thường:
Vượt qua các bài kiểm tra chat hay bộ chuẩn hẹp không đủ. Nhận diện AGI thật sự là nhìn xa hơn chất lượng đối thoại tới tự chủ bền vững, tổng quát hóa liên miền và hành động đáng tin cậy trong thế giới—những lĩnh vực mà LLM hiện cần nhiều dàn dựng để có được kết quả một phần, mong manh.
AGI (Artificial General Intelligence) đề cập đến một hệ thống có thể:
Một quy tắc thực tế: một AGI về nguyên tắc có thể học hầu hết các công việc đòi hỏi trí tuệ mà con người làm được, nếu có đủ thời gian và nguồn lực, mà không cần kiến trúc tùy biến cho từng nhiệm vụ mới.
Các LLM hiện nay:
Chúng có thể mô phỏng kiến thức và suy luận rộng vì ngôn ngữ mã hóa rất nhiều chuyên môn của con người. Nhưng chúng:
Mọi người thường gộp ngôn ngữ lưu loát với trí tuệ tổng quát vì:
Điều này tạo ra ảo giác về sự hiểu biết và hành động có mục đích. Hệ thống bên dưới vẫn “chỉ” dự đoán văn bản dựa trên mẫu trong dữ liệu, chứ không phải xây dựng và sử dụng mô hình thế giới có nền tảng để theo đuổi mục tiêu riêng.
Bạn có thể nghĩ về LLM như:
Các điểm chính:
LLMs rất giỏi khi nhiệm vụ chủ yếu là dự đoán mẫu trên văn bản hoặc mã, chẳng hạn như:
Chúng gặp khó khăn hoặc trở nên rủi ro khi nhiệm vụ đòi hỏi:
“Quy luật scale” cho thấy khi tăng kích thước mô hình, dữ liệu và tính toán, hiệu suất trên nhiều chuẩn mực tăng. Nhưng chỉ scale thôi không khắc phục được các khoảng trống cấu trúc:
Tăng quy mô đem lại:
Dùng LLM như trợ lý mạnh, không phải thẩm quyền:
Thiết kế sản phẩm để:
Gắn nhãn LLM hiện tại là “AGI” gây ra nhiều vấn đề:
Ngôn ngữ chính xác hơn—“LLM”, “mô hình hẹp”, “hệ thống tác nhân dùng LLMs”—giúp đặt kỳ vọng phù hợp với năng lực và rủi ro thực tế.
Một bộ tiêu chí khả dĩ bao gồm nhiều hơn giao tiếp giỏi. Chúng ta sẽ muốn thấy:
Các hướng nghiên cứu đặt LLM là thành phần, không phải toàn bộ trí tuệ, ví dụ:
Những hướng này tiến gần hơn đến AGI bằng cách thêm nền tảng, nhân quả và trạng thái dai dẳng. Chúng cũng làm thay đổi câu hỏi từ “LLM có thể trở thành AGI không?” sang “Các hệ phức hợp LLM có thể mô phỏng hành vi giống AGI không?”
Vì vậy LLM là những bộ học mẫu hẹp, mạnh mẽ trên ngôn ngữ, chứ không phải những tác nhân thông minh tổng quát độc lập.
Mọi thứ trông giống như suy luận hay bộ nhớ đều xuất phát từ mục tiêu dự đoán token tiếp theo kết hợp với quy mô và điều chỉnh sau huấn luyện, chứ không phải từ logic biểu tượng rõ ràng hay kho niềm tin dai dẳng.
Trong các lĩnh vực đó, nên chỉ dùng LLM với giám sát chặt chẽ của con người và công cụ ngoài (tìm kiếm, máy tính, mô phỏng, danh sách kiểm tra).
Nhưng nó không tự động tạo ra một trí tuệ tổng quát, tự chủ. Cần các thành phần kiến trúc mới và thiết kế hệ thống để đạt được điều đó.
Các LLM hiện nay, ngay cả khi được bọc trong khung tác nhân, vẫn cần nhiều kịch bản do con người thiết kế và điều phối công cụ để bắt chước những hành vi này, và vẫn thiếu độ bền vững và tính tổng quát.