Khám phá lịch sử các mô hình GPT của OpenAI, từ GPT-1 tới GPT-4o, và xem mỗi thế hệ đã nâng cao hiểu biết ngôn ngữ, tiện ích và an toàn như thế nào.

Các mô hình GPT là một họ các mô hình ngôn ngữ lớn được xây dựng để dự đoán từ tiếp theo trong một chuỗi văn bản. Chúng đọc một lượng lớn văn bản, học các mẫu sử dụng ngôn ngữ, rồi dựa vào đó để sinh văn bản mới, trả lời câu hỏi, viết mã, tóm tắt tài liệu và nhiều hơn nữa.
Viết tắt giải thích ý tưởng cốt lõi:
Hiểu cách các mô hình này tiến hoá giúp nắm được chúng có thể và không thể làm gì, và tại sao mỗi thế hệ lại mang cảm giác nhảy vọt về năng lực. Mỗi phiên bản phản ánh các lựa chọn kỹ thuật và đánh đổi về kích thước mô hình, dữ liệu huấn luyện, mục tiêu và công việc an toàn.
Bài viết này theo dõi một tổng quan theo thứ tự thời gian và ở mức cao: từ các mô hình ngôn ngữ ban đầu và GPT-1, qua GPT-2 và GPT-3, tới instruction tuning và ChatGPT, rồi GPT-3.5, GPT-4 và gia đình GPT-4o. Trong hành trình, chúng ta sẽ xem các xu hướng kỹ thuật chính, cách mô hình được sử dụng thay đổi, và những gì những chuyển dịch này gợi ý về tương lai của mô hình ngôn ngữ lớn.
Trước GPT, mô hình ngôn ngữ đã là phần cốt lõi của nghiên cứu NLP. Hệ thống sớm là các mô hình n‑gram, dự đoán từ tiếp theo từ một cửa sổ cố định các từ trước đó bằng cách đếm đơn giản. Chúng phục vụ sửa lỗi chính tả và gợi ý tự động cơ bản nhưng gặp khó với ngữ cảnh dài và dữ liệu thưa thớt.
Bước tiếp theo là mô hình ngôn ngữ neural. Mạng feed-forward và sau đó là recurrent neural networks (RNNs), đặc biệt LSTM và GRU, học biểu diễn từ phân tán và có thể xử lý chuỗi dài hơn. Cùng thời điểm đó, các mô hình như word2vec và GloVe phổ biến embedding từ, cho thấy học không giám sát từ văn bản thô có thể nắm bắt cấu trúc ngữ nghĩa phong phú.
Tuy nhiên, RNN chậm khi huấn luyện, khó song song hóa và vẫn gặp khó với ngữ cảnh rất dài. Bước đột phá đến từ bài báo 2017 "Attention Is All You Need", giới thiệu kiến trúc transformer. Transformer thay thế hồi tiếp bằng self-attention, cho phép mô hình kết nối trực tiếp bất kỳ hai vị trí trong chuỗi và làm cho việc huấn luyện song song được rất hiệu quả.
Điều này mở cánh cửa để mở rộng mô hình ngôn ngữ vượt xa khả năng của RNN. Các nhà nghiên cứu nhận thấy rằng một transformer decoder lớn, được huấn luyện để dự đoán token tiếp theo trên kho văn bản khổng lồ, có thể học cú pháp, ngữ nghĩa và thậm chí một số kỹ năng suy luận mà không cần giám sát theo nhiệm vụ.
Ý tưởng then chốt của OpenAI là chính thức hoá điều này thành generative pre-training: trước tiên huấn luyện một decoder-only transformer lớn trên corpus quy mô internet để mô hình hóa văn bản, rồi điều chỉnh cùng mô hình đó cho các nhiệm vụ hạ nguồn với ít huấn luyện thêm. Cách tiếp cận này hứa hẹn một mô hình đa dụng thay vì nhiều mô hình hẹp.
Sự chuyển hướng khái niệm — từ các hệ thống nhỏ, theo nhiệm vụ sang một transformer lớn được huấn luyện sinh tiền — đã đặt nền tảng cho GPT đầu tiên và cả loạt GPT tiếp theo.
GPT-1 đánh dấu bước đầu tiên của OpenAI hướng tới loạt GPT mà chúng ta biết ngày nay. Phát hành năm 2018, nó có 117 triệu tham số và được xây dựng trên kiến trúc Transformer của Vaswani et al. Mặc dù nhỏ so với các tiêu chuẩn sau này, nó kết tinh công thức cốt lõi mà các GPT đời sau theo.
GPT-1 được huấn luyện với một ý tưởng đơn giản nhưng mạnh:
Trong giai đoạn pre-training, GPT-1 học dự đoán token tiếp theo trên dữ liệu chủ yếu từ BooksCorpus và nguồn giống Wikipedia. Mục tiêu này không cần nhãn do con người gán, cho phép mô hình hấp thụ kiến thức rộng về ngôn ngữ, phong cách và kiến thức sự kiện.
Sau pre-training, cùng mô hình được fine-tune bằng học có giám sát trên các benchmark NLP cổ điển: phân tích cảm xúc, hỏi đáp, suy diễn văn bản và các bài khác. Một đầu phân loại nhỏ được thêm lên trên, và toàn bộ mô hình (hoặc phần lớn) được huấn luyện end-to-end trên từng tập dữ liệu có nhãn.
Điểm phương pháp then chốt là cùng một mô hình đã huấn luyện trước có thể được điều chỉnh nhẹ cho nhiều nhiệm vụ, thay vì huấn luyện một mô hình riêng cho mỗi nhiệm vụ từ đầu.
Dù kích thước tương đối nhỏ, GPT-1 mang lại nhiều hiểu biết ảnh hưởng:
GPT-1 đã cho thấy dấu hiệu ban đầu của zero-shot và few-shot generalization, dù khi đó chủ yếu vẫn đánh giá qua fine-tuning từng nhiệm vụ riêng.
GPT-1 không nhằm đến triển khai cho người tiêu dùng hay API rộng rãi. Một số lý do:
Dẫu vậy, GPT-1 thiết lập khuôn mẫu: huấn luyện sinh tiền trên corpus lớn, rồi tinh chỉnh đơn giản theo nhiệm vụ. Mỗi GPT đời sau có thể coi là phiên bản mở rộng, tinh chỉnh và ngày càng mạnh mẽ của mô hình sinh tiền huấn luyện đầu tiên này.
GPT-2, phát hành năm 2019, là mô hình GPT đầu tiên thu hút sự chú ý toàn cầu. Nó mở rộng kiến trúc GPT-1 từ 117 triệu tham số lên 1.5 tỷ, cho thấy mức tiến bộ khi đơn giản chỉ tăng quy mô transformer.
Về mặt kiến trúc, GPT-2 tương tự GPT-1: decoder-only transformer huấn luyện với mục tiêu dự đoán token tiếp theo trên corpus web lớn. Sự khác biệt chính là quy mô:
Bước nhảy này cải thiện mạnh tính trôi chảy, mạch lạc trên đoạn văn dài và khả năng theo prompt mà không cần huấn luyện theo nhiệm vụ riêng.
GPT-2 khiến nhiều nhà nghiên cứu phải suy nghĩ lại về những gì mục tiêu “chỉ” dự đoán token có thể làm.
Không cần fine-tuning, GPT-2 có thể thực hiện các nhiệm vụ zero-shot như:
Với một vài ví dụ trong prompt (few-shot), hiệu suất thường cải thiện hơn nữa. Điều này gợi ý các mô hình ngôn ngữ lớn có thể biểu diễn nội tại nhiều nhiệm vụ, dùng ví dụ trong ngữ cảnh như một giao diện lập trình ngầm.
Chất lượng sinh ấn tượng khiến GPT-2 gây tranh luận công khai lớn đầu tiên. OpenAI ban đầu giữ lại bản full 1.5B, viện dẫn lo ngại về:
Thay vào đó, OpenAI áp dụng phát hành theo giai đoạn:
Cách tiếp cận từng bước này là một trong những ví dụ đầu tiên về chính sách triển khai AI dựa trên đánh giá rủi ro và giám sát.
Ngay cả các checkpoint GPT-2 nhỏ hơn cũng dẫn tới làn sóng dự án mã nguồn mở. Các nhà phát triển tinh chỉnh mô hình cho viết sáng tạo, gợi ý mã, và chatbot thử nghiệm. Các nhà nghiên cứu phân tích thiên kiến, lỗi thông tin và chế độ thất bại.
Những thử nghiệm này thay đổi cách nhiều người nhìn nhận mô hình ngôn ngữ lớn: từ vật thể nghiên cứu hẹp sang động cơ văn bản đa dụng. Ảnh hưởng của GPT-2 đặt ra kỳ vọng — và mối lo — định hình tiếp nhận GPT-3, ChatGPT và các mô hình lớp GPT-4 sau này trong tiến hoá gia đình GPT của OpenAI.
GPT-3 xuất hiện năm 2020 với con số nổi bật 175 tỷ tham số, lớn hơn GPT-2 hơn 100 lần. Con số này thu hút sự chú ý: nó gợi ý sức mạnh ghi nhớ, nhưng quan trọng hơn, mở ra những hành vi chưa thấy ở quy mô nhỏ hơn.
Khám phá mang tính định hình với GPT-3 là in-context learning. Thay vì fine-tune mô hình cho nhiệm vụ mới, bạn có thể dán vài ví dụ vào prompt:
Mô hình không cập nhật trọng số; nó dùng prompt như một tập huấn luyện tạm thời. Điều này dẫn tới các khái niệm như zero-shot, one-shot, và few-shot prompting, và kích hoạt làn sóng đầu tiên của prompt engineering: tinh chỉnh chỉ dẫn, ví dụ và định dạng để có hành vi tốt hơn mà không động vào mô hình.
Khác với GPT-2 (đã có trọng số tải xuống), GPT-3 được cung cấp chủ yếu qua API thương mại. OpenAI khởi chạy private beta của OpenAI API năm 2020, đưa GPT-3 thành động cơ văn bản đa dụng mà các nhà phát triển có thể gọi qua HTTP.
Điều này biến mô hình ngôn ngữ lớn từ vật thể nghiên cứu thành nền tảng rộng. Thay vì tự huấn luyện mô hình, startup và doanh nghiệp có thể thử nghiệm ý tưởng chỉ với một API key, trả theo token.
Người dùng sớm nhanh chóng thử nghiệm các mẫu sau:
GPT-3 chứng minh rằng một mô hình chung—có thể truy cập qua API—có thể cung cấp năng lượng cho nhiều ứng dụng, mở đường cho ChatGPT và các hệ thống GPT-3.5, GPT-4 sau này.
GPT-3 cơ bản chỉ huấn luyện để dự đoán token tiếp theo trên dữ liệu internet. Mục tiêu đó khiến nó giỏi tiếp nối mẫu, nhưng chưa chắc làm đúng điều người dùng muốn. Người dùng thường phải soạn prompt rất cẩn thận, và mô hình có thể:
Các nhà nghiên cứu gọi khoảng cách giữa điều người dùng muốn và hành vi mô hình là vấn đề alignment: hành vi mô hình chưa phù hợp đáng tin với ý định, giá trị hoặc kỳ vọng an toàn của con người.
OpenAI đã phát triển InstructGPT (2021–2022) như một bước ngoặt. Thay vì chỉ huấn luyện trên văn bản thô, họ thêm hai giai đoạn chính trên nền GPT-3:
Kết quả là mô hình:
Trong các nghiên cứu người dùng, các mô hình InstructGPT nhỏ hơn thường được ưa thích hơn các mô hình GPT-3 lớn nhưng chưa được căn chỉnh, cho thấy alignment và chất lượng giao diện có thể quan trọng hơn quy mô thô.
ChatGPT (cuối 2022) mở rộng cách tiếp cận InstructGPT sang đối thoại nhiều lượt. Về bản chất nó là một mô hình lớp GPT-3.5, tinh chỉnh bằng SFT và RLHF trên dữ liệu hội thoại thay vì chỉ các chỉ dẫn một lần.
Thay vì API hay playground dành cho nhà phát triển, OpenAI ra mắt giao diện chat đơn giản:
Điều này hạ rào cản cho người dùng không chuyên: không cần kỹ năng prompt engineering, không cần code hay cấu hình—chỉ gõ và nhận câu trả lời.
Kết quả là một đột phá đại chúng: công nghệ dựa trên nhiều năm nghiên cứu transformer và công việc alignment bỗng trở nên dễ tiếp cận cho bất kỳ ai có trình duyệt. Instruction tuning và RLHF làm hệ thống cảm giác hợp tác và an toàn đủ để phát hành rộng rãi, trong khi giao diện chat biến mô hình nghiên cứu thành sản phẩm toàn cầu và công cụ hàng ngày.
GPT-3.5 là thời điểm mô hình ngôn ngữ lớn ngừng là hiếm và bắt đầu trở thành tiện ích hàng ngày. Nó nằm giữa GPT-3 và GPT-4 về năng lực, nhưng tầm quan trọng thực sự là ở mức độ tiếp cận và thực tế.
Về kỹ thuật, GPT-3.5 hoàn thiện kiến trúc GPT-3 bằng dữ liệu huấn luyện tốt hơn, tối ưu hoá cập nhật và tinh chỉnh theo chỉ dẫn rộng rãi. Các mô hình trong series—bao gồm text-davinci-003 và sau đó gpt-3.5-turbo—được huấn luyện để theo chỉ dẫn tự nhiên đáng tin cậy hơn GPT-3, phản hồi an toàn hơn và duy trì hội thoại nhiều lượt mạch lạc.
Điều này làm GPT-3.5 trở thành bước đệm tự nhiên tới GPT-4. Nó hé lộ các mô hình sẽ định hình thế hệ sau: suy luận tốt hơn cho tác vụ hàng ngày, xử lý prompt dài ổn định hơn, và hành vi đối thoại ổn định hơn, mà không cần bước nhảy lớn về chi phí và độ phức tạp như GPT-4.
Phiên bản công khai đầu tiên của ChatGPT cuối 2022 chạy trên mô hình lớp GPT-3.5, tinh chỉnh bằng RLHF. Điều này cải thiện mạnh cách mô hình:
Với nhiều người, ChatGPT là trải nghiệm thực tế đầu tiên với mô hình ngôn ngữ lớn, và nó đặt ra kỳ vọng về cảm nhận của “AI chat”.
Khi OpenAI phát hành gpt-3.5-turbo qua API, nó cung cấp sự kết hợp hấp dẫn giữa giá cả, tốc độ và năng lực. Nó rẻ hơn và nhanh hơn các mô hình GPT-3 trước, đồng thời cung cấp khả năng theo chỉ dẫn và chất lượng hội thoại tốt hơn.
Sự cân bằng này khiến gpt-3.5-turbo trở thành lựa chọn mặc định cho nhiều ứng dụng:
Do đó GPT-3.5 đóng vai trò chuyển tiếp then chốt: đủ mạnh để mở ra sản phẩm ở quy mô, đủ kinh tế để triển khai rộng và được căn chỉnh đủ để cảm thấy hữu dụng trong công việc hàng ngày.
GPT-4, phát hành năm 2023, đánh dấu sự chuyển dịch từ “mô hình văn bản lớn” sang trợ lý đa dụng với kỹ năng suy luận tốt hơn và đầu vào đa phương thức.
So với GPT-3 và GPT-3.5, GPT-4 chú trọng ít hơn vào chỉ số tham số thô và nhiều hơn vào:
Gia đình chủ lực bao gồm gpt-4 và sau đó gpt-4-turbo, hướng tới cung cấp chất lượng tương tự hoặc tốt hơn với chi phí và độ trễ thấp hơn.
Một tính năng nổi bật của GPT-4 là khả năng đa phương thức: ngoài văn bản, nó có thể chấp nhận hình ảnh. Người dùng có thể:
Điều này làm GPT-4 cảm giác như một động cơ suy luận tổng quát hơn chứ không chỉ là mô hình xử lý văn bản.
GPT-4 cũng được huấn luyện và tinh chỉnh với nhấn mạnh hơn vào an toàn và alignment:
Các mô hình như gpt-4 và gpt-4-turbo trở thành lựa chọn mặc định cho ứng dụng sản xuất nghiêm túc: tự động hoá hỗ trợ khách hàng, trợ lý lập trình, công cụ giáo dục và tìm kiếm kiến thức. GPT-4 đặt nền tảng cho các biến thể sau như GPT-4o và GPT-4o mini, tiếp tục đẩy về hiệu quả và tương tác thời gian thực trong khi thừa hưởng nhiều tiến bộ về suy luận và an toàn của GPT-4.
GPT-4o ("omni") đánh dấu dịch chuyển từ “mạnh nhất bất chấp chi phí” sang “nhanh, phải chăng và luôn sẵn sàng.” Nó được thiết kế để đưa chất lượng ở mức GPT-4 trong khi rẻ hơn nhiều khi vận hành và đủ nhanh cho trải nghiệm tương tác trực tiếp.
GPT-4o hợp nhất văn bản, thị giác và âm thanh trong một mô hình duy nhất. Thay vì ghép các thành phần riêng rẽ, nó xử lý bản địa:
Sự tích hợp này giảm độ trễ và độ phức tạp. GPT-4o có thể phản hồi gần như thời gian thực, stream câu trả lời khi đang suy nghĩ, và chuyển đổi liền mạch giữa các phương thức trong cùng cuộc hội thoại.
Mục tiêu thiết kế chính cho GPT-4o là hiệu quả: hiệu suất trên mỗi đồng và độ trễ thấp. Điều này cho phép OpenAI và nhà phát triển:
Kết quả là những khả năng từng dành cho API đắt tiền giờ tiếp cận được cho sinh viên, người đam mê, startup nhỏ và nhóm thử nghiệm AI lần đầu.
GPT-4o mini đẩy khả năng tiếp cận xa hơn bằng cách đánh đổi một phần năng lực đỉnh để lấy tốc độ và chi phí siêu thấp. Nó phù hợp cho:
Vì 4o mini kinh tế, nhà phát triển có thể nhúng nó ở nhiều nơi hơn—trong app, cổng khách hàng, công cụ nội bộ hoặc dịch vụ ngân sách thấp—mà không lo chi phí sử dụng.
Cùng nhau, GPT-4o và GPT-4o mini mở rộng tính năng GPT tiên tiến cho các trường hợp sử dụng đa phương thức, hội thoại thời gian thực, đồng thời mở rộng ai có thể xây dựng và hưởng lợi từ các mô hình hàng đầu.
GPT (Generative Pre-trained Transformer) là các mạng nơ-ron lớn được huấn luyện để dự đoán từ tiếp theo trong một chuỗi. Bằng cách làm điều này trên quy mô lớn với kho văn bản khổng lồ, chúng học ngữ pháp, phong cách, kiến thức và các mẫu suy luận. Sau khi huấn luyện, chúng có thể:
Biết lịch sử giúp làm rõ:
Nó cũng giúp đặt kỳ vọng thực tế: GPT là công cụ học mẫu mạnh, không phải nguồn thông tin tuyệt đối đúng.
Các mốc chính gồm:
Instruction tuning và RLHF khiến mô hình hành xử gần hơn với mong muốn con người.
Kết hợp lại, các kỹ thuật này:
GPT-4 khác với các mô hình trước ở một số điểm:
GPT-4o và GPT-4o mini tối ưu cho tốc độ, chi phí và sử dụng thời gian thực hơn là chỉ theo đuổi năng lực tối đa.
Các nhà phát triển dùng GPT để:
Vì truy cập qua API, các đội có thể tích hợp tính năng này mà không cần huấn luyện hay lưu trữ mô hình lớn riêng.
Các giới hạn và rủi ro chính:
Với ứng dụng quan trọng, cần kiểm chứng kết quả, kết hợp truy xuất tài liệu và có giám sát con người.
Xu hướng tương lai được nhắc tới:
Một số hướng dẫn thực tế:
Những thay đổi này đẩy GPT-4 từ bộ sinh văn bản tiến gần hơn tới trợ lý tổng quát.
Chúng giúp các tính năng GPT tiên tiến trở nên khả dụng về mặt kinh tế cho nhiều trường hợp sử dụng hàng ngày.
Hướng đi là tới hệ thống mạnh mẽ hơn nhưng có kiểm soát và chịu trách nhiệm hơn.
Sử dụng GPT hiệu quả nghĩa là ghép thế mạnh của nó với biện pháp an toàn và thiết kế sản phẩm tốt.