Hành Trình của Sergey Brin: Từ Thuật Toán Tìm Kiếm đến AI Tạo Sinh

Q: Why does Sergey Brin “still matter” when discussing AI and search today?

Ông ấy là một lăng kính hữu ích để nối liền các vấn đề khai thác thông tin cổ điển (tính phù hợp, chống gian lận, quy mô) với các vấn đề của AI tạo sinh ngày nay (gắn nguồn, độ trễ, an toàn, chi phí). Điểm quan trọng không phải là tiểu sử cá nhân, mà là tìm kiếm và AI hiện đại đều gặp chung những ràng buộc cốt lõi: hoạt động ở quy mô lớn trong khi giữ được niềm tin của người dùng.

Q: What does “generative AI at scale” actually mean in practice?

Tìm kiếm được coi là “ở quy mô” khi nó phải xử lý hàng triệu truy vấn ổn định với độ trễ thấp, thời gian hoạt động cao và dữ liệu được cập nhật liên tục. AI tạo sinh là “ở quy mô” khi nó phải thực hiện cùng yêu cầu đó trong khi tạo ra nội dung , điều này bổ sung các ràng buộc về: - chi phí suy luận phải dự đoán được - chất lượng câu trả lời phải nhất quán - kiểm soát gắn nguồn và an toàn khi có lưu lượng lớn

Q: What was wrong with search engines in the late 1990s?

Các công cụ tìm kiếm cuối thập niên 1990 dựa nhiều vào so khớp từ khóa và các tín hiệu xếp hạng đơn giản, điều này sụp đổ khi web bùng nổ. Các dạng thất bại phổ biến là: - kết quả không liên quan mặc dù “khớp” từ khóa - trang chất lượng thấp xếp trên các nguồn tốt hơn - thủ thuật spam như nhồi nhét từ khóa - không theo kịp nhu cầu thu thập và lập chỉ mục

Q: What did PageRank change compared to keyword-based ranking?

PageRank coi các liên kết như một dạng phiếu tín nhiệm , với các phiếu từ trang uy tín được coi trọng hơn. Về thực tế, nó: - cải thiện tính phù hợp bằng cách dùng cấu trúc web chứ không chỉ văn bản trên trang - khiến việc thao túng xếp hạng khó hơn (nhưng không phải không thể) so với phương pháp chỉ dựa vào từ khóa - đẩy tìm kiếm theo hướng kết hợp nhiều tín hiệu thay vì chỉ dựa trên một yếu tố

Q: Why did deep learning improve language understanding in search?

Học sâu cải thiện cách hệ thống biểu diễn nghĩa, giúp: - hiểu ý định vượt ra ngoài từ khóa tường minh - xử lý từ đồng nghĩa và cách diễn đạt khác nhau - xử lý truy vấn nhạy bối cảnh (ví dụ “gần tôi”) Những đổi chác là có thật: tốn nhiều tính toán hơn, cần dữ liệu nhiều hơn và khó gỡ lỗi/giải thích khi xếp hạng thay đổi.

Q: What’s fundamentally different about generative AI compared to classic search AI?

Tìm kiếm cổ điển chủ yếu chọn và xếp hạng các tài liệu có sẵn. AI tạo sinh sản xuất văn bản, làm thay đổi chế độ lỗi. Rủi ro mới gồm: - lỗi thực tế nhưng nói rất tự tin (hallucination) - không nhất quán giữa các prompt tương tự - vấn đề an toàn (nội dung có hại, thiên lệch) Câu hỏi trung tâm chuyển từ “chúng ta đã xếp nguồn tốt nhất chưa?” sang “câu trả lời tạo ra có chính xác, có nguồn gốc rõ ràng và an toàn không?”

Đăng nhập Bắt đầu

Hành Trình của Sergey Brin: Từ Thuật Toán Tìm Kiếm đến AI Tạo Sinh | Koder.ai

Tại sao Sergey Brin vẫn quan trọng đối với AI và tìm kiếm

Câu chuyện của Sergey Brin không đáng chú ý vì chuyện nổi tiếng hay tiểu sử công ty, mà vì nó vẽ một đường thẳng nối các vấn đề tìm kiếm cổ điển (làm sao để tìm câu trả lời tốt nhất trên web mở?) tới các câu hỏi mà các đội hiện nay đối mặt với AI hiện đại (làm sao để tạo đầu ra hữu ích mà không mất độ chính xác, tốc độ hay niềm tin?). Công việc của ông nằm giữa giao điểm của thuật toán, dữ liệu và hệ thống — chính là nơi tìm kiếm và AI tạo sinh gặp nhau.

Bài viết này là gì (và không phải gì)

Đây là một chuyến tham quan theo khái niệm về các cột mốc: những ý tưởng như PageRank đã thay đổi tính phù hợp như thế nào, học máy dần thay thế các quy tắc thủ công ra sao, và vì sao học sâu cải thiện việc hiểu ngôn ngữ. Nó không phải là tin đồn, drama nội bộ hay một dòng thời gian tiêu đề. Mục tiêu là giải thích tại sao những chuyển dịch này quan trọng và chúng đã định hình sản phẩm mà mọi người sử dụng như thế nào.

“AI tạo sinh ở quy mô,” nói theo cách đơn giản

AI tạo sinh được gọi là “ở quy mô” khi nó phải hoạt động giống như tìm kiếm: hàng triệu người dùng, độ trễ thấp, chi phí có thể dự đoán và chất lượng ổn định. Điều đó nghĩa là nhiều hơn một bản demo mô hình thông minh. Nó bao gồm:

huấn luyện trên tập dữ liệu khổng lồ với hạn chế tính toán nghiêm túc
phục vụ câu trả lời nhanh dưới tải nặng
gắn đầu ra vào các nguồn tin cậy khi độ chính xác quan trọng
thêm các kiểm soát an toàn và chính sách mà không làm mất tính hữu dụng

Bạn sẽ rút ra được gì

Khi kết thúc, bạn sẽ có thể nối kỷ nguyên tìm kiếm với các sản phẩm kiểu chat ngày nay, hiểu vì sao khai thác (retrieval) và sinh (generation) đang hòa vào nhau, và mượn các nguyên tắc thực dụng cho đội sản phẩm — đo lường, tính phù hợp, thiết kế hệ thống và triển khai có trách nhiệm — những điều chuyển giao giữa hai thế giới.

Những nền tảng ban đầu: học, nghiên cứu và vấn đề tìm kiếm

Con đường vào tìm kiếm của Sergey Brin bắt đầu ở học viện, nơi các câu hỏi cốt lõi không phải là “làm sao để xây một trang web,” mà là quản lý sự quá tải thông tin. Trước khi Google thành lập, Brin đã đắm mình trong nghiên cứu khoa học máy tính trải dài hệ quản trị cơ sở dữ liệu, khám phá dữ liệu và truy xuất thông tin — các ngành hỏi cách lưu lượng lớn dữ liệu và trả về câu trả lời hữu ích nhanh chóng.

Gốc rễ học thuật và các câu hỏi về thông tin

Brin học toán và khoa học máy tính ở bậc đại học và sau đó theo học sau đại học tại Stanford, một trung tâm nghiên cứu về quy mô web đang nổi lên. Các nhà nghiên cứu khi đó đã vật lộn với những vấn đề nghe quen ngày nay: dữ liệu lộn xộn, chất lượng không chắc chắn và khoảng cách giữa những gì người dùng gõ và điều họ thực sự muốn.

“Tìm kiếm” nghĩa là gì vào cuối thập niên 1990

Tìm kiếm cuối thập niên 1990 chủ yếu dựa vào so khớp từ khóa và các tín hiệu xếp hạng cơ bản. Điều đó hiệu quả khi web còn nhỏ, nhưng nó suy giảm khi số trang tăng vọt — và khi người tạo nội dung học cách thao túng hệ thống. Những thách thức phổ biến bao gồm:

Tính phù hợp: trang phù hợp không luôn chứa từ khóa “đúng”.
Chất lượng: không phải trang nào cũng đáng tin cậy hoặc hữu ích.
Spam: các thủ thuật như nhồi nhét từ khóa đẩy các trang ít giá trị lên.
Quy mô: thu thập, lập chỉ mục và phục vụ kết quả phải theo kịp tăng trưởng bùng nổ.

Động cơ ban đầu: tính phù hợp, niềm tin và tổ chức

Ý tưởng kích thích rất đơn giản: nếu web là một thư viện khổng lồ, bạn cần hơn một phép so khớp văn bản để xếp hạng kết quả — bạn cần các tín hiệu phản ánh độ tin cậy và tầm quan trọng. Tổ chức thông tin web đòi hỏi các phương pháp có thể suy ra tính hữu ích từ cấu trúc web chứ không chỉ từ từ ngữ trên một trang.

Những ưu tiên nghiên cứu ban đầu đó — đo lường chất lượng, chống thao túng và vận hành ở quy mô cực lớn — đã đặt nền tảng cho những chuyển đổi sau này trong tìm kiếm và AI, bao gồm xếp hạng dựa trên học máy và cuối cùng là các phương pháp tạo sinh.

Từ liên kết đến tính phù hợp: PageRank thay đổi gì

Mục tiêu của tìm kiếm nghe có vẻ đơn giản: khi bạn gõ một câu hỏi, các trang hữu ích nhất nên đứng đầu. Vào cuối thập niên 1990, điều đó khó hơn vẻ ngoài. Web bùng nổ, và nhiều công cụ tìm kiếm đầu tiên dựa nhiều vào những gì trang nói về chính nó — văn bản, từ khóa và meta tag. Điều này khiến kết quả dễ bị thao túng và thường mang lại trải nghiệm bực bội.

Ý tưởng PageRank nói theo cách đơn giản

Ý tưởng then chốt của Sergey Brin và Larry Page là dùng cấu trúc liên kết của web như một tín hiệu. Nếu một trang liên kết tới trang khác, đó là một dạng “phiếu bầu.” Không phải phiếu bầu nào cũng giống nhau: một liên kết từ trang được đánh giá cao nên có trọng số lớn hơn so với một liên kết từ trang ít tên tuổi.

Về mặt khái niệm, PageRank đo tầm quan trọng bằng cách hỏi: những trang nào được tham chiếu bởi các trang quan trọng khác? Câu hỏi vòng lặp đó biến thành một phép xếp hạng toán học tính trên quy mô web. Kết quả không phải là “đáp án” cho tính phù hợp — nhưng nó là một thành phần mạnh mẽ mới.

Không chỉ một tín hiệu—và một cuộc chiến liên tục

Dễ bị nhầm là PageRank là toàn bộ bí quyết thành công sớm của Google. Thực tế, xếp hạng là một công thức: các thuật toán kết hợp nhiều tín hiệu (so khớp văn bản, độ mới, vị trí, tốc độ tải và nhiều thứ khác) để dự đoán người dùng thực sự muốn gì.

Và động lực thì phức tạp. Khi xếp hạng trở nên quan trọng, spam xuất hiện — mạng liên kết, nhồi nhét từ khóa và các mẹo khác nhằm trông có vẻ phù hợp mà không hữu ích. Thuật toán tìm kiếm trở thành một trò chơi đối kháng liên tục: cải thiện tính phù hợp, phát hiện thao túng và điều chỉnh hệ thống.

Tại sao xếp hạng không bao giờ “giải quyết xong”

Web thay đổi, ngôn ngữ thay đổi và kỳ vọng người dùng cũng thay đổi. Mỗi cải tiến tạo ra các trường hợp biên mới. PageRank không hoàn tất tìm kiếm — nó dịch chuyển lĩnh vực từ so khớp từ khóa đơn giản sang truy xuất thông tin hiện đại, nơi tính phù hợp được đo lường, kiểm thử và tinh chỉnh liên tục.

Xây dựng tìm kiếm ở quy mô Internet: thách thức hệ thống

Một ý tưởng xếp hạng hay không đủ khi “cơ sở dữ liệu” của bạn là toàn bộ web. Điều khiến tìm kiếm Google thời đầu khác biệt không chỉ là tính phù hợp — mà là khả năng cung cấp tính phù hợp đó nhanh chóng và ổn định cho hàng triệu người cùng lúc.

Quy mô thay đổi mọi thứ như thế nào

Tìm kiếm ở quy mô internet bắt đầu bằng thu thập: khám phá các trang, quay lại kiểm tra chúng và đối phó với một web không ngừng thay đổi. Sau đó là lập chỉ mục: biến nội dung lộn xộn, đa dạng thành những cấu trúc có thể truy vấn trong vài mili giây.

Ở quy mô nhỏ, bạn có thể coi lưu trữ và tính toán như vấn đề của một máy đơn. Ở quy mô lớn, mọi lựa chọn đều là đánh đổi hệ thống:

Lưu trữ: giữ nhiều bản sao, nén và phân phối dữ liệu qua nhiều máy.
Độ trễ: trả kết quả nhanh đến mức trải nghiệm cảm thấy tức thì.
Tính mới: cập nhật chỉ mục nhanh để các trang mới (hoặc thay đổi) xuất hiện không lâu sau khi thay đổi.

Độ tin cậy và tốc độ là một phần của “chất lượng”

Người dùng không trải nghiệm chất lượng tìm kiếm như một điểm xếp hạng — họ trải nghiệm nó như một trang kết quả tải ngay và luôn. Nếu hệ thống thường xuyên lỗi, kết quả bị timeout hoặc tính mới bị trễ, ngay cả mô hình cực kỳ đúng cũng trông như kém trong thực tế.

Đó là lý do vì sao kỹ thuật cho thời gian hoạt động, suy giảm nhẹ nhàng và hiệu năng ổn định không thể tách rời khỏi xếp hạng. Một kết quả hơi kém nhưng được trả về đáng tin cậy trong 200ms có thể thắng một kết quả tốt hơn nhưng đến muộn hoặc không ổn định.

Đường ống dữ liệu và thay đổi an toàn

Ở quy mô lớn, bạn không thể “chỉ gửi” một bản cập nhật. Tìm kiếm phụ thuộc vào các đường ống thu thập tín hiệu (những lần nhấp, liên kết, mẫu ngôn ngữ), chạy đánh giá và triển khai thay đổi dần dần. Mục tiêu là phát hiện suy giảm sớm — trước khi ảnh hưởng đến mọi người.

Một phép ẩn dụ đơn giản: danh mục sách so với web sống

Một mục lục thư viện giả định sách ổn định, được tuyển chọn và thay đổi chậm. Web là một thư viện nơi sách tự viết lại, kệ di chuyển và phòng mới xuất hiện liên tục. Tìm kiếm ở quy mô internet là cơ chế giữ một danh mục có thể dùng cho mục tiêu đang chuyển động đó — nhanh, đáng tin và cập nhật liên tục.

Từ quy tắc sang học máy: một bước ngoặt âm thầm

Xếp hạng tìm kiếm ban đầu dựa nhiều vào quy tắc: nếu trang có từ khóa đúng trong tiêu đề, nếu nó được liên kết nhiều, nếu tải nhanh, v.v. Những tín hiệu đó quan trọng — nhưng quyết định bao nhiêu mỗi tín hiệu nên được tính thường là thủ công. Kỹ sư có thể tinh chỉnh trọng số, chạy thử nghiệm và lặp lại. Nó hiệu quả, nhưng cũng gặp trần khi web (và kỳ vọng người dùng) phát triển nhanh.

“Learning to rank” nghĩa là gì (không có công thức)

“Learning to rank” là để hệ thống học xem kết quả tốt trông như thế nào bằng cách nghiên cứu nhiều ví dụ.

Thay vì viết một danh sách dài các quy tắc xếp hạng, bạn đưa cho mô hình nhiều truy vấn và kết quả trong quá khứ — ví dụ kết quả người dùng hay chọn, trang họ nhanh chóng rời đi, và các trang mà đánh giá viên con người cho là hữu ích. Theo thời gian, mô hình dự đoán tốt hơn kết quả nào nên đứng cao hơn.

Một ẩn dụ đơn giản: thay vì giáo viên viết kế hoạch chỗ ngồi chi tiết cho mỗi lớp, giáo viên quan sát chỗ ngồi nào dẫn đến thảo luận tốt hơn và điều chỉnh tự động.

Từ núm điều chỉnh thủ công sang mô hình huấn luyện dữ liệu

Sự chuyển đổi này không xóa bỏ các tín hiệu cổ điển như liên kết hay chất lượng trang — nó thay đổi cách chúng được kết hợp. Phần “âm thầm” là, từ góc nhìn người dùng, ô tìm kiếm trông giống hệt. Nội bộ, trọng tâm chuyển từ công thức chấm điểm thủ công sang các mô hình được đào tạo trên dữ liệu.

Đánh giá trở thành tay lái

Khi mô hình học từ dữ liệu, đo lường là hướng dẫn.

Các nhóm dựa vào các chỉ số tính phù hợp (kết quả có thỏa mãn truy vấn không?), thử nghiệm A/B trực tuyến (thay đổi có cải thiện hành vi người dùng thật không?), và phản hồi của con người (kết quả có chính xác, an toàn và hữu ích không?). Điều then chốt là coi đánh giá như liên tục — vì những gì người ta tìm kiếm, và “tốt” trông như thế nào, luôn thay đổi.

Ghi chú: thiết kế mô hình cụ thể và các tín hiệu nội bộ thay đổi theo thời gian và không công khai; điều quan trọng là sự chuyển đổi tư duy sang hệ thống học tập được hỗ trợ bởi kiểm thử nghiêm ngặt.

Học sâu bước vào: hiểu ngôn ngữ tốt hơn

Experiment without fear

Use snapshots and rollback to test changes safely when behavior shifts.

Snapshot App

Học sâu là một họ phương pháp máy học xây dựng trên mạng nơ-ron nhiều lớp. Thay vì mã hóa thủ công các quy tắc (“nếu truy vấn chứa X, tăng Y”), các mô hình này học các mẫu trực tiếp từ lượng lớn dữ liệu. Sự thay đổi này quan trọng với tìm kiếm vì ngôn ngữ lộn xộn: người ta viết sai chính tả, hàm ý bối cảnh và dùng cùng một từ với nhiều nghĩa khác nhau.

Tại sao nó cải thiện hiểu ngôn ngữ (và nhận thức)

Các tín hiệu xếp hạng truyền thống — liên kết, anchor, độ mới — rất mạnh, nhưng chúng không hiểu truy vấn đang cố gắng đạt tới điều gì. Mô hình học sâu giỏi học biểu diễn: biến từ, câu và thậm chí hình ảnh thành vector dày đặc phản ánh nghĩa và sự tương đồng.

Trong thực tế, điều đó cho phép:

Diễn giải truy vấn tốt hơn khi từ ngữ tường minh là chưa đủ (“nơi ăn ngon gần tôi” phụ thuộc vị trí và mục đích).
Xử lý đồng nghĩa và cách diễn đạt khác nhau tốt hơn (“vé máy bay rẻ” vs. “vé giá rẻ”).
Ghép truy vấn với trang trả lời nhu cầu thực sự, không chỉ lặp lại từ khóa.

Những đánh đổi: chi phí, dữ liệu và khả năng giải thích

Học sâu không miễn phí. Huấn luyện và phục vụ mô hình thần kinh tốn kém, đòi hỏi phần cứng chuyên dụng và kỹ thuật cẩn trọng. Chúng cũng cần dữ liệu — nhãn sạch, tín hiệu nhấp và bộ đánh giá — để tránh học được những lối tắt sai.

Khả năng giải thích là một thách thức khác. Khi mô hình thay đổi thứ tự xếp hạng, khó giải thích bằng một câu đơn giản tại sao nó ưu tiên kết quả A hơn B, điều này làm phức tạp gỡ lỗi và niềm tin.

Từ “nghiên cứu hay” đến chất lượng sản phẩm lõi

Thay đổi lớn nhất không chỉ là kỹ thuật: mô hình thần kinh không còn là thí nghiệm phụ mà trở thành một phần trải nghiệm người dùng gọi là “chất lượng tìm kiếm.” Tính phù hợp ngày càng phụ thuộc vào mô hình học — được đo lường, lặp lại và đưa ra sản phẩm — thay vì chỉ tinh chỉnh tay các tín hiệu.

AI tạo sinh: khác gì so với AI tìm kiếm cổ điển

AI tìm kiếm cổ điển chủ yếu nói về xếp hạng và dự đoán. Cho một truy vấn và một tập các trang, hệ thống dự đoán trang nào phù hợp nhất. Ngay cả khi học máy thay thế quy tắc thủ công, mục tiêu vẫn tương tự: gán điểm như “khớp tốt”, “spam” hoặc “chất lượng cao”, rồi sắp xếp.

AI tạo sinh thay đổi đầu ra. Thay vì chọn từ tài liệu tồn tại, mô hình có thể sản xuất văn bản, mã, tóm tắt và thậm chí hình ảnh. Điều đó có nghĩa sản phẩm có thể trả lời bằng một phản hồi duy nhất, soạn email, hay viết đoạn mã — hữu ích, nhưng khác bản chất so với trả về các liên kết.

Tại sao transformer và các mô hình lớn như một bước nhảy vọt

Transformer làm cho việc huấn luyện các mô hình chú ý đến mối quan hệ xuyên suốt câu và tài liệu khả thi, chứ không chỉ từ gần kề. Với đủ dữ liệu huấn luyện, các mô hình này học các mẫu ngôn ngữ rộng và hành vi gần giống suy luận: diễn giải, dịch, theo hướng dẫn và kết hợp ý tưởng giữa các chủ đề.

Tại sao “quy mô” quan trọng — và điểm dừng của nó

Với mô hình lớn, nhiều dữ liệu và tính toán thường đem lại hiệu năng tốt hơn: ít lỗi hiển nhiên hơn, viết mạch lạc hơn, và theo hướng dẫn tốt hơn. Nhưng lợi suất không vô hạn. Chi phí tăng nhanh, chất lượng dữ liệu huấn luyện trở thành cổ chai, và một số lỗi không biến mất chỉ vì mô hình lớn hơn.

Rủi ro mới: lỗi tự tin và khoảng trống độ tin cậy

Hệ thống tạo sinh có thể “ảo tưởng” thông tin, phản ánh thiên lệch trong dữ liệu huấn luyện, hoặc bị hướng vào sản xuất nội dung gây hại. Chúng cũng gặp khó với tính nhất quán: hai prompt tương tự có thể cho câu trả lời khác nhau. So với tìm kiếm cổ điển, thách thức chuyển từ “chúng ta đã xếp nguồn tốt nhất chưa?” sang “làm sao đảm bảo câu trả lời tạo ra chính xác, có cơ sở và an toàn?”

Mở rộng AI tạo sinh: thực tế huấn luyện, phục vụ và chi phí

Launch a demo quickly

Deploy and host your app when you are ready, with a setup that stays simple.

Deploy Now

AI tạo sinh trông kỳ diệu trong bản demo, nhưng chạy nó cho hàng triệu (hoặc hàng tỷ) yêu cầu là một bài toán toán-học và vận hành ngang bằng với nghiên cứu. Ở đây bài học từ kỷ nguyên tìm kiếm — hiệu quả, độ tin cậy và đo đếm nghiêm túc — vẫn đúng.

“Ở quy mô” nghĩa là gì trong huấn luyện

Huấn luyện mô hình lớn về cơ bản là một dây chuyền sản xuất phép nhân ma trận. “Ở quy mô” thường nghĩa là các dàn GPU hoặc TPU được nối mạng để huấn luyện phân tán khiến hàng nghìn chip hoạt động như một hệ thống.

Điều đó đưa ra các hạn chế thực tế:

Song song và mạng: nếu các chip không chia sẻ cập nhật đủ nhanh, bạn phải trả tiền cho phần cứng nhàn rỗi.
Lỗi là bình thường: các quá trình huấn luyện dài phải xử lý máy hỏng mà không khởi động lại toàn bộ.
Chi phí liên tục: huấn luyện không phải hóa đơn một lần; lặp lại trên dữ liệu, kiến trúc và an toàn thường nghĩa là nhiều lần chạy tốn kém.

Phục vụ: độ trễ, thông lượng và an toàn

Phục vụ khác với huấn luyện: người dùng quan tâm đến thời gian phản hồi và tính nhất quán, không phải độ chính xác đỉnh trên một benchmark. Các nhóm cân bằng:

Độ trễ vs. chất lượng: sinh lâu hơn có thể cải thiện câu trả lời nhưng làm hỏng trải nghiệm người dùng.
Thông lượng: cùng một mô hình phải xử lý các đột biến truy vấn mà không sập.
Bộ nhớ đệm: các prompt lặp lại (hoặc đoạn trích truy vấn lặp lại) có thể được cache để giảm chi phí.
Bộ lọc an toàn cho prompt: đầu vào và đầu ra được sàng lọc để giảm nội dung vi phạm chính sách, điều này thêm bước và độ phức tạp.

Giám sát: phát hiện suy giảm sớm

Vì hành vi mô hình mang tính xác suất, giám sát không chỉ là “máy chủ còn chạy không?” Mà là theo dõi trôi dạt chất lượng, các chế độ lỗi mới, và suy giảm tinh tế sau cập nhật mô hình hoặc prompt. Điều này thường bao gồm vòng lặp đánh giá bằng con người cùng các bài kiểm tra tự động.

Kỹ thuật hiệu quả thực sự quan trọng

Để giữ chi phí trong tầm kiểm soát, các đội dựa vào nén, distillation (dạy mô hình nhỏ mô phỏng mô hình lớn) và định tuyến (gửi câu hỏi dễ đến mô hình rẻ hơn và chỉ nâng cấp khi cần). Đây là những công cụ ít hào nhoáng nhưng giúp AI tạo sinh khả thi trong sản phẩm thực tế.

Tìm kiếm vs. Chat: cách sản phẩm hòa trộn khai thác và tạo sinh

Tìm kiếm và chat thường trông như đối thủ, nhưng hiểu đúng thì chúng là các giao diện tối ưu cho mục tiêu người dùng khác nhau.

Hai mục tiêu, hai chế độ

Tìm kiếm cổ điển tối ưu cho việc điều hướng nhanh và có thể xác minh: “Tìm nguồn tốt nhất cho X” hoặc “Đưa tôi tới trang phù hợp.” Người dùng mong nhiều lựa chọn, quét tiêu đề nhanh và tự phán đoán độ uy tín bằng các dấu hiệu quen thuộc (nhà xuất bản, ngày, đoạn trích).

Chat tối ưu cho tổng hợp và khám phá: “Giúp tôi hiểu,” “So sánh,” “Soạn thảo,” hoặc “Tôi nên làm gì tiếp theo?” Giá trị không chỉ ở việc tìm trang — mà là biến thông tin rời rạc thành câu trả lời mạch lạc, đặt câu hỏi làm rõ và giữ ngữ cảnh qua các lượt.

Mẫu lai: retrieval + generation (RAG)

Hầu hết sản phẩm thực tế giờ hòa trộn cả hai. Một cách tiếp cận phổ biến là retrieval-augmented generation (RAG): hệ thống trước tiên tìm kiếm trong chỉ mục đáng tin cậy (trang web, tài liệu, kiến thức nội bộ), rồi tạo câu trả lời dựa trên những gì tìm thấy.

Việc gắn nguồn này quan trọng vì nó nối điểm mạnh của tìm kiếm (tính mới, bao phủ, khả năng truy xuất nguồn) với điểm mạnh của chat (tóm tắt, suy luận, luồng đối thoại).

Thiết kế sản phẩm tốt cần gì

Khi có phần tạo sinh, giao diện không thể dừng lại ở “đây là câu trả lời.” Thiết kế mạnh thêm vào:

Trích dẫn và trích dẫn nguyên văn để người dùng xác minh tuyên bố và mở nguồn tham khảo.
Tín hiệu không chắc chắn (“Tôi không chắc,” khoảng tin cậy, hoặc “tôi không tìm thấy nguồn cho điều này”) thay vì dự đoán chắc nịch.
Điều khiển chỉnh sửa để tinh chỉnh giọng điệu, phạm vi và giả định (“ngắn hơn,” “chỉ dùng nguồn cung cấp,” “tập trung vào 2024–2025”).

Niềm tin được xây dựng qua tính nhất quán và minh bạch

Người dùng nhanh chóng nhận ra khi trợ lý tự mâu thuẫn, thay đổi quy tắc giữa chừng, hoặc không giải thích được thông tin lấy từ đâu. Hành vi nhất quán, nguồn rõ ràng và điều khiển dự đoán làm trải nghiệm tìm kiếm+chat cảm thấy đáng tin cậy — đặc biệt khi câu trả lời ảnh hưởng đến quyết định thực tế.

AI có trách nhiệm và an toàn: phần khó khi tạo nội dung

AI có trách nhiệm dễ hiểu hơn khi đặt dưới dạng mục tiêu vận hành, không phải khẩu hiệu. Với hệ thống tạo sinh, thường là: an toàn (không đưa ra hướng dẫn gây hại hoặc quấy rối), riêng tư (không tiết lộ dữ liệu nhạy cảm hoặc ghi nhớ thông tin cá nhân), và công bằng (không đối xử có hệ thống với nhóm nào đó theo cách gây hại).

Tại sao đánh giá tạo sinh khó hơn xếp hạng

Tìm kiếm cổ điển có hình dạng đánh giá khá rõ: cho một truy vấn, xếp hạng tài liệu rồi đo tần suất người dùng tìm được cái họ cần. Dù tính phù hợp có thể mang tính chủ quan, đầu ra vẫn bị giới hạn — liên kết tới nguồn hiện có.

AI tạo sinh có thể sản xuất vô số câu trả lời hợp lý, với các chế độ lỗi tinh tế:

Một câu trả lời có thể nghe rất tự tin nhưng vẫn sai.
Hai câu trả lời đều “hợp lý,” nhưng một cái bỏ qua những lưu ý quan trọng.
Tổn hại không chỉ về độ chính xác: giọng văn, thiên lệch và gợi ý không an toàn đều quan trọng.

Điều đó khiến đánh giá không còn là một điểm số duy nhất mà trở thành bộ kiểm thử: kiểm tra tính thực tế, dò tìm độc hại và thiên lệch, hành vi từ chối, và kỳ vọng chuyên ngành (sức khỏe, tài chính, pháp lý).

Con người trong vòng lặp: nơi con người vẫn cần thiết

Vì các trường hợp biên vô tận, các đội thường dùng đầu vào con người ở nhiều giai đoạn:

Người đánh giá để gán nhãn ví dụ (hữu ích vs. có hại, an toàn vs. không an toàn) và đánh giá chất lượng tinh tế.
Thiết kế chính sách để định nghĩa khi nào hệ thống nên từ chối, cách diễn đạt sự không chắc chắn, và nguồn nào nên được trích dẫn nếu có.
Đội red-teaming để cố tình phá mô hình — dò tìm cách thoát rào, prompt injection và chiến thuật thao túng — để lộ ra điểm yếu trước khi người dùng thật gặp phải.

Sự chuyển dịch then chốt so với tìm kiếm cổ điển là an toàn không chỉ là “lọc các trang xấu.” Là thiết kế hành vi của mô hình khi nó được yêu cầu tưởng tượng, tóm tắt hoặc tư vấn — và chứng minh bằng bằng chứng rằng các hành vi đó giữ vững ở quy mô.

Những điều người xây dựng có thể học: nguyên tắc chuyển từ tìm kiếm

Test retrieval plus generation

Prototype a search plus chat experience and iterate in real time with Koder.ai.

Start Building

Câu chuyện của Sergey Brin về Google ban đầu nhắc rằng sản phẩm AI đột phá hiếm khi bắt đầu bằng bản demo lộng lẫy — chúng bắt đầu với một công việc rõ ràng cần làm và thói quen đo lường thực tế. Nhiều thói quen đó vẫn áp dụng khi bạn xây dựng với AI tạo sinh.

Bài học từ tìm kiếm: đo lường, lặp lại, tập trung vào người dùng

Tìm kiếm thành công vì các đội coi chất lượng là thứ có thể quan sát được, không chỉ tranh luận. Họ chạy vô số thử nghiệm, chấp nhận rằng các cải tiến nhỏ cộng dồn, và giữ ý định người dùng làm trung tâm.

Một mô hình tư duy có ích: nếu bạn không thể giải thích “tốt hơn” nghĩa là gì cho người dùng, bạn không thể cải thiện nó một cách tin cậy. Điều đó đúng với xếp hạng trang web lẫn xếp hạng câu trả lời từ mô hình.

Điều thay đổi với AI tạo sinh: chất lượng đa chiều

Chất lượng tìm kiếm cổ điển thường thu gọn vào tính phù hợp và tính mới. AI tạo sinh thêm các trục mới: tính thực tế, giọng văn, độ đầy đủ, an toàn, hành vi trích dẫn, và cả “tính hữu ích” trong bối cảnh cụ thể. Hai câu trả lời có thể đều đúng chủ đề nhưng khác nhau nhiều về độ tin cậy.

Điều đó nghĩa là bạn cần nhiều phép đánh giá — kiểm tra tự động, đánh giá con người và phản hồi thực tế — vì không một điểm số đơn lẻ nào mô tả toàn bộ trải nghiệm người dùng.

Checklist thực tế: triển khai như một đội tìm kiếm

Định nghĩa nhiệm vụ: Vấn đề người dùng bạn giải là gì — tóm tắt, soạn thảo, giải thích, quyết định hay truy xuất?
Đặt chỉ số: Chọn chỉ báo dẫn đầu (thành công nhiệm vụ, giảm thời gian) và hàng rào bảo vệ (tỷ lệ ảo tưởng, vi phạm chính sách, độ trễ, chi phí).
Tạo bộ kiểm thử: Bao gồm các trường hợp biên, prompt đối kháng và các truy vấn “nhàm” hằng ngày.
Chạy triển khai có kiểm soát: Thử nghiệm A/B, tăng dần, và ghi log đủ ngữ cảnh để gỡ lỗi khi thất bại.
Đóng vòng lặp: Dùng phân tích lỗi để dẫn hướng thay đổi prompt, retrieval, mô hình và UX.

Kỹ năng đội: không chỉ ML

Bài học dễ chuyển từ tìm kiếm là về tổ chức: chất lượng ở quy mô cần sự hợp tác chặt chẽ. Product định nghĩa “tốt” là gì, ML cải thiện mô hình, hạ tầng giữ chi phí và độ trễ trong tầm kiểm soát, pháp lý và chính sách đặt ranh giới, và hỗ trợ lắng nghe nỗi đau của người dùng thật.

Nếu bạn muốn biến những nguyên tắc này thành sản phẩm thực tế, một cách có ích là prototype vòng lặp đầy đủ — UI, retrieval, generation, móc đánh giá và triển khai — sớm. Các nền tảng như Koder.ai được thiết kế cho quy trình “xây nhanh, đo nhanh”: bạn có thể tạo ứng dụng web, backend hoặc mobile qua giao diện chat, lặp trong chế độ lập kế hoạch, và dùng snapshot/rollback khi thử nghiệm đi chệch — hữu ích khi bạn triển khai các hệ thống xác suất cần rollout cẩn trọng.

Nhìn về phía trước: các câu hỏi mở cho AI ở quy mô

Câu chuyện của Sergey Brin vẽ một cung rõ rệt: bắt đầu bằng các thuật toán tinh tế (PageRank và phân tích liên kết), rồi chuyển sang xếp hạng học máy, và giờ tiến vào hệ thống tạo sinh có thể soạn câu trả lời thay vì chỉ chỉ đến chúng. Mỗi bước tăng năng lực — và mở rộng bề mặt cho lỗi.

Độ tin cậy: “đúng” giờ nghĩa là gì?

Tìm kiếm cổ điển chủ yếu giúp bạn tìm nguồn. AI tạo sinh thường tóm tắt và quyết định điều gì quan trọng, đặt ra câu hỏi khó hơn: Làm sao chúng ta đo tính chân thực? Làm sao trích dẫn nguồn theo cách người dùng thực sự tin? Và xử lý sự mơ hồ — tư vấn y tế, bối cảnh pháp lý hay tin nóng — mà không biến sự không chắc chắn thành văn bản nghe như thật?

Hạn chế tính toán: ai đủ khả năng “đỉnh”?

Mở quy mô không chỉ là khoe kỹ thuật; đó là giới hạn kinh tế. Các lần huấn luyện đòi hỏi compute khổng lồ, và chi phí phục vụ tăng theo từng truy vấn. Điều này tạo áp lực cắt góc (ngữ cảnh ngắn hơn, mô hình nhỏ hơn, ít kiểm tra an toàn) hoặc tập trung khả năng vào vài công ty có ngân sách lớn nhất.

Quản trị và cạnh tranh: ai đặt ra luật chơi?

Khi hệ thống sinh nội dung, quản trị không còn chỉ là kiểm duyệt nội dung. Nó bao gồm minh bạch (dữ liệu nào đã hình thành mô hình), trách nhiệm (ai chịu trách nhiệm về tổn hại), và động lực cạnh tranh (mô hình mở vs đóng, khóa nền tảng và quy định có thể vô tình ưu ái các công ty lớn).

Nghĩ phản biện về các demo AI

Khi thấy bản demo lung linh, hãy hỏi: Điều gì xảy ra ở các trường hợp biên khó? Nó có thể hiển thị nguồn không? Khi không biết, nó xử lý ra sao? Độ trễ và chi phí ở mức traffic thực thế nào — không phải trong phòng thí nghiệm?

Nếu bạn muốn tìm hiểu sâu hơn, nên khám phá các chủ đề liên quan như mở quy mô hệ thống và an toàn trên /blog.

Câu hỏi thường gặp

Why does Sergey Brin “still matter” when discussing AI and search today?

Ông ấy là một lăng kính hữu ích để nối liền các vấn đề khai thác thông tin cổ điển (tính phù hợp, chống gian lận, quy mô) với các vấn đề của AI tạo sinh ngày nay (gắn nguồn, độ trễ, an toàn, chi phí). Điểm quan trọng không phải là tiểu sử cá nhân, mà là tìm kiếm và AI hiện đại đều gặp chung những ràng buộc cốt lõi: hoạt động ở quy mô lớn trong khi giữ được niềm tin của người dùng.

What does “generative AI at scale” actually mean in practice?

Tìm kiếm được coi là “ở quy mô” khi nó phải xử lý hàng triệu truy vấn ổn định với độ trễ thấp, thời gian hoạt động cao và dữ liệu được cập nhật liên tục.

AI tạo sinh là “ở quy mô” khi nó phải thực hiện cùng yêu cầu đó trong khi tạo ra nội dung, điều này bổ sung các ràng buộc về:

chi phí suy luận phải dự đoán được
chất lượng câu trả lời phải nhất quán
kiểm soát gắn nguồn và an toàn khi có lưu lượng lớn

What was wrong with search engines in the late 1990s?

Các công cụ tìm kiếm cuối thập niên 1990 dựa nhiều vào so khớp từ khóa và các tín hiệu xếp hạng đơn giản, điều này sụp đổ khi web bùng nổ.

Các dạng thất bại phổ biến là:

kết quả không liên quan mặc dù “khớp” từ khóa
trang chất lượng thấp xếp trên các nguồn tốt hơn
thủ thuật spam như nhồi nhét từ khóa
không theo kịp nhu cầu thu thập và lập chỉ mục

What did PageRank change compared to keyword-based ranking?

PageRank coi các liên kết như một dạng phiếu tín nhiệm, với các phiếu từ trang uy tín được coi trọng hơn.

Về thực tế, nó:

cải thiện tính phù hợp bằng cách dùng cấu trúc web chứ không chỉ văn bản trên trang
khiến việc thao túng xếp hạng khó hơn (nhưng không phải không thể) so với phương pháp chỉ dựa vào từ khóa
đẩy tìm kiếm theo hướng kết hợp nhiều tín hiệu thay vì chỉ dựa trên một yếu tố

Why is ranking “never solved” in search?

Bởi vì xếp hạng liên quan đến tiền bạc và sự chú ý, nó trở thành một hệ thống đối kháng. Khi một tín hiệu có hiệu quả, người ta tìm cách lợi dụng nó.

Điều đó buộc phải liên tục lặp lại:

phát hiện thao túng (mạng liên kết giả, cloaking, nhồi nhét từ khóa)
điều chỉnh tín hiệu và mô hình
đánh giá lại bằng bộ kiểm thử mới và thử nghiệm trực tuyến

How do infrastructure and latency affect search quality?

Ở quy mô web, “chất lượng” bao gồm hiệu năng hệ thống. Người dùng trải nghiệm chất lượng như:

kết quả tải nhanh (độ trễ)
kết quả luôn sẵn sàng (độ tin cậy)
kết quả phản ánh thay đổi gần đây (tính mới)

Một kết quả hơi kém nhưng được trả về liên tục trong 200ms có thể chiến thắng một kết quả tốt hơn nhưng bị trễ hoặc tải thất bại.

What does “learning to rank” mean without the math?

Learning to rank thay thế các quy tắc tinh chỉnh thủ công bằng mô hình học từ dữ liệu (hành vi nhấp, đánh giá của con người và các tín hiệu khác).

Thay vì tự quyết xem tín hiệu nào quan trọng bao nhiêu, mô hình học cách kết hợp các tín hiệu để dự đoán “kết quả hữu ích”. Giao diện có thể trông giống trước, nhưng bên trong hệ thống trở nên:

dựa trên dữ liệu hơn
phụ thuộc vào đánh giá
dễ cải thiện qua huấn luyện và thử nghiệm lặp đi lặp lại

Why did deep learning improve language understanding in search?

Học sâu cải thiện cách hệ thống biểu diễn nghĩa, giúp:

hiểu ý định vượt ra ngoài từ khóa tường minh
xử lý từ đồng nghĩa và cách diễn đạt khác nhau
xử lý truy vấn nhạy bối cảnh (ví dụ “gần tôi”)

Những đổi chác là có thật: tốn nhiều tính toán hơn, cần dữ liệu nhiều hơn và khó gỡ lỗi/giải thích khi xếp hạng thay đổi.

What’s fundamentally different about generative AI compared to classic search AI?

Tìm kiếm cổ điển chủ yếu chọn và xếp hạng các tài liệu có sẵn. AI tạo sinh sản xuất văn bản, làm thay đổi chế độ lỗi.

Rủi ro mới gồm:

lỗi thực tế nhưng nói rất tự tin (hallucination)
không nhất quán giữa các prompt tương tự
vấn đề an toàn (nội dung có hại, thiên lệch)

Câu hỏi trung tâm chuyển từ “chúng ta đã xếp nguồn tốt nhất chưa?” sang “câu trả lời tạo ra có chính xác, có nguồn gốc rõ ràng và an toàn không?”

How do search and chat blend together with retrieval-augmented generation (RAG)?

Retrieval-augmented generation (RAG) tìm kiếm nguồn phù hợp trước, rồi tạo câu trả lời dựa trên các nguồn đó.

Để hoạt động tốt trong sản phẩm, các nhóm thường bổ sung:

trích dẫn/trích dẫn nguyên văn để người dùng xác minh
cơ chế chống prompt injection và yêu cầu không an toàn
giám sát sự trôi dạt chất lượng và các thoái lui
kiểm soát chi phí (caching, chuyển hướng sang mô hình nhỏ hơn khi phù hợp)