Khám phá hành trình của Sergey Brin từ các thuật toán tìm kiếm ban đầu đến AI tạo sinh ngày nay, với những ý chính về mở quy mô, tác động sản phẩm và các câu hỏi còn bỏ ngỏ.

Câu chuyện của Sergey Brin không đáng chú ý vì chuyện nổi tiếng hay tiểu sử công ty, mà vì nó vẽ một đường thẳng nối các vấn đề tìm kiếm cổ điển (làm sao để tìm câu trả lời tốt nhất trên web mở?) tới các câu hỏi mà các đội hiện nay đối mặt với AI hiện đại (làm sao để tạo đầu ra hữu ích mà không mất độ chính xác, tốc độ hay niềm tin?). Công việc của ông nằm giữa giao điểm của thuật toán, dữ liệu và hệ thống — chính là nơi tìm kiếm và AI tạo sinh gặp nhau.
Đây là một chuyến tham quan theo khái niệm về các cột mốc: những ý tưởng như PageRank đã thay đổi tính phù hợp như thế nào, học máy dần thay thế các quy tắc thủ công ra sao, và vì sao học sâu cải thiện việc hiểu ngôn ngữ. Nó không phải là tin đồn, drama nội bộ hay một dòng thời gian tiêu đề. Mục tiêu là giải thích tại sao những chuyển dịch này quan trọng và chúng đã định hình sản phẩm mà mọi người sử dụng như thế nào.
AI tạo sinh được gọi là “ở quy mô” khi nó phải hoạt động giống như tìm kiếm: hàng triệu người dùng, độ trễ thấp, chi phí có thể dự đoán và chất lượng ổn định. Điều đó nghĩa là nhiều hơn một bản demo mô hình thông minh. Nó bao gồm:
Khi kết thúc, bạn sẽ có thể nối kỷ nguyên tìm kiếm với các sản phẩm kiểu chat ngày nay, hiểu vì sao khai thác (retrieval) và sinh (generation) đang hòa vào nhau, và mượn các nguyên tắc thực dụng cho đội sản phẩm — đo lường, tính phù hợp, thiết kế hệ thống và triển khai có trách nhiệm — những điều chuyển giao giữa hai thế giới.
Con đường vào tìm kiếm của Sergey Brin bắt đầu ở học viện, nơi các câu hỏi cốt lõi không phải là “làm sao để xây một trang web,” mà là quản lý sự quá tải thông tin. Trước khi Google thành lập, Brin đã đắm mình trong nghiên cứu khoa học máy tính trải dài hệ quản trị cơ sở dữ liệu, khám phá dữ liệu và truy xuất thông tin — các ngành hỏi cách lưu lượng lớn dữ liệu và trả về câu trả lời hữu ích nhanh chóng.
Brin học toán và khoa học máy tính ở bậc đại học và sau đó theo học sau đại học tại Stanford, một trung tâm nghiên cứu về quy mô web đang nổi lên. Các nhà nghiên cứu khi đó đã vật lộn với những vấn đề nghe quen ngày nay: dữ liệu lộn xộn, chất lượng không chắc chắn và khoảng cách giữa những gì người dùng gõ và điều họ thực sự muốn.
Tìm kiếm cuối thập niên 1990 chủ yếu dựa vào so khớp từ khóa và các tín hiệu xếp hạng cơ bản. Điều đó hiệu quả khi web còn nhỏ, nhưng nó suy giảm khi số trang tăng vọt — và khi người tạo nội dung học cách thao túng hệ thống. Những thách thức phổ biến bao gồm:
Ý tưởng kích thích rất đơn giản: nếu web là một thư viện khổng lồ, bạn cần hơn một phép so khớp văn bản để xếp hạng kết quả — bạn cần các tín hiệu phản ánh độ tin cậy và tầm quan trọng. Tổ chức thông tin web đòi hỏi các phương pháp có thể suy ra tính hữu ích từ cấu trúc web chứ không chỉ từ từ ngữ trên một trang.
Những ưu tiên nghiên cứu ban đầu đó — đo lường chất lượng, chống thao túng và vận hành ở quy mô cực lớn — đã đặt nền tảng cho những chuyển đổi sau này trong tìm kiếm và AI, bao gồm xếp hạng dựa trên học máy và cuối cùng là các phương pháp tạo sinh.
Mục tiêu của tìm kiếm nghe có vẻ đơn giản: khi bạn gõ một câu hỏi, các trang hữu ích nhất nên đứng đầu. Vào cuối thập niên 1990, điều đó khó hơn vẻ ngoài. Web bùng nổ, và nhiều công cụ tìm kiếm đầu tiên dựa nhiều vào những gì trang nói về chính nó — văn bản, từ khóa và meta tag. Điều này khiến kết quả dễ bị thao túng và thường mang lại trải nghiệm bực bội.
Ý tưởng then chốt của Sergey Brin và Larry Page là dùng cấu trúc liên kết của web như một tín hiệu. Nếu một trang liên kết tới trang khác, đó là một dạng “phiếu bầu.” Không phải phiếu bầu nào cũng giống nhau: một liên kết từ trang được đánh giá cao nên có trọng số lớn hơn so với một liên kết từ trang ít tên tuổi.
Về mặt khái niệm, PageRank đo tầm quan trọng bằng cách hỏi: những trang nào được tham chiếu bởi các trang quan trọng khác? Câu hỏi vòng lặp đó biến thành một phép xếp hạng toán học tính trên quy mô web. Kết quả không phải là “đáp án” cho tính phù hợp — nhưng nó là một thành phần mạnh mẽ mới.
Dễ bị nhầm là PageRank là toàn bộ bí quyết thành công sớm của Google. Thực tế, xếp hạng là một công thức: các thuật toán kết hợp nhiều tín hiệu (so khớp văn bản, độ mới, vị trí, tốc độ tải và nhiều thứ khác) để dự đoán người dùng thực sự muốn gì.
Và động lực thì phức tạp. Khi xếp hạng trở nên quan trọng, spam xuất hiện — mạng liên kết, nhồi nhét từ khóa và các mẹo khác nhằm trông có vẻ phù hợp mà không hữu ích. Thuật toán tìm kiếm trở thành một trò chơi đối kháng liên tục: cải thiện tính phù hợp, phát hiện thao túng và điều chỉnh hệ thống.
Web thay đổi, ngôn ngữ thay đổi và kỳ vọng người dùng cũng thay đổi. Mỗi cải tiến tạo ra các trường hợp biên mới. PageRank không hoàn tất tìm kiếm — nó dịch chuyển lĩnh vực từ so khớp từ khóa đơn giản sang truy xuất thông tin hiện đại, nơi tính phù hợp được đo lường, kiểm thử và tinh chỉnh liên tục.
Một ý tưởng xếp hạng hay không đủ khi “cơ sở dữ liệu” của bạn là toàn bộ web. Điều khiến tìm kiếm Google thời đầu khác biệt không chỉ là tính phù hợp — mà là khả năng cung cấp tính phù hợp đó nhanh chóng và ổn định cho hàng triệu người cùng lúc.
Tìm kiếm ở quy mô internet bắt đầu bằng thu thập: khám phá các trang, quay lại kiểm tra chúng và đối phó với một web không ngừng thay đổi. Sau đó là lập chỉ mục: biến nội dung lộn xộn, đa dạng thành những cấu trúc có thể truy vấn trong vài mili giây.
Ở quy mô nhỏ, bạn có thể coi lưu trữ và tính toán như vấn đề của một máy đơn. Ở quy mô lớn, mọi lựa chọn đều là đánh đổi hệ thống:
Người dùng không trải nghiệm chất lượng tìm kiếm như một điểm xếp hạng — họ trải nghiệm nó như một trang kết quả tải ngay và luôn. Nếu hệ thống thường xuyên lỗi, kết quả bị timeout hoặc tính mới bị trễ, ngay cả mô hình cực kỳ đúng cũng trông như kém trong thực tế.
Đó là lý do vì sao kỹ thuật cho thời gian hoạt động, suy giảm nhẹ nhàng và hiệu năng ổn định không thể tách rời khỏi xếp hạng. Một kết quả hơi kém nhưng được trả về đáng tin cậy trong 200ms có thể thắng một kết quả tốt hơn nhưng đến muộn hoặc không ổn định.
Ở quy mô lớn, bạn không thể “chỉ gửi” một bản cập nhật. Tìm kiếm phụ thuộc vào các đường ống thu thập tín hiệu (những lần nhấp, liên kết, mẫu ngôn ngữ), chạy đánh giá và triển khai thay đổi dần dần. Mục tiêu là phát hiện suy giảm sớm — trước khi ảnh hưởng đến mọi người.
Một mục lục thư viện giả định sách ổn định, được tuyển chọn và thay đổi chậm. Web là một thư viện nơi sách tự viết lại, kệ di chuyển và phòng mới xuất hiện liên tục. Tìm kiếm ở quy mô internet là cơ chế giữ một danh mục có thể dùng cho mục tiêu đang chuyển động đó — nhanh, đáng tin và cập nhật liên tục.
Xếp hạng tìm kiếm ban đầu dựa nhiều vào quy tắc: nếu trang có từ khóa đúng trong tiêu đề, nếu nó được liên kết nhiều, nếu tải nhanh, v.v. Những tín hiệu đó quan trọng — nhưng quyết định bao nhiêu mỗi tín hiệu nên được tính thường là thủ công. Kỹ sư có thể tinh chỉnh trọng số, chạy thử nghiệm và lặp lại. Nó hiệu quả, nhưng cũng gặp trần khi web (và kỳ vọng người dùng) phát triển nhanh.
“Learning to rank” là để hệ thống học xem kết quả tốt trông như thế nào bằng cách nghiên cứu nhiều ví dụ.
Thay vì viết một danh sách dài các quy tắc xếp hạng, bạn đưa cho mô hình nhiều truy vấn và kết quả trong quá khứ — ví dụ kết quả người dùng hay chọn, trang họ nhanh chóng rời đi, và các trang mà đánh giá viên con người cho là hữu ích. Theo thời gian, mô hình dự đoán tốt hơn kết quả nào nên đứng cao hơn.
Một ẩn dụ đơn giản: thay vì giáo viên viết kế hoạch chỗ ngồi chi tiết cho mỗi lớp, giáo viên quan sát chỗ ngồi nào dẫn đến thảo luận tốt hơn và điều chỉnh tự động.
Sự chuyển đổi này không xóa bỏ các tín hiệu cổ điển như liên kết hay chất lượng trang — nó thay đổi cách chúng được kết hợp. Phần “âm thầm” là, từ góc nhìn người dùng, ô tìm kiếm trông giống hệt. Nội bộ, trọng tâm chuyển từ công thức chấm điểm thủ công sang các mô hình được đào tạo trên dữ liệu.
Khi mô hình học từ dữ liệu, đo lường là hướng dẫn.
Các nhóm dựa vào các chỉ số tính phù hợp (kết quả có thỏa mãn truy vấn không?), thử nghiệm A/B trực tuyến (thay đổi có cải thiện hành vi người dùng thật không?), và phản hồi của con người (kết quả có chính xác, an toàn và hữu ích không?). Điều then chốt là coi đánh giá như liên tục — vì những gì người ta tìm kiếm, và “tốt” trông như thế nào, luôn thay đổi.
Ghi chú: thiết kế mô hình cụ thể và các tín hiệu nội bộ thay đổi theo thời gian và không công khai; điều quan trọng là sự chuyển đổi tư duy sang hệ thống học tập được hỗ trợ bởi kiểm thử nghiêm ngặt.
Học sâu là một họ phương pháp máy học xây dựng trên mạng nơ-ron nhiều lớp. Thay vì mã hóa thủ công các quy tắc (“nếu truy vấn chứa X, tăng Y”), các mô hình này học các mẫu trực tiếp từ lượng lớn dữ liệu. Sự thay đổi này quan trọng với tìm kiếm vì ngôn ngữ lộn xộn: người ta viết sai chính tả, hàm ý bối cảnh và dùng cùng một từ với nhiều nghĩa khác nhau.
Các tín hiệu xếp hạng truyền thống — liên kết, anchor, độ mới — rất mạnh, nhưng chúng không hiểu truy vấn đang cố gắng đạt tới điều gì. Mô hình học sâu giỏi học biểu diễn: biến từ, câu và thậm chí hình ảnh thành vector dày đặc phản ánh nghĩa và sự tương đồng.
Trong thực tế, điều đó cho phép:
Học sâu không miễn phí. Huấn luyện và phục vụ mô hình thần kinh tốn kém, đòi hỏi phần cứng chuyên dụng và kỹ thuật cẩn trọng. Chúng cũng cần dữ liệu — nhãn sạch, tín hiệu nhấp và bộ đánh giá — để tránh học được những lối tắt sai.
Khả năng giải thích là một thách thức khác. Khi mô hình thay đổi thứ tự xếp hạng, khó giải thích bằng một câu đơn giản tại sao nó ưu tiên kết quả A hơn B, điều này làm phức tạp gỡ lỗi và niềm tin.
Thay đổi lớn nhất không chỉ là kỹ thuật: mô hình thần kinh không còn là thí nghiệm phụ mà trở thành một phần trải nghiệm người dùng gọi là “chất lượng tìm kiếm.” Tính phù hợp ngày càng phụ thuộc vào mô hình học — được đo lường, lặp lại và đưa ra sản phẩm — thay vì chỉ tinh chỉnh tay các tín hiệu.
AI tìm kiếm cổ điển chủ yếu nói về xếp hạng và dự đoán. Cho một truy vấn và một tập các trang, hệ thống dự đoán trang nào phù hợp nhất. Ngay cả khi học máy thay thế quy tắc thủ công, mục tiêu vẫn tương tự: gán điểm như “khớp tốt”, “spam” hoặc “chất lượng cao”, rồi sắp xếp.
AI tạo sinh thay đổi đầu ra. Thay vì chọn từ tài liệu tồn tại, mô hình có thể sản xuất văn bản, mã, tóm tắt và thậm chí hình ảnh. Điều đó có nghĩa sản phẩm có thể trả lời bằng một phản hồi duy nhất, soạn email, hay viết đoạn mã — hữu ích, nhưng khác bản chất so với trả về các liên kết.
Transformer làm cho việc huấn luyện các mô hình chú ý đến mối quan hệ xuyên suốt câu và tài liệu khả thi, chứ không chỉ từ gần kề. Với đủ dữ liệu huấn luyện, các mô hình này học các mẫu ngôn ngữ rộng và hành vi gần giống suy luận: diễn giải, dịch, theo hướng dẫn và kết hợp ý tưởng giữa các chủ đề.
Với mô hình lớn, nhiều dữ liệu và tính toán thường đem lại hiệu năng tốt hơn: ít lỗi hiển nhiên hơn, viết mạch lạc hơn, và theo hướng dẫn tốt hơn. Nhưng lợi suất không vô hạn. Chi phí tăng nhanh, chất lượng dữ liệu huấn luyện trở thành cổ chai, và một số lỗi không biến mất chỉ vì mô hình lớn hơn.
Hệ thống tạo sinh có thể “ảo tưởng” thông tin, phản ánh thiên lệch trong dữ liệu huấn luyện, hoặc bị hướng vào sản xuất nội dung gây hại. Chúng cũng gặp khó với tính nhất quán: hai prompt tương tự có thể cho câu trả lời khác nhau. So với tìm kiếm cổ điển, thách thức chuyển từ “chúng ta đã xếp nguồn tốt nhất chưa?” sang “làm sao đảm bảo câu trả lời tạo ra chính xác, có cơ sở và an toàn?”
AI tạo sinh trông kỳ diệu trong bản demo, nhưng chạy nó cho hàng triệu (hoặc hàng tỷ) yêu cầu là một bài toán toán-học và vận hành ngang bằng với nghiên cứu. Ở đây bài học từ kỷ nguyên tìm kiếm — hiệu quả, độ tin cậy và đo đếm nghiêm túc — vẫn đúng.
Huấn luyện mô hình lớn về cơ bản là một dây chuyền sản xuất phép nhân ma trận. “Ở quy mô” thường nghĩa là các dàn GPU hoặc TPU được nối mạng để huấn luyện phân tán khiến hàng nghìn chip hoạt động như một hệ thống.
Điều đó đưa ra các hạn chế thực tế:
Phục vụ khác với huấn luyện: người dùng quan tâm đến thời gian phản hồi và tính nhất quán, không phải độ chính xác đỉnh trên một benchmark. Các nhóm cân bằng:
Vì hành vi mô hình mang tính xác suất, giám sát không chỉ là “máy chủ còn chạy không?” Mà là theo dõi trôi dạt chất lượng, các chế độ lỗi mới, và suy giảm tinh tế sau cập nhật mô hình hoặc prompt. Điều này thường bao gồm vòng lặp đánh giá bằng con người cùng các bài kiểm tra tự động.
Để giữ chi phí trong tầm kiểm soát, các đội dựa vào nén, distillation (dạy mô hình nhỏ mô phỏng mô hình lớn) và định tuyến (gửi câu hỏi dễ đến mô hình rẻ hơn và chỉ nâng cấp khi cần). Đây là những công cụ ít hào nhoáng nhưng giúp AI tạo sinh khả thi trong sản phẩm thực tế.
Tìm kiếm và chat thường trông như đối thủ, nhưng hiểu đúng thì chúng là các giao diện tối ưu cho mục tiêu người dùng khác nhau.
Tìm kiếm cổ điển tối ưu cho việc điều hướng nhanh và có thể xác minh: “Tìm nguồn tốt nhất cho X” hoặc “Đưa tôi tới trang phù hợp.” Người dùng mong nhiều lựa chọn, quét tiêu đề nhanh và tự phán đoán độ uy tín bằng các dấu hiệu quen thuộc (nhà xuất bản, ngày, đoạn trích).
Chat tối ưu cho tổng hợp và khám phá: “Giúp tôi hiểu,” “So sánh,” “Soạn thảo,” hoặc “Tôi nên làm gì tiếp theo?” Giá trị không chỉ ở việc tìm trang — mà là biến thông tin rời rạc thành câu trả lời mạch lạc, đặt câu hỏi làm rõ và giữ ngữ cảnh qua các lượt.
Hầu hết sản phẩm thực tế giờ hòa trộn cả hai. Một cách tiếp cận phổ biến là retrieval-augmented generation (RAG): hệ thống trước tiên tìm kiếm trong chỉ mục đáng tin cậy (trang web, tài liệu, kiến thức nội bộ), rồi tạo câu trả lời dựa trên những gì tìm thấy.
Việc gắn nguồn này quan trọng vì nó nối điểm mạnh của tìm kiếm (tính mới, bao phủ, khả năng truy xuất nguồn) với điểm mạnh của chat (tóm tắt, suy luận, luồng đối thoại).
Khi có phần tạo sinh, giao diện không thể dừng lại ở “đây là câu trả lời.” Thiết kế mạnh thêm vào:
Người dùng nhanh chóng nhận ra khi trợ lý tự mâu thuẫn, thay đổi quy tắc giữa chừng, hoặc không giải thích được thông tin lấy từ đâu. Hành vi nhất quán, nguồn rõ ràng và điều khiển dự đoán làm trải nghiệm tìm kiếm+chat cảm thấy đáng tin cậy — đặc biệt khi câu trả lời ảnh hưởng đến quyết định thực tế.
AI có trách nhiệm dễ hiểu hơn khi đặt dưới dạng mục tiêu vận hành, không phải khẩu hiệu. Với hệ thống tạo sinh, thường là: an toàn (không đưa ra hướng dẫn gây hại hoặc quấy rối), riêng tư (không tiết lộ dữ liệu nhạy cảm hoặc ghi nhớ thông tin cá nhân), và công bằng (không đối xử có hệ thống với nhóm nào đó theo cách gây hại).
Tìm kiếm cổ điển có hình dạng đánh giá khá rõ: cho một truy vấn, xếp hạng tài liệu rồi đo tần suất người dùng tìm được cái họ cần. Dù tính phù hợp có thể mang tính chủ quan, đầu ra vẫn bị giới hạn — liên kết tới nguồn hiện có.
AI tạo sinh có thể sản xuất vô số câu trả lời hợp lý, với các chế độ lỗi tinh tế:
Điều đó khiến đánh giá không còn là một điểm số duy nhất mà trở thành bộ kiểm thử: kiểm tra tính thực tế, dò tìm độc hại và thiên lệch, hành vi từ chối, và kỳ vọng chuyên ngành (sức khỏe, tài chính, pháp lý).
Vì các trường hợp biên vô tận, các đội thường dùng đầu vào con người ở nhiều giai đoạn:
Sự chuyển dịch then chốt so với tìm kiếm cổ điển là an toàn không chỉ là “lọc các trang xấu.” Là thiết kế hành vi của mô hình khi nó được yêu cầu tưởng tượng, tóm tắt hoặc tư vấn — và chứng minh bằng bằng chứng rằng các hành vi đó giữ vững ở quy mô.
Câu chuyện của Sergey Brin về Google ban đầu nhắc rằng sản phẩm AI đột phá hiếm khi bắt đầu bằng bản demo lộng lẫy — chúng bắt đầu với một công việc rõ ràng cần làm và thói quen đo lường thực tế. Nhiều thói quen đó vẫn áp dụng khi bạn xây dựng với AI tạo sinh.
Tìm kiếm thành công vì các đội coi chất lượng là thứ có thể quan sát được, không chỉ tranh luận. Họ chạy vô số thử nghiệm, chấp nhận rằng các cải tiến nhỏ cộng dồn, và giữ ý định người dùng làm trung tâm.
Một mô hình tư duy có ích: nếu bạn không thể giải thích “tốt hơn” nghĩa là gì cho người dùng, bạn không thể cải thiện nó một cách tin cậy. Điều đó đúng với xếp hạng trang web lẫn xếp hạng câu trả lời từ mô hình.
Chất lượng tìm kiếm cổ điển thường thu gọn vào tính phù hợp và tính mới. AI tạo sinh thêm các trục mới: tính thực tế, giọng văn, độ đầy đủ, an toàn, hành vi trích dẫn, và cả “tính hữu ích” trong bối cảnh cụ thể. Hai câu trả lời có thể đều đúng chủ đề nhưng khác nhau nhiều về độ tin cậy.
Điều đó nghĩa là bạn cần nhiều phép đánh giá — kiểm tra tự động, đánh giá con người và phản hồi thực tế — vì không một điểm số đơn lẻ nào mô tả toàn bộ trải nghiệm người dùng.
Bài học dễ chuyển từ tìm kiếm là về tổ chức: chất lượng ở quy mô cần sự hợp tác chặt chẽ. Product định nghĩa “tốt” là gì, ML cải thiện mô hình, hạ tầng giữ chi phí và độ trễ trong tầm kiểm soát, pháp lý và chính sách đặt ranh giới, và hỗ trợ lắng nghe nỗi đau của người dùng thật.
Nếu bạn muốn biến những nguyên tắc này thành sản phẩm thực tế, một cách có ích là prototype vòng lặp đầy đủ — UI, retrieval, generation, móc đánh giá và triển khai — sớm. Các nền tảng như Koder.ai được thiết kế cho quy trình “xây nhanh, đo nhanh”: bạn có thể tạo ứng dụng web, backend hoặc mobile qua giao diện chat, lặp trong chế độ lập kế hoạch, và dùng snapshot/rollback khi thử nghiệm đi chệch — hữu ích khi bạn triển khai các hệ thống xác suất cần rollout cẩn trọng.
Câu chuyện của Sergey Brin vẽ một cung rõ rệt: bắt đầu bằng các thuật toán tinh tế (PageRank và phân tích liên kết), rồi chuyển sang xếp hạng học máy, và giờ tiến vào hệ thống tạo sinh có thể soạn câu trả lời thay vì chỉ chỉ đến chúng. Mỗi bước tăng năng lực — và mở rộng bề mặt cho lỗi.
Tìm kiếm cổ điển chủ yếu giúp bạn tìm nguồn. AI tạo sinh thường tóm tắt và quyết định điều gì quan trọng, đặt ra câu hỏi khó hơn: Làm sao chúng ta đo tính chân thực? Làm sao trích dẫn nguồn theo cách người dùng thực sự tin? Và xử lý sự mơ hồ — tư vấn y tế, bối cảnh pháp lý hay tin nóng — mà không biến sự không chắc chắn thành văn bản nghe như thật?
Mở quy mô không chỉ là khoe kỹ thuật; đó là giới hạn kinh tế. Các lần huấn luyện đòi hỏi compute khổng lồ, và chi phí phục vụ tăng theo từng truy vấn. Điều này tạo áp lực cắt góc (ngữ cảnh ngắn hơn, mô hình nhỏ hơn, ít kiểm tra an toàn) hoặc tập trung khả năng vào vài công ty có ngân sách lớn nhất.
Khi hệ thống sinh nội dung, quản trị không còn chỉ là kiểm duyệt nội dung. Nó bao gồm minh bạch (dữ liệu nào đã hình thành mô hình), trách nhiệm (ai chịu trách nhiệm về tổn hại), và động lực cạnh tranh (mô hình mở vs đóng, khóa nền tảng và quy định có thể vô tình ưu ái các công ty lớn).
Khi thấy bản demo lung linh, hãy hỏi: Điều gì xảy ra ở các trường hợp biên khó? Nó có thể hiển thị nguồn không? Khi không biết, nó xử lý ra sao? Độ trễ và chi phí ở mức traffic thực thế nào — không phải trong phòng thí nghiệm?
Nếu bạn muốn tìm hiểu sâu hơn, nên khám phá các chủ đề liên quan như mở quy mô hệ thống và an toàn trên /blog.
Ông ấy là một lăng kính hữu ích để nối liền các vấn đề khai thác thông tin cổ điển (tính phù hợp, chống gian lận, quy mô) với các vấn đề của AI tạo sinh ngày nay (gắn nguồn, độ trễ, an toàn, chi phí). Điểm quan trọng không phải là tiểu sử cá nhân, mà là tìm kiếm và AI hiện đại đều gặp chung những ràng buộc cốt lõi: hoạt động ở quy mô lớn trong khi giữ được niềm tin của người dùng.
Tìm kiếm được coi là “ở quy mô” khi nó phải xử lý hàng triệu truy vấn ổn định với độ trễ thấp, thời gian hoạt động cao và dữ liệu được cập nhật liên tục.
AI tạo sinh là “ở quy mô” khi nó phải thực hiện cùng yêu cầu đó trong khi tạo ra nội dung, điều này bổ sung các ràng buộc về:
Các công cụ tìm kiếm cuối thập niên 1990 dựa nhiều vào so khớp từ khóa và các tín hiệu xếp hạng đơn giản, điều này sụp đổ khi web bùng nổ.
Các dạng thất bại phổ biến là:
PageRank coi các liên kết như một dạng phiếu tín nhiệm, với các phiếu từ trang uy tín được coi trọng hơn.
Về thực tế, nó:
Bởi vì xếp hạng liên quan đến tiền bạc và sự chú ý, nó trở thành một hệ thống đối kháng. Khi một tín hiệu có hiệu quả, người ta tìm cách lợi dụng nó.
Điều đó buộc phải liên tục lặp lại:
Ở quy mô web, “chất lượng” bao gồm hiệu năng hệ thống. Người dùng trải nghiệm chất lượng như:
Một kết quả hơi kém nhưng được trả về liên tục trong 200ms có thể chiến thắng một kết quả tốt hơn nhưng bị trễ hoặc tải thất bại.
Learning to rank thay thế các quy tắc tinh chỉnh thủ công bằng mô hình học từ dữ liệu (hành vi nhấp, đánh giá của con người và các tín hiệu khác).
Thay vì tự quyết xem tín hiệu nào quan trọng bao nhiêu, mô hình học cách kết hợp các tín hiệu để dự đoán “kết quả hữu ích”. Giao diện có thể trông giống trước, nhưng bên trong hệ thống trở nên:
Học sâu cải thiện cách hệ thống biểu diễn nghĩa, giúp:
Những đổi chác là có thật: tốn nhiều tính toán hơn, cần dữ liệu nhiều hơn và khó gỡ lỗi/giải thích khi xếp hạng thay đổi.
Tìm kiếm cổ điển chủ yếu chọn và xếp hạng các tài liệu có sẵn. AI tạo sinh sản xuất văn bản, làm thay đổi chế độ lỗi.
Rủi ro mới gồm:
Câu hỏi trung tâm chuyển từ “chúng ta đã xếp nguồn tốt nhất chưa?” sang “câu trả lời tạo ra có chính xác, có nguồn gốc rõ ràng và an toàn không?”
Retrieval-augmented generation (RAG) tìm kiếm nguồn phù hợp trước, rồi tạo câu trả lời dựa trên các nguồn đó.
Để hoạt động tốt trong sản phẩm, các nhóm thường bổ sung: