Tiểu sử rõ ràng về Demis Hassabis — hành trình từ game và khoa học thần kinh đến DeepMind, AlphaGo và AlphaFold — và những bài học rút ra về AI hiện đại.

Demis Hassabis là một nhà khoa học và doanh nhân người Anh, được biết đến nhiều nhất với vai trò đồng sáng lập DeepMind, phòng thí nghiệm nghiên cứu đứng sau AlphaGo và AlphaFold. Công việc của ông quan trọng vì nó giúp chuyển AI từ những "màn trình diễn thú vị" sang những hệ thống có thể vượt trội so với các chuyên gia hàng đầu trong những nhiệm vụ cụ thể, quan trọng — rồi tái sử dụng những ý tưởng đó ở các lĩnh vực rất khác nhau.
Khi người ta nói Hassabis giúp AI trở nên “cạnh tranh với con người”, họ thường nói về hiệu suất nhiệm vụ: một AI có thể sánh ngang hoặc vượt con người ở một mục tiêu được xác định rõ, như chiến thắng một trò chơi phức tạp hoặc dự đoán cấu trúc protein. Điều đó không giống với trí thông minh tổng quát.
AlphaGo không hiểu thế giới theo cách con người hiểu; nó học chơi Go cực kỳ giỏi. AlphaFold không “làm sinh học”; nó dự đoán hình dạng 3D của protein từ chuỗi một cách chính xác đáng kể. Những hệ thống này thuộc dạng hẹp, nhưng tác động của chúng rộng vì chúng cho thấy cách các phương pháp học có thể giải quyết các vấn đề từng được coi là đòi hỏi trực giác con người độc đáo.
Một vài thành tựu là trọng tâm của lý do Hassabis được coi là nhân vật định hình:
Đây không phải là câu chuyện thánh hiến hay bài quảng cáo. Chúng ta sẽ bám vào các sự kiện rõ ràng, thêm bối cảnh để các bước đột phá có ý nghĩa, và rút ra những bài học thực tế — cách nghĩ về hệ thống học, “mức độ con người” thật sự nghĩa là gì, và tại sao các cuộc thảo luận về đạo đức và an toàn xuất hiện một cách tự nhiên khi AI bắt đầu hoạt động ở mức chuyên gia.
Con đường của Demis Hassabis vào AI không bắt đầu bằng lý thuyết trừu tượng. Nó bắt đầu từ trò chơi — những thế giới có cấu trúc nơi bạn có thể thử ý tưởng, mắc lỗi một cách an toàn và nhận phản hồi ngay lập tức.
Khi còn nhỏ, ông xuất sắc ở cờ vua và các trò chơi chiến lược khác, phát triển sự thoải mái ban đầu với hoạch định dài hạn: bạn không chỉ chọn một “nước đi tốt”, bạn chọn một nước ảnh hưởng đến cả trò chơi nhiều bước sau. Thói quen đó — suy nghĩ theo chuỗi, không phải hành động đơn lẻ — phù hợp chặt chẽ với cách hệ thống AI hiện đại học đưa ra quyết định theo thời gian.
Trò chơi cạnh tranh thúc đẩy một kỷ luật đặc thù:
Đó là các kỹ năng thực tế, không phải khẩu hiệu. Người chơi giỏi liên tục hỏi: Những lựa chọn nào có sẵn? Đối thủ có khả năng làm gì tiếp theo? Giá của việc sai là bao nhiêu?
Hassabis cũng từng làm game, không chỉ chơi. Làm game nghĩa là xử lý nhiều phần tương tác cùng một lúc: luật chơi, động lực, giới hạn thời gian, đường cong độ khó, và cách các thay đổi nhỏ lan tỏa khắp trải nghiệm.
Đó là “tư duy hệ thống” theo nghĩa cụ thể — coi hiệu suất là kết quả của toàn bộ cấu hình chứ không phải một chiêu duy nhất. Hành vi của trò chơi nổi lên từ cách các thành phần khớp với nhau. Về sau, tư duy này xuất hiện trong nghiên cứu AI: tiến bộ thường phụ thuộc vào sự kết hợp đúng đắn của dữ liệu, phương pháp huấn luyện, sức mạnh tính toán, đánh giá và mục tiêu rõ ràng.
Những nền tảng ban đầu này — chơi chiến lược và xây dựng môi trường phức tạp theo luật — giúp giải thích vì sao công việc sau này của ông nhấn mạnh học qua tương tác và phản hồi, thay vì chỉ dựa vào lệnh mã hóa thủ công.
Demis Hassabis không coi khoa học thần kinh là một đường vòng khỏi AI. Ông coi đó là cách để đặt câu hỏi tốt hơn: Học từ kinh nghiệm nghĩa là gì? Làm sao lưu trữ kiến thức hữu ích mà không phải nhớ mọi thứ? Làm sao quyết định điều tiếp theo khi tương lai không chắc chắn?
Nói đơn giản, học là cập nhật hành vi dựa trên phản hồi. Một đứa trẻ chạm cốc nóng một lần và trở nên cẩn thận hơn. Hệ thống AI có thể làm tương tự: thử hành động, thấy kết quả và điều chỉnh.
Bộ nhớ là giữ thông tin hữu ích cho sau này. Con người không ghi lại cuộc đời như video; chúng ta giữ các mẫu và tín hiệu. Với AI, bộ nhớ có thể là lưu trải nghiệm trước, xây tóm tắt nội bộ, hoặc nén thông tin để dùng khi tình huống mới xuất hiện.
Lập kế hoạch là chọn hành động bằng cách nghĩ trước. Khi bạn chọn lộ trình tránh tắc, bạn tưởng tượng các kết quả có thể xảy ra. Trong AI, lập kế hoạch thường là mô phỏng “nếu… thì…” và chọn phương án có vẻ tốt nhất.
Nghiên cứu não bộ có thể chỉ ra những vấn đề đáng giải quyết — như học hiệu quả từ dữ liệu giới hạn, hoặc cân bằng phản ứng nhanh với suy nghĩ có chủ ý. Nhưng điều quan trọng là không phóng đại mối liên hệ: mạng nơ-ron hiện đại không phải là một bộ não, và mục tiêu không phải là sao chép sinh học.
Giá trị là thực dụng. Khoa học thần kinh cung cấp manh mối về khả năng mà trí tuệ cần (khái quát hóa, thích nghi, suy luận trong điều kiện bất định), còn khoa học máy tính biến những manh mối đó thành phương pháp có thể thử nghiệm.
Nền tảng kết hợp của Hassabis cho thấy việc pha trộn các lĩnh vực có thể tạo lợi thế. Thần kinh học khuyến khích tò mò về trí tuệ tự nhiên; nghiên cứu AI yêu cầu xây dựng các hệ thống có thể đo lường, cải tiến và so sánh. Kết hợp giúp các nhà nghiên cứu nối các ý tưởng lớn — như suy luận và bộ nhớ — với các thí nghiệm cụ thể thực sự hoạt động.
DeepMind bắt đầu với một mục tiêu rõ ràng và khác biệt: không phải xây một ứng dụng thông minh, mà là tạo ra các hệ thống học chung — phần mềm có thể học giải quyết nhiều vấn đề khác nhau bằng cách cải thiện qua kinh nghiệm.
Tham vọng đó định hình mọi thứ của công ty. Thay vì hỏi “Tính năng nào chúng ta có thể ra mắt tháng sau?”, câu hỏi khởi nghiệp gần hơn là “Loại máy học nào có thể tiếp tục tiến bộ, ngay cả trong các tình huống chưa từng thấy trước đó?”.
DeepMind được tổ chức giống phòng thí nghiệm học thuật hơn là startup phần mềm điển hình. Sản phẩm đầu ra không chỉ là sản phẩm thương mại—mà còn là phát hiện nghiên cứu, kết quả thực nghiệm và phương pháp có thể kiểm tra, so sánh.
Công ty phần mềm thông thường tối ưu hóa cho việc phát hành: câu chuyện người dùng, lặp nhanh, doanh thu và cải tiến từng phần.\n\nDeepMind tối ưu hóa cho khám phá: thời gian cho các thí nghiệm có thể thất bại, đào sâu các vấn đề khó, và đội ngũ xây quanh những câu hỏi dài hạn. Điều đó không có nghĩa là họ bỏ qua chất lượng kỹ thuật—mà là kỹ thuật phục vụ tiến bộ nghiên cứu, chứ không phải ngược lại.
Đặt cược lớn có thể trở nên mơ hồ nếu không được neo bởi các mục tiêu có thể đo lường. DeepMind có thói quen chọn benchmark công khai, khó khăn và dễ đánh giá—đặc biệt là các trò chơi và mô phỏng nơi thành công rõ ràng.
Điều này tạo ra nhịp nghiên cứu thực tế:
Khi công việc thu hút sự chú ý, DeepMind trở thành một phần của hệ sinh thái lớn hơn. Năm 2014, Google acquired DeepMind, cung cấp nguồn lực và quy mô tính toán mà khó đạt được độc lập.
Điều quan trọng là văn hóa sáng lập—tham vọng cao kèm theo đo lường nghiêm ngặt—vẫn giữ vị trí trung tâm. Bản sắc đầu tiên của DeepMind không phải là “một công ty làm công cụ AI,” mà là “một nơi cố gắng hiểu cách xây dựng trí tuệ học được.”
Học tăng cường là cách để AI học bằng hành động, không phải bằng cách được chỉ ra “đáp án đúng” cho mọi tình huống.
Hãy tưởng tượng dạy ai đó ném phạt trong bóng rổ. Bạn không đưa cho họ một bảng các góc tay hoàn hảo cho mọi cú ném. Bạn để họ thử, quan sát kết quả và cho phản hồi đơn giản: “Gần hơn”, “Trượt nhiều”, “Làm nhiều điều đã hiệu quả hơn”. Theo thời gian, họ điều chỉnh.
Học tăng cường hoạt động tương tự. AI thực hiện hành động, thấy điều xảy ra và nhận một điểm ("phần thưởng") báo hiệu kết quả tốt hay xấu. Mục tiêu là chọn các hành động dẫn tới tổng phần thưởng cao hơn theo thời gian.
Ý tưởng chính là thử và sai + phản hồi. Nghe có vẻ chậm—cho đến khi bạn nhận ra các lần thử có thể được tự động hóa.
Một người có thể luyện 200 cú ném trong một buổi chiều. AI có thể luyện hàng triệu “cú ném” trong môi trường mô phỏng, học những mẫu mà con người phải mất nhiều năm mới tình cờ khám phá. Đây là lý do học tăng cường trở thành trung tâm của AI chơi game: game có quy tắc rõ ràng, phản hồi nhanh và cách đánh giá thành công khách quan.
Nhiều hệ thống AI cần dữ liệu gán nhãn (ví dụ có đáp án đúng). Học tăng cường có thể giảm sự phụ thuộc đó bằng cách tự tạo trải nghiệm.
Với mô phỏng, AI luyện trong “sân tập” an toàn và nhanh. Với tự đấu, nó chơi với bản sao của chính nó, liên tục gặp đối thủ khó hơn khi nó tiến bộ. Thay vì phụ thuộc con người gán nhãn, AI tự tạo chương trình huấn luyện bằng cách thi đấu và lặp lại.
Học tăng cường không phải là ma thuật. Nó thường đòi hỏi lượng lớn trải nghiệm (dữ liệu), sức mạnh tính toán đắt tiền và đánh giá cẩn trọng—một AI có thể “thắng” trong huấn luyện nhưng thất bại trong điều kiện hơi khác.\n\nCũng có rủi ro an toàn: tối ưu hóa phần thưởng sai có thể sinh ra hành vi không mong muốn, nhất là ở bối cảnh tác động lớn. Đặt mục tiêu và kiểm thử đúng quan trọng không kém việc học.
Trận đấu của AlphaGo năm 2016 với Lee Sedol trở thành bước ngoặt văn hóa vì Go từ lâu được coi là “pháo đài cuối cùng” cho máy tính. Cờ vua phức tạp, nhưng Go còn áp đảo hơn: số lượng vị trí bàn cờ nhiều hơn rất nhiều, và nước đi tốt thường dựa trên ảnh hưởng dài hạn và trực giác mẫu hơn là các thủ thuật ngay lập tức.
Cách tiếp cận brute-force—cố tính toán mọi tương lai có thể—gặp phải nổ tổ hợp. Ngay cả người chơi Go giỏi cũng khó giải thích mọi lựa chọn như một dãy tính toán rõ ràng; phần lớn là đánh giá dựa trên kinh nghiệm. Điều đó làm cho Go không phù hợp với thế hệ chương trình trước đây dựa chủ yếu vào quy tắc viết tay.
AlphaGo không chỉ “tính toán”, và cũng không chỉ “học”. Nó kết hợp cả hai. Nó dùng mạng nơ-ron được huấn luyện trên các ván đấu của con người (và sau đó là tự đấu) để phát triển cảm giác nước đi hứa hẹn. Rồi nó dùng một tìm kiếm tập trung để khám phá các biến thể, được hướng dẫn bởi trực giác học được đó. Hãy tưởng tượng nó kết hợp trực giác (mẫu học được) với suy xét (nhìn trước), thay vì chỉ phụ thuộc vào một yếu tố.
Chiến thắng cho thấy hệ thống học máy có thể làm chủ một miền đòi hỏi sáng tạo, hoạch định tầm xa và cân nhắc tinh tế—mà không cần con người mã hóa chiến lược Go.\n\nNó không có nghĩa AlphaGo có trí thông minh tổng quát. Nó không thể chuyển kỹ năng sang những vấn đề khác, giải thích lập luận như con người, hay hiểu Go như một thực hành văn hóa. Nó xuất sắc ở một nhiệm vụ.
Sự quan tâm công chúng tăng mạnh, nhưng tác động sâu hơn nằm ở nội bộ nghiên cứu. Trận đấu xác nhận một hướng: kết hợp học quy mô lớn, tự cải thiện qua luyện tập và tìm kiếm như công thức thực tế để đạt (và vượt) trình độ con người xuất sắc trong môi trường phức tạp.
Một chiến thắng nổi bật có thể khiến AI trông như "đã giải quyết xong", nhưng hầu hết hệ thống tỏa sáng ở một bối cảnh thường thất bại khi luật chơi thay đổi. Câu chuyện có ý nghĩa hơn sau một bước đột phá là sự chuyển dịch từ giải pháp tùy chỉnh hẹp sang các phương pháp có khả năng khái quát hóa.
Trong AI, khái quát hóa là khả năng hoạt động tốt trong các tình huống mới mà bạn không huấn luyện cụ thể. Đó là khác biệt giữa việc học thuộc lòng một bài kiểm tra và thực sự hiểu môn học.
Một hệ thống chỉ thắng dưới một tập điều kiện—cùng luật, cùng đối thủ, cùng môi trường—vẫn có thể rất mong manh. Khái quát hóa hỏi: nếu ta thay đổi ràng buộc, nó có thích nghi được mà không phải bắt đầu lại từ đầu không?
Các nhà nghiên cứu cố thiết kế phương pháp học có thể chuyển giao giữa các nhiệm vụ, thay vì chế tạo một “mẹo” riêng cho từng trường hợp. Ví dụ thực tế bao gồm:
Điểm mấu chốt không phải một mô hình làm được mọi thứ ngay lập tức. Mà tiến bộ được đo bằng mức độ tái sử dụng của giải pháp.
Benchmark là "bài kiểm tra chuẩn" của AI: chúng cho phép các đội so sánh kết quả, theo dõi cải tiến và xác định cái gì hiệu quả. Chúng cần thiết cho tiến bộ khoa học.
Nhưng benchmark có thể đánh lừa khi chúng trở thành mục tiêu thay vì công cụ đo lường. Mô hình có thể “khớp” vào các khác biệt nhỏ của benchmark, hoặc thành công bằng cách lợi dụng lỗ hổng không phản ánh hiểu biết thế giới thực.
“Ở mức con người” thường có nghĩa bằng với con người trên một chỉ số cụ thể trong một bối cảnh cụ thể—không phải có sự linh hoạt, phán đoán hay ý thức chung của con người. Một hệ thống có thể vượt chuyên gia trong luật chơi hẹp và vẫn gặp khó khăn ngay khi môi trường thay đổi.
Bài học thực sự sau một chiến thắng là kỷ luật nghiên cứu theo sau: kiểm tra trên biến thể khó hơn, đo lường chuyển giao, và chứng minh phương pháp mở rộng vượt ra ngoài một giai đoạn duy nhất.
Protein là những “cỗ máy” nhỏ bên trong sinh vật. Chúng bắt đầu như các chuỗi dài các khối xây dựng (axit amin), rồi chuỗi cuộn và gập lại thành một hình dạng 3D cụ thể — giống như một mảnh giấy được gấp thành origami.
Hình dạng cuối cùng quan trọng vì nó xác định phần lớn chức năng của protein: vận chuyển oxy, chống nhiễm trùng, truyền tín hiệu hoặc xây dựng mô. Thách thức là một chuỗi protein có thể uốn cong theo vô số cách, và hình dạng đúng rất khó suy ra chỉ từ trình tự. Trong nhiều thập kỷ, các nhà khoa học thường cần phương pháp phòng thí nghiệm chậm và tốn kém để xác định cấu trúc.
Biết cấu trúc của protein giống như có bản đồ chi tiết thay vì chỉ tên đường. Nó giúp nhà nghiên cứu:
Điều này có ý nghĩa ngay cả khi không lập tức chuyển thành sản phẩm: nó cải thiện nền tảng mà nhiều nghiên cứu hạ nguồn dựa vào.
AlphaFold cho thấy học máy có thể dự đoán nhiều cấu trúc protein với độ chính xác ấn tượng, thường gần với kết quả kỹ thuật phòng thí nghiệm. Đóng góp chính không phải “giải quyết sinh học,” mà là làm cho các dự đoán cấu trúc trở nên đáng tin cậy và dễ tiếp cận hơn—biến một nút thắt lớn thành điều mà các nhà nghiên cứu có thể tiếp cận sớm hơn trong một dự án.
Cần tách biệt tăng tốc nghiên cứu và sản phẩm y tế ngay lập tức. Dự đoán cấu trúc không bằng việc tạo ra một loại thuốc an toàn. Phát triển thuốc vẫn yêu cầu xác thực mục tiêu, thử nghiệm phân tử, hiểu tác dụng phụ và chạy thử nghiệm lâm sàng. Tác động của AlphaFold tốt nhất được mô tả là hỗ trợ và đẩy nhanh nghiên cứu—cung cấp điểm khởi đầu tốt hơn—chứ không phải cung cấp phương pháp điều trị ngay lập tức.
Công việc của Hassabis thường được kể qua các khoảnh khắc nổi bật như AlphaGo hay AlphaFold, nhưng bài học có thể chuyển giao hơn là cách DeepMind định hướng nỗ lực: một vòng lặp chặt chẽ của mục tiêu rõ ràng, tiến độ có thể đo lường và lặp đi lặp lại không ngừng.
Các dự án AI đột phá ở DeepMind thường bắt đầu bằng mục tiêu sắc nét (“giải quyết lớp nhiệm vụ này”) và một bảng điểm trung thực. Bảng điểm đó quan trọng vì nó ngăn đội nhầm lẫn demo ấn tượng với năng lực thực sự.
Khi đánh giá được đặt, công việc trở nên mang tính lặp: xây, thử, học từ thất bại, điều chỉnh, lặp lại. Chỉ khi vòng lặp hoạt động mới tiến tới quy mô—thêm dữ liệu, thêm tính toán, nhiều thời gian huấn luyện hơn và thường là một mô hình lớn hơn, thiết kế tốt hơn. Mở rộng quá sớm chỉ làm tăng sự rối loạn.
Nhiều hệ thống trước đây phụ thuộc vào con người viết quy tắc rõ ràng (“nếu X, thì làm Y”). Thành công của DeepMind nhấn mạnh lợi thế của biểu diễn học được: hệ thống tự khám phá các mẫu và trừu tượng hữu ích trực tiếp từ kinh nghiệm.
Điều đó quan trọng vì vấn đề thực tế có nhiều trường hợp biên phức tạp. Quy tắc dễ vỡ khi độ phức tạp tăng, trong khi biểu diễn học được có thể khái quát—đặc biệt khi kết hợp với tín hiệu huấn luyện mạnh và đánh giá cẩn thận.
Một dấu ấn của phong cách DeepMind là làm việc liên ngành. Lý thuyết gợi ý điều có thể hoạt động, kỹ thuật khiến nó huấn luyện ở quy mô, và thực nghiệm giữ mọi người trung thực. Văn hóa nghiên cứu coi bằng chứng là thước đo: khi kết quả trái trực giác, đội sẽ theo dữ liệu.
Nếu bạn áp dụng AI vào sản phẩm, bài học là ít hơn “sao chép mô hình” và nhiều hơn “sao chép phương pháp”:
Nếu mục tiêu của bạn là biến những nguyên tắc này thành một công cụ nội bộ nhanh chóng (không cần xây lại toàn bộ đường ống kỹ thuật trước), một nền tảng prototype như Koder.ai có thể giúp bạn tạo nguyên mẫu và ra mắt nhanh hơn: bạn mô tả ứng dụng qua chat, sinh giao diện web React, thêm backend Go với PostgreSQL, và lặp với chế độ lập kế hoạch, snapshots và hoàn tác. Với đội, xuất mã nguồn và tùy chọn triển khai/hosting giúp dễ chuyển từ “nguyên mẫu chạy được” sang “mã sở hữu được” mà không bị khóa vào một bản demo.
Demis Hassabis là một nhà khoa học và doanh nhân người Anh, đồng sáng lập DeepMind. Ông gắn liền với các bước tiến trong AI như AlphaGo (chơi game) và AlphaFold (dự đoán cấu trúc protein), cho thấy các hệ thống dựa trên học có thể đạt hoặc vượt hiệu suất chuyên gia con người ở những nhiệm vụ cụ thể và rõ ràng.
Thông thường, điều đó có nghĩa là hiệu suất trên một nhiệm vụ có tiêu chuẩn (ví dụ: thắng ở Go hoặc dự đoán cấu trúc protein chính xác).
Nó không có nghĩa là hệ thống có kiến thức phổ quát, có thể chuyển kỹ năng đa ngành dễ dàng, hoặc “hiểu” thế giới theo cách con người hiểu.
DeepMind được tổ chức như một phòng thí nghiệm nghiên cứu trước tiên, tập trung vào tiến bộ dài hạn trong các hệ thống học chung thay vì ra mắt một ứng dụng đơn lẻ.
Về thực tế, điều đó có nghĩa là:
Học tăng cường (Reinforcement learning) là học bằng thử và sai với tín hiệu điểm (“phần thưởng”). Thay vì được cho câu trả lời đúng cho mọi tình huống, hệ thống thực hiện hành động, quan sát kết quả và cập nhật hành vi để tối ưu tổng phần thưởng dài hạn.
Nó đặc biệt hữu ích khi:
Self-play nghĩa là hệ thống luyện tập bằng cách đấu với những bản sao của chính nó, tạo ra dữ liệu huấn luyện mà không cần con người gán nhãn.
Điều này hữu ích vì:
Go có số lượng vị trí có thể rất lớn, khiến phương pháp brute-force trở nên bất khả thi. AlphaGo thành công bằng cách kết hợp:
Sự kết hợp này cho thấy một công thức thực tế để đạt hiệu suất hàng đầu trong môi trường quyết định phức tạp—mà không cần mã hóa chiến lược Go thủ công.
Khái niệm khái quát hóa là khả năng hoạt động tốt trong những điều kiện mới mà bạn chưa huấn luyện—thay đổi luật chơi, kịch bản mới hoặc phân phối khác.
Cách kiểm tra thực tế bao gồm:
Benchmark cung cấp bảng điểm chung, nhưng mô hình có thể khớp quá mức vào những đặc điểm riêng của bài kiểm tra.
Để tránh bị đánh lừa:
Hãy coi benchmark như công cụ đo lường, không phải mục tiêu cuối cùng.
AlphaFold dự đoán hình dạng 3D của protein từ chuỗi axit amin với độ chính xác cao cho nhiều protein.
Điều đó hữu ích vì cấu trúc giúp các nhà nghiên cứu:
Nó thúc đẩy nghiên cứu, nhưng không tự động tạo ra thuốc hoàn chỉnh—phát triển dược phẩm vẫn cần xác thực, thử nghiệm phân tử và thử nghiệm lâm sàng.
Bắt chước phương pháp, không chỉ mô hình nổi bật:
Nếu hệ thống có tác động lớn, bổ sung kiểm tra có cấu trúc (red-teaming), ranh giới sử dụng rõ ràng và triển khai theo giai đoạn.