デミス・ハサビスの経歴——ゲームと神経科学からDeepMind、AlphaGo、AlphaFoldへの道筋と、現代AIに対する示唆を分かりやすく解説します。

デミス・ハサビスは、AlphaGoやAlphaFoldを生み出した研究所の共同創業者として知られる英国の科学者・起業家です。彼の仕事が重要なのは、AIを「興味深いデモ」から、特定の高リスクかつ専門的なタスクで人間の上位に立てるシステムへと押し上げ、そしてそのアイデアを異なる領域に再利用できる道を示した点です。
人々がハサビスがAIを「人間と競える」ようにしたと言うとき、多くはタスクの遂行能力を指します:囲碁で勝つ、配列からタンパク質構造を予測するなど、明確に定義された目標でAIが人間に匹敵するか上回ることです。それは汎用的知能とは別物です。
AlphaGoは人間のように世界を理解していたわけではなく、囲碁のプレイを非常にうまく学んだにすぎません。AlphaFoldは「生物学を行っている」のではなく、配列から3D構造を高精度で予測します。これらは狭い領域のシステムですが、学習ベースの手法がかつて人間の直感が必要だと考えられていた問題に取り組めることを示した点で影響力が大きいのです。
いくつかの功績が、ハサビスを決定的な人物にした理由として挙げられます:
これは単なる英雄譚や誇張記事ではありません。事実に基づき、ブレークスルーがどのように意味を持つのかを文脈化し、実践的な示唆――学習システムの考え方、「人間レベル」とは何か、専門家レベルの性能が出たときに倫理や安全性の議論が自然に出てくる理由――を引き出します。
デミス・ハサビスがAIの道に入ったのは抽象的理論からではなく、ゲームから始まりました。ゲームはアイデアを試し、失敗から学び、即時のフィードバックを得られる構造化された世界です。
子どものころ彼はチェスなどの戦略ゲームで優れており、長期的な計画を立てることに慣れていました:「良い一手」を選ぶだけでなく、数手先の展開を見越して一手を選ぶ習慣です。その習慣――単一行動ではなく一連の流れで考えること――は現代のAIが時間を通じて意思決定を学ぶ方法と密接に対応します。
競技ゲームは次のような規律を強います:
これらはスローガンではなく実践的なスキルです。強いプレイヤーは常に「選べる選択肢は何か? 相手は次に何をする可能性が高いか? 間違ったときのコストは?」と問い続けます。
ハサビスはゲームを作る側も経験しました。ゲーム開発では規則、インセンティブ、時間制限、難易度カーブ、小さな変更が全体の体験にどう波及するかなど、多くの相互作用する要素に対処します。
これは具体的な意味での「システム思考」です――性能を単一のトリックではなく、全体の設定の結果として扱うこと。ゲームの振る舞いは構成要素の組み合わせから出現します。後にこの考え方はAI研究にも現れます:進展はしばしば適切なデータ、訓練法、計算資源、評価、明確な目的の組み合わせに依存します。
こうした初期の基盤――戦略的プレイと複雑で規則に基づく環境を作る経験――が、彼の後の仕事で相互作用とフィードバックを通じて学ぶことを重視した理由を説明します。
ハサビスは神経科学をAIへの回り道と見なさず、より良い問いを立てるための手段と考えました:経験から学ぶとは何か? すべてを丸暗記せずに有用な知識をどう保持するか? 未来が不確かでも次に何をするかをどう決めるか?
簡単に言えば、学習はフィードバックに基づいて行動を更新することです。子どもが熱いマグカップに触れて一度で慎重になるように、AIも行動を試し、結果を見て調整します。
記憶は後で役立つ情報を保持すること。人間は生活をビデオのように記録するのではなく、パターンや手がかりを保持します。AIでは過去の経験を保存したり、内部要約を作ったり、情報を圧縮して新しい状況で使える形にすることが記憶に相当します。
計画は先を見越して行動を選ぶことです。渋滞を避けるルートを選ぶとき、可能な結果を想像して最良に思える選択をします。AIでは、計画はしばしば「もしこうなったら…」とシミュレートし、最も良さそうな選択を選ぶことを意味します。
脳を研究することは、効率的に少量のデータから学ぶ方法や、迅速な反応と熟慮的思考のバランスといった解くべき問題を示唆します。しかし過度に結びつけてはいけません:現代のニューラルネットワークは脳ではなく、生物を単純に模倣することが目的ではありません。
価値は実用的です。神経科学は知能に必要な能力(一般化、適応、不確実性下での推論)についての手がかりを与え、計算機科学がそれらを検証可能な方法へと変えます。
ハサビスのバックグラウンドは分野横断の利得を示しています。神経科学は自然の知能への好奇心を促し、AI研究は測定・改善・比較できるシステムを作ることを要求します。両者が合わさると、推論や記憶といった大きなアイデアを実際に動く実験へ結びつける力が生まれます。
DeepMindは一つの賢いアプリを作るのではなく、多様な問題を経験を通じて解ける学習システムを作るという明確で異例の目標を掲げていました。
その野心は組織のあり方にすべて影響しました。「来月出せる機能は何か?」ではなく、「見たことのない状況でも改善し続けられる学習機械とは何か?」という問いが創業時の出発点でした。
DeepMindは典型的なソフトウェアスタートアップより学術ラボに近い組織でした。成果は製品だけでなく、研究成果、実験結果、比較可能な手法そのものでもありました。
一般的なソフトウェア企業は出荷(ユーザーストーリー、迅速な反復、収益目標、漸進的改良)を最適化する傾向にあります。\n\nDeepMindは発見を最適化しました:失敗するかもしれない実験に時間を割き、困難な問題を深く掘り下げ、長期的な問いを中心にチームを組成しました。とはいえ工学的品質を無視したわけではなく、工学は研究進展を支えるために使われました。
大きな賭けは測定可能な目標で固定されていないと曖昧になります。DeepMindは公開され、難しく、評価が明白なベンチマークを選ぶ習慣を持ちました。特にゲームやシミュレーションは成功が明快です。
これにより実践的な研究リズムが生まれました:\n\n- 明確なスコアや勝利条件のチャレンジを選ぶ\n- 訓練で改善可能な学習システムを作る\n- 進捗を正直に測定し、反復する
注目を集めるにつれ、DeepMindは大きな生態系の一部となりました。2014年にGoogleがDeepMindを買収し、単独では得難いリソースと計算規模が提供されました。
重要なのは、創業時の文化――高い野心と厳密な測定の組み合わせ――が中核に残ったことです。初期のアイデンティティは「AIツールを作る会社」ではなく「学習そのものをどう作るかを理解しようとする場所」でした。
強化学習は「正しい答え」をすべて示されるのではなく、行動して学ぶ方法です。
フリースローの打ち方を教えることを想像してください。完璧な角度のスプレッドシートを渡すのではなく、打たせて結果を見て簡単なフィードバックを与えます:「それは惜しかった」「大きく外れた」「うまくいったことをもっとやってみて」。時間をかけて調整します。
強化学習も同じです。AIが行動を取り、結果を見てスコア(「報酬」)を受け取り、時間を通じてより高い総報酬を得る行動を選ぶことを目指します。
核心は試行錯誤+フィードバックです。遅そうに聞こえますが、試行を自動化できる点が重要です。
人間は午後に200本シュートを打つかもしれませんが、AIはシミュレーションで百万回もの“シュート”を練習でき、人間が何年もかけて見つけるパターンを短期間で学べます。だから強化学習はゲームプレイAIの中心になりました:ゲームはルールが明確でフィードバックが速く、成功を測る方法があるからです。
多くのAIはラベル付きデータを必要としますが、強化学習は自己生成の経験でその依存を減らせます。
シミュレーションではAIが安全かつ高速な「練習場」で訓練できます。セルフプレイでは自分と戦うことで常に手ごわい相手に当たりながら改善できます。人間が正解を用意する代わりに、AI自身が訓練カリキュラムを作ります。
強化学習は魔法ではありません。大量の経験(データ)、高価な計算、慎重な評価を要求することが多く、訓練で「勝てる」モデルが少し条件が変わると失敗することもあります。
また安全上のリスクもあります:間違った報酬を最適化すると望ましくない振る舞いが生じることがあり、高影響領域では目的設定とテストが学習自体と同じくらい重要です。
2016年のAlphaGo対李世乭(イ・セドル)の対局は文化的な転換点になりました。囲碁は長らくコンピュータの「最後の守り」と見なされてきたからです。チェスは複雑ですが、囲碁はさらに盤面の可能性空間が広く、良い手は即時戦術ではなく長期的な影響や直感に基づくことが多いのです。
総当たりに近いブルートフォース方式は組合せ爆発に直面します。強い囲碁プレイヤーでもすべての選択を明確な計算列として説明できないことが多く、経験に基づく判断が重要です。これが従来の手作りルール中心のプログラムにとって不利に働きました。
AlphaGoは「ただ計算する」わけでも「ただ学習する」わけでもありませんでした。人間の棋譜で訓練したニューラルネット(後にセルフプレイでも訓練)で有望手を見つけ、その直感に導かれて探索を絞り込む方式を採りました。学習で得た直感と先読み(探索)を組み合わせたイメージです。
この勝利は、機械学習システムが創造性や長期計画、微妙なトレードオフを必要とする領域を、人間が手作業で戦略を符号化せずに習得できることを示しました。
一方で、AlphaGoが汎用知能を持っているわけではなく、そのスキルを無関係な問題に転用できるわけでも、説明可能性の面で人間のように振る舞えるわけでもありません。特定のタスクにおいては非凡だった、ということです。
一般の関心は高まりましたが、より深い影響は研究内部にありました。対局は次の道筋を検証しました:大規模学習、自己改善による練習、そして探索を組み合わせることで複雑な環境で専門家を超えることが可能だということです。
見出しに出る勝利はAIが「解決された」ように思わせますが、多くの成功はある条件下でしか通用しません。重要なのは、狭く特化した解決から一般化する手法へ押し広げる試みです。
AIの一般化とは、訓練していない新状況でもうまく動けることです。試験を丸暗記するのと科目を理解することの違いに近いです。
ある条件――同じルール、同じ相手、同じ環境――でしか勝てないシステムは脆弱です。一般化は、制約を変えても一からやり直さずに適応できるかどうかを問います。
研究者はタスク間で転用できる学習アプローチを設計しようとします。実践例は:
一つのモデルがすべてを瞬時にこなす必要はなく、解のどれだけが再利用可能かで進捗を測るのがポイントです。
ベンチマークは標準的なテストであり、チームが結果を比較し、改善点を特定するのに欠かせません。しかしベンチマークが目的になるとミスリードを生みます。モデルがベンチマークの事情に過剰適合したり、現実の理解と無関係な抜け道で高得点を取ることがあり得ます。
「人間レベル」とは通常、特定の設定で特定の指標において人間と匹敵することを意味します――人間のような柔軟性や判断力、常識を持つことを意味しません。狭いルール下では専門家を凌駕しても、環境が変われば脆弱になることが多いのです。
真に意味のあることは、その後に続く研究の規律です:より厳しいバリエーションでテストし、転移を測り、手法が単一段階を超えてスケールすることを示す作業です。
タンパク質は生体内の小さな「機械」です。アミノ酸の長い鎖として始まり、その鎖がねじれて折りたたまれて特定の3次元形状になります――折り紙が紙を折って形になるようなイメージです。
最終的な形状はそのタンパク質が何をできるか(酸素を運ぶ、感染と戦う、信号を送る、組織を作るなど)を大きく決めます。問題は、鎖が取り得る折れ方は天文学的で、配列から正しい形状を推測するのは極めて難しく、何十年も実験室の遅く高価な手法が必要とされてきた点です。
タンパク質の構造が分かれば地図を得たようなもので、研究者は:
これらは即時に製品に結びつかなくても、多くの下流研究の基礎を改善します。
AlphaFoldは機械学習が多くのタンパク質構造を驚くほど正確に予測できることを示しました。重要なのは「生物学を解決した」ことではなく、構造予測の信頼性とアクセス性を大幅に向上させ、研究のボトルネックを先に進められるようにした点です。
構造を予測することと安全な薬を作ることは同一ではありません。創薬には標的の検証、分子の設計、副作用の理解、臨床試験などが必要です。AlphaFoldの影響は研究を可能にし、加速すること――より良い出発点を提供すること――として説明するのが適切です。
ハサビスの仕事はAlphaGoやAlphaFoldのような見出しになる瞬間で語られがちですが、より再現可能な教訓はDeepMindが努力を向けた「方法」です:明確な目標、測定可能性、容赦ない反復のループ。
重要プロジェクトは通常、端的なターゲット(「このクラスのタスクを解く」)と正直なスコアボードから始まります。スコアボードは印象的なデモを本当の能力と混同しないようにするために重要です。
評価が設定されたら、作業は反復的になります:作る、テストする、失敗から学ぶ、アプローチを調整する、繰り返す。ループが機能した後にスケール(データ、計算、訓練時間の増加、より大きくよく設計されたモデル)が有効になります。早すぎるスケールは混乱を加速するだけです。
以前の多くのAIは「もしXならYする」と人が規則を書いていました。DeepMindの成功は学習された表現の利点を示しました:システムが経験から有用なパターンや抽象を自ら発見します。
現実の問題には厄介な境界ケースが多く、手作りの規則は複雑さが増すと破綻しがちです。一方で学習された表現は、強力な訓練信号と慎重な評価と組み合わせると一般化しやすくなります。
DeepMindスタイルの特徴は学際的なチームワークです。理論は何がうまくいくかの指針を与え、工学はそれをスケールして訓練可能にし、実験は現実検証を提供します。チーム文化は証拠を重んじ、結果が直観と異なるときはデータに従います。
プロダクトでAIを応用するなら、示すべきは「モデルを真似る」ことより「方法を真似る」ことです:
内部ツールを素早く試作したい(完全なエンジニアリングパイプラインを最初から構築せずに)なら、vibe-coding型プラットフォームのKoder.aiのようなサービスでプロトタイプを迅速に作って出荷しやすくなります:チャットでアプリを記述するとReactのWeb UIを生成し、GoバックエンドとPostgreSQLを追加してプランニングモード、スナップショット、ロールバックで反復できる、といった具合です。チーム向けにはソースコードのエクスポートやデプロイ/ホスティングオプションがあり、「動くプロトタイプ」から「所有可能なプロダクションコード」へ移行しやすくなります(デモに固定されないように)。
AIが特定タスクで人間に匹敵したり上回ったりすると、議論は「作れるか?」から「展開すべきか? どう展開すべきか?」へと移ります。AIの価値を生む特性――速度、スケール、自律性――は誤用や失敗が重大化するリスクも伴います。
能力の高いモデルは作成者が想定しない用途に流用され得ます:説得力ある誤情報の生成、サイバー悪用の自動化、有害な意思決定の加速など。悪意なくとも、誤った医療提案やバイアスのある採用フィルタ、確証のない要約が事実として提示されることは大きな問題です。
フロンティア級のシステムを作る組織にとって、安全性は実務的な問題でもあります:信頼失墜や規制リスク、実世界の被害は技術的限界と同様に進展を阻害します。
責任ある開発は誇張より証拠を重視します:\n\n- 事前テストとしてのレッドチーミング(システムを壊すことを目的とした体系的試み)やシナリオベース評価。\n- 利用境界の明確化:システムの目的、非目的、どこで人間が関与すべきかを示す。\n- 公開後の監視:実ユーザーが研究室では見つからない境界ケースを見つけるため。\n- ドキュメント化:既知の制限、データリスク、適切な利用文脈を説明する。
これらは安全を保証するものではありませんが、システムの最も驚くべき振る舞いが公開で発見される確率を下げます。
オープンサイエンスとリスク管理の間には本質的な緊張があります。手法を公開しモデル重みを公開すると研究と透明性は進みますが、悪意ある者のハードルも下がります。迅速に動くことは競争上の優位を生みますが、急ぎすぎると能力と制御のギャップが広がります。
現実的なアプローチは公開判断を影響の大きさに合わせることです:影響が大きいほど段階的な公開、独立評価、アクセスの制限が妥当になります――少なくともリスクがよりよく理解されるまで。
ハサビスの見出しとなるマイルストーン――研究第一のDeepMind文化、囲碁での意思決定の飛躍、タンパク質構造予測での科学的影響――は共通の大きな変化を示しています:目標を定義し、フィードバックを与え、学習をスケールできる状況ではAIが汎用的な問題解決ツールになりつつあるということです。
さらに重要なのは、これらの勝利が示すパターンです。ブレークスルーは強力な学習手法が丁寧に設計された環境(ゲーム、シミュレーション、ベンチマーク)に出会い、結果が容赦ない公開評価で試されるときに起きやすいという点です。
現代のAIは膨大なデータや繰り返し可能なルール、測定可能なスコアがある領域でのパターン認識や巨大な解空間の探索が得意です。タンパク質構造予測、画像・音声処理、何度も試行できる複雑系の最適化などが典型です。
日常的に言えば:AIは選択肢を絞り、隠れた構造を見つけ、高速で草案を作るのが得意です。
印象的なシステムでも、訓練条件外では脆弱です。苦手なことは:
だから「大きい」ことが必ずしも「より安全」や「より人間的な賢さ」を意味するわけではありません。
さらに深く学びたいなら、これらのマイルストーンをつなぐアイデアに注目してください:フィードバック駆動の学習、評価、責任ある展開。
/blogで他の解説やケーススタディを参照してください。\n\nチームを支援するAIを検討している、あるいは期待値のチェックをしたいなら、/pricingで選択肢を比較してください。\n\n具体的なユースケースや安全で現実的な導入に関する質問があれば、/contactからお問い合わせください。
デミス・ハサビスはDeepMindを共同創業した英国の科学者で起業家です。AlphaGo(ゲーム)やAlphaFold(タンパク質構造予測)といった成果に結びつけられ、学習ベースのシステムが特定の明確に定義されたタスクで専門家レベルの性能に到達できることを示しました。
この文脈で多くの場合、特定のベンチマーク化されたタスクでの性能(例:囲碁での勝利やタンパク質構造の正確な予測)を指します。
それは、システムが広範な常識を持つ、あるいは容易にスキルを別分野へ転用できることや、人間のように世界を“理解”していることを意味しません。
DeepMindはまず研究ラボとして設立され、汎用的学習システムの長期的な進展に注力しました。一つのアプリを出すことよりも、経験から学べる仕組みを作ることを目指した点が特徴です。
実務的には次のような意味がありました:
強化学習(RL)は「試行錯誤」による学習で、行為とその結果から学ぶ方法です。正解が示された大量のラベルを与えられる代わりに、システムは行動を取り、結果に対してスコア(“報酬”)を受け取り、それが長期的に高くなるよう振る舞いを更新します。
特に役立つのは:
セルフプレイはシステムが自分のコピーと対戦して学習経験を生成する方法です。
これが有利な点は:
モデルが改善するにつれて「相手」が自動的に強くなる
シミュレーションで数百万のゲームを学習に使える
人間によるラベル付けを必要とせず、モデル自身が訓練カリキュラムを作り出せる
囲碁は可能な盤面が非常に多く、単純な総当たり計算では太刀打ちできません。AlphaGoは次の組み合わせで成功しました:
この組み合わせは、手作りの囲碁戦略を符号化するのではなく、学習と検索を組み合わせて複雑な意思決定環境でトップレベルの性能を出せるという実用的な処方箋を示しました。
一般化とは、訓練していない新しい条件下でも良好に動作する能力を指します(ルールの変化、新しいシナリオ、分布の違いなど)。
実際に一般化があるかを確かめる方法:
ベンチマークは共通のスコアボードを提供し、進捗比較や有効性の把握に不可欠です。しかしベンチマークが目的化すると誤解を招きます。
誤解を避けるためには:
ベンチマークは「測定」であり、「目的」ではありません。
AlphaFoldはアミノ酸配列から多くのタンパク質の3次元構造を高精度で予測できることを示しました。
その意義は:
しかし、構造予測は薬の完成を意味するわけではありません。創薬には標的の検証、化合物の設計、副作用評価、臨床試験など多くの工程が必要で、AlphaFoldは研究を加速する道具です。
重要なのは「方法」を模倣することです。具体的には:
高インパクトなシステムでは、レッドチーミングや利用範囲の明確化、段階的な展開を追加すべきです。