Demis Hassabis의 생애와 경로—게임과 신경과학에서 DeepMind, AlphaGo, AlphaFold로 이어진 여정—및 그것이 현대 AI에 대해 알려주는 점을 명확히 정리합니다.

Demis Hassabis는 AlphaGo와 AlphaFold 뒤에 있는 연구실인 DeepMind의 공동창립자로 가장 잘 알려진 영국의 과학자이자 기업가입니다. 그의 작업이 중요한 이유는 AI를 ‘흥미로운 데모’ 수준에서 벗어나 특정한, 고위험 과제에서 최고 인간 전문가를 능가할 수 있는 시스템으로 옮겼고, 그런 아이디어들을 아주 다른 분야들에 재사용할 수 있다는 점을 보여주었기 때문입니다.
사람들이 Hassabis가 AI를 ‘인간과 경쟁할 수 있게 만들었다’고 말할 때 보통 의미하는 바는 과제 성능입니다: AI가 복잡한 게임에서 이기거나 단백질 구조를 예측하는 등 명확히 정의된 목표에서 인간을 맞먹거나 능가할 수 있다는 뜻입니다. 이는 일반 지능과는 다릅니다.
AlphaGo는 사람처럼 세상을 이해한 것이 아니라 바둑을 매우 잘 두도록 학습했습니다. AlphaFold는 ‘생물학을 한다’기보다 서열으로부터 3D 단백질 형태를 놀랍도록 정확하게 예측합니다. 이 시스템들은 좁은 범위의 능력을 가지지만, 그 영향력은 광범위합니다. 왜냐하면 학습 기반 방법이 한때 인간의 고유한 직관이 필요하다고 여겨졌던 문제들을 해결할 수 있음을 보여주기 때문입니다.
그를 대표적 인물로 만든 몇 가지 성취:
이 글은 영웅담이나 과장 광고가 아닙니다. 사실을 명확히 제시하고, 돌파구가 왜 의미가 있는지 맥락을 더하며 실용적 시사점을 뽑아드릴 것입니다—학습 시스템을 어떻게 생각할지, ‘인간 수준’이 실제로 무엇을 의미하는지, 그리고 왜 AI가 전문가 수준으로 성능을 내기 시작하면 윤리와 안전 논의가 자연스럽게 따라오는지 등입니다.
Demis Hassabis의 AI로의 길은 추상적 이론에서 시작된 것이 아닙니다. 게임에서 시작했습니다—아이디어를 시험하고, 안전하게 실수하고, 즉각적 피드백을 얻을 수 있는 구조화된 세계입니다.
어린 시절 그는 체스와 다른 전략 게임에서 두각을 나타냈고, 장기적 계획 수립에 익숙해졌습니다: 단지 ‘좋은 수’를 고르는 것이 아니라 게임을 몇 수 앞까지 형성할 수 있는 수를 선택합니다. 이 습관—단일 행동이 아닌 연속을 생각하는 것—은 현대 AI 시스템이 시간이 흐르는 의사결정을 배우는 방식과 밀접하게 맞닿아 있습니다.
경쟁 게임은 특정한 규율을 요구합니다:
이는 구호가 아니라 실용적 기술입니다. 강한 플레이어는 지속적으로 묻습니다: 어떤 선택지가 있는가? 상대는 다음에 무엇을 할 가능성이 높은가? 틀렸을 때 비용은 얼마인가?
Hassabis는 게임을 ‘만드는’ 일도 했습니다. 게임 개발을 하다 보면 규칙, 인센티브, 시간 제한, 난이도 곡선 등 여러 상호작용하는 요소를 다뤄야 하고, 작은 변화가 전체 경험에 어떻게 파급되는지를 보게 됩니다.
이것이 구체적 의미의 ‘시스템 사고’입니다—성능을 단일 트릭의 결과가 아니라 전체 구성의 결과로 보는 것. 이후 AI 연구에서 이 사고방식은 그대로 나타납니다: 진보는 종종 적절한 데이터, 학습 방법, 연산 자원, 평가와 명확한 목표의 조합에 달려 있습니다.
이 초기 기반(전략적 플레이와 복잡한 규칙 기반 환경 구축)은 그가 나중에 수동으로 코드를 짜는 것보다 상호작용과 피드백을 통한 학습을 강조한 이유를 설명해 줍니다.
Hassabis는 신경과학을 AI의 우회로로 보지 않았습니다. 오히려 더 나은 질문을 던지는 방법으로 삼았습니다: 경험으로부터 배우는 것은 무엇을 뜻하는가? 모든 것을 암기하지 않고 유용한 지식을 어떻게 저장하는가? 미래가 불확실할 때 다음에 무엇을 할지 어떻게 결정하는가?
간단히 말해, 학습은 피드백에 근거해 행동을 갱신하는 것입니다. 아이가 뜨거운 컵을 한 번 만져보고 더 조심하게 되는 것처럼, AI도 행동을 시도하고 결과를 보고 조정할 수 있습니다.
기억은 나중에 도움이 되는 정보를 보관하는 것입니다. 사람은 삶을 비디오처럼 기록하지 않으며, 대신 패턴과 단서를 보관합니다. AI에서 기억은 과거 경험을 저장하거나 내부 요약을 만들거나 정보를 압축해 새로운 상황에서 재사용 가능하도록 하는 것을 의미할 수 있습니다.
계획은 앞을 내다보고 행동을 선택하는 것입니다. 교통 체증을 피하기 위해 경로를 고를 때 여러 가능한 결과를 상상하는 것이 계획입니다. AI에서는 ‘무슨 일이 일어날지 시뮬레이션해보고’ 가장 좋아 보이는 선택지를 고르는 것이 계획에 해당합니다.
뇌를 연구하면 효율적으로 적은 데이터로 배우기, 빠른 반응과 신중한 사고의 균형 등 해결해야 할 문제의 실마리를 제공할 수 있습니다. 다만 연관성을 과장해서는 안 됩니다: 현대의 신경망은 뇌가 아니며, 생물학을 단순히 복제하는 것이 목표는 아닙니다.
가치는 실용적입니다. 신경과학은 지능이 필요로 하는 능력들(일반화, 적응, 불확실성 하의 추론)에 대한 단서를 제공하고, 전산학은 그 단서들을 테스트 가능한 방법으로 바꿉니다.
Hassabis의 배경은 분야를 섞는 것이 어떻게 레버리지를 만들어내는지 보여줍니다. 신경과학은 자연 지능에 대한 호기심을 키우고, AI 연구는 측정·개선·비교 가능한 시스템을 구축하도록 요구합니다. 두 분야가 합쳐지면 추론과 기억 같은 큰 아이디어를 실제로 작동하는 실험에 연결하려는 압력이 생깁니다.
DeepMind는 한 가지 영리한 앱을 만드는 대신 일반 학습 시스템—경험을 통해 개선하며 다양한 문제를 해결할 수 있는 소프트웨어—을 만드는 것을 목표로 설립되었습니다.
그 야망은 회사의 모든 것을 형성했습니다. “다음 달에 어떤 기능을 출시할까?”가 아니라 “본 적 없는 상황에서도 계속 나아질 수 있는 학습 기계는 어떤 모습일까?”라는 질문을 던졌습니다.
DeepMind는 전형적인 소프트웨어 스타트업보다 학계 연구실에 더 가까운 조직이었습니다. 산출물은 단지 제품이 아니라 연구 결과, 실험 결과, 테스트 가능한 방법론이었습니다.
일반 소프트웨어 기업은 종종 출시 최적화(사용자 스토리, 빠른 반복, 수익 목표, 점진적 개선)를 추구합니다.
DeepMind는 발견을 최적화했습니다: 실패할 수 있는 실험을 위한 시간, 어려운 문제에 대한 깊은 탐구, 장기 질문을 중심으로 팀 구성. 그렇다고 엔지니어링 품질을 무시한 것은 아니며, 다만 엔지니어링이 연구 진보를 돕는 역할을 했습니다.
큰 베팅은 측정 가능한 목표로 고정되지 않으면 흐려지기 쉽습니다. DeepMind는 공개적이고 어렵고 평가가 명확한 벤치마크—특히 성공 여부가 명확한 게임과 시뮬레이션—를 선택하는 습관을 들였습니다.
이것은 실용적 연구 리듬을 만들었습니다:
작업이 주목을 받으면서 DeepMind는 더 큰 생태계의 일부가 되었습니다. 2014년 Google이 DeepMind를 인수해 독자적으로 맞서기 어려운 자원과 컴퓨팅 규모를 제공했습니다.
중요한 점은 창립 문화—높은 야망과 엄격한 측정의 결합—가 중심에 남았다는 것입니다. DeepMind의 초기 정체성은 “AI 도구를 만드는 회사”가 아니라 “학습을 어떻게 구축할 수 있는지 이해하려는 장소”였습니다.
강화학습은 AI가 ‘정답을 보여주지 않고’ 직접 행동하며 배우게 하는 방법입니다.
자유투를 가르친다고 상상해보세요. 모든 경우에 대해 완벽한 팔 각도의 스프레드시트를 건네주지 않습니다. 시도하게 하고 결과를 보고 간단한 피드백을 줍니다: “이건 더 근접했네”, “이건 크게 빗나갔어”, “잘된 것을 더 해봐.” 시간이 지나면 조정합니다.
강화학습도 유사합니다. AI는 행동을 취하고 결과를 보고 점수(‘보상’)를 받습니다. 목표는 시간에 걸쳐 더 높은 총 보상을 가져오는 행동을 선택하는 것입니다.
핵심은 시행착오 + 피드백입니다. 느릴 것 같지만, 시행은 자동화될 수 있습니다.
사람은 오후에 200번의 슛을 연습할 수 있지만, AI는 시뮬레이션 환경에서 수백만 번의 ‘슛’을 시행해 인간이 수년간 우연히 발견해야 할 패턴을 학습할 수 있습니다. 이 점이 강화학습이 게임 플레이 AI 중심이 된 이유 중 하나입니다: 게임은 규칙이 명확하고 피드백이 빠르며 성공을 점수로 평가하기 쉽습니다.
많은 AI 시스템은 레이블된 데이터(정답이 달린 예시)를 필요로 합니다. 강화학습은 자체 경험을 만들어 이런 의존을 줄일 수 있습니다.
시뮬레이션을 이용하면 AI는 안전하고 빠른 ‘연습 경기장’에서 연습할 수 있고, 자기대국을 통해 스스로와 경쟁하며 개선될 때마다 더 강한 상대를 만납니다. 인간이 예시를 레이블링할 필요 없이 AI가 스스로 교육 커리큘럼을 생성합니다.
강화학습이 마법은 아닙니다. 종종 막대한 양의 경험(데이터), 고가의 연산, 그리고 신중한 평가를 요구합니다—학습 중에는 ‘이긴’ 것처럼 보여도 약간만 조건이 달라지면 실패할 수 있습니다.
또한 안전 위험이 있습니다: 잘못된 보상을 최적화하면 고영향 상황에서 원치 않는 행동이 생성될 수 있습니다. 목표 설정과 테스트가 학습만큼이나 중요합니다.
2016년 AlphaGo의 이세돌과의 대국은 문화적 전환점이 되었습니다. 바둑은 오랫동안 컴퓨터에게 ‘마지막 요새’로 여겨졌기 때문입니다. 체스는 복잡하지만 바둑은 가능 보드 수가 훨씬 많고, 좋은 수는 즉각적 전술보다 장기적 영향과 패턴 직관에 의존하는 경우가 많습니다.
모든 가능한 미래를 계산하려는 무차별 접근은 조합 폭발에 부딪힙니다. 강한 바둑기사조차 모든 선택을 깔끔한 계산의 연쇄로 설명하지 못합니다; 많은 부분이 경험에서 구축된 판단입니다. 이것이 바둑이 이전 세대의 규칙 기반 프로그램과 잘 맞지 않았던 이유입니다.
AlphaGo는 ‘단지 계산’하지도, ‘단지 학습’하지도 않았습니다. 두 가지를 결합했습니다. 사람들의 대국으로 훈련된(나중에는 자기대국으로도 훈련된) 신경망을 사용해 유망한 수를 파악하고, 그 다음에는 그 직관에 의해 안내되는 집중적 탐색으로 변형을 살폈습니다. 학습된 직관(패턴)과 숙고(앞을 내다봄)를 결합한 것입니다.
그 승리는 기계 학습 시스템이 창의성, 장기 계획, 미묘한 교환을 요구하는 영역을 마스터할 수 있음을 보여주었습니다—사람이 바둑 전략을 손수 인코딩할 필요 없이.
하지만 이는 AlphaGo가 일반 지능을 가졌다는 뜻은 아닙니다. 다른 문제로 기술을 전이할 수 없었고, 사람처럼 자신의 추론을 설명하거나 바둑을 인간의 문화적 맥락으로 이해하지 못했습니다. 특정 과제에 탁월했을 뿐입니다.
대중의 관심이 급격히 높아졌지만 더 깊은 영향은 연구 내부에서 일어났습니다. 이 대국은 하나의 경로를 검증했습니다: 대규모 학습, 연습을 통한 자기개선, 그리고 탐색을 결합하는 것이 복잡한 환경에서(그리고 인간을 능가하는) 실용적 처방이라는 것.
헤드라인이 될 만한 승리는 AI가 ‘해결됐다’고 느끼게 만들 수 있지만, 한 환경에서 빛나는 대부분의 시스템은 규칙이 바뀌면 실패합니다. 돌파구 이후 더 의미 있는 이야기는 좁고 맞춤형 해결책에서 일반화할 수 있는 방법으로 옮겨가는 것입니다.
AI에서 일반화는 특정 훈련 조건이 아닌 새로운 상황에서도 잘 수행하는 능력입니다. 한 시험을 암기한 것과 과목을 진정으로 이해한 것의 차이와 같습니다.
오직 한 조건(같은 규칙, 같은 상대, 같은 환경)에서만 이기는 시스템은 여전히 매우 취약할 수 있습니다. 일반화는 제약을 바꾸면 시스템이 처음부터 다시 시작하지 않고 적응할 수 있는 정도를 묻습니다.
연구자들은 작업 간 전이를 목표로 학습 접근법을 설계하려 합니다. 실용적 예:
요점은 한 모델이 모든 것을 즉시 해야 한다는 것이 아니라, 솔루션의 얼마나 많은 부분이 재사용 가능한지로 진보를 측정한다는 것입니다.
벤치마크는 AI의 표준 테스트로, 팀들이 결과를 비교하고 개선을 추적하며 무엇이 효과적인지 확인하게 해줍니다. 과학적 진보에 필수적입니다.
그러나 벤치마크가 목표가 되면 오해를 낳습니다. 모델은 벤치마크의 특성에 과적합하거나 실제 이해를 반영하지 않는 허점을 이용해 성공할 수 있습니다.
‘인간 수준’은 일반적으로 특정 설정의 특정 지표에서 인간과 맞먹음을 의미합니다—인간 같은 유연성, 판단력, 상식을 가졌다는 뜻은 아닙니다. 한 시스템이 좁은 규칙에서 전문가를 능가하더라도 환경이 바뀌면 곧 약해질 수 있습니다.
중요한 교훈은 유명한 승리 이후에 따라오는 연구 규율입니다: 더 어려운 변형에서 테스트하고, 전이를 측정하며, 방법이 한 단계를 넘어 확장되는지를 증명하는 것입니다.
단백질은 생명체 내부의 작은 ‘기계’들입니다. 아미노산이라는 빌딩 블록의 긴 사슬로 시작해 그 사슬이 꼬이고 접혀 특정한 3D 모양을 이룹니다—마치 종이를 접어 오리가미 모양을 만드는 것과 같습니다.
그 최종 모양이 중요합니다. 왜냐하면 모양이 단백질이 무엇을 할 수 있는지를 거의 결정하기 때문입니다: 산소 운반, 감염과의 싸움, 신호 전달, 조직 구성 등. 문제는 사슬이 생각할 수 있는 가능한 모양의 수가 천문학적이며, 서열만으로 올바른 형태를 추론하기가 매우 어렵다는 점입니다. 수십 년 동안 과학자들은 종종 느리고 비용이 많이 드는 실험실 방법으로 구조를 결정해야 했습니다.
단백질의 구조를 아는 것은 상세한 지도를 얻는 것과 같아서 연구자들이 다음을 할 수 있게 합니다:
이는 즉시 제품으로 이어지지 않더라도 많은 하위 연구들이 의존하는 기초를 개선합니다.
AlphaFold는 기계학습이 많은 단백질 구조를 놀랄 만큼 정확하게 예측할 수 있음을 보여주었습니다. 핵심 기여는 ‘생물학을 해결했다’가 아니라 구조 추정의 신뢰성과 접근성을 크게 높여 연구자들이 프로젝트 초기에 더 나은 출발점을 갖게 했다는 점입니다.
구조를 예측하는 것과 안전한 약을 만드는 것은 다릅니다. 약물 발견에는 타깃 검증, 분자 테스트, 부작용 이해, 임상시험 등 추가적 검증이 필요합니다. AlphaFold의 영향은 연구를 가능하게 하고 가속화하는 것이지, 즉시 치료제를 제공하는 것은 아닙니다.
Hassabis의 작업은 AlphaGo나 AlphaFold 같은 헤드라인 순간으로 설명되지만, 더 재사용 가능한 교훈은 DeepMind가 노력을 겨냥한 방식입니다: 명확한 목표, 측정 가능한 진보, 끊임없는 반복의 밀착 루프.
대부분의 돌파구 AI 프로젝트는 명확한 목표(“이 과제를 해결하자”)와 정직한 점수판으로 시작합니다. 점수판은 인상적인 데모를 실제 능력으로 착각하지 않게 해주기 때문에 중요합니다.
평가가 정해지면 작업은 반복 과정이 됩니다: 구축, 테스트, 실패에서 배움, 접근법 조정, 반복. 루프가 작동한 뒤에야 규모를 키웁니다—더 많은 데이터, 더 많은 연산, 더 긴 훈련 시간, 더 크고 잘 설계된 모델. 너무 일찍 확장하면 혼란만 가속화합니다.
초기 AI 시스템의 많은 부분은 사람들이 명시적으로 규칙을 작성하는 것에 의존했습니다("X이면 Y를 해라"). DeepMind의 성공은 학습된 표현의 이점을 강조합니다: 시스템이 경험으로부터 유용한 패턴과 추상을 스스로 발견합니다.
이것이 중요한 이유는 실제 문제는 가장자리가 지저분하기 때문입니다. 규칙은 복잡성이 커지면 쉽게 무너지는 반면, 학습된 표현은 강한 학습 신호와 신중한 평가와 결합할 때 일반화할 가능성이 큽니다.
DeepMind 스타일의 특징은 학제간 팀워크입니다. 이론이 무엇이 작동할지 방향을 주고, 엔지니어링이 대규모 훈련을 가능하게 하며, 실험이 모두를 정직하게 만듭니다. 연구 문화는 증거를 중시합니다: 결과가 직관과 다르면 팀은 데이터를 따릅니다.
제품 환경에서 AI를 적용하려면 ‘모델을 복사하라’는 말보다는 ‘방법을 복사하라’는 말이 더 유효합니다:
빠르게 내부 도구를 프로토타입으로 만들고 싶다면 Koder.ai 같은 분위기 지향 플랫폼이 프로토타입 작성과 배포를 빨리 할 수 있게 도와줄 수 있습니다: 채팅으로 앱을 설명하면 React 웹 UI를 생성하고 PostgreSQL이 포함된 Go 백엔드를 추가하며, 계획 모드, 스냅샷, 롤백으로 반복할 수 있습니다. 팀용으로는 소스 코드 내보내기와 배포/호스팅 옵션이 있어 “작동하는 프로토타입”에서 “소유 가능한 프로덕션 코드”로 옮기기 쉬워집니다.
Demis Hassabis는 DeepMind를 공동창립한 영국 출신의 과학자이자 기업가입니다. 그는 AlphaGo(게임 플레이)와 AlphaFold(단백질 구조 예측) 같은 AI 돌파구와 밀접하게 연관되어 있으며, 학습 기반 시스템이 특정하고 잘 정의된 과제에서 전문 인간의 성능에 도달하거나 능가할 수 있음을 보여주었습니다.
대개는 특정 벤치마크화된 과제에서의 성능을 의미합니다(예: 바둑 경기에서 승리하거나 단백질 구조를 정확히 예측하는 등).
이는 시스템이 넓은 상식이나 다양한 도메인에 걸쳐 기술을 쉽게 전이하거나 인간처럼 세상을 ‘이해’한다는 뜻은 아닙니다.
DeepMind는 연구실 우선으로 설계되어, 하나의 앱을 내는 대신 일반 학습 시스템에서 장기적 진보를 추구했습니다.
실무적으로는:
강화학습(RL)은 시행착오와 점수 신호(‘보상’)로 배우는 방식입니다. 모든 상황에 대해 정답을 보여주는 대신, 시스템이 행동을 취하고 결과를 관찰한 뒤 장기 보상을 높이도록 행동을 조정합니다.
특히 다음과 같은 경우에 유용합니다:
**자기대국(self-play)**은 시스템이 자기 자신 사본과 겨루며 학습 경험을 생성한다는 뜻입니다.
이점:
바둑은 가능한 위치의 수가 엄청나서 무차별 탐색으로는 해결하기 어렵습니다. AlphaGo는 다음을 결합해 성공했습니다:
이 조합은 사람의 수작업 전략 없이도 복잡한 의사결정 환경에서 최고 수준의 성능을 낼 수 있음을 보여주었습니다.
일반화란 훈련하지 않은 새로운 조건에서도 잘 동작하는 능력입니다(규칙 변경, 새 시나리오, 다른 분포 등).
테스트 방법:
벤치마크는 공통 점수판을 제공하지만, 모델이 벤치마크의 특성에 과적합(overfit)될 수 있습니다.
피하는 방법:
벤치마크는 목표가 아니라 측정 도구로 취급해야 합니다.
AlphaFold는 아미노산 서열로부터 단백질의 3D 구조를 높은 정확도로 예측합니다.
이로써 연구자들은:
그 결과 연구 속도가 빨라지지만, 구조 예측만으로 즉시 의약품이 나오는 것은 아닙니다—약물 개발은 타깃 검증, 분자 테스트, 부작용 분석, 임상시험 등 추가 단계가 필요합니다.
방법을 ‘복사’하려 하지 말고, **방식(method)**을 모방하세요:
시스템이 영향력이 크면 레드팀, 명확한 사용 경계, 단계적 롤아웃을 더하세요.