CNN과 LeNet에서 시작해 현대의 자가지도 학습까지—얀 르쿤의 핵심 아이디어와 이정표를 살펴보고 왜 그의 작업이 오늘날의 AI에 여전히 영향을 미치는지 알아봅니다.

얀 르쿤은 그 아이디어들이 조용히 현대 AI의 “기본 설정”이 된 연구자 중 한 명입니다. Face ID 스타일 잠금해제, 자동 사진 태깅, 또는 이미지에서 무엇이 있는지 인식하는 시스템을 사용해본 적이 있다면, 당신은 르쿤이 대규모에서 작동할 수 있음을 입증한 설계 선택들 속에서 살고 있는 것입니다.
르쿤의 영향력은 단일 발명에 국한되지 않습니다. 그는 실용적인 엔지니어링 사고방식을 AI에 밀어넣는 데 기여했습니다: 실제 데이터에서 유용한 표현을 학습하고, 효율적으로 실행되며, 경험을 통해 개선되는 시스템을 구축하라. 과학적 명확성에 더해 현실 성능을 중시하는 이 조합은 컴퓨터 비전 제품에서 오늘날의 모델 훈련 파이프라인에 이르기까지 모든 곳에 드러납니다.
딥러닝은 규칙을 손수 코딩하는 대신 다층 신경망을 사용해 데이터에서 패턴을 학습하는 넓은 접근법입니다.
자가지도 학습은 학습 전략입니다: 시스템이 데이터 자체에서 학습 과제를 만들어(예: 누락된 부분 예측) 대량의 비표식 데이터를 활용해 학습할 수 있게 합니다. 르쿤은 자가지도 학습을 강력히 지지해왔는데, 이는 인간과 동물이 관찰을 통해 배우는 방식—지속적 지시가 아니라 관찰—과 더 잘 맞기 때문입니다.
이 글은 전기와 핵심 아이디어 투어의 혼합입니다: 초기 신경망 작업이 어떻게 합성곱 네트워크로 이어졌는지, 왜 표현 학습이 중심이 되었는지, 그리고 왜 자가지도 학습이 더 능력 있는 AI로 가는 심각한 경로가 되었는지 다룹니다. 마지막에는 오늘날 AI 시스템을 구축하는 팀을 위한 실무적 시사점을 제시합니다.
한 가지 빠른 메모: “딥러닝의 대부”라는 꼬리표는(종종 르쿤, 제프리 힌튼, 요슈아 벤지오에게 붙음) 비공식적 표현일 뿐입니다. 중요한 것은 기반이 된 아이디어들의 실적입니다.
얀 르쿤의 초기 경력은 하나의 아이디어에 대한 일관된 베팅으로 이해하기 쉽습니다: 컴퓨터는 사람이 손수 설계한 특징 대신 원자료에서 올바른 특징을 학습해야 한다는 것.
1980년대 중후반, 르쿤은 이미지처럼 지저분한 실제 입력에서 패턴을 인식하게 만드는 실용적이고 완강한 문제에 집중했습니다.
1980년대 후반~1990년대 초반, 그는 종단간(end-to-end)으로 훈련할 수 있는 신경망 방법을 밀어붙였습니다—즉, 예제를 입력하면 시스템이 스스로 조정되어 더 나아지는 방식입니다.
이 시기는 이후 그가 잘 알려지게 한 작업들(예: CNN과 LeNet)을 준비했지만, 핵심 이야기는 사고방식입니다: 규칙을 논쟁하기보다 데이터에서 배우기 시작하라.
이전 AI의 많은 부분은 지능을 명시적 규칙으로 인코딩하려 했습니다: “만약 X라면 Y.” 이는 통제된 상황에서는 작동하지만, 필기체 스타일, 사진의 조명 변화, 시점의 미세한 차이 등 현실의 잡음에는 취약합니다.
르쿤의 접근은 통계적 학습 쪽에 무게를 두었습니다: 많은 예제에 대해 모델을 훈련시키고, 인간이 명확히 설명하지 못하는 패턴들까지 모델이 발견하도록 하는 것입니다. “7”이 어떻게 생겼는지 규칙을 길게 만들기보다, 수천 개의 7을 보여주면 모델은 “7”과 “1”, “2” 등을 구분하는 표현을 학습합니다.
초기부터 목표는 단순히 "정답을 맞히는 것"이 아니었습니다. 그것은 유용한 내부 표현—향후 결정을 더 쉽게 만드는 압축되고 재사용 가능한 특징—을 학습하는 것이었습니다. 이 주제는 이후 시야 모델, 더 확장 가능한 훈련, 그리고 궁극적으로 자가지도 학습으로의 추진까지 모든 작업에 흐릅니다.
CNN은 이미지(또는 그리드로 배열된 데이터, 예: 비디오 프레임)에서 패턴을 "보는" 데 설계된 신경망 유형입니다. 그 핵심 트릭은 컨볼루션입니다.
컨볼루션을 작은 패턴 탐지기가 이미지 위를 "슬라이드"하는 것으로 생각하세요. 각 위치에서 그것은 묻습니다: “여기에서 가장자리를 보이나? 모서리나 줄무늬, 질감 같은 것이 보이나?” 동일한 탐지기가 어디서든 재사용되므로 그 패턴이 어디에 나타나든 잡아낼 수 있습니다.
국소 연결: 각 탐지기는 전체 이미지가 아니라 작은 패치를 봅니다. 인접한 픽셀은 보통 관련 있으므로 학습이 쉬워집니다.
가중치 공유: 슬라이딩 탐지기는 모든 위치에서 같은 수치(가중치)를 사용합니다. 이는 파라미터를 크게 줄이고 모델이 동일한 특징을 다른 위치에서도 인식하도록 돕습니다.
풀링(또는 다운샘플링): 특징을 감지한 후 네트워크는 종종 인접한 반응을 요약합니다(예: max나 평균). 풀링은 강한 신호를 보존하고 크기를 줄이며 작은 이동에 대한 관용성을 제공합니다.
이미지는 구조를 가집니다: 가까운 픽들이 의미 있는 형태를 만들고, 같은 객체가 어디에나 나타날 수 있으며, 패턴이 반복됩니다. CNN은 이러한 가정을 아키텍처에 내장해 더 적은 데이터와 연산으로 유용한 시각적 특징을 학습합니다.
CNN은 단순히 "큰 분류기"가 아닙니다. 그것은 특징 생성 파이프라인입니다: 초기 레이어는 에지(edge)를 찾고, 중간 레이어는 이를 부분으로 결합하며, 후반 레이어는 부분들을 객체로 조합합니다.
또한 CNN이 본질적으로 장면을 "이해"하는 것은 아닙니다; 학습 데이터의 통계적 단서를 학습합니다. 그래서 데이터 품질과 평가가 모델 자체만큼 중요합니다.
LeNet은 딥러닝이 단지 흥미로운 이론이 아니라 유용하다는 것을 보여준 초기 명확한 사례 중 하나입니다. 1990년대 르쿤과 동료들이 개발한 LeNet은 특히 수표나 양식 같은 스캔된 문서에서 발견되는 숫자 인식을 위해 설계되었습니다.
높은 수준에서 LeNet은 이미지(예: 숫자가 포함된 작은 그레이스케일 크롭)를 받아 분류(0–9)를 출력했습니다. 지금은 평범해 보이지만 중요했던 이유는 전체 파이프라인을 결합했다는 점입니다: 특징 추출과 분류를 한 시스템으로 학습시켰습니다.
손으로 만든 규칙(예: 에지 감지 → 루프 측정 → 의사결정 트리)에 의존하는 대신, LeNet은 라벨된 예제에서 내부 시각적 특징을 직접 학습했습니다.
LeNet의 영향력은 화려한 데모 때문이 아니라 엔드투엔드 학습 접근법이 실제 비전 작업에서 작동할 수 있음을 보여주었기 때문입니다:
특징과 분류기를 함께 학습시킨다는 이 생각은 이후 딥러닝 성공 사례들로 이어지는 주요 흐름입니다.
오늘날 딥러닝에서 자연스럽게 느껴지는 습관들 중 많은 부분이 LeNet의 기본 철학에서 보입니다:
현대 모델은 더 많은 데이터와 더 많은 연산, 더 깊은 아키텍처를 사용하지만, LeNet은 신경망이 특히 지각 문제에서 실용적 엔지니어링 도구가 될 수 있다는 생각을 정착시켰습니다.
주장에 신중을 기할 필요가 있습니다: LeNet이 "최초의 깊은 네트워크"는 아니었고, 딥러닝 붐을 단독으로 촉발한 것도 아닙니다. 그러나 LeNet은 학습된 표현이 중요한 실무 문제에서 수작업 파이프라인을 능가할 수 있음을 보여준 널리 인정되는 이정표입니다.
표현 학습은 모델이 단지 최종 정답(예: "고양이" 대 "개")만 배우는 것이 아니라, 여러 결정을 더 쉽게 만드는 유용한 내부 특징을 학습해야 한다는 아이디어입니다.
어수선한 옷장을 정리한다고 생각해보세요. 모든 항목을 일일이 라벨링("파란 셔츠", "겨울 코트", "운동화")하는 대신, 먼저 계절별·종류별·사이즈별로 카테고리를 만들면 더 빠르게 찾을 수 있습니다.
좋은 "표현"은 이러한 카테고리와 같습니다: 많은 다운스트림 작업을 더 쉽게 만드는 압축된 설명 방식입니다.
딥러닝 이전에는 팀들이 에지 검출기, 질감 기술자, 세심하게 튜닝된 측정값을 손수 설계하곤 했습니다. 이 접근법은 작동할 수 있지만 두 가지 큰 한계가 있습니다:
르쿤의 핵심 공헌은 합성곱 네트워크를 통해 특징을 데이터에서 직접 학습하면, 문제가 더 지저분하고 다양한 경우에 특히 수동 엔지니어링보다 성능이 뛰어날 수 있음을 보여준 것입니다. 시스템에 무엇을 찾아야 할지 지시하는 대신 예측에 실제로 유용한 패턴을 발견하도록 합니다.
한 번 모델이 강한 표현을 학습하면 이를 재사용할 수 있습니다. 일반적인 시각 구조(에지 → 형태 → 부분 → 객체)를 이해하도록 훈련된 네트워크는 결함 감지, 의료 영상 분류, 제품 매칭 등 새로운 작업에 적은 데이터로 적응할 수 있습니다.
이것이 표현의 실용적 마법입니다: 매번 처음부터 시작하지 않고 입력에 대한 재사용 가능한 "이해"를 쌓을 수 있습니다.
팀에서 AI를 구축한다면 표현 학습은 간단한 우선순위를 제안합니다:
이 세 가지를 잘하면 더 나은 표현과 더 나은 성능이 뒤따르는 경향이 있습니다.
자가지도 학습은 AI가 원자료를 자신만의 "퀴즈"로 바꿔 학습하는 방법입니다. 모든 예제를 사람에게 라벨링(고양이, 개 등)을 받지 않고도, 시스템이 데이터를 활용해 스스로 예측 과제를 만들고 맞추려 하며 학습합니다.
문장을 읽으며 언어를 배우는 것과 비슷합니다: 모든 문장에 교사가 있어 라벨을 달아주지 않아도, 다음에 올 말을 추측하고 맞았는지 확인하면서 패턴을 배울 수 있습니다.
흔한 자가지도 과제 몇 가지:
라벨링은 느리고 비싸며 일관성이 떨어집니다. 자가지도 학습은 조직이 이미 갖고 있는 방대한 비표식 데이터(사진, 문서, 통화 녹음, 센서 로그)를 활용해 일반 표현을 학습할 수 있게 합니다. 그런 다음 더 작은 라벨셋으로 모델을 특정 작업에 맞춰 파인튜닝합니다.
자가지도 학습은 다음 분야의 현대 시스템을 떠받치는 주요 엔진입니다:
감독학습, 비지도학습, 자가지도학습 중 선택은 대부분 한 가지에 달려 있습니다: 대규모로 현실적으로 얻을 수 있는 신호의 종류입니다.
감독학습은 입력과 사람이 제공한 레이블(예: "이 사진에 고양이가 있다") 쌍으로 훈련합니다. 레이블이 정확하면 직접적이고 효율적입니다.
비지도학습은 레이블 없이 구조를 찾습니다(예: 행동에 따른 고객 군집화). 유용하지만 "구조"가 모호할 수 있고 비즈니스 목표에 직접 연결되기 힘들 수 있습니다.
자가지도학습은 실용적 중간지대입니다: 데이터 자체에서 학습 목표를 만들고(누락된 단어 예측 등) 수동 레이블 없이도 학습 신호를 얻습니다.
레이블이 가치 있는 경우:
레이블이 병목이 되는 경우:
일반적인 패턴:
이 방법은 라벨링 부담을 줄이고, 데이터가 적은 상황에서 성능을 개선하며 관련 작업들에 더 잘 전이됩니다.
최선의 선택은 보통 라벨링 역량, 시간에 따른 변화 예상치, 모델을 얼마나 넓게 일반화하길 원하는지에 의해 제약됩니다.
에너지 기반 모델(EBM)은 "라벨링"보다는 "랭킹"에 더 가까운 학습을 생각하게 합니다. 단일 정답을 출력하게 강제하는 대신, EBM은 점수 함수를 학습합니다: 타당한 구성에는 낮은 "에너지"(낮은 점수)를, 타당하지 않은 것에는 높은 에너지를 할당합니다.
"구성(configuration)"은 이미지와 제안된 캡션, 부분 장면과 누락된 객체, 또는 로봇 상태와 제안된 행동 등 다양할 수 있습니다. EBM의 임무는 "이 짝이 어울린다"(낮은 에너지) 또는 "비일관적이다"(높은 에너지)라고 말하는 것입니다.
이 단순한 아이디어는 강력한데, 세상을 단일 라벨로 환원할 필요가 없기 때문입니다. 대안들을 비교하고 최고 점수를 고르는 방식은 사람들이 문제를 해결하는 방식과도 닮아 있습니다: 여러 옵션을 고려하고 그럴듯하지 않은 것을 버리며 개선하는 방식.
연구자들은 EBM이 유연한 학습 목적을 허용하기 때문에 관심을 둡니다. 실제 예제의 에너지를 낮추고(좋은 예를 당기는), 부정적 예의 에너지를 높이는(나쁜 예를 밀어내는) 방식으로 학습시킬 수 있습니다. 이는 입력-출력 매핑을 암기하기보다 데이터의 유용한 구조—규칙성, 제약, 관계—를 학습하도록 장려할 수 있습니다.
르쿤은 이 관점을 "세계 모델(world models)" 같은 더 넓은 목표와 연결시켰습니다: 세계가 어떻게 작동하는지 포착하는 내부 모델. 만약 모델이 무엇이 타당한지를 점수화할 수 있다면, 그것은 후보 미래나 행동 시퀀스를 평가해 현실과 일치하는 것들을 선호함으로써 계획을 지원할 수 있습니다.
르쿤은 최상위 AI 연구자들 가운데 학계와 대형 산업 연구소 모두에서 영향력을 행사한 점이 드뭅니다. 학계와 연구소에서는 그의 작업이 신경망을 손수 설계한 특징의 진지한 대안으로 자리잡게 하는 의제를 설정하는 데 기여했습니다—이 아이디어는 나중에 컴퓨터 비전과 그 밖의 분야에서 기본 접근법이 되었습니다.
연구 분야는 논문만으로 발전하지 않습니다; 무엇을 다음에 만들지, 어떤 벤치마크를 사용할지, 어떤 아이디어를 확장할 가치가 있는지 결정하는 그룹을 통해서도 진전합니다. 팀을 이끌고 연구자를 멘토링함으로써 르쿤은 표현 학습과 이후 자가지도 학습을 일회성 실험이 아니라 장기 프로그램으로 전환하는 데 도움을 주었습니다.
산업 연구소는 몇 가지 실용적 이유로 중요합니다:
메타 AI는 이러한 환경의 대표적 예로, 기초 연구팀이 아이디어를 대규모로 시험하고 모델 선택이 실제 시스템에 어떤 영향을 미치는지 확인할 수 있는 곳입니다.
리더들이 더 나은 표현, 레이블 의존도 감소, 강한 일반화를 향해 연구를 밀면 그 우선순위는 밖으로 퍼집니다. 사진 정리, 번역, 이미지 설명 같은 접근성 기능, 콘텐츠 이해 및 추천 같은 도구들에 영향을 줍니다. 사용자가 "자가지도"라는 용어를 몰라도, 혜택은 모델이 더 빨리 적응하고 주석이 덜 필요하며 실제 환경의 변동을 더 우아하게 처리하는 형태로 나타납니다.
2018년 얀 르쿤은 ACM A.M. 튜링상을 수상했습니다—종종 "컴퓨팅의 노벨상"으로 불리죠. 이 상은 딥러닝이 분야를 어떻게 변형시켰는지를 인정했습니다: 시각이나 음성에 대해 손수 규칙을 코딩하는 대신, 연구자들이 데이터에서 유용한 특징을 학습하도록 훈련시켜 정확도와 실용성을 크게 끌어올렸습니다.
이 상은 제프리 힌튼, 요슈아 벤지오와 공동 수상되었는데, 이는 현대 딥러닝 이야기가 서로 다른 그룹이 각기 다른 조각을 추진하며 때로는 병렬로, 때로는 서로의 작업을 바탕으로 구축되었음을 반영합니다.
한 편의 결정적 논문이나 단일 모델이 아니라, 아이디어들이 긴 시간에 걸쳐 현실 시스템으로 전환된 긴 호를 인정한 것입니다—특히 신경망이 대규모로 훈련 가능해지고 일반화하는 표현을 학습하게 된 점입니다.
수상은 진전이 몇몇 "영웅"을 통해 일어난 것처럼 보이게 할 수 있지만, 현실은 더 공동체적입니다:
따라서 튜링상은 전환점에 대한 스포트라이트로 읽는 것이 가장 좋습니다—공동체가 힘을 합쳐 딥러닝을 신뢰할 수 있고 배포 가능한 기술로 만든 순간입니다.
딥러닝의 성공에도 불구하고 르쿤의 작업은 여전히 활발한 논쟁 속에 있습니다: 오늘날 시스템이 잘하는 것, 여전히 힘들어하는 것, 그리고 그 격차를 줄일 연구 방향들입니다.
몇 가지 반복되는 질문들:
딥러닝은 전통적으로 데이터를 많이 필요로 해왔습니다: 감독학습 모델은 큰 라벨셋이 필요하고 이 라벨들은 비싸게 수집되며 인간 편향을 내재화할 수 있습니다.
일반화도 불균일합니다. 모델은 벤치마크에서는 인상적으로 보이지만 배포 환경의 더 지저분한 상황(새로운 인구, 장치, 워크플로우, 정책)에서는 여전히 고전할 수 있습니다. 이 격차 때문에 팀들은 모니터링, 재학습, 단일 테스트셋 이상의 평가에 많은 투자를 합니다.
자가지도 학습(SSL)은 원자료에 이미 존재하는 구조에서 학습하려고 시도함으로써 레이블 의존도를 줄이려 합니다—누락된 부분 예측, 불변성 학습, 동일 콘텐츠의 서로 다른 뷰 정렬 등.
약속은 간단합니다: 시스템이 방대한 비표식 텍스트·이미지·오디오·비디오에서 유용한 표현을 학습할 수 있다면, 더 작은 라벨셋으로도 특정 작업에 적응할 수 있다는 것입니다. SSL은 또한 여러 문제에 걸쳐 전이 가능한 더 일반적 특징을 학습하도록 장려합니다.
입증된 점: SSL과 표현 학습은 특히 레이블이 부족할 때 성능과 재사용성을 크게 향상시킬 수 있습니다.
아직 연구 중인 점: 신뢰할 수 있게 세계 모델과 계획을 학습하는 것, 조합적 추론(compositional reasoning), 분포 변화 시 실패 방지, 지속적으로 학습하면서 망각 없이 드리프트를 피하는 것 등.
르쿤의 작업은 "최첨단" 그 자체보다 목적에 맞는 적합성(fit for purpose) 이 중요하다는 점을 일깨워줍니다. 제품에서 AI를 구축할 때 이점은 종종 현실 제약을 충족하는 가장 단순한 접근법을 선택하는 데서 옵니다.
모델을 고르기 전에 당신의 맥락에서 "잘함"이 무엇인지 적으세요: 사용자 결과, 실수 비용, 대기시간, 유지보수 부담 등을 포함합니다.
실무적 평가 계획은 보통 다음을 포함합니다:
데이터를 자산으로 대하고 로드맵을 만드세요. 라벨링은 비싸니 전략적으로 접근하세요:
유용한 규칙: 더 큰 모델을 쫓기 전에 초기에 데이터 품질과 커버리지에 투자하라.
CNN은 특히 효율성과 이미지에 대한 예측 가능한 동작이 필요한 많은 비전 작업에서 여전히 강력한 기본(default)입니다(분류, 검출, OCR 유사 파이프라인). 신규 아키텍처가 정확도나 멀티모달 유연성에서 이길 수 있지만, 계산 비용과 복잡성, 배포 노력이 더 클 수 있습니다.
제약이 엄격하면(모바일/엣지, 높은 처리량, 제한된 훈련 예산) 잘 튜닝된 CNN과 좋은 데이터가 늦게 출시된 "더 화려한" 모델보다 낫습니다.
르쿤 작업 전반의 반복되는 주제는 엔드투엔드 사고입니다: 모델뿐 아니라 주위의 파이프라인—데이터 수집, 평가, 배포, 반복—을 포함합니다. 실제로 많은 팀이 아키텍처가 잘못돼 중단되는 것이 아니라, 관리 도구, 라벨링 UI, 검토 워크플로, 모니터링 대시보드 같은 주변 제품 표면을 만드느라 시간이 오래 걸려 중단됩니다.
이때 현대의 "vibe-coding" 도구들이 도움이 될 수 있습니다. 예를 들어, Koder.ai는 채팅 기반 워크플로로 웹, 백엔드, 모바일 앱을 프로토타입하고 배포할 수 있게 해 줍니다—내부 평가 앱(예: React 대시보드와 Go + PostgreSQL 백엔드)이 급히 필요할 때, 빠른 반복 중에 스냅샷/롤백이 필요할 때, 혹은 워크플로가 안정되면 소스 코드를 내보내고 커스텀 도메인으로 배포하고자 할 때 유용합니다. 요점은 ML 연구를 대체하는 것이 아니라, 좋은 모델 아이디어와 사용 가능한 시스템 사이의 마찰을 줄이는 것입니다.
AI 이니셔티브를 계획 중이라면 구현 가이드는 /docs 를, 배포 옵션은 /pricing 을, 더 많은 에세이는 /blog 를 참고하세요.
그는 데이터에서 학습한 표현(learned representations) 이 손으로 만든 규칙보다 실제 잡음 많은 입력(예: 이미지)에서 더 나은 결과를 낼 수 있다는 것을 증명했습니다. 이 사고방식—엔드투엔드 학습, 확장 가능한 성능, 재사용 가능한 특징—이 현대 AI 시스템의 템플릿이 되었습니다.
딥러닝은 다층 신경망을 사용해 데이터를 통해 패턴을 학습하는 넓은 접근법입니다.
자가지도 학습(SSL) 은 모델이 원자료에서 스스로 학습 신호를 만들어내는 훈련 전략입니다(예: 누락된 부분 예측). SSL은 수동 레이블의 필요를 줄이고 재사용 가능한 표현을 만들어내는 경우가 많습니다.
컨볼루션은 이미지 전체를 훑으며 엣지나 텍스처 같은 패턴을 찾는 작은 탐지기(필터)를 "슬라이드"하는 것입니다. 동일한 탐지기를 이미지 전역에서 재사용하므로 학습이 더 효율적이고, 물체가 프레임 안에서 이동해도 인식이 잘 됩니다.
핵심 아이디어 세 가지:
LeNet은 엔드투엔드 신경망이 실제 비즈니스 같은 문제(손글씨 숫자 인식)를 충분히 잘 해결할 수 있음을 보여주었습니다. 특징 추출기와 분류기를 함께 학습시키는 아이디어를 정착시킨 사례입니다.
모델이 단지 최종 정답만 배우는 게 아니라, 여러 다운스트림 작업에 유용한 내부 특징(표현) 을 학습해야 한다는 생각입니다. 강한 표현은 전이학습을 가능하게 하고, 수동으로 만든 특징보다 더 강건한 경우가 많습니다.
라벨이 충분하고 일관된 좁은 작업이라면 감독학습을 사용하세요.
원자료(raw data)는 많고 레이블은 적을 때는 자가지도 사전학습 후 파인튜닝을 고려하세요.
탐색(세그먼트, 이상치 탐지) 이 목표라면 비지도 기법을 사용하고, 이후 다운스트림 지표로 검증하세요.
자가지도 학습 태스크 예시:
사전학습 후 보통 작은 레이블셋으로 파인튜닝 해 목표 작업에 맞춥니다.
에너지 기반 모델(EBM)은 점수 함수(스코어링 함수) 를 학습합니다: 타당한 구성은 낮은 '에너지'(좋은 점수), 부적절한 구성은 높은 '에너지'를 받습니다. 이는 단일 라벨을 강제하지 않고 대안들을 비교·선택하는 데 유용하며, 세계 모델이나 계획(planning)과 연결될 수 있습니다.
핵심 요약:
평가와 데이터 전략을 1순위 엔지니어링 작업으로 다루세요.
일반적으로 자가지도 사전학습 + 파인튜닝 패턴은 다음과 같습니다:
이 방법은 레이블 필요량을 줄이고, 데이터가 적은 상황에서 성능을 향상시키며 관련 작업들에 더 잘 전이됩니다.