데이터베이스 마이그레이션이 빠른 팀의 병목이 되는 이유

Q: 빠르게 움직이는 팀이 마이그레이션 때문에 느려지는 가장 흔한 기술적 이유는 무엇인가요?

주요 기술적 원인들은 다음과 같습니다: - 테이블 재작성이나 장기 락을 유발하는 연산(타입 변경, 일부 제약 조건, 일부 인덱스 생성 등). - 프로덕션 볼륨에 따라 실행 시간이 늘어나는 대규모 백필. - 앱과 스키마 버전 간의 강한 결합(호환성 창 없음). - 환경 간 드리프트(스테이징이 프로덕션을 충분히 재현하지 못함). - 수동 실행과 불분명한 소유권으로 인한 리뷰·롤아웃 지연.

Q: 확장/수축(expand/contract) 마이그레이션 패턴이란 무엇이며 언제 사용해야 하나요?

큰 폭발식 변경을 피하기 위한 반복 가능한 패턴입니다: - Expand(확장): 기존 쿼리를 망가뜨리지 않는 방식으로 새 스키마 요소를 추가합니다(예: nullable 컬럼, 새 테이블). - Migrate data(데이터 이전): 배치나 백그라운드 작업으로 점진적으로 백필/변환을 수행합니다. - Contract(수축): 모든 것이 새 구조를 사용한다는 확신이 들면 구경로(컬럼·제약·코드 경로)를 제거합니다. 이 패턴은 하나의 위험한 배포를 여러 개의 작은 안전한 단계로 나눕니다.

Q: 긴 락이나 테이블 재작성 없이 NOT NULL 컬럼을 어떻게 추가하나요?

긴 락이나 테이블 재작성 없이 NOT NULL 컬럼을 추가하는 안전한 절차: - 컬럼을 nullable 로 추가합니다(기본값을 주어 재작성되게 하지 않음). - 코드에서 구 필드와 신 필드 둘 다 쓰거나, 읽을 때 폴백을 사용하도록 배포합니다. - 기존 행들을 배치로 백필합니다. - 데이터가 채워진 후에야 NOT NULL 이나 외래키 제약을 추가합니다. - 이후 구 컬럼과 관련 코드를 제거합니다. 이 순서는 락 위험을 최소화하고 데이터 마이그레이션 중에도 배포를 진행 가능하게 합니다.

Q: 프로덕션 부하에서 마이그레이션 실행 시간과 위험을 줄이는 실용적인 방법은 무엇인가요?

프로덕션 부하에서 위험을 줄이고 실행 시간을 줄이는 방법들: - 대규모 작업은 중단 가능하게 분할합니다(예: 1,000–10,000행 단위 배치). - 백필을 백그라운드 잡으로 실행하고 스로틀링·일시정지·재개 기능을 둡니다. - 가능하면 온라인/동시 인덱스 생성 옵션을 사용합니다. - 큰 데이터 업데이트와 스키마 변경을 한 마이그레이션에 섞지 않습니다. 이렇게 하면 예측 가능성이 높아지고 단일 배포가 전체를 막는 확률이 줄어듭니다.

Q: 어떤 CI/CD 검사와 자동화가 '나쁜 마이그레이션'이 프로덕션에 도달하는 것을 막나요?

마이그레이션을 코드처럼 다루고 실패를 사전에 막는 가드레일을 둡니다: - 린팅 : 컬럼 삭제, 무계획 이름 변경, 기본값 없는 non-null 추가 등 위험한 연산을 표지합니다. - 드라이런/계획 미리보기 : 일회용 데이터베이스에서 실행해 문법·권한 문제를 잡습니다. - 종속성/호환성 검사 : 배포할 앱 버전이 현재 스키마 상태와 호환되는지 확인합니다. - 전용 파이프라인 단계로 마이그레이션 실행을 자동화하고 시작/종료·런타임을 로깅합니다. 목표는 "프로덕션에서 실행됐나?"라는 불확실성을 제거하고 CI에서 빠르게 실패하게 하는 것입니다.

Q: 마이그레이션 문제가 발생했을 때 언제 롤백하고 언제 롤포워드해야 하나요?

절차에 집중하세요—단순한 down 스크립트만으로는 충분하지 않습니다. - 일부 변경(파괴적 재작성, 되돌리기 불가능한 타입 변경)은 롤백이 위험하므로 롤포워드 (추가 마이그레이션이나 핫픽스)가 더 안전합니다. - 호환성 창을 유지해 앱 코드는 되돌릴 수 있도록 합니다(스키마는 그대로 두고 코드만 되돌리는 것 가능). - 기능 플래그로 스키마 변경과 동작 변경을 분리해 폭발 반경을 줄입니다. - 중단 기준(에러율, 락 대기, 복제 지연 등)을 정하고 실행 계획을 스테이징에서 연습합니다. 이렇게 하면 데이터베이스 변경을 완전히 멈추지 않으면서도 복구 가능한 배포를 유지할 수 있습니다.

로그인 시작하기

마이그레이션 병목이란 무엇인가\n\n데이터베이스 마이그레이션은 앱이 안전하게 진화할 수 있도록 데이터베이스에 적용하는 모든 변경을 말합니다. 보통은 스키마 변경(테이블·컬럼·인덱스·제약 조건 생성·수정)과 때로는 데이터 변경(새 컬럼 백필, 값 변환, 데이터 구조 이동)을 포함합니다.\n\n마이그레이션이 병목이 된다는 것은 코드보다 릴리스가 더 느려지는 상황을 뜻합니다. 기능은 배포 준비가 됐고 테스트는 통과했으며 CI/CD는 잘 돌아가는데, 팀은 마이그레이션 윈도우, DBA 리뷰, 오래 걸리는 스크립트, 혹은 "피크 시간대엔 배포하지 마라" 같은 규칙을 기다립니다. 릴리스가 막히는 이유는 엔지니어가 빌드를 못 하기 때문이 아니라, 데이터베이스 변경이 위험하고 느리고 예측 불가능하게 느껴지기 때문입니다.\n\n### 릴리스 사이클에서의 "병목" 모습\n\n흔한 패턴은 다음과 같습니다:\n\n- 분할할 수 없는 "큰 마이그레이션" 뒤에 배포가 대기함\n- 작은 변경에도 필수적인 유지보수 윈도우가 요구됨\n- 락, 타임아웃, 복제 지연 우려로 프로덕션 배포가 중단됨\n- 스테이징에서는 잘 동작했지만 실스케일에서 사고를 유발한 마이그레이션\n\n### 이 글이 다루는 것(그리고 다루지 않는 것)\n\n이 글은 데이터베이스 자체가 나쁘다는 이론적 수업이 아닙니다. 대신 마이그레이션이 마찰을 만드는 이유와, 빠르게 움직이는 팀이 이를 줄이기 위해 반복 가능한 패턴으로 어떻게 접근해야 하는지에 대한 실용적인 가이드입니다.\n\n락 동작, 백필, 불일치한 앱/스키마 버전 같은 구체적 원인과 expand/contract 마이그레이션, 안전한 롤포워드, 자동화, 가드레일 같은 실행 가능한 해결책을 제공합니다.\n\n### 대상 독자\n\n주간/일간 혹은 하루에도 여러 번 빈번히 배포하는 제품 팀을 위해 작성했습니다. 데이터베이스 변경 관리가 현대 배포 기대치에 맞춰서 유지되지 않으면 모든 배포가 고스트 이벤트처럼 스트레스가 되는 팀을 대상으로 합니다.\n\n## 마이그레이션이 릴리스 파이프라인의 어디에 놓이는가\n\n데이터베이스 마이그레이션은 “기능을 끝냈다”와 “사용자가 그 혜택을 본다” 사이의 중요 경로에 있습니다. 일반적 흐름은:\n\n코드 변경 → 마이그레이션 → 배포 → 검증.\n\n이 흐름은 보통 직선적입니다. 애플리케이션은 여러 기능을 병렬로 빌드하고 테스트하고 패키징할 수 있지만, 데이터베이스는 거의 모든 서비스가 의존하는 공유 자원이어서 마이그레이션 단계가 작업을 직렬화하는 경향이 있습니다.\n\n### 작업이 쌓이는 지점\n\n빠른 팀도 예측 가능한 병목점에 부딪힙니다:\n\n- 리뷰: 인덱스, 락, 데이터 백필, 쿼리 플랜 등 때문에 스키마 변경은 더 깊은 검토가 필요해 리뷰가 오래 걸리고 소수의 "데이터베이스 가능" 리뷰어에게 돌아갑니다.\n- 실행: 마이그레이션은 단일 프로덕션 DB(또는 소수의 프라이머리 인스턴스)에 대해 실행됩니다. 동시에 실행할 수 있는 수에 한계가 있고 성능에 영향을 줄 수 있습니다.\n- 검증: 단순히 "배포 성공"을 확인하는 것이 아니라 데이터가 정확한지, 앱 버전이 호환되는지, 성능 저하가 없는지를 확인해야 합니다.\n\n이 단계들 중 어느 하나라도 느려지면 뒤에 있는 모든 작업이 대기합니다—다른 PR, 다른 릴리스, 다른 팀까지도.\n\n### 앱 코드보다 병렬화가 어려운 이유\n\n앱 코드는 기능 플래그 뒤에 배포하거나 점진적으로 롤아웃하거나 서비스별로 독립 배포가 가능합니다. 반면 스키마 변경은 공유 테이블과 장기 보존되는 데이터를 건드립니다. 동일한 핫 테이블을 변경하는 두 마이그레이션은 동시에 안전하게 실행될 수 없고, "무관한" 변경도 CPU/I/O/락 같은 자원을 두고 경쟁할 수 있습니다.\n\n### 기다림의 비용\n\n숨겨진 가장 큰 비용은 릴리스 주기입니다. 하나의 느린 마이그레이션이 일일 배포를 주간 배치로 바꾸면 변경의 크기가 커지고, 변경이 실제로 배포될 때 프로덕션 사고가 발생할 확률이 높아집니다.\n\n## 가장 흔한 근본 원인들\n\n마이그레이션 병목은 보통 단일 "나쁜 쿼리" 때문이 아닙니다. 자주 배포하고 데이터베이스가 실볼륨을 담고 있을 때 반복적으로 드러나는 몇 가지 고장 모드의 결과입니다.\n\n### 장기 락과 테이블 재작성\n\n일부 스키마 변경은 DB가 테이블 전체를 재작성하게 하거나 예상보다 강한 락을 걸게 만듭니다. 마이그레이션 자체는 작아 보여도 부작용이 쓰기를 막고 요청이 쌓이며 평범한 배포를 사고로 바꿀 수 있습니다.\n\n전형적인 촉발 요인으로는 컬럼 타입 변경, 검증이 필요한 제약 추가, 정상 트래픽을 막는 방식의 인덱스 생성 등이 있습니다.\n\n### 예측 불가능한 런타임의 대규모 백필\n\n데이터 백필(기존 행에 값 설정, 정규화 해제, 새 컬럼 채우기)은 테이블 크기와 데이터 분포에 따라 확장됩니다. 스테이징에서 몇 초 걸리던 작업이 프로덕션에서는 몇 시간 걸릴 수 있고, 라이브 트래픽과 경쟁하면 더더욱 그렇습니다.\n\n가장 큰 위험은 불확실성입니다. 실행 시간을 자신 있게 추정할 수 없다면 안전한 배포 창을 계획할 수 없습니다.\n\n### 스키마와 애플리케이션 버전 간의 결합\n\n새 코드가 즉시 새 스키마를 요구하거나(혹은 구 코드가 새 스키마에서 실패하는 경우) 릴리스는 "올오어나씽"이 됩니다. 이 결합은 유연성을 제거합니다: 앱과 DB를 독립적으로 배포할 수 없고 중간에 멈출 수 없으며 롤백이 복잡해집니다.\n\n### 환경 드리프트(개발/스테이징/프로덕션 불일치)\n\n작은 차이—누락된 컬럼, 추가 인덱스, 수동 핫픽스, 다른 데이터 볼륨—이 마이그레이션 동작을 환경마다 다르게 만듭니다. 드리프트는 테스트에 거짓 확신을 주고 프로덕션이 사실상 첫 리허설이 되게 합니다.\n\n### 수동 단계와 불분명한 소유권\n\n마이그레이션에 누군가가 스크립트를 실행하고 대시보드를 지켜보며 타이밍을 조정해야 한다면 그것은 일상 업무와 경쟁합니다. 소유권이 애플리케이션 팀인지 DBA인지 플랫폼인지 불분명하면 리뷰가 미뤄지고 체크리스트가 건너뛰어지며 "나중에 하자"가 기본값이 됩니다.\n\n## 빠르게 움직이는 팀에서 보이는 증상\n\n마이그레이션이 팀을 늦추기 시작하면 첫 신호는 보통 에러가 아니라 작업 계획·배포·복구 방식의 패턴입니다.\n\n### 달력에 "마이그레이션 윈도우"가 생깁니다\n\n빠른 팀은 코드가 준비되면 곧바로 배포합니다. 병목이 생긴 팀은 데이터베이스가 가능할 때만 배포합니다.\n\n"오늘 밤까지 배포 못 해" 또는 "저트래픽 시간까지 기다려" 같은 말이 나오고 릴리스가 조용히 배치 작업이 됩니다. 시간이 지나면서 사람들은 변경을 묶어 두어 "윈도우를 가치 있게" 만들기 때문에 더 크고 위험한 배포가 생깁니다.\n\n### 핫픽스가 대기 상태가 됩니다\n\n프로덕션 이슈가 발생했고 수정은 작은데, 미처리된 마이그레이션이 파이프라인에 있어서 배포가 불가능한 상황이 생깁니다.\n\n긴급함과 결합이 충돌하는 지점입니다: 애플리케이션 변경과 스키마 변경이 너무 얽혀 있어서 무관한 수정도 기다려야 합니다. 팀은 핫픽스를 지연시키거나 데이터베이스 변경을 서두르는 선택을 강요받습니다.\n\n### 여러 팀이 동일 테이블에서 충돌합니다\n\n여러 스쿼드가 핵심 테이블을 수정하고 있다면 조정이 지속적인 일이 됩니다. 다음 같은 현상을 보게 됩니다:\n\n- 마이그레이션 적용 불가로 PR이 계속 실패함\n- "이 테이블은 누가 책임이지?"라는 질문이 회의마다 등장\n- 마이그레이션 파일에서의 마지막 순간 머지 충돌\n\n모두 기술적으로 맞더라도 변경 순서를 정하는 오버헤드가 실제 비용이 됩니다.\n\n### 롤백이 일상화되거나 "재배포로 해결" 루프에 빠집니다\n\n빈번한 롤백은 마이그레이션과 앱이 모든 상태에서 호환되지 않았다는 신호입니다. 팀은 배포 → 오류 발생 → 롤백 → 수정 → 재배포를 반복하고, 때로는 여러 번 반복합니다.\n\n이 패턴은 신뢰를 소모시키고 승인 절차를 느리게 만들며 수동 단계와 추가 서명을 촉발합니다.\n\n### 한 명의 DB 전문가가 릴리스 게이트가 됩니다\n\n단 한 사람(혹은 소수)이 모든 스키마 변경을 리뷰하고 마이그레이션을 수동으로 실행하거나 데이터베이스 관련 모든 일에 페이지를 받게 됩니다.\n\n증상은 단순한 작업 부하가 아니라 의존성입니다. 그 전문가가 없을 때 릴리스가 느려지거나 멈추고, 다른 사람들은 필요하지 않으면 데이터베이스를 건드리지 않게 됩니다.\n\n## 프로덕션이 모든 것을 더 어렵게 만드는 이유\n\n프로덕션은 단순히 더 많은 데이터를 가진 스테이징이 아닙니다. 실사용 트래픽, 백그라운드 잡, 사용자의 예측 불가능한 행동이 동시에 일어나는 라이브 시스템입니다. 이 지속적인 활동은 마이그레이션의 동작을 바꿉니다: 테스트에서 빠르던 작업이 활성 쿼리 뒤에 쌓이거나 그들을 블록할 수 있습니다.\n\n### 작은 마이그레이션도 큰 워크플로우를 막을 수 있습니다\n\n많은 "작은" 스키마 변경도 락을 요구할 수 있습니다. 기본값과 함께 컬럼을 추가하거나 테이블을 재작성하거나 자주 사용하는 테이블을 건드리면 메타데이터 업데이트나 데이터 재작성 동안 행 또는 전체 테이블에 락을 걸 수 있습니다. 해당 테이블이 체크아웃, 로그인, 메시징 같은 중요 경로에 있다면 짧은 락도 시간초과로 이어질 수 있습니다.\n\n### 인덱스·제약·타입 변경의 위험성\n\n인덱스와 제약 조건은 데이터 품질과 쿼리 속도를 지키지만, 생성이나 검증은 비용이 큽니다. 바쁜 프로덕션 DB에서는 인덱스 빌드가 사용자 트래픽과 CPU·I/O를 경쟁해 모든 걸 느리게 할 수 있습니다.\n\n컬럼 타입 변경은 특히 위험한데, 일부 DB에서는 전체 재작성(full rewrite)을 유발할 수 있습니다(예: 정수 타입 변경이나 문자열 길이 재조정). 대형 테이블에서 이 재작성은 몇 분에서 몇 시간까지 걸리고 예상보다 긴 락을 유지할 수 있습니다.\n\n### 다운타임 대 성능 저하\n\n"다운타임"은 사용자가 기능을 전혀 사용할 수 없는 상태—요청이 실패하고 페이지가 에러가 나는 경우입니다.\n\n"성능 저하"는 더 교활합니다: 사이트는 떠 있지만 모든 것이 느려집니다. 큐가 밀리고 재시도가 쌓이며, 마이그레이션이 기술적으로는 성공했더라도 시스템 한계를 넘겨 사고를 유발할 수 있습니다.\n\n## 지속적 배포를 위한 마이그레이션 설계\n\n지속적 배포는 어떤 변경이든 언제든 안전하게 배포할 수 있을 때 가장 잘 작동합니다. 데이터베이스 마이그레이션은 종종 이 약속을 깨는데, 그 이유는 "한 번에 큰 절차"를 강요하기 때문입니다: 앱은 정확히 스키마가 변경되는 시점에 배포되어야 합니다.\n\n해결책은 이전 코드와 새 코드가 롤링 배포 중 동일한 DB 상태를 대상으로 동시에 실행될 수 있도록 마이그레이션을 설계하는 것입니다.\n\n### 2단계 패턴: 확장 → 데이터 마이그레이션 → 수축\n\n실용적 접근법은 expand/contract 패턴입니다:\n\n1. 확장(Expand): 기존 쿼리를 깨뜨리지 않는 방식으로 새 스키마 요소를 도입합니다.\n2. 데이터 이전(Migrate data): 백필이나 변환을 점진적으로 수행합니다(보통 작은 배치로).\n3. 수축(Contract): 모든 트래픽이 새 구조를 사용한다는 확신이 생기면 옛 컬럼·제약·코드 경로를 제거합니다.\n\n이렇게 하면 하나의 위험한 릴리스를 여러 개의 작고 낮은 위험의 단계로 바꿀 수 있습니다.\n\n### 롤링 배포 중 호환성\n\n롤링 배포 동안 일부 서버는 구 코드를, 일부 서버는 새 코드를 실행할 수 있습니다. 마이그레이션은 두 버전이 동시에 살아있을 수 있음을 전제로 해야 합니다.\n\n즉:\n\n- 새 코드는 후방호환되어야 합니다(구 스키마에서도 동작).\n- 구 코드는 새 스키마의 "추가 요소"를 견딜 만큼 전방호환되어야 합니다(예: 새 nullable 컬럼).\n\n### 구체적 예: 추가 → 백필 → 강제(제약 추가)\n\nNOT NULL 컬럼을 기본값으로 바로 추가해 테이블 전체를 재작성하는 대신 이렇게 하세요:\n\n- 먼저 nullable 컬럼을 추가합니다.\n- 코드에서 구/신 필드 둘 다 쓰도록 배포하거나, 읽을 때 폴백을 둡니다.\n- 기존 행을 안전하게 배치로 백필합니다.\n- 데이터가 모두 채워진 후에만 NOT NULL·외래키 같은 제약을 추가합니다.\n- 마지막으로 구 컬럼과 관련 코드를 제거합니다.\n\n이런 설계로 스키마 변경은 더 이상 배포를 막는 장애물이 아니라 일상적인, 배포 가능한 작업이 됩니다.\n\n## 위험과 실행 시간을 줄이기 위한 기법들\n\n빠른 팀은 보통 마이그레이션 작성이 아니라 프로덕션 부하에서의 동작 때문에 막힙니다. 목표는 스키마 변경을 예측 가능하고 짧게 끝나며 재시도해도 안전하게 만드는 것입니다.\n\n### 추가적이고 저영향인 변경을 우선하라\n\n새 테이블, 새 컬럼, 새 인덱스 같은 추가(additive) 변경을 우선하세요. 이는 보통 재작성 없이 기존 코드를 유지하게 해 배포 중 안전성을 높입니다.\n\n무엇인가를 변경하거나 제거해야 할 때는 단계적 접근을 고려하세요: 새 구조를 추가하고, 읽기/쓰기를 양쪽 모두 지원하도록 코드를 배포한 뒤 나중에 정리합니다. 이렇게 하면 위험한 "한번에 전환"을 피할 수 있습니다.\n\n### 큰 작업을 작은 중단 가능한 조각으로 쪼개라\n\n수백만 행 재작성 같은 대규모 업데이트가 병목의 근원이 됩니다.\n\n- 대규모 업데이트를 배치 단위로 쪼갭니다(예: 1,000–10,000행).\n- 백필은 배포의 크리티컬 경로 밖에서 백그라운드 잡으로 실행하세요.\n- 인덱스·제약 작업은 차단을 최소화하는 옵션(동시성/온라인)을 우선 사용하세요.\n\n### 마이그레이션을 재실행 가능하고 압력에 견디게 만들어라\n\n프로덕션 사고는 실패한 마이그레이션 하나가 여러 시간의 복구로 이어지는 경우가 많습니다. 마이그레이션을 멱등성(idempotent) 있게 만들고 부분 진행을 허용하세요.\n\n실용적 예시:\n\n- 생성/삭제 전에 존재 여부를 확인합니다.\n- 긴 백필은 진행 기록을 남겨 재개 가능하게 합니다.\n- 큰 데이터 변경과 스키마 변경을 같은 마이그레이션에 섞지 마세요.\n\n### 시간 제한, 측정, 그리고 한도 강제\n\n마이그레이션 소요 시간을 1급 지표로 다루세요. 스테이징에서 프로덕션과 유사한 데이터로 실행 시간을 측정하고 타임박스를 정하세요.\n\n마이그레이션이 예산을 초과하면 쪼개세요: 스키마 변경은 우선 배포하고 무거운 데이터 작업은 제어된 배치로 옮기세요. 이렇게 하면 CI/CD와 마이그레이션이 반복적인 프로덕션 사고의 근원이 되는 것을 막을 수 있습니다.\n\n## CI/CD의 자동화와 가드레일\n\n마이그레이션이 "특별" 취급되고 수동으로 처리되면 큐가 됩니다: 누군가가 기억하고 실행하고 성공을 확인해야 합니다. 해결책은 자동화 그 자체가 아니라, 위험한 변경을 프로덕션에 도달하기 전에 잡아내는 가드레일이 있는 자동화입니다.\n\n### 배포 전 점검으로 나쁜 마이그레이션을 조기에 막기\n\n마이그레이션 파일을 코드처럼 다루고 병합 전에 검사를 통과시키세요.\n\n- 마이그레이션 린팅: 컬럼 삭제, 계획 없는 이름 변경, 기본값 없는 non-null 추가 같은 위험 연산을 표지하고 명명/순서 규약을 강제합니다.\n- 드라이런/플랜 미리보기: 일회용 DB에서 마이그레이션을 실행해 문법이나 권한, SQL 방언 문제를 잡습니다.\n- 종속성 검사: 배포될 앱 버전이 스키마 상태와 호환되는지 검증합니다(예: 앱이 아직 없는 컬럼을 요구하지 않는지).\n\n이 검사들은 CI에서 빠르게 실패하고 명확한 출력을 제공해 개발자가 추측 없이 문제를 고칠 수 있게 합니다.\n\n### 실행 자동화와 명확한 가시성\n\n마이그레이션 실행은 파이프라인의 1급 단계여야 하며 부수 업무가 되어선 안 됩니다.\n\n좋은 패턴은: 빌드 → 테스트 → 앱 배포 → 마이그레이션 실행(또는 호환성 전략에 따라 순서 변경)이며 다음을 포함합니다:\n\n- 마이그레이션 시작/끝, 버전, 실행 시간 로그를 남기는 전용 잡\n- 어떤 것이 실행되었는지에 대한 단일 출처(빌드 번호, 커밋 SHA)\n- 누구나 상태를 확인할 수 있는 방법(파이프라인 UI, 릴리스 노트, 내부 /deployments 페이지)

\n목표는 "마이그레이션이 실행되었나?"라는 질문을 릴리스 중에 제거하는 것입니다.\n\n빠르게 내부 앱을 제작(특히 React + Go + PostgreSQL 스택)하는 경우, 플랫폼이 변경 계획 → 배포 → 복구 루프를 명확히 해주면 도움이 됩니다. 예를 들어 는 변경에 대한 계획 모드와 스냅샷·롤백을 제공해 고빈도 릴리스 시 여러 개발자가 같은 제품 면을 반복할 때 운영 마찰을 줄일 수 있습니다.\n\n### 스키마 변경 동안의 관측성(Observability)\n\n마이그레이션은 일반 앱 모니터링으로 잡히지 않는 방식으로 실패할 수 있습니다. 특정 신호를 추가하세요:\n\n- 마이그레이션 지속 시간, 락 대기, 복제 지연에 대한 알림\n- 배포 중 DB CPU/I/O와 장기 실행 쿼리 패널 대시보드\n- 백필에 대한 구조화된 로그(처리된 행 수, 처리율, 예상 시간)\n\n### "앱 배포"와 "무거운 백필 실행" 분리\n\n마이그레이션에 대규모 백필이 포함된다면 이를 명시적이고 추적 가능한 단계로 만드세요. 앱 변경을 먼저 안전하게 배포한 뒤, 속도 제한·일시정지·재개 기능이 있는 제어된 잡으로 백필을 실행합니다. 이렇게 하면 릴리스를 진행시키면서도 수시간짜리 작업을 마이그레이션 체크박스 안에 숨기지 않을 수 있습니다.\n\n## 롤백, 롤포워드, 그리고 더 안전한 릴리스\n\n마이그레이션은 공유 상태를 바꾸므로 위험하게 느껴집니다. 좋은 릴리스 계획은 "되돌리기"를 단일 SQL 파일이 아니라 절차로 다룹니다. 목표는 예기치 않은 상황이 발생해도 팀이 계속 움직일 수 있게 하는 것입니다.\n\n### 실제 롤백 계획에 포함돼야 할 것들\n\n"down" 스크립트는 한 조각일 뿐—종종 가장 신뢰할 수 없는 것 중 하나입니다. 실용적 롤백 계획은 보통 다음을 포함합니다:\n\n- 백업, 시점 복구(point-in-time recovery), 명확한 보존 창.\n- 이전 앱 버전이 새 스키마에 대해(또는 그 반대로) 일정 기간 동작 가능한가?\n- 누가 접근 권한을 갖는지, 성공을 어떻게 검증할지, 무엇을 모니터링할지(에러율, 쓰기 실패, 복제 지연).\n- 롤아웃 중단 및 되돌리기 판단을 위한 구체적 임계값.\n\n### 롤백이 안전하지 않을 때(롤포워드가 더 나은 경우)\n\n파괴적 데이터 마이그레이션, 행을 재작성하는 백필, 되돌릴 수 없는 타입 변경 등 일부 변경은 깔끔하게 롤백할 수 없습니다. 이런 경우 가 더 안전합니다: 호환성을 복원하고 데이터를 수정하는 후속 마이그레이션이나 핫픽스를 배포하세요.\n\nexpand/contract 패턴은 여기서도 유용합니다: 일정 기간 동안 이중 읽기/쓰기 상태를 유지하고 옛 경로를 제거하기 전에 확신을 가집니다.\n\n### 기능 플래그와 점진적 롤아웃\n\n마이그레이션과 동작 변경을 분리하면 폭발 범위를 줄일 수 있습니다. 기능 플래그로 새로운 읽기/쓰기를 점진적으로 활성화하고, 비율 기반·테넌트별·코호트별 롤아웃을 하세요. 지표가 급등하면 즉시 기능을 끌 수 있어 데이터베이스를 바로 건드리지 않고도 빠르게 대응할 수 있습니다.\n\n### 스테이징에서 롤백 연습\n\n사고가 나기 전까지 롤백 단계가 불완전하다는 것을 발견하지 마세요. 스테이징에서 현실적인 데이터 볼륨과 타이밍(runbook, 모니터링 대시보드)으로 연습하세요. 연습은 명확한 질문에 답해야 합니다: "우리는 안정 상태로 빠르게 돌아갈 수 있고 그걸 증명할 수 있는가?"\n\n## 팀 프로세스: 소유권, 리뷰, 일정 관리\n\n마이그레이션이 "누군가 다른 사람의 문제"로 취급되면 빠른 팀은 금방 막힙니다. 가장 빠른 해결책은 보통 새로운 도구가 아니라 데이터베이스 변경을 배달의 정상적인 일부로 만드는 명확한 프로세스입니다.\n\n### 병목을 만들지 않는 소유권 정의\n\n모든 마이그레이션에 대해 명확한 역할을 지정하세요:\n\n- 보통 변경의 영향과 사용자 영향을 가장 잘 아는 기능 개발자.\n- 성능과 안전성 문제를 발견하도록 훈련된 팀원(항상 "DB 전문가"만은 아님).\n- 진짜 고위험 변경을 위한 작은 로테이션(온콜 또는 플랫폼 팀).\n\n이렇게 하면 단일 DB 담당자 의존도를 줄이면서도 팀에 안전망을 제공합니다.\n\n### 가벼운 마이그레이션 리뷰 체크리스트 사용\n\n체크리스트는 실제로 사용될 만큼 짧게 유지하세요. 좋은 리뷰는 보통 다음을 다룹니다:\n\n- 읽기/쓰기를 잠깐이라도 막는가?\n- 몇 행을 건드리고 얼마나 오래 걸릴 수 있는가?\n- 롤아웃 중에 구/신 앱 버전이 스키마에서 동작 가능한가?\n- 롤백이 불가능할 경우 롤포워드로 안전하게 복구할 수 있는가?\n\n이 체크리스트를 PR 템플릿으로 저장해 일관되게 사용하도록 하세요.\n\n### 위험한 작업은 의도적으로 일정에 넣기\n\n모든 마이그레이션이 회의를 필요로 하는 건 아니지만, 고위험 작업은 조정이 필요합니다. 간단한 "마이그레이션 윈도우" 프로세스 또는 공유 캘린더를 만들어 다음을 포함하세요:\n\n- 지정된 소유자,\n- 선호 시간(지원 커버리지가 가장 좋은 시간),\n- PR과 롤아웃 단계 링크.\n\n안전 점검과 자동화에 대한 더 깊은 분해를 원하면 /blog/automation-and-guardrails-in-cicd의 CI/CD 규칙과 연동하세요.\n\n## 병목을 측정하고 재발을 막기\n\n마이그레이션이 릴리스를 느리게 한다면 이를 다른 성능 문제처럼 다루세요: "느리다"의 정의를 정하고 꾸준히 측정하며 개선을 가시화하세요. 그렇지 않으면 한 번의 고통스러운 사고를 고치고 다시 같은 패턴으로 돌아갑니다.\n\n### 문제를 예측하는 지표 추적\n\n작은 대시보드(혹은 주간 리포트)로 시작해 다음 질문에 답하세요: "마이그레이션이 얼마나 많은 배달 시간을 소비하나?" 유용한 지표는:\n\n- 배포당 마이그레이션 실행 시간 합계와 지난 30–90일의 p95.\n- 마이그레이션 실패·타임아웃·수동 개입이 필요한 배포의 비율.\n- 마이그레이션 실행 중이거나 대기·위험으로 판단되어 지연된 릴리스 수.\n\n느려졌던 이유(테이블 크기, 인덱스 빌드, 락 경쟁, 네트워크 등)를 간단히 메모하세요. 목표는 완전한 정확성이 아니라 반복적 문제를 식별하는 것입니다.\n\n### 사고와 근접 실패 기록(그리고 규칙으로 전환)\n\n프로덕션 사고만 문서화하지 마세요. 근접 실패도 기록하세요: "핫 테이블이 1분 동안 락됐다", 릴리스가 연기됐다, 롤백이 기대만큼 동작하지 않았다 같은 사례입니다.\n\n간단한 로그를 유지하세요: 무슨 일이 있었는지, 영향, 기여 요인, 다음번에 취할 예방 조치. 시간이 지나면 이 항목들이 마이그레이션의 안티패턴 목록이 되고 기본값을 개선하는 근거가 됩니다(예: 언제 백필이 필요한지, 언제 변경을 쪼개야 하는지 등).\n\n### 공통 마이그레이션 유형에 대한 플레이북 유지\n\n빠른 팀은 결정 피로를 줄이기 위해 표준화합니다. 좋은 플레이북은 안전한 레시피를 포함합니다:\n\n- nullable 컬럼 추가 및 백필 방법\n- 최소 방해로 인덱스 생성하는 패턴\n- 컬럼 삭제/이름 변경 시 호환성 단계\n- 대규모 데이터 마이그레이션(배치, 스로틀링, 체크포인트)\n\n플레이북을 릴리스 체크리스트에 링크해 계획 단계에서 사용되게 하세요.\n\n### 마이그레이션 히스토리가 자체 병목이 되지 않게 하라\n\n일부 스택은 마이그레이션 테이블과 파일이 늘어나면서 느려집니다. 시작 시간 증가, diff 검사 지연, 도구 타임아웃이 느껴지면 주기적 유지보수(오래된 마이그레이션 기록 정리·아카이브)를 계획하고 새 환경의 클린 재구축 경로를 검증하세요.\n\n## 빠른 속도로 DB 변경을 관리하기 위한 도구 선택\n\n도구가 잘못된 마이그레이션 전략을 완전히 고치진 못하지만, 적절한 도구는 많은 마찰을 제거할 수 있습니다: 수동 단계 감소, 명확한 가시성, 압박 상황에서도 더 안전한 릴리스.\n\n### 마이그레이션 도구에서 '좋음'의 기준\n\n데이터베이스 변경 관리 도구를 평가할 때 배포 중 불확실성을 줄이는 기능에 우선순위를 두세요:\n\n- expand/contract 패턴, 온라인 인덱스 생성, 안전한 백필(혹은 이에 대한 가이드와 검사).\n- 어떤 것이 어디에서 언제 실행되었는지에 대한 명확한 상태(환경·버전별).\n- 프로덕션 실행을 게이트할 수 있으면서 모든 릴리스를 티켓 큐로 만드는 건 피함.\n- 누가 승인했고 누가 실행했는지, 무엇이 바뀌었는지, 정확한 스크립트 로그의 불변 기록.\n\n### 기능 목록보다 적합성이 더 중요하다\n\n배포 모델부터 시작해 역으로 도구 요구를 정하세요:\n\n- 작은 서비스들을 많이 배포한다면 서비스 범위의 마이그레이션을 지원하고 팀 간 결합을 피하는 도구가 필요합니다.\n- 하나의 공유 DB가 있다면 더 강한 조정, 종속성 추적, 단계적 롤아웃 기능이 필요합니다.\n- CI/CD를 많이 쓴다면 도구가 파이프라인과 어떻게 통합되는지 확인하세요: 하위 환경에서는 자동 실행하고 프로덕션에서는 승인 필요하게 만들 수 있나요?\n\n또한 운영 현실을 확인하세요: 사용 중인 DB 엔진의 한계(락, 장기 DDL, 복제)와 맞는지, 온콜 팀이 빠르게 대응할 수 있는 출력을 내는지 검증하세요.\n\n플랫폼 접근 방식으로 앱을 빌드·배포한다면, 빌드 시간 단축만큼 복구 시간 단축 기능을 확인하세요. 예를 들어 는 소스 코드 내보내기와 호스팅/배포 워크플로우를 지원하며, 스냅샷/롤백 모델이 고빈도 릴리스 시 빠르고 신뢰할 수 있는 "알던 상태로 복구"에 유용할 수 있습니다.\n\n### 파일럿으로 작게 시작하라\n\n조직 전체 워크플로를 한꺼번에 바꾸지 마세요. 한 서비스나 변경이 잦은 한 테이블에 도구를 파일럿 적용하세요.\n\n성공 기준을 미리 정의하세요: 마이그레이션 실행 시간, 실패율, 승인 소요 시간, 잘못된 변경에서 얼마나 빨리 복구할 수 있는지. 파일럿이 "릴리스 불안"을 줄이면서 관료주의를 늘리지 않으면 확대하세요.\n\n더 많은 옵션과 롤아웃 경로를 검토하려면 /pricing을 보거나 /blog에서 실용 가이드를 더 찾아보세요.

자주 묻는 질문

데이터베이스 마이그레이션이 단순한 배포 단계가 아니라 “병목”이 되는 이유는 무엇인가요?

마이그레이션이 애플리케이션 코드보다 배포를 더 지연시킬 때 이를 '병목'이라고 부릅니다. 예를 들어 기능은 준비됐지만 유지보수 시간, 오래 걸리는 스크립트, 전문 리뷰어 대기, 혹은 프로덕션 락/복제 지연에 대한 두려움 때문에 배포가 미뤄지는 경우입니다.

핵심 문제는 예측 가능성과 위험성입니다. 데이터베이스는 공유 자원이라 병렬화가 어렵고, 마이그레이션 단계가 파이프라인을 직렬화하는 일이 잦습니다.

CI/CD 배포 흐름에서 마이그레이션은 어디에서 가장 큰 마찰을 만들나요?

일반적인 파이프라인은 보통 이렇게 흐릅니다: 코드 → 마이그레이션 → 배포 → 검증.

코드 작업은 병렬로 진행될 수 있어도 마이그레이션 단계는 그렇지 않은 경우가 많습니다.

리뷰는 소수의 전문가에게 돌아가느라 지연됩니다.
영향력 큰 변경은 하나의 프라이머리(또는 소수의 프라이머리)에서만 안전하게 적용할 수 있습니다.
검증은 단순히 "배포 성공"이 아니라 데이터 정확성과 성능 확인을 포함합니다.

빠르게 움직이는 팀이 마이그레이션 때문에 느려지는 가장 흔한 기술적 이유는 무엇인가요?

주요 기술적 원인들은 다음과 같습니다:

테이블 재작성이나 장기 락을 유발하는 연산(타입 변경, 일부 제약 조건, 일부 인덱스 생성 등).
프로덕션 볼륨에 따라 실행 시간이 늘어나는 대규모 백필.
앱과 스키마 버전 간의 강한 결합(호환성 창 없음).
환경 간 드리프트(스테이징이 프로덕션을 충분히 재현하지 못함).
수동 실행과 불분명한 소유권으로 인한 리뷰·롤아웃 지연.

스테이징에서는 잘 되던 마이그레이션이 왜 프로덕션에서 사고를 일으키나요?

프로덕션은 단순히 데이터가 더 많은 스테이징이 아닙니다. 실제 읽기/쓰기 트래픽, 백그라운드 잡, 예측 불가능한 쿼리 패턴이 존재하기 때문에 마이그레이션 동작이 달라집니다:

"작은" 변경도 핫 테이블에 락을 요구할 수 있습니다.
인덱스나 제약 조건 작업은 CPU·I/O를 사용자 트래픽과 경쟁하게 만듭니다.
스테이징에서는 빠르던 작업이 경합, 복제 지연, 데이터 분포 차이 때문에 프로덕션에서 느려질 수 있습니다.

따라서 실제 스케일 테스트는 종종 프로덕션에서 처음으로 일어납니다.

롤링 배포 중 앱/스키마 호환성은 구체적으로 무엇을 요구하나요?

롤링 배포 동안 구버전과 신버전의 애플리케이션이 동시에 동작할 수 있도록 하는 것이 목표입니다.

실전에서 요구되는 사항:

새 코드가 구형 스키마를 견딜 수 있어야 합니다(후방호환성).
구 코드가 새 스키마를 관대하게 받아들일 수 있어야 합니다(보통 새 컬럼을 nullable로 추가하는 식).

이렇게 하면 스키마와 앱이 정확히 같은 순간에 바뀌어야 하는 "올오어나씽" 상황을 피할 수 있습니다.

확장/수축(expand/contract) 마이그레이션 패턴이란 무엇이며 언제 사용해야 하나요?

큰 폭발식 변경을 피하기 위한 반복 가능한 패턴입니다:

Expand(확장): 기존 쿼리를 망가뜨리지 않는 방식으로 새 스키마 요소를 추가합니다(예: nullable 컬럼, 새 테이블).
Migrate data(데이터 이전): 배치나 백그라운드 작업으로 점진적으로 백필/변환을 수행합니다.
Contract(수축): 모든 것이 새 구조를 사용한다는 확신이 들면 구경로(컬럼·제약·코드 경로)를 제거합니다.

이 패턴은 하나의 위험한 배포를 여러 개의 작은 안전한 단계로 나눕니다.

긴 락이나 테이블 재작성 없이 NOT NULL 컬럼을 어떻게 추가하나요?

긴 락이나 테이블 재작성 없이 NOT NULL 컬럼을 추가하는 안전한 절차:

컬럼을 nullable로 추가합니다(기본값을 주어 재작성되게 하지 않음).
코드에서 구 필드와 신 필드 둘 다 쓰거나, 읽을 때 폴백을 사용하도록 배포합니다.
기존 행들을 배치로 백필합니다.
데이터가 채워진 후에야 NOT NULL이나 외래키 제약을 추가합니다.
이후 구 컬럼과 관련 코드를 제거합니다.

이 순서는 락 위험을 최소화하고 데이터 마이그레이션 중에도 배포를 진행 가능하게 합니다.

프로덕션 부하에서 마이그레이션 실행 시간과 위험을 줄이는 실용적인 방법은 무엇인가요?

프로덕션 부하에서 위험을 줄이고 실행 시간을 줄이는 방법들:

대규모 작업은 중단 가능하게 분할합니다(예: 1,000–10,000행 단위 배치).
백필을 백그라운드 잡으로 실행하고 스로틀링·일시정지·재개 기능을 둡니다.
가능하면 온라인/동시 인덱스 생성 옵션을 사용합니다.
큰 데이터 업데이트와 스키마 변경을 한 마이그레이션에 섞지 않습니다.

이렇게 하면 예측 가능성이 높아지고 단일 배포가 전체를 막는 확률이 줄어듭니다.

어떤 CI/CD 검사와 자동화가 '나쁜 마이그레이션'이 프로덕션에 도달하는 것을 막나요?

마이그레이션을 코드처럼 다루고 실패를 사전에 막는 가드레일을 둡니다:

린팅: 컬럼 삭제, 무계획 이름 변경, 기본값 없는 non-null 추가 등 위험한 연산을 표지합니다.
드라이런/계획 미리보기: 일회용 데이터베이스에서 실행해 문법·권한 문제를 잡습니다.
종속성/호환성 검사: 배포할 앱 버전이 현재 스키마 상태와 호환되는지 확인합니다.
전용 파이프라인 단계로 마이그레이션 실행을 자동화하고 시작/종료·런타임을 로깅합니다.

목표는 "프로덕션에서 실행됐나?"라는 불확실성을 제거하고 CI에서 빠르게 실패하게 하는 것입니다.

마이그레이션 문제가 발생했을 때 언제 롤백하고 언제 롤포워드해야 하나요?

절차에 집중하세요—단순한 down 스크립트만으로는 충분하지 않습니다.

일부 변경(파괴적 재작성, 되돌리기 불가능한 타입 변경)은 롤백이 위험하므로 롤포워드(추가 마이그레이션이나 핫픽스)가 더 안전합니다.
호환성 창을 유지해 앱 코드는 되돌릴 수 있도록 합니다(스키마는 그대로 두고 코드만 되돌리는 것 가능).
기능 플래그로 스키마 변경과 동작 변경을 분리해 폭발 반경을 줄입니다.
중단 기준(에러율, 락 대기, 복제 지연 등)을 정하고 실행 계획을 스테이징에서 연습합니다.

이렇게 하면 데이터베이스 변경을 완전히 멈추지 않으면서도 복구 가능한 배포를 유지할 수 있습니다.