Kịch bản luyện lùi phát hành: phục hồi bản phát hành hỏng trong 5 phút

Q: What is a rollback drill, and what problem does it solve?

A rollback drill là một buổi thực hành nơi bạn giả lập một bản phát hành lỗi và làm theo quy trình đã ghi để khôi phục về phiên bản đã biết là tốt. Mục tiêu không phải là “gỡ lỗi nhanh” — mà là làm cho việc khôi phục dịch vụ trở nên lặp lại và bình tĩnh dưới áp lực.

Q: What should we snapshot before every release?

Ít nhất, ghi lại trước mỗi lần phát hành những thứ sau: - ID build đã gửi (version + commit + tag artifact) - Trạng thái migration cơ sở dữ liệu và liệu nó có đảo được không - Cấu hình tại thời điểm deploy (feature flags, env vars, endpoints) với lịch sử thay đổi - Các công tắc routing/hạ tầng (tên miền, chứng chỉ, rules load balancer) - Một ghi chú phát hành ngắn: thay đổi gì + cách xác minh rollback thành công Thay đổi cơ sở dữ liệu là cái bẫy phổ biến — lùi app không có nghĩa sẽ chạy nếu schema đã thay đổi không tương thích.

Q: How should we name snapshots so people can find them during an incident?

Đặt tên để dễ sắp xếp và tìm nhanh, ví dụ: - Bao gồm môi trường + dấu thời gian + phiên bản + commit. Tính nhất quán quan trọng hơn định dạng chi tiết.

Q: Who should do what during a rollback drill?

Phân chia đơn giản, lặp lại cho đội nhỏ: - Incident lead: quyết định và giữ thời gian - Deployer: thực thi các bước lùi - Verifier: chạy các kiểm tra bắt buộc và quan sát tín hiệu - Communicator: đăng cập nhật ngắn cho stakeholders/support Tránh để Deployer kiêm Verifier trong các buổi luyện; bạn cần một người độc lập xác nhận “thật sự hoạt động?”.

Đăng nhập Bắt đầu

Kịch bản luyện lùi phát hành: phục hồi bản phát hành hỏng trong 5 phút | Koder.ai

Tại sao lùi phát hành lại khiến lo lắng (và vì sao luyện tập giúp được)

Một bản phát hành có thể trông ổn khi test, nhưng vỡ ngay trong năm phút đầu có lưu lượng thực. Phần đáng sợ thường không phải lỗi, mà là sự không chắc chắn: gì đã thay đổi, cái gì có thể an toàn để hoàn tác, và liệu việc lùi có làm tình hình tệ hơn không.

Ngay sau khi phát hành, các lỗi thường đơn giản và hiển nhiên. Một nút mới có thể làm trang bị crash trên mobile. Thay đổi backend có thể trả về dạng dữ liệu sai, khiến checkout thất bại. Một tinh chỉnh cấu hình nhỏ có thể phá login, email hoặc thanh toán. Dù sửa dễ, áp lực tăng vì người dùng đang theo dõi và mỗi phút đều cảm thấy đắt giá.

Hoảng loạn bắt đầu khi đường lùi không rõ ràng. Mọi người đặt cùng câu hỏi cùng lúc: Chúng ta có snapshot không? Phiên bản nào trước đó là tốt? Nếu lùi app thì database sao? Ai có quyền làm việc đó? Khi các câu trả lời chưa có sẵn, đội tốn thời gian tranh luận thay vì khôi phục dịch vụ.

Đoán mò trong sự cố có chi phí thực sự. Bạn mất thời gian, người dùng mất niềm tin, và các thay đổi vội vàng có thể gây ra sự cố thứ hai chồng lên sự cố đầu. Kỹ sư cũng bị kéo theo nhiều hướng: gỡ lỗi, thông báo, và ra quyết định.

Một buổi luyện làm thay đổi không khí vì nó thay thế sự không chắc chắn bằng phản xạ có sẵn. Một rollback drill tốt không chỉ là “chúng ta có thể revert code không”. Nó là một quy trình lặp lại: thứ bạn snapshot, thứ bạn phục hồi, thứ bạn kiểm tra, và ai được phép hành động. Sau vài lần luyện, lùi không còn cảm giác là thất bại mà là công cụ an toàn.

Nếu hệ thống triển khai của bạn đã hỗ trợ snapshot và phục hồi (một số nền tảng, bao gồm Koder.ai, xây tính năng này vào luồng phát hành), việc luyện dễ hơn vì “quay về bản biết là tốt” là hành động bình thường, không phải thủ tục khẩn cấp tùy biến. Dù thế nào, mục tiêu giống nhau: khi đến lúc, không ai phải ứng biến.

“Phục hồi trong 5 phút” thực sự nghĩa là gì

“Phục hồi trong 5 phút” không có nghĩa mọi thứ đều hoàn hảo. Nó có nghĩa bạn có thể đưa người dùng trở lại phiên bản hoạt động nhanh, ngay cả khi bản phát hành mới vẫn lỗi.

Ưu tiên dịch vụ trước, sửa lỗi sau. Nếu bạn có thể khôi phục dịch vụ nhanh, bạn mua được thời gian bình tĩnh để tìm bug thực sự.

5 phút là dành cho hành động, không phải tranh luận

Đồng hồ bắt đầu khi bạn đồng ý: “Chúng ta đang lùi.” Nó không bao gồm một cuộc tranh luận dài về việc liệu hệ thống có thể tự phục hồi.

Quyết định trigger lùi trước. Ví dụ: “Nếu lỗi checkout vượt X% trong 3 phút sau deploy, ta lùi.” Khi trigger đạt, bạn làm theo kịch bản.

Thế nào được gọi là “đã phục hồi”

“Đã phục hồi” nên là một tập tín hiệu nhỏ nói rằng người dùng an toàn và hệ thống ổn định. Giữ gọn và dễ kiểm tra:

Hành động người dùng chính hoạt động lại (login, checkout, tìm kiếm, hoặc thứ quan trọng nhất của app bạn)
Tỷ lệ lỗi về gần mức bình thường
Độ trễ trở về phạm vi chấp nhận được
Không có vòng lặp crash hay bão restart

Khi những tín hiệu đó ổn, dừng đồng hồ 5 phút. Mọi thứ khác có thể chờ.

Để buổi luyện trung thực, đánh dấu rõ những gì bạn không làm trong đường lùi 5 phút: gỡ lỗi sâu, thay đổi code hoặc phát hành hotfix, và bất cứ thứ gì trở thành công việc kỹ thuật rộng hơn.

Chọn phương pháp lùi mà đội có thể lặp lại

Lùi chỉ cảm thấy nhanh khi quyết định phần lớn đã được định trước. Chọn một cách tiếp cận phù hợp cho hầu hết sự cố, rồi luyện cho đến khi nó nhàm.

Bài tập của bạn nên trả lời bốn câu hỏi:

Ta lùi hay làm hotfix?
Lùi về phiên bản nào?
Trigger lùi là gì?
Ai có quyền nói “làm đi”?

Lùi hay hotfix: chọn mặc định

Lùi tốt khi bản phát hành mới đang gây hại người dùng hoặc dữ liệu, và bạn đã có phiên bản tốt biết trước để quay về. Hotfix phù hợp khi ảnh hưởng nhỏ, thay đổi cô lập, và bạn tự tin có thể vá an toàn.

Một mặc định đơn giản hiệu quả: nếu người dùng không thể hoàn thành hành động chính (checkout, login, signup) hoặc tỷ lệ lỗi tăng vọt, lùi trước rồi sửa tiến về sau. Dùng hotfix cho vấn đề gây khó chịu nhưng không nguy hiểm.

Chọn mục tiêu lùi

“Mục tiêu” nên là thứ đội có thể lựa nhanh, không cần tranh luận. Hầu hết đội có ba mục tiêu phổ biến:

Phiên bản trước (bản phát hành gần nhất vượt kiểm tra)
Một snapshot triển khai bạn có thể phục hồi
Lùi chỉ cấu hình (feature flag hoặc thay đổi môi trường)

Nếu bạn có snapshot triển khai tin cậy, làm đó là mặc định vì nó lặp lại nhất khi căng thẳng. Giữ lùi cấu hình làm đường đi riêng cho khi mã ổn nhưng thiết lập sai.

Cũng định nghĩa rõ “previous good”: là bản gần nhất hoàn thành các kiểm tra giám sát và không có sự cố đang hoạt động, không phải “bản mà mọi người nhớ”.

Định trigger và quyền quyết định

Đừng chờ họp trong một sự cố. Ghi trước trigger bắt đầu lùi và tuân theo. Trigger điển hình: luồng chính hỏng hơn vài phút, tỷ lệ lỗi hoặc độ trễ vượt ngưỡng, rủi ro dữ liệu (ghi sai, trùng phí), và mọi vấn đề bảo mật/riêng tư do bản phát hành.

Rồi chọn ai có thể phê duyệt lùi. Chọn một vai trò (incident lead hoặc on-call), cộng một người dự phòng. Người khác có thể góp ý nhưng không được chặn. Khi trigger đạt và người phê duyệt nói “lùi”, đội chạy cùng các bước như mọi lần.

Những thứ cần snapshot trước mỗi lần phát hành

Một buổi luyện chỉ hiệu quả nếu bạn có thể quay về trạng thái biết là tốt nhanh. Snapshot không chỉ là “nice to have”. Chúng là bằng chứng về thứ đang chạy, những gì đã thay đổi, và cách quay lại.

Năm thứ cần chụp

Trước mỗi phát hành, đảm bảo bạn có thể lấy những mục này mà không phải lục chat logs:

Build chính xác bạn đã gửi: commit hash, số phiên bản, và artifact build (tag container, bundle, hoặc package).
Trạng thái database và kế hoạch migration: migrations nào đã áp dụng, và liệu chúng có đảo được không. Với thay đổi rủi ro, hãy lấy backup hoặc snapshot có thể phục hồi nhanh.
Cấu hình tại thời điểm deploy: feature flags, biến môi trường, endpoints bên thứ ba, và những gì đã thay đổi. Bí mật nên nằm trong hệ thống an toàn, nhưng bạn vẫn cần bản ghi phiên bản của thay đổi.
Cài đặt hạ tầng và routing: tên miền, chứng chỉ, rules load balancer, và bất kỳ công tắc “traffic đi đâu” nào.
Một ghi chú phát hành ngắn: một câu về thay đổi, một câu về cách xác minh rollback thành công.

An toàn database là cái bẫy thường gặp. Một lùi app nhanh vô dụng nếu database đã kỳ vọng schema mới. Với migration rủi ro, lên kế hoạch phát hành hai bước (thêm trường trước, bắt đầu dùng sau) để lùi vẫn khả thi.

Đặt tên snapshot để tìm trong vài giây

Dùng một quy tắc đặt tên ở mọi nơi, và làm cho nó có thể sắp xếp được:

prod-2026-01-09-1420-v1.8.3-commitA1B2C3

Bao gồm môi trường, dấu thời gian, phiên bản và commit. Nếu công cụ của bạn hỗ trợ snapshot trong UI, dùng cùng quy tắc tên đó để ai cũng có thể định vị điểm phục hồi đúng trong sự cố.

Vai trò: ai bấm gì (và ai chỉ quan sát)

Di chuyển nhanh mà không bị khoá

Giữ quyền truy cập mã nguồn đầy đủ trong khi vẫn có triển khai và lùi phiên bản nhanh hơn.

Xuất Code

Buổi luyện nhanh và bình tĩnh hơn khi mọi người biết việc của mình. Mục tiêu không phải “mọi người cùng nhảy vào”. Là một người đưa quyết định, một người thực hiện, một người xác minh, và một người thông tin.

Với đội nhỏ và vừa, các vai trò sau phù hợp (một người có thể kiêm hai vai, nhưng tránh để Deployer kiêm Verifier trong lúc luyện):

Incident lead (giữ giờ và quyết định): nói ra mục tiêu thành công và gọi lùi.
Deployer (thực thi): thực hiện các bước lùi đúng như ghi và đọc to thao tác họ làm.
Verifier (xác nhận): chạy các kiểm tra bắt buộc và theo dõi tín hiệu chính.
Communicator (giao tiếp): đăng các cập nhật ngắn, đều đặn cho stakeholders và support.

Quyền truy cập quyết định liệu kế hoạch này có thực tế hay chỉ là tài liệu đẹp. Trước buổi luyện, thống nhất ai được phép lùi production, và cách xử lý khẩn cấp.

Một thiết lập đơn giản:

Cho Deployer quyền lùi trong rotation on-call hoặc cửa sổ drill theo lịch.
Incident lead phê duyệt hành động (dù họ không có nút).
Verifier có quyền đọc dashboards và logs.
Thiết lập tùy chọn break-glass (được kiểm toán, hạn chế thời gian).
Kiểm tra quyền trong lúc chuẩn bị drill, không phải trong đồng hồ 5 phút.

Nếu bạn dùng nền tảng hỗ trợ snapshot và rollback (bao gồm Koder.ai), quyết xem ai tạo snapshot, ai phục hồi, và nơi hành động đó được ghi lại.

Từng bước: runbook cho buổi luyện lùi

Một buổi luyện lùi hiệu quả khi nó giống như một diễn tập chữa cháy: cùng bước, cùng câu, cùng chỗ bấm. Mục tiêu không phải hoàn hảo. Mà là bất kỳ ai trực cũng có thể khôi phục phiên bản biết là tốt nhanh, không cần tranh luận.

Trước khi bắt đầu

Chọn một trigger rõ ràng và nói to khi bắt đầu luyện. Ví dụ: “Checkout trả 500 hơn 1 phút” hoặc “Tỷ lệ lỗi gấp 5 lần bình thường ngay sau deploy.” Nói to tránh đội trôi vào gỡ lỗi.

Giữ checklist chuẩn bên cạnh runbook:

Xác nhận bạn thấy tín hiệu sức khỏe trực tiếp (uptime, tỷ lệ lỗi, luồng người dùng chính)
Xác nhận phiên bản đã biết là tốt (tag, build, tên snapshot)
Xác nhận nơi thực hiện lùi (CI/CD, console hosting, UI của nền tảng)
Xác nhận cách tạm dừng deploy mới
Xác nhận ai ghi lại mốc thời gian

Runbook 5 phút

Bắt đầu bấm giờ. Một người nói ra trigger và quyết định: “Chúng ta đang lùi ngay.”
Đóng băng thay đổi. Tạm dừng deploy mới và dừng các chỉnh sửa không cần thiết có thể thay đổi hệ thống giữa lúc lùi.
Chụp snapshot lần cuối (chỉ nếu an toàn và nhanh). Đây là phòng hộ nếu bạn cần tái tạo trạng thái lỗi sau này. Đặt tên rõ và tiếp tục.
Thực hiện hành động lùi chính xác như tài liệu. Đừng ứng biến. Đọc to các hộp xác nhận để người ghi chép nắm được những gì đã xảy ra.
Xác nhận lùi hoàn tất ở một nơi đáng tin cậy. Dùng một màn hình và một tín hiệu duy nhất mỗi lần (lịch sử triển khai, nhãn “current version”, hoặc chỉ báo trạng thái rõ ràng).

Ngay sau hành động, ghi lại những gì quan trọng khi còn tươi:

Thời điểm quyết định (trigger nói ra)
Thời điểm bắt đầu lùi (click/command đầu tiên)
Thời điểm hoàn tất lùi (phiên bản trước hoạt động)
Thời điểm xác minh xanh đầu tiên (kiểm tra chính pass)
Bất kỳ điều bất ngờ nào (quyền thiếu, nút không rõ, bước chậm)

Nếu lùi lâu hơn 5 phút, đừng viện cớ. Tìm bước chậm, sửa runbook, và luyện lại.

Cần xác minh gì sau khi lùi

Thực hành lùi phát hành với snapshot

Xây dựng và phát hành với snapshot để lùi phiên bản là một nút bấm bình thường, không phải tình huống khẩn cấp.

Thử Miễn Phí

Lùi chỉ “thành công” khi người dùng cảm thấy vậy. Bạn không cố chứng minh chỉ là phiên bản cũ đã được triển khai; bạn chứng minh dịch vụ đã dùng được và ổn định.

Giữ việc xác minh nhỏ và lặp lại được. Nếu danh sách hơn năm mục, người ta sẽ bỏ qua khi stress cao.

3–5 kiểm tra bắt buộc

Dùng các kiểm tra chạy nhanh, có kết luận pass/fail rõ ràng:

Người dùng có thể đăng nhập (hoặc đăng ký) và đến màn hình chính không lỗi
Giao dịch cốt lõi hoạt động (checkout/booking/form submit)
Một endpoint API chính trả về 200 và phản hồi trông bình thường
Admin/support có thể làm một thao tác quan trọng (refund/cancel/update status)
Một luồng biên thường hỏng vẫn hoạt động (reset mật khẩu, upload file, tìm kiếm)

Sau các kiểm tra chức năng, liếc vào tín hiệu sức khỏe hệ thống đơn giản nhất bạn tin: tỷ lệ lỗi giảm về gần bình thường và độ trễ ngừng tăng trong vài phút.

Cũng xác nhận các phần ít thấy hơn đang chạy lại: background jobs xử lý, queues đang rút chứ không tăng. Kiểm tra database nhanh và tẻ nhạt: kết nối ổn, không khoá chồng, và app có thể ghi.

Cuối cùng, kiểm tra thế giới bên ngoài nơi quan trọng. Nếu an toàn, chạy test thanh toán, xác nhận email không bounce, và đảm bảo webhooks được chấp nhận (hoặc ít nhất không fail).

Quyết định câu “tất cả rõ ràng”

Soạn trước một câu để không ai ứng biến:

“Rollback complete. Core flows verified (login + checkout). Error rate and latency back to normal. Monitoring for 30 minutes. Next update at 14:30.”

(Bạn có thể dịch hoặc thay đổi theo phong cách nội bộ, nhưng hãy có một câu sẵn.)

Ví dụ: một bản phát hành hỏng và phục hồi sạch trong 5 phút

Là 10:02 sáng thứ Ba. Một bản phát hành mới đi ra, và trong một phút có một phần người dùng không thể đăng nhập. Một số nhận “invalid session”, số khác thấy spinner mãi không dừng. Signups vẫn chạy, nên vấn đề dễ bị bỏ sót lúc đầu.

Tín hiệu đầu thường không phải outage lớn. Là một vết tăng âm thầm: ticket support, giảm tỉ lệ login thành công, vài tin nhắn giận dữ. On-call thấy alert “tỉ lệ login giảm 18% trong 5 phút”, support post: “3 user không thể login sau cập nhật.”

Phục hồi 5 phút (có thể trông như thế nào)

Vì đội đã luyện, họ không tranh luận lâu. Họ xác nhận, quyết và hành động.

10:03: On-call xác nhận thực và phân công incident lead.
10:04: Quyết định lùi. Quy tắc: nếu login hỏng và không có fix an toàn trong 2 phút, lùi.
10:05: Deployer kích hoạt rollback về snapshot biết là tốt trước đó.
10:06: Traffic trở về phiên bản trước. Đội test lại login trên web và mobile.
10:07: Incident lead đăng “Login restored, monitoring for 10 minutes” và nhờ support trả lời người dùng ảnh hưởng.

Những gì được lùi: code ứng dụng và config cho web và API services. Những gì giữ nguyên: database và dữ liệu người dùng.

Nếu phát hành có migration database, quy tắc drill đơn giản: không bao giờ lùi database trong đường 5 phút. Giữ migration tương thích ngược, hoặc tạm dừng và lấy thêm ý kiến trước khi deploy.

Giao tiếp trong và sau khi lùi

Trong lúc lùi, incident lead đăng cập nhật ngắn mỗi vài phút: người dùng thấy gì, hành động gì đang diễn ra, và khi nào cập nhật tiếp. Ví dụ: “Chúng tôi đang lùi bản phát hành cuối để khôi phục login. Cập nhật tiếp sau 2 phút.”

Sau khi lùi, họ đóng vòng: “Login đã trở lại bình thường. Đang tiến hành root cause review. Chúng tôi sẽ chia sẻ nguyên nhân và thay đổi để tránh lặp lại.”

Những lỗi phổ biến khi luyện lùi (và sửa đơn giản)

Rõ vai trò khi có sự cố

Làm cho buổi luyện bớt căng thẳng bằng cách xác định ai phục hồi, ai kiểm tra và ai truyền thông.

Đặt Vai Trò

Buổi luyện nên nhàm chán. Nếu căng thẳng, drill đang phơi bày lỗ hổng thật: quyền truy cập, snapshot thiếu, hoặc các bước chỉ có trong đầu ai đó.

Những lỗi tốn phút

Bạn luyện với quyền giả định, không phải quyền thật. Mọi người phát hiện giữa sự cố họ không thể deploy, không đổi config, hoặc không vào dashboard. Sửa: chạy drill bằng cùng tài khoản và vai trò bạn sẽ dùng trong sự cố.
Snapshot có nhưng không đầy đủ hoặc khó tìm. Team snapshot app nhưng quên env, feature flags, hoặc routing. Hoặc tên snapshot vô nghĩa. Sửa: biến tạo snapshot thành bước phát hành với quy tắc đặt tên và xác minh trong drill rằng snapshot hiển thị và có thể phục hồi nhanh.
Migration database khiến lùi không an toàn. Thay đổi schema không tương thích biến lùi nhanh thành vấn đề dữ liệu. Sửa: ưu tiên migrations bổ sung. Nếu không tránh được thay đổi phá vỡ, lên kế hoạch sửa tiến và gắn nhãn rõ bản phát hành.
Bạn tuyên bố thành công trước khi kiểm tra cảm nhận người dùng. App được deploy nhưng login vẫn hỏng hoặc job kẹt. Sửa: giữ xác minh ngắn nhưng thực, và timebox nó.
Drill quá phức tạp để lặp lại. Quá nhiều công cụ, quá nhiều kiểm tra, quá nhiều ý kiến. Sửa: thu nhỏ drill vào một trang và một chủ sở hữu. Nếu không làm được từ một runbook và một kênh giao tiếp, nó sẽ không xảy ra khi có áp lực.

Một rollback drill tốt là thói quen, không phải màn trình diễn anh hùng. Nếu bạn không thể hoàn thành bình tĩnh, bớt các bước cho đến khi có thể, rồi chỉ thêm những gì thực sự giảm rủi ro.

Checklist nhanh và bước tiếp theo

Buổi luyện lùi hiệu quả khi mọi người theo cùng một checklist một trang. Ghim nó nơi đội thực sự nhìn.

Phiên bản ngắn bạn có thể chạy dưới 10 phút (kể cả chuẩn bị và xác minh):

Trước phát hành: xác nhận điểm lùi (snapshot/version), ghi hành vi “tốt” mong đợi, phân vai (deployer, verifier, comms).
Trigger: tuyên bố “bắt đầu lùi”, bấm giờ, đóng băng deploy mới.
Hành động lùi: phục hồi bản biết là tốt cuối cùng, ghi lại các nút/bấm theo thứ tự.
Xác minh: chạy 2–3 kiểm tra then chốt (login, luồng chính, một tích hợp hoặc kiểm tra API), xác nhận tỷ lệ lỗi giảm.
Kết thúc: tuyên bố “dịch vụ ổn định”, viết ba ghi chú (việc gì hiệu quả, gì làm chậm, cần thay đổi gì), mở lại deploy.

Chạy drills đủ thường để các bước trở nên bình thường. Mặc định hàng tháng là tốt. Nếu sản phẩm thay đổi hàng ngày, luyện hai tuần một lần, nhưng giữ xác minh tập trung vào đường dẫn người dùng hàng đầu.

Sau mỗi drill, cập nhật runbook trong cùng ngày khi còn nhớ. Lưu nó cùng ghi chú phát hành, và thêm dòng “last tested: [ngày]” để không ai tin một quy trình cũ.

Đo lường chỉ những gì giúp cải thiện:

Thời gian lùi (từ tuyên bố đến phục hồi)
Thời gian xác minh (từ phục hồi đến ổn định)
Rõ ràng vai trò (chỗ nào mọi người do dự hoặc làm trùng lặp)
Thông tin thiếu (credentials, quyền, vị trí snapshot)

Nếu đội bạn dùng Koder.ai, xem snapshot và rollback là thói quen: đặt tên snapshot nhất quán, luyện phục hồi trong cùng giao diện sẽ dùng khi on-call, và thêm kiểm tra nhanh domain tùy chỉnh và các tích hợp vào bước verifier. Ghi điều này vào runbook để drill khớp với cách bạn thực sự triển khai.

Câu hỏi thường gặp

What is a rollback drill, and what problem does it solve?

A rollback drill là một buổi thực hành nơi bạn giả lập một bản phát hành lỗi và làm theo quy trình đã ghi để khôi phục về phiên bản đã biết là tốt.

Mục tiêu không phải là “gỡ lỗi nhanh” — mà là làm cho việc khôi phục dịch vụ trở nên lặp lại và bình tĩnh dưới áp lực.

When should we roll back instead of trying a hotfix?

Dùng một trigger đã định sẵn để bạn không phải tranh luận tại thời điểm xảy ra sự cố. Các mặc định thường dùng:

Luồng chính bị hỏng (login/checkout/signup) trong hơn vài phút
Tỷ lệ lỗi hoặc độ trễ vượt ngưỡng đã thỏa thuận
Bất kỳ rủi ro ghi sai dữ liệu, trùng tính phí, hoặc vấn đề bảo mật/riêng tư

Nếu trigger kích hoạt, lùi trước, rồi điều tra sau khi người dùng đã an toàn.

What does “restore in 5 minutes” actually mean?

Nó có nghĩa là bạn có thể đưa người dùng trở lại phiên bản hoạt động nhanh chóng — ngay cả khi bản phát hành mới vẫn còn lỗi.

Trong thực tế, “phục hồi” tức là một tập tín hiệu nhỏ trông ổn trở lại (hành động chính của người dùng hoạt động, tỷ lệ lỗi và độ trễ về gần mức bình thường, không vòng lặp crash).

What should our default rollback target be?

Chọn mục tiêu mà đội có thể chọn trong vài giây, không cần tranh luận:

Phiên bản trước cùng đã vượt các kiểm tra
Một snapshot triển khai đã được đặt tên và có thể phục hồi
Lùi chỉ cấu hình (feature flag/biến môi trường) khi mã ổn

Định nghĩa “previous good” là bản phát hành gần nhất có giám sát bình thường và không có sự cố đang hoạt động — không phải “bản mà mọi người còn nhớ”.

What should we snapshot before every release?

Ít nhất, ghi lại trước mỗi lần phát hành những thứ sau:

ID build đã gửi (version + commit + tag artifact)
Trạng thái migration cơ sở dữ liệu và liệu nó có đảo được không
Cấu hình tại thời điểm deploy (feature flags, env vars, endpoints) với lịch sử thay đổi
Các công tắc routing/hạ tầng (tên miền, chứng chỉ, rules load balancer)
Một ghi chú phát hành ngắn: thay đổi gì + cách xác minh rollback thành công

Thay đổi cơ sở dữ liệu là cái bẫy phổ biến — lùi app không có nghĩa sẽ chạy nếu schema đã thay đổi không tương thích.

How should we name snapshots so people can find them during an incident?

Đặt tên để dễ sắp xếp và tìm nhanh, ví dụ:

prod-YYYY-MM-DD-HHMM-vX.Y.Z-commitABC123

Bao gồm môi trường + dấu thời gian + phiên bản + commit. Tính nhất quán quan trọng hơn định dạng chi tiết.

Who should do what during a rollback drill?

Phân chia đơn giản, lặp lại cho đội nhỏ:

Incident lead: quyết định và giữ thời gian
Deployer: thực thi các bước lùi
Verifier: chạy các kiểm tra bắt buộc và quan sát tín hiệu
Communicator: đăng cập nhật ngắn cho stakeholders/support

Tránh để Deployer kiêm Verifier trong các buổi luyện; bạn cần một người độc lập xác nhận “thật sự hoạt động?”.

What are the minimum checks to verify the rollback actually worked?

Giữ danh sách rất ngắn và kết luận rõ ràng. Các kiểm tra bắt buộc tốt gồm:

Người dùng có thể đăng nhập (hoặc đăng ký) và đến màn hình chính không lỗi
Giao dịch chính hoạt động (checkout/booking/form submit)
Một endpoint API chính trả về 200 và phản hồi trông bình thường
Một thao tác admin/support thiết yếu hoạt động (refund/cancel/update status)
Một luồng biên thường hỏng vẫn hoạt động (reset mật khẩu, upload, tìm kiếm)

Sau các kiểm tra chức năng, liếc vào tín hiệu sức khỏe hệ thống đơn giản nhất bạn tin cậy: tỷ lệ lỗi giảm và độ trễ ngừng tăng trong vài phút. Kiểm tra hàng đợi/background jobs và cơ sở dữ liệu nhanh: kết nối ổn, không khóa chồng chất, app có thể ghi.

How do we handle database migrations so rollbacks stay safe?

Không đưa “lùi database” vào đường dẫn 5 phút. Thay vào đó:

Ưu tiên migration tương thích ngược (bổ sung) để mã cũ vẫn chạy
Dùng phát hành hai bước: thêm trường trước, bắt đầu dùng sau
Nếu migration phá vỡ không tránh được, gắn nhãn rõ bản phát hành: “rollback safe: yes/no” và lên kế hoạch sửa tiến về phía trước

Cách này giữ đường lùi nhanh an toàn và dễ đoán.

How do snapshots and rollback work if we’re using Koder.ai?

Nếu nền tảng của bạn hỗ trợ snapshot và phục hồi như một phần của luồng phát hành, việc luyện dễ hơn vì “quay về bản biết là tốt” là thao tác bình thường.

Trên Koder.ai cụ thể, hãy quyết trước:

Ai có thể tạo snapshot và ai có thể phục hồi
Nơi hành động phục hồi được ghi lại
Những kiểm tra nhanh bạn luôn chạy (bao gồm custom domain và các tích hợp chính)

Dù công cụ thế nào, drill vẫn cần vai trò, trigger, và danh sách xác minh ngắn.