কেন ব্যাকআপ, পুনরুদ্ধার পরীক্ষা এবং ডিআর শেষ পর্যন্ত উপেক্ষিত হয়

Q: ব্যাকআপ, রিস্টোর পরীক্ষা এবং দুর্যোগ পুনরুদ্ধারের (DR) মধ্যে বাস্তব ভেদাভেদ কী?

ব্যাকআপ হলো ডেটা/সিস্টেমের কপিগুলো যেগুলো আলাদা স্থানে সংরক্ষিত থাকে। রিস্টোর পরীক্ষা হলো সেই ব্যাকআপ থেকে আপনি সত্যিই পুনরুদ্ধার করতে পারবেন কি না—এর প্রমাণ । দুর্যোগ পুনরুদ্ধার (DR) হলো অপারেশনাল প্ল্যান —মানুষ, ভূমিকা, অগ্রাধিকার, নির্ভরশীলতা এবং যোগাযোগ—যা গুরুতর ঘটনার পর ব্যবসা চালু করতে সাহায্য করে। একটি দল ব্যাকআপ থাকতে পারলেও রিস্টোর পরীক্ষায় ব্যর্থ হতে পারে; আবার রিস্টোর পাস করলেও, সমন্বয় এবং অ্যাক্সেস না থাকায় DR তে ব্যর্থ হতে পারে।

Q: আমি কীভাবে স্টেকহোল্ডারদের কাছে RTO এবং RPO সরল ভাষায় বোঝাব?

- RTO (Recovery Time Objective): সর্বাধিক কতক্ষণ আপনি ডাউন থাকতে পারেন যখন প্রভাব সহ্য করা যাবে না। - RPO (Recovery Point Objective): সর্বাধিক কত ডেটা (সময়ের পরিমাণ) আপনি হারাতে পারুন। এগুলোকে ব্যবসায়িক উদাহরণে বলুন (অর্ডার, টিকিট, পে-রোল)। যদি পেমেন্টস ৪ ঘন্টার মধ্যে অনলাইনে দরকার হয়, RTO=৪ ঘন্টা; যদি কেবল সর্বশেষ ৩০ মিনিটের অর্ডারই হারাতে পারেন, RPO=৩০ মিনিট।

Q: একটি ছোট দলের জন্য বাস্তবসম্মত DR প্রোগ্রাম তৈরির প্রথম ধাপ কী?

একটি সহজ recovery map দিয়ে শুরু করুন: - সিস্টেম ও ডেটা তালিকা (SaaS, ডাটাবেস, এন্ডপয়েন্ট, আইডেন্টিটি, ফাইল শেয়ার)। - পুনরুদ্ধার সিদ্ধান্তের জন্য নামকৃত একজন দায়ী নির্দিষ্ট করুন। - নির্ভরশীলতাগুলো ডকুমেন্ট করুন (“A কে B লাগে”)। - এক লাইন লিখুন: কিভাবে আপনি এটি পুনরুদ্ধার করবেন । তারপর সিস্টেমগুলোকে tier করুন (Critical / Important / Nice-to-have) এবং “Day 1 minimal operations” পুনরুদ্ধার অর্ডার নির্ধারণ করুন।

Q: যদি সবাই গুরুত্বপূর্ণ জানে, তবুও টিমগুলো কেন রিস্টোর টেস্টিং এড়িয়ে যায়?

কারণ এটি অসুবিধাজনক এবং প্রায়ই খারাপ সংবাদ দেয়: - এটি সমন্বয়, সময় এবং নিরাপদ পরিবেশ চাই। - একটি ব্যর্থ টেস্ট তাৎক্ষণিক ফলো-আপ কাজ তৈরি করে (পার্মিশন ঠিক করা, কী পাওয়া, অনুপস্থিত উপাদান), যেটা কেউ আগে থেকে করতে চায় না। - অনেক প্রতিষ্ঠান “ব্যাকআপ সাফল্য” মাপেন, “রিস্টোর সাফল্য” নয়—তাই টেস্টিং অপশনাল মনে হয়। রিস্টোর টেস্টিংকে এককালীন প্রকল্প না বলে নিয়মিত অপারেশনাল কাজ হিসেবে দেখুন।

Q: কোন রিস্টোর টেস্টিং ক্যালেন্ডার বাস্তবসম্মত এবং বজায় রাখা সহজ?

একটি টেকসই ক্যালেন্ডার ব্যবহার করুন: - মাসিক স্পট রিস্টোর (৩০–৬০ মিনিট): নিরাপদ লোকেশনে কয়েকটি এলোমেলো আইটেম রিস্টোর করুন। - ত্রৈমাসিক ড্রিল (অর্ধ-দিন থেকে একদিন): আরও বাস্তবসম্মত আউটেজ সিমুলেট করুন এবং end-to-end রিকভারি যাচাই করুন। প্রতিটি টেস্টে কি রিস্টোর করা হলো, কোন ব্যাকআপ সেট ব্যবহার করা হলো, time-to-usable এবং যে ব্যর্থতা দেখা গেল (ফিক্সসহ) লগ করুন।

Q: কোন মেট্রিকগুলো সত্যিই দেখায় যে আমরা পুনরুদ্ধারযোগ্য?

কিছু মেট্রিক যা “আমরা পুনরুদ্ধারযোগ্য কি না” এটা দেখায়: - রিস্টোর সাফল্য হার (সিস্টেম টিয়ারের দ্বারা) - টাইম-টু-রিস্টোর (শুরু → সার্ভিস ব্যবহারযোগ্য) - কভারেজ: কোন ক্রিটিকাল সিস্টেমের গত ৯০ দিনে টেস্ট করা রিস্টোর আছে এগুলোকে আপনার RTO/RPO এর সাথে যুক্ত করুন যাতে স্পষ্ট হয় কখন লক্ষ্য পূরণ হচ্ছে না।

Q: আমরা কিভাবে ব্যাকআপগুলোকে র্যানসমওয়্যার এবং সমন্বিত অ্যাডমিন অ্যাকাউন্ট থেকে রক্ষা করব?

ব্লাস্ট রেডিয়াস কমান এবং ব্যাকআপ ধ্বংস করা কঠিন করুন: - প্রোডাকশনের অ্যাডমিন অ্যাকাউন্ট থেকে ব্যাকআপ ক্রেডেনশিয়াল আলাদা রাখুন - লিস্ট-অফ-প্রিভিলেজ ব্যাকআপ রোল ব্যবহার করুন - যেখানে সম্ভব, immutable বা write-once প্রটেকশন ব্যবহার করুন - উচ্চ ঝুঁকির ক্ষেত্রে অন্তত এক কপি অফলাইন/এয়ার-গ্যাপ রাখা বিবেচনা করুন মনে রাখুন: আক্রমণকারীরা প্রাথমিকভাবে ব্যাকআপ কনসলকেই টার্গেট করতে পারে।

Q: কিভাবে আমরা DR ডকুমেন্টকে এমন একটি প্লেবুকে পরিবর্তন করব যা আউটেজে লোকজন বাস্তবে চালাতে পারে?

একটি কার্যকর ও পৌঁছনীয় প্লেবুক বানান: - এক পেজের “প্রথম ঘণ্টা” রানবুক তৈরি করুন (কী করে, কোন অর্ডারে, কী ‘ডান’ বলা হবে) - কমিউনিকেশন রুল প্রিসেট করুন: আপডেট ক্যালেন্ডার, একক সোর্স অব ট্রুথ, কাস্টমার নোটিশ ট্রিগার (উদাহরণ: /status) - কঠিন সিদ্ধান্তগুলো আগেই লিখে রাখুন: failover বনাম restore, restore বনাম clean rebuild - প্লেবুক এমন জায়গায় রাখুন যা আউটেজে পৌঁছনীয় থাকবে (অফলাইন কপি + ব্রেক-গ্লাস অ্যাক্সেস)

লগ ইন শুরু করুন

এই আরটিকেলে ব্যাকআপ, টেস্টিং, এবং DR দ্বারা কী বোঝানো হয়েছে

টিমগুলো প্রায় বলেই উঠতে পারে ‘আমাদের ব্যাকআপ আছে’, কিন্তু প্রায়শই তারা তিনটি আলাদা অনুশীলন একত্র করে বলছে। এই আর্টিকেলে সেগুলো আলাদা করা হয়েছে কারণ প্রতিটি আলাদাভাবে ভেঙে পড়ে।

ব্যাকআপ (কপি)

ব্যাকআপ হচ্ছে আপনার ডেটা (এবং কখনো কখনো পুরো সিস্টেমের) অতিরিক্ত কপি যা অন্য কোথাও সংরক্ষণ করা থাকে—ক্লাউড স্টোরেজ, অন্য সার্ভার, অথবা অফলাইন ডিভাইস। একটি ব্যাকআপ কৌশল ঠিক করে: কি ব্যাকআপ হবে, কত ঘন ঘন, কোথায় রাখা হবে, এবং কত দিন রাখা হবে।

রিস্টোর পরীক্ষা (প্রমাণ)

রিস্টোর পরীক্ষা হলো সেই অভ্যাস যেখানে নিরাপত্তার জন্য নিয়মিতভাবে ব্যাকআপ থেকে ডেটা বা সিস্টেম পুনরুদ্ধার করা হয়। এটা “আমরা মনে করি আমরা রিস্টোর করতে পারব” এবং “গত সপ্তাহে রিস্টোর করেছিলাম এবং সেটা কাজ করেছে”—এর মধ্যে পার্থক্য। টেস্টিং আরো নিশ্চিত করে যে আপনি আপনার RTO এবং RPO লক্ষ্য পূরণ করতে পারবেন:\n

RTO (Recovery Time Objective): কত দ্রুত আপনার কিছু অনলাইনে ফিরে দরকার\n- RPO (Recovery Point Objective): কত সাম্প্রতিক ডেটা হারিয়ে গেলে সহ্য করা যাবে

দুর্যোগ পুনরুদ্ধার (DR) (অপারেশন চালু রাখার পরিকল্পনা)

দুর্যোগ পুনরুদ্ধার পরিকল্পনা হলো সমন্বিত প্লেবুক যা গুরুতর ঘটনার পর ব্যবসাকে পুনরায় চালু করার জন্য দরকার। এটি ভূমিকা, অগ্রাধিকার, নির্ভরশীলতা, অ্যাক্সেস এবং যোগাযোগ কভার করে—শুধু ব্যাকআপ কোথায় আছে তাই নয়।

‘অতি দেরিতে’ দেখতে কেমন লাগে

‘অতি দেরিতে’ অর্থ যখন প্রথম বাস্তব পরীক্ষা ঘটে একেবারে আউটেজ, র‍্যানসম নোট, বা ভুল করে মুছে ফেলার সময়—যখন চাপ বেশি এবং সময় মূল্যবান।

এই আর্টিকেলটি ছোট এবং মাঝারি টিমগুলোর জন্য বজায় রাখা যাবার মতো ব্যবহারিক ধাপগুলোর উপর গুরুত্ব দেয়। লক্ষ্য স্পষ্ট: কম অপ্রত্যাশিত ঘটনা, দ্রুত পুনরুদ্ধার, এবং সমস্যা হলে ক্লিয়ার মালিকানা।

সাধারণ প্যাটার্ন: “আমাদের ব্যাকআপ আছে” কিন্তু রিস্টোর হয় না

বেশিরভাগ কোম্পানি সরাসরি ব্যাকআপ উপেক্ষা করে না। তারা ব্যাকআপ টুল কিনে, ড্যাশবোর্ডে “সফল” কাজ দেখে, এবং মনে করে সব ঠিক আছে। অবাক হওয়া পরে ঘটে: প্রথম বাস্তব রিস্টোর ঘটে আউটেজের সময়, র‍্যানসমওয়্যার ইভেন্টে, অথবা জরুরি “গত মাসের ওই ফাইলটা চাই” অনুরোধে—আর তখনই ফাঁকগুলো দেখা দেয়।

ব্যাকআপ ঠিক আছে দেখায়—তবুও ব্যবহার করলে কাজ নাও করতে পারে

একটি ব্যাকআপ সম্পন্ন হলেও তা ব্যবহারযোগ্য নাও হতে পারে। সাধারণ কারণগুলো খুবই সহজ: অ্যাপ্লিকেশন ডেটা অনুপস্থিত, আর্কাইভ করাপ্ট, এনক্রিপশন কী ভুল স্থানে সংরক্ষিত, অথবা রিটেনশন নিয়ম যেটাই প্রয়োজন সেকথা মুছে দিয়েছে।

ডেটা থাকলেও রিস্টোর ব্যর্থ হতে পারে কারণ কোনো মানুষ ধাপগুলো অনুশীলন করেনি, ক্রেডেনশিয়াল পরিবর্তিত হয়েছে, অথবা রিস্টোর প্রত্যাশার চেয়ে অনেক ধীর। ‘আমাদের ব্যাকআপ আছে’ ধীরে ধীরে হয়ে যায় ‘আমাদের ব্যাকআপ ফাইল কোথাও আছে’।

যেটা কেবল ডকুমেন্ট হিসেবে থাকা DR প্ল্যান

অনেক টিমের কাছে একটি দুর্যোগ পুনরুদ্ধার প্ল্যান থাকে কারণ সেটা অডিট বা বীমা প্রশ্নপত্রের জন্য প্রয়োজন ছিল। কিন্তু চাপের সময় একটি ডকুমেন্টই পরিকল্পনা নয়—কার্যকরীতা হলো। যদি রানবুক কিছু ব্যক্তির স্মৃতির উপর নির্ভর করে, একটি নির্দিষ্ট ল্যাপটপের উপর বা এমন সিস্টেম অ্যাক্সেসের উপর যা ডাউন, তাহলে সেটা বিশৃঙ্খল পরিস্থিতিতে টিকে থাকবে না।

অজানা (বা কাল্পনিক) RTO/RPO এবং অস্পষ্ট মালিকানা

তিনজন স্টেকহোল্ডারকে recovery target জিজ্ঞেস করলে প্রায়ই তিনটি ভিন্ন উত্তর পাওয়া যায়—বা কোনো উত্তরই নেই। যদি RTO এবং RPO নির্ধারিত না থাকে, এগুলো ডিফল্টভাবে হয় “যত দ্রুত সম্ভব”, যা লক্ষ্য নয়।

মালিকানাও আরেকটি নীরব ব্যর্থতা। পুনরুদ্ধার নেতৃত্ব কার—IT, সিকিউরিটি, নাকি অপারেশনস? যদি এটা স্পষ্ট না হয়, ঘটনার প্রথম ঘন্টা হস্তান্তরের তর্কে কেটে যাবে পুনরুদ্ধার প্রচেষ্টার বদলে।

কেন মানুষ কম-দৃশ্যমান ঝুঁকি উপেক্ষা করে

ব্যাকআপ, রিস্টোর টেস্টিং, এবং DR হল ক্লাসিক “নীরব ঝুঁকি”: যখন সেগুলো কাজ করে, কিছুই ঘটে না। কোনো দৃশ্যমান জয় নেই, ব্যবহারকারী মুখী উন্নতি নেই, এবং সরাসরি আয়ের উপর কোনো প্রভাব নেই। তাই এগুলো পিছনে পড়ে যাওয়া সহজ—এমনকি এমন প্রতিষ্ঠানেও যা বিশ্বাস করে যে নির্ভরযোগ্যতা জরুরি।

“আমরা পরে দেখব”-মনের(psychology) পিছনে কারণ

কিছু পূর্বানুমিত মানসিক শর্টকাট টিমগুলোকে অবহেলায় ঠেলে:

অপ্টিমিজম বায়াস: আউটেজ ও ডেটা ক্ষতি মনে হয় অন্য কোম্পানির সমস্যা। আপনার টিম স্মার্ট, ক্লাউড প্রোভাইডার নির্ভরযোগ্য, এবং “আমাদের বড় কোনো ইনসিডেন্ট হয়েছে না।”
অবেভিলিটি বায়াস: যদি শেষ ফায়ার ড্রিল অনেক বছর আগে হয়ে থাকে, জরুরিতা অনুভব করা কঠিন। সাম্প্রতিক ঘটনা জরুরিতা তৈরি করে; দীর্ঘ শান্তি কমপ্লাসেন্সি।
প্রেজেন্ট বায়াস: এই স্প্রিন্টে ফিচার রিলিজ তৎক্ষণাৎ পুরস্কৃত। আগামী ত্রৈমাসিকে সম্ভাব্য সংকট রোধ করা উদযাপন করা কঠিন, এবং সময় যদি সংকুচিত হয় তা কাটতে ইচ্ছে হয়।
দায়িত্বের বিচ্ছুরণ: ব্যাকআপ শোনে “IT”, টেস্টিং শোনে “ইঞ্জিনিয়ারিং”, এবং DR শোনে “সিকিউরিটি”। মালিকানা অস্পষ্ট হলে সবাই ধরে নেয় কেউ আর কিছুকিছু দেখাশোনা করছেন।

কেন কম-দৃশ্যমান কাজ অগ্রাধিকার হারায়

DR প্রস্তুতি বেশিরভাগ প্রস্তুতির কাজ: ডকুমেন্টেশন, অ্যাক্সেস পরীক্ষা, রানবুক, এবং টেস্ট রিস্টোর। এইগুলো তাদের সঙ্গে প্রতিযোগিতা করে যে কাজগুলোতে স্পষ্ট ফলাফল থাকে, যেমন পারফরম্যান্স উন্নতি বা কাস্টমার অনুরোধ। এমনকি নেতারা যাদের ব্যাকআপ খরচ অনুমোদন করেন, তারা অবচেতনভাবে টেস্টিং ও ড্রিলকে ঐচ্ছিক ‘প্রক্রিয়া’ মনে করতে পারেন, প্রোডাকশন-গ্রেড কাজ নয়।

ফলাফল: ভরসা হয়ে ওঠে অনুমানের উপর, প্রমাণের উপর নয়। এবং ব্যর্থতাগুলো প্রায়শই শুধুমাত্র বাস্তব আউটেজে প্রকাশ পায়—তাই প্রতিষ্ঠান সত্যিটা জানে সবচেয়ে খারাপ মুহূর্তে।

অপারেশনাল ঘর্ষণ যা নীরবে প্রস্তুতি ধ্বংস করে

অধিকাংশ ব্যাকআপ ও DR ব্যর্থতা “অবহেলা” থেকে হয় না। সেগুলো ঘটে ছোট অপারেশনাল বিবরণ জমে গিয়ে—যতক্ষণ কেউ আত্মবিশ্বাসীভাবে বলতে না পারে, “হ্যাঁ, আমরা সেটা রিস্টোর করতে পারি।” কাজ পিছিয়ে পড়ে, তারপর স্বাভাবিক হয়ে যায়, তারপর ভুলে যাওয়া পর্যন্ত—অবশেষে যখন এটি গুরুত্বপূর্ণ হয়।

যখন “কি কভার হয়েছে” অস্পষ্ট, মালিকানা হারিয়ে যায়

ব্যাকআপ স্কোপ সাধারণত স্পষ্ট থেকে ইমপ্লাইডে ঝরে পড়ে। ল্যাপটপগুলি কি অন্তর্ভুক্ত, নাকি শুধুমাত্র সার্ভার? SaaS ডেটা, ডাটাবেস, শেয়ারড ড্রাইভ এবং সেই এক ফাইল শেয়ারটা যা সবাই এখনও ব্যবহার করে—এসব কী কভার করা আছে? যদি উত্তরে হয় “এর ওপর নির্ভর করে”, তাহলে সময়মতো আপনি খুঁজে পাবেন যে গুরুত্বপূর্ণ ডেটা কখনোই সুরক্ষিত হয়নি।

একটি সহজ নিয়ম সহায়ক: যদি বাণিজ্যিকভাবে সেটা আগামীকাল হারালে ব্যবসা মিস করবে, তাহলে সেটির উপর স্পষ্ট ব্যাকআপ সিদ্ধান্ত নিন (রক্ষিত, আংশিকভাবে রক্ষিত, বা ইচ্ছাকৃত বাতিল)।

টুল স্প্রল পালকেই ব্যর্থতা লুকায়

অনেক প্রতিষ্ঠান একাধিক ব্যাকআপ সিস্টেমের সাথে শেষ হয়—একটা VM এর জন্য, একটা এন্ডপয়েন্টের জন্য, SaaS-এ আরেকটা, ডাটাবেসের জন্য অন্যটা। প্রতিটির আলাদা ড্যাশবোর্ড, অ্যালার্ট, এবং “সফল” সংজ্ঞা থাকে। ফলাফল: একক ভিউ নেই যে রিস্টোরগুলো বাস্তবে সম্ভব কি না।

আরও খারাপ: “ব্যাকআপ সফল” হয়ে ওঠে মেট্রিক, বদলে “রিস্টোর যাচাই” হওয়া উচিত। যদি অ্যালার্টগুলো শব্দে ভরা হয়, মানুষ তা উপেক্ষা করা শিখে, এবং ছোট ছোট ব্যর্থতা চুপচাপ জমে যায়।

রিস্টোরগুলো বিরক্তিকর কারণে ব্যর্থ: অ্যাক্সেস ও সিক্রেটস

রিস্টোর করতে প্রায়ই এমন অ্যাকাউন্ট দরকার যা আর কাজ করে না, পারমিশন বদলেছে, বা এমন MFA ওয়ার্কফ্লো যা কেউ ঘটনাকালে টেস্ট করেনি। ওপরে missing encryption keys, outdated passwords, বা পুরোনো উইকি-তে থাকা রানবুক থাকলে রিস্টোর একটি স্ক্যাভেঞ্জার হান্টে পরিণত হয়।

সমাধানটা নায়কতার নয়—অপারেশনাল

স্কোপ ডকুমেন্ট করে, রিপোর্টিং একীভূত করে, ক্রেডেনশিয়াল/কী ও রানবুক আপ টু ডেট রেখে ঘর্ষণ কমান। পুনরুদ্ধার রুটিন যখন রুটিন হয়—তখনই প্রস্তুতি উন্নত হয়, না যে সেটা কোনো বিশেষ ইভেন্ট হবে।

কেন রিস্টোর টেস্টিং এড়িয়ে যায়

অধিকাংশ টিম রিস্টোর টেস্টিং এড়ায় কারণ তারা অযত্ন করে—এটা অসুবিধাজনক এবং ড্যাশবোর্ডে দেখা যায় না—যতক্ষণ না তা জরুরি মুহূর্তে প্রয়োজন হয়।

সময় সাপেক্ষ, এবং “নিরাপদ” উপায়ও ঝুঁকিপূর্ণ লাগে

একটি বাস্তব রিস্টোর টেস্ট পরিকল্পনা চায়: সঠিক ডেটাসেট বেছে নেওয়া, কম্পিউট রিসোর্স রিজার্ভ করা, অ্যাপ মালিকদের সাথে সমন্বয়, এবং ফলটি ব্যবহারযোগ্য কি না তা প্রমাণ করা—শুধু ফাইল কপি হয়েছে কি না নয়।

যদি টেস্ট খারাপভাবে করা হয়, এটা প্রোডাকশনকে বিঘ্নিত করতে পারে (অতিরিক্ত লোড, ফাইল লক, অনুপযুক্ত কনফিগারেশন পরিবর্তন)। নিরাপদ বিকল্প—আইসোলেটেড পরিবেশে টেস্ট—তবুও সেটআপ ও রক্ষণাবেক্ষণে সময় নেয়। তাই এটা ফিচার কাজ, আপগ্রেড এবং দৈনন্দিন অগ্নিনির্বাপণের পেছনে পড়ে।

ব্যর্থ রিস্টোর খারাপ খবর দেয়—কেউ সেটা খুঁজে পেতে চায় না

রিস্টোর টেস্টিংয়ের অদ্ভুত ধর্ম: এটা খারাপ খবর দিতে পারে।

একটি ব্যর্থ রিস্টোর মানে তাৎক্ষণিক ফলো-আপ কাজ—পার্মিশন ঠিক করা, কী খোঁজা, ভাঙা ব্যাকআপ চেইন ধরে ফেলা, undocumented নির্ভরশীলতা ঠিক করা, বা “আমরা ডেটা ব্যাকআপ করেছি কিন্তু সেটিকে ব্যবহার যোগ্য করতে যা লাগে সেটা ব্যাকআপ হয়নি।” অনেক টিম টেস্ট এড়ায় কারণ তাদের কাছে ইতিমধ্যেই কাজ বেশি এবং তারা নতুন, উচ্চ অগ্রাধিকারের সমস্যা খুলতে চাইবে না।

KPI সমস্যা: আমরা ব্যাকআপ ট্র্যাক করি, পুনরুদ্ধার নয়

সংগঠনগুলো প্রায়ই “ব্যাকআপ জব সফল” ট্র্যাক করে কারণ সেটা মাপা ও রিপোর্ট করা সহজ। কিন্তু “রিস্টোর কাজ করেছে” বলতে একটি মানব-দৃশ্যমান আউটকাম দরকার: অ্যাপ্লিকেশন কি শুরু হচ্ছে, ব্যবহারকারীরা লগইন করতে পারছে, ডেটা কি পর্যাপ্তভাবে আপ টু RTO ও RPO?\n যখন নেতৃত্ব সবুজ ব্যাকআপ রিপোর্ট দেখে, রিস্টোর টেস্টিং অপশনাল মনে হয়—যতক্ষণ না কোনো ইনসিডেন্ট সেই প্রশ্ন জোর করে তোলে।

এটাকে প্রকল্প বলে আচরণ করা হয়, অভ্যাস নয়

এককালীন রিস্টোর টেস্ট দ্রুত বিরল হয়ে যায়। সিস্টেম বদলায়, টিম বদলায়, ক্রেডেনশিয়াল রোটেট করে, এবং নতুন নির্ভরশীলতা আসে।

রিস্টোর টেস্টিং যদি প্যাচিং বা বিলিং-এর মত নির্দিষ্ট শিডিউলে না হয়ে থাকে—ছোট, ঘন, প্রত্যাশিত—তাহলে এটি বড় ইভেন্ট হয়ে ওঠে। বড় ইভেন্টগুলো সহজে পিছিয়ে দেওয়া যায়, আর সেই কারণেই প্রথম ‘বাস্তব’ রিস্টোর টেস্ট প্রায়ই আউটেজের সময়ই হয়।

বাজেট ও প্রণোদনা: ভুলভাবে বোঝা সংখ্যাগুলো

একটি অভ্যন্তরীণ স্ট্যাটাস হাব চালু করুন

আউটেজে ইনসিডেন্ট আপডেট ও দায়িত্ব দেখানোর জন্য একটি অভ্যন্তরীণ স্ট্যাটাস পেজ চালু করুন।

এখন ডিপ্লয় করুন

ব্যাকআপ কৌশল ও দুর্যোগ পুনরুদ্ধার কাজ প্রায়ই বাজেট লড়াইয়ে হারায় কারণ এটি খরচ কেন্দ্র হিসেবে দেখা হয়। সমস্যা সেটা নয় যে নেতারা পরোয়া করে না—সমস্যা হল তাদের কাছে যে সংখ্যাগুলো উপস্থাপিত হয় সেগুলো সাধারণত বাস্তব পুনরুদ্ধারের প্রয়োজন প্রতিফলিত করে না।

দৃশ্যমান সহজ খরচ (যা কাটা হয়)

সরাসরি খরচ ইনভয়েস এবং সময়-শিটে দেখা যায়: স্টোরেজ, ব্যাকআপ টুলিং, সেকেন্ডারি এনভায়রনমেন্ট, এবং রিস্টোর টেস্টিং ও ব্যাকআপ যাচাইয়ের জন্য স্টাফ টাইম। বাজেট আঁটসাঁট হলে এই লাইন আইটেমগুলো অপশনাল বলে মনে হয়—বিশেষত যদি “আমরা সাম্প্রতিককালে কোনো ইনসিডেন্ট পাইনি।”

পরে আসা ব্যয়বহুল খরচ

পরোক্ষ খরচ বাস্তব—কিন্তু বিলম্বিত এবং এটাকে কিছু ভেঙে যাওয়া পর্যন্ত নির্দিষ্ট করা কঠিন। একটি ব্যর্থ রিস্টোর বা ধীর র‍্যানসমওয়্যার পুনরুদ্ধার ডাউনটাইম, মিস হওয়া অর্ডার, কাস্টমার সাপোর্টের অতিরিক্ত চাপ, SLA জরিমানা, রেগুলেটরি এক্সপোজার, এবং প্রতিপত্তি ক্ষতি হিসেবে পরিণত হতে পারে।

একটি সাধারণ বাজেটিং ভুল হচ্ছে পুনরুদ্ধারকে বাইনারি হিসেবে দেখা (“আমরা রিস্টোর করতে পারি” বনাম “পারি না”)। বাস্তবে RTO এবং RPO ব্যবসায়িক প্রভাব নির্ধারণ করে। একটি সিস্টেম যা ৪৮ ঘণ্টায় রিস্টোর হয় যখন ব্যবসা ৮ ঘণ্টা চায়—সে কভারে নেই—সে পরিকল্পিত আউটেজ।

প্রতিষ্ঠানের ভেতরে অপসংগত প্রণোদনা

অপসংগত প্রণোদনা প্রস্তুতিকে নিচু রাখে। টিমগুলো আপটাইম ও ফিচার ডেলিভারির জন্য পুরস্কৃত হয়, recoverability-এর জন্য নয়। রিস্টোর টেস্টগুলো পরিকল্পিত বিঘ্ন ঘটায়, অস্বস্তিকর ফাঁক উন্মোচন করে, এবং সাময়িকভাবে ক্ষমতা কমাতে পারে—তাই এগুলো স্বল্প-মেয়াদী অগ্রাধিক্যদের বিরুদ্ধে হারায়।

একটা ব্যবহারিক সমাধান হলো recoverability মাপযোগ্য ও দায়িত্বশীল করা: অন্তত একটি অবজেক্টিভ critical সিস্টেমের সফল রিস্টোর টেস্টিং আউটকামের সাথে জুড়ে দিন, কেবল ব্যাকআপ জব “সাফল্য” নয়।

প্রোকিউরমেন্ট ও অনুমোদন DR ধীর করে

প্রোকিউরমেন্ট বিলম্ব আরেকটি নীরব বাধা। DR উন্নতি সাধারণত ক্রস-টিম সমঝোতা (সিকিউরিটি, IT, ফাইন্যান্স, অ্যাপ মালিক) এবং কখনো নতুন ভেন্ডর বা চুক্তি চাইতে পারে। যদি সেই চক্র মাস নেয়, টিমগুলো উন্নতির প্রস্তাব করা বন্ধ করে দেয় এবং ঝুঁকিপূর্ণ ডিফল্ট গ্রহণ করে নেয়।

সারসংক্ষেপ: DR খরচকে ব্যবসা ধারাবাহিকতার ইনস্যুরেন্স হিসেবে উপস্থাপন করুন, নির্দিষ্ট RTO/RPO লক্ষ্য ও তাদের পূরণের পরীক্ষিত পথ দেখান—“আরও স্টোরেজ” হিসেবে নয়।

আধুনিক হুমকি যা অবহেলা আরও ব্যয়বহুল করে

আগে অবহেলার মূল্য ছিল “ভাগ্যহীন আউটেজ” এর মত। এখন তা প্রায়ই ইচ্ছাকৃত আক্রমণ বা এমন নির্ভরশীলতা ব্যর্থতা হিসেবে আসে যা পর্যাপ্ত সময় ধরে ব্যবসায়িক ক্ষতি করে।

র‍্যানসমওয়্যার কেবল প্রোডাকশন এনক্রিপ্ট করে না

আধুনিক র‍্যানসমওয়্যার গোষ্ঠী আপনার recovery path শিকার করে। তারা ব্যাকআপ মুছতে, করাপ্ট করতে, বা এনক্রিপ্ট করতে চেষ্টা করে, এবং প্রায়ই ব্যাকআপ কনসলকে প্রথমে টার্গেট করে। যদি আপনার ব্যাকআপ সবসময় অনলাইন থাকে, লেখাযোগ্য থাকে, এবং একই অ্যাডমিন অ্যাকাউন্ট দ্বারা সুরক্ষিত থাকে, তাহলে সেগুলো ব্লাস্ট রেডিয়াসের অংশ।

বিচ্ছিন্নতা জরুরি: আলাদা ক্রেডেনশিয়াল, immutable স্টোরেজ, অফলাইন বা এয়ার-গ্যাপ কপি, এবং এমন ক্লিয়ার রিস্টোর পদ্ধতি যা একই কমপ্রোমাইজড সিস্টেমের ওপর নির্ভর করে না।

“প্রোভাইডার ব্যাকআপ রাখে” মানেই পুনরুদ্ধার পরিকল্পনা নয়

ক্লাউড এবং SaaS সার্ভিসগুলো তাদের প্ল্যাটফর্ম রক্ষা করতে পারে, কিন্তু সেটা আপনার ব্যবসাকে পুনরুদ্ধার করার মতো করে রক্ষা করে না। আপনাকে এখনও বাস্তব প্রশ্নগুলোর উত্তর দিতে হবে:

আপনি কি দ্রুত, সঠিক গ্রানুলারিটিতে মুছে ফেলা বা করাপ্ট ডেটা পুনরুদ্ধার করতে পারবেন?\n- যদি অ্যাকাউন্ট লক হয় বা ভেন্ডরের আউটেজ হয়, কি করে আপনি গুরুত্বপূর্ণ ডেটা এক্সপোর্ট করবেন?\n- কে রিস্টোর শুরু করতে পারে, এবং এতে কত সময় লাগে?

ভুল করে ধরে নেওয়া যে প্রোভাইডার আপনাকে কভার করছে মানে আপনি ইনসিডেন্টে গ্যাপ খুঁজে পাবেন—যখন সময় সবচেয়ে মূল্যবান।

রিমোট কাজ গুরুত্বপূর্ণ ডেটাকে এজে ঠেলে দেয়

ল্যাপটপ, হোম নেটওয়ার্ক, এবং BYOD-তে মূল্যবান ডেটা প্রায়ই ডেটা সেন্টারের বাইরে এবং ঐতিহ্যগত ব্যাকআপ কাজের বাইরে থাকে। চুরি হওয়া ডিভাইস, সিঙ্ক করা ফোল্ডার যা ডিলিট প্রসেস প্রসারিত করে, অথবা কম্প্রোমাইজড এন্ডপয়েন্ট—এসব ডেটা-লোকস হারাতে পারে যা কখনো সার্ভারে পৌঁছায় না।

তৃতীয় পক্ষের আউটেজ আপনাকে হ্যাক না করেই থামিয়ে দিতে পারে

পেমেন্ট প্রসেসর, আইডেন্টিটি প্রোভাইডার, DNS, এবং গুরুত্বপূর্ণ ইন্টিগ্রেশনগুলো ডাউন হতে পারে এবং আপনাকে ডাউন করে দিতে পারে। যদি আপনার পুনরুদ্ধার পরিকল্পনা ধরে নেয় “শুধু আমাদের সিস্টেমই সমস্যা”, তাহলে কোনো পার্টনার ব্যর্থ হলে আপনার কাছে কার্যকর ওয়ার্কারাউন্ড নাও থাকতে পারে।

এই হুমকিগুলো শুধু ঘটনার সম্ভাবনা বাড়ায় না—সেগুলো বাড়ায় যে পুনরুদ্ধার ধীর, আংশিক, বা অসম্ভব হতে পারে।

একটি সরল Recovery Map দিয়ে শুরু করুন (সিস্টেম, মালিক, RTO/RPO)

স্প্রেডশিট ছাড়াই ব্যাকআপ ইনভেন্টরি করুন

“কি সুরক্ষিত” তা অনুমানের বিষয় না রাখার জন্য একটি ব্যাকআপ কভারেজ ইনভেন্টরির প্রোটোটাইপ তৈরি করুন।

চেষ্টা করুন

বেশিরভাগ ব্যাকআপ ও DR প্রচেষ্টা ব্যর্থ হয় কারণ তারা টুল দিয়ে শুরু করে (“আমরা ব্যাকআপ সফটওয়্যার কিনেছি”) এড়িয়ে—নিশ্চিত সিদ্ধান্ত না নিয়ে (“প্রথমে কি ফিরে পেতে হবে, এবং কে ঐ সিদ্ধান্ত নেবে?”)। একটি recovery map হালকা ওজনের উপায় যেগুলো দৃশ্যমান করে তোলে সেই সিদ্ধান্তগুলো।

কি তালিকাভুক্ত করবেন (বাস্তবসম্মত রাখুন)

একটি শেয়ার করা ডক বা স্প্রেডশিট শুরু করুন এবং লিখুন:

সিস্টেম: SaaS অ্যাপস, সার্ভার, ডাটাবেস, ফাইল শেয়ার, এন্ডপয়েন্ট, আইডেন্টিটি (SSO), ইমেইল, CI/CD ইত্যাদি
ডেটা টাইপ: কাস্টমার ডেটা, আর্থিক রেকর্ড, সোর্স কোড, চুক্তি, সাপোর্ট টিকিট, কর্মী রেকর্ড
মালিক: পুনরুদ্ধার সিদ্ধান্তের জন্য নামকৃত ব্যক্তি (শুধু টিম নাম নয়)
নির্ভরশীলতা: “System A কে System B লাগবে” (উদাহরণ: অ্যাপের জন্য ডাটাবেস + আইডেন্টিটি প্রোভাইডার + DNS দরকার)

আরও একটি কলাম যোগ করুন: আপনি কিভাবে এটিকে রিস্টোর করবেন (ভেন্ডর রিস্টোর, VM ইমেজ, ডাটাবেস ডাম্প, ফাইল-লেভেল রিস্টোর)। এক বাক্যে যদি এটা বর্ণনা না করতে পারেন, সেটা লাল পতাকা।

RTO এবং RPO সাধারণ ভাষায়

RTO (Recovery Time Objective) = কত দ্রুত এটি ফিরে পেতে হবে। উদাহরণ: পেমেন্ট সিস্টেম ৪ ঘন্টার মধ্যে অনলাইনে থাকাটা দরকার—তাহলে RTO ৪ ঘন্টা।
RPO (Recovery Point Objective) = কতটা ডেটা হারাতে পারবেন। যদি শেষ ৩০ মিনিটের অর্ডার হারানো যায়, RPO=৩০ মিনিট।

এগুলো টেকনিক্যাল লক্ষ্য নয়; এগুলো ব্যবসার সহনশীলতা। উদাহরণ ব্যবহার করুন (অর্ডার, টিকিট, পে-রোল) যাতে সবাই বুঝে “হারানো” বলতে কী বোঝানো হচ্ছে।

আপনার সার্ভিসগুলো টিয়ার করুন

সিস্টেমগুলোকে ভাগ করুন:

ক্রিটিকাল: রাজস্ব, নিরাপত্তা, আইনগত বাধ্যবাধকতা (উদাহরণ: পেমেন্ট, আইডেন্টিটি, কোর ডাটাবেস)
গুরুত্বপূর্ণ: কষ্টকর কিন্তু টিকে থাকা যায় (উদাহরণ: অ্যানালিটিক্স, ইন্টারনাল উইকি)
ভালো-থাকলে-ভালো: দিন পেতে পারে (উদাহরণ: এক্সপেরিমেন্ট, পুরানো আর্কাইভ)

“দিন ১” মিনিমাল অপারেশন সংজ্ঞায়িত করুন

একটি সংক্ষিপ্ত “Day 1” চেকলিস্ট লিখুন: আউটেজের সময়ে কাজ চালিয়ে নিতে সবচেয়ে ছোট সেট সার্ভিস ও ডেটা। এটি আপনার ডিফল্ট রিস্টোর অর্ডার এবং টেস্টিং ও বাজেটিংয়ের বেসলাইন হয়।

যদি আপনি দ্রুত অভ্যন্তরীণ টুল তৈরি করেন (উদাহরণস্বরূপ, Koder.ai-এর মতো প্ল্যাটফর্মের সাহায্যে), সেই জেনারেট করা সার্ভিসগুলোও একই ম্যাপে যোগ করুন: অ্যাপ, তার ডাটাবেস, সিক্রেটস, কাস্টম ডোমেইন/DNS, এবং সঠিক রিস্টোর পথ। দ্রুত তৈরি হওয়া টুলগুলোও স্পষ্ট পুনরুদ্ধার মালিকানা দরকার।

একটি রিস্টোর টেস্টিং রুটিন যা আপনি বজায় রাখতে পারবেন

একটি রিস্টোর টেস্ট কাজ করবে যদি তা সাধারণ অপারেশনের অংশ হয়। লক্ষ্য নয় বছরে একবার নাটকীয় “অল-হ্যান্ডস” ব্যায়াম—লক্ষ্য হচ্ছে ছোট, প্রত্যাশিত রুটিন যা ধীরে ধীরে আত্মবিশ্বাস গড়ে তোলে (এবং সমস্যা তখনই প্রকাশ করে যখন ঠিক করা সস্তা)।

এমন কাদেন্স সেট করুন যা আপনি ভাঙ্গবেন না

দুই স্তর দিয়ে শুরু করুন:

মাসিক স্পট রিস্টোর (৩০–৬০ মিনিট): এলোমেলো কিছু আইটেম নিরাপদ স্থানে রিস্টোর করুন।
ত্রৈমাসিক ফুল ড্রিল (অর্ধ-দিন থেকে একদিন): আরও বাস্তবসম্মত আউটেজ সিমুলেট করুন এবং end-to-end রিস্টোর ধাপগুলো যাচাই করুন।

উভয়কেই ক্যালেন্ডারে রাখুন—যেমন ফাইনান্স ক্লোজ বা প্যাচিং। যদি এটি ঐচ্ছিক হয়, তা পিছিয়ে যাবে।

বাস্তব রিস্টোর সিনারিওগুলো ঘোরান

প্রতিবার একই “হ্যাপি পাথ” টেস্ট করবেন না। এমন সিনারিও ঘুরে দেখান যা বাস্তব ঘটনার অনুরূপ:

একটি-ফাইল রিস্টোর (অপচয়কর মোছা, ভ্যার্সন রোলব্যাক)
পূর্ণ সার্ভার/VM রিস্টোর (ফেইল করা আপডেট, হার্ডওয়্যার আউটেজ)
ডাটাবেস পয়েন্ট-ইন-টাইম রিস্টোর (খারাপ ডিপ্লয়, ডেটা করাপশন)

SaaS ডেটা (উদাহরণ: Microsoft 365, Google Workspace) থাকলে মেইলবক্স/ফাইল রিকভারি সিনারিওও অন্তর্ভুক্ত করুন।

প্রতিটি টেস্টকে একটি পরীক্ষাভিত্তিক লগ হিসেবে ধরুন

প্রতি টেস্টে নিনোট করুন:

আপনি কী চেষ্টা করেছেন এবং কোন ব্যাকআপ সেট ব্যবহার করেছেন
কী কাজ করেছে, কী ব্যর্থ হয়েছে, এবং কেন (পার্মিশন, মিসিং কী, ধীর স্টোরেজ, ভুল রিটেনশন)
পুনরুদ্ধারের সময় (শুরু থেকে ব্যবহার যোগ্য পর্যন্ত), প্লাস যেসব ম্যানুয়াল ধাপ

সময়ে এটা আপনার সবচেয়ে সৎ “DR ডকুমেন্টেশন” হয়ে উঠবে।

ব্যর্থতাগুলো স্বয়ংক্রিয়ভাবে দৃশ্যমান করুন

একটি রুটিন তখনই মরতে শুরু করে যখন সমস্যা চুপচাপ থাকে। আপনার ব্যাকআপ টুলিং কনফিগার করুন যাতে ব্যর্থ জব, মিসড শিডিউল, এবং যাচাই ত্রুটিতে অ্যালার্ট দেয়, এবং স্টেকহোল্ডারদের কাছে শট মंथলি রিপোর্ট পাঠান: পাস/ফেইল রেট, রিস্টোর টাইম, এবং খোলা ফিক্স। দৃশ্যমানতা কার্যকরীতা সৃষ্টি করে—এবং প্রস্তুতিকে ঘটনা দু'পাশের সময় ফিকে হওয়া থেকে রক্ষা করে।

ব্যাকআপ ডিজাইন বেসিক্স যা সবচেয়ে খারাপ অবাক করা ঘটনা প্রতিরোধ করে

বেশিরভাগ ব্যাকআপ ব্যর্থতা সাধারন কারণে: সেগুলো প্রোডাকশনের একই অ্যাক্সেস দিয়ে পৌঁছনযোগ্য, সঠিক সময়ে কভার করে না, বা কেউ তা ডিক্রিপ্ট করতে পারে না যখন দরকার। ভালো ডিজাইন ফ্যান্সি টুল নয়—কিছু বাস্তব রক্ষাবেষ্টনী সম্পর্কে।

3-2-1 দিয়ে শুরু করুন (তারপর কাস্টমাইজ করুন)

একটি সহজ বেসলাইন হল 3-2-1 ধারণা:

আপনার ডেটার 3 কপি (প্রোডাকশন + দুই ব্যাকআপ)
2 ধরনের স্টোরেজ এ রাখা (উদাহরণ: ক্লাউড অবজেক্ট স্টোরেজ এবং লোকাল অ্যাপ্লায়েন্স)
1 কপি অফসাইটে (তাতে একটি ইভেন্ট সবকিছু মুছে ফেলবে না)

এটি পুনরুদ্ধার গ্যারান্টি দেয় না, কিন্তু এটি আপনাকে “একই জিনিস, এক জায়গায়” এর ঝুঁকি থেকে বাঁচায়।

ব্যাকআপকে প্রোডাকশন ক্রেডেনশিয়াল থেকে আলাদা করুন

যদি আপনার ব্যাকআপ সিস্টেম সার্ভার, ইমেইল, বা ক্লাউড কনসোলের একই অ্যাডমিন অ্যাকাউন্ট দিয়ে এক্সেস করা যায়, একটি কম্প্রোমাইজড পাসওয়ার্ড প্রোডাকশন এবং ব্যাকআপ—উভয়কেই ধ্বংস করতে পারে।

বিচ্ছিন্নতার লক্ষ্য রাখুন:

ডেডিকেটেড ব্যাকআপ অ্যাকাউন্ট যা কমই অধিগ্রহণ প্রয়োজন\n- আলাদা অ্যাডমিন রোল (বিভিন্ন ব্যক্তি বা অন্তত আলাদা ক্রেডেনশিয়াল)\n- যেখানে সম্ভব, immutable বা write-once প্রটেকশন ব্যবহার করুন

রিটেনশন নির্ধারণ করুন: দ্রুত রিস্টোর বনাম দীর্ঘমেয়াদি আর্কাইভ

রিটেনশন উত্তর দেয়: “কত পেছনে আমরা যেতে পারি?” এবং “কত দ্রুত রিস্টোর করা যাবে?”

এটাকে দুই স্তরে বিবেচনা করুন:

শর্ট-টার্ম রিটেনশন (দিন/সপ্তাহ): ঘন ঘন ব্যাকআপ যা দ্রুত রিস্টোরের জন্য অপ্টিমাইজ করা (অধিকাংশ চাহিদা)
দীর্ঘ-কালীন রিটেনশন (মাস/বছর): সস্তা আর্কাইভ কপি অডিট, লিগ্যাল হোল, বা পরে ধরা পড়া ইস্যুর জন্য

কী ম্যানেজমেন্ট প্ল্যান করুন (যাতে এনক্রিপ্ট করা ব্যাকআপ ব্যবহারযোগ্য থাকে)

এনক্রিপশন মূল্যবান—যতক্ষণ কীটি অনুপস্থিত না হয়।

আগেই সিদ্ধান্ত নিন:

এনক্রিপশন কী ও সিক্রেট কোথায় রাখা হবে (KMS, HSM, পাসওয়ার্ড ভল্ট)
কারা প্রতিবাদকালে অ্যাক্সেস পাবে (ব্রেক-গ্লাস প্রসেস)
কী কিভাবে ব্যাকআপ করে রাখা হবে এবং রোটেট করা হবে যাতে পুরোনো ব্যাকআপ অপ্রচলিত না হয়ে পড়ে

একটি ব্যাকআপ যা অ্যাক্সেসযোগ্য নয়, ডিক্রিপ্ট করা যায় না, বা দ্রুত পাওয়া যায় না—সেটা ব্যাকআপ নয়, সেটা শুধু স্টোরেজ।

DR কে ডকুমেন্ট থেকে executable প্লেবুকে পরিণত করুন

DR-এর জন্য বাস্তব প্লেবুক তৈরি করুন

ভূমিকা, ধাপ ও চেকলিস্টসহ একটি কার্যকর DR রানবুক তৈরি করুন যাতে দল তা অনুসরণ করতে পারে।

অ্যাপ তৈরি করুন

PDF-এ আছে এমন এক DR প্ল্যান কিছুটা ভালো—কিন্তু আউটেজে মানুষ সাধারণত ‘প্ল্যান পড়েন না’। তারা আংশিক তথ্য নিয়ে দ্রুত সিদ্ধান্ত নিতে চায়। লক্ষ্য হলো DR-কে রেফারেন্স মেটেরিয়াল থেকে এমন একটি সিকোয়েন্সে রূপান্তর করা যা আপনার টিম বাস্তবে চালাতে পারে।

প্রথম ঘণ্টাটি সহজ করে দিন

এক পেজের রানবুক তৈরি করুন যা চাপের সময় সবাই যেগুলো জিজ্ঞেস করে সেগুলো উত্তর দেয়:

কে কি করে, কোন অর্ডোরে (ইনসিডেন্ট লিড, IT লিড, সিকিউরিটি, অ্যাপ মালিক, কমms)
কোন সিস্টেমগুলো প্রথমে হ্যান্ডল হবে (আইডেন্টিটি, কোর ডাটাবেস, পেমেন্ট, কাস্টমার-ফেসিং অ্যাপ)
প্রতিটি ধাপের ‘ডান’ কাকে বলে (সার্ভিস পৌঁছুছ, ডেটা ভ্যালিড, মনিটরিং সব সবুজ)

বিস্তারিত পদ্ধতি পরিশিষ্টে রাখুন। প্রথম পেজই ব্যবহার হবে।

কমিউনিকেশন নিয়মগুলো আগে থেকেই ঠিক করুন

আপডেটগুলো যখন এলোমেলাভাবে হয় তখন কনফিউশন বাড়ে। সংজ্ঞায়িত করুন:

অভ্যন্তরীণ আপডেট কদাচিৎ (উদাহরণ: প্রতি ৩০ মিনিট) এবং একক সোর্স অব ট্রুথ (একটি চ্যানেল, এক ডক)
কাস্টমার নোটিশ ট্রিগার (কোন শর্তে স্ট্যাটাস পেজ আপডেট প্রয়োজন)
ভেন্ডার কন্টাক্ট পাথ (ব্যাকআপ প্রোভাইডার, ক্লাউড সাপোর্ট, MSP) সাথে অ্যাকাউন্ট আইডি ও এসক্যালেশন রুট

যদি আপনার স্ট্যাটাস পেজ থাকে, রানবুকে সেটার লিঙ্ক দিন (উদাহরণ: /status)।

কঠিন সিদ্ধান্তগুলো আগে থেকে নির্ধারণ করুন

নির্ধারণী পয়েন্টগুলো এবং কে দায়িত্ব নেবে তা লিখে রাখুন:

কখন ফেইলওভার করবেন বনাম ইন-প্লেস রিস্টোর\n- কখন রিস্টোর করবেন বনাম ক্লিন ইনফ্রা থেকে পুনর্নির্মাণ\n- কী প্রমাণ লাগবে বলে “ম্যালওয়্যার কন্টেইনড” ঘোষণা করা হবে

এটি আউটেজে পৌঁছনীয় করে রাখুন

প্লেবুক এমন জায়গায় রাখুন যেটা আপনার সিস্টেম ডাউন হলেও পাওয়া যাবে: একটি অফলাইন কপি এবং একটি সুরক্ষিত শেয়ার্ড লোকেশন ব্রেক-গ্লাস অ্যাক্সেসসহ।

এটিকে টিকে রাখতে: মেট্রিকস, মালিকানা, এবং রিভিউ চক্র

যদি ব্যাকআপ ও DR কেবল ডকুমেন্টে থাকে, সেগুলো ক্ষয়প্রাপ্ত হবে। ব্যবহারিক সমাধান হলো পুনরুদ্ধারকে যেকোনো অপারেশনাল সক্ষমতার মতো আচরণ করা: এটা মাপুন, দায়িত্ব দিন, এবং নির্দিষ্ট ক্যালেন্ডারে রিভিউ করুন।

কয়েকটি মেট্রিক যা আচরণ বদলে দেয়

আপনার অনেক চার্টের দরকার নেই। একটি ছোট সেট ট্র্যাক করুন যা সরাসরি “আমরা রিকভার করতে পারি?” জিজ্ঞাসার উত্তর দেয়:

রিস্টোর সাফল্য হার (সিস্টেম টিয়ার অনুযায়ী): কতবার টেস্ট রিস্টোর ম্যানুয়াল নায়ক ছাড়া সম্পন্ন হয়েছে
টাইম-টু-রিস্টোর: শুরুর সময় থেকে সার্ভিস ব্যবহারযোগ্য হওয়া পর্যন্ত সময়—এটা ব্যবহারকারীরা অনুভব করে
কভারেজ: কোন ক্রিটিকাল সিস্টেমগুলো গত ৯০ দিনে টেস্ট করা হয়েছে (এবং কোনগুলো নয়)

এসবকে RTO ও RPO টার্গেটের সাথে বেঁধে দিন যাতে এগুলো ভ্যানিটি নাম্বার না হয়ে বাস্তব লক্ষ্য নির্দেশ করে। যদি time-to-restore ধারাবাহিকভাবে আপনার RTO ছাড়িয়ে যায়, সেটি আর “পরে হবে” সমস্যা নয়—এটি মিস।

মালিকানা: এক নাম নয়ত shared responsibility কাজ চালান

যখন সবাই “ইনভলভড” কিন্তু কেউই দায়ী নয়, তখন প্রস্তুতি মরে। নির্দিষ্ট করুন:

পুনরুদ্ধার প্রোগ্রামের জন্য একটি নামকৃত মালিক (ব্যক্তি বা টিম)
প্রতিটি প্রধান সিস্টেমের জন্য একটি ব্যাকআপ কৌশল মালিক (অ্যাপ + ডেটা)
একটি পুনরাবৃত্ত ক্যালেন্ডার কমিটমেন্ট (উদাহরণ: মাসিক রিস্টোর টেস্ট উইন্ডো, ত্রৈমাসিক রিভিউ)

মালিকানায় পরীক্ষা শিডিউল করার এবং ফাঁকগুলো এসক্যালেট করার ক্ষমতাও থাকা উচিত—নহলে কাজ অনির্দিষ্টকালের জন্য পিছিয়ে যাবে।

বার্ষিক অনুমান রিভিউ (নীরব বিস্ময়ের উৎস)

বছরে একবার একটি “assumption review” সভা করুন এবং আপনার দুর্যোগ পুনরুদ্ধার পরিকল্পনা বাস্তবতার সাথে আপডেট করুন:

গত বছরে যোগ হওয়া নতুন অ্যাপ বা ডাটাবেস\n- ভেন্ডর পরিবর্তন (SaaS মাইগ্রেশন, নতুন MSP, নতুন ক্লাউড অ্যাকাউন্ট)\n- নতুন হুমকি ও সীমাবদ্ধতা (বিশেষত র‍্যানসমওয়্যার পুনরুদ্ধার পরিস্থিতি)\n- বাস্তবে কি ভাঙেছ বা ধীর ছিল

এটা যাচাই করার ভালো সময় যে আপনার recovery map এখনও বর্তমান মালিক ও নির্ভরশীলতার সাথে মিল আছে কি না।

একটি হালকা ওজনের চেকলিস্ট (এবং কিছু সহায়ক লিংক)

আপনার অভ্যন্তরীণ রানবুকের শীর্ষে একটি সংক্ষিপ্ত চেকলিস্ট রাখুন যাতে চাপের সময় লোকজন কাজ করতে পারে। যদি আপনি আপনার পদ্ধতি তৈরি বা পরিমার্জন করছেন, আপনি রেফারেন্স হিসেবে /pricing বা /blog দেখতে পারেন যাতে আপনি অপশনসমূহ, রুটিন, এবং যে টুলগুলোকে আপনি নির্ভরশীল করে তুলেছেন তাদের “প্রোডাকশন-রেডি” অর্থাৎ কী দেখতে হবে—উদাহরণস্বরূপ Koder.ai মত প্ল্যাটফর্ম যা স্ন্যাপশট/রোলব্যাক ও সোর্স এক্সপোর্ট সমর্থন করে।

সাধারণ প্রশ্ন

ব্যাকআপ, রিস্টোর পরীক্ষা এবং দুর্যোগ পুনরুদ্ধারের (DR) মধ্যে বাস্তব ভেদাভেদ কী?

ব্যাকআপ হলো ডেটা/সিস্টেমের কপিগুলো যেগুলো আলাদা স্থানে সংরক্ষিত থাকে। রিস্টোর পরীক্ষা হলো সেই ব্যাকআপ থেকে আপনি সত্যিই পুনরুদ্ধার করতে পারবেন কি না—এর প্রমাণ। দুর্যোগ পুনরুদ্ধার (DR) হলো অপারেশনাল প্ল্যান—মানুষ, ভূমিকা, অগ্রাধিকার, নির্ভরশীলতা এবং যোগাযোগ—যা গুরুতর ঘটনার পর ব্যবসা চালু করতে সাহায্য করে।

একটি দল ব্যাকআপ থাকতে পারলেও রিস্টোর পরীক্ষায় ব্যর্থ হতে পারে; আবার রিস্টোর পাস করলেও, সমন্বয় এবং অ্যাক্সেস না থাকায় DR তে ব্যর্থ হতে পারে।

কেন ব্যাকআপগুলো সফল দেখা গেলেও রিস্টোরের সময় ব্যবহারযোগ্য নাও হতে পারে?

কারণ “সফল ব্যাকআপ কাজ” কেবল প্রমাণ করে যে ফাইল কোথাও লেখা হয়েছে—এটি সম্পূর্ণ, অনাবৃত, ডিক্রিপ্টেবল এবং আপনার প্রয়োজনীয় সময়ে রিস্টোরযোগ্য কি না তা সরাসরি নিশ্চিত করে না।

সাধারণ ব্যর্থতার কারণ: অ্যাপ্লিকেশন ডেটা অনুপস্থিত, আর্কাইভ করাপ্ট হওয়া, রিটেনশন সেটিংস যেই সংস্করণ দরকার তা মুছে ফেলেছে, অথবা রিস্টোর প্রক্রিয়া permission/ক্রেডেনশিয়াল/কি সমস্যার কারণে ব্যর্থ।

আমি কীভাবে স্টেকহোল্ডারদের কাছে RTO এবং RPO সরল ভাষায় বোঝাব?

RTO (Recovery Time Objective): সর্বাধিক কতক্ষণ আপনি ডাউন থাকতে পারেন যখন প্রভাব সহ্য করা যাবে না।
RPO (Recovery Point Objective): সর্বাধিক কত ডেটা (সময়ের পরিমাণ) আপনি হারাতে পারুন।

এগুলোকে ব্যবসায়িক উদাহরণে বলুন (অর্ডার, টিকিট, পে-রোল)। যদি পেমেন্টস ৪ ঘন্টার মধ্যে অনলাইনে দরকার হয়, RTO=৪ ঘন্টা; যদি কেবল সর্বশেষ ৩০ মিনিটের অর্ডারই হারাতে পারেন, RPO=৩০ মিনিট।

একটি ছোট দলের জন্য বাস্তবসম্মত DR প্রোগ্রাম তৈরির প্রথম ধাপ কী?

একটি সহজ recovery map দিয়ে শুরু করুন:

সিস্টেম ও ডেটা তালিকা (SaaS, ডাটাবেস, এন্ডপয়েন্ট, আইডেন্টিটি, ফাইল শেয়ার)।
পুনরুদ্ধার সিদ্ধান্তের জন্য নামকৃত একজন দায়ী নির্দিষ্ট করুন।
নির্ভরশীলতাগুলো ডকুমেন্ট করুন (“A কে B লাগে”)।
এক লাইন লিখুন: কিভাবে আপনি এটি পুনরুদ্ধার করবেন।

তারপর সিস্টেমগুলোকে tier করুন (Critical / Important / Nice-to-have) এবং “Day 1 minimal operations” পুনরুদ্ধার অর্ডার নির্ধারণ করুন।

যদি সবাই গুরুত্বপূর্ণ জানে, তবুও টিমগুলো কেন রিস্টোর টেস্টিং এড়িয়ে যায়?

কারণ এটি অসুবিধাজনক এবং প্রায়ই খারাপ সংবাদ দেয়:

এটি সমন্বয়, সময় এবং নিরাপদ পরিবেশ চাই।
একটি ব্যর্থ টেস্ট তাৎক্ষণিক ফলো-আপ কাজ তৈরি করে (পার্মিশন ঠিক করা, কী পাওয়া, অনুপস্থিত উপাদান), যেটা কেউ আগে থেকে করতে চায় না।
অনেক প্রতিষ্ঠান “ব্যাকআপ সাফল্য” মাপেন, “রিস্টোর সাফল্য” নয়—তাই টেস্টিং অপশনাল মনে হয়।

রিস্টোর টেস্টিংকে এককালীন প্রকল্প না বলে নিয়মিত অপারেশনাল কাজ হিসেবে দেখুন।

কোন রিস্টোর টেস্টিং ক্যালেন্ডার বাস্তবসম্মত এবং বজায় রাখা সহজ?

একটি টেকসই ক্যালেন্ডার ব্যবহার করুন:

মাসিক স্পট রিস্টোর (৩০–৬০ মিনিট): নিরাপদ লোকেশনে কয়েকটি এলোমেলো আইটেম রিস্টোর করুন।
ত্রৈমাসিক ড্রিল (অর্ধ-দিন থেকে একদিন): আরও বাস্তবসম্মত আউটেজ সিমুলেট করুন এবং end-to-end রিকভারি যাচাই করুন।

প্রতিটি টেস্টে কি রিস্টোর করা হলো, কোন ব্যাকআপ সেট ব্যবহার করা হলো, time-to-usable এবং যে ব্যর্থতা দেখা গেল (ফিক্সসহ) লগ করুন।

কোন মেট্রিকগুলো সত্যিই দেখায় যে আমরা পুনরুদ্ধারযোগ্য?

কিছু মেট্রিক যা “আমরা পুনরুদ্ধারযোগ্য কি না” এটা দেখায়:

রিস্টোর সাফল্য হার (সিস্টেম টিয়ারের দ্বারা)
টাইম-টু-রিস্টোর (শুরু → সার্ভিস ব্যবহারযোগ্য)
কভারেজ: কোন ক্রিটিকাল সিস্টেমের গত ৯০ দিনে টেস্ট করা রিস্টোর আছে

এগুলোকে আপনার RTO/RPO এর সাথে যুক্ত করুন যাতে স্পষ্ট হয় কখন লক্ষ্য পূরণ হচ্ছে না।

আমরা কিভাবে ব্যাকআপগুলোকে র‍্যানসমওয়্যার এবং সমন্বিত অ্যাডমিন অ্যাকাউন্ট থেকে রক্ষা করব?

ব্লাস্ট রেডিয়াস কমান এবং ব্যাকআপ ধ্বংস করা কঠিন করুন:

প্রোডাকশনের অ্যাডমিন অ্যাকাউন্ট থেকে ব্যাকআপ ক্রেডেনশিয়াল আলাদা রাখুন
লিস্ট-অফ-প্রিভিলেজ ব্যাকআপ রোল ব্যবহার করুন
যেখানে সম্ভব, immutable বা write-once প্রটেকশন ব্যবহার করুন
উচ্চ ঝুঁকির ক্ষেত্রে অন্তত এক কপি অফলাইন/এয়ার-গ্যাপ রাখা বিবেচনা করুন

মনে রাখুন: আক্রমণকারীরা প্রাথমিকভাবে ব্যাকআপ কনসলকেই টার্গেট করতে পারে।

“ক্লাউড/সাস প্রোভাইডারের ব্যাকআপ আছে” কি যথেষ্ট?

প্রোভাইডার হয়ত তাদের প্ল্যাটফর্ম সুরক্ষিত রাখে, তবে সেটা আপনার ব্যবসার পুনরুদ্ধার নিশ্চিত করে না। যাচাই করুন:

রিস্টোরের গতি ও গ্রানুলারিটি (ফাইল/মেইলবক্স/টেবিল বনাম পুরো অ্যাকাউন্ট)
কে রিস্টোর শুরু করতে পারে এবং এতে কত সময় লাগে
অ্যাকাউন্ট লক হলে বা ভেন্ডর আউটেজ হলে ডেটা কিভাবে এক্সপোর্ট করবেন

রিস্টোর পথ recovery map-এ ডকুমেন্ট করুন এবং টেস্ট করুন।

কিভাবে আমরা DR ডকুমেন্টকে এমন একটি প্লেবুকে পরিবর্তন করব যা আউটেজে লোকজন বাস্তবে চালাতে পারে?

একটি কার্যকর ও পৌঁছনীয় প্লেবুক বানান:

এক পেজের “প্রথম ঘণ্টা” রানবুক তৈরি করুন (কী করে, কোন অর্ডারে, কী ‘ডান’ বলা হবে)
কমিউনিকেশন রুল প্রিসেট করুন: আপডেট ক্যালেন্ডার, একক সোর্স অব ট্রুথ, কাস্টমার নোটিশ ট্রিগার (উদাহরণ: /status)
কঠিন সিদ্ধান্তগুলো আগেই লিখে রাখুন: failover বনাম restore, restore বনাম clean rebuild
প্লেবুক এমন জায়গায় রাখুন যা আউটেজে পৌঁছনীয় থাকবে (অফলাইন কপি + ব্রেক-গ্লাস অ্যাক্সেস)

কেন ব্যাকআপ, পুনরুদ্ধার পরীক্ষা এবং ডিআর শেষ পর্যন্ত উপেক্ষিত হয় | Koder.ai