ডেমিস হাসাবিসের সুস্পষ্ট জীবনী—তার গেম ও স্নায়ুবিজ্ঞানের পথ থেকে DeepMind, AlphaGo ও AlphaFold পর্যন্ত—এবং আধুনিক এআই সম্পর্কে এখান থেকে কী শেখা যায়।

ডেমিস হাসাবিস একজন ব্রিটিশ বিজ্ঞানী ও উদ্যোক্তা, যিনি DeepMind-এর সহ-প্রতিষ্ঠাতা হিসেবে সবচেয়ে বেশি পরিচিত। তার কাজ গুরুত্বপূর্ণ কারণ তা এআই-কে “মজার ডেমো” থেকে এমন সিস্টেমে নিয়ে এনেছে যা নির্দিষ্ট, উচ্চ-ঝুঁকিযুক্ত কাজগুলোতে শীর্ষ মানব বিশেষজ্ঞদের ছাপিয়ে যেতে পারে— এবং তারপর সেই ধারণাগুলোকে খুব ভিন্ন ডোমেইনগুলিতেও পুনরায় ব্যবহার করা যায়।
মানুষরা যখন বলেন হাসাবিস এআই-কে "মানুষের সঙ্গে প্রতিদ্বন্দ্বী" করে তুলেছেন, তারা সাধারণত কাজের পারফরম্যান্স বোঝান: একটি এআই কোনো পরিষ্কারভাবে সংজ্ঞায়িত লক্ষ্য—যেমন একটি জটিল গেম জয় করা বা প্রোটিনের কাঠামো ভবিষ্যদ্বাণী করা—এতে মানুষের সমতুল্য বা উর্ধ্বে পৌঁছাতে পারে। এটা সার্বজনীন বুদ্ধিমত্তার সমতুল্য নয়।
AlphaGo বিশ্বকে মানুষের মত করে বুঝত না; এটি গো খেলায় অত্যন্ত দক্ষ হতে শিখেছে। AlphaFold "জৈববিদ্যা করে" না; এটি সিকোয়েন্স থেকে 3D প্রোটিন আকৃতি উল্লেখযোগ্যভাবে পূর্বাভাস দেয়। এই সিস্টেমগুলো সংকীর্ণ, কিন্তু তাদের প্রভাব বিস্তৃত—কারণ তারা দেখায় কিভাবে লার্নিং-ভিত্তিক পদ্ধতি ঐসব সমস্যা সমাধান করতে পারে যেগুলো একসময় অনন্যভাবে মানুষের অন্তর্দৃষ্টি দাবি করত।
কয়েকটি সাফল্য হল কেন হাসাবিসকে সংজ্ঞায়িত ব্যক্তিত্ব হিসেবে দেখা হয় তার কেন্দ্রবিন্দু:
এটি কোনও নায়ক কাহিনি বা অতিরঞ্জিত প্রচার নয়। আমরা সঠিক তথ্য রাখব, প্রেক্ষাপট দেব যাতে সাফল্যগুলো আসে বোঝা যায়, এবং ব্যবহারিক শিক্ষা তুলে ধরব—কিভাবে লার্নিং সিস্টেমগুলো নিয়ে ভাববেন, “মানব-স্তর” আসলে কী বোঝায়, এবং কেন নৈতিকতা ও নিরাপত্তা আলোচনা স্বাভাবিকভাবে উঠে আসে যখন এআই বিশেষজ্ঞ স্তরের পারফরম্যান্স করতে শুরু করে।
ডেমিস হাসাবিসের এআই-এ যাত্রা বিমূর্ত তত্ত্ব দিয়ে শুরু হয়নি। এটি গেম দিয়ে শুরু হয়—গঠনমূলক জগত যেখানে আপনি ধারণা পরীক্ষা করতে পারেন, নিরাপদে ভুল করতে পারেন, এবং সাথে সাথেই ফিডব্যাক পেতে পারেন।
শৈশবে তিনি দাবা ও অন্যান্য কৌশলগত গেমে দক্ষ ছিলেন, যা দীর্ঘমেয়াদি পরিকল্পনার পরিচিতি তৈরি করে: আপনি কেবল একটি “ভালো চাল” বেছে নেন না, বরং এমন একটি চাল বেছে নেন যা কয়েক ধাপ পরে খেলার রূপ গঠন করে। সেই অভ্যাস—একক কৃত্য নয় বরং ক্রমের মধ্যে চিন্তা করা—বর্তমান এআই সিস্টেমগুলো কিভাবে সময়ের ওপর সিদ্ধান্ত নেওয়া শিখে তার সাথে ঘনিষ্ঠভাবে মিল রয়েছে।
প্রতিযোগিতামূলক গেম একটা বিশেষ রকমের শৃঙ্খলা চাপ দেয়:
এসব বাস্তবিক দক্ষতা; একটি শক্ত খেলোয়াড় ক্রমাগত প্রশ্ন করে: কোন বিকল্প পাওয়া যায়? প্রতিপক্ষ সম্ভবত পরবর্তীতে কী করবে? ভুল হলে খরচ কত?
হাসাবিস গেম তৈরি করতও, কেবল খেলত না। গেম ডেভেলপমেন্টে কাজ মানে অনেক ইন্টারঅ্যাকটিং অংশের সঙ্গে ডিল করা: নিয়ম, প্রণোদনা, সময়সীমা, অসুবিধার করভ এবং ছোট পরিবর্তন কীভাবে পুরো অভিজ্ঞতায় প্রভাব ফেলে।
এটাই কংক্রিটিভাবে “সিস্টেম চিন্তা”—পারফরম্যান্সকে একটি পুরো সেটআপের ফল হিসেবে দেখা, একক কৌশলের নয়। পরে এই মানসিকতা এআই গবেষণায় দেখা যায়: অগ্রগতি প্রায়ই ডেটা, প্রশিক্ষণ পদ্ধতি, কম্পিউট, মূল্যায়ন এবং স্পষ্ট উদ্দেশ্যের সঠিক সমন্বয়ের ওপর নির্ভর করে।
এই প্রাথমিক ভিত্তি—কৌশলগত খেলা ও জটিল, নিয়ম-ভিত্তিক পরিবেশ তৈরি করা—বঝায় কেন তার পরে কাজটি ইন্টারঅ্যাকশন ও ফিডব্যাকের মাধ্যমে শেখার ওপর জোর দিয়েছিল, কেবল হাতে-এইনকোডেড নির্দেশাবলীর ওপর নয়।
হাসাবিস স্নায়ুবিজ্ঞানকে এআই-এর থেকে ভিন্ন কোনো পথ হিসেবে দেখেননি। তিনি এটিকে কেবল ভালো প্রশ্ন করার উপায় হিসেবে দেখেন: অভিজ্ঞতা থেকে শেখা মানে কী? আমরা কীভাবে ব্যবহারযোগ্য জ্ঞান সংরক্ষণ করব বাল্বভাবে না করে? ভবিষ্যৎ অনিশ্চিত হলে পরবর্তী কর্ম কীভাবে ঠিক করব?
সরলভাবে, শেখা মানে ফিডব্যাকের ওপর ভিত্তি করে আচরণ পরিমার্জন করা। একটি শিশু একবার গরম মগ ছোঁয় এবং পরে বেশি সতর্ক হয়; এআই সিস্টেমও অনুরূপভাবে কাজ করতে পারে: কাজ করে দেখা, ফলাফল দেখা, এবং সামঞ্জস্য করা।
স্মৃতি মানে এমন তথ্য রাখা যা পরে কাজে লাগে। মানুষ জীবনের সবকিছু ভিডিও হিসেবে রেকর্ড করে না; আমরা প্যাটার্ন ও কিউ রাখি। এআই-তে স্মৃতি হতে পারে অতীত অভিজ্ঞতা সংরক্ষণ, অভ্যন্তরীণ সংক্ষিপ্তসার গঠন, বা তথ্য কম্প্রেস করা যাতে নতুন পরিস্থিতিতে তা ব্যবহার্য হয়।
পরিকল্পন হল সম্ভাব্য ফলাফল কল্পনা করে কর্ম বেছে নেওয়া। যখন আপনি ট্রাফিক এড়াতে রুট বেছে নেন, আপনি সম্ভাব্য ফলাফল কল্পনা করছেন। এআই-তে পরিকল্পনা প্রায়শই “যদি এটা হয়, তখন কী ঘটবে…” সিমুলেট করে এবং দেখা যায় কোন বিকল্পটি সবচেয়ে ভালো।
মস্তিষ্ক অধ্যয়ন কিছু সমস্যার দিকে ইঙ্গিত করে—যেমন সীমিত ডেটা থেকে দক্ষভাবে শেখা, বা দ্রুত প্রতিক্রিয়া ও বিবেচনামূলক চিন্তার মধ্যে ভারসাম্য। কিন্তু এটা অতিরঞ্জিত না করা গুরুত্বপূর্ণ: আধুনিক নিউরাল নেটওয়ার্ক মস্তিষ্ক নয়, এবং জৈবিক কপি করাই লক্ষ্য নয়।
মূল্য বাস্তবসম্মত: স্নায়ুবিজ্ঞান বুদ্ধিমত্তার প্রয়োজনীয় ক্ষমতাগুলোর বিষয়ে ইঙ্গিত দেয় (সাধারণীকরণ, অভিযোজন, অনিশ্চয়তার মধ্যে যুক্তি), আর কম্পিউটার সায়েন্স সেই ইঙ্গিতগুলোকে পরীক্ষাযোগ্য পদ্ধতিতে রূপান্তর করে।
হাসাবিসের পটভূমি দেখায় কিভাবে মিশ্র ক্ষেত্র লিভারেজ তৈরি করতে পারে। স্নায়ুবিজ্ঞান প্রাকৃতিক বুদ্ধিমত্তা সম্পর্কে কৌতূহল বাড়ায়; এআই গবেষণা মাপযোগ্য, উন্নত এবং তুলনা করা যায় এমন সিস্টেম তৈরি করতে বলে। একসাথে, তারা গবেষকদের বড় ধারণাগুলো—যেমন যুক্তি ও স্মৃতিকে—কংক্রিটিক পরীক্ষায় আনতে উৎসাহ দেয়।
DeepMind শুরু হয়েছিল একটি অনন্য, স্পষ্ট লক্ষ্য নিয়ে: একটি চতুর অ্যাপ বানানো নয়, বরং সাধারণ লার্নিং সিস্টেম তৈরি করা—সফটওয়্যার যা অভিজ্ঞতার মাধ্যমে শেখে এবং অনেক ভিন্ন সমস্যা সমাধান করতে উন্নতি করতে পারে।
এই উচ্চাভিলাষ সবকিছুকে আকার দিয়েছিল। মাসটা-«, “আগামী মাসে কোন ফিচার শিপ করব?” জিজ্ঞাসা করার বদলে প্রতিষ্ঠাতাদের প্রশ্ন ছিল “কিসের লার্নিং মেশিন এমন ব্যবহারিকভাবে ক্রমশ উন্নতি করতে পারে, এমনকি অদেখা পরিস্থিতিতেও?”
DeepMind-কে একটি সাধারণ সফটওয়্যার কোম্পানির চেয়ে বেশি একাডেমিক ল্যাবের মতো সংগঠিত করা হয়েছিল। আউটপুট ছিল কেবল প্রোডাক্ট নয়—এটি গবেষণা ফলাফল, পরীক্ষামূলক প্রতিবেদন, এবং পরীক্ষাযোগ্য পদ্ধতিও ছিল।
সাধারণ সফটওয়্যার কোম্পানি প্রায়শই শিপিং-কে অপটিমাইজ করে: ইউজার স্টোরি, দ্রুত ইটারেশন, রাজস্ব মাইলস্টোন, এবং ধাপে ধাপে উন্নতি।
DeepMind আবিষ্কারকে অপটিমাইজ করেছিল: ব্যর্থ হতে পারে এমন পরীক্ষার জন্য সময়, কঠিন সমস্যার গভীরে যাওয়া, এবং দীর্ঘ-মেয়াদী প্রশ্ন নিয়ে গঠিত টিম। এর মানে একাই ইঞ্জিনিয়ারিংকে উপেক্ষা করা নয়—ইঞ্জিনিয়ারিং ছিল গবেষণা অগ্রগতিকে সেবা করে।
বড় বাজিগুলো অস্পষ্ট হয়ে যেতে পারে যদি না সেগুলো পরিমাপযোগ্য লক্ষ্য দ্বারা সংযুক্ত থাকে। DeepMind অভ্যাস করেছিল বেঞ্চমার্ক বেছে নিতে যা পাবলিক, কঠিন, এবং মূল্যায়ন করা সহজ—বিশেষত গেম ও সিমুলেশন যেখানে সাফল্য অমিল্য।
এটা একটি ব্যবহারিক গবেষণা ছন্দ সৃষ্টি করে:
কাজটি নজরে আসার সঙ্গে DeepMind একটি বড় ইকোসিস্টেমের অংশ হয়ে ওঠে। 2014 সালে Google DeepMind-কে অধিগ্রহণ করে, যা এমন সম্পদ ও কম্পিউটিং স্কেল দেয় যা স্বাধীনভাবে মেলানো কঠিন।
গুরুত্বপূর্ণ বিষয় হলো প্রতিষ্ঠার সংস্কৃতি—উচ্চাভিলাষ ও কঠোর পরিমাপ—কেন্দ্রীয়ভাবে রয়ে যায়। DeepMind-এর প্রাথমিক পরিচয় ছিল “এআই টুল বানানো কোম্পানি” না, বরং “শেখার নিজেকেই কীভাবে তৈরি করা যায় তা বোঝার চেষ্টা করা জায়গা।”
রিইনফোর্সমেন্ট লার্নিং হচ্ছে এমন এক উপায় যা এআইকে করা মাধ্যমে শেখায়, প্রতিটি পরিস্থিতির জন্য “ঠিক উত্তর” দেখিয়ে না দিয়ে।
ধরা যাক কাউকে ফ্রি-থ্রো শুট করাতে শেখাচ্ছেন। আপনি প্রতিটি সম্ভাব্য হাতের কোণাবলী দিয়ে একটি স্প্রেডশিট দিচ্ছেন না। আপনি তাকে চেষ্টা করতে দেন, ফল দেখেন, এবং সরল ফিডব্যাক দেন: “এটা আরো কাছে ছিল,” “এটা অনেকটাই ছুটেছে,” “যা কাজ করেছে সেটা আরো করো।” সময়ের সাথে, সে সমন্বয় করে।
রিইনফোর্সমেন্ট লার্নিং একইভাবে কাজ করে। এআই একটি অ্যাকশন নেয়, কী হয় দেখতে পায়, এবং একটি স্কোর ("রিওয়ার্ড") পায় যা নির্দেশ করে ফলটি কতটা ভালো ছিল। লক্ষ্য হল এমন অ্যাকশন বেছে নেওয়া যা সময়ের সঙ্গে মোট রিওয়ার্ড বাড়ায়।
মূল ধারণা হল ট্রায়াল ও এরর + ফিডব্যাক। এটা ধীর শোনাতে পারে—যতক্ষণ না আপনি বুঝেন trials স্বয়ংক্রিয় করা যায়।
এক ব্যক্তি একটি বিকেলে ২০০ শট অনুশীলন করতে পারে। একটি এআই সিমুলেশনে মিলিয়নগুলো “শট” অনুশীলন করতে পারে, এমন প্যাটার্ন শিখে যা মানুষের জন্য বছর লাগতে পারে। এ কারণেই রিইনফোর্সমেন্ট লার্নিং গেম-খেলার এআই-তে কেন্দ্রীয় হিসেবে উঠেছে: গেমগুলোর নিয়ম স্পষ্ট, ফিডব্যাক দ্রুত, এবং সাফল্যের একটি পরিমাপযোগ্য উপায় থাকে।
অনেক এআই সিস্টেম লেবেলড ডেটার ওপর নির্ভর করে। রিইনফোর্সমেন্ট লার্নিং এই নির্ভরতা কমাতে পারে কারণ এটি নিজের অভিজ্ঞতা তৈরি করতে পারে।
সিমুলেশন দিয়ে এআই দ্রুত ও নিরাপদ “প্র্যাক্টিস এরেনা” তে অনুশীলন করে। সেল্ফ-প্লে দিয়ে নিজের কপির বিরুদ্ধে খেলে এটি ক্রমশ শক্ত প্রতিপক্ষ পায়। মানুষের দ্বারা লেবেল করানোর বদলে, এআই নিজে একটি প্রশিক্ষণ কারিকুলাম তৈরি করে প্রতিযোগিতা ও ইটারেশনের মাধ্যমে।
রিইনফোর্সমেন্ট লার্নিং জাদু নয়। প্রায়ই এটি বিশাল পরিমাণ অভিজ্ঞতা (ডেটা), ব্যয়বহুল কম্পিউট, এবং সতর্ক মূল্যায়ন দাবি করে—একটি এআই ট্রেনিং-এ জয়লাভ করে কিন্তু সামান্য আলাদা শর্তে ব্যর্থ হতে পারে।
নিরাপত্তা ঝুঁকিও আছে: ভুল রিওয়ার্ড অপ্টিমাইজ করলে অনাকাঙ্খিত আচরণ দেখা দিতে পারে, বিশেষত উচ্চ-প্রভাব ক্ষেত্রগুলোতে। লক্ষ্য ও টেস্টিং সঠিক রাখা শেখার মতোই জরুরি।
AlphaGo-র ২০১৬ ম্যাচ লি সেডল বিরুদ্ধে একটি সাংস্কৃতিক মোড় ছিল কারণ গো দীর্ঘদিন ধরে কম্পিউটারের জন্য "শেষ দুর্গ" হিসেবে গণ্য ছিল। দাবা জটিল, কিন্তু গো গ্রহণযোগ্যভাবে অতিরঞ্জিত: বোর্ডের সম্ভাব্য অবস্থার সংখ্যা অনেক বেশি, এবং ভাল চালগুলো প্রায়শই তাত্ক্ষণিক কৌশলের চেয়ে দীর্ঘমেয়াদি প্রভাব ও প্যাটার্ন-অন্তর্দৃষ্টির ওপর নির্ভর করে।
ব্রুট-ফোর্স পদ্ধতি—প্রত্যেক সম্ভাব্য ভবিষ্যত হিসাব করার চেষ্টা—কম্বিনেটোরিয়াল বিস্ফোরনে আটকে যায়। শক্ত গো খেলোয়াড়রাও প্রতিটি পছন্দকে সুনির্দিষ্ট গণনার সিরিজ হিসেবে ব্যাখ্যা করতে পারে না; বেশিরভাগই অভিজ্ঞতা থেকে গঠিত বিচার। আগের প্রজন্মের গেম-খেলা প্রোগ্রামগুলো প্রধানত হাতে-লিখিত নিয়মের ওপর নির্ভর করত, সেজন্যো গো তাদের জন্য খারাপ মিল ছিল।
AlphaGo কেবল "হিসাব করত না," এবং কেবল "শিখতও না।" এটি উভয় মিলিয়েছিল। এটি মানব গেমে প্রশিক্ষিত নিউরাল নেটওয়ার্ক (পরে সেল্ফ-প্লেতে প্রশিক্ষিত) ব্যবহার করে কোন চালগুলো সম্ভাবনাময় তা চিহ্নিত করত। তারপর তা নিয়ে একটি ফোকাসড সার্চ চালিয়ে ভেরিয়েশনগুলো পর্যবেক্ষণ করত। এটাকে ভাবুন অন্তর্দৃষ্টি (শিখিত প্যাটার্ন) ও বিবেচনা (আগে তাকানো) জোড়া করে কাজ করা—একটিকে ছাড়া অন্যটিতে নির্ভর করার বদলে।
জয় দেখালো যে মেশিন লার্নিং সিস্টেম এমন একটি ক্ষেত্র আয়ত্ত করতে পারে যেখানে ক্রিয়েটিভিটি, দূরবর্তী পরিকল্পনা, এবং সূক্ষ্ম ট্রেড-অফ মূল্যায়ন করা হয়—মানুষকে এনকোড না করেই।
এটি প্রমাণ করেনি যে AlphaGo-এর সাধারণ বুদ্ধিমত্তা আছে। এটি অপ্রাসঙ্গিক সমস্যায় তার দক্ষতা স্থানান্তর করতে পারে না, মানুষের মত ব্যাখ্যা করতে পারে না, বা গো-কে একটি মানবীয় সাংস্কৃতিক অনুশীলন হিসেবে বুঝতে পারে না। এটি একটি কাজেই অসাধারণ ছিল।
জনসাধারণের আগ্রহ বাড়ল, কিন্তু গভীর প্রভাব ছিল গবেষণার ভিতরে। ম্যাচটি একটি পথকে বৈধতা দিল: বৃহৎ-স্কেলের লার্নিং, নিজে থেকে উন্নতি করার অনুশীলন, এবং সার্চকে এক আমল হিসেবে ব্যবহার করে কিভাবে এলিট স্তরের পারফরম্যান্স পৌঁছানো যায় তার একটি ব্যবহারিক রেসিপি।
একটি শিরোনাম বিজয় এআইকে "সমাধান" মনে করাতে পারে, কিন্তু বেশিরভাগ সিস্টেম যা এক সেটিং-এ উজ্জ্বল তা নিয়ম বদলালে ব্যর্থ হয়। একটি বড় গল্প ব্রেকথ্রুকের পর হলো সংকীর্ণ, কাস্টম-সমাধান থেকে এমন পদ্ধতির দিকে ধাবিত হওয়া যা জেনারেলাইজ করতে পারে।
এআই-তে জেনারালাইজেশন হল নতুন পরিস্থিতিতে ভালো করা—যা আপনি স্পষ্টভাবে ট্রেন করেননি। এটা একটা বিষয়ে মুখস্ত করা না, বরং বিষয়টি বোঝার মতো।
একটি সিস্টেম যা কেবল একই শর্ত, একই প্রতিপক্ষ, একই পরিবেশে জিতে—তাও অত্যন্ত ভঙ্গুর হতে পারে। জেনারালাইজেশন প্রশ্ন করে: যদি আমরা শর্ত বদলাই, এটি কি নতুন করে শুরু না করে মানিয়ে নিতে পারবে?
গবেষকরা চেষ্টা করেন এমন লার্নিং উপায় ডিজাইন করতে যা টাস্কগুলো জুড়ে ট্রান্সফার করতে পারে, প্রতিটি টাস্কের জন্য আলাদা “কৌশল” লিখে ফেলা না:
মুখ্য কথা হলো: একটি মডেল সব কিছু এক সাথে না পারলেও, কতটা সমাধান পুনঃব্যবহারযোগ্য তা মাপেই অগ্রগতি নির্ধারিত হয়।
বেঞ্চমার্কগুলো হচ্ছে AI-এর “স্ট্যান্ডার্ড টেস্ট”: টিমগুলোকে তুলনা করতে, উন্নতি ট্র্যাক করতে, ও কি কাজ করে তা চিহ্নিত করতে দেয়। এগুলো বৈজ্ঞানিক অগ্রগতির জন্য অপরিহার্য।
কিন্তু বেঞ্চমার্ক ভুল পথে নিয়ে যেতে পারে যখন এগুলো নিজেই লক্ষ্য হয়ে যায়। মডেলগুলো বেঞ্চমার্কের কুউইক নিয়ে ওভারফিট করতে পারে, বা এমন লুপহোল ব্যবহার করে সফল হতে পারে যা বাস্তব বোঝাপড়া প্রতিফলিত না করে।
“মানব-স্তরের” সাধারণত মানে একটি নির্দিষ্ট মেট্রিকে নির্দিষ্ট সেটিং-এ মানুষের সমান করা—বৃহৎ নমুনার ক্ষেত্রে মানুষের মতো নমনী কৌশল, বিচার বা সাধারণ জ্ঞান থাকা নয়। একটি সিস্টেম সংকীর্ণ নিয়মে বিশেষজ্ঞদের ছাড়িয়ে যেতে পারে কিন্তু পরিবেশ বদলালেই তা লড়াই করতে পারে।
একটি উদযাপিত জয়ের পরে প্রকৃত শিক্ষা হলো গবেষণার শৃঙ্খলা: কঠিন বৈচিত্র্যগুলিতে পরীক্ষা করা, ট্রান্সফার মাপা, এবং প্রমাণ করা যে পদ্ধতি একটি একক ধাপে সীমাবদ্ধ নয়।
প্রোটিন হচ্ছে জীবের ভেতরের ছোট “মেশিন”। সেগুলো শুরু হয় একটি দীর্ঘ অ্যামিনো অ্যাসিড চেইন হিসেবে, তারপর সেই চেইন ভাঁজ হয়ে একটি নির্দিষ্ট 3D আকারে চলে—কাগজ ভাঁজ করে অরিগামি বানানোর মত।
ফাইনাল আকারটি গুরুত্বপূর্ণ কারণ এটা নির্ধারণ করে প্রোটিনটি কি করতে পারে: অক্সিজেন নিতে, সংক্রমণের বিরুদ্ধে লড়াই করতে, সংকেত পাঠাতে, বা টিস্যু তৈরি করতে। চ্যালেঞ্জ হলো একটি প্রোটিন চেইন অসংখ্যভাবে বাঁকতে পারে, এবং সঠিক আকার সিকোয়েন্স থেকে নির্ণয় করা কঠিন। দশক ধরে বিজ্ঞানীরা প্রায়ই ধীর, ব্যয়বহুল ল্যাব পদ্ধতি নির্ভর করতেন স্ট্রাকচার নির্ধারণে।
একটি প্রোটিনের স্ট্রাকচার জানা মানে একটি বিস্তারিত মানচিত্র থাকা, রাস্তার নাম নয়। এটি গবেষকদের সাহায্য করে:
এটি এমন কিছুই নয় যে প্রতিদিনই সরাসরি পণ্য হয়ে যায়; তবে এটি অনেক ডাউনস্ট্রিম অধ্যয়নের ভিত্তি উন্নত করে।
AlphaFold দেখিয়েছে যে মেশিন লার্নিং অনেক প্রোটিনের স্ট্রাকচার অত্যন্ত সঠিকভাবে পূর্বাভাস করতে পারে। এর মূল অবদান ছিল কাঠামো অনুমানের নির্ভরযোগ্যতা ও প্রবেশযোগ্যতা বাড়ানো—একটি বড় বটলনেককে গবেষণার শুরুতেই সমাধানের উপযোগী করে তোলা।
স্ট্রাকচার পূর্বাভাস করা মানে সরাসরি নিরাপদ ও কার্যকর ঔষধ তৈরি করা নয়। ড্রাগ ডিসকভারি এখনও লক্ষ্য যাচাই, অণু পরীক্ষণ, সাইড-এফেক্ট বোঝা, এবং ক্লিনিকাল ট্রায়ালের মতো ধাপ দাবি করে। AlphaFold-এর প্রভাব সবচেয়ে ভালভাবে বর্ণনা করা যায় “গবেষণাকে সক্ষম করা ও দ্রুততর করা”—ভাল স্টার্টিং পয়েন্ট দেয়, তাৎক্ষণিক চিকিৎসা দেয় না।
হাসাবিসের কাজ প্রায়শই AlphaGo বা AlphaFold-এর মতো প্রধান মুহূর্তের মাধ্যমে বর্ণিত হয়, কিন্তু আরও প্রয়োগযোগ্য পাঠ হলো কিভাবে DeepMind তাদের প্রচেষ্টা পরিচালিত করত: স্পষ্ট লক্ষ্য, মাপযোগ্য অগ্রগতি, এবং নিরবচ্ছিন্ন পুনরাবৃত্তির কড়া লুপ।
DeepMind-এর ব্রেকথ্রুক প্রকল্প সাধারণত একটি সোজা লক্ষ্য দিয়ে শুরু হয় এবং একটি সৎ স্কোরবোর্ড। সেই স্কোরবোর্ড গুরুত্বপূর্ণ কারণ এটি টিমকে চমকপ্রদ ডেমোকে প্রকৃত সক্ষমতার সাথে মিলিয়ে দেয় না।
একবার মূল্যায়ন সেট হয়ে গেলে কাজ হয়ে যায় পুনরাবৃত্তিমূলক: তৈরি করুন, টেস্ট করুন, ব্যর্থতা থেকে শিখুন, পদ্ধতি সমন্বয় করুন, পুনরাবৃত্তি করুন। লুপ কাজ শুরু করলে স্কেল করুন—আরও ডেটা, আরও কম্পিউট, আরও প্রশিক্ষণ সময়, ও প্রায়শই বড়, ভালো ডিজাইন করা মডেল। খুব আগেই স্কেল করলে কেবল বিভ্রান্তি দ্রুত বৃদ্ধি পায়।
আগের অনেক এআই সিস্টেম মানুষ দ্বারা লিখিত সুস্পষ্ট নিয়ম ব্যবহার করত ("যদি X, তাহলে Y")। DeepMind-এর সাফল্যগুলো দেখায় শিখিত রিপ্রেজেন্টেশন–গুলোর সুবিধা: সিস্টেম অভিজ্ঞতা থেকে নিজে দরকারী প্যাটার্ন ও বিমূর্ততা আবিষ্কার করে।
এইটা গুরুত্বপূর্ণ কারণ বাস্তব সমস্যা জটিল কিনারা। নিয়মগুলো জটিলতা বাড়লে ভেঙে পড়ে, কিন্তু শিখিত রিপ্রেজেন্টেশন সাধারণত আরও ভালো সাধারণীকরণ করে—বিশেষত শক্তিশালী প্রশিক্ষণ সংকেত ও সতর্ক মূল্যায়নের সঙ্গে।
DeepMind-স্টাইলের একটি বৈশিষ্ট্য হলো আন্তঃবিভাগীয় টিমওয়ার্ক। তত্ত্ব বলে কি কাজ করতে পারে, ইঞ্জিনিয়ারিং সেটিকে স্কেলে ট্রেন করে, আর পরীক্ষা সবাইকে সৎ রাখে। গবেষণা সংস্কৃতি প্রমাণকে মূল্য দেয়: যখন ফলাফল intuitional সঙ্গে ভিন্ন হয়, টিম ডেটা অনুসরণ করে।
আপনি যদি কোনো প্রোডাক্ট সেটিং-এ এআই প্রয়োগ করেন, পাঠটি নয় “মডেল কপি করো” বরং “পদ্ধতি কপি করো”:
যদি আপনি এই নীতিগুলো দ্রুত একটি অভ্যন্তরীণ টুলে রূপান্তর করতে চান (পূর্ণ ইঞ্জিনিয়ারিং পাইপলাইন না গড়ে), তবে Koder.ai-এর মতো একটি ভিআইব-ভিত্তিক প্ল্যাটফর্ম আপনাকে প্রোটোটাইপ ও শিপ করতে সাহায্য করতে পারে: আপনি চ্যাটে অ্যাপ বর্ণনা করে একটি React ওয়েব UI তৈরি করতে পারেন, একটি Go ব্যাকএন্ড PostgreSQL সহ যোগ করতে পারেন, এবং পরিকল্পনা মোড, স্ন্যাপশট, ও রোলব্যাক দিয়ে ইটারেট করতে পারেন। টিমের জন্য সোর্স-কোড এক্সপোর্ট ও ডেপ্লয়মেন্ট/হোস্টিং অপশনগুলোও দেয় যাতে "ওয়ার্কিং প্রোটোটাইপ" থেকে "নিজের-নিয়ন্ত্রিত প্রোডাকশন কোড" এ যেতে সুবিধা হয়, ডেমোতে আটকে না থেকে।
যখন এআই সিস্টেমগুলো নির্দিষ্ট টাস্কে মানুষকে মিলিয়ে বা অতিক্রম করতে শুরু করে, তখন কথোপকথন স্থানান্তরিত হয় “এটা কি বানানো যায়?” থেকে “এটা কি ডেপ্লয় করা উচিত, এবং কিভাবে?” একই ক্ষমতাগুলো যা এআই-কে মূল্যবান করে—গতি, স্কেল, স্বয়ংক্রিয়তা—তাই ভুল হলে বা অপব্যবহারে ফলও আরও গুরুতর হতে পারে।
অধিক ক্ষমতাসম্পন্ন মডেলগুলো তাদের নির্মাতাদের কল্পনায় না থাকা ভাবে পুনঃব্যবহার করা হতে পারে: প্রভাবশালী ভুল তথ্য তৈরি, সাইবার অপব্যবহার স্বয়ংক্রিয়করণ, বা বৃহৎ স্কেলে ক্ষতিকর সিদ্ধান্ত নেওয়া। মারাত্মক উদ্দেশ্য ছাড়াইও ব্যর্থতা বেশি প্রভাব ফেলতে পারে—ভুল চিকিৎসা পরামর্শ, পক্ষপাতযুক্ত নিয়োগ-ফিল্টার, বা বিষয় ভুলভাবে উপস্থাপিত আত্মবিশ্বাসী সারাংশ।
ফ্রন্টিয়ার সিস্টেম বানানোসংগঠনের জন্য নিরাপত্তা ব্যবহারিক বিষয়ও: বিশ্বাস হারানো, নিয়ন্ত্রক ঝুঁকি, ও বাস্তব-জগতের ক্ষতি প্রযুক্তিগত সীমাবদ্ধতা যতটা না অগ্রগতিকে ধ্বংস করতে পারে ততটাই করতে পারে।
দায়িত্বশীল উন্নয়ন সাধারণত হাইপের বদলে প্রমাণ জোর দেয়:
এসব পদক্ষেপ কোনও নিশ্চয়তা দেয় না, কিন্তু মিলিতভাবে তারা সম্ভাবনা কমায় যে মডেলের সবচেয়ে চমকপ্রদ আচরণটি জনসমক্ষে আবিষ্কৃত হবে।
উন্মুক্ত বিজ্ঞান ও ঝুঁকি ব্যবস্থাপনার মধ্যে একটি বাস্তব টানাপোড়েন আছে। পদ্ধতি প্রকাশ ও মডেল-ওজন রিলিজ করা গবেষণা ও স্বচ্ছতা ত্বরান্বিত করতে পারে, কিন্তু একই সময়ে অপপ্রয়োগকারীদের জন্য বাধা কমিয়ে দিতে পারে। দ্রুতগতিতে অগ্রসর হওয়া প্রতিযোগিতায় সুবিধা দিতে পারে, কিন্তু দ্রুতকালে ঝুঁকি নিয়ে আসতে পারে।
একটি গ্রাউন্ডেড পদ্ধতি হলো রিলিজ সিদ্ধান্তগুলোকে সম্ভাব্য প্রভাবের সাথে মিলানো: উচ্চ জায়গায় স্টেজড রোলআউট, স্বাধীন মূল্যায়ন, এবং সীমিত অ্যাক্সেস বিবেচনা করা উচিত—কমপক্ষে যতক্ষণ না ঝুঁকি ভালোভাবে বোঝা যায়।
হাসাবিসের প্রধান মাইলফলকগুলো—DeepMind-এর গবেষণা-প্রথম সংস্কৃতি, AlphaGo-এর সিদ্ধান্ত-গ্রহণে লাফ, এবং AlphaFold-এর জীববিজ্ঞানে প্রভাব—মিলে এক বড় পরিবর্তনের ইঙ্গিত দেয়: যখন আপনি একটি স্পষ্ট লক্ষ্য নির্দিষ্ট করতে পারেন, ফিডব্যাক দিতে পারেন, এবং লার্নিং স্কেল করতে পারেন, তখন এআই সাধারণ-উদ্দেশ্যের সমস্যাসমাধানকারী হয়ে উঠছে।
আরও গুরুত্বপূর্ণভাবে, এই জয়গুলো একটি প্যাটার্নও দেখায়। ব্রেকথ্রুক ঘটে যখন শক্তিশালী লার্নিং পদ্ধতি একত্রে আসে ঠিকভাবে ডিজাইন করা পরিবেশ (গেম, সিমুলেশন, বেঞ্চমার্ক) এবং যখন ফলাফল নির্মম, প্রকাশ্য মাপকাঠিতে পরীক্ষা করা হয়।
আধুনিক এআই প্যাটার্ন সনাক্তকরণ ও বিশাল সমাধান-স্থানগুলো দ্রুত অনুসন্ধান করতে বিশেষভাবে ভাল—বিশেষ করে ডেটা প্রচুর, নিয়মপালনযোগ্য বা একটি পরিমাপযোগ্য স্কোর থাকলে। এর মধ্যে প্রোটিন স্ট্রাকচার পূর্বাভাস, ইমেজ ও স্পিচ টাস্ক, এবং বহু ট্রায়াল চালিয়ে অপ্টিমাইজ করা জটিল সিস্টেম অন্তর্ভুক্ত।
সাধারণ কথায়: এআই অপশন সংকুচিত করা, লুকানো স্ট্রাকচার শনাক্ত করা, এবং দ্রুত খসড়া আউটপুট তৈরি করতে ভাল।
প্রচুর উন্নত সিস্টেমও ট্রেনিং কন্ডিশনের বাইরে ভঙ্গুর হতে পারে। তারা নিম্নরূপ সমস্যায় কষ্ট পেতে পারে:
এ কারণেই “বড়” স্বয়ংক্রিয়ভাবে “নিরাপদ” বা মানুষের প্রত্যাশার মতো “বুদ্ধিমান” নয়।
গহীনভাবে যেতে চাইলে, সেই ধারণাগুলোতে মনোযোগ দিন যেগুলো এই মাইলফলকগুলোকে সংযোগ করে: ফিডব্যাক-চালিত শেখা, মূল্যায়ন, এবং দায়িত্বশীল প্রয়োগ।
আরো এক্সপ্লেনার ও কেস স্টাডি দেখতে /blog ব্রাউজ করুন।
যদি আপনি তদন্ত করছেন যে কিভাবে এআই আপনার টিমকে সহায়তা করতে পারে (অথবা বাস্তবসম্মত প্রত্যাশা যাচাই করতে চান), /pricing-এ অপশনগুলো তুলনা করুন।
নির্দিষ্ট ব্যবহারকেস বা নিরাপদ ও বাস্তবসম্মত গ্রহণ সম্পর্কে প্রশ্ন থাকলে /contact-এ যোগাযোগ করুন।
ডেমিস হাসাবিস হলেন একজন ব্রিটিশ বিজ্ঞানী ও উদ্যোক্তা, যিনি DeepMind প্রতিষ্ঠা করেন। তিনি AlphaGo (গেম-খেলা) এবং AlphaFold (প্রোটিন স্ট্রাকচার পূর্বাভাস)–এর মতো এআই প্রতীকি মুহূর্তগুলোর সঙ্গে ঘনিষ্ঠভাবে যুক্ত, যেগুলো দেখিয়েছে যে লার্নিং-ভিত্তিক সিস্টেম নির্দিষ্ট, সুসংজ্ঞায়িত টাস্কে কিভাবে দক্ষ মানুষের পারফরম্যান্স ছাড়িয়ে যেতে পারে।
এটি সাধারণত অর্থ হয় নির্দিষ্ট মূল্যায়িত টাস্কে পারফরম্যান্স (যেমন, গো জেতা বা প্রোটিন স্ট্রাকচার সঠিকভাবে পূর্বাভাস দেওয়া)।
এটি মনে করে না যে সিস্টেমটির ব্যাপক সাধারণ বুদ্ধিমত্তা আছে, সহজে দক্ষতা ট্রান্সফার করতে পারে বা মানুষের মতোভাবে বিশ্বকে ‘বুঝে’।
DeepMind একটি গবেষণা-ল্যাব হিসেবে প্রথমে প্রতিষ্ঠিত হয়েছিল, একক-অ্যাপ শিপ করার চেয়ে সাধারণ লার্নিং সিস্টেমে দীর্ঘমেয়াদি অগ্রগতির দিকে নজর রাখার জন্য।
বাস্তবে এর মানে ছিল:
রিইনফোর্সমেন্ট লার্নিং (RL) হচ্ছে ট্রায়াল-এবং-এরর দিয়ে শেখার একটি উপায় যেখানে সিস্টেম একটি স্কোর সিগন্যাল (“রিওয়ার্ড”) থেকে শিখে। প্রতিটি পরিস্থিতির জন্য সঠিক উত্তর দেখিয়ে না দিয়ে, সিস্টেমটি কর্ম নেয়, ফলাফল দেখে এবং দীর্ঘমেয়াদি রিওয়ার্ড বাড়ানোর জন্য আচরণ আপডেট করে।
এটি বিশেষভাবে উপযোগী যখন:
সেল্ফ-প্লে মানে সিস্টেমটি নিজ কপির বিরুদ্ধে অনুশীলন করে, ফলে মানুষের দেওয়া লেবেল ছাড়াই প্রশিক্ষণের অভিজ্ঞতা তৈরি হয়।
এর সুবিধা:
গো-র সম্ভাব্য অবস্থার সংখ্যা অত্যধিক বেশি, ফলে ব্রুট-ফোর্স কৌশল কাজ করে না। AlphaGo সাফল্য পেয়েছিল:
এই মিশ্রণটি দেখালো কিভাবে ক্রিয়েটিভিটি, দূরবর্তী পরিকল্পনা এবং সূক্ষ্ম ট্রেডঅফের দরকারি পরিবেশে শীর্ষ স্তরের পারফরম্যান্স অর্জন করা যায়—হাতের নিয়ম লেখা ছাড়াই।
জেনারালাইজেশন মানে হল আপনি যা প্রশিক্ষণ করেননি এমন নতুন পরিস্থিতিতেও ভালো করা—নিয়ম বদলালে, নতুন সিনারিও হলে বা ডিস্ট্রিবিউশন পরিবর্তিত হলে।
টেস্ট করার ব্যবহারিক উপায়:
AlphaFold অনেক প্রোটিনের 3D আকৃতি অ্যামিনো-অ্যাসিড সিকোয়েন্স থেকে উচ্চ নির্ভুলতায় অনুমান করতে পারে।
এর প্রভাব:
তবে এটা সরাসরি প্রস্তুত ঔষধ নয়—ড্রাগ ডিসকভারি এখনও লক্ষ্য যাচাই, টক্সিসিটি, সাইড-এফেক্ট ও ক্লিনিকাল ট্রায়ালের মত ধাপ দাবি করে।
শিরোনাম মুহূর্তগুলির চেয়েও বেশী গুরুত্বপূর্ণ হলো DeepMind কিভাবে কাজকে আয়ত্ত করে: স্পষ্ট লক্ষ্য, পরিমাপযোগ্য উন্নতি, এবং ধারাবাহিক পুনরাবৃত্তি।
প্রতিকূল প্রকল্পের উপাদানগুলো সাধারণত ছিল: লক্ষ্য → মূল্যায়ন → পুনরাবৃত্তি → স্কেল।
প্রোডাক্ট টিমের জন্য ব্যবহারিক উপদেশগুলো:
একটি শক্ত মডেল বিভিন্নভাবে অপব্যবহার্য হতে পারে—তথ্যবিকৃতি তৈরি, সাইবার অপব্যবহার, বা বৃহৎ স্কেলে ক্ষতিকর সিদ্ধান্ত দ্রুতগতিতে নেওয়া। ভুল হলে ফলাফলগুলো বেশি গুরুতর হতে পারে: ভুল চিকিৎসা পরামর্শ, পক্ষপাতমূলক হায়ারিং ফিল্টার, বা অতিমাত্রায় আত্মবিশ্বাসী সারাংশ যা সত্য বলে উপস্থাপিত।
দায়িত্বশীল রিলিজ সাধারণত অন্তর্ভুক্ত করে:
উন্মুক্ততা ও ঝুঁকি-প্রতিরোধের মধ্যে ভিন্নমত থাকতে পারে; উচ্চ ঝুঁকির ক্ষেত্রে ধাপে ধাপে রোলআউট, স্বাধীন মূল্যায়ন ও সীমিত অ্যাক্সেস বিবেচনা করা উচিত।