LeCun-এর মূল ধারণা ও মাইলফলক অন্বেষণ করুন—CNN ও LeNet থেকে আধুনিক সেল্ফ-সুপারভাইজড লার্নিং পর্যন্ত—আর জানুন কেন তার কাজ আজকের এআই-এর রূপ নির্ধারণ করে।

ইয়ান লেকুন এমন এক গবেষক যাঁর ধারণাগুলো নীরবে আধুনিক এআই-এর “ডিফল্ট সেটিংস” হয়ে উঠেছে। যদি আপনি Face ID–স্টাইল আনলক, স্বয়ংক্রিয় ফটো ট্যাগিং, বা কোনো সিস্টেম ব্যবহার করে থাকেন যা ছবির বিষয় জানে, তাহলে আপনি এমন ডিজাইন চয়েসে আছেন যা লেকুন প্রমাণ করেছেন যে স্কেলে কাজ করতে পারে।
লেকুনের প্রভাব কেবল একক কোনো আবিষ্কারে সীমাবদ্ধ নয়। তিনি এআই-তে একটি বাস্তবসম্মত ইঞ্জিনিয়ারিং মাইন্ডসেট চাপিয়েছেন: বাস্তব ডেটা থেকে ব্যবহারযোগ্য প্রতিনিধিত্ব শিখাও, সিস্টেমগুলো দক্ষভাবে চালাও, এবং অভিজ্ঞতার সঙ্গে উন্নত হও। বৈজ্ঞানিক স্পষ্টতা আর বাস্তব-দুনিয়ার কর্মদক্ষতার ওপর জোর—এটা কম্পিউটার ভিশন প্রোডাক্ট থেকে আজকের মডেল-ট্রেনিং পাইপলাইনে সব জায়গায় দেখা যায়।
ডীপ লার্নিং হলো একটি বিস্তৃত পদ্ধতি: হাতে-কলমে নিয়ম লেখার বদলে মাল্টি-লেয়ার নিউরাল নেটওয়ার্ক ব্যবহার করে ডেটা থেকে প্যাটার্ন শেখা।
সেল্ফ-সুপারভাইজড লার্নিং হলো একটি প্রশিক্ষণ কৌশল: সিস্টেম নিজেই ডেটা থেকে একটি শিখন টাস্ক তৈরি করে (উদাহরণস্বরূপ, অনুপস্থিত অংশ ভবিষ্যদ্বাণী করা), ফলে বিশাল অপরিচিত (unlabeled) ডেটা থেকে শেখা যায়। লেকুন SSL-এর প্রবক্তা, কারণ এটি মানুষ ও প্রাণীর শিক্ষার সাথে মিল রাখে—পর্যবেক্ষণ থেকে শেখা, ধারাবাহিক নির্দেশনা নয়।
এটি আংশিক জীবনবৃত্তান্ত, আংশিক মূল ধারণাগুলোর ভ্রমণ: কীভাবে প্রাথমিক নিউরাল-নেটওয়ার্ক কাজ কনভলিউশনাল নেটওয়ার্কে পৌঁছিয়েছিল, কেন রিপ্রেজেন্টেশন লার্নিং কেন্দ্রবিন্দু হয়ে উঠল, এবং কেন সেল্ফ-সুপারভাইজড লার্নিং এখনই অধিক সক্ষম এআই-এর দিকে একটি গম্ভীর পথ। আমরা শেষ করব টিমগুলোর জন্য ব্যবহারিক টেকঅওয়েগুলোর সঙ্গে—যারা আজ এআই নির্মাণ করছে।
একটি ছোট নোট “ডীপ লার্নিং-এর গডফাদার” শিরোনামের ব্যাপারে: এটা একটি জনপ্রিয় শর্টহ্যান্ড (অften LeCun, Geoffrey Hinton, এবং Yoshua Bengio-র জন্য ব্যবহৃত), নিয়মিত খেতাব নয়। যা গুরুত্বপূর্ণ সেটা হলো আইডিয়াগুলোর ট্র্যাক রেকর্ড যেগুলো ভিত্তি গঠন করেছে।
ইয়ান লেকুনের প্রারম্ভিক ক্যারিয়ার বোঝা সহজ—এটি ছিল এক ধারাবাহিক বাজি: কম্পিউটার সঠিক ফিচার শিখুক কাঁচা ডেটা থেকে, মানুষের দ্বারা হাতে-কলমে ডিজাইন করা নয়।
১৯৮০-এর দশকের মাঝামাঝি থেকে শেষ ভাগে, লেকুন বাস্তব, জেদী সমস্যায় মনযোগ দিয়েছিলেন: কিভাবে মেশিনকে গোলমেলে বাস্তব-জগতের ইনপুট—যেমন ছবি—থেকে প্যাটার্ন চিনতে শেখানো যায়।
১৯৮০-এর শেষ এবং ১৯৯০-এর শুরুতে, তিনি এমন নিউরাল-নেটওয়ার্ক পদ্ধতি প্রচার করছিলেন যেগুলো এন্ড-টু-এন্ড ট্রেন করা যায়—মানে উদাহরণ দিলে সিস্টেম নিজেই নিজেকে উন্নত করে।
এই সময়ের কাজ পরবর্তীতে (যেমন CNNs এবং LeNet) তাঁর পরিচিত কাজগুলোর ভিত্তি স্থাপন করে, কিন্তু মূল গল্পটি মানসিকতা: নিয়ম নিয়ে বিতর্ক করা বন্ধ করুন; ডেটা থেকে শেখা শুরু করুন।
আগের অনেক AI স্পষ্ট নিয়ম এনকোড করতে চেয়েছিল: “যদি X, তাহলে Y।” কঠোর নিয়ন্ত্রিত অবস্থায় সেটা কাজ করে, কিন্তু গোলমেলে বাস্তবে—বিভিন্ন হস্তলিখন, আলোর পরিবর্তন, ভিউপয়েন্ট শিফটে—এটা টেনে উঠতে পারে না।
লেকুনের উপায় ঝুঁকে পড়ে স্ট্যাটিস্টিক্যাল লার্নিং-এর দিকে: বহু উদাহরণে ট্রেন করে মডেল এমন প্যাটার্ন আবিষ্কার করুক যেগুলো মানুষ হয়তো স্পষ্টভাবে বর্ণনা করতে পারবে না। একটি "7" কেমন দেখায় তা নিয়ে নিয়মের দীর্ঘ তালিকা বানানোর বদলে, সিস্টেমকে হাজার হাজার “7” দেখান, এবং এটি এমন একটি রিপ্রেজেন্টেশন শিখবে যা “7”-কে “1” বা “2” থেকে আলাদা করে।
শুরু থেকেই লক্ষ্য ছিল কেবল সঠিক উত্তর পাওয়া নয়। লক্ষ্য ছিল ব্যবহারযোগ্য অভ্যন্তরীণ প্রতিনিধিত্ব শেখা—কম্প্যাক্ট, পুনঃব্যবহারযোগ্য ফিচার যা ভবিষ্যৎ সিদ্ধান্তকে সহজ করে দেয়। সেই থিমটি পরবর্তীতে সব কাজ জুড়ে দেখা যায়: উন্নত ভিশন মডেল, বেশি স্কেলেবল ট্রেনিং, এবং অবশেষে সেল্ফ-সুপারভাইজড লার্নিং-এর দিকে ধাবিত করা।
CNN হলো এমন এক ধরণের নিউরাল নেটওয়ার্ক যা ছবি (বা গ্রিডে বিন্যস্ত অন্য কিছু, যেমন ভিডিও ফ্রেম) থেকে প্যাটার্ন “দেখার” জন্য ডিজাইন করা। এর প্রধান কৌশল হল কনভলিউশন।
কনভলিউশনকে ভাবুন একটি ছোট প্যাটার্ন ডিটেক্টর হিসেবে যা ছবির ওপর স্লাইড করে। প্রতিটি অবস্থানে এটি প্রশ্ন করে: “এখানে কি কোন প্রান্ত, কোন কোণ, একটা স্ট্রাইপ, নাকি টেক্সচার দেখা যাচ্ছে?” একই ডিটেক্টর কোথাও বারবার ব্যবহার করা হয়, তাই এটি যে কোনো জায়গায় ঐ প্যাটার্নটি শনাক্ত করতে পারে।
লোকাল কানেক্টিভিটি: প্রতিটি ডিটেক্টর একটি ছোট প্যাচ দেখে (পুরো ছবি নয়)। এর ফলে শেখা সহজ হয় কারণ কাছাকাছি পিক্সেল সাধারণত সম্পর্কিত।
শেয়ার্ড ওয়েটস: স্লাইডিং ডিটেক্টরটি প্রতিটি অবস্থানে একই সংখ্যাগুলি (ওয়েটস) ব্যবহার করে। এতে প্যারামিটার গননা অনেক কমে এবং মডেল একই ফিচার বিভিন্ন জায়গায় চিনতে সাহায্য পায়।
পুলিং (বা ডাউনস্যাম্পলিং): ফিচার ডিটেকশনের পরে নেটওয়ার্ক প্রায়ই কাছাকাছি রেসপন্স সারসংক্ষেপ করে (যেমন max বা average নেয়)। পুলিং শক্তিশালী সংকেত রাখে, আকার কমায়, এবং ছোট শিফটের প্রতি কিছুটা স্থিতিস্থাপকতা যোগ করে।
ছবিতে গঠন আছে: কাছের পিক্সেলগুলো অর্থবহ আকৃতি গঠনে সাহায্য করে; একই অবজেক্ট যেকোন জায়গায় দেখাতে পারে; এবং প্যাটার্নগুলো পুনরাবৃত্তি করে। CNN এই অনুমানগুলো আর্কিটেকচারের মধ্যে ঢুকিয়ে দেয়, তাই তারা ফিচার শেখে তুলনামূলকভাবে কম ডেটা এবং কম কম্পিউট দিয়ে, একটি পূর্ণভাবে সংযুক্ত নেটওয়ার্কের চেয়ে সহজে।
একটি CNN হলো কেবল "বড় ক্লাসিফায়ার" নয়। এটি একটি ফিচার-বিল্ডিং পাইপলাইন: শুরুয়ের স্তরগুলো প্রান্ত খুঁজে পায়, মধ্যবর্তী স্তরগুলো সেগুলোকে অংশে মিলায়, এবং পরে স্তরগুলো অংশগুলোকে বস্তুতে গঠন করে।
আরও, CNNs স্বয়ংক্রিয়ভাবে "দৃশ্যমান বস্তু বুঝে" বলে দাবি করে না; তারা প্রশিক্ষণ ডেটার থেকে স্ট্যাটিস্টিকাল সংকেত শেখে। তাই ডেটার গুণগত মান এবং মূল্যায়ন মডেল জিতানোর চাইতেও ততটাই গুরুত্বপূর্ণ।
LeNet 1990-এর দশকে ইয়ান লেকুন ও সহযোগীদের তৈরি একটি প্রাথমিক কিন্তু স্পষ্ট উদাহরণ যে ডীপ লার্নিং গ্রহণযোগ্যভাবে প্রয়োগযোগ্য—শুধু মনোগ্রাহী নয়। এটি হাতের লেখা ক্যারেক্টার, বিশেষ করে ডিজিট চিনতে তৈরি করা হয়েছিল—চেক, ফর্ম এবং অন্যান্য স্কেন করা ডকুমেন্টে ব্যবহারের মতো।
উচ্চ স্তরে, LeNet একটি ছবি নেয় (উদাহরণস্বরূপ, একটি ছোট গ্রেস্কেল ক্রপ যা একটি সংখ্যা ধারণ করে) এবং একটি ক্লাসিফিকেশন (0–9) প্রদান করে। এখন এটা সাধারণ মনে হলেও এটি গুরুত্বপূর্ণ ছিল কারণ এটি পুরো পাইপলাইনকে একত্রিত করেছিল: ফিচার এক্সট্র্যাকশন ও ক্লাসিফিকেশন—দুটোকেই একসঙ্গে শেখা হল।
হাতে-কলমে তৈরি নিয়মের ওপর নির্ভর না করে—যেমন "এজ ডিটেক্ট করো, পরে লুপ মাপো, পরে ডিসিশন ট্রি লাগাও"—LeNet লেবেলড উদাহরণ থেকে অভ্যন্তরীণ ভিজ্যুয়াল ফিচার শেখে।
LeNet-এর প্রভাব চমকপ্রদ ডেমোর উপর নয়। এটি প্রভাবশালী ছিল কারণ এটি দেখিয়েছে যে এন্ড-টু-এন্ড লার্নিং বাস্তব ভিশন কাজের জন্য কার্যকর হতে পারে:
"ফিচার এবং ক্লাসিফায়ার একসঙ্গে শেখ"—এই ধারণাটি পরবর্তী ডীপ লার্নিং সাফল্যগুলোর প্রধান থ্রু-লাইন।
আজকের ডীপ লার্নিং-এ যে অনেক অভ্যাস স্বাভাবিক বলে মনে হয়, সেগুলো LeNet-এর মূল দর্শনে দেখা যায়:
যদিও আধুনিক মডেলগুলো বেশি ডেটা, বেশি কম্পিউট এবং গভীর আর্কিটেকচার ব্যবহার করে, LeNet সেই ধারণাকে স্বাভাবিক করে দিয়েছিল যে নিউরাল নেটওয়ার্ক বাস্তব পারসেপশন সমস্যার জন্য ব্যবহারযোগ্য ইঞ্জিনিয়ারিং টুল।
প্রতিশ্রুতি অনুযায়ী রাখা ভালো: LeNet “প্রথম ডীপ নেটওয়ার্ক” ছিল না, এবং এটি একা একা ডীপ লার্নিং বুম শুরু করেনি। কিন্তু এটি একটি সুপরিচিত মাইলফলক তা নিশ্চিত—দেখিয়ে দিল যে শিখিত প্রতিনিধিত্ব হাতে-কলমে ডিজাইনকৃত পাইপলাইনের থেকে গুরুত্বপূর্ণ সমস্যা সমাধানে ভালো পার করতে পারে—ডীপ লার্নিং মেইনস্ট্রিম হওয়ার বহু বছর আগে।
রিপ্রেজেন্টেশন লার্নিং ধারণা হলো: মডেল শুধু চূড়ান্ত উত্তর শেখা ছাড়াও ব্যবহারযোগ্য অভ্যন্তরীণ ফিচার শেখা উচিত, যা অনেক ধরনের সিদ্ধান্তকে সহজ করে।
একটা গোছানো পোশাকপাট সাজানোর কথা ভাবুন। আপনি প্রতিটি আইটেম আলাদা আলাদা লেবেল করতে পারেন ("নীল শার্ট", "শীতকালীন কোট", "রানিং শু"), বা আপনি প্রথমে বিভাগ তৈরি করতে পারেন—ঋতু, টাইপ, সাইজ—তারপর সেই বিভাগগুলো ব্যবহার করে দ্রুত খুঁজে পেতে পারেন।
ভাল "রিপ্রেজেন্টেশন" হলো সেই বিভাগগুলোর মতো: সংক্ষিপ্ত উপায়ে বিশ্বের বর্ণনা যা অনেক downstream কাজকে সহজ করে।
ডীপ লার্নিং-এর আগে টিমগুলো সাধারনত হাতে-কলমে ফিচার ইঞ্জিনিয়ার করত: এজ ডিটেক্টর, টেক্সচার বর্ণক, সুনিয়ন্ত্রিত মাপ। সেই পদ্ধতির দুটি বড় সীমা:
লেকুনের মূল অবদান—কনভলিউশনাল নেটওয়ার্কের মাধ্যমে জনপ্রিয় হয়ে—ছিল দেখানো যে ডেটা থেকে সরাসরি ফিচার শেখালে হাতে-কলমে তৈরি ফিচারের তুলনায় ভাল পারফরম্যান্স পাওয়া যায়, বিশেষত সমস্যা গোলমেলে ও বৈচিত্র্যময় হলে। বদলে বলে দেওয়ার বদলে আপনি সিস্টেমকে ভবিষ্যদ্বাণী করান কোন প্যাটার্নই প্রকৃতপক্ষে প্রেডিক্টিভ।
একটি শক্তিশালী প্রতিনিধিত্ব শেখার পরে সেটি পুনঃব্যবহার করা যায়। সাধারণ ভিজ্যুয়াল স্ট্রাকচার (এজ → শেপ → অংশ → অবজেক্ট) বুঝতে প্রশিক্ষিত একটি নেটওয়ার্ক কম ডেটা দিয়ে নতুন টাস্কে অভিযোজিত করা যায়: ত্রুটি শনাক্তকরণ, মেডিক্যাল ইমেজিং ট্রায়াজ, প্রোডাক্ট ম্যাচিং ইত্যাদি।
এইটাই রিপ্রেজেন্টেশনের ব্যবহারিক জাদু: প্রতিবার শূন্য থেকে শুরু করছেন না—আপনি ইনপুটের একটি পুনঃব্যবহারযোগ্য “বুঝবার” ওপর নির্মিত হচ্ছেন।
টিম বিল্ডিং-এ রিপ্রেজেন্টেশন লার্নিং একটি সরল অগ্রাধিকার নির্দেশ করে:
এই তিনটি ঠিক করলে, ভাল প্রতিনিধিত্ব এবং ভাল পারফরম্যান্স সাধারণত অনুসরণ করে।
সেল্ফ-সুপারভাইজড লার্নিং হলো এমনভাবে এআই শেখানো যাতে কাঁচা ডেটাকে নিজের একটি “কুইজ” বানিয়ে শেখা যায়। মানুষকে প্রতিটি উদাহরণ লেবেল করতে না দিয়ে, সিস্টেম ডেটা থেকেই পূর্বাভাসযোগ্য টাস্ক তৈরি করে এবং তা সঠিক করার চেষ্টা করে শেখে।
এটাকে এমনভাবে ভাবুন—আপনি পড়ে ভাষা শিখছেন: সব বাক্য একে-একটি শিক্ষক করেই লেবেল করতে হবে না—আপনি পরবর্তী শব্দ অনুমান করে প্যাটার্ন শিখতে পারেন এবং দেখে নেবেন আপনি সঠিক কিনা।
কয়েকটি সাধারণ সেল্ফ-সুপারভাইজড টাস্ক:
লেবেল করা ধীর, ব্যয়বহুল এবং অনিয়মিত। সেল্ফ-সুপারভাইজড লার্নিং অনেক অপরিচিত ডেটা (ফটো, ডকুমেন্ট, কল রেকর্ড, সেন্সর লগ) ব্যবহার করে সাধারণ প্রতিনিধিত্ব শেখতে পারে। তারপর একটি ছোট লেবেলড ডেটাসেটে ফাইন-টিউন করে নির্দিষ্ট কাজের জন্য অভিযোজিত করা যায়।
SSL আধুনিক সিস্টেমগুলোর প্রধান চালিকাশক্তি:
এটি বেছে নেওয়া মূলত এক বিষয়ে নির্ভর করে: কোন ধরনের সিগন্যাল আপনি স্কেলে বাস্তবসম্মতভাবে পেতে পারবেন।
সুপারভাইজড লার্নিং ইনপুট-মানচিত্রকে মানব-প্রদান করা লেবেলের সাথে ট্রেন করে (যদি লেবেল সঠিক থাকে তা হলে এটি সরাসরি ও কার্যকর)।
আনসুপারভাইজড লার্নিং লেবেল ছাড়া গঠন খোঁজে (ক্লাস্টারিং ইত্যাদি)।
সেল্ফ-সুপারভাইজড লার্নিং হলো মাঝামাঝি: এটি ডেটা থেকেই প্রশিক্ষণ টার্গেট তৈরি করে (মিসিং ওয়র্ড/প্যাচ প্রেডিকশন ইত্যাদি)। আপনি এখনও লার্নিং সিগন্যাল পান, কিন্তু ম্যানুয়াল লেবেল দরকার হয় না।
লেবেলিং মূল্যের কারণ হয়ে ওঠে যখন:
লেবেল ব্যয়বহুল হয়ে যায় যখন:
একটি সাধারণ প্যাটার্ন:
এটি লেবেলিং প্রয়োজনীয়তা কমায়, কম-ডেটা সেটিংসে পারফরম্যান্স বাড়ায়, এবং সম্পর্কিত টাস্কে ভাল ট্রান্সফার দেয়।
সেরা পছন্দ সাধারণত লেবেলিং সক্ষমতা, সময়ের সাথে ডোমেন পরিবর্তনের প্রত্যাশা, এবং মডেলকে কতদূর সাধারণীকরণ করতে চান তার দিকনির্ভর।
এনার্জি-বেসড মডেল (EBMs) শেখার এমন একটি উপায় যা “র্যাঙ্কিং” এর কাছাকাছি—শুধু লেবেল চাপানো নয়। মডেলটি একটি স্কোরিং ফাংশন শেখে: যৌক্তিক কনফিগারেশনগুলোতে নিম্ন “এনার্জি” (ভালো), এবং অনৌপযুক্ত কনফিগারেশনগুলোতে উচ্চ এনার্জি (খারাপ)।
একটি “কনফিগারেশন” অনেক কিছু হতে পারে: একটি ছবি ও তার প্রস্তাবিত ক্যাপশন, একটি আংশিক সিন এবং অনুপস্থিত বস্তু, বা একটি রোবট স্টেট ও প্রস্তাবিত অ্যাকশন। EBM-এর কাজ হলো বলে দেওয়া—"এই জোড়াটি মানায়" (নিম্ন এনার্জি) বা "এটি অসমঞ্জস" (উচ্চ এনার্জি)।
এই সহজ ধারণাটি শক্তিশালী কারণ এটি বিশ্বের একক লেবেলে কমিয়ে দেওয়ার প্রয়োজন করে না। বিকল্পগুলি তুলনা করে সর্বোচ্চ-স্কোরিংটি বেছে নেওয়া যায়—মানুষ প্রায়শই সমস্যার সমাধান এইভাবে করেন: বিকল্প বিবেচনা করা, অননুমোদিতগুলো বাদ দেওয়া, এবং পরিশোধন করা।
গবেষকরা EBM-কে পছন্দ করেন কারণ এটি নমনীয় প্রশিক্ষণ উদ্দেশ্য দেয়। আপনি মডেলটি বাস্তব উদাহরণগুলোকে নিচে (নিম্ন এনার্জি) টেনে আনতে এবং ভুল বা “নেগেটিভ” উদাহরণগুলোকে উপরে (উচ্চ এনার্জি) ঠেলতে ট্রেন করতে পারেন। এটি ডেটার গঠন—নিয়মিততা, সীমাবদ্ধতা, সম্পর্ক—শেখাতে সাহায্য করতে পারে, কেবল ইনপুট-টু-আউটপুট ম্যাপ মনে করিয়ে দেওয়ার পরিবর্তে।
লেকুন এই দৃষ্টিভঙ্গিটাকে বড় লক্ষ্যগুলোর সাথে জড়িয়ে দিয়েছেন, যেমন “ওয়ার্ল্ড মডেল”: অভ্যন্তরীণ মডেল যা বিশ্বের কিভাবে কাজ করে তা ধরতে পারে। যদি কোনো মডেল প্লজিবলিটি স্কোর করতে পারে, তবে এটি পরিকল্পনা সমর্থন করবে—প্রতিযোগিতামূলক ভবিষ্যত বা অ্যাকশন সিকোয়েন্স মূল্যায়ন করে বাস্তবসম্মত থাকার পছন্দ করা।
লেকুন এমন একজন শীর্ষ AI গবেষক যাঁর প্রভাব একাডেমিক গবেষণা এবং বড় ইন্ডাস্ট্রি ল্যাব—উভয় জায়গায় প্রসারিত। বিশ্ববিদ্যালয়গুলো ও গবেষণা প্রতিষ্ঠানগুলোতে তাঁর কাজ নিউরাল নেটওয়ার্ককে হাতে-কলমে ফিচারের ব্যবহারিক বিকল্প হিসেবে প্রতিষ্ঠা করতে সাহায্য করেছে—এক ধারণা যা পরে কম্পিউটার ভিশন ও অন্যান্য ক্ষেত্রে ডিফল্ট হয়ে উঠেছে।
একটি গবেষণা ক্ষেত্র শুধুই পেপারে এগোয় না; এটি সেই গ্রুপগুলোর মাধ্যমেও এগোয় যারা পরবর্তী তৈরির সিদ্ধান্ত নেয়—কি বানাবেন, কোন বেঞ্চমার্ক ব্যবহার করবেন, কোন আইডিয়া স্কেল করবেন। টিম নেতৃত্ব ও গবেষকদের মেন্টরিং করে লেকুন রিপ্রেজেন্টেশন লার্নিং এবং পরে সেল্ফ-সুপারভাইজড লার্নিংকে দীর্ঘমেয়াদি প্রোগ্রামে রূপান্তরিত করতে সাহায্য করেছেন, এককালীন পরীক্ষার মতো নয়।
ইন্ডাস্ট্রি ল্যাবগুলোর কিছু ব্যবহারিক কারণ আছে:
Meta AI একটি উল্লেখযোগ্য উদাহরণ: যেখানে মৌলিক গবেষণা টিমগুলো আইডিয়া স্কেলে পরীক্ষা করে দেখতে পারে এবং কিভাবে মডেল পছন্দ বাস্তবে সিস্টেমকে প্রভাবিত করে তা দেখা যায়।
যখন নেতৃত্ব ভালো প্রতিনিধিত্ব, কম লেবেল নির্ভরতা, এবং শক্তিশালী জেনারালাইজেশনের দিকে গবেষণা এগিয়ে নিয়ে যায়, সেই অগ্রাধিকার বহির্বিশ্বে ছড়িয়ে পড়ে। এটি এমন টুলগুলোর ওপর প্রভাব ফেলে যেগুলো ব্যবহারকারীরা দেখতে পায়—ফটো সংগঠন, অনুবাদ, অ্যাক্সেসিবিলিটি ফিচার (ছবি বিবরণ), কনটেন্ট বোঝাপড়া, এবং রেকমেন্ডেশন। ব্যবহারকারীরা “সেল্ফ-সুপারভাইজড” শব্দটি না জেনেও লাভ পায়: মডেলগুলো দ্রুত অভিযোজিত হয়, কম অ্যানোটেশন লাগে, এবং বাস্তব-জগতের বৈচিত্র্য সামলাতে বেশি নমনীয়।
২০১৮ সালে ইয়ান লেকুন ACM A.M. টুরিং অ্যাওয়ার্ড পেয়েছিলেন—প্রায়শই "কম্পিউটিং-এ নোবেল" বলা হয়। এটি স্বীকৃতি দেয় যে ডীপ লার্নিং কিভাবে ক্ষেত্রটিকে বদলে দিয়েছে: ভিশন বা স্পিচের জন্য হাতে-কলমে নিয়ম লেখার পরিবর্তে, গবেষকরা ডেটা থেকে ব্যবহারযোগ্য ফিচার শেখাতে পারলেন, যার ফলে সঠিকতা ও ব্যবহারিক কার্যকারিতা বড় করে উঠল।
এই সম্মানটি Geoffrey Hinton ও Yoshua Bengio-র সঙ্গে ভাগ করা হয়েছিল। এটা গুরুত্বপূর্ণ কারণ এটা দেখায় কিভাবে আধুনিক ডীপ লার্নিং কাহিনী একক ব্যক্তি নয়—বিভিন্ন গ্রুপ ভিন্ন টুকরো এগিয়ে নিয়ে গিয়েছে, কখনো সমান্তরাল, কখনো পরস্পরের কাজে ভর করে।
এটি কোনো এক কিলার পেপার বা একক মডেলের জন্য নয়। বরং দীর্ঘস্থায়ী ধারার ধারণাগুলো বাস্তব-জগতের সিস্টেমে পরিণত হওয়ার জন্য—বিশেষত নিউরাল নেটওয়ার্ক স্কেলে ট্রেনযোগ্য হয়ে ওঠা এবং সাধারণীকরণযোগ্য প্রতিনিধিত্ব শেখা—এর উপর দৃষ্টি দেয়।
অ্যাওয়ার্ডগুলো প্রগতি কয়েকটি “নায়কের” মাধ্যমে দেখাতে পারে, কিন্তু বাস্তবতা বেশি সমষ্টিগত:
সুতরাং টুরিং অ্যাওয়ার্ডটি একটি মোক্ষশক্তি হিসেবে পড়া উচিত—কেননা এটি একটি কম্পিউটিংতে একটি মোড়ের দিকে আলোকপাত করে যেখানে লেকুন, হিনটন, এবং বেঙ্গিও প্রত্যেকে ডীপ লার্নিং বিশ্বাসযোগ্য ও প্রয়োগযোগ্য করে তুলেছেন।
ডীপ লার্নিং-র সাফল্য থাকা সত্ত্বেও, লেকুনের কাজ এমন এক কর্মকাণ্ডের মধ্যে আছে যা সক্রিয় বিতর্কে আছে: আজকের সিস্টেমগুলো কোন কাজ ভালো করে, কোথায় এখনও দুর্বল, এবং কোন গবেষণা দিকগুলো গ্যাপ বন্ধ করতে পারে।
কয়েকটি প্রায়ই উঠে আসা প্রশ্ন:
ডীপ লার্নিং ঐতিহাসিকভাবে ডেটা-হাংরি: সুপারভাইজড মডেল বড় লেবেলড ডেটাসেট প্রয়োজন যা সংগ্রহ দামী এবং মানবগত পক্ষপাত বহন করে।
জেনারালাইজেশন অসমান। বেঞ্চমার্কে মডেল চমকপ্রদ হলেও বাস্তবে নতুন জনসংখ্যা, নতুন ডিভাইস, নতুন ওয়ার্কফ্লো বা নতুন নীতিতে ঢোকালে দুর্বলতা দেখা যায়। এই গ্যাপই অনেক টিমকে মনিটরিং, রিট্রেইনিং, এবং একক টেস্ট সেট ছাড়াও মূল্যায়নে বিনিয়োগ করতে বাধ্য করে।
SSL লক্ষণীয় কারণ: লেবেল-নির্ভরতা কমানো—কাঁচা ডেটার ভিতরে থাকা গঠন থেকে শিখে: অনুপস্থিত অংশ ভবিষ্যদ্বাণী, ইনভারিয়ান্স শেখা, বা বিভিন্ন ভিউ মিলিয়ে নেওয়া।
প্রতিশ্রুতি সরল: যদি সিস্টেম বিশাল অপরিচিত টেক্সট/ইমেজ/অডিও/ভিডিও থেকে ব্যবহারযোগ্য প্রতিনিধিত্ব শিখতে পারে, তাহলে ছোট লেবেলড সেটগুলো যথেষ্ট হয়ে উঠতে পারে নির্দিষ্ট কাজের জন্য অভিযোজন করতে। SSL আরও সাধারণ ফিচার শেখায় যা বিভিন্ন সমস্যায় ট্রান্সফার করে।
প্রমাণিত: SSL ও রিপ্রেজেন্টেশন লার্নিং লেবেল-স্বল্প পরিবেশে পারফরম্যান্স ও পুনঃব্যবহার নাটকীয়ভাবে বাড়াতে পারে।
গবেষণার আয়তনে থাকা বিষয়: বিশ্ব-মডেল, পরিকল্পনা, ও কম্পোজিশনাল রিজনিং নির্ভরযোগ্যভাবে শেখানো; ডিস্ট্রিবিউশন শিফটের অধীনে ব্যর্থতা প্রতিরোধ; ধারাবাহিকভাবে শেখার সময় ভুল ভুলে যাওয়া (catastrophic forgetting) প্রতিরোধ।
লেকুনের কাজ স্মরণ করায় যে "স্টেট-অফ-দ্য-আর্ট" তুলনামূলক নয়—এর পরিবর্তে ফিট ফর পারপস গুরুত্বপূর্ণ। যদি আপনি কোনো প্রোডাক্টে এআই বানাচ্ছেন, আপনার সুবিধা প্রায়শই আসে সবচেয়ে সহজ পদ্ধতি বেছে নেওয়া থেকে যা বাস্তব-জগত সীমাবদ্ধতাগুলো মেটায়।
মডেল বাছাই করার আগে লিখে রাখুন আপনার কনটেক্সটে "ভাল" মানে কী: ব্যবহারকারী ফলাফল, ভুলের খরচ, ল্যাটেন্সি, মেইনটেনেন্স ওভারহেড।
একটি ব্যবহারিক মূল্যায়ন পরিকল্পনায় সাধারণত থাকে:
ডেটাকে একটি সম্পদ হিসেবে পরিকল্পনা করুন। লেবেলিং দামী, তাই সতর্কভাবে করুন:
একটি সহায়ক নিয়ম: বড় মডেল তাড়া করার আগে ডেটা কোয়ালিটি ও কভারেজে আগে বিনিয়োগ করুন।
CNNs অনেক ভিশন টাস্কে একটি শক্তিশালী ডিফল্ট অপশন হিসেবে আছে, বিশেষত যখন আপনাকে ইমেজ-ভিত্তিক কাজ (ক্লাসিফিকেশন, ডিটেকশন, OCR-ধাঁচের পাইপলাইন) নির্ভরযোগ্যভাবে এবং দক্ষতার সঙ্গে দিতে হয়। নতুন আর্কিটেকচারগুলো সঠিকতায় জিতে যেতে পারে বা মাল্টিমোডাল নমনীয়তা দিতে পারে, কিন্তু সেগুলো প্রায়ই বেশি কম্পিউট, জটিলতা, ও ডিপ্লয়মেন্ট কস্ট আনে।
যদি আপনার কনস্ট্রেইন্ট টাইট (মোবাইল/এজ, উচ্চ থ্রুপুট, সীমিত ট্রেনিং বাজেট), ভালোভাবে টিউন করা একটি CNN প্রায়শই একটি ফ্যাংশিয়ার মডেলের Late ডেলিভারির চেয়ে ভাল ফল দেয়।
লেকুনের কাজ জুড়ে এক বারবার দেখা থিম হলো এন্ড-টু-এন্ড চিন্তাভাবনা: কেবল মডেল নয়—বরং তার চারপাশের পাইপলাইন too: ডেটা সংগ্রহ, মূল্যায়ন, ডিপ্লয়মেন্ট, এবং ইটারেশন। বাস্তবে, অনেক টিম স্থগিত হয়ে যায় নয়তো আর্কিটেকচারের ভুলের কারণে নয়, বরং কারণ চারপাশের প্রোডাক্ট সারফেস (অ্যাডমিন টুল, লেবেলিং UI, রিভিউ ওয়ার্কফ্লো, মনিটরিং ড্যাশবোর্ড) তৈরি করতে সময় লাগে।
এখানেই আধুনিক “ভাইব-কোডিং” টুলগুলো সহায়ক হতে পারে। উদাহরণস্বরূপ, Koder.ai টিমগুলোকে চ্যাট-ড্রাইভেন ওয়ার্কফ্লো দিয়ে ওয়েব, ব্যাকএন্ড, এবং মোবাইল অ্যাপ প্রোটোটাইপ ও ডেলিভার করতে দেয়—যখন দ্রুত একটি ইন্টারনাল মূল্যায়ন অ্যাপ দরকার (ধরা যাক, React ড্যাশবোর্ড একটি Go + PostgreSQL ব্যাকএন্ড সহ), চানাপছন্দের সময় স্ন্যাপশট/রোলব্যাক, বা সোর্স কোড এক্সপোর্ট ও কাস্টম ডোমেইনে ডিপ্লয় করার অপশন দরকার। পয়েন্টটি গবেষণাকে প্রতিস্থাপন করা নয়; বরং একটি ভাল মডেল ধারণা ও ব্যবহারযোগ্য সিস্টেমের মধ্যে ঘর্ষণ কমানো।
যদি আপনি একটি এআই উদ্যোগ পরিকল্পনা করছেন, /docs ব্রাউজ করুন বাস্তবায়ন নির্দেশনার জন্য, /pricing দেখুন ডিপ্লয়মেন্ট অপশনের জন্য, বা /blog-এ আরও eseay পড়ুন।
তিনি প্রমাণ করেছেন যে ডেটা থেকে শিখে निर्मিত প্রতিনিধিত্ব (ডেটা থেকে আবিষ্কৃত ফিচার) বাস্তব, গোলমেলে ইনপুট—যেমন ছবির—উপর হাতে-কলমে তৈরি নিয়মের থেকে ভালো পারফর্ম করতে পারে। সেই মানসিকতা—এন্ড-টু-এন্ড ট্রেনিং, স্কেলযোগ্য কর্মক্ষমতা, এবং পুনঃব্যবহারযোগ্য ফিচার—আধুনিক এআই সিস্টেমগুলোর জন্য একটি টেমপ্লেট হয়ে উঠেছে।
ডীপ লার্নিং হলো বহু-স্তরযুক্ত নিউরাল নেটওয়ার্ক ব্যবহার করে ডেটা থেকে প্যাটার্ন শেখার বিস্তৃত ধারণা।
সেল্ফ-সুপারভাইজড লার্নিং (SSL) হলো এমন এক প্রশিক্ষণ কৌশল যেখানে মডেল কাঁচা ডেটা থেকেই নিজের লার্নিং সিগন্যাল তৈরি করে (যেমন, অনুপস্থিত অংশ পূরণ করা)। SSL প্রায়ই ম্যানুয়াল লেবেলের নির্ভরতা কমায় এবং পুনঃব্যবহারযোগ্য প্রতিনিধিত্ব তৈরি করে।
কনভলিউশন একটি ছোট ডিটেক্টর (ফিল্টার) ছবি ঘেঁরে স্লাইড করে এবং জিজ্ঞাসা করে: এখানে কি কোন প্রান্ত, কোন কোণ বা কোন টেক্সচার আছে কি? একই ডিটেক্টর সারাদেশেই ব্যবহার করা হয়, ফলে কোনো অবজেক্ট ফ্রেমে যেখানে-ই দেখাক সনাক্ত করা যায়।
তিনটি কেন্দ্রীয় ধারণা:
LeNet দেখিয়েছে যে একটি এন্ড-টু-এন্ড নিউরাল নেটওয়ার্ক বাস্তব ব্যবসার মতো কাজ (হাতের লেখা সংখ্যা চিহ্নিতকরণ) কার্যকরভাবে করতে পারে। এটি দেখিয়েছে যে ফিচার এক্সট্র্যাকশন এবং ক্লাসিফিকেশন একসাথে শেখালে বাস্তবে বসানোযোগ্য ফল পাওয়া যায়—হাতে-কলমে তৈরি পাইপলাইনের বদলে।
এটি সেই ধারণা যে মডেল শুধু চূড়ান্ত উত্তর শেখবে না (যেমন “বিড়াল” বনাম “কুকুর”)—মডেলকে ব্যবহারযোগ্য অভ্যন্তরীণ ফিচার শেখা উচিত, যা অনেক রকম সিদ্ধান্তকে সহজ করে দেয়। শক্তিশালী রিপ্রেজেন্টেশনগুলো downstream টাস্কগুলোকে সহজ করে এবং ট্রান্সফার লার্নিং সম্ভব করে তোলে।
ব্যাপকভাবে বলা যায়:
শর্ট গাইড: যদি প্রচুর সংগঠিত লেবেল আছে—সুপারভাইজড; যদি প্রচুর কাঁচা ডেটা কিন্তু কম লেবেল আছে—SSL প্রি-ট্রেনিং তারপর ফাইন-টিউন; অনুসন্ধানমূলক কাজ হলে আনসুপারভাইজড বিবেচনা করুন।
SSL-এ সাধারণ টাস্কগুলো:
প্র্যাকটিসে, প্রি-ট্রেনিংয়ের পরে একটি ছোট লেবেলড ডেটাসেটে ফাইন-টিউন করা হয়।
একটি এনার্জি-বেসড মডেল (EBM) একটি স্কোরিং ফাংশন শেখে: বাস্তবসম্মত কনফিগারেশনগুলোকে নিম্ন এনার্জি (ভালো স্কোর), অসমঞ্জস কনফিগারেশনগুলোকে উচ্চ এনার্জি দেয়। এই সেটআপ বিকল্পগুলোর তুলনা ও র্যাংকিং করার জন্য উপযোগী—লেবেল চাপাতে না চেয়ে বিকল্পগুলোর মধ্যে সেরা বেছে নেওয়া যায়।
এই ধারণা ওয়ার্ল্ড-মডেল ও প্ল্যানিংয়ের সাথে যুক্ত: যদি মডেল কোনো ভবিষ্যত বা ক্রিয়ার সম্ভাব্যতাকে স্কোর করতে পারে, তবে সেটি পরিকল্পনা সমর্থন করতে পারে।
সংক্ষেপে ব্যবহারিক টেকওয়েজ:
আরও: বাস্তব সিস্টেমে মডেল ছাড়াও ডেটা সংগ্রহ, লেবেলিং ইউআই, মনিটরিং ও ডিপ্লয়মেন্ট পাইপলাইন গুরুত্বপূর্ণ—এগুলোই প্রায়শই প্রকল্পকে সফল করে।