শুরুর গুগল সার্চ অ্যালগরিদম থেকে আজকের জেনারেটিভ এআই—স্কেলিং, পণ্যের প্রভাব এবং উন্মুক্ত প্রশ্নগুলো নিয়ে সের্গেই ব্রিনের পথ অন্বেষণ করুন।

সের্গেই ব্রিনের গল্প সেলিব্রিটি বা কোম্পানি-ট্রিভিয়ার কারণে গুরুত্বপূর্ণ নয়—এটি কারণ এটি সরাসরি একটি রৈখিক পথ আঁকে ক্লাসিক সার্চ সমস্যা (খোলা ওয়েবে কিভাবে সেরা উত্তর খুঁজে পাবেন?) থেকে আজকের আধুনিক এআই প্রশ্নগুলিতে (কিভাবে সহায়ক আউটপুট তৈরি করবেন বিনা সঠিকতা, গতি বা বিশ্বাস হারিয়েই?)। তার কাজ অ্যালগরিদম, ডেটা এবং সিস্টেমের সংযোগস্থলে বসে—ঠিক সেখানে যেখানে সার্চ ও জেনারেটিভ এআই মিলিত হয়।
এটি কনসেপ্ট-ফার্স্ট মাইলস্টোনগুলোর ট্যুর: PageRank কীভাবে প্রাসঙ্গিকতা বদলিয়েছে, কীভাবে মেশিন লার্নিং হাতে বানানো নিয়মগুলো ধীরে ধীরে বদলে দিয়েছে, এবং কেন ডিপ লার্নিং ভাষা বোঝায় উন্নতি এনেছে—এসব। এটি গসিপ, অভ্যন্তরীণ নাটক বা সংবাদ শিরোনামের টাইমলাইন নয়। লক্ষ্য হলো বোঝানো কেন এই পরিবর্তনগুলো গুরুত্বপূর্ণ ছিল এবং কীভাবে সেগুলো লোকেরা ব্যবহৃত পণ্যগুলিকে কার্যকরী করেছে।
জেনারেটিভ এআই তখনই “স্কেলে” হয় যখন এটি সার্চের মত কাজ করতে বাধ্য হয়: মিলিয়ন ব্যবহারকারী, কম লেটেন্সি, পূর্বানুমানযোগ্য খরচ এবং ধারাবাহিক মান বজায় রাখা। তাহলে দরকার কিছুই নয় শুধু চতুর মডেল ডেমো—এটার মধ্যে থাকে:
শেষে আপনি সার্চ যুগকে আজকের চ্যাট-স্টাইল পণ্যে কিভাবে সংযুক্ত করা যায় বুঝতে পারবেন, কেন রিট্রাইভাল ও জেনারেশন মিশছে তা উপলব্ধি করবেন, এবং প্রোডাক্ট টিমগুলোর জন্য বাস্তব নীতি ধারন করতে পারবেন—মাপ, প্রাসঙ্গিকতা, সিস্টেম ডিজাইন এবং দায়িত্বশীল ডিপ্লয়মেন্ট—যা উভয় জগতেই প্রযোজ্য।
সের্গেই ব্রিনের সার্চে পাথ একাডেমিয়া থেকেই শুরু হয়েছিল, যেখানে মূল প্রশ্নগুলো ছিল “ওয়েবসাইট বানানো” নয় বরং তথ্যের অধিকভাগতা কিভাবে নিয়ন্ত্রণ করবেন। গুগল কোম্পানি হওয়ার আগেই ব্রিন ডাটাবেস সিস্টেম, ডাটা মাইনিং এবং ইনফরমেশন রিট্রাইভাল—এসব শাখার গবেষণায় নিমজ্জিত ছিলেন—যা জিজ্ঞাসা করে কিভাবে বিপুল পরিমাণ ডেটা সংরক্ষণ করে দ্রুত উপযোগী উত্তর দেওয়া যায়।
ব্রিন অন্ডারগ্র্যাজুয়েট হিসেবে গণিত ও কম্পিউটার সায়েন্স পড়েছেন এবং পরবর্তীতে স্ট্যানফোর্ডে গ্র্যাজুয়েট কাজ করেন—ওই বিশ্ববিদ্যালয়টি ওয়েবের উদীয়মান স্কেলের গবেষণার একটি হাব ছিল। গবেষকেরা তখনই এমন সমস্যার মোকাবিলা করছিলেন যা আজও পরিচিত: ঝামেলার মধ্যে থাকা ডেটা, অনিশ্চিত গুণমান, এবং মানুষ কি টাইপ করছে তার ও তারা যা বলতে চায়র মধ্যে ফাঁক।
সেই সময় সার্চ বেশিরভাগই কিওয়ার্ড মিলিং ও মৌলিক র্যাংকিং সিগন্যালের ওপর ভিত্তি করে চলে। ওয়েব ছোটো থাকলে সেটা কাজ করত, কিন্তু পেজ বেড়ে যেতেই ও পৃষ্ঠাস্রষ্টারা সিস্টেমটি গেম করতে শিখল। সাধারণ চ্যালেঞ্জগুলো ছিল:
মোটিভেটিং ধারণাটি ছিল সহজ: যদি ওয়েব একটি বিশাল লাইব্রেরি হয়, তাহলে কেবল টেক্সট মেলানো ছাড়া আরো কিছু দরকার—র্যাংকিংয়ের জন্য এমন সংকেত দরকার যা বিশ্বাসযোগ্যতা ও গুরুত্ব প্রতিফলিত করে। ওয়েব তথ্যকে সংগঠিত করতে এমন পদ্ধতি লাগবে যা কেবল পৃষ্ঠার শব্দ থেকেই নয়, ওয়েবের গঠনের মধ্য থেকেই উপযোগিতা অনুমান করতে পারে।
এসব প্রাথমিক গবেষণা অগ্রাধিকার—গুণমান মাপা, ম্যানিপুলেশন প্রতিরোধ ও চরম স্কেলে পরিচালনা—পরবর্তী সার্চ ও এআইয়ের পরিবর্তনের বুনিয়াদ গড়ে দিয়েছিল, যার মধ্যে ছিল মেশিন লার্নিং-ভিত্তিক র্যাংকিং এবং শেষ পর্যন্ত জেনারেটিভ পদ্ধতিও।
সার্চের লক্ষ্য সহজ শোনায়: আপনি যখন একটি প্রশ্ন টাইপ করেন, তখন সবচেয়ে উপযোগী পেজগুলো শীর্ষে উঠে আসুক। ১৯৯০-এর শেষের দিকে সেটা করা সহজ ছিল না। ওয়েব বিস্ফোরিত হচ্ছিল, এবং অনেক প্রাথমিক সার্চ ইঞ্জিন মূলত পৃষ্ঠার নিজের কথার উপর নির্ভর করত—টেক্সট, কিওয়ার্ড, মেটা ট্যাগ। ফলে ফলাফল গেম করা সহজ ছিল এবং ব্যবহারকারীর জন্য হতাশাজনক।
ব্রিন ও ল্যারি পেজের মূল অন্তর্দৃষ্টি ছিল ওয়েবের লিংক স্ট্রাকচারকে একটি সংকেত হিসেবে বিবেচনা করা। যদি একটি পেজ আরেকটি পেজে লিংক করে, এটি একরকম “ভোট” দিচ্ছে। সব ভোট সমান নয়: একটি সম্মানিত পেজ থেকে লিংক করা ভোট একটি অজস্থল পেজের লিংকের তুলনায় বেশি গুরুত্ব পায়।
ধারণাগতভাবে, PageRank গুরুত্ব মাপতে জিজ্ঞাসা করে: কোন পেজগুলো অন্যান্য গুরুত্বপূর্ণ পেজগুলো দ্বারা রেফারেন্স করা হচ্ছে? সেই বৃত্তাকার প্রশ্নটি একটি গাণিতিক র্যাংকিংয়ে পরিণত হয় যা ওয়েব-স্কেলে গণনা করা যায়। ফলাফলটি ছিল ‘প্রাসঙ্গিকতার উত্তর’ নয়—তবুও এটি একটি শক্তিশালী নতুন উপাদান।
PageRank-কে সম্পূর্ণরূপে গুগলের অগ্রগতির গোপন রূপে দেখা সহজ; বাস্তবে, র্যাংকিং হলো একটি রেসিপি: অ্যালগরিদমগুলো বহু সংকেত (টেক্সট ম্যাচিং, তাজা তথ্য, অবস্থান, গতি, ইত্যাদি) মিশিয়ে সিদ্ধান্ত নেয় কোন ফলাফল ব্যবহারকারী চাইতে পারেন।
এবং প্রণোদনাগুলো জটিল। র্যাংকিং গুরুত্ব পেতেই স্প্যাম আসে—লিংক ফার্ম, কীওয়ার্ড স্টাফিং, এবং অন্যান্য কৌশলগুলো যা প্রাসঙ্গিক বলে দেখা দেয় কিন্তু সহায়ক নয়। সার্চ অ্যালগরিদম একটি চলমান প্রতিদ্বন্দ্বিতামূলক খেলা হয়ে ওঠে: প্রাসঙ্গিকতা উন্নত করা, ম্যানিপুলেশন সনাক্ত করা এবং সিস্টেম সমন্বয় করা।
ওয়েব বদলায়, ভাষা বদলায়, এবং ব্যবহারকারীর প্রত্যাশা বদলায়। প্রতিটি উন্নতি নতুন এজ-কেস তৈরি করে। PageRank সার্চ শেষ করেনি—এটি ক্ষেত্রটিকে সরল কিওয়ার্ড ম্যাচিং থেকে আধুনিক ইনফরমেশন রিট্রাইভালের দিকে স্থানান্তর করল, যেখানে প্রাসঙ্গিকতা ধারাবাহিকভাবে মাপা, পরীক্ষা এবং পরিমার্জিত হয়।
একটি চতুর র্যাংকিং ধারণা যথেষ্ট নয় যখন আপনার “ডাটাবেস” পুরো ওয়েব। যা গুগল সার্চকে আলাদা করে তুলেছিল তা কেবল প্রাসঙ্গিকতা নয়—এটি সেই প্রাসঙ্গিকতা দ্রুত ও ধারাবাহিকভাবে মিলিয়েযে মিলে থাকা ছিল, মিলিয়ন মানুষের জন্য একসাথে।
ইন্টারনেট-স্তরের সার্চ ক্রলিং দিয়ে শুরু হয়: পেজ আবিষ্কার করা, তা পুনরায় দেখা, এবং একটি কখনো থামেনি এমন ওয়েব সামলানো। তারপর ইনডেক্সিং আসে: নানান রকমের অগোছালো বিষয়বস্তুকে এমন কাঠামোয় রূপান্তর করা যাতে মিলিসেকেন্ডে কোয়েরি করা যায়।
ছোট স্কেলে স্টোরেজ ও কম্পিউট একক-মেশিন সমস্যার মতো দেখা যায়। বড় স্কেলে প্রতিটি পছন্দ একটি সিস্টেম ট্রেডঅফে পরিণত হয়:
ব্যবহারকারী সার্চ গুণমানকে র্যাংকিং স্কোর হিসেবে নয়—একটি ফলাফলের পেজ হিসেবে অনুভব করে যা এখনই লোড হয়, বারবার। সিস্টেম বারবার ব্যর্থ হলে, ফলাফল টাইমআউট করে বা ফ্রেশনেস পিছিয়ে পড়ে—তবে চমৎকার র্যাংকিং মডেল থাকলেও বাস্তবে সেটা খারাপ দেখাবে।
এই কারণেই আপটাইম, গ্রেসফুল ডিগ্রেডেশন এবং ধারাবাহিক পারফরম্যান্সের জন্য ইঞ্জিনিয়ারিং করা র্যাংকিং থেকে আলাদা করা যায় না। সামান্য কম “সর্বোচ্চ” ফলাফল নিয়মিত দ্রুত সরবরাহ করলে মাঝেমধ্যে ভাল ফলাফল পেয়ে হলেও ব্যবহারকারীর কাছে ভালো মনে হবে।
স্কেলে আপনি কেবল "শিপ" করতে পারেন না। সার্চ সেই পাইপলাইনগুলোর উপর নির্ভর করে যা সংকেত সংগ্রহ করে (ক্লিক, লিংক, ভাষা প্যাটার্ন), মূল্যায়ন চালায়, এবং ধীরে ধীরে পরিবর্তন রোল আউট করে। লক্ষ্য হল রিগ্রেশনগুলো আগেই সনাক্ত করা—সবাই प्रभावित হওয়ার আগে।
একটি লাইব্রেরি ক্যাটালগ ধরে ধরে যে বইগুলো স্থির, কিউরেটেড এবং ধীরে ধীরে পরিবর্তনশীল। ওয়েব এমন একটি লাইব্রেরি যেখানে বইগুলো নিজেকে পুনরায় লিখে, তাকগুলো সরায়, এবং নতুন কক্ষ তৈরি হয়—নিরবচ্ছিন্নভাবে। ইন্টারনেট-স্তরের সার্চ হল সেই যন্ত্রপাতি যা সেই চলমান লক্ষ্যের জন্য একটি ব্যবহারযোগ্য ক্যাটালগ বজায় রাখে—দ্রুত, নির্ভরযোগ্য এবং ক্রমাগত আপডেট।
প্রারম্ভিক র্যাংকিং নিয়মের উপর অনুগত ছিল: যদি পেজে শিরোনামে সঠিক শব্দ থাকে, যদি তা বেশি লিঙ্ক পায়, যদি দ্রুত লোড হয়—এসব ভিত্তিতে শাস্ত্রগুলো সিদ্ধান্ত নিত। সিগন্যালগুলো গুরুত্বপূর্ণ ছিল—কিন্তু প্রতিটি সংকেত কতটা গুরুত্বপূর্ণ হবে সেটা প্রায়শই ম্যানুয়ালি নির্ধারিত হত। ইঞ্জিনিয়াররা ওজন সামঞ্জস্য করে, পরীক্ষা চালায়, এবং পুনরাবৃত্তি করত। এটা কাজ করেছিল, কিন্তু যখন ওয়েব (এবং ব্যবহারকারীর প্রত্যাশা) বিস্তৃত হয় তখন একটি সিলিং এ গিয়ে ঠেকে যায়।
“লার্নিং টু র্যাংক” মানে একটি সিস্টেমকে শেখানো যে কীভাবে ভালো ফলাফল দেখতে লাগে অনেক উদাহরণ থেকে শিখিয়ে।
দীর্ঘ চেকলিস্ট লিখে দেয়া বর্ধমানে, আপনি মডেলকে অতীতের বহু সার্চ ও ফলাফল—যেমন কোন ফলাফলগুলো ব্যবহারকারী বেছে নিয়েছিলেন, কোনগুলো থেকে দ্রুত বেরিয়ে এসেছিলেন, এবং কোন পেজগুলো মানুষিকভাবে সহায়ক বলে চিহ্নিত করেছিল—দিয়ে শেখান। সময়ের সাথে, মডেলটা কোন ফলাফলগুলো উপরে থাকা উচিৎ তা ভালভাবে ভবিষ্যদ্বাণী করতে শেখে।
সহজ উপমা: একজন শিক্ষক প্রতিটি ক্লাসের জন্য বিস্তারিত সিটিং প্ল্যান লেখার বদলে দেখে কোন বসার বিন্যাসগুলো ভাল আলোচনা তৈরি করে, এবং সেই অনুযায়ী স্বয়ংক্রিয়ভাবে সামঞ্জস্য করে।
এই পরিবর্তন ক্লাসিক সংকেতগুলো (লিঙ্ক, পেজ গুণমান) মুছে দেয়নি—তবে কিভাবে সেগুলো মিলানো হয় তা বদলে দিল। “নীরব” অংশটি হলো, ব্যবহারকারীর দৃষ্টিতে সার্চ বক্স অপরিবর্তিত মনে হলেও অভ্যন্তরে কেন্দ্রীয় প্রবাহই হ্যান্ডক্রাফ্টেড স্কোরিং ফর্মুলার থেকে ডেটা-প্রশিক্ষিত মডেলের দিকে সরে যায়।
মডেল ডেটা থেকে শিখলে পরিমাপই পথপ্রদর্শক হয়।
টিমগুলো প্রাসঙ্গিকতা মেট্রিক (ফলাফল কি কুয়েরিকে সন্তুষ্ট করে?), অনলাইন A/B পরীক্ষা (কোন পরিবর্তন বাস্তব ব্যবহারকারীর আচরণ উন্নত করে?), এবং মানবিক প্রতিক্রিয়া (ফলাফলগুলো সঠিক, নিরাপদ, এবং উপযোগী কিনা?)-এর উপর নির্ভর করে। মূল কথা হলো মূল্যায়নকে ক্রমাগত ধরে রাখা—কারণ মানুষ কী খোঁজে তা ও “ভাল” কী তা ধারাবাহিকভাবে বদলে যায়।
নোট: নির্দিষ্ট মডেল ডিজাইন এবং অভ্যন্তরীণ সংকেত সময়ের সাথে পরিবর্তিত হয় এবং সেগুলো প্রকাশ্য নয়; গুরুত্বপূর্ণ শিখন হলো শেখার সিস্টেমের দিকে মানসিকতার স্থানান্তর এবং শক্তিশালী টেস্টিং।
ডিপ লার্নিং হলো এক ধরনের মেশিন লার্নিং পদ্ধতি যা বহু-স্তরীয় নিউরাল নেটওয়ার্কের উপর নির্মিত। কায়দা-কানুন হ্যান্ড-কোড করার বদলে, এই মডেলগুলো বড় পরিমাণ ডেটা থেকে সরাসরি প্যাটার্ন শিখে নেয়। ভাষা জটিল—মানুষ বানান ভুল করে, প্রসঙ্গ ইঙ্গিত করে, একই শব্দ ভিন্ন অর্থে ব্যবহার করে—এজন্য ডিপ লার্নিং গুরুত্বপূর্ণ ছিল।
প্রচলিত র্যাংকিং সংকেত—লিঙ্ক, অ্যানকর, ফ্রেশনেস—শক্তিশালী, তবে তারা বুঝে না যে একটি কুয়েরি আসলে কি অর্জনের চেষ্টা করছে। ডিপ লার্নিং মডেলগুলো প্রতিনিধিত্ব করা জানে: শব্দ, বাক্য, এমনকি চিত্রগুলোকে ডেনস ভেক্টরে রূপান্তর করে যা অর্থ ও সাদৃশ্য ধারণ করে।
ব্যবহারিকভাবে, এটি সক্ষম করল:
ডিপ লার্নিং বিনামূল্যের নয়। নিউরাল মডেল ট্রেনিং ও সার্ভিং ব্যয়বহুল—বিশেষ হাডওয়্যার ও সংকীর্ণ ইঞ্জিনিয়ারিং দরকার। এগুলো ডেটা চাই—সঠিক লেবেল, ক্লিক সংকেত, এবং মূল্যায়ন সেট—নহলে মডেল ভুল শর্টকাট শিখতে পারে।
ব্যাখ্যাযোগ্যতাও একটি চ্যালেঞ্জ। যখন মডেল র্যাংকিং পরিবর্তন করে, সহজ বাক্যে বোঝানো কঠিন কেন এটি ফলাফল A র ওপর B কে পছন্দ করেছে—এটি ডিবাগ করা ও বিশ্বাস স্থাপন জটিল করে তোলে।
বড় পরিবর্তনটি ছিল সংগঠনগত, কেবল প্রযুক্তিগত নয়: নিউরাল মডেলগুলো সাইড এক্সপেরিমেন্ট থেকে বেরিয়ে ব্যবহারকারীর “সার্চ কোয়ালিটি” হিসেবে অভিজ্ঞতায় একত্রিত হতে শুরু করল। রিলেভ্যান্স ক্রমশঃ লার্ন করা মডেলগুলোর ওপর নির্ভর করতে থাকল—যারা পরিমাপিত, পুনরাবৃত্তি এবং শিপ করা হত—শুধু সংকেতের ম্যানুয়াল টিউনিং নয়।
ক্লাসিক সার্চ এআই মূলত র্যাংকিং ও পূর্বানুমান নিয়ে কাজ করে। কুয়েরি ও ডকুমেন্ট সেট দিলে সিস্টেম ভবিষ্যদ্বাণী করে কোনগুলো সবচেয়ে প্রাসঙ্গিক। মেশিন লার্নিং হ্যান্ড-টিউন করা নিয়ম বদলে দিলেও, লক্ষ্য একই রইল: “ভালো ম্যাচ” বা “স্প্যাম” জিনিসগুলো স্কোর করে সাজানো।
জেনারেটিভ এআই আউটপুট বদলে দেয়। মডেল কেবল বিদ্যমান ডকুমেন্ট থেকে নির্বাচন করে না, এটি নতুন টেক্সট, কোড, সংক্ষেপ বা এমনকি ছবি তৈরি করতে পারে। ফলে পণ্য একটি একক প্রতিক্রিয়ায় উত্তর দিতে পারে, ইমেইল খসড়া করতে পারে, বা কোড স্নিপেট লিখতে পারে—উপযোগী হলেও মৌলিকভাবে লিংক ফেরত দেওয়ার থেকে আলাদা।
ট্রান্সফর্মার মডেলগুলো সম্পূর্ণ বাক্য ও ডকুমেন্ট জুড়ে সম্পর্কগুলোর প্রতি মনোযোগ দিতে পারে, শুধু কাছের শব্দ নয়। যথেষ্ট প্রশিক্ষণ ডেটা থাকলে, এই মডেলগুলো ভাষা ও জ্ঞান-মত আচরণ শিখতে পারে: প্যারাফ্রেজ, অনুবাদ, নির্দেশ অনুসরণ এবং বিষয়গুলো একত্রিত করা।
বড় মডেলের জন্য বেশি ডেটা ও কম্পিউট প্রায়শই উন্নতি দেয়: কম স্পষ্ট ভুল, শক্তিশালী লেখনী, এবং নির্দেশ মান্যতা। কিন্তু ফিরতি সীমাহীন নয়। খরচ দ্রুত বাড়ে, প্রশিক্ষণ ডেটার গুণমান সীমা হয়ে দাঁড়ায়, এবং কিছু ধরনের ব্যর্থতা শুধু বড় করে দেওয়ার ফলে দূর হয় না।
জেনারেটিভ সিস্টেমগুলি ফ্যাক্ট “হ্যালুসিনেট” করতে পারে, ট্রেনিং ডেটার পক্ষপাত প্রতিফলিত করতে পারে, বা ক্ষতিকর কনটেন্ট তৈরিতে প্ররোচিত হতে পারে। এগুলোতে ধারাবাহিকতা কম—দুইটি অনুরূপ প্রম্পট ভিন্ন উত্তর দিতে পারে। ক্লাসিক সার্চের তুলনায় চ্যালেঞ্জ স্থানান্তরিত হয়: “আমরা কি সেরা উৎসটি র্যাংক করেছি?” থেকে “তৈরি করা উত্তর কি সঠিক, গ্রাউন্ডেড, এবং নিরাপদ?”
জেনারেটিভ এআই ডেমোতে যাদুময় মনে হলেও তা মিলিয়নে (বা বিলিয়নে) রিকোয়েস্টে চালানোর জন্য গাণিতিক ও অপারেশনাল সমস্যা—গবেষণা যতটাই থাকুক, এটাই বাস্তব। এখানে সার্চ যুগের পাঠ—দক্ষতা, নির্ভরযোগ্যতা এবং নিরীক্ষণ—এখনও প্রযোজ্য।
বড় মডেল প্রশিক্ষণ মূলত ম্যাট্রিক্স গুণাবলীর একটি ফ্যাক্টরি লাইন। “স্কেলে” সাধারণত হাজারো GPU বা TPU-র একটি ফ্লিট লাগে, যা বিতরণকৃত ট্রেনিংয়ে এক সিস্টেমের মতো কাজ করে।
এটি বাস্তবগত বাধাসমূহ নিয়ে আসে:
সার্ভিং ট্রেনিং থেকে আলাদা: ব্যবহারকারীদের ক্ষেত্রে গুরুত্বের বিষয় হলো রেসপন্স টাইম ও কনসিস্টেন্সি, নিএকটি বেঞ্চমার্কে সেরা সঠিকতা নয়। টিমগুলো ভারসাম্য করে:
মডেল আচরণ প্রোবাবিলিস্টিক হওয়ায় মনিটরিং শুধু “সার্ভার আপ আছে কি না?” নয়। এটি কোয়ালিটি ড্রিফট, নতুন ব্যর্থ মোড, এবং মডেল বা প্রম্পট আপডেটের পর সূক্ষ্ম রিগ্রেশন ট্র্যাক করে। সাধারণত এতে মানব রিভিউ লুপ ও স্বয়ংক্রিয় টেস্ট অন্তর্ভুক্ত থাকে।
খরচ সসত রাখার জন্য টিমরা নির্ভর করে কম্প্রেশন, ডিস্টিলেশন (বড় মডেলকে অনুকরণ করে ছোট মডেল শেখানো), এবং রাউটিং-এর ওপর (সহজ কুয়েরি সস্তা মডেলে পাঠানো এবং কেবল প্রয়োজন হলে বড় মডেলে এসক্যালেট করা)। এগুলোই অনুচিতভাবে গুরুত্বপূর্ণ টুলস যা জেনারেটিভ এআইকে বাস্তবে টেকসই করে।
সার্চ ও চ্যাট প্রায়শই প্রতিদ্বন্দ্বী মনে হলেও, এগুলো ভিন্ন ইন্টারফেস যা ভিন্ন ব্যবহারকারীর লক্ষ্যকে অপ্টিমাইজ করে।
ক্লাসিক সার্চ দ্রুত, যাচাইযোগ্য নেভিগেশনের জন্য অপ্টিমাইজ—“X এর জন্য সেরা উৎস খুঁজো” বা “সঠিক পেজে আমাকে নিয়ে যাও।” ব্যবহারকারী একাধিক অপশন আশা করে, শিরোনাম স্ক্যান করতে পারে, এবং বিশ্বাসযোগ্যতা বিচার করে (প্রকাশক, তারিখ, স্নিপেট)।
চ্যাট সংরক্ষণ ও অন্বেষণের জন্য অপ্টিমাইজ: “আমাকে বুঝতে সাহায্য কর,” “তুলনা কর,” “খসড়া লেখ,” বা “পরবর্তী কি করব?” মানে মূল্য কেবল একটি পেজ খোঁজা নয়—এটা ছড়ানো তথ্যকে সংহত উত্তর তৈরি করা, স্পষ্টকরণ প্রশ্ন করা, এবং টার্নজুড়ে প্রসঙ্গ রাখা।
ব্যবহারিক পণ্যগুলো এখন বেশিরভাগই উভয়ই মিশায়। একটি সাধারণ পদ্ধতি হলো RAG: সিস্টেম প্রথমে একটি বিশ্বাসযোগ্য ইনডেক্স (ওয়েব পেজ, ডকস, নলেজ বেস) থেকে সার্চ করে, তারপর যা পাওয়া গেছে তা ভিত্তি করে উত্তর জেনারেট করে।
এই গ্রাউন্ডিং গুরুত্বপূর্ণ কারণ এটি সার্চের শক্তি (ফ্রেশনেস, কভারেজ, ট্রেসেবিলিটি) এবং চ্যাটের শক্তি (সংক্ষেপ, যুক্তি, কথোপকথন প্রবাহ) কে সংযুক্ত করে।
জেনারেশন যুক্ত হলে UI কেবল “এই হলো উত্তর” এ থেমে থাকা যায় না। শক্ত ডিজাইনগুলো যোগ করে:
যখন একটি সহকারী নিজেদের মধ্যে বিরোধিতা করে, মাঝেমধ্যে নিয়ম বদলে দেয়, বা তথ্যের উৎস ব্যাখ্যা করতে পারে না, ব্যবহারকারীরা দ্রুত নোটিস করে। ধারাবাহিক আচরণ, পরিষ্কার সোর্সিং, এবং পূর্বানুমানযোগ্য কন্ট্রোল মিশ্র সার্চ+চ্যাট অভিজ্ঞতাকে নির্ভরযোগ্য করে তোলে—বিশেষত যখন উত্তর বাস্তব সিদ্ধান্তকে প্রভাবিত করে।
দায়িত্বশীল এআই অপারেশনাল লক্ষ্যের মাধ্যমে সহজে বোঝা যায়—স্লোগান নয়। জেনারেটিভ সিস্টেমগুলোর জন্য সাধারণত মানে: নিরাপত্তা (হানিকর নির্দেশ বা সুবিধাভোগী কনটেন্ট তৈরি না করা), গোপনীয়তা (সংবেদনশীল ডেটা ফাঁস বা ব্যক্তিগত তথ্য মনে না রাখা), এবং ন্যায্যতা (দলগুলোর প্রতি এমন আচরণ না করা যা ক্ষতি করে)।
ক্লাসিক সার্চের মূল্যায়ন কিছটা পরিষ্কার ছিল: কুয়েরির জন্য ডকুমেন্টগুলো র্যাংক করুন এবং পরিমাপ করুন ব্যবহারকারী কতবার তাদের প্রয়োজনীয়তা পেয়েছে। যদিও প্রাসঙ্গিকতা বিষয়ভিত্তিক, আউটপুটটি সীমাবদ্ধ—বিদ্যমান উৎসের লিঙ্ক।
জেনারেটিভ এআই অনির্দিষ্ট সংখ্যক সম্ভাব্য উত্তর তৈরি করতে পারে, সূক্ষ্ম ব্যর্থ মোডের সঙ্গে:
অতএব মূল্যায়ন একটি একক স্কোর নয়, বরং বিস্তৃত টেস্ট স্যুট: সত্যতা পরীক্ষা, টক্সিসিটি ও বায়াস প্রোব, রিফিউজাল আচরণ, এবং ডোমেইন-নির্দিষ্ট প্রত্যাশাগুলো পরীক্ষা করতে হয়।
এজ-কেসগুলো সীমাহীন হওয়ায় টিমগুলো প্রায়শই বহু স্তরে মানুষকে ব্যবহার করে:
ক্লাসিক সার্চ থেকে মূল পরিবর্তন হলো সেফটি শুধুই “খারাপ পেজ ফিল্টার করা” নয়; এটি হলো সিস্টেমের আচরণ ডিজাইন করা যখন তাকে আবিষ্কার, সংক্ষেপ বা পরামর্শ করতে বলা হয়—এবং প্রমাণ স'ঙ্গে দেখানো যে সেই আচরণগুলো স্কেল-এ টিকে আছে।
সের্গেই ব্রিনের গুগল-শুরু গল্প মনে করিয়ে দেয় যে ব্রেকথ্রু এআই পণ্যগুলো প্রায়ই ঝকঝকে ডেমো দিয়ে শুরু হয় না—এগুলো শুরু হয় একটি পরিষ্কার কাজ নির্ধারণ করে এবং বাস্তবতা পরিমাপের অভ্যাস নিয়ে। ঐ অভ্যাসগুলোর অনেকটি আজও জেনারেটিভ এআই নির্মাণে প্রযোজ্য।
সার্চ সফল হয় কারণ টিমগুলো গুণমানকে এমন কিছু হিসেবে দেখত যা আপনি পর্যবেক্ষণ করতে পারেন, কেবল বিতর্ক করতে পারেন না। তারা অনবরত পরীক্ষা চালায়, ছোট উন্নতি গঠনমূলকভাবে যোগ করে এবং ব্যবহারকারীর উদ্দেশ্যকে কেন্দ্রে রাখে।
একটি দরকারী মানসিক মডেল: যদি আপনি ব্যাখ্যা করতে না পারেন “ভালো” ব্যবহারকারীর জন্য কী অর্থ, আপনি নির্ভরযোগ্যভাবে তা উন্নত করতে পারবেন না। এটি র্যাংকিং ও মডেল-প্রতিবর্তন দুটো ক্ষেত্রেই প্রযোজ্য।
ক্লাসিক সার্চ গুণমানে প্রায়শই প্রাসঙ্গিকতা ও ফ্রেশনেসআছে। জেনারেটিভ এআই যোগ করে নতুন অক্ষগুলো: বাস্তবতা (factuality), টোন, পরিমাণগত সম্পূর্ণতা, নিরাপত্তা, উদ্ধৃতি আচরণ, এবং এমনকি নির্দিষ্ট প্রসঙ্গে “সহায়ক” হওয়া। দুইটি উত্তর সমানভাবে বিষয়ে থাকলেও বিশ্বাসযোগ্যতার দিক থেকে ভিন্ন হতে পারে।
এটার মানে আপনাকে বহু মূল্যায়ন দরকার—স্বয়ংক্রিয় চেক, মানব রিভিউ, এবং বাস্তব-জীবনের প্রতিক্রিয়া—কারণ কোনো একক স্কোর পুরো অভিজ্ঞতাকে ধরে রাখতে পারে না।
সার্চ থেকে সবচেয়ে স্থানান্তরযোগ্য শিক্ষা হলো সংগঠনগত: স্কেলে গুণমান কঠোর সহযোগিতা ছাড়া আসে না। প্রোডাক্ট কী হিসাবে “ভাল” বোঝায়, ML মডেলগুলো উন্নত করে, অবকাঠামো খরচ ও লেটেন্সি সচেতন রাখে, লিগ্যাল ও পলিসি সীমানা নির্ধারণ করে, এবং সাপোর্ট বাস্তব ব্যবহারকারীর কষ্ট তুলে ধরে।
যদি আপনি এই নীতিগুলো বাস্তবে রূপ দিতে চান, একটি ব্যবহারিক পন্থা হলো পূর্ণ লুপের প্রোটোটাইপ করা—UI, রিট্রাইভাল, জেনারেশন, মূল্যায়ন হুক, এবং ডিপ্লয়মেন্ট—শুরুতে। Koder.ai-এর মতো প্ল্যাটফর্মগুলো ওই “বিল্ড ফাস্ট, মেজার ফাস্ট” ওয়ার্কফ্লোর জন্য ডিজাইন করা হয়েছে: আপনি চ্যাট ইন্টারফেস দিয়ে ওয়েব, ব্যাকএন্ড বা মোবাইল অ্যাপ তৈরি করতে পারেন, পরিকল্পনা মোডে দ্রুত পুনরাবৃত্তি করতে পারেন, এবং এক্সপেরিমেন্ট গুলো ঘুরে গেলে স্ন্যাপশট/রোলব্যাক ব্যবহার করতে পারেন—এগুলো বিশেষভাবে দরকারী যখন আপনি র্যান্ডমিস্টিক সিস্টেম শিপ করেন যা সতর্ক রোলআউট চায়।
সের্গেই ব্রিনের গল্প একটি সোজা ধারা আঁকে: সহজ অ্যালগরিদম (PageRank ও লিঙ্ক বিশ্লেষণ) দিয়ে শুরু, তারপর মেশিন-লার্নড র্যাংকিং-এ সরে আসা, এবং এখন জেনারেটিভ সিস্টেমে যা কেবল উৎস নির্দেশ না করে বরং উত্তর খসড়া করে। প্রতিটি ধাপ ক্ষমতা বাড়িয়েছে—এবং ব্যর্থতার সম্ভাবনাও বৃদ্ধি পেয়েছে।
ক্লাসিক সার্চ আপনাকে সাধারণত উৎস খুঁজতে সাহায্য করত। জেনারেটিভ এআই প্রায়ই সংক্ষেপ ও সিদ্ধান্ত করে যে কী গুরুত্বপূর্ণ—এতে কঠিন প্রশ্ন আসে: এখন আমরা সত্যতা কিভাবে মাপব? আমরা কীভাবে এমন উদ্ধৃতি দিব যা ব্যবহারকারী বিশ্বাস করবে? এবং কীভাবে আমরা অস্পষ্টতা—চিকিৎসা পরামর্শ, আইনগত প্রসঙ্গ, বা ব্রেকিং নিউজ—হ্যান্ডেল করব যাতে অনিশ্চয়তা আত্মবিশ্বাসী কণ্ঠে প্রকাশ না পায়?
স্কেল কেবল ইঞ্জিনিয়ারিং ফ্লেক্স নয়; এটি একটি আর্থিক সীমা। ট্রেনিং রানগুলো বিশাল কম্পিউট চায়, এবং সার্ভিং খরচ প্রতিটি ব্যবহারকারী কুয়েরির সাথে বাড়ে। এটাই চাপ দেয় সরঞ্জাম-কাটা (সংক্ষিপ্ত কন্টেক্সট, ছোট মডেল, কম সেফটি চেক) করার দিকে অথবা সামর্থ্য কেন্দ্রীভূত করে কয়েকটি বড় কোম্পানির হাতে।
যখন সিস্টেম কনটেন্ট উৎপাদন করে, গভর্ন্যান্স কেবল কনটেন্ট মডারেশন নয়। এতে অন্তর্ভুক্ত: স্বচ্ছতা (মডেল কী ডেটা থেকে গঠিত), দায়িত্ব (ক্ষতির জন্য কে জবাবদিহি করবে), এবং প্রতিযোগীতার গতিবিদ্যা (ওপেন বনাম ক্লোজড মডেল, প্ল্যাটফর্ম লক-ইন, এমন বিধিমালা যা অনিচ্ছাকৃতভাবে প্রবীণদের সুবিধা দিতে পারে)।
এক ঝলকানো ডেমো দেখলে জিজ্ঞাসা করুন: কঠিন এজ-কেসে কী ঘটে? কি উৎস দেখাচ্ছে? না জানলে কিভাবে আচরণ করে? বাস্তব ট্রাফিক স্তরে লেটেন্সি ও খরচ কেমন—ল্যাব নয়?
আরো গভীরে যেতে চাইলে সিস্টেম স্কেলিং ও সেফটি সম্পর্কে সম্পর্কিত বিষয়গুলি /blog এ অন্বেষণ করা যুক্তিযুক্ত।
তিনি একটি কার্যকর লেন্স হিসেবে কাজ করেন যা ক্লাসিক তথ্য অনুসন্ধান সমস্যা (প্রাসঙ্গিকতা, স্পাম প্রতিরোধ, স্কেল)কে আজকের জেনারেটিভ এআই সমস্যার (গ্রাউন্ডিং, লেটেন্সি, নিরাপত্তা, খরচ) সঙ্গে যুক্ত করে। বিষয়টি জীবনী নয়—এটা বোঝানো যে সার্চ এবং আধুনিক এআই একই মৌলিক সীমাবদ্ধতার মধ্যে কাজ করে: বিশাল পরিসরে কাজ করে বিশ্বাস বজায় রাখা।
সার্চ তখনই “স্কেলে” যখন এটি নিম্ন লেটেন্সি, উচ্চ আপটাইম এবং ক্রমাগত আপডেট হওয়া ডেটার সঙ্গে মিলিয়ন-লেভেলের কুয়েরি স্থিরভাবে হ্যান্ডেল করতে পারে।
জেনারেটিভ এআই তখনই “স্কেলে” যখন তাকে একই কাজ করতে হয় এবং একই সঙ্গে আউটপুট তৈরি করতে হয়, যা যোগ করে অতিরিক্ত সীমাবদ্ধতাগুলো —
৯০-এর শেষের দশকের সার্চ মূলত কিওয়ার্ড মিলিং ও সাধারণ র্যাংকিং সংকেতের উপর নির্ভর করত, যা ওয়েব বড় হওয়ার সঙ্গে ভেঙে পড়েছিল।
সাধারণ ব্যর্থতার ধরণগুলো ছিল:
PageRank লিঙ্ককে একটি ধরনের বিশ্বাস ভোট হিসেবে গণ্য করেছে, যেখানে ভোটগুলোর ওজন নির্ধারিত হত লিংক দানকারী পেজের গুরুত্ব অনুযায়ী।
ব্যবহারিকভাবে, এটি:
কারণ র্যাংকিং অর্থ ও মনোযোগকে প্রভাবিত করে, এটি এক ধরণের বিপরীতধর্মী (adversarial) সিস্টেম হয়ে যায়। যেকোন কার্যকর সংকেত খুঁজে পাওয়া মাত্র মানুষ সেটিকে দুর্বল করার চেষ্টা করে।
সেজন্য ক্রমাগত পুনরাবৃত্তি প্রয়োজন:
ওয়েব-স্তরে “গুণমান” মানে সিস্টেম পারফরম্যান্সও। ব্যবহারকারী গুণমানগুলো হিসেবে অনুভব করেন:
একটা সামান্য কম্প্রবণীয় ফলাফল যে নিয়মিত ২০০ms-এ আসে, সেটাই মাঝে মাঝে দেরিতে বা টাইমআউট হওয়া ভাল ফলাফলের চেয়ে ব্যবহারকারীর কাছে ভালো লাগে।
র্যাংকিং শিখতে বোঝায়—হ্যান্ড-টিউন করা নিয়মগুলোর বদলে ডেটা দিয়ে প্রশিক্ষিত মডেল ব্যবহার করা।
পূর্বে একজন ইঞ্জিনিয়ার প্রতিটি সংকেতকে কতটা গুরুত্ব দেবেন তা ম্যানুয়ালি ঠিক করতেন; এখন মডেল অনেক আগের সার্চ ও ব্যবহারকারীর আচরণ দেখে শেখে কোন ফলাফলগুলো মানুষ বেছে নেয়।
দেখতে UI বদলায় না, কিন্তু অভ্যন্তরে সিস্টেম হয়ে ওঠে:
ডিপ লার্নিং ভাষার মানে-উপস্থাপনায় উন্নতি এনেছে, ফলে:
তবে ট্রেড-অফ আছে: বেশি কম্পিউট, বেশি ডেটা দরকার এবং র্যাংকিং পরিবর্তন হলে ডিবাগ করা কঠিন হয়।
ক্লাসিক সার্চ মূলত বিদ্যমান ডকুমেন্ট বাছাই ও র্যাংক করে। জেনারেটিভ এআই নতুন করে টেক্সট "তৈরি" করে, ফলে ফলাফলের প্রকারই বদলে যায়।
নতুন ঝুঁকি হিসাবে আসে:
কেন্দ্রীয় প্রশ্নটি বদলে যায়: “আমরা কি সঠিক উৎস র্যাংক করেছি?” থেকে “তৈরি করা উত্তর কি সঠিক, গ্রাউন্ডেড ও নিরাপদ?”
Retrieval-augmented generation (RAG) প্রথমে প্রাসঙ্গিক উৎস বের করে, তারপর সেগুলোকে ভিত্তি করে উত্তর জেনারেট করে।
ভালভাবে কাজ করাতে টিমগুলো সাধারণত যোগ করে:
দায়িত্বশীল এআই অপারেশনাল লক্ষ্য হিসেবে সহজে বোঝা যায়: নিরাপত্তা (হানিকর নির্দেশ না দেওয়া), গোপনীয়তা (সংবেদনশীল ডেটা ফাঁস না হওয়া), এবং ন্যায্যতা (গ্রুপগুলিকে ক্ষতি করা এড়ানো)।
জেনারেটিভ মূল্যায়ন র্যাংকিং-এ অপেক্ষাকৃত কঠিন কারণ আউটপুট অসীমভাবে ভিন্ন হতে পারে:
কারো বাল্ক তৈরির ডেমো দেখলে জিজ্ঞেস করুন: কঠিন অ্যাজ-কেসগুলোতে কী হয়? উত্স দেখাতে পারে? না জানার ক্ষেত্রে কিভাবে আচরণ করে? বাস্তব ট্রাফিক-এ লেটেন্সি ও খরচ কেমন—not ল্যাব ফলাফল?
আরো জানতে চান—সিস্টেম স্কেলিং ও সেফটি নিয়ে সম্পর্কিত পাঠ্যবস্তু /blog-এ অন্বেষণ করতে পারেন।
সেজন্য মূল্যায়ন একক স্কোর নয়, বরং বিস্তৃত টেস্ট স্যুট: ফ্যাকচুয়ালিটি পরীক্ষণ, টক্সিসিটি/বায়াস probes, রিফিউজাল আচরণ, ও ডোমেইন-নির্দিষ্ট প্রত্যাশা দরকার।