গুগল ট্রান্সফর্মার তৈরির মাধ্যমে GPT‑এর ভিত্তি গড়েছিল, তবু OpenAI তা স্কেল করে ChatGPT ও API দিয়ে জনকের দৃষ্টিভঙ্গি বদলে দেয়—এই নিবন্ধটি সেই কৌশলগত সিদ্ধান্ত ও নির্মাতাদের জন্য বাস্তব পাঠ বিশ্লেষণ করে।

গুগল এতটাই "এআই মিস" করেনি — বরং তারা বর্তমান তরঙ্গকে সম্ভব করেছেন তাৎপর্যপূর্ণ একটি অংশ আবিষ্কার করেছিলেন, এবং পরে অন্যরা সেটাকে সংজ্ঞায়িত প্রোডাক্টে রূপান্তর করেছিল।
গুগলের গবেষকরা ট্রান্সফর্মার আর্কিটেকচার তৈরি করেন, যা GPT মডেলগুলোর মূল ধারণা। ২০১৭ সালের সেই পেপার, “Attention Is All You Need,” বড় মডেলগুলোকে প্রশিক্ষণ দেওয়ার পদ্ধতি দেখিয়েছিল যা ভাষা অনুধাবন ও জেনারেশনে অত্যন্ত সাবলীলতা নিয়ে আসে। ওই কাজ ছাড়া GPT আজকের রূপে থাকত না।
ওপেনএআইর অর্জন ছিল কোনো জাদুকরী নতুন অ্যালগোরিদম নয়। বরং তা ছিল কয়েকটি কৌশলগত সিদ্ধান্ত: ট্রান্সফর্মারকে প্রচলিত ধারণার অনেক বাইরে স্কেলে নিয়ে যাওয়া, বিশাল প্রশিক্ষণ চালানো, এবং ফলাফলটিকে সহজ-ব্যবহারের API এবং পরে ChatGPT হিসেবে প্যাকেজ করা—একটি কনজিউমার প্রোডাক্ট যা কোটি কোটি মানুষের কাছে AI কে স্পর্শ্য করে তুলল।
এই প্রবন্ধটি সেই সিদ্ধান্তগুলো ও ট্রেডঅফগুলো নিয়ে; এতে গুগলের গবেষণা সংস্কৃতি ও ব্যবসায়িক মডেল কীভাবে BERT‑ধাঁচের মডেল ও সার্চ‑উন্নতি পছন্দ করল, আর ওপেনএআই কীভাবে সাধারণ‑উদ্দেশ্য জেনারেটিভ সিস্টেমে ঝুঁকি নিল তা ট্রেস করা হয়েছে।
আমরা ঘুরে দেখবঃ
আপনি যদি এআই কৌশলে আগ্রহী হন—কিভাবে গবেষণা প্রোডাক্টে রূপান্তরিত হয়, এবং প্রোডাক্ট কীভাবে স্থায়ী সুবিধায় পরিণত হয়—এই গল্পটি দেখায় যে সেরা পেপার পাওয়াই যথেষ্ট নয়: স্পষ্ট বাজি নেওয়া এবং চালিয়ে যাওয়ার সাহসই বেশি গুরত্বপূর্ণ।
গুগল আধুনিক মেশিন লার্নিং‑এ প্রবেশ করেছিল দুইটি বড় কাঠামোগত সুবিধা নিয়ে: অপুরিমাণের ডেটা এবং বড় বিতরণকৃত সিস্টেমগুলোর জন্য ইঞ্জিনিয়ারিং সংস্কৃতি। যখন তারা সেই যন্ত্রপাতি এআই দিকে ঘুরাল, তারা দ্রুত ক্ষেত্রটির নিকটস্থ কেন্দ্রবিন্দু হয়ে উঠল।
Google Brain শুরু হয়েছিল ২০১১–২০১২ সময়কালের একটি পার্শ্বপ্রকল্প হিসেবে, নেতৃত্বে ছিলেন Jeff Dean, Andrew Ng, এবং Greg Corrado। দলটি বড়-পর্দায় ডিপ লার্নিংয়ের দিকে মনোনিবেশ করেছিল, গুগলের ডেটা সেন্টার ব্যবহার করে এমন মডেল প্রশিক্ষণ করত যা বেশিরভাগ বিশ্ববিদ্যালয়ের নাগালের বাইরে ছিল।
DeepMind ২০১৪ সালে উচ্চ-প্রোফাইল অধিগ্রহণের মাধ্যমে যোগ হয়। Google Brain প্রোডাক্ট ও অবকাঠামোর নিকট বসবাস করলেও, DeepMind দীর্ঘমেয়াদী গবেষণায় (রিইনফোর্সমেন্ট লার্নিং, গেমস, জেনারেল‑পারপাস লার্নিং সিস্টেম) ঝোঁক রাখত।
একসাথে, তারা গুগলকে অনন্য একটি এআই ইঞ্জিনরুম দিল: একটি দল প্রোডাকশনের স্ট্যাকের কাছে, আরেকটি দল মুনশট গবেষণায় লিপ্ত।
কয়েকটি প্রকাশ্য মাইলফলক গুগলের অবস্থান দৃঢ় করেছিল:
এই জয়গুলো অনেক গবেষককে বিশ্বাস করিয়ে দেয় যে যদি আপনি সবথেকে উচ্চাভিলাষী এআই সমস্যায় কাজ করতে চান, গুগল বা DeepMind‑এ যেতে হবে।
গুগল বিশ্বজুড়ে অসামান্য পরিমাণ এআই ট্যালেন্ট একত্র করেছিল। Geoffrey Hinton–র মত ট্যুরিং পুরস্কার বিজয়ী এবং Jeff Dean, Ilya Sutskever (OpenAI‑তে যাওয়ার আগে), Quoc Le, Oriol Vinyals, Demis Hassabis, David Silver‑এর মতো উচ্চস্তরের ব্যক্তিত্ব কয়েকটি অর্গ এবং বিল্ডিংয়ে কাজ করতেন।
এই ঘনত্ব শক্তিশালী ফিডব্যাক লুপ তৈরি করেছিল:
এই মিশ্রণ গুগলকে এমন এক জায়গা করে তুলেছিল যেখানে সীমারান্ত এআই গবেষণার উৎপত্তি ঘটত।
গুগলের এআই সংস্কৃতি বেশ বেশি পাবলিশিং ও প্ল্যাটফর্ম বিল্ডিং‑এর দিকে ঝুঁকেছিল, তুলনায় পরিশীলিত কনজিউমার এআই প্রোডাক্ট নির্মাণের।
গবেষণা পক্ষ থেকে নিয়ম ছিল:
ইঞ্জিনিয়ারিং অংশে গুগল অবকাঠামোতে প্রচুর সম্পদ ঢালল:
এই পছন্দগুলো গুগলের মূল ব্যবসার সঙ্গে ঘনিষ্ঠভাবে সঙ্গতিপূর্ণ ছিল। ভাল মডেল ও টুলিং সরাসরি সার্চ প্রাসঙ্গিকতা, অ্যাড টার্গেটিং ও কনটেন্ট সুপারিশ উন্নত করে। এআইকে একটি সাধারণ সক্ষমতা স্তর হিসেবে দেখা হত, একক প্রডাক্ট হিসেবে নয়।
ফলাফল—একটি কোম্পানি যে বিজ্ঞানের ও প্লাম্বিংয়ে আধিপত্য করে, সেটি গভীরভাবে বিদ্যমান সার্ভিসে AI একীভূত করেছে এবং প্রভাবশালী গবেষণার মাধ্যমে প্রগতি প্রচার করেছে—তবু নতুন, ভোগ্যোগ্য কনজিউমার‑মুখী AI অভিজ্ঞতা চালিয়ে আনার বিষয়ে সতর্ক ছিল।
২০১৭ সালে, একটি ছোট Google Brain ও Google Research টিম একটি পেপার প্রকাশ করে পুরো ফিল্ডকে রিরওয়্যার করেছিল: “Attention Is All You Need”—লেখকরা Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser, Illia Polosukhin।
মূল ধারণা সহজ কিন্তু বিপ্লবী ছিল: আপনি recurrence ও convolution বাদ দিয়ে পুরো সিকোয়েন্স মডেল কেবল attention দিয়ে বানাতে পারবেন। সেই আর্কিটেকচারকে উপাধি দেওয়া হল Transformer।
ট্রান্সফর্মারের আগ পর্যন্ত, শ্রেষ্ঠ ভাষা সিস্টেমগুলো RNN ও LSTM‑ভিত্তিক ছিল। তাদের দুইটি প্রধান সমস্যা ছিল:
ট্রান্সফর্মার দুটোই সমাধান করল:
অর্ডার জানার জন্য positional encodings যোগ করা হয়—যা recurrence ছাড়াই ক্রমজ্ঞান দেয়।
কারণ সব অপারেশন প্যারালেলাইজেবল এবং ঘন ম্যাট্রিক্স অপারেশনের উপর ভিত্তি করে, ট্রান্সফর্মার স্কেলে ক্লিনলি বাড়ে—অধিক ডেটা ও কম্পিউটের সঙ্গে ক্ষমতা বাড়াতে সহজ। এই স্কেলিং বৈশিষ্ট্যই GPT, Gemini এবং অন্যান্য আধুনিক মডেলের ভিত্তি।
একই attention যন্ত্রপত্র টেক্সটের বাইরে তারকা: ইমেজ প্যাচ, অডিও ফ্রেম, ভিডিও টোকেনগুলোতেও প্রয়োগ করা যায়। ফলে মাল্টিমোডাল মডেলের জন্য এটি একটি স্বাভাবিক ভিত্তি হয়ে উঠল।
গুরুত্বপুর্ণভাবে, গুগল পেপারটি খোলা ভাবে প্রকাশ করেছিল এবং (পরে follow‑on কাজ ও Tensor2Tensor মতো লাইব্রেরির মাধ্যমে) আর্কিটেকচারকে পুনরুত্পাদন করা সহজ করে দেয়। গবেষক ও স্টার্টআপরা বিশ্বজুড়ে ডিজাইন পড়ে নকল করে স্কেল করতে পারল।
ওপেনএআই ঠিক তাই করল। GPT‑1 আর্কিটেকচারিকভাবে একটি Transformer decoder stack এবং একটি ভাষা-মডেলিং উদ্দেশ্যে প্রশিক্ষিত—গুগলের ট্রান্সফর্মারই এর সোজাসুজি শ্রেষ্ঠ পূর্বসূরী: একই self-attention ব্লক, positional encodings, এবং স্কেলে বাজি—কিন্তু ভিন্ন প্রোডাক্ট ও সংস্থাগত প্রসঙ্গে প্রয়োগ করা।
ওপেনএআই যখন GPT লঞ্চ করল, তারা নতুন কোনো প্যারাডাইম আবিষ্কার করছিল না। তারা গুগলের ট্রান্সফর্মার ব্লূপ্রিন্ট নিয়েছিল এবং সেটিকে অধিকাংশ গবেষণা গ্রুপদের তুলনায় অনেক দূরে স্কেলে নিয়ে গেল।
মূল GPT (২০১৮) ছিল ভিত্তিগতভাবে একটি ট্রান্সফর্মার ডিকোডার যা একটি সহজ লক্ষ্য নিয়ে প্রশিক্ষিত—দীর্ঘ টেক্সটের পরবর্তী টোকেন ভবিষ্যদ্বাণী করা। সেই ধারণা সরাসরি গুগলের ২০১৭ ট্রান্সফর্মার থেকে নেয়া, কিন্তু গুগল যেখানে অনুবাদ বেঞ্চমার্কে ফোকাস করেছিল, ওপেনএআই একে "পরবর্তী‑শব্দ‑ভবিষ্যদ্বাণী‑স্কেলে" সাধারণ‑উদ্দেশ্য টেক্সট জেনারেটরের ভিত্তি হিসেবে গ্রহণ করল।
GPT‑2 (২০১৯) সেই রেসিপিটি ১.৫B প্যারামিটার ও অনেক বড় ওয়েব করপাসে স্কেল করল। GPT‑3 (২০২০) লাফিয়ে ১৭৫B প্যারামিটারে গেল, ট্রিলিয়ন টোকেনে প্রশিক্ষিত হয়ে বিশাল GPU ক্লাস্টারে। GPT‑4 আরো সামঞ্জস্য, বেশি কিউরেশন, ও উন্নত RLHF সহ মডেলকে পরিশোধ করল।
এই প্রগতিতে অ্যালগরিদমিক কোর গুগলের ট্রান্সফর্মারের সঙ্গে অনেকটাই অনুরূপ: self-attention ব্লক, positional encodings, স্তর-স্তর স্ট্যাক—ফারাক ছিল শুধু বিশাল স্কেল ও ধারাবাহিক জোরে।
যেখানে গুগলের প্রথম ভাষা মডেলগুলো (যেমন BERT) বোঝার কাজগুলো—ক্লাসিফিকেশন, সার্চ র্যাঙ্কিং, QA—টার জন্য লক্ষ্য করেছিল, ওপেনএআই খোলা-শেষ জেনারেশন ও ডায়ালগের উপর অপটিমাইজ করেছিল। গুগল প্রায়শই রাজ্য-ও-আর্ট মডেল প্রকাশ করে পরের কাগজে এগিয়ে যেত; ওপেনএআই একটি ধারণাকে প্রোডাক্ট পাইপলাইনে রূপান্তর করল।
গুগল, DeepMind ও একাডেমিক ল্যাবের ওপেন রিসার্চ GPT‑তে সরাসরি খাওয়ানো হয়েছে: ট্রান্সফর্মার ভ্যারিয়েন্ট, অপ্টিমাইজেশন ট্রিক, লার্ণিং‑রেট শিডিউল, স্কেলিং লজিক, ভালো টোকেনাইজেশন। ওপেনএআই এসব পাবলিক ফলাফল গ্রহণ করে, তারপর প্রাইভেট প্রশিক্ষণ দৌড়ে এবং অবকাঠামোতে ব্যাপক বিনিয়োগ করল।
বুদ্ধিবৃত্তিক উত্স—ট্রান্সফর্মার—গুগল থেকে এসেছিল। ট্রান্সফর্মারকে স্কেল করে, API দিয়ে চালান ও চ্যাট ইন্টারফেস তৈরি করা ওপেনএআইর সিদ্ধান্ত ছিল।
গুগলের প্রাথমিক বাণিজ্যিক সাফল্য এসেছে তাদের মূল অর্থোপার্জনকারী যন্ত্র—সার্চ ও অ্যাডস—কে অধিকতর বুদ্ধিমান করে তোলার মাধ্যমে। সেই প্রেক্ষাপট নতুন আর্কিটেকচার (যেমন ট্রান্সফর্মার) কিভাবে মূল্যায়ন করা হবে তা নির্ধারণ করেছিল। গুগল সার্চ‑ফিট মডেলগুলোতে BERT‑ধাঁচের মডেলকে নজর দিল, যেখানে ওপেনএআই সাধারণ‑উদ্দেশ্য জেনারেটিভ সিস্টেমে ঝুঁকি নিয়েছিল।
BERT (Bidirectional Encoder Representations from Transformers) একটি encoder‑only মডেল, masked language modeling দিয়ে প্রশিক্ষিত: বাক্যের অংশ লুকানো হয় এবং মডেলকে দুইপাশের পূর্ণ প্রসঙ্গ ব্যবহার করে মিসিং টোকেন অনুমান করতে বলা হয়।
এই প্রশিক্ষণ উদ্দেশ্য গুগলের সমস্যার সাথে প্রায় নিখুঁতভাবে মিলেছিল:
সংকেততায়, encoder‑ধাঁচের মডেলগুলি সহজে গুগলের বিদ্যমান রিট্রিভাল ও র্যাঙ্কিং স্ট্যাকে বসে: এগুলোকে relevance signal হিসেবে কল করে সার্চ উন্নত করা যায়, পুরো প্রোডাক্ট পুনর্লিখন না করেই।
গুগলকে এমন উত্তর দরকার যা নির্ভরযোগ্য, যাচাইযোগ্য ও মনিটাইজেবল:
BERT সবগুলোই উন্নত করল, এবং বিদ্যমান সার্চ UI বা অ্যাডস মডেলকে বিঘ্নিত না করে। GPT‑ধাঁচের অটোরিগ্রেসিভ জেনারেটর কোনো স্বচ্ছ বৃদ্ধি প্রদান করতে ততটা স্পষ্ট ছিল না।
ফ্রি‑ফর্ম জেনারেশন তীক্ষ্ণ অভ্যন্তরীণ উদ্বেগ উত্থাপন করেছিল:
অতএব বেশিরভাগ অভ্যন্তরীণ ব্যবহার কেস ছিল সহায়ক ও সিমিটেড: Gmail‑এ অটো‑কমপ্লিশন, স্মার্ট রিপ্লাই, অনুবাদ, ও র্যাঙ্কিং বুস্ট—এগুলো encoder‑ধাঁচের মডেল দিয়ে সহজেই সীমাবদ্ধ ও মনিটর করা যায়; অথচ ওপেন‑এন্ড চ্যাটবটকে বাউন্ড করা কঠিন।
যদিও গুগলের কাছে কাজ করা চ্যাট ও জেনারেটিভ প্রোটোটাইপগুলো ছিল, মূল প্রশ্ন ছিল: চমৎকার সরাসরি উত্তর কি সার্চ কুয়েরি ও অ্যাড ক্লিক কমিয়ে দেবে?
একটি চ্যাট অভিজ্ঞতা যদি একবারে পূর্ণ উত্তর দেয়, ব্যবহারকারীর আচরণ বদলে যেতে পারে:
নেতৃত্বের প্রবৃত্তি ছিল AI‑কে সার্চ উন্নতকারী হিসেবে একীভূত করা, না সার্চকে প্রতিস্থাপন করা। ফলে র্যাঙ্কিং টুইক, রিচ স্নিপেট, ও ধীরে ধীরে সেমান্টিক বোঝাপড়া—এগুলো BERT‑এর জায়গায় বেশি মানায়—এরচেয়ে সাহসী, স্ট্যান্ডঅ্যালোন কনভার্সেশনাল প্রোডাক্টে বিনিয়োগ কম হলো।
প্রতিটি সিদ্ধান্ত যৌক্তিক ছিল:
সমষ্টিগতভাবে, এর অর্থ হল গুগল GPT‑ধাঁচের, অটোরিগ্রেসিভ জেনারেশনকে ভোক্তা‑লক্ষ্যকৃতভাবে প্রোডাক্টাইজ করতে পর্যাপ্তভাবে বিনিয়োগ করেনি। গবেষণা দলগুলো বড় ডিকোডার মডেল ও ডায়ালগ সিস্টেমগুলো পরীক্ষা করলেও, প্রোডাক্ট দলগুলোর প্রণোদনা ছিল দুর্বল: এমন একটি চ্যাটবট শিপ করা যা
অপর দিকে ওপেনএআই, যার কাছে সার্চ সাম্রাজ্য ছিল না, উল্টো সিদ্ধান্ত নিল: একটি অত্যন্ত সক্ষম, সহজলভ্য চ্যাট ইন্টারফেস—even with imperfections—বৃহৎ স্কেলে নতুন চাহিদা সৃষ্টি করবে। এই বিলম্বই ChatGPT‑কে শ্রেণির প্রথম প্রোডাক্ট হিসেবে প্রতিষ্ঠিত হতে সাহায্য করে।
ওপেনএআই ২০১৫‑এ নন‑প্রফিট গবেষণা ল্যাব হিসেবে শুরু করে, প্রযুক্তি প্রতিষ্ঠাতা কিছু ব্যক্তি দ্বারা অর্থায়িত। প্রথম কয়েক বছরে এটি Google Brain বা DeepMind‑এর মতই দেখাত: পেপার প্রকাশ, কোড রিলিজ, বিজ্ঞান এগিয়ে নেওয়া।
কিন্তু ২০১৯‑এ নেতৃত্ব বুঝতে পারে যে frontier মডেলগুলো জন্য কোটি কোটি ডলারের কম্পিউট দরকার হবে। একেবারেই নন‑প্রফিট কাঠামো সেই সাইজের মূলধন তুলতে কঠিন। সমাধান হলো কাঠামোগত নতুনত্ব: OpenAI LP—একটি “ক্যাপড‑প্রফিট” কোম্পানি যেটি নন‑প্রফিটের অধীনে বসে।
এই কাঠামো ইনভেস্টরদের রিটার্ন (এক নির্ধারিত ক্যাপ পর্যন্ত) করার সুযোগ দেয়, যখন বোর্ড AGI‑র মিশন বজায় রাখে। এতে বড় ফাইন্যান্সিং ও ক্লাউড কম্পিউট ডিল সই করা সম্ভব হলো।
অনেক ল্যাব যেখানে জটিল আর্কিটেকচারের দিকে ঝোঁক রাখত, ওপেনএআই কড়া বাজি রাখল: অত্যন্ত বড়, সাধারণ‑উদ্দেশ্য ভাষা মডেলগুলোটা যদি আপনি শুধু স্কেল করেন (ডেটা, প্যারামিটার, কম্পিউট), হতে পারে তারা আচরণগত ভাবে অনুপম সক্ষমতা দেখায়।
GPT‑1, GPT‑2, GPT‑3‑এর ধারা ছিল সোজা: মূলত সাধারণ ট্রান্সফর্মার, কিন্তু বড়, দীর্ঘ প্রশিক্ষণ ও বৈচিত্র্যময় টেক্সটে। একাধিক টাস্কের জন্য মডেলকে টিউন না করে prompting ও fine‑tuning দিয়ে "একটি বড় মডেল, অনেক ব্যবহার" ধারা নেওয়া হলো।
এই ছিল শুধু গবেষণার মনোভাব নয়—এটি ব্যবসায়িক কৌশলও: যদি একটি API হাজার হাজার ব্যবহার-ক্ষেত্র শক্তি পুষে দিতে পারে—কপিরাইটিং টুল থেকে কোডিং সহায়ক—তাহলে ওপেনএআই প্ল্যাটফর্ম হতে পারে।
GPT‑3 API (২০২০) সেই কৌশলকে বাস্তবে রূপ দিল। ভারী অন-প্রিমাইজ সফটওয়্যার বা সীমাবদ্ধ এন্টারপ্রাইজ পণ্য না দিয়ে, ওপেনএআই একটি সরল ক্লাউড API দিল:
এই API‑প্রথম পন্থা স্টার্টআপ ও এন্টারপ্রাইজদের UX, কমপ্লায়েন্স ও ডোমেইন দক্ষতা হাউস‑কাস্টমাইজ করার সুযোগ দিল, আর ওপেনএআই সারা মডেল প্রশিক্ষণ ও অ্যালাইনমেন্টে ফোকাস করল।
API তাড়াতাড়ি রাজস্ব ইঞ্জিনও তৈরি করে দিল। নিখুঁত, পূর্ণাঙ্গ প্রোডাক্টের অপেক্ষায় না থেকে, ওপেনএআই পার্শ্বচর্চা দিয়ে ইকোসিস্টেমকে ব্যবহার‑কেস আবিষ্কার করতে দিল—একভাবে ডেভেলপররা তাদের পক্ষ থেকে প্রোডাক্ট R&D করল।
ওপেনএআই ধারাবাহিকভাবে মডেল পরিপূর্ণ না হলে ও শিপ করত। GPT‑2‑র সময় সেফটি উদ্বেগ ও স্তরভিত্তিক রিলিজ দেখা গিয়েছিল; GPT‑3 কন্ট্রোলড বেটায় ঢুকেছিল, স্পষ্ট ত্রুটি ছিল—হ্যালুসিনেশন, পক্ষপাত, অসামঞ্জস্য।
এই দর্শনের সবচেয়ে পরিষ্কার প্রকাশ ছিল ChatGPT (শেষ ২০২২)। এটি তাদের সবচেয়ে উন্নত মডেল ছিল না, এবং খুব পরিশচিতও ছিল না। কিন্তু এটি দিয়েছিল:
প্রাইভেটে অনন্ত টিউনিং না করে ওপেনএআই জনসাধারণকে একটি বিশাল প্রতিক্রিয়া ইঞ্জিন হিসেবে ব্যবহার করল। গার্ডরেইল, মনিটরিং ও UX সপ্তাহ থেকে সপ্তাহে বদলনোর ফলে উন্নতি হয়।
ওপেনএআইর স্কেল বাজি ব্যাপক কম্পিউট বাজেট চাইত। মাইক্রোসফটের অংশীদারিত্ব এখানে নির্ণায়ক ছিল।
২০১৯ থেকে শুরু করে কয়েক বছরে Microsoft প্রদান করল:
ওপেনএআইর কাছে এটি প্রধান সীমাবদ্ধতা দূর করল: বড় প্রশিক্ষণ চালাতে নিবেদিত AI সুপারকম্পিউটারের অ্যাক্সেস; নিজেরা ক্লাউড গড়া বা তহবিল সংগ্রহ করা লাগলো না।
এই সব সিদ্ধান্তগুলো—স্কেল, API‑প্রথম, কনজিউমার চ্যাট, মাইক্রোসফট ডিল—একটি শক্তিশালী পুনরাবৃত্তি লুপে পরিণত হয়:
ওপেনএআই গবেষণা পেপার বা নিখুঁত প্রোডাক্ট অপেক্ষা না করে এই সংযোজিত লুপে অপটিমাইজ করল—স্কেল কেবল বড় মডেল নয়, ব্যবহারকারী, ডেটা ও ক্যাশ‑ফ্লোকে দ্রুত বাড়ানোর কথা বলেছিল।
ওপেনএআই যখন ChatGPT ৩০ নভেম্বর ২০২২‑এ লঞ্চ করল, এটি একটি সামান্য‑নিউজ রিসার্চ প্রিভিউ বলে মনে হচ্ছিল: একটুখানি চ্যাট বক্স, কোন পেওয়াল না, সংক্ষিপ্ত ব্লগ পোস্ট। পাঁচ দিনের মধ্যে ব্যবহারকারী সংখ্যা মিলিয়ন পার হয়ে গেল। কয়েক সপ্তাহে টুইটার, টিকটক, লিঙ্কডইন ছবি ও ব্যবহার‑কেসে ভরে উঠল। মানুষ প্রবন্ধ লিখল, কোড ডিবাগ করল, আইনগত ইমেল ড্রাফট করল—সবই এক সরল টুল দিয়ে।
প্রোডাক্টটি উপস্থাপন করা হয়নি "একটি ট্রান্সফর্মার‑ভিত্তিক ল্যাঙ্গুয়েজ মডেলের ডেমো" হিসেবে। বরং: "কিছু জিজ্ঞেস করুন। উত্তর পান।" সেই সরলতা অ-প্রযুক্তিবিদদের জন্য প্রযুক্তিটিকে অবিলম্বে বোধগম্য করে তুলল।
গুগলের অভ্যন্তরে প্রতিক্রিয়া হয়েছিল বিস্ময়ের চেয়েও সতর্কতা—একটি “কোড রেড” ঘোষণা করা হলো। Larry Page ও Sergey Brin প্রোডাক্ট ও কৌশল আলোচনা তে টেনে আনা হলো। বহু দল যারা বহু বছর কথা বলার মডেলে কাজ করছিল তারা তৎক্ষণাৎ তীব্র নজরের মধ্যে পড়ল।
ইঞ্জিনিয়াররা জানত গুগলের কাছে ChatGPT‑র সঙ্গে তুলনীয় ক্ষমতাসম্পন্ন সিস্টেম ছিল। LaMDA, PaLM, Meena‑এর মত মডেল অভ্যন্তরীণ বেঞ্চমার্কে দারুণ কথোপকথন ও যুক্তি প্রদর্শন করেছিল। কিন্তু সেগুলো গেটেড টুল ও কঠোর নিরাপত্তা‑পর্যালোচনার পেছনে ছিল।
বহির্মুখে এটাই মনে হল গুগল চমকে গিয়েছে।
প্রযুক্তিগতভাবে ChatGPT ও LaMDA কাকি: ট্রান্সফর্মার‑ভিত্তিক বড় ভাষা মডেল, ডায়ালগ‑ফাইনটিউন করা। ফারাক প্রধাণত প্রোডাক্ট সিদ্ধান্তে।
ওপেনএআই:
গুগল:
চাপের মুখে ফ্রেবাল হিসেবে গুগল Bard ঘোষণা করে (ফেব্রুয়ারি ২০২৩)। প্রিভিউ‑ডেমো ChatGPT‑র কথোপকথ্যিক ক্ষমতা অনুকরণ করল। কিন্তু একটি প্রধান উত্তরে—James Webb Space Telescope‑এর আবিষ্কারের বিষয়ে—ভুল তথ্য দেয়া হয়। ভুলটি গুগলের মার্কেটিং উপকরণে পরে গিয়ে মিনিটের মধ্যে ধরে পড়ে, এবং এক দিনে Alphabet‑এর মার্কেট ক্যাপ বিলিয়ন ডলারে নেমে যায়। এটি একটি নির্মম ন্যারেটিভ তৈরি করে: গুগল দেরি করেছে, নার্ভাস করেছে, আর অপ্রীতিকরভাবে পরিস্থিতি হ্যান্ডেল করেছে; ওপেনএআই দেখতে আত্মবিশ্বাসী ও প্রস্তুত মনে হলো।
বিরক্তিকর ব্যাপারটি গুগল কর্মীদের জন্য কষ্টদায়ক ছিল। বৃহৎ ভাষা মডেলের হ্যালুসিনেশন সমস্যা জানার পরও, ওপেনএআই তা ব্যবহারকারীদের মানসিকতায় "রিসার্চ প্রিভিউ" আকারে স্বাভাবিক করে তুলেছিল—আর গুগল একটি চকচকে, উচ্চ-দায়িত্বশীল লঞ্চ হিসেবে Bard উপহার দিলে সেটাতে ভুলি ধরা পড়া আরও অপ্রীতিকর ছিল।
ChatGPT‑র ওপরে ওপেনএআইর সুবিধা কেবল বড় মডেল বা নতুন অ্যালগোরিদম ছিল না—এটি ছিল বাস্তবায়নের গতি ও অভিজ্ঞতার সরলতা।
ওপেনএআই:
সঠিকভাবে নয়, কিন্তু অতিরঞ্জিতও না — গুগল যে মূল প্রযুক্তি তৈরি করেছিল তা GPT‑এর জন্য অত্যন্ত গুরুত্বপূর্ণ।
সংক্ষেপে—গুগল বৌদ্ধিক ও অবকাঠামোগত ভিত্তি নির্মাণ করেছে; ওপেনএআই প্রথম বড় মূল্যস্রোতকে জিতেছে ওই ভিত্তি থেকে প্রোডাক্ট বানিয়ে (ChatGPT ও API)।
গুগল গবেষণা, অবকাঠামো এবং ধাপে ধাপে সার্চ উন্নয়নের দিকে বেশি নজর দিয়েছিল; ওপেনএআই একটাই ঝুঁকিপূর্ণ, সাধারণ-উদ্দেশ্য প্রডাক্টে বাজি ধরেছিল।
মূল পার্থক্যগুলো:
BERT ও GPT দুটোই ট্রান্সফর্মার ব্যবহার করে, কিন্তু ভিন্ন কাজের জন্য অপ্টিমাইজ করা:
গুগল ফ্রি-ফর্ম জেনারেশনকে ঝুঁকিপূর্ণ ও মনিটাইজেশন-দৃকভাবে অস্পষ্ট মনে করেছিল।
প্রধান উদ্বেগগুলো:
ওপেনএআই তিনটি বড় বাজি নিয়েছিল এবং ধারাবাহিকভাবে তা বাস্তবায়ন করল:
স্কেলকে কৌশল হিসেবে গ্রহণ। সাধারণ ট্রান্সফর্মারগুলোকে ব্যাপকভাবে (ডেটা, প্যারামিটার, কম্পিউট) বাড়িয়ে সক্ষমতা অর্জনের উপরে নিয়েছিল।
API‑প্রথম প্ল্যাটফর্ম। ২০২০‑এ GPT‑3 API লঞ্চ করে, সরল ক্লাউড এন্ডপয়েন্ট দিয়ে লক্ষাধিক ব্যবহার‑কেসকে উন্মুক্ত করে দিলো।
সুতরাং না। চমকে যাওয়ার বিষয় ছিল প্রডাক্ট ও ন্যারেটিভ, কাঁচা মডেলের ক্ষমতা নয়।
এই পার্থক্য জনসাধারণের দৃষ্টিভঙ্গি পালটে দিল: "গুগল নেতৃস্থানীয়" থেকে "ChatGPT/ওপেনএআই সংজ্ঞায়িত করছে এআই"—এটা গুগলের নিজের আবিষ্কারগুলোকে সরল ব্যবহারকারি অভিজ্ঞতায় রূপান্তর করার ক্ষমতা নয় বলে প্রতীয়মান করল।
ChatGPT‑এর অনন্যত্ব ছিল প্রায়শই বাস্তবায়ন ও উপস্থাপনার কারণে, নতুন অ্যালগরিদম নয়।
গুরুত্বপূর্ণ উপাদানগুলো:
গুগল ও ওপেনএআই একই প্রযুক্তিগত ভিত্তি থেকে শুরু করলেও তাদের সাংগঠনিক বাস্তবতা ভিন্ন ছিল, যা প্রায়ই সিদ্ধান্তগুলো প্রভাবিত করেছে।
সংক্ষেপে: গবেষণা একা আর কাফি নয়—প্রডাক্ট ডিজাইন, ডেভেলপার এক্সপিরিয়েন্স, ডাটা ফিডব্যাক লুপ ও বাজারে যাওয়ার গতি একযোগে জরুরি।
গুগল প্রযুক্তিগতভাবে শক্তिशালীই রইল: কাস্টম TPU, ডাটা সেন্টার নেটওয়ার্কিং, ইন্টারনাল টুলিং—এইগুলোতে তারা অগ্রণী।
তবে সেই প্রযুক্তিগত অগ্রগতি অনেক সময় ভেতরেই থেকে যায়: ডকুমেন্ট, প্ল্যাটফর্ম ফিচার ও ছোট-ছোট ব্যবহারিক উন্নতির আকারে। ব্যবহারকারীরা বহু বিভক্ত, সংযুক্ত নয় এমন ছোটো ফিচারই দেখেছে।
অপরদিকে ওপেনএআই ধারণাকে একক, পরিষ্কার প্রোডাক্ট লাইনে পরিণত করে: ChatGPT ও API—এর ফলে কাঁচা ক্ষমতাকে সহজে গ্রহণযোগ্য প্রডাক্টে রূপান্তর করা সম্ভব হয়েছে।
শিক্ষা: বিজ্ঞান জয় করা যথেষ্ট নয়; প্রচার-বিতরণ ও একটি স্পষ্ট প্রোডাক্ট গল্পও প্রয়োজন।
ChatGPT প্রকাশের পরে গুগল একটি প্রকাশ্য “code red” ডেকেছিল এবং তাদের AI কৌশল দ্রুত বদলাতে বাধ্য হলো।
প্রাথমিক প্রতিক্রিয়া ছিল Bard—যেটি পরে PaLM2-এ উন্নীত করা হয়। Bard ছিল তাড়াহুড়োর মধ্যে এবং বিধিনিষেধপূর্ণ। পরে আসল রিসেটটি হলো Gemini পরিবার:
পরবর্তী স্ট্র্যাটেজি: Gemini-কে Search, Workspace, Android, Chrome ইত্যাদিতে বোনা যেন গুগল তাদের ব্যাপক ডিস্ট্রিবিউশন কাজে লাগিয়ে দ্রুত ফিরে আসে।
গুগল রোলআউট প্রসঙ্গে নিরাপত্তা ও গভর্ন্যান্সে গুরুত্ব আরোপ করল:
ট্রেডঅফ: শক্তিশালী গার্ডরেইল ও ধীর পরীক্ষা‑নিরীক্ষা বনাম ওপেনএআইর দ্রুত ইটারেশন ও মাঝে মাঝে জনসমক্ষে হওয়া ভুল।
শীর্ষ মডেল‑মানের দিক থেকে Gemini Advanced ও উচ্চ স্তরের Gemini মডেলগুলো অনেক বেঞ্চমার্কে GPT‑4‑এর সঙ্গে প্রতিযোগিতামূলক মনে হয়। কিছু মাল্টিমোডাল ও কোডিং কাজে Gemini কিছুকাল এগিয়েছে; অন্য কাজগুলোতে GPT‑4 এখনও মানদণ্ড।
গুগল এখনো পিছিয়ে আছে কোথায়:
গুগলের শক্তি হলো ব্যাপক ডিস্ট্রিবিউশন (Search, Android, Workspace) এবং গভীর অবকাঠামো—যদি তারা এগুলোকে দ্রুত, মনোমুগ্ধকর AI‑নেটিভ অভিজ্ঞতায় রূপান্তর করে, তারা ধারণাগত ফাঁক পূরণ করতে পারবে।
বিল্ডারদের জন্য মূল শিক্ষা: আপনি ঐতিহ্য থাকা সত্ত্বেও প্রথম ঢেউটা মিস করতে পারেন—কিন্তু সেটা পুনরাবৃত্তি করবেন না।
সংক্ষিপ্ত পরামর্শগুলো:
আপনি ছোট‑স্থানে থেকেও গুগলের ভুল করতে পারেন যদি:
এড়াতে হবে:
গুগল এখনও একটি প্রযুক্তিগত প্রধান শক্তি, এবং Gemini‑র সঙ্গে তারা জোরালো রিসেট করেছে:
তবে তারা এখনও পিছিয়ে আছে—বিশেষত মাইন্ডশেয়ার ও তত্ক্ষণিক ডেভেলপার ইকোসিস্টেমে। ভবিষ্যৎ সম্ভবত বহু‑কেন্দ্রিক হবে: কয়েকটি শক্তিশালী ক্লোজড প্রদানকারী (গুগল, ওপেনএআই ইত্যাদি) এবং দ্রুত বিকশিত ওপেন‑সোর্স মডেল। গুগল হারায়নি, বরং প্রথম জেনারেটিভ ঢেউ মিস করে পরে ফিরে এসেছে।
প্রযুক্তিগতভাবে গুগল পিছিয়ে ছিল না; কিন্তু সংগঠনিক ও প্রডাক্ট-মুখী দিকগুলোতেই তারা ধীরগতিতে এগিয়েছিল।
BERT (গুগল):
GPT (ওপেনএআই):
সংক্ষেপে: গুগল সার্চ স্মার্ট করতে BERT-কে অপ্টিমাইজ করেছিল; ওপেনএআই ভ্রাতৃত্বপূর্ণ কথোপকথন ও জেনারেশনের জন্য GPT-ধাঁচটাকে চূড়ান্ত করেছে।
এই কারণে গুগল AI-কে বিদ্যমান প্রোডাক্টে সাবধানে ঢোকানোর পথে এগিয়েছে, পরিবর্তে ঝুঁকিপূর্ণ স্ট্যান্ডঅ্যালোন চ্যাটবট দ্রুত লঞ্চ করা হয়নি।
কনজিউমার চ্যাটকে ফ্ল্যাগশিপ প্রডাক্ট হিসেবে তোলা। ChatGPT এক সরল কথোপকথ্য ইন্টারফেস যা যে কেউই ব্যবহার করতে পারবে—প্রকৃতপক্ষে তা লঞ্চ করে ব্যবহার থেকে শেখার গতি বাড়ল।
এই সিদ্ধান্তগুলো ব্যবহারকারী → ডেটা → রাজস্ব → বড় মডেল → উন্নত প্রডাক্ট এমন একটি আত্ম‑প্রবল লুপ তৈরির পথে কাজ করেছে, যা গুগলের ধীর কিন্তু বিচ্ছিন্ন প্রোডাক্টাইজেশনের চেয়ে দ্রুত এগিয়েছে।
গুগলের Bard লঞ্চ ছিল অনুপ্রেরিত (code red এ প্রতিক্রিয়া), উচ্চ-স্তরের মার্কেটিংয়ের সাথে—ত্রুটির কোনো স্বচ্ছ ব্যবস্থাপনা না থাকায় তা খারাপভাবে প্রতীয়মান হয়। মূলত পার্থক্য ছিল: ওপেনএআই তা বাস্তবে শিপ করে এবং জনসমক্ষে থেকে শিখল।