অ্যাপলের প্রাথমিক Siri কিভাবে পিছিয়ে পড়ল, আর ChatGPT ও বড় ভাষা মডেল কীভাবে অ্যাসিস্ট্যান্টদের মানদণ্ড বদলে দিল—অ্যাপলের কৌশল ও ভবিষ্যৎ পরিকল্পনা কী অর্থ বহন করে তা বিশ্লেষণ।

Siri ও ChatGPT প্রায়শই তুলনা করা হয় যেন দুটো আলাদা অ্যাসিস্ট্যান্ট মাত্র। কিন্তু আগ্রহজনক দিকটি হল কীভাবে এক কোম্পানি ক্যাটেগরি নির্ধারণ করেছিল, তারপর অন্য একটি প্রযুক্তি তরঙ্গ এসে প্রত্যাশা রিসেট করার সময় তা গতিশীলতা হারিয়ে ফেলল।
যখন অ্যাপল 2011‑এ iPhone 4S‑এ Siri চালু করেছিল, তখন এটা যেন কম্পিউটিংয়ের ভবিষ্যৎ: ফোনকে বলুন, কাজ হয়, কোন কীবোর্ড দরকার নেই। অ্যাপলের কাছে মেইনস্ট্রিম ভয়েস অ্যাসিস্ট্যান্সে প্রথম সরাসরি সুবিধা ছিল—“এআই” প্রতিটি পণ্যের রোডম্যাপের কেন্দ্র হলেও বহু বছর আগে। কিছুক্ষণ জন্য, Siri মানুষের ধারণাকে গঠন করেছিল যে একটি অ্যাসিস্ট্যান্ট কী হতে পারে।
এক দশক পর, চূড়ান্তভাবে 2022‑এর শেষভাগে ChatGPT বিস্ফোরিত হয়ে অনেক ব্যবহারকারীর মনে করিয়ে দিল যেন তারা আরেক ধরনের অ্যাসিস্ট্যান্ট অনুভব করছে। এটি লিখতে পারে, ব্যাখ্যা করতে পারে, অনুবাদ করতে পারে, ডিবাগ করতে পারে এবং প্রসঙ্গের সঙ্গে মানিয়ে নিতে পারে—যা স্ক্রিপ্ট করা ভয়েস সিস্টেম কখনোই করতে পারেনি। একরাতে ব্যবহারকারীর প্রত্যাশা উঠল: “টাইমার সেট করা এবং আমার অনুরোধ ভুল শোনা” থেকে “জটিল বিষয় নিয়ে যুক্তি করা এবং চাহিদা অনুযায়ী কনটেন্ট তৈরি করা”।
এই নিবন্ধটি ফিচারের চেকলিস্ট নিয়ে নয়। এটা বিষয়গত: কিভাবে Siri‑র নকশা, আর্কিটেকচার এবং প্রোডাক্ট সীমাবদ্ধতা এটিকে সংকীর্ণ ও ভঙ্গুর রাখল, আর কিভাবে বড় ভাষা মডেল (LLM) ChatGPT‑কে খোলা‑শেষ, কথোপকথনমুখী করে তুলল।
আমরা দেখব:
প্রোডাক্ট ও এআই টিমদের জন্য, Siri বনাম ChatGPT হচ্ছে একটি কেস‑স্টাডি যে সময়, প্ল্যাটফর্ম সিদ্ধান্ত, এবং প্রযুক্তিগত বাজি কিভাবে সুবিধাকে বাড়ায়—অথবা স্তরে স্তরে ভেঙে দেয়।
অ্যাপল যখন 2011‑এ iPhone 4S‑এর সাথে Siri উন্মোচন করেছিল, তখন এটি একটি মেইনস্ট্রিম ডিভাইসে সাইন্স‑ফিকশনের ঝলক মনে করিয়ে দিচ্ছিল। Siri শুরু হয় একটি স্বাধীন স্টার্ট‑আপ হিসেবে, SRI International থেকে স্পিন‑আউট ছিল; অ্যাপল 2010‑এ এটি অধিগ্রহণ করে দ্রুত নামকরা ফিচার বানায়—শুধু আরেকটি অ্যাপ নয়।
অ্যাপল Siri‑কে কথোপকথনমূলক, ভয়েস‑চালিত অ্যাসিস্ট্যান্ট হিসেবে বাজারজাত করেছিল যা প্রতিদিনকার কাজগুলো করতে পারত: রিমাইন্ডার সেট করা, মেসেজ পাঠানো, আবহাওয়া দেখানো, রেস্টুরেন্ট খোঁজা ইত্যাদি। পিচটি ছিল সরল এবং শক্তিশালী: অ্যাপ ট্যাপ করার বদলে আপনি আপনার iPhone‑কে বলতে পারবেন।
লঞ্চ ক্যাম্পেইন ব্যক্তিত্বের ওপর জোর দিয়েছিল। Siri‑এর কৌতুকপূর্ণ উত্তর, জোকস, এবং ইস্টার এগগুলি সহকারে ডিজাইন করা হয়েছিল যাতে অ্যাসিস্ট্যান্টটি জীবন্ত ও বন্ধুত্বপূর্ণ লাগে। টেক রিভিউয়ার ও মেইনস্ট্রিম মিডিয়া ‘লোকেরা তাদের ফোনকে কথা বলছে’—এমন সাংস্কৃতিক মুহূর্ত হিসেবে কভার করেছিল। কিছুক্ষণের জন্য, Siri ছিল কনজিউমার এআই‑এর সবচেয়ে দৃশ্যমান প্রতীক।
বন্ধুত্বপূর্ণ কণ্ঠের পেছনে, Siri‑র আর্কিটেকচার ছিল ইন্টেন্ট‑ভিত্তিক একটি সিস্টেম, পূর্বনির্ধারিত ডোমেইনের সাথে যুক্ত:
create_reminder বা send_message)‑এ ম্যাপ করার চেষ্টা করত।Siri সাধারণভাবে “চিন্তা” করছিল না; এটি একটি বিশাল সেট স্ক্রিপ্ট করা সক্ষমতা সমন্বয় করছিল।
লঞ্চের সময়, এটি প্রতিদ্বন্দ্বীদের তুলনায় বহু বছর এগিয়ে ছিল। Google Voice Actions ও অন্যান্য প্রচেষ্টা তুলনায় সরল ও ইউটিলিটি-ভিত্তিক মনে হচ্ছিল। Siri‑এর মাধ্যমে অ্যাপল পাবলিক কল্পনাকে আয়ত্ত করে নিয়েছিল—কীভাবে স্মার্টফোনে একটি অ্যাসিস্ট্যান্ট কাজ করতে পারে—LLM বা ChatGPT প্রবেশ করার অনেক আগে।
Siri দৈনন্দিন কাজের একটি সরল সেট ঠিকঠাক করে এটিকে মানুষের রুটিনে জায়গা করে নিয়েছিল। “Hey Siri, 10‑মিনিট টাইমার সেট কর” বা “মা কে কল কর” বা “অ্যালেক্সকে টেক্সট বলবে আমি দেরি করছি” সাধারণত প্রথমবারেই কাজ করত। গাড়ি চালানো বা রান্নার সময় হ্যান্ডস‑ফ্রি কন্ট্রোল মায়াজালীয় মনে হত।
সংগীত নিয়ন্ত্রণ আরেকটি শক্ত জায়গা ছিল। “কিছু জ্যাজ প্লে কর”, “স্কিপ”, বা “এটা কোন গান?” আইফোনকে Apple Music ও অডিও অভিজ্ঞতার ভয়েস‑চালিত রিমোটের মতো অনুভব করিয়েছিল। সাদাসিধা প্রশ্ন—আবহাওয়া, স্পোর্টস স্কোর, মৌলিক তথ্য—সহ Siri দ্রুত ইউটিলিটি প্রদান করত সংক্ষিপ্ত, এক‑টার্ন ইন্টারঅ্যাকশনে।
আকাশের নিচে, Siri নির্ভর করত ইন্টেন্ট, স্লট এবং ডোমেইনের ওপর। প্রতিটি ডোমেইন (যেমন মেসেজিং, অ্যালার্ম, মিউজিক) কয়েকটি ইন্টেন্টকে সমর্থন করত—"send message", "create timer", "play track"—সাথে স্লটগুলো যেমন কন্টাক্ট নাম, সময়কাল, গান শিরোনাম।
এই নকশা তখন ভাল কাজ করত যখন ব্যবহারকারী প্রত্যাশিত বাক্যগঠনে থাকত: “Remind me at 3 p.m. to call the dentist” পরিষ্কারভাবে একটি রিমাইন্ডার ইন্টেন্টে ম্যাপ হত সময় ও টেক্সট স্লটসহ। কিন্তু যখন মানুষ স্বাধীনভাবে কথা বলত—পাশাপাশি মন্তব্য যোগ করে বা অদ্ভুত অর্ডারে—Siri প্রায়ই মিসফায়ার করত বা ওয়েব সার্চে ফিরে যেত।
প্রতিটি নতুন আচরণ একটি সাবধানে মডেল করা ইন্টেন্ট ও ডোমেইন দাবি করত, তাই Siri‑এর ক্ষমতা ধীরে ধীরে বাড়ত। নতুন অ্যাপ, কাজ এবং ভাষার সমর্থন ব্যবহারকারীর প্রত্যাশার থেকে পরে থাকত। বহু মানুষ লক্ষ্য করেছিল বছর-বছর গিয়ে Siri‑এর নতুন দক্ষতা বা বেশি “স্মার্ট” হওয়ার স্পষ্ট উন্নতি নেই।
ফলো‑আপ প্রশ্নগুলো শ্যালো ছিল—আগের প্রসঙ্গের কোনও স্মৃতি থাকত না। আপনি একটি টাইমার চাইলে একবার পারতেন, কিন্তু প্রাকৃতিক কথোপকথনে একাধিক টাইমার পরিচালনা ভঙ্গুর মনে হত। সেই ভঙ্গুরতা—এবং Siri‑এর খুব কম উন্নতির ছাপ—তৈরি করল পরিস্থিতি যেখানে পরে একটি আরো নমনীয়, কথোপকথনমুখী সিস্টেম যেমন ChatGPT এসে মানুষকে মুগ্ধ করল।
Siri ছিল ইন্টেন্ট‑ভিত্তিক: একটি ট্রিগার ফ্রেজ সনাক্ত করুন, অনুরোধকে পরিচিত ইন্টেন্টে শ্রেণীবদ্ধ করুন (অ্যালার্ম সেট, মেসেজ পাঠান, গান চালান), তারপর নির্দিষ্ট সার্ভিস কল করুন। যদি আপনার অনুরোধ পূর্বনির্ধারিত প্যাটার্ন বা ডোমেইনে না পড়ে, Siri‑র যাওয়ার পথ নেই—এটি ব্যর্থ হত বা ওয়েব সার্চে ফিরে যেত।
বড় ভাষা মডেলগুলো (LLM) সেই মডেল উল্টে দিল। নির্দিষ্ট ইন্টেন্টে ম্যাপ করার বদলে, তারা একটি ক্রমের পরবর্তী শব্দ অনুমান করে, বিশাল টেক্সট কর্পাসে প্রশিক্ষিত। সেই সহজ উদ্দেশ্য ব্যাকরণ, তথ্য, শৈলী এবং যুক্তি‑কাঠামোকে একটি একক, সাধারণ সিস্টেমে এনকোড করে। অ্যাসিস্ট্যান্টকে আর প্রতিটি নতুন টাস্কের জন্য কাস্টম রুল বা API লাগে না; এটি ডোমেইন জুড়ে ইম্প্রোভাইজ করতে পারে।
GPT‑3 (2020) প্রথম LLM যেটি গুণগতভাবে আলাদা অনুভূত: একটি মডেল কোড লিখতে পারে, মার্কেটিং কপি ড্রাফ্ট করতে পারে, আইনি টেক্সট সারাংশ করতে পারে এবং প্রশ্নের উত্তর দিতে পারে টাস্ক‑স্পেসিফিক প্রশিক্ষণ ছাড়াই। তবে এটি তখনও একটি “রই” মডেল—শক্তিশালী, কিন্তু নিয়ন্ত্রণ করা অসুবিধা।
ইনস্ট্রাকশন টিউনিং ও হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট (RLHF) বদলে দিল। গবেষকরা মডেলকে এমন উদাহরণে ফাইন‑টিউন করলেন: "Write an email to…" বা "Explain quantum computing simply"—যাতে তারা ব্যবহারকারী নির্দেশনা ও নিরাপত্তা নর্মের সাথে সামঞ্জস্যপূর্ণ হয়। এতে LLM‑গুলো প্রাকৃতিক ভাষার অনুরোধ অনুসরণে অনেক উন্নত হল।
ইনস্ট্রাকশন‑টিউন করা মডেলকে একটি পারসিস্টেন্ট চ্যাট ইন্টারফেসে মোড়ানো—যা OpenAI ChatGPT‑এর মাধ্যমে 2022‑এর শেষভাগে করেছে—এই ক্ষমতাকে ব্যবহারযোগ্য ও বোধ্য করে তোলে। ব্যবহারকারীরা করতে পারে:
মাল্টিমোডাল মডেলগুলোর সঙ্গে একই সিস্টেম এখন টেক্সট, কোড ও ইমেজ হ্যান্ডেল করতে পারে—এগুলোর মধ্যে অনুবাদ ফ্লুইডলি করে।
Siri‑র সংকীর্ণ, ইন্টেন্ট‑বেঁধে রাখা দক্ষতার তুলনায়, ChatGPT সাধারণ‑উদ্দেশ্যের কথোপকথনমূলক সঙ্গীর মতো আচরণ করে। এটি বিষয়ে যুক্তি করতে পারে, ড্রাফ্ট ও ডিবাগ করতে পারে, ব্রেইনস্টর্ম ও ব্যাখ্যা করতে পারে—Apple‑স্টাইলের ডোমেইন সীমা ছাড়িয়ে। এই রূপান্তর—কমান্ড স্লট থেকে খোলা‑শেষ কথোপকথনে—ইই যে Siri‑কে দ্রুত পুরনো মনে করিয়ে দিল।
অ্যাপলের AI কাহিনী কেবল অ্যালগরিদমের কথা নয়; এটি প্রোডাক্ট দর্শনের কথাও। একই সিদ্ধান্তগুলো যেগুলো আইফোনকে বিশ্বাসযোগ্য ও লাভজনক করেছিল, সেগুলোই Siri‑কে স্থবির করে দিল যখন ChatGPT এগিয়ে গেল।
অ্যাপল Siri তৈরি করেছিল কঠোর গোপনীয়তা মডেলে: ডেটা সংগ্রহ কম করুন, স্থায়ী শনাক্তকারী এড়িয়ে চলুন, এবং সম্ভব হলে অন‑ডিভাইসে রাখুন। এটি ব্যবহারকারী ও নিয়ন্ত্রকদের আশ্বস্ত করেছিল, কিন্তু অর্থ ছিল:
যেখানে OpenAI ও অন্যরা বিশাল ডেটাসেট ও সার্ভার লগে LLM‑গুলি প্রশিক্ষণ করছিল, অ্যাপল ভয়েস ডেটাকে দ্রুত ফেলে দেয় অথবা শক্তভাবে অ্যানোনিমাইজ করে। ফলত Siri‑র বোধমূলক, বাস্তব‑দুনিয়া অনুরোধ বোঝার ক্ষমতা তুলনায় সংকীর্ণ ও ভঙ্গুর থাকল।
অ্যাপল অন‑ডিভাইসে প্রসেসিং সম্পর্কে আগ্রাসী ছিল। আইফোনে মডেল চালানো মানে ল্যাটেন্সি কম এবং গোপনীয়তা ভাল, কিন্তু বছরের পর বছর এটি মডেলের আকার ও জটিলতাকে সীমাবদ্ধ করেছিল।
Siri‑এর প্রাথমিক আর্কিটেকচারগুলো ছোট, বিশেষায়িত মডেলের জন্য অপ্টিমাইজ ছিল যা সীমিত মেমরি ও এনার্জি বাজেটে ফিট হত। ChatGPT ও তার আত্মীয়রা বিপরীত দিকে অপ্টিমাইজ করেছিল: ক্লাউডে বিশাল মডেল যা আরো GPU‑এর সঙ্গে স্কেল করা যায়।
ফলে ভাষা মডেলিং‑এর প্রতিটি লাফ — বড় প্রসঙ্গ উইন্ডো, সমৃদ্ধ যুক্তি, আবির্ভূত ক্ষমতা—প্রথম দেখায় ক্লাউড‑অ্যাসিস্ট্যান্টে, Siri‑তে নয়।
অ্যাপলের ব্যবসা হার্ডওয়্যার মার্জিন ও ঘন ইন্টিগ্রেটেড সার্ভিসের ওপর ঘোরে। Siri‑কে একটি ফিচার হিসেবে ফ্রেম করা হয়েছিল যা iPhone, Apple Watch ও CarPlay‑কে আকর্ষণীয় করে—একটি স্বতন্ত্র AI পণ্য হিসেবে নয়।
এটি বিনিয়োগ সিদ্ধান্তগুলোকে আকৃতি দিয়েছে:
ফল: Siri উন্নত হলো, কিন্তু প্রধানত ডিভাইস‑ব্যবহারকেই সমর্থন করে—টাইমার, মেসেজ, HomeKit—বহু‑স্তর বিশ্লেষণ বা রচনা করার বদলে।
সংস্কৃতি হিসেবে, অ্যাপল অসম্পূর্ণ মনে হওয়া যেকোনো কিছুকে নিয়ে সতর্ক। পাবলিক “বেটা” ফিচার ও বাগযুক্ত পরীক্ষামূলক ইন্টারফেস ব্র্যান্ড‑এর সঙ্গে খাপে খাপ বসে না।
বড় ভাষা মডেলগুলো, বিশেষত প্রাথমিক পর্যায়ে, ছিল মিলানো: হ্যালুসিনেশন, অনিয়মিত উত্তর, ও নিরাপত্তা ট্রেড‑অফ। OpenAI ও অন্যান্যরা এগুলোকে খুলে চালিয়েছিল, গবেষণা হিসেবে লেবেল করে এবং পাবলিকভাবে ইটারেট করেছিল। অ্যাপল তুলনায় ভবিষ্যৎবাণী করে বড় পড়া ভলিউমে পরীক্ষামূলক Siri‑কে খুলে দিতে অনিচ্ছুক ছিল।
সতর্কতা এই ফিডব্যাক লুপ ছোট করে দিয়েছিল। ব্যবহারকারী Siri‑ থেকে রেডিক্যাল নতুন আচরণ দেখেনি, এবং অ্যাপলও ChatGPT‑এর দ্রুত আবর্তনের মতো বিশাল ব্যবহার ডেটা পাইপলাইন পায়নি।
প্রতিটি প্রোডাক্ট সিদ্ধান্ত—গোপনীয়তা‑সর্বোচ্চ ডেটা ব্যবস্থাপনা, অন‑ডিভাইস ওজন, হার্ডওয়্যার‑প্রধান অর্থনীতি, এবং সাংস্কৃতিক সতর্কতা—এককভাবে যৌক্তিক। একসঙ্গে এগুলো মানে Siri ছোট, নিয়ন্ত্রিত ধাপে বিবর্তিত হয়েছে, যেখানে ChatGPT লাফিয়েছে।
গ্রাহকরা কেবল অ্যাপলের উদ্দেশ্য বিচার করেনি; তারা অভিজ্ঞতা তুলনা করেছে: Siri এখনও তুলনামূলকভাবে সহজ, বহু‑ধাপে অনুরোধে ব্যর্থ হলেও ChatGPT জটিল প্রশ্ন, কোডিং সহায়তা, ব্রেইনস্টর্মিং ইত্যাদি সামলাতে পারছে।
যখন অ্যাপল Apple Intelligence ও ChatGPT ইন্টিগ্রেশন ঘোষণা করে, তখন ব্যবহৃত ধারণায় স্পষ্ট ফাঁক দেখা গিয়েছিল: Siri ছিল সেই অ্যাসিস্ট্যান্ট যাকে আপনি ভুল বোঝার আশা করেন; ChatGPT ছিল সেই যাকে আপনি আচমকা অবাক হওয়ার আশা করেন।
Siri কেবল বুদ্ধিমত্তায় পিছিয়েছিল না; এটি বাইরের ডেভেলপারদের জন্য কিভাবে উন্মুক্ত তা দিয়েও সঙ্কুচিত ছিল।
SiriKit তৃতীয়‑পক্ষ অ্যাপগুলোকে শুধু কয়েকটি পূর্বনির্ধারিত “ডোমেইন” ও “ইন্টেন্ট”‑এ প্লাগ ইন করতে দিয়েছিল: মেসেজিং, VoIP কল, রাইড বুকিং, পেমেন্ট, ওয়ার্কআউট, এবং কিছু অন্যান্য।
আপনি যদি একটি নোট‑টেকিং অ্যাপ, ট্রাভেল প্ল্যানার, বা CRM টুল বানাতেন, প্রায়ই সেখানে কোনো ডোমেইন থাকতেনা। সমর্থিত ডোমেইনেও, আপনাকে অ্যাপল‑নির্ধারিত ইন্টেন্ট যেমন INSendMessageIntent বা INStartWorkoutIntent‑এ মাপাতে হতো। কোনো সৃজনশীল জিনিস Siri‑এর পৌঁছানোর বাইরে থাকত।
ইনভোকেশনও কঠোর ছিল। ব্যবহারকারীদের নির্দিষ্ট প্যাটার্ন মনে রাখতে হতো:
“Hey Siri, send a message with WhatsApp to John saying I’ll be late.”
যদি তারা ভিন্নভাবে বলত, Siri প্রায়ই ব্যর্থ হতো বা অ্যাপলের নিজস্ব অ্যাপকে ডিফল্ট করত। উপরন্তু, SiriKit সম্প্রসারণগুলো কড়া রিভিউ, সীমিত UI নিয়ন্ত্রণ এবং স্যান্ডবক্সিংয়ের মধ্যে ছিল যা পরীক্ষামূলকতা প্রতিহত করত।
ফল: কম অংশীদার, পাতলা ইন্টিগ্রেশন, এবং "Siri স্কিল"‑এর স্থবিরতা।
OpenAI বিপরীত পথ নিয়েছে। সংক্ষিপ্ত ডোমেইনের তালিকা দেয়ার বদলে তারা একটি সাধারণ টেক্সট ইন্টারফেস উন্মুক্ত করেছে এবং পরে function calling, embeddings ও fine‑tuning মত টুলস দেওয়া হয়েছে।
ডেভেলপাররা একই API ব্যবহার করে করতে পারে:
কোনো আলাদা প্রোগ্রাম নেই, ডোমেইন হোয়াইটলিস্ট নেই—শুধু ব্যবহার নীতি ও মূল্যায়ন।
প্রয়োগ সহজ হওয়ায়, হাজারো অ্যাপ নির্বিঘ্নে বন্য পরীক্ষানবীশ চিন্তা চালায়: স্বয়ংক্রিয় এজেন্ট, প্লাগইন সিস্টেম, ওয়ার্কফ্লো কপাইলট ইত্যাদি। অনেকই ব্যর্থ হয়েছে, কিন্তু ইকোসিস্টেম দ্রুত আবিষ্কার করেছে কী কাজ করে।
ChatGPT‑চালিত টুলগুলি সপ্তাহে সপ্তাহে উন্নত হলেও, Siri ইন্টিগ্রেশনগুলো প্রায় অপরিবর্তিত ছিল। ব্যবহারকারীরা লক্ষ্য করেছিল। Siri স্থবির ও ভঙ্গুর লাগতে শুরু করল, যখন LLM‑ভিত্তিক পণ্যগুলো নতুন ক্ষমতায় মানুষকে অবাক করে দিচ্ছে।
ইকোসিস্টেম নকশাই—শুধু মডেল কোয়ালিটির বাইরে—Siri বনাম ChatGPT তফাতকে এত স্পষ্ট করে তুলেছে।
অনেকের কাছে, “Hey Siri” হালকা হতাশার প্রতিশব্দ হয়ে ওঠে। দৈনন্দিন মুহূর্তগুলো জমে গেল:
সময়ের সাথে ব্যবহারকারীরা মানিয়ে নিয়েছিল। তারা সংক্ষেপে, সূত্রভিত্তিক কমান্ড বলার অভ্যস্ত হয়ে উঠল। তারা খোলা‑শেষ প্রশ্ন করা বন্ধ করে দিয়েছিল কারণ উত্তরগুলো শ্যালো বা কেবল “I found this on the web” থাকত। ভয়েস ব্যর্থ হলে মানুষ আবার ট্যাপ করে টাইপ করতে শুরু করল—অ্যাপলের ইকোসিস্টেমে থাকলেও সহায়ক অ্যাসিস্ট্যান্ট‑এর প্রত্যাশা কমে গেল।
সামাজিকভাবে, Siri একটা মিমে পরিণত হয়েছিল—লেট‑নাইট জোকস ও ইউটিউব কম্পাইলেশনগুলো Siri‑এর ভুল বোঝার উপর খণ্ডকালীন হিউমার তৈরি করল।
ChatGPT সেই মানসিক ধারা উল্টে দিল। ভুল বোঝা কম, ব্যবহারকারীরা বিস্তারিত, কথোপকথনমুখী উত্তর দেখল। এটি করতে পারে:
ইন্টারঅ্যাকশন মডেলটা দ্রুত বদলে গেল: দ্রুত, লেনদেন-ধাঁচ কমান্ড—“টাইমার সেট কর”, “আবহাওয়া কি”—থেকে গভীর সহায়তায়—“আমার স্টাডি প্ল্যান ডিজাইন কর”, “এই কন্ট্রাক্ট সাধারণ ভাষায় লিখে দাও”, “বাগটি ধাপে ধাপে ঠিক করে দেখাও”।
ব্যবহারকারীরা যখন দেখল অ্যাসিস্ট্যান্ট প্রসঙ্গ মনে রাখতে পারে, ড্রাফ্ট পরিমার্জন করতে পারে, এবং ধাপে ধাপে কাজ করতে পারে, তখন এআই‑এর প্রত্যাশা কয়েক ধাপে লাফিয়ে বাড়ল। সেই নতুন মানদণ্ডের মুখে Siri‑র কেবল সামান্য উন্নতি (অল্প উন্নত ডিক্টেশন, কিছু দ্রুত প্রতিক্রিয়া) ক্ষুদ্র ও অনুপস্থিত মনে হল। ব্যবহারকারীর ধারণা কেবল Siri থেকে খারাপ হয়ে ওঠেনি; এটি একটি নতুন সংজ্ঞা গঠন করল—কি হওয়া উচিত একটি “অ্যাসিস্ট্যান্ট”।
ChatGPT প্রত্যাশা বদলে দিল—অ্যাসিস্ট্যান্টকে শুধু “ভয়েস রিমোট” না করে “চিন্তাশীল সহকর্মী” হিসেবে। ডিভাইস‑বিষয়ক কাজ ছাড়াও, ব্যবহারকারীরা দেখল একটি অ্যাসিস্ট্যান্ট যে:
মূল পরিবর্তন ছিল কেবল প্রশ্নের উত্তর দেওয়া নয়, বরং কাজটি শেষ পর্যন্ত পৌঁছে দেওয়ার মতো সহায়তা। মানুষ ডকুমেন্ট, স্প্রেডশীট, বা কোড পেস্ট করে আশা করতে শুরু করলেন একটি চিন্তাশীল, ফরম্যাট করা আউটপুট যা সামান্য এডিটে শিপ করা যাবে।
বড় ভাষা মডেলগুলো ধারাবাহিকতার অনুভূতি এনেছে। শুধু একক Q&A নয়, ChatGPT পারে:
টুলস ও প্লাগইন দিয়ে, এটা ওয়ার্কফ্লো পর্যন্ত বাড়ে: অ্যাপ থেকে ডেটা টেনে আনা, রূপান্তর করা, ফলাফল ইমেইল বা রিপোর্টে পরিণত করা। ব্যবহারকারীরা এখন যা বোঝায় “অ্যাসিস্ট্যান্ট”—একটি জিনিস যা ইচ্ছা বুঝে বহু‑ধাপে কাজ করে।
ChatGPT দ্রুত অনুসন্ধিৎসা থেকে দৈনন্দিন কাজের অবকাঠামোতে পরিণত হলো। ছাত্ররা ভেবেছেন এটা ধারণা বোঝা, ভাষা অনুশীলন ও এসে লেখা আউটলাইন তৈরিতে ব্যবহার করা যায়। জ্ঞানকর্মীরা এটাকে গবেষণা সংশ্লেষণ, ধারণা সৃষ্টির ও প্রথম খসড়া লেখার জন্য ব্যবহার করে। দলগুলো এটাকে সাপোর্ট ফ্লো, কোডিং পাইপলাইন ও অভ্যন্তরীণ জ্ঞান টুলে গড়ে তোলে।
এই প্রেক্ষাপটে, Siri‑র মূল শক্তি—নির্ভরযোগ্য ডিভাইস কন্ট্রোল ও দ্রুত, হ্যান্ডস‑ফ্রি কমান্ড—অনেক সংকীর্ণ মনে হতে লাগল। এটি অন‑ডিভাইস অ্যাকশনগুলোতে উৎকৃষ্ট: অ্যালার্ম, মেসেজ, কল, মিডিয়া, স্মার্ট হোম কন্ট্রোল।
কিন্তু যখন ব্যবহারকারী প্রত্যাশা করে এমন অ্যাসিস্ট্যান্ট যুক্তি দিতে পারে, প্রসঙ্গ রাখতে পারে, এবং জটিল কাজ সম্পন্ন করতে পারে, তখন একটি সিস্টেম যা মূলত সুইচ টগল করে ও সহজ তথ্য দেয় সেটাই আর
Siri ডিজাইন করা হয়েছিল একটি নির্দিষ্ট কাজের ভয়েস ইন্টারফেস হিসেবে, আর ChatGPT তৈরি হয়েছে একটি সাধারণ উদ্দেশ্যের ভাষাগত মডেল হিসেবে যা বিভিন্ন ডোমেইনে অনুকরণীয়ভাবে কাজ করতে পারে।
মূল পার্থক্যগুলো:
আর্কিটেকচার
ক্ষমতা
ইন্টারঅ্যাকশন স্টাইল
ধারনা
Siri পিছিয়ে পড়ার কারণ ছিল অ্যাপলের কৃত্রিম বুদ্ধিমত্তা বা প্রতিভার অভাব নয়, বরং কৌশলগত ও প্রোডাক্ট-নির্বাচন যা দৃশ্যমান অগ্রগতি ধীর করেছিল।
প্রধান কারণগুলো:
Siri‑র প্রাথমিক সিস্টেম:
set_alarm, send_message, বা play_song এর মতো পরিচিত ইন্টেন্টে ম্যাপ করার চেষ্টা করত।অ্যাপলের সিদ্ধান্তগুলো স্বতন্ত্রভাবে যৌক্তিক ছিল, কিন্তু সম্মিলিতভাবে Siri‑র বিকাশ সীমিত করেছিল।
প্রধান প্রোডাক্ট সিদ্ধান্তগুলো:
Apple Intelligence হলো অ্যাপলের নতুন ছাতার নাম যেখানে সিস্টেম-ব্যাপনী জেনারেটিভ AI ফিচারগুলো সাজানো আছে।
এর প্রধান উপাদানগুলো:
অ্যাপলের OpenAI‑এর সঙ্গে অংশীদারিত্ব মানে Siri‑এর কাছে এখন ChatGPT‑এর মতো মডেলকে ব্যবহার করার রাস্তা খুলে দেওয়া হয়েছে—যখন অ্যাপলের মডেল যথেষ্ট নয়।
কিভাবে কাজ করে (বৃহৎভাবে):
তারা ভিন্ন কাজের জন্য সর্বোত্তম, এবং বেশিরভাগ মানুষ দুইটাকেই ব্যবহার করবে।
ব্যবহার করুন Siri যখন আপনার দরকার:
ব্যবহার করুন ChatGPT‑শৈলী টুলস যখন আপনার দরকার:
বিকাশকারীদের জন্য Siri ও LLM প্ল্যাটফর্মগুলোর মধ্যে মূল পার্থক্য হচ্ছে নমনীয়তা ও সুযোগক্ষেত্র।
Siri / SiriKit:
LLM প্ল্যাটফর্ম (যেমন OpenAI APIs):
এই আর্টিকেলে কয়েকটি কার্যকরি পাঠ রয়েছে:
হ্যাঁ—অ্যাপলের কাছে এখনও শক্তিশালী সম্পদ আছে, কিন্তু তারা যেই কাহিনী হারিয়েছে তা পুনরুদ্ধার করতেই হবে।
অ্যাপলের কাছে যা আছে:
অ্যাপল যা হারিয়েছে:
অপরদিকে, ChatGPT ও অনুরূপ LLM‑গুলো দৃশ্যমানভাবে দ্রুত উন্নতি করায় ব্যবহারকারীরা “স্মার্ট” সম্পর্কে প্রত্যাশা রি‑ক্যালিব্রেট করে ফেললেন।
ChatGPT‑র পেছনের LLM‑গুলো:
প্রায়ে, LLM‑গুলো অনেক বেশি লচgil: জটিল, বহু-স্তরীয় প্রশ্ন মানিয়ে নিতে ও এমন কাজ করতে সক্ষম যা Siri‑র জন্য আগে থেকে নির্ধারিত ছিল না।
কঠোর গোপনীয়তা মডেল
অন‑ডিভাইস প্রসেসিং অগ্রাধিকার
হার্ডওয়্যার‑প্রধান অর্থনীতি
সতর্ক শিপিং সংস্কৃতি
এইগুলো মিলিয়ে Siri ধাপে ধাপে উন্নত হলেও ব্যবহারকারীর দৃষ্টিতে বড়, লক্ষ্যণীয় ব্রেকথ্রু ঘটেনি; অন্যদিকে LLM‑ভিত্তিক পণ্যগুলোর উন্নতি ধারাবাহিক ও স্পষ্ট ছিল।
সংক্ষেপে, Apple Intelligence হলো অ্যাপলের চেষ্টা LLM‑চালিত অ্যাসিস্ট্যান্ট পরিগ্রহে পৌঁছানোর, কিন্তু গোপনীয়তা ও হার্ডওয়্যার ইন্টিগ্রেশনের সঙ্গে সামঞ্জস্য রেখে।
গোপনীয়তার দিক থেকে, অ্যাপল এটিকে স্পষ্ট, অপ্ট‑ইন রুট হিসেবে উপস্থাপন করে: Siri সামনে থাকবে, এবং আপনি সিদ্ধান্ত নেবেন কখন আপনার অনুরোধ অ্যাপলের বাইরে OpenAI‑তে যাবে।
প্রায়োগিক নীতি: Siri‑কে বলুন আপনার ডিভাইস চালাতে; ChatGPT‑কে বলুন আপনার সাথে চিন্তা করতে।
যদি আপনি ডিভাইস-স্তরের ইনটিগ্রেশন চান, SiriKit প্রয়োজন। যদি আপনি প্রশস্ত, ডোমেইন-নির্দিষ্ট সহকারী বা কপাইলট তৈরি করতে চান, LLM প্ল্যাটফর্ম সাধারণত ভালো পছন্দ।
সংক্ষেপে, AI UX‑এ প্রাথমিক লিড ভঙ্গুর—এজন্য দ্রুত, দৃষ্টিগোচর, ব্যবহারকারী-কেন্দ্রিক উন্নতি প্রয়োজন।
পরবর্তী কয়েক বছর—কত দ্রুত অ্যাপল Siri‑কে উন্নত করে, ইকোসিস্টেম খুলে দেয়, এবং Apple Intelligence‑কে কাজে লাগায়—তার ওপর নির্ভর করবে তারা কি আবার সহকারী অভিজ্ঞতার কাহিনী রচনা করতে পারবে না।