อ่านว่าทำไม Google เป็นผู้คิดค้นสถาปัตยกรรม Transformer ที่อยู่เบื้องหลัง GPT แต่ OpenAI กลับเปลี่ยนมันเป็นผลิตภัณฑ์ไวรัลอย่าง ChatGPT และบทเรียนเชิงกลยุทธ์สำหรับผู้สร้าง

Google ไม่ได้ “พลาด” AI เสมอไป แต่เป็นผู้คิดค้นส่วนสำคัญที่ทำให้คลื่นปัจจุบันเป็นไปได้—แล้วปล่อยให้คนอื่นเปลี่ยนมันเป็นผลิตภัณฑ์ที่นิยามยุคใหม่แทน
นักวิจัยของ Google สร้างสถาปัตยกรรม Transformer ซึ่งเป็นแนวคิดแกนกลางของโมเดล GPT บทความปี 2017 ชื่อ “Attention Is All You Need” แสดงให้เห็นวิธีฝึกโมเดลขนาดใหญ่ที่เข้าใจและสร้างภาษาได้อย่างคล่องแคล่ว หากไม่มีงานชิ้นนั้น GPT ในรูปแบบที่เรารู้จักคงไม่มีวันเกิดขึ้น
ความสำเร็จของ OpenAI ไม่ใช่อัลกอริธึมวิเศษ แต่มาจากชุดการตัดสินใจเชิงกลยุทธ์: ขยายขนาด Transformer ไปไกลกว่าที่หลายคนคิดว่านำไปใช้ได้ ผสานกับการฝึกจำนวนมหาศาล และห่อหุ้มผลลัพธ์เป็น API ที่ใช้งานง่าย และท้ายที่สุดคือ ChatGPT—ผลิตภัณฑ์ผู้บริโภคที่ทำให้ AI เป็นเรื่องจับต้องได้สำหรับผู้คนนับร้อยล้าน
บทความนี้พูดถึงการตัดสินใจและการชั่งน้ำหนัก ไม่ได้เน้นดราม่าลับหรือฮีโร่กับวายร้ายส่วนบุคคล มันติดตามว่าทำไมวัฒนธรรมการวิจัยและโมเดลธุรกิจของ Google ถึงทำให้บริษัทโน้มไปทางโมเดลแบบ BERT และการปรับปรุงการค้นหาเชิงค่อยเป็นค่อยไป ขณะที่ OpenAI กล้าพนันกับระบบสร้างข้อความทั่วไปมากกว่า
เราจะเดินผ่านหัวข้อต่อไปนี้:
ถ้าคุณสนใจกลยุทธ์ AI—วิจัยแปลงเป็นผลิตภัณฑ์ และผลิตภัณฑ์แปลงเป็นความได้เปรียบถาวร—เรื่องนี้เป็นกรณีศึกษาว่าสิ่งที่สำคัญกว่าการมีบทความดีที่สุดคือการมีเดิมพันที่ชัดเจนและความกล้าที่จะปล่อยของ
Google เข้าสู่การเรียนรู้ของเครื่องสมัยใหม่ด้วยข้อได้เปรียบเชิงโครงสร้างสองอย่าง: ข้อมูลในปริมาณที่มากเกินจินตนาการและวัฒนธรรมวิศวกรรมที่ปรับให้เหมาะกับระบบแบบกระจายขนาดใหญ่ เมื่อเครื่องจักรเหล่านั้นหันมาทำงานด้าน AI มันกลายเป็นศูนย์กลางแรงโน้มถ่วงของวงการอย่างรวดเร็ว
Google Brain เริ่มเป็นโปรเจกต์ข้างเคียงประมาณ 2011–2012 โดยมี Jeff Dean, Andrew Ng, และ Greg Corrado เป็นผู้นำ ทีมมุ่งเน้นการเรียนรู้เชิงลึกระดับใหญ่ ใช้ศูนย์ข้อมูลของ Google ในการฝึกโมเดลที่มหาวิทยาลัยส่วนใหญ่เอื้อมไม่ถึง
DeepMind เข้าร่วมในปี 2014 ผ่านการเข้าซื้อที่โดดเด่น ขณะที่ Google Brain ทำงานใกล้ผลิตภัณฑ์และโครงสร้างพื้นฐาน DeepMind เน้นการวิจัยระยะยาว: reinforcement learning เกม และระบบการเรียนรู้ที่เป็นสากล
ทั้งสองทีมให้ห้องเครื่อง AI ที่ไม่มีใครเทียบ: ฝ่ายหนึ่งฝังตัวในสแต็กการผลิตของ Google อีกฝ่ายไล่ตามงานวิจัยมูลฝัน
ชัยชนะสาธารณะหลายรายการตอกย้ำสถานะของ Google:
ชัยชนะเหล่านี้ทำให้นักวิจัยหลายคนเชื่อว่า ถ้าคุณอยากทำงานกับปัญหา AI ที่ทะเยอทะยานที่สุด คุณต้องไปที่ Google หรือ DeepMind
Google รวบรวมส่วนแบ่งพิเศษของพรสวรรค์ด้าน AI ของโลกไว้มาก ผู้ชนะรางวัล Turing และบุคคลสำคัญหลายคนทำงานภายในไม่กี่องค์กรและอาคาร
ความหนาแน่นนี้สร้างวงป้อนกลับที่ทรงพลัง:\n\n- ไอเดียใหม่แพร่เร็วผ่านการบรรยายภายใน รายชื่ออีเมล และโค้ดที่แชร์กัน\n- ทีมสามารถรวมตัวกันแก้ปัญหายากได้อย่างยืดหยุ่น เพราะผู้เชี่ยวชาญอยู่ใกล้มือ\n- นักวิจัยได้รับประโยชน์จากโครงสร้างพื้นฐานระดับการผลิต—ท่อข้อมูล ขึ้นระบบการฝึกแบบกระจาย และฮาร์ดแวร์เฉพาะทาง—โดยไม่ต้องสร้างทั้งหมดเอง
การรวมกันของพรสวรรค์ระดับเอลิตและการลงทุนโครงสร้างพื้นฐานหนักหน่วงทำให้ Google เป็นที่ที่งานวิจัยแนวหน้ามักเกิดขึ้น
วัฒนธรรม AI ของ Google โน้มไปทาง การตีพิมพ์และการสร้างแพลตฟอร์ม มากกว่าการผลิตผลิตภัณฑ์ AI สำหรับผู้บริโภคอย่างปราณีต
ในฝั่งวิจัย บรรทัดฐานคือ:\n\n- ตีพิมพ์ในงานประชุมเช่น NeurIPS, ICML, ICLR\n- เปิดซอร์สเครื่องมือ (เช่น TensorFlow) ที่สะท้อนระบบภายในของ Google\n- ปล่อยบทความอิทธิพลด้านวิสัยทัศน์ การทำโมเดลลำดับ การเรียนรู้เสริม และการฝึกในสเกลใหญ่
ในฝั่งวิศวกรรม Google เทงทรัพยากรไปที่โครงสร้างพื้นฐาน:\n\n- Tensor Processing Units (TPUs) ที่ออกแบบมาสำหรับงานโครงข่ายประสาทเทียม\n- สแต็กการฝึกและการให้บริการขั้นสูง ได้แรงบันดาลใจจากระบบภายในเช่น Borg\n- แพลตฟอร์มข้อมูลและการทดลองที่ทำให้การรันงานใหญ่บนทราฟฟิคจริงเป็นเรื่องง่าย
การตัดสินใจเหล่านี้สอดคล้องอย่างสูงกับธุรกิจหลักของ Google โมเดลและเครื่องมือที่ดีขึ้นปรับปรุงความเกี่ยวข้องของ Search การกำหนดเป้าหมายโฆษณา และคำแนะนำเนื้อหา AI ถูกปฏิบัติเป็น เลเยอร์สมรรถนะทั่วไป มากกว่าหมวดผลิตภัณฑ์แยกชิ้น
ผลคือบริษัทที่ครองวิทยาศาสตร์และระบบพื้นฐานของ AI รวมเข้ากับบริการที่มีอยู่ลึก และประกาศความคืบหน้าผ่านงานวิจัยที่มีอิทธิพล—ในขณะเดียวกันก็ระมัดระวังที่จะสร้างประสบการณ์ผู้บริโภค AI แบบใหม่ที่เป็นผลิตภัณฑ์อย่างชัดเจน
ในปี 2017 ทีมเล็กๆ ของ Google Brain และ Google Research เผยแพร่บทความที่พลิกวงการ: “Attention Is All You Need” โดย Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser, และ Illia Polosukhin
แก่นของไอเดียง่ายแต่เปลี่ยนเกม: คุณสามารถทิ้ง recurrence และ convolution และสร้างโมเดลลำดับโดยใช้ attention เพียงอย่างเดียว สถาปัตยกรรมนี้ถูกตั้งชื่อว่า Transformer
ก่อน Transformer ระบบภาษาระดับแนวหน้าส่วนใหญ่ใช้ RNNs และ LSTMs มีปัญหาใหญ่สองอย่าง:\n\n- คอขวดเชิงลำดับ: RNNs ประมวลผลโทเค็นทีละตัว ทำให้การฝึกและการอนุมานยากต่อการขนาน GPU จึงว่างรอขั้นตอนก่อนหน้าเสร็จ\n- การพึ่งพาระยะไกล: เมื่อลำดับยาวขึ้น RNNs จำข้อมูลจากหลายก้าวก่อนหน้านั้นได้ยาก แม้มี LSTMs และเลเยอร์ attention มาช่วยแล้วก็ตาม
Transformer แก้ทั้งสองปัญหา:\n\n- Self-attention ทำให้แต่ละโทเค็นมองเห็นโทเค็นอื่นๆ ทั้งหมดในชั้นเดียวได้โดยตรง\n- โมเดลประมวลผลทุกโทเค็น พร้อมกัน เปลี่ยนการฝึกให้เป็นปัญหาการคูณเมทริกซ์ที่เป็นมิตรกับ GPU\n- Multi-head attention ให้โมเดลเรียนรู้มุมมองบริบทต่างๆ พร้อมกัน (ไวยากรณ์ การอ้างอิง หัวข้อ ฯลฯ)
ข้อมูลตำแหน่งถูกเพิ่มด้วย positional encodings เพื่อให้โมเดลรู้ลำดับโดยไม่ต้องใช้ recurrence
เพราะทุกการดำเนินการขนานได้และอาศัยการคูณเมทริกซ์หนาแน่น Transformers สเกลได้อย่างชัดเจน เมื่อเพิ่มข้อมูลและคอมพิวต์ คุณสมบัติการสเกลนี้เป็นสิ่งที่ GPT, Gemini และโมเดลแนวหน้าอื่นๆ พึ่งพา
กลไก attention เดียวกันยังทั่วไปไปเกินข้อความ: สามารถใช้กับพาทช์ภาพ เฟรมเสียง โทเค็นวิดีโอ และอื่นๆ ทำให้สถาปัตยกรรมเป็นพื้นฐานธรรมชาติเพื่อโมเดลมัลติโมดัลที่อ่าน มอง และฟังด้วยกระดูกสันหลังร่วมกัน
ที่สำคัญคือ Google เผยแพร่บทความอย่างเปิดเผย และ (ผ่านงานต่อเนื่องและไลบรารีอย่าง Tensor2Tensor) ทำให้สถาปัตยกรรมนี้ทำซ้ำได้ง่าย นักวิจัยและสตาร์ทอัพทั่วโลกอ่านรายละเอียด คัดลอกการออกแบบ และสเกลมันขึ้นได้
OpenAI ทำแบบนั้นจริงๆ GPT‑1 เป็นในเชิงโครงสร้างแล้ว Transformer decoder stack ที่ฝึกด้วย objective แบบ language-modeling บรรพบุรุษทางเทคนิคของ GPT คือ Transformer ของ Google: บล็อก self-attention แกนเดียวกัน positional encodings เดียวกัน และเดิมพันเรื่องการสเกล—แต่ถูกนำไปใช้ในบริบทผลิตภัณฑ์และองค์กรที่ต่างออกไป
เมื่อ OpenAI เปิดตัว GPT มันไม่ได้คิดค้นพาราไดม์ใหม่จากศูนย์ แต่นำพิมพ์เขียว Transformer ของ Googleมาแล้วผลักดันมันต่อไปให้ไกลกว่าที่กลุ่มวิจัยส่วนใหญ่ยอมรับได้หรือสามารถทำได้
GPT รุ่นแรก (2018) เป็นหลักแล้ว Transformer decoder ที่ถูกฝึกด้วย objective ง่ายๆ: ทำนายโทเค็นถัดไปในย่อหน้าที่ยาว แนวคิดนั้นถ่ายตรงมาจากสถาปัตยกรรม Transformer ของปี 2017 แต่ Google มุ่งที่คู่มือการแปลภาษา ขณะที่ OpenAI ถือว่า “การทำนายคำถัดไปในสเกล” เป็นฐานสำหรับเครื่องสร้างข้อความทั่วไป
GPT-2 (2019) ขยายสูตรเดิมเป็น 1.5B พารามิเตอร์และใช้คอร์ปัสเว็บที่ใหญ่กว่า GPT-3 (2020) กระโดดสู่ 175B พารามิเตอร์ ฝึกบนทริลเลียนโทเค็นด้วยคลัสเตอร์ GPU ขนาดมหึมา GPT-4 ยังคงรูปแบบเดิม: พารามิเตอร์เพิ่ม ข้อมูลดีขึ้น คัดเลือกดีขึ้น และคอมพิวต์มากขึ้น ห่อด้วยเลเยอร์ความปลอดภัยและ RLHF เพื่อปรับพฤติกรรมให้คุยได้และมีประโยชน์
ตลอดเส้นทางแกนอัลกอริธึมยังคงใกล้เคียงกับ Transformer ของ Google: บล็อก self-attention positional encodings และการเรียงชั้น ความโดดเด่นคือขนาดและวิศวกรรมที่ไม่หยุดยั้ง
ขณะที่โมเดลภาษาเชิงแรกของ Google (เช่น BERT) มุ่งสู่งานความเข้าใจ—การจัดหมวด การจัดอันดับการค้นหา การตอบคำถาม—OpenAI ปรับแต่งเพื่อการสร้างข้อความแบบเปิดและการสนทนา Google ตีพิมพ์โมเดลระดับรัฐของศิลป์แล้วเดินหน้าต่อในบทความถัดไป OpenAI เปลี่ยนไอเดียเดียวเป็นสายการผลิตผลิตภัณฑ์
งานวิจัยเปิดจาก Google, DeepMind และห้องปฏิบัติการวิชาการป้อนตรงสู่ GPT: เวอร์ชัน Transformer, เทคนิคการเพิ่มประสิทธิภาพ, ตารางการเรียนรู้, กฎการสเกล และการตัดคำที่ดีขึ้น OpenAI ดูดผลสาธารณะเหล่านี้เข้าไป จากนั้นลงทุนหนักในการรันการฝึกเชิงกรรมสิทธิ์และโครงสร้างพื้นฐาน
ประกายปัญญา—Transformer—มาจาก Google การตัดสินใจที่จะเดิมพันบริษัทบนการสเกลไอเดียนั้น การส่งมอบ API แล้วตามด้วยแชทสำหรับผู้บริโภคเป็นของ OpenAI
ความสำเร็จเชิงพาณิชย์ของ Google กับ deep learning เกิดจากการทำให้เครื่องพิมพ์เงินหลัก—Search และ Ads—ฉลาดขึ้น บริบทนั้นกำหนดวิธีประเมินสถาปัตยกรรมใหม่ๆ เช่น Transformer แทนที่จะแข่งสร้างเครื่องสร้างข้อความอิสระ Google ลงทุนซ้ำในโมเดลที่ทำให้การจัดอันดับ ความเกี่ยวข้อง และคุณภาพดีขึ้น BERT จึงเหมาะสมอย่างยิ่ง
BERT (Bidirectional Encoder Representations from Transformers) เป็นโมเดล encoder-only ที่ฝึกด้วย masked language modeling: ซ่อนส่วนของประโยค แล้วให้โมเดลทำนายคำที่หายไปโดยใช้บริบททั้งสองด้าน
objective การฝึกนั้นสอดคล้องอย่างใกล้ชิดกับปัญหาของ Google:\n\n- ความเข้าใจคำค้น: คำค้นสั้น ยุ่ง และกำกวม BERT ให้บริบทสองทิศทางที่ช่วยแปลความหมายได้ดีกว่า\n- ความเข้าใจเอกสาร: การจัดอันดับบรรทัดฐานจำเป็นต้องมีความเหมือนเชิงความหมายที่ละเอียด BERT embeddings ช่วยจับคู่คำค้นกับย่อหน้าที่เกี่ยวข้องได้ดีขึ้น\n- คุณภาพและการตรวจจับสแปม: masked LM เหมาะกับการจับข้อความที่ “ไม่เข้าพวก” ซึ่งมีประโยชน์ในการกรองเนื้อหาขยะ
สำคัญคือ โมเดลแบบ encoder เข้ากันได้ดีกับสแต็ก retrieval และ ranking ที่มีอยู่ของ Google สามารถเรียกเป็นสัญญาณความเกี่ยวข้องร่วมกับฟีเจอร์อื่นๆ หลายร้อยตัว ทำให้การปรับปรุงการค้นหาเกิดขึ้นโดยไม่ต้องเขียนผลิตภัณฑ์ใหม่ทั้งหมด
Google ต้องการคำตอบที่ เชื่อถือได้ ตรวจสอบแหล่งที่มาได้ และสร้างรายได้ได้:\n\n- เชื่อถือได้: ผลลัพธ์การค้นหาต้องยึดโยงกับเพจจริงและแหล่งข้อมูล โมเดล masked ฝึกให้เข้าใจภาษา ไม่ใช่สร้างข้อมูลขึ้นมาเอง\n- ตรวจสอบได้: แต่ละผลลัพธ์ลิงก์ไปยังผู้เผยแพร่ ช่วยระบบเว็บเปิดและให้ผู้ใช้ตรวจสอบข้อมูลได้\n- ทำเงินได้: โฆษณาการค้นหาจัดรอบลิสต์ลิงก์ที่เรียงอันดับได้ดีขึ้น ความเกี่ยวข้องที่ดีขึ้นแปลเป็น CTR สูงขึ้นและมูลค่าต่อคำค้นที่มากขึ้น
BERT ปรับปรุงทั้งสามด้านโดยไม่รบกวน UI การค้นหาหลักหรือโมเดลโฆษณา GPT สไตล์ autoregressive ให้มูลค่าเพิ่มที่ชัดเจนน้อยกว่าในธุรกิจหลักนั้น
การสร้างข้อความแบบเปิดยกข้อกังวลขึ้นมาชัดเจน:\n\n- ข่าวเท็จและ hallucination: โมเดลสร้างได้มั่นใจในข้อเท็จจริงที่ไม่ถูกต้อง สำหรับบริษัทที่มักถูกมองเป็นแหล่งอ้างอิง นี่คือความเสี่ยงต่อแบรนด์โดยตรง\n- เนื้อหาที่เป็นอันตราย: การสร้างที่ไม่มีฟิลเตอร์อาจให้ข้อความที่เป็นพิษ มีอคติ หรืออันตราย การเปิดใช้ในขนาด Google จะดึงการต่อต้านจากสาธารณะและกฎระเบียบ\n- การเปิดเผยทางกฎระเบียบ: เมื่อการตรวจสอบด้านการต่อต้านผูกขาดและเนื้อหาร้อนแรง การเปิดตัวแชทบอทที่ตอบแบบเปิดกว้างทั่วโลกเป็นความเสี่ยงยั่วยุ
กรณีใช้ภายในที่ผ่านการตรวจนโยบายมักเป็นแบบ ช่วยงานและจำกัดขอบเขต: อัตโนมัติเติมใน Gmail, smart replies, การแปลภาษา และการเสริมการจัดอันดับ โมเดลแบบ encoder ควบคุมและตรวจสอบได้ง่ายกว่าโมเดลสนทนาเปิดๆ
แม้ว่า Google จะมีต้นแบบแชทและการสร้างข้อความที่ใช้งานได้ คำถามหลักยังคงคือ: คำตอบโดยตรงที่ดีจะลดจำนวนการค้นหาและการคลิกโฆษณาหรือไม่?\n\nประสบการณ์การแชทที่ให้คำตอบครบในครั้งเดียวเปลี่ยนพฤติกรรมผู้ใช้:\n\n- คลิกไปยังไซต์ภายนอกน้อยลง → ผู้เผยแพร่ไม่พอใจ ระบบเว็บอาจอ่อนแอลง\n- ช่องทางและเจตนาทำให้โฆษณาการค้นหาทำงานยากขึ้น → รายได้ไม่แน่นอน
สัญชาตญาณของผู้นำคือผสาน AI เป็นตัวช่วยของการค้นหา ไม่ใช่ตัวแทนที่มาแทน นั่นหมายถึงการปรับแต่งอันดับ, rich snippets และความเข้าใจเชิงความหมายมากขึ้น—ซึ่ง BERT ทำได้ดี—แทนที่จะเปิดตัวผลิตภัณฑ์สนทนาโดดๆ ที่อาจทำลายโมเดลรายได้หลัก
แต่ละการตัดสินใจนั้นสมเหตุสมผล:\n\n- เลือกโมเดลที่ปรับปรุงตัวชี้วัดการค้นหาและโฆษณาโดยตรง\n- ให้ความสำคัญกับความปลอดภัย ความน่าเชื่อถือ และความระมัดระวังด้านกฎระเบียบ\n- ปกป้องประสบการณ์การค้นหาและการสร้างรายได้จากโฆษณา\n\nรวมกันแล้วมันหมายความว่า Google ลงทุนไม่เพียงพอในเชิงการสร้างผลิตภัณฑ์ แบบ GPT‑style ต่อสาธารณะ ทีมวิจัยสำรวจ decoder ขนาดใหญ่และระบบบทสนทนา แต่ทีมผลิตภัณฑ์มีแรงจูงใจน้อยที่จะส่งมอบแชทบอทที่:\n\n- ไม่ชัดเจนว่าจะปรับปรุง KPI สำคัญของการค้นหาหรือไม่\n- คุกคามรายได้โฆษณาและความสัมพันธ์กับผู้เผยแพร่\n- แนะนำความเสี่ยงด้านความปลอดภัยและ PR ในระดับสูง\n\nOpenAI ซึ่งไม่มีอาณาจักรการค้นหาจะทำเดิมพันตรงกันข้าม: โมเดลแชทที่ใช้งานได้สูง แม้ไม่สมบูรณ์ ก็จะสร้างความต้องการใหม่ในระดับมวลชน Google มุ่งที่ BERT และการผสานกับการค้นหา ทำให้การย้ายสู่เครื่องมือสร้างข้อความสาธารณะล่าช้า และนั่นเปิดช่องให้ ChatGPT นิยามหมวดหมู่ก่อน
OpenAI เริ่มใน 2015 เป็นห้องวิจัยไม่แสวงหากำไร ได้รับทุนจากผู้ก่อตั้งเทคบางคนที่เห็น AI ทั้งเป็นโอกาสและความเสี่ยง ในช่วงแรกๆ มันดูคล้าย Google Brain หรือ DeepMind: ตีพิมพ์บทความ ปล่อยโค้ด ผลักดันวิทยาศาสตร์
ในปี 2019 ผู้นำเห็นว่าโมเดลแนวหน้าจะต้องการงบคำนวณและวิศวกรรมหลายพันล้านดอลลาร์ องค์กรไม่แสวงหากำไรล้วนคงระดมทุนระดับนั้นยาก ทางออกคือรูปแบบโครงสร้าง: OpenAI LP บริษัทแบบ “capped‑profit” อยู่ใต้หน่วยงานไม่แสวงหากำไร
นักลงทุนสามารถรับผลตอบแทนได้ (ถึงขอบเขตหนึ่ง) ในขณะที่บอร์ดยังคงพันธกิจมุ่งประโยชน์ต่อสาธารณะ รูปแบบนี้ทำให้เซ็นสัญญาการเงินและคลาวด์ขนาดใหญ่ได้โดยไม่กลายเป็นสตาร์ทอัพแบบปกติ
ขณะที่ห้องวิจัยหลายแห่งปรับเพื่อสถาปัตยกรรมฉลาดหรือระบบเฉพาะ OpenAI เดินเกมตรงไป: โมเดลภาษาทั่วไปขนาดใหญ่อาจมีความสามารถอย่างน่าประหลาดใจหากคุณสเกลข้อมูล พารามิเตอร์ และคอมพิวต์ต่อเนื่อง
GPT‑1, GPT‑2, GPT‑3 ตามสูตรง่ายๆ: สถาปัตยกรรม Transformer เป็นหลัก แต่ใหญ่กว่า ฝึกนานกว่า บนข้อความหลากหลายกว่า แทนที่จะปรับโมเดลให้กับแต่ละงาน พวกเขาใช้โมเดลเดียวแบบกว้างผ่าน prompting และ fine‑tuning
นี่ไม่ใช่แค่มุมมองวิจัย แต่มุมมองธุรกิจ: ถ้าหนึ่ง API สามารถขับเคลื่อนกรณีใช้งานนับพัน—from เครื่องมือเขียนสำเนาถึงผู้ช่วยเขียนโค้ด—OpenAI สามารถเป็นแพลตฟอร์ม ไม่ใช่แค่ห้องวิจัย
GPT‑3 API ที่เปิดตัวใน 2020 ทำให้กลยุทธ์นั้นจับต้องได้ แทนที่จะออกซอฟต์แวร์หนักบนเซิร์ฟหรือผลิตภัณฑ์องค์กรแบบผูกขาด OpenAI เปิด API บนคลาวด์:\n\n- ส่งข้อความ รับผลลัพธ์โมเดล\n- จ่ายตามโทเค็น\n- สร้างอะไรบนมันก็ได้
แนวทาง “API‑first” เปิดโอกาสให้สตาร์ทอัพและองค์กรจัดการ UX การปฏิบัติตามกฎ และความเชี่ยวชาญด้านโดเมน ในขณะที่ OpenAI มุ่งฝึกโมเดลให้ใหญ่ขึ้นและปรับการสอดคล้อง (alignment)
API ยังสร้างเครื่องยนต์รายได้ที่ชัดเจนตั้งแต่ต้น แทนที่จะรอผลิตภัณฑ์ที่สมบูรณ์ OpenAI ให้ระบบนิเวศค้นพบกรณีใช้งานและทำ R&D ผลิตภัณฑ์แทนให้
OpenAI เลือกส่งมอบก่อนที่โมเดลจะขัดเกลาเสมอ GPT‑2 เปิดตัวพร้อมข้อกังวลด้านความปลอดภัยและเผยแพร่แบบค่อยเป็นค่อยไป GPT‑3 เปิดตัวในเบตาควบคุมที่มีข้อบกพร่องชัด—hallucinations, อคติ, ความไม่สม่ำเสมอ
การแสดงออกชัดที่สุดของปรัชญานี้คือ ChatGPT ปลาย 2022 มันไม่ใช่โมเดลที่ซับซ้อนที่สุดของ OpenAI และก็ไม่ได้ขัดเกลาเป็นพิเศษ แต่ให้:\n\n- อินเทอร์เฟซแชทง่ายๆ ที่ใครๆ ก็เข้าใจได้\n- การเข้าถึงฟรีในช่วงแรก เชื้อเชิญการทดลองจำนวนมาก\n- วงจรวนปรับเร็วจากบทสนทนาจริง
แทนที่จะปรับโมเดลในความเป็นส่วนตัวอย่างยาว OpenAI ปล่อยให้สาธารณะเป็นเครื่องยนต์ฟีดแบ็กขนาดใหญ่ การป้องกัน การดูแล และ UX พัฒนาไปสัปดาห์ต่อสัปดาห์โดยอิงจากพฤติกรรมจริง
การเดิมพันของ OpenAI ในการสเกลต้องการงบคอมพิวต์มหาศาล นั่นคือที่พันธมิตร Microsoft สำคัญ\n\nตั้งแต่ 2019 และลึกขึ้นเรื่อยๆ Microsoft ให้:\n\n- การลงทุนมูลค่าหลายพันล้านดอลลาร์แก่ OpenAI LP\n- การโฮสต์บน Azure แบบผูกขาดสำหรับโมเดลของ OpenAI\n- การร่วมทางการตลาดผ่านผลิตภัณฑ์เช่น Bing Chat และ Copilot
สำหรับ OpenAI นี่แก้ปัญหาคอขวดสำคัญ: สามารถสเกลการรันการฝึกบนซูเปอร์คอมพิวเตอร์ AI โดยไม่ต้องสร้างหรือระดมทุนคลาวด์ของตัวเอง\n\nสำหรับ Microsoft นี่เป็นวิธีทำให้ Azure แตกต่างและเติม AI เข้าใน Office, GitHub, Windows, และ Bing เร็วกว่าการสร้างทุกอย่างจากศูนย์
การตัดสินใจทั้งหมด—สเกล, API‑first, แชทผู้บริโภค, พันธมิตรกับ Microsoft—ป้อนเข้าสู่วงจรเสริม:\n\n1. โมเดลที่ดีขึ้น ดึงดูดนักพัฒนาและผู้ใช้\n2. API และ ChatGPT ทำให้ง่ายต่อการรวมหรือทดลอง\n3. การใช้งานสร้างรายได้ ซึ่งเป็นเงินทุนให้การรันการฝึกใหญ่ขึ้นและโครงสร้างพื้นฐานดียิ่งขึ้น\n4. ปฏิสัมพันธ์ในโลกจริง ผลิตข้อมูลคุณค่าสูงสำหรับการปรับจูนและ RLHF\n5. โมเดลที่ดีขึ้น ขับฟีเจอร์ใหม่ (ปลั๊กอิน เครื่องมือ มัลติโมดัล) ดึงดูดผู้ใช้มากขึ้น
OpenAI ไม่ได้มุ่งสู่การตีพิมพ์งานวิจัยที่เพอร์เฟ็กต์ แต่เลือกที่จะสร้างวงจรผสมผสานระหว่างผู้ใช้ ข้อมูล และเงินสด การสเกลไม่ใช่แค่โมเดลที่ใหญ่ขึ้น แต่เป็นการสเกลผู้ใช้ ข้อมูล และกระแสเงินอย่างรวดเร็วพอที่จะผลักดันขอบเขตต่อไป
เมื่อ OpenAI เปิดตัว ChatGPT ในวันที่ 30 พฤศจิกายน 2022 มันดูเหมือนพรีวิววิจัยเรียบง่าย: กล่องแชทธรรมดา ไม่มีการเรียกเก็บ และบล็อกโพสต์สั้น ห้าวันหลังเปิดตัว มีผู้ใช้เกินล้าน ภายในไม่กี่สัปดาห์ โพสต์และตัวอย่างใช้เคสไหลใน Twitter, TikTok, LinkedIn ผู้คนเขียนเรียงความ แก้บั๊กโค้ด ร่างอีเมลทางกฎหมาย และระดมความคิดธุรกิจด้วยเครื่องมือเดียว
ผลิตภัณฑ์ไม่ได้แถลงว่าเป็น “เดโมของโมเดลภาษาบน Transformer” แต่มันบอกเพียง: ถามอะไรได้ ได้คำตอบ ความชัดเจนนี้ทำให้เทคโนโลยีเข้าใจได้ทันทีสำหรับผู้ไม่เชี่ยวชาญ
ภายใน Google ปฏิกิริยาใกล้เคียงกับความตกใจมากกว่าการยกย่อง ผู้นำประกาศ “code red” Larry Page และ Sergey Brin ถูกดึงกลับมาหารือเรื่องผลิตภัณฑ์และกลยุทธ์ ทีมที่ทำงานกับโมเดลสนทนามาหลายปีกลายเป็นเป้าภายใต้การตรวจสอบอย่างเข้มข้น
วิศวกรรู้ว่า Google มีระบบที่ใกล้เคียงกับความสามารถของ ChatGPT โมเดลอย่าง LaMDA, PaLM, และ Meena เคยแสดงการสนทนาและการเหตุผลได้ดีบนเกณฑ์ภายใน แต่พวกมันถูกเก็บไว้หลังตัวกรอง ทดลองภายใน และการอนุมัติที่ซับซ้อน
ภายนอกดูเหมือน Google ถูกทำให้เสียหลัก
เชิงเทคนิค ChatGPT และ LaMDA เป็นญาติ: โมเดลภาษาใหญ่บน Transformer ที่ปรับจูนสำหรับการสนทนา ช่องว่างหลักไม่ได้อยู่ที่สถาปัตยกรรม แต่เป็นการตัดสินใจด้านผลิตภัณฑ์
OpenAI:\n- ส่งมอบอินเทอร์เฟซเดียวที่ชัดเจน\n- ยอมรับความไม่สมบูรณ์ในที่สาธารณะและวนปรับ\n- ลงทุนหนักใน alignment และ RLHF แล้วเรียนรู้จากบทสนทนาหลายล้านรายการ
Google:\n- เก็บ LaMDA ไว้หลังเดโมที่จำกัด\n- ให้ความสำคัญกับการหลีกเลี่ยงความเสี่ยงและการปกป้องชื่อเสียง\n- ต่อสู้กับการแปลงต้นแบบวิจัยเป็นผลิตภัณฑ์สำหรับผู้บริโภค
ภายใต้แรงกดดัน Google ประกาศ Bard ในกุมภาพันธ์ 2023 เดโมพรีวิวพยายามสะท้อนเวทมนตร์การสนทนา แต่หนึ่งในคำตอบสำคัญ—เกี่ยวกับการค้นพบจาก James Webb Space Telescope—ผิด พลาด ข้อผิดพลาดถูกสังเกตในไม่กี่นาทีและมูลค่าตลาดของ Alphabet ตกลงพันล้านในวันเดียว มันเสริมภาพเล่าร้าย: Google มาสาย ประหม่า และพลาด ขณะที่ OpenAI ดูมั่นใจและพร้อม
ความขมขื่นสำหรับพนักงาน Google คือเรื่องตลกขมขื่น Hallucination และความผิดพลาดเชิงข้อเท็จจริงเป็นปัญหาที่รู้กันดีสำหรับโมเดลภาษา ความแตกต่างคือ OpenAI ทำให้ผู้ใช้คุ้นเคยกับสิ่งนี้ผ่านคำเตือนและเฟรมการทดลอง ในขณะที่ Google ห่อ Bard ด้วยแบรนด์หรูหราและล้มบนข้อเท็จจริงพื้นฐาน
ความได้เปรียบของ ChatGPT เหนือระบบภายในของ Google ไม่เคยเป็นเพียงโมเดลใหญ่หรืออัลกอริธึมใหม่ แต่เป็นความเร็วในการปฏิบัติใช้และความชัดเจนของประสบการณ์
OpenAI:\n- เปลี่ยนสายงานวิจัยเป็นผลิตภัณฑ์ไวรัลชิ้นเดียว\n- ยอมรับวิธี public beta: “ลองใช้ พัง แล้วบอกเรา”\n- ออกแบบ UX ที่ตรงกับพฤติกรรมของคน: ถาม ตอบ วนปรับ
Google เคลื่อนไหวช้ากว่า มุ่งหาไม่มีข้อผิดพลาด และเปิด Bard เป็นการเปิดตัวแบบหรูหราไม่ใช่เฟสการเรียนรู้ เมื่อ Bard ถึงมือผู้ใช้ ChatGPT กลายเป็นนิสัยรายวันสำหรับนักเรียน ผู้ใช้ความรู้ และนักพัฒนาแล้ว
ความตกใจภายใน Google ไม่ได้เป็นเพียง OpenAI มี AI ดี แต่เป็นองค์กรเล็กกว่าที่เอาไอเดียที่ Google ช่วยคิดขึ้น ห่อเป็นผลิตภัณฑ์ที่ผู้คนธรรมดารัก และนิยามสาธารณชนว่าใครเป็นผู้นำด้าน AI—ในไม่กี่สัปดาห์
Google และ OpenAI เริ่มจากรากฐานทางเทคนิคที่คล้ายกัน แต่พื้นฐานองค์กรต่างกันมาก ความต่างนั้นหล่อหลอมการตัดสินใจเกี่ยวกับระบบแบบ GPT เกือบทั้งหมด
ธุรกิจหลักของ Google คือ search และ ads เครื่องยนต์นี้ให้เงินสดที่คาดเดาได้มหาศาล แรงจูงใจระดับสูงส่วนใหญ่ผูกอยู่กับการปกป้องมัน
การเปิดตัวโมเดลสนทนาที่ทรงพลังอาจ:\n- ลดจำนวนการแสดงโฆษณา\n- ตอบคำถามโดยไม่ต้องค้นหา\n- และหลอกลวงในแบบที่ทำลายความเชื่อถือ
จึงถูกมองเป็นภัยโดยสัญชาตญาณ การดีฟอลต์คือความระมัดระวัง ทุกผลิตภัณฑ์ใหม่ต้องพิสูจน์ว่ามันจะไม่ทำร้ายการค้นหาหรือความปลอดภัยของแบรนด์
OpenAI ตรงข้าม: ไม่มีเครื่องทำเงินใหญ่ แรงจูงใจคือการส่งมอบโมเดลที่มีค่า ดึงใจนักพัฒนา เซ็นสัญญาคอมพิวต์ใหญ่ และเปลี่ยนงานวิจัยเป็นรายได้ก่อนคนอื่น ความเสี่ยงจากการไม่เปิดตัวมีมากกว่าความเสี่ยงจากการปล่อยเร็วเกินไป
Google เคยเผชิญการสอบสวนด้านการต่อต้านผูกขาด คดีความเป็นส่วนตัว และการกำกับดูแลโลก วัฒนธรรมจึงเป็นแบบ:\n- ทีม PR นโยบาย และกฎหมายมีสิทธิยับยั้งสูง\n- การตรวจสอบความปลอดภัยยาวนานและหลายชั้น\n- มองความเสียหายชื่อเสียงเป็นความเสี่ยงระดับบน
OpenAI ยอมรับว่าโมเดลทรงพลังจะยุ่งในที่สาธารณะ บริษัทเน้นการวนปรับพร้อมชุดการป้องกัน มากกว่ารอบการปรับปรุงภายในยาวๆ ความอดทนต่อความเสี่ยงของผลิตภัณฑ์สูงกว่า
ที่ Google การเปิดตัวใหญ่ผ่านคณะกรรมการ การอนุมัติข้ามองค์กร และการต่อรอง OKR ที่ซับซ้อน นั่นชะลอผลิตภัณฑ์ที่ข้ามขอบเขต Search, Ads, Cloud, Android
OpenAI รวมอำนาจไว้ในกลุ่มผู้นำขนาดเล็กและทีมผลิตภัณฑ์โฟกัส การตัดสินใจเกี่ยวกับ ChatGPT ราคา และทิศทาง API ตัดสินได้เร็ว แล้วปรับตามการใช้งานจริง
หลายปี Google ได้เปรียบจากการตีพิมพ์บทความที่ดีที่สุดและฝึกโมเดลที่เหนือกว่า แต่เมื่อผู้อื่นสามารถทำซ้ำงานวิจัยได้ ความได้เปรียบย้ายไปสู่การผสมผสานระหว่างวิจัยและ:\n- การออกแบบผลิตภัณฑ์\n- ประสบการณ์สำหรับนักพัฒนา\n- วงจรป้อนกลับจากข้อมูล\n- ความเร็วในการออกสู่ตลาด
OpenAI ปฏิบัติต่อโมเดลเป็นวัสดุผลิตภัณฑ์: ส่ง API ส่งอินเทอร์เฟซแชท เรียนรู้จากผู้ใช้ แล้วป้อนกลับสู่รุ่นถัดไป
Google ในทางกลับกันเก็บระบบที่มีความสามารถมากเป็นเครื่องมือภายในหรือตัวอย่างแคบๆ หลายปีผ่านไปก่อนจะพยายามแปรเป็นผลิตภัณฑ์เชิงสาธารณะ เมื่อมันพยายามทำเช่นนั้น OpenAI สร้างนิสัย ความคาดหวัง และระบบนิเวศรอบ GPT ไปเรียบร้อยแล้ว
ช่องว่างไม่ใช่เรื่องเข้าใจ Transformers ดีแค่ไหน แต่เป็นเรื่องใครกล้าและสามารถแปลงความรู้นั้นเป็นผลิตภัณฑ์ต่อหน้าผู้คนนับร้อยล้าน
ในด้านเทคนิค Google ยังเป็นกำลังสำคัญ ผลักดันด้านโครงสร้างพื้นฐาน: TPUs เฉพาะทาง เครือข่ายดาต้าเซ็นเตอร์ขั้นสูง และเครื่องมือภายในที่ทำให้การฝึกโมเดลขนาดใหญ่เป็นเรื่องปกติก่อนบริษัทอื่น
นักวิจัยของ Google ผลักดันแนวหน้าด้านสถาปัตยกรรม (Transformers, attention variants, mixture-of-experts, retrieval-augmented models), กฎการสเกล และประสิทธิภาพการฝึก บทความสำคัญของ ML สมัยใหม่จำนวนมากมาจาก Google หรือ DeepMind
แต่นวัตกรรมส่วนใหญ่ยังคงอยู่ในเอกสาร แพลตฟอร์มภายใน และฟีเจอร์ย่อยใน Search, Ads, Workspace แทนที่จะกลายเป็นผลิตภัณฑ์เด่นหนึ่งชิ้น ผู้ใช้เห็นการปรับปรุงเล็กๆ หลายจุดแทน
OpenAI เลือกเส้นทางต่างออกไป เชิงเทคนิคมันสร้างบนไอเดียที่คนอื่นตีพิมพ์ รวมถึง Google ข้อได้เปรียบของมันคือเปลี่ยนไอเดียนั้นเป็นสายผลิตภัณฑ์ชัดเจน:\n\n- ประสบการณ์นำชิ้นเดียว: ChatGPT, อินเทอร์เฟซที่เข้าใจง่ายและไม่ต้องตั้งค่า\n- แพลตฟอร์มหลัก: API ที่มี endpoints เสถียรและการตั้งราคาที่คาดเดาได้\n- เรื่องราวสำหรับนักพัฒนา: เอกสารดี ตัวอย่าง และภาพจำง่าย—"เรียกโมเดลเหมือนเรียกฟังก์ชัน"\n การห่อหุ้มอย่างรวมศูนย์นี้เปลี่ยนความสามารถดิบของโมเดลเป็นสิ่งที่ผู้คนนำไปใช้ได้ทันที ขณะที่ Google ส่งโมเดลทรงพลังภายใต้แบรนด์และพื้นผิวหลายอย่าง OpenAI มุ่งความสนใจไปที่ชื่อและฟลว์ไม่กี่ย่อย
เมื่อ ChatGPT โด่งดัง OpenAI ได้สิ่งที่ Google เคยเป็นเจ้าของ: mindshare เริ่มต้น นักพัฒนาทดลองบน OpenAI โดยค่าเริ่มต้น เขียนบทแนะนำกับ API ของมัน และเสนอไอเดียสตาร์ทอัพที่ "สร้างบน GPT" คุณภาพโมเดลถ้ามีช่องว่างก็มีความหมายลดลงเมื่อเทียบกับช่องทางการแจกจ่าย
บทเรียน: ชนะด้านวิทยาศาสตร์ไม่เพียงพอ หากไม่มีผลิตภัณฑ์ ชุดราคา เรื่องราว และทางการผนวกเข้ากับงาน การเป็นเครื่องยนต์วิจัยที่แข็งแรงที่สุดก็ถูกบริษัทโฟกัสแซงได้
เมื่อ ChatGPT เปิดเผยความล้มเหลวด้านการปฏิบัติใช้ของ Google บริษัทประกาศ "code red" สาธารณะ ตามด้วยการรีเซ็ตยุทธศาสตร์ AI อย่างรวดเร็ว แม้บางครั้งจะยุ่งเหยิง แต่จริงจัง
คำตอบแรกของ Google คือ Bard อินเทอร์เฟซแชทบน LaMDA และต่อมายกระดับด้วย PaLM 2 Bard ให้ความรู้สึกรีบร้อนและระมัดระวังพร้อมกัน: การเข้าถึงจำกัด การเปิดตัวช้า และข้อจำกัดชัดเจน
การรีเซ็ตจริงมาพร้อม Gemini:\n\n- Gemini Ultra, Pro, Nano เป็นตระกูลโมเดลที่ชัดเจนสำหรับคลาวด์ ผู้บริโภค และการใช้บนอุปกรณ์\n- Bard ถูกรีแบรนด์เป็น Gemini (และ Gemini Advanced) เพื่อสื่อการตัดขาดจากยุคทดลอง\n- คำมั่นสาธารณะที่จะทำให้ Gemini เป็นแบรนด์ AI แกนกลางในผลิตภัณฑ์ Google
การเปลี่ยนตำแหน่งนี้ย้าย Google จาก "บริษัทค้นหาที่ทดลองแชทบอท" เป็น "แพลตฟอร์ม AI-first ที่มีตระกูลโมเดลนำ" แม้ว่าการจัดวางจะตามหลัง OpenAI อยู่บ้าง
จุดแข็งของ Google คือการกระจายตัว จึงมุ่งผสาน Gemini ทุกที่ที่ผู้ใช้อยู่แล้ว:\n\n- Search: Search Generative Experience และ AI Overviews ที่ตอบคำถามโดยตรง ไม่ใช่แค่ลิงก์\n- Workspace: ผู้ช่วย Gemini สำหรับ Gmail, Docs, Sheets, Slides, Meet ในการร่าง สรุป และวิเคราะห์เนื้อหา\n- Android: Gemini เป็นผู้ช่วยระดับระบบ โมดัลหลายรูปแบบ และโมเดล Nano บนอุปกรณ์เพื่อความเป็นส่วนตัว\n- Chrome: ช่วยเขียน จัดแท็บ และฟีเจอร์นักพัฒนาภายในเบราว์เซอร์ที่ขับเคลื่อนโดย Gemini
กลยุทธ์คือ: ถ้า OpenAI ชนะด้านความใหม่และแบรนด์ Google ยังชนะด้าน ตำแหน่งตั้งต้น และการผสานเข้ากับเวิร์กโฟลว์ประจำวันได้แน่นหนา
เมื่อ Google ขยายการเข้าถึง มันพึ่งพาหลักการ AI และท่าทีด้านความปลอดภัยอย่างหนัก:\n\n- red-teaming และการประเมินอย่างเคร่งครัดก่อนปล่อยโมเดลความสามารถสูง\n- เปิดตัวเป็นระยะตามภูมิภาค บางฟีเจอร์ถูกจำกัดตามอายุและประเภทบัญชี\n- ลงทุนในการวิจัย alignment ตัวกรองเนื้อหา และพฤติกรรมปฏิเสธ\n- งาน watermarking และ provenance (เช่น SynthID สำหรับภาพและสื่อ)
การแลกเปลี่ยนคือการมีเกราะมากขึ้นและการทดลองช้าลง เมื่อเทียบกับการวนปรับเร็วของ OpenAI ที่อาจมีข้อผิดพลาดสาธารณะเป็นครั้งคราว
ในแง่คุณภาพโมเดล Gemini Advanced และรุ่นบนสุดของ Gemini ดูเหมือนจะแข่งขันกับ GPT-4 ได้ในหลายเบนช์มาร์กและรายงานจากนักพัฒนา บางงานมัลติโมดัลและการเขียนโค้ด Gemini นำ ในบางงาน GPT-4 ยังคงเป็นมาตรฐาน
ที่ Google ยังตามหลังคือ mindshare และระบบนิเวศ:\n\n- OpenAI ยังคงเป็นตัวเลือกเริ่มต้นสำหรับสตาร์ทอัพและนักวิจัยหลายคน\n- แบรนด์ “ChatGPT” เป็นพจนานุกรมของ AI สำหรับผู้ใช้ทั่วไป\n- API และระบบปลั๊กอินของ OpenAI เติบโตและพัฒนาเร็วกว่า
เครื่องถ่วงดุลของ Google คือการกระจายตัวขนาดมหึมา (Search, Android, Chrome, Workspace) และโครงสร้างพื้นฐานลึก หากแปลงสิ่งนั้นให้เป็นประสบการณ์ AI ที่น่าดึงดูดได้เร็วพอ มันสามารถลดหรือพลิกช่องว่างการรับรู้ได้
การรีเซ็ตเกิดขึ้นในสนามที่ไม่ใช่แค่ Google vs OpenAI:\n\n- OpenAI: mindshare ผู้บริโภค การวนปรับเร็ว ระบบนิเวศนักพัฒนา\n- Google: โครงสร้างพื้นฐาน ข้อมูล การกระจายตัว และ Gemini ในผลิตภัณฑ์\n- โอเพนซอร์ส (Meta’s Llama, Mistral ฯลฯ): เคลื่อนไหวเร็ว ถูก และดีพอสำหรับหลายกรณี\n- Anthropic และอื่นๆ: แตกต่างด้วยความปลอดภัย ความน่าเชื่อถือ และแนวดิ่งเฉพาะ
การรีเซ็ตของ Google หมายความว่ามันไม่ "พลาด" ช่วง generative อีกต่อไป แต่อนาคตเป็น หลายขั้ว: ไม่มีผู้ชนะเดียวและไม่มีบริษัทเดียวควบคุมทิศทางของนวัตกรรมโมเดลหรือผลิตภัณฑ์
สำหรับผู้สร้าง นั่นหมายถึงการออกแบบกลยุทธ์ที่สมมติผู้ให้บริการหลายราย โมเดลโอเพนซอร์สทรงพลัง และการแซงกันทางเทคนิคบ่อยครั้ง แทนที่จะเดิมพันทุกอย่างบนสแต็ก AI เดียวหรือแบรนด์เดียว
Google พิสูจน์ว่าคุณสามารถคิดค้นเบรกทรู แล้วยังแพ้คลื่นมูลค่าแรกได้ สำหรับผู้สร้าง จุดสำคัญคือไม่ชมปรากฏการณ์นี้ แต่หาทางไม่ให้มันเกิดกับคุณ
ถือผลการวิจัยสำคัญเป็น สมมติฐานผลิตภัณฑ์ ไม่ใช่จุดจบ\n\n- ให้เจ้าของผลิตภัณฑ์รับผิดชอบผลการวิจัยใหญ่ทุกชิ้น\n- ในไม่กี่สัปดาห์ กำหนดปัญหาผู้ใช้ที่ชัดเจนและประสบการณ์ v1 แม้จะแคบ\n- ตั้งกำหนดส่งที่ดีฟอลต์คือ: เปิดให้ผู้ใช้จริง แม้จะเป็น 1,000 คน
ถ้าผลการวิจัยสำคัญพอที่จะตีพิมพ์ มันก็ควรพอที่จะทำต้นแบบให้ลูกค้าได้ทดลอง
คนทำตามสิ่งที่ได้รางวัล\n\n- ให้การเลื่อนขั้นและเกียรติยศผูกกับผลกระทบต่อผู้ใช้ ไม่ใช่แค่การอ้างอิงหรืองานวิจัยภายใน\n- ชื่นชมทีมข้ามฟังก์ชัน (วิจัย วิศวกรรม ผลิตภัณฑ์ กฎหมาย) ที่ย้ายไอเดียเสี่ยงสู่การผลิต\n- ให้ผู้นำเดี่ยวมีอำนาจทั้งการทดลองและการเปิดตัว เพื่อไม่ให้การตัดสินใจตายที่คณะกรรมการ
Transformers เป็นพรอพริมิตีคอมพิวติ้งใหม่ Google ปฏิบัติต่อมันเป็นการอัพเกรดโครงสร้างพื้นฐาน ส่วน OpenAI ทำเป็นเครื่องยนต์ผลิตภัณฑ์\n\nเมื่อคุณเจอไอเดียวิเคราะห์ลึก:\n\n- ชื่อ 1–2 ผลิตภัณฑ์นำที่จะผลักไอเดียให้ถึงขีดสุด\n- แยกทีมและงบ 12–24 เดือน\n- ยอมรับการทับซ้อนและแข่งกับผลิตภัณฑ์เก่าเมื่อ upside ใหญ่
ความกังวลเรื่องแบรนด์และความปลอดภัยมีเหตุผล แต่ใช้มันเป็นข้ออ้างเลื่อนอย่างไม่มีกำหนดไม่ใช่คำตอบ\n\nออกแบบโมเดลความเสี่ยงเป็นชั้นๆ:\n\n- กรณีใช้ความเสี่ยงสูง (สุขภาพ การเงิน เลือกตั้ง) ต้องมีกฎเข้มงวด\n- การทดลองชัดเจนและป้ายบอกชัดสามารถปล่อยได้เร็วภายใต้การเฝ้าดูและ kill-switch\n แทนที่จะรอความแน่นอน สร้างการสัมผัสแบบควบคุม: การเปิดตัวเป็นขั้นตอน การบันทึกที่แข็งแกร่ง เส้นทางย้อนกลับด่วน การ red-teaming และการสื่อสารสาธารณะที่บอกว่าคุณยังเรียนรู้อยู่
Google เปิดทางให้คนอื่นสร้างระบบ GPT-style ด้วยการเปิดซอร์สไอเดียและเครื่องมือ แล้วดูคนอื่นสร้างประสบการณ์ ikonic ขึ้น
เมื่อคุณเปิดความสามารถใหม่:\n\n- สร้างผลิตภัณฑ์อ้างอิงที่โชว์เพดานสิ่งที่เป็นไปได้\n- เสนอ API ตอนต้น แต่มีประสบการณ์ first-party ที่คุณวนปรับไม่หยุด\n- ปฏิบัติต่อผู้พัฒนาภายนอกเป็นพันธมิตร ไม่ใช่คนเดียวที่จะค้นพบผู้ใช้
คุณไม่สามารถพึ่งพาบุคคลเฉพาะหรือทีมฮีโร่ได้\n\nฝังการเปลี่ยนนี้ไว้ในกระบวนการบริษัท:\n\n- มาตรฐานท่อ: ไอเดีย → เดโมภายใน → เบต้า จำกัด → เปิดทั่วไป\n- ตั้งกลุ่มเฉพาะงานที่แปลงผลงานวิจัยให้เป็นผลิตภัณฑ์หรือ API\n- หมุนเวียนนักวิจัยอาวุโสเข้าสู่บทบาทผู้นำผลิตภัณฑ์ เพื่อให้คนที่เข้าใจความสามารถยังเป็นเจ้าของการประยุกต์
ความผิดพลาดใหญ่ของ Google ไม่ใช่การคาดการณ์ AI ผิด แต่เป็นการประเมินต่ำว่าค้นพบของตัวเองจะกลายเป็นอะไรเมื่ออยู่ในมือผู้บริโภค
สำหรับผู้ก่อตั้ง PM และผู้บริหาร มุมมองเชิงปฏิบัติคือ:\n\n- สมมติว่าการค้นพบของคุณมีพื้นผิวการใช้งานมากกว่าที่เห็นจากข้างในอาคาร\n- เอามันให้ผู้ใช้เห็นเร็วพอที่พวกเขาจะแสดงการใช้ที่น่าแปลกใจและมีมูลค่า\n- พร้อมที่จะปรับโร้ดแมปเมื่อการใช้งานเหล่านั้นขัดกับแผนเดิมของคุณ
ความก้าวหน้าต่อไป—ไม่ว่าจะเป็นโมเดล อินเทอร์เฟซ หรือพรอพริมิตีคอมพิวติ้งใหม่ทั้งหมด—จะถูกพาณิชย์โดยทีมที่ยอมเปลี่ยนจาก “เราค้นพบสิ่งนี้” เป็น “เรารับผิดชอบการส่งมอบสิ่งนี้” อย่างรวดเร็ว
บทเรียนจาก Google ไม่ใช่การตีพิมพ์น้อยลงหรือซ่อนงานวิจัย แต่ว่าต้องจับคู่การค้นพบระดับโลกกับการเป็นเจ้าของผลิตภัณฑ์ การตั้งแรงจูงใจที่ชัดเจน และอคติไปทางการเรียนรู้ในที่สาธารณะ องค์กรที่ทำเช่นนั้นจะเป็นเจ้าของคลื่นต่อไป ไม่ใช่แค่เขียนบทความที่เริ่มมัน
ไม่ใช่แบบตรงๆ แต่ Google เป็นผู้คิดค้น เทคโนโลยีหลัก ที่ทำให้ GPT เป็นไปได้
สรุปคือ Google สร้างรากฐานทางปัญญาและโครงสร้างพื้นฐานจำนวนมาก ส่วน OpenAI ชนะคลื่นมูลค่าแรกโดยเปลี่ยนรากฐานนั้นเป็นผลิตภัณฑ์กระแสหลัก (ChatGPT และ API).
Google ให้ความสำคัญกับ การวิจัย โครงสร้างพื้นฐาน และการปรับปรุงการค้นหาแบบค่อยเป็นค่อยไป ขณะที่ OpenAI เลือกที่จะ ส่งมอบผลิตภัณฑ์หนึ่งชิ้นที่กล้าหาญและใช้งานได้ทั่วไป
ความแตกต่างหลัก:
BERT และ GPT ต่างใช้ Transformer แต่ถูกออกแบบให้เหมาะกับ งานคนละแบบ:
Google เห็นการสร้างข้อความแบบเสรีเป็นความเสี่ยงและยากต่อการสร้างรายได้ภายในโมเดลธุรกิจหลัก
ข้อกังวลหลัก:
OpenAI ทำการเดิมพันใหญ่สามอย่างและลงมืออย่างต่อเนื่อง:
การสเกลเป็นกลยุทธ์ ไม่ใช่การทดลองข้างเคียง
ผลักดัน Transformer มาตรฐานไปสู่สเกลสุดโต่ง (ข้อมูล, พารามิเตอร์, คำนวณ) โดยอาศัยกฎการสเกลแทนการเปลี่ยนสถาปัตยกรรมบ่อยๆ
ไม่ใช่ในแง่ความสามารถของโมเดลล้วนๆ แต่เป็นเรื่องของ ผลิตภัณฑ์และเล่าเรื่อง ที่พลิกการรับรู้ของสาธารณะ
ผลลัพธ์คือการรับรู้สาธารณะเปลี่ยนจาก “Google นำด้าน AI” เป็น “ChatGPT/OpenAI นิยาม AI” ข้อพลาดของ Google คือประเมินต่ำไปว่าผลงานตัวเองจะกลายเป็นอะไรได้เมื่อวางในมือลูกค้าอย่างง่าย
ChatGPT เด่นเพราะ การดำเนินการและการตั้งกรอบ มากกว่าการมีอัลกอริธึมเฉพาะตัว
องค์ประกอบสำคัญ:
เรื่องนี้ชี้ให้เห็นวิธีการเปลี่ยนเทคโนโลยีลึกๆ ให้เป็นความได้เปรียบที่ยั่งยืน:
คุณสามารถทำผิดพลาดแบบ Google ได้ไม่ว่าจะขนาดไหน ถ้า:
เพื่อเลี่ยง:
Google ยังเป็น แรงขับทางเทคนิค และได้รีเซ็ตอย่างจริงจังด้วย Gemini:
จุดที่ Google ยังตามหลัง:
ทางเทคนิค Google ไม่ได้ตามหลัง แต่ในเชิงองค์กรและผลิตภัณฑ์ มันเคลื่อนช้ากว่าในพื้นที่ที่สำคัญต่อการรับรู้และการนำไปใช้ของสาธารณะ
BERT (Google):
GPT (OpenAI):
สรุป: Google ปรับเพื่อทำให้การค้นหาดีขึ้น ส่วน OpenAI ปรับเพื่อทำให้เครื่องยนต์ภาษาที่ยืดหยุ่นซึ่งคนจะคุยด้วยได้โดยตรง
ด้วยขนาดและการเผชิญกฎระเบียบ Google เลือกที่จะผนวก AI อย่างระมัดระวังเข้ากับผลิตภัณฑ์ที่มีอยู่ แทนการเปิดตัวแชทบอทแบบแยกชิ้นและรุกเร็ว
API-first เป็นแพลตฟอร์ม
เปลี่ยนโมเดลเป็น API บนคลาวด์ตอนต้น ให้คนนับพันค้นพบกรณีใช้งานและสร้างธุรกิจขึ้นบนมัน
แชทสำหรับผู้บริโภคเป็นผลิตภัณฑ์นำ
ChatGPT ทำให้ AI เข้าใจง่ายสำหรับทุกคน: “ถามอะไรได้ ได้คำตอบ” มันไม่รอความสมบูรณ์แบบ แต่เปิดตัว เรียนรู้จากผู้ใช้ และวนปรับเร็ว
การเคลื่อนไหวเหล่านี้สร้างวงจรเสริม: ผู้ใช้ → ข้อมูล → รายได้ → โมเดลใหญ่ขึ้น → ผลิตภัณฑ์ดีขึ้น ซึ่งนำหน้า Google ที่ปรับสินค้าอย่างกระจัดกระจายและช้ากว่า
การเปิดตัว Bard ของ Google กลับมาช้าและเป็นการตอบโต้ ถูกห่อด้วยการตลาดระดับสูงที่ทนต่อข้อผิดพลาดได้ยากกว่า แม้จะมีโมเดลแข็งแรงแต่ขาดความชัดเจนของจุดประสงค์และความเร็วในการวนปรับเหมือน OpenAI
ความต่างไม่ใช่ว่า Google ทำ ChatGPT ไม่ได้ แต่ว่า OpenAI ลงมือส่งมอบจริงและเรียนรู้อยู่ต่อหน้าผู้ใช้
บทเรียนหลัก: ความเป็นผู้นำด้านเทคนิคโดยไม่ยึดการเป็นเจ้าของผลิตภัณฑ์เปราะบาง ใครก็ตามที่พร้อมคู่ผลงานวิจัยกับการเป็นเจ้าของผลิตภัณฑ์จะเป็นผู้กำหนดคลื่นต่อไป
คุณไม่ต้องใหญ่เท่า Google เพื่อติดอยู่—แค่ให้โครงสร้างและความกลัววิ่งเร็วกว่าความอยากรู้อยากเห็นและความเร็ว
อนาคตมีแนวโน้มเป็นแบบ หลายขั้ว: ผู้ให้บริการปิดหลายราย (Google, OpenAI ฯลฯ) บวกโมเดลโอเพนซอร์สที่ขยับเร็วและรุ่นต่างๆ ที่เน้นความปลอดภัยหรือแนวดิ่งเฉพาะ Google ยังไม่ “แพ้” ตลอดไป แต่มันพลาดคลื่น generative แรก แล้วปรับตัว ทิศทางต่อไปคือความเร็วในการปฏิบัติใช้ ระบบนิเวศ และการผสานกับงานจริง ไม่ใช่แค่ใครเขียนกระดาษก่อน