เหตุใด Google จึงเป็นต้นทางของ GPT แต่ปล่อยให้ OpenAI ชนะสนาม AI

Q: Google คิดค้น GPT จริงหรือ เป็นการกล่าวเกินจริง?

ไม่ใช่แบบตรงๆ แต่ Google เป็นผู้คิดค้น เทคโนโลยีหลัก ที่ทำให้ GPT เป็นไปได้ - นักวิจัยของ Google สร้างสถาปัตยกรรม Transformer ในปี 2017 (“Attention Is All You Need”). - โมเดล GPT (GPT‑1, 2, 3, 4) เป็นหลักแล้ว decoder ของ Transformer ขนาดใหญ่ที่ฝึกในสเกลมหาศาล. - OpenAI ไม่ได้แทนที่ไอเดียของ Google; แต่ ขยายและใส่เป็นผลิตภัณฑ์ . สรุปคือ Google สร้างรากฐานทางปัญญาและโครงสร้างพื้นฐานจำนวนมาก ส่วน OpenAI ชนะคลื่นมูลค่าแรกโดยเปลี่ยนรากฐานนั้นเป็นผลิตภัณฑ์กระแสหลัก (ChatGPT และ API).

Q: ความแตกต่างที่จับต้องได้ระหว่าง BERT ของ Google กับ GPT ของ OpenAI คืออะไร?

BERT และ GPT ต่างใช้ Transformer แต่ถูกออกแบบให้เหมาะกับ งานคนละแบบ : - BERT (Google): - ใช้สถาปัตยกรรมแบบ encoder-only . - ฝึกด้วย masked language modeling (ทำนายคำที่ถูกซ่อนโดยใช้บริบททั้งสองด้าน). - เหมาะกับการ เข้าใจ : เจตนาการค้นหา, การจัดอันดับเอกสาร, การจำแนก, ตรวจจับสแปม. - เข้ากับสแต็กการค้นหาได้ง่าย. - GPT (OpenAI): - ใช้ decoder-only Transformer. - ฝึกด้วย การทำนายโทเค็นถัดไป (generate next token). - เก่งด้าน การสร้าง : เขียน, โค้ด, การสนทนา, คำอธิบาย. - เหมาะกับแชทบอทและเครื่องมือสร้างข้อความทั่วไป. สรุป: Google ปรับเพื่อทำให้การค้นหาดีขึ้น ส่วน OpenAI ปรับเพื่อทำให้เครื่องยนต์ภาษาที่ยืดหยุ่นซึ่งคนจะคุยด้วยได้โดยตรง

Q: OpenAI ทำอะไรแตกต่างจนเปลี่ยนงานวิจัยของ Google ให้เป็นผลิตภัณฑ์ที่ชนะ?

OpenAI ทำการเดิมพันใหญ่สามอย่างและลงมืออย่างต่อเนื่อง: 1. การสเกลเป็นกลยุทธ์ ไม่ใช่การทดลองข้างเคียง ผลักดัน Transformer มาตรฐานไปสู่สเกลสุดโต่ง (ข้อมูล, พารามิเตอร์, คำนวณ) โดยอาศัยกฎการสเกลแทนการเปลี่ยนสถาปัตยกรรมบ่อยๆ 2. API-first เป็นแพลตฟอร์ม เปลี่ยนโมเดลเป็น API บนคลาวด์ตอนต้น ให้คนนับพันค้นพบกรณีใช้งานและสร้างธุรกิจขึ้นบนมัน 3. แชทสำหรับผู้บริโภคเป็นผลิตภัณฑ์นำ ChatGPT ทำให้ AI เข้าใจง่ายสำหรับทุกคน: “ถามอะไรได้ ได้คำตอบ” มันไม่รอความสมบูรณ์แบบ แต่เปิดตัว เรียนรู้จากผู้ใช้ และวนปรับเร็ว การเคลื่อนไหวเหล่านี้สร้างวงจรเสริม: ผู้ใช้ → ข้อมูล → รายได้ → โมเดลใหญ่ขึ้น → ผลิตภัณฑ์ดีขึ้น ซึ่งนำหน้า Google ที่ปรับสินค้าอย่างกระจัดกระจายและช้ากว่า

Q: เมื่อ ChatGPT เปิดตัว Google ล้าหลังทางความสามารถด้าน AI จริงหรือ?

ไม่ใช่ในแง่ความสามารถของโมเดลล้วนๆ แต่เป็นเรื่องของ ผลิตภัณฑ์และเล่าเรื่อง ที่พลิกการรับรู้ของสาธารณะ - Google มีระบบภายในที่ใกล้เคียงกับ ChatGPT (เช่น LaMDA, PaLM) ก่อนที่ ChatGPT จะเปิดตัว - สิ่งที่น่าแปลกใจคือองค์กรเล็กกว่า: - เอาเทคโนโลยีพื้นฐานที่ใกล้เคียงกัน - ห่อหุ้มเป็นผลิตภัณฑ์เดียวที่ไวรัล (ChatGPT) - ยอมรับความไม่สมบูรณ์ในที่สาธารณะและเรียนรู้อย่างรวดเร็ว ผลลัพธ์คือการรับรู้สาธารณะเปลี่ยนจาก “Google นำด้าน AI” เป็น “ChatGPT/OpenAI นิยาม AI” ข้อพลาดของ Google คือประเมินต่ำไปว่าผลงานตัวเองจะกลายเป็นอะไรได้เมื่อวางในมือลูกค้าอย่างง่าย

Q: ทำไม ChatGPT ให้ความรู้สึกดีกว่า Bard ของ Google และการตอบสนองอื่นๆ?

ChatGPT เด่นเพราะ การดำเนินการและการตั้งกรอบ มากกว่าการมีอัลกอริธึมเฉพาะตัว องค์ประกอบสำคัญ: - UX เรียบง่าย: กล่องแชทเดียว ไม่มีการตั้งค่า ความเข้าใจง่าย - เปิดใช้ฟรีในช่วงแรก: ลดแรงต้าน ให้คนทดลองจำนวนมาก - การตั้งความคาดหวัง: บอกว่าเป็น “preview ทางการวิจัย” ผู้ใช้ยอมรับความบกพร่องได้มากกว่า - วนปรับเร็ว: ใช้บทสนทนาจริงปรับ RLHF การควบคุมความปลอดภัย และออกแบบฟีเจอร์ การเปิดตัว Bard ของ Google กลับมาช้าและเป็นการตอบโต้ ถูกห่อด้วยการตลาดระดับสูงที่ทนต่อข้อผิดพลาดได้ยากกว่า แม้จะมีโมเดลแข็งแรงแต่ขาดความชัดเจนของจุดประสงค์และความเร็วในการวนปรับเหมือน OpenAI ความต่างไม่ใช่ว่า Google ทำ ChatGPT ไม่ได้ แต่ว่า OpenAI ลงมือส่งมอบจริงและเรียนรู้อยู่ต่อหน้าผู้ใช้

Q: บริษัทขนาดเล็กหรือสตาร์ทอัพจะหลีกเลี่ยงการทำผิดแบบ Google ใน AI ได้อย่างไร?

คุณสามารถทำผิดพลาดแบบ Google ได้ไม่ว่าจะขนาดไหน ถ้า: - ถือการวิจัยเป็นจุดจบแทนที่จะเป็นจุดเริ่มต้นของผลิตภัณฑ์ - ให้กระบวนการที่กลัวความเสี่ยงยับยั้งการเปิดตัวเล็กๆ ที่ควบคุมได้ - ปรับโครงสร้างองค์กรและ OKR เพื่อปกป้องรายได้เก่าๆ มากกว่าการทดลอง เพื่อเลี่ยง: - มอบเจ้าของเดียวที่มีอำนาจแปลงค้นพบสำคัญเป็นพายล็อตต่อหน้าผู้ใช้ - ออกแบบท่อมาตรฐาน: ไอเดีย → เดโมภายใน → เบต้าแบบ จำกัด สาธารณะ → เปิดกว้าง - ยอมรับว่าบางผลิตภัณฑ์ใหม่อาจแข่งขันกับสายผลิตภัณฑ์เดิม และให้เวลากับมันพอจะพิสูจน์มูลค่า คุณไม่ต้องใหญ่เท่า Google เพื่อติดอยู่—แค่ให้โครงสร้างและความกลัววิ่งเร็วกว่าความอยากรู้อยากเห็นและความเร็ว

เข้าสู่ระบบ เริ่มต้นใช้งาน

เหตุใด Google จึงเป็นต้นทางของ GPT แต่ปล่อยให้ OpenAI ชนะสนาม AI | Koder.ai

ภาพรวม: Google ขับเคลื่อน GPT แต่ปล่อยให้ OpenAI ชนะในสนาม AI

Google ไม่ได้ “พลาด” AI เสมอไป แต่เป็นผู้คิดค้นส่วนสำคัญที่ทำให้คลื่นปัจจุบันเป็นไปได้—แล้วปล่อยให้คนอื่นเปลี่ยนมันเป็นผลิตภัณฑ์ที่นิยามยุคใหม่แทน

นักวิจัยของ Google สร้างสถาปัตยกรรม Transformer ซึ่งเป็นแนวคิดแกนกลางของโมเดล GPT บทความปี 2017 ชื่อ “Attention Is All You Need” แสดงให้เห็นวิธีฝึกโมเดลขนาดใหญ่ที่เข้าใจและสร้างภาษาได้อย่างคล่องแคล่ว หากไม่มีงานชิ้นนั้น GPT ในรูปแบบที่เรารู้จักคงไม่มีวันเกิดขึ้น

ความสำเร็จของ OpenAI ไม่ใช่อัลกอริธึมวิเศษ แต่มาจากชุดการตัดสินใจเชิงกลยุทธ์: ขยายขนาด Transformer ไปไกลกว่าที่หลายคนคิดว่านำไปใช้ได้ ผสานกับการฝึกจำนวนมหาศาล และห่อหุ้มผลลัพธ์เป็น API ที่ใช้งานง่าย และท้ายที่สุดคือ ChatGPT—ผลิตภัณฑ์ผู้บริโภคที่ทำให้ AI เป็นเรื่องจับต้องได้สำหรับผู้คนนับร้อยล้าน

บทความนี้พูดถึงการตัดสินใจและการชั่งน้ำหนัก ไม่ได้เน้นดราม่าลับหรือฮีโร่กับวายร้ายส่วนบุคคล มันติดตามว่าทำไมวัฒนธรรมการวิจัยและโมเดลธุรกิจของ Google ถึงทำให้บริษัทโน้มไปทางโมเดลแบบ BERT และการปรับปรุงการค้นหาเชิงค่อยเป็นค่อยไป ขณะที่ OpenAI กล้าพนันกับระบบสร้างข้อความทั่วไปมากกว่า

เราจะเดินผ่านหัวข้อต่อไปนี้:

Google สร้างความเป็นผู้นำด้าน AI ในช่วงแรกและองค์กรวิจัยระดับโลกอย่างไร
ทำไมบทความ Transformer ถึงเป็นเบรกทรูค — และมันเปลี่ยนอะไรจริงๆ
OpenAI เอารากฐานนั้นมาทำเป็น GPT และ ChatGPT อย่างไร
กลยุทธ์ที่แยกกัน: BERT และการค้นหาที่ Google เทียบกับ GPT ขนาดใหญ่และ API ที่ OpenAI เลือก
“ช่วงเวลา ChatGPT” เมื่อ OpenAI เอาชนะ Google ด้านการปฏิบัติใช้ต่อสาธารณะ
ความแตกต่างด้านวัฒนธรรมและแรงจูงใจที่หล่อหลอมการตัดสินใจของทั้งสองบริษัท
การรีเซ็ตของ Google ด้วย Bard และ Gemini
บทเรียนเชิงปฏิบัติเพื่อให้ผู้สร้างไม่ทำซ้ำความผิดพลาดของ Google

ถ้าคุณสนใจกลยุทธ์ AI—วิจัยแปลงเป็นผลิตภัณฑ์ และผลิตภัณฑ์แปลงเป็นความได้เปรียบถาวร—เรื่องนี้เป็นกรณีศึกษาว่าสิ่งที่สำคัญกว่าการมีบทความดีที่สุดคือการมีเดิมพันที่ชัดเจนและความกล้าที่จะปล่อยของ

ความเป็นผู้นำด้าน AI ของ Google ตั้งแต่แรกและวัฒนธรรมการวิจัย

Google เข้าสู่การเรียนรู้ของเครื่องสมัยใหม่ด้วยข้อได้เปรียบเชิงโครงสร้างสองอย่าง: ข้อมูลในปริมาณที่มากเกินจินตนาการและวัฒนธรรมวิศวกรรมที่ปรับให้เหมาะกับระบบแบบกระจายขนาดใหญ่ เมื่อเครื่องจักรเหล่านั้นหันมาทำงานด้าน AI มันกลายเป็นศูนย์กลางแรงโน้มถ่วงของวงการอย่างรวดเร็ว

จาก Google Brain มาถึง DeepMind

Google Brain เริ่มเป็นโปรเจกต์ข้างเคียงประมาณ 2011–2012 โดยมี Jeff Dean, Andrew Ng, และ Greg Corrado เป็นผู้นำ ทีมมุ่งเน้นการเรียนรู้เชิงลึกระดับใหญ่ ใช้ศูนย์ข้อมูลของ Google ในการฝึกโมเดลที่มหาวิทยาลัยส่วนใหญ่เอื้อมไม่ถึง

DeepMind เข้าร่วมในปี 2014 ผ่านการเข้าซื้อที่โดดเด่น ขณะที่ Google Brain ทำงานใกล้ผลิตภัณฑ์และโครงสร้างพื้นฐาน DeepMind เน้นการวิจัยระยะยาว: reinforcement learning เกม และระบบการเรียนรู้ที่เป็นสากล

ทั้งสองทีมให้ห้องเครื่อง AI ที่ไม่มีใครเทียบ: ฝ่ายหนึ่งฝังตัวในสแต็กการผลิตของ Google อีกฝ่ายไล่ตามงานวิจัยมูลฝัน

จุดเปลี่ยนที่สื่อว่า Google ครองความเป็นผู้นำด้าน AI

ชัยชนะสาธารณะหลายรายการตอกย้ำสถานะของ Google:

ความก้าวหน้าใน ImageNet: แม้ชัยชนะ ImageNet ปี 2012 (AlexNet) มาจาก University of Toronto แต่ Google ดึงนักวิจัยชั้นนำมามากและผลักดันขอบเขตด้วยโมเดลอย่าง Inception เวทีด้านวิสัยทัศน์กลายเป็นโชว์เคสของสเกลและเครื่องมือของ Google
AlphaGo และรุ่นต่อมา: การที่ DeepMind’s AlphaGo ชนะ Lee Sedol ใน 2016 ตามด้วย AlphaGo Zero และ AlphaZero แสดงให้เห็นว่า deep reinforcement learning สามารถเรียนรู้โดเมนที่ซับซ้อนได้โดยไม่ต้องออกแบบมนุษย์มากนัก
คำพูด “AI-first”: ประมาณ 2016–2017 Sundar Pichai เริ่มเรียก Google ว่าเป็น “AI-first company.” AI ขับเคลื่อน Search, Ads, YouTube recommendations, Photos, Maps, และ Android—ส่งผลต่อผู้ใช้เป็นพันล้านคน แม้ส่วนใหญ่จะไม่เห็นโมเดลโดยตรง

ชัยชนะเหล่านี้ทำให้นักวิจัยหลายคนเชื่อว่า ถ้าคุณอยากทำงานกับปัญหา AI ที่ทะเยอทะยานที่สุด คุณต้องไปที่ Google หรือ DeepMind

ความหนาแน่นของคนเก่งเป็นเครื่องจักรนวัตกรรม

Google รวบรวมส่วนแบ่งพิเศษของพรสวรรค์ด้าน AI ของโลกไว้มาก ผู้ชนะรางวัล Turing และบุคคลสำคัญหลายคนทำงานภายในไม่กี่องค์กรและอาคาร

ความหนาแน่นนี้สร้างวงป้อนกลับที่ทรงพลัง:\n\n- ไอเดียใหม่แพร่เร็วผ่านการบรรยายภายใน รายชื่ออีเมล และโค้ดที่แชร์กัน\n- ทีมสามารถรวมตัวกันแก้ปัญหายากได้อย่างยืดหยุ่น เพราะผู้เชี่ยวชาญอยู่ใกล้มือ\n- นักวิจัยได้รับประโยชน์จากโครงสร้างพื้นฐานระดับการผลิต—ท่อข้อมูล ขึ้นระบบการฝึกแบบกระจาย และฮาร์ดแวร์เฉพาะทาง—โดยไม่ต้องสร้างทั้งหมดเอง

การรวมกันของพรสวรรค์ระดับเอลิตและการลงทุนโครงสร้างพื้นฐานหนักหน่วงทำให้ Google เป็นที่ที่งานวิจัยแนวหน้ามักเกิดขึ้น

วัฒนธรรมที่ปรับให้เหมาะกับการตีพิมพ์และการสร้างแพลตฟอร์ม

วัฒนธรรม AI ของ Google โน้มไปทาง การตีพิมพ์และการสร้างแพลตฟอร์ม มากกว่าการผลิตผลิตภัณฑ์ AI สำหรับผู้บริโภคอย่างปราณีต

ในฝั่งวิจัย บรรทัดฐานคือ:\n\n- ตีพิมพ์ในงานประชุมเช่น NeurIPS, ICML, ICLR\n- เปิดซอร์สเครื่องมือ (เช่น TensorFlow) ที่สะท้อนระบบภายในของ Google\n- ปล่อยบทความอิทธิพลด้านวิสัยทัศน์ การทำโมเดลลำดับ การเรียนรู้เสริม และการฝึกในสเกลใหญ่

ในฝั่งวิศวกรรม Google เทงทรัพยากรไปที่โครงสร้างพื้นฐาน:\n\n- Tensor Processing Units (TPUs) ที่ออกแบบมาสำหรับงานโครงข่ายประสาทเทียม\n- สแต็กการฝึกและการให้บริการขั้นสูง ได้แรงบันดาลใจจากระบบภายในเช่น Borg\n- แพลตฟอร์มข้อมูลและการทดลองที่ทำให้การรันงานใหญ่บนทราฟฟิคจริงเป็นเรื่องง่าย

การตัดสินใจเหล่านี้สอดคล้องอย่างสูงกับธุรกิจหลักของ Google โมเดลและเครื่องมือที่ดีขึ้นปรับปรุงความเกี่ยวข้องของ Search การกำหนดเป้าหมายโฆษณา และคำแนะนำเนื้อหา AI ถูกปฏิบัติเป็น เลเยอร์สมรรถนะทั่วไป มากกว่าหมวดผลิตภัณฑ์แยกชิ้น

ผลคือบริษัทที่ครองวิทยาศาสตร์และระบบพื้นฐานของ AI รวมเข้ากับบริการที่มีอยู่ลึก และประกาศความคืบหน้าผ่านงานวิจัยที่มีอิทธิพล—ในขณะเดียวกันก็ระมัดระวังที่จะสร้างประสบการณ์ผู้บริโภค AI แบบใหม่ที่เป็นผลิตภัณฑ์อย่างชัดเจน

การกำเนิดของ Transformer: บทความเบรกทรูของ Google

ในปี 2017 ทีมเล็กๆ ของ Google Brain และ Google Research เผยแพร่บทความที่พลิกวงการ: “Attention Is All You Need” โดย Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser, และ Illia Polosukhin

แก่นของไอเดียง่ายแต่เปลี่ยนเกม: คุณสามารถทิ้ง recurrence และ convolution และสร้างโมเดลลำดับโดยใช้ attention เพียงอย่างเดียว สถาปัตยกรรมนี้ถูกตั้งชื่อว่า Transformer

Transformer แก้ปัญหาอะไรของ RNNs และ LSTMs

ก่อน Transformer ระบบภาษาระดับแนวหน้าส่วนใหญ่ใช้ RNNs และ LSTMs มีปัญหาใหญ่สองอย่าง:\n\n- คอขวดเชิงลำดับ: RNNs ประมวลผลโทเค็นทีละตัว ทำให้การฝึกและการอนุมานยากต่อการขนาน GPU จึงว่างรอขั้นตอนก่อนหน้าเสร็จ\n- การพึ่งพาระยะไกล: เมื่อลำดับยาวขึ้น RNNs จำข้อมูลจากหลายก้าวก่อนหน้านั้นได้ยาก แม้มี LSTMs และเลเยอร์ attention มาช่วยแล้วก็ตาม

Transformer แก้ทั้งสองปัญหา:\n\n- Self-attention ทำให้แต่ละโทเค็นมองเห็นโทเค็นอื่นๆ ทั้งหมดในชั้นเดียวได้โดยตรง\n- โมเดลประมวลผลทุกโทเค็น พร้อมกัน เปลี่ยนการฝึกให้เป็นปัญหาการคูณเมทริกซ์ที่เป็นมิตรกับ GPU\n- Multi-head attention ให้โมเดลเรียนรู้มุมมองบริบทต่างๆ พร้อมกัน (ไวยากรณ์ การอ้างอิง หัวข้อ ฯลฯ)

ข้อมูลตำแหน่งถูกเพิ่มด้วย positional encodings เพื่อให้โมเดลรู้ลำดับโดยไม่ต้องใช้ recurrence

ทำไมสิ่งนี้เปิดทางให้โมเดลที่สเกลได้และโมเดลมัลติโมดัล

เพราะทุกการดำเนินการขนานได้และอาศัยการคูณเมทริกซ์หนาแน่น Transformers สเกลได้อย่างชัดเจน เมื่อเพิ่มข้อมูลและคอมพิวต์ คุณสมบัติการสเกลนี้เป็นสิ่งที่ GPT, Gemini และโมเดลแนวหน้าอื่นๆ พึ่งพา

กลไก attention เดียวกันยังทั่วไปไปเกินข้อความ: สามารถใช้กับพาทช์ภาพ เฟรมเสียง โทเค็นวิดีโอ และอื่นๆ ทำให้สถาปัตยกรรมเป็นพื้นฐานธรรมชาติเพื่อโมเดลมัลติโมดัลที่อ่าน มอง และฟังด้วยกระดูกสันหลังร่วมกัน

การตีพิมพ์แบบเปิดและทางสู่ GPT

ที่สำคัญคือ Google เผยแพร่บทความอย่างเปิดเผย และ (ผ่านงานต่อเนื่องและไลบรารีอย่าง Tensor2Tensor) ทำให้สถาปัตยกรรมนี้ทำซ้ำได้ง่าย นักวิจัยและสตาร์ทอัพทั่วโลกอ่านรายละเอียด คัดลอกการออกแบบ และสเกลมันขึ้นได้

OpenAI ทำแบบนั้นจริงๆ GPT‑1 เป็นในเชิงโครงสร้างแล้ว Transformer decoder stack ที่ฝึกด้วย objective แบบ language-modeling บรรพบุรุษทางเทคนิคของ GPT คือ Transformer ของ Google: บล็อก self-attention แกนเดียวกัน positional encodings เดียวกัน และเดิมพันเรื่องการสเกล—แต่ถูกนำไปใช้ในบริบทผลิตภัณฑ์และองค์กรที่ต่างออกไป

จาก Transformer สู่ GPT: OpenAI สร้างจากงานของ Google อย่างไร

เมื่อ OpenAI เปิดตัว GPT มันไม่ได้คิดค้นพาราไดม์ใหม่จากศูนย์ แต่นำพิมพ์เขียว Transformer ของ Googleมาแล้วผลักดันมันต่อไปให้ไกลกว่าที่กลุ่มวิจัยส่วนใหญ่ยอมรับได้หรือสามารถทำได้

เปลี่ยน Transformer ให้เป็น GPT

GPT รุ่นแรก (2018) เป็นหลักแล้ว Transformer decoder ที่ถูกฝึกด้วย objective ง่ายๆ: ทำนายโทเค็นถัดไปในย่อหน้าที่ยาว แนวคิดนั้นถ่ายตรงมาจากสถาปัตยกรรม Transformer ของปี 2017 แต่ Google มุ่งที่คู่มือการแปลภาษา ขณะที่ OpenAI ถือว่า “การทำนายคำถัดไปในสเกล” เป็นฐานสำหรับเครื่องสร้างข้อความทั่วไป

GPT-2 (2019) ขยายสูตรเดิมเป็น 1.5B พารามิเตอร์และใช้คอร์ปัสเว็บที่ใหญ่กว่า GPT-3 (2020) กระโดดสู่ 175B พารามิเตอร์ ฝึกบนทริลเลียนโทเค็นด้วยคลัสเตอร์ GPU ขนาดมหึมา GPT-4 ยังคงรูปแบบเดิม: พารามิเตอร์เพิ่ม ข้อมูลดีขึ้น คัดเลือกดีขึ้น และคอมพิวต์มากขึ้น ห่อด้วยเลเยอร์ความปลอดภัยและ RLHF เพื่อปรับพฤติกรรมให้คุยได้และมีประโยชน์

ตลอดเส้นทางแกนอัลกอริธึมยังคงใกล้เคียงกับ Transformer ของ Google: บล็อก self-attention positional encodings และการเรียงชั้น ความโดดเด่นคือขนาดและวิศวกรรมที่ไม่หยุดยั้ง

การสเกลเป็นกลยุทธ์ ไม่ใช่แค่การทดลองวิจัย

ขณะที่โมเดลภาษาเชิงแรกของ Google (เช่น BERT) มุ่งสู่งานความเข้าใจ—การจัดหมวด การจัดอันดับการค้นหา การตอบคำถาม—OpenAI ปรับแต่งเพื่อการสร้างข้อความแบบเปิดและการสนทนา Google ตีพิมพ์โมเดลระดับรัฐของศิลป์แล้วเดินหน้าต่อในบทความถัดไป OpenAI เปลี่ยนไอเดียเดียวเป็นสายการผลิตผลิตภัณฑ์

งานวิจัยเปิดจาก Google, DeepMind และห้องปฏิบัติการวิชาการป้อนตรงสู่ GPT: เวอร์ชัน Transformer, เทคนิคการเพิ่มประสิทธิภาพ, ตารางการเรียนรู้, กฎการสเกล และการตัดคำที่ดีขึ้น OpenAI ดูดผลสาธารณะเหล่านี้เข้าไป จากนั้นลงทุนหนักในการรันการฝึกเชิงกรรมสิทธิ์และโครงสร้างพื้นฐาน

ประกายปัญญา—Transformer—มาจาก Google การตัดสินใจที่จะเดิมพันบริษัทบนการสเกลไอเดียนั้น การส่งมอบ API แล้วตามด้วยแชทสำหรับผู้บริโภคเป็นของ OpenAI

ทำไม Google ให้ความสำคัญกับ BERT และการค้นหามากกว่าผลิตภัณฑ์สไตล์ GPT

Plan Before You Code

แม็ปฟีเจอร์ หน้าเพจ และข้อมูลก่อน แล้วค่อยสร้างด้วยขอบเขตที่ชัดและความประหลาดใจน้อยลง

Use Planning

ความสำเร็จเชิงพาณิชย์ของ Google กับ deep learning เกิดจากการทำให้เครื่องพิมพ์เงินหลัก—Search และ Ads—ฉลาดขึ้น บริบทนั้นกำหนดวิธีประเมินสถาปัตยกรรมใหม่ๆ เช่น Transformer แทนที่จะแข่งสร้างเครื่องสร้างข้อความอิสระ Google ลงทุนซ้ำในโมเดลที่ทำให้การจัดอันดับ ความเกี่ยวข้อง และคุณภาพดีขึ้น BERT จึงเหมาะสมอย่างยิ่ง

BERT เป็น Transformer "ที่เกิดมาเพื่อการค้นหา"

BERT (Bidirectional Encoder Representations from Transformers) เป็นโมเดล encoder-only ที่ฝึกด้วย masked language modeling: ซ่อนส่วนของประโยค แล้วให้โมเดลทำนายคำที่หายไปโดยใช้บริบททั้งสองด้าน

objective การฝึกนั้นสอดคล้องอย่างใกล้ชิดกับปัญหาของ Google:\n\n- ความเข้าใจคำค้น: คำค้นสั้น ยุ่ง และกำกวม BERT ให้บริบทสองทิศทางที่ช่วยแปลความหมายได้ดีกว่า\n- ความเข้าใจเอกสาร: การจัดอันดับบรรทัดฐานจำเป็นต้องมีความเหมือนเชิงความหมายที่ละเอียด BERT embeddings ช่วยจับคู่คำค้นกับย่อหน้าที่เกี่ยวข้องได้ดีขึ้น\n- คุณภาพและการตรวจจับสแปม: masked LM เหมาะกับการจับข้อความที่ “ไม่เข้าพวก” ซึ่งมีประโยชน์ในการกรองเนื้อหาขยะ

สำคัญคือ โมเดลแบบ encoder เข้ากันได้ดีกับสแต็ก retrieval และ ranking ที่มีอยู่ของ Google สามารถเรียกเป็นสัญญาณความเกี่ยวข้องร่วมกับฟีเจอร์อื่นๆ หลายร้อยตัว ทำให้การปรับปรุงการค้นหาเกิดขึ้นโดยไม่ต้องเขียนผลิตภัณฑ์ใหม่ทั้งหมด

ทำไม masked language modeling จึงเข้ากับธุรกิจของ Google

Google ต้องการคำตอบที่ เชื่อถือได้ ตรวจสอบแหล่งที่มาได้ และสร้างรายได้ได้:\n\n- เชื่อถือได้: ผลลัพธ์การค้นหาต้องยึดโยงกับเพจจริงและแหล่งข้อมูล โมเดล masked ฝึกให้เข้าใจภาษา ไม่ใช่สร้างข้อมูลขึ้นมาเอง\n- ตรวจสอบได้: แต่ละผลลัพธ์ลิงก์ไปยังผู้เผยแพร่ ช่วยระบบเว็บเปิดและให้ผู้ใช้ตรวจสอบข้อมูลได้\n- ทำเงินได้: โฆษณาการค้นหาจัดรอบลิสต์ลิงก์ที่เรียงอันดับได้ดีขึ้น ความเกี่ยวข้องที่ดีขึ้นแปลเป็น CTR สูงขึ้นและมูลค่าต่อคำค้นที่มากขึ้น

BERT ปรับปรุงทั้งสามด้านโดยไม่รบกวน UI การค้นหาหลักหรือโมเดลโฆษณา GPT สไตล์ autoregressive ให้มูลค่าเพิ่มที่ชัดเจนน้อยกว่าในธุรกิจหลักนั้น

การคำนวณความเสี่ยงภายใน: ความปลอดภัย ข่าวเท็จ และแบรนด์

การสร้างข้อความแบบเปิดยกข้อกังวลขึ้นมาชัดเจน:\n\n- ข่าวเท็จและ hallucination: โมเดลสร้างได้มั่นใจในข้อเท็จจริงที่ไม่ถูกต้อง สำหรับบริษัทที่มักถูกมองเป็นแหล่งอ้างอิง นี่คือความเสี่ยงต่อแบรนด์โดยตรง\n- เนื้อหาที่เป็นอันตราย: การสร้างที่ไม่มีฟิลเตอร์อาจให้ข้อความที่เป็นพิษ มีอคติ หรืออันตราย การเปิดใช้ในขนาด Google จะดึงการต่อต้านจากสาธารณะและกฎระเบียบ\n- การเปิดเผยทางกฎระเบียบ: เมื่อการตรวจสอบด้านการต่อต้านผูกขาดและเนื้อหาร้อนแรง การเปิดตัวแชทบอทที่ตอบแบบเปิดกว้างทั่วโลกเป็นความเสี่ยงยั่วยุ

กรณีใช้ภายในที่ผ่านการตรวจนโยบายมักเป็นแบบ ช่วยงานและจำกัดขอบเขต: อัตโนมัติเติมใน Gmail, smart replies, การแปลภาษา และการเสริมการจัดอันดับ โมเดลแบบ encoder ควบคุมและตรวจสอบได้ง่ายกว่าโมเดลสนทนาเปิดๆ

ความกลัวการแคนนิบัลไลซ์: อย่าทำลายเครื่องจักรเงินสด

แม้ว่า Google จะมีต้นแบบแชทและการสร้างข้อความที่ใช้งานได้ คำถามหลักยังคงคือ: คำตอบโดยตรงที่ดีจะลดจำนวนการค้นหาและการคลิกโฆษณาหรือไม่?\n\nประสบการณ์การแชทที่ให้คำตอบครบในครั้งเดียวเปลี่ยนพฤติกรรมผู้ใช้:\n\n- คลิกไปยังไซต์ภายนอกน้อยลง → ผู้เผยแพร่ไม่พอใจ ระบบเว็บอาจอ่อนแอลง\n- ช่องทางและเจตนาทำให้โฆษณาการค้นหาทำงานยากขึ้น → รายได้ไม่แน่นอน

สัญชาตญาณของผู้นำคือผสาน AI เป็นตัวช่วยของการค้นหา ไม่ใช่ตัวแทนที่มาแทน นั่นหมายถึงการปรับแต่งอันดับ, rich snippets และความเข้าใจเชิงความหมายมากขึ้น—ซึ่ง BERT ทำได้ดี—แทนที่จะเปิดตัวผลิตภัณฑ์สนทนาโดดๆ ที่อาจทำลายโมเดลรายได้หลัก

การตัดสินใจเหล่านี้ชะลอผลิตภัณฑ์สร้างข้อความสาธารณะอย่างไร

แต่ละการตัดสินใจนั้นสมเหตุสมผล:\n\n- เลือกโมเดลที่ปรับปรุงตัวชี้วัดการค้นหาและโฆษณาโดยตรง\n- ให้ความสำคัญกับความปลอดภัย ความน่าเชื่อถือ และความระมัดระวังด้านกฎระเบียบ\n- ปกป้องประสบการณ์การค้นหาและการสร้างรายได้จากโฆษณา\n\nรวมกันแล้วมันหมายความว่า Google ลงทุนไม่เพียงพอในเชิงการสร้างผลิตภัณฑ์ แบบ GPT‑style ต่อสาธารณะ ทีมวิจัยสำรวจ decoder ขนาดใหญ่และระบบบทสนทนา แต่ทีมผลิตภัณฑ์มีแรงจูงใจน้อยที่จะส่งมอบแชทบอทที่:\n\n- ไม่ชัดเจนว่าจะปรับปรุง KPI สำคัญของการค้นหาหรือไม่\n- คุกคามรายได้โฆษณาและความสัมพันธ์กับผู้เผยแพร่\n- แนะนำความเสี่ยงด้านความปลอดภัยและ PR ในระดับสูง\n\nOpenAI ซึ่งไม่มีอาณาจักรการค้นหาจะทำเดิมพันตรงกันข้าม: โมเดลแชทที่ใช้งานได้สูง แม้ไม่สมบูรณ์ ก็จะสร้างความต้องการใหม่ในระดับมวลชน Google มุ่งที่ BERT และการผสานกับการค้นหา ทำให้การย้ายสู่เครื่องมือสร้างข้อความสาธารณะล่าช้า และนั่นเปิดช่องให้ ChatGPT นิยามหมวดหมู่ก่อน

การเดิมพันของ OpenAI: สเกล, API และประสบการณ์แชทผู้บริโภค

จากห้องทดลองวิจัยสู่บริษัทแบบ capped-profit

OpenAI เริ่มใน 2015 เป็นห้องวิจัยไม่แสวงหากำไร ได้รับทุนจากผู้ก่อตั้งเทคบางคนที่เห็น AI ทั้งเป็นโอกาสและความเสี่ยง ในช่วงแรกๆ มันดูคล้าย Google Brain หรือ DeepMind: ตีพิมพ์บทความ ปล่อยโค้ด ผลักดันวิทยาศาสตร์

ในปี 2019 ผู้นำเห็นว่าโมเดลแนวหน้าจะต้องการงบคำนวณและวิศวกรรมหลายพันล้านดอลลาร์ องค์กรไม่แสวงหากำไรล้วนคงระดมทุนระดับนั้นยาก ทางออกคือรูปแบบโครงสร้าง: OpenAI LP บริษัทแบบ “capped‑profit” อยู่ใต้หน่วยงานไม่แสวงหากำไร

นักลงทุนสามารถรับผลตอบแทนได้ (ถึงขอบเขตหนึ่ง) ในขณะที่บอร์ดยังคงพันธกิจมุ่งประโยชน์ต่อสาธารณะ รูปแบบนี้ทำให้เซ็นสัญญาการเงินและคลาวด์ขนาดใหญ่ได้โดยไม่กลายเป็นสตาร์ทอัพแบบปกติ

การสเกลเป็นสมมติฐานหลัก

ขณะที่ห้องวิจัยหลายแห่งปรับเพื่อสถาปัตยกรรมฉลาดหรือระบบเฉพาะ OpenAI เดินเกมตรงไป: โมเดลภาษาทั่วไปขนาดใหญ่อาจมีความสามารถอย่างน่าประหลาดใจหากคุณสเกลข้อมูล พารามิเตอร์ และคอมพิวต์ต่อเนื่อง

GPT‑1, GPT‑2, GPT‑3 ตามสูตรง่ายๆ: สถาปัตยกรรม Transformer เป็นหลัก แต่ใหญ่กว่า ฝึกนานกว่า บนข้อความหลากหลายกว่า แทนที่จะปรับโมเดลให้กับแต่ละงาน พวกเขาใช้โมเดลเดียวแบบกว้างผ่าน prompting และ fine‑tuning

นี่ไม่ใช่แค่มุมมองวิจัย แต่มุมมองธุรกิจ: ถ้าหนึ่ง API สามารถขับเคลื่อนกรณีใช้งานนับพัน—from เครื่องมือเขียนสำเนาถึงผู้ช่วยเขียนโค้ด—OpenAI สามารถเป็นแพลตฟอร์ม ไม่ใช่แค่ห้องวิจัย

API‑first: เปลี่ยนโมเดลเป็นแพลตฟอร์ม

GPT‑3 API ที่เปิดตัวใน 2020 ทำให้กลยุทธ์นั้นจับต้องได้ แทนที่จะออกซอฟต์แวร์หนักบนเซิร์ฟหรือผลิตภัณฑ์องค์กรแบบผูกขาด OpenAI เปิด API บนคลาวด์:\n\n- ส่งข้อความ รับผลลัพธ์โมเดล\n- จ่ายตามโทเค็น\n- สร้างอะไรบนมันก็ได้

แนวทาง “API‑first” เปิดโอกาสให้สตาร์ทอัพและองค์กรจัดการ UX การปฏิบัติตามกฎ และความเชี่ยวชาญด้านโดเมน ในขณะที่ OpenAI มุ่งฝึกโมเดลให้ใหญ่ขึ้นและปรับการสอดคล้อง (alignment)

API ยังสร้างเครื่องยนต์รายได้ที่ชัดเจนตั้งแต่ต้น แทนที่จะรอผลิตภัณฑ์ที่สมบูรณ์ OpenAI ให้ระบบนิเวศค้นพบกรณีใช้งานและทำ R&D ผลิตภัณฑ์แทนให้

กล้าที่จะปล่อยของที่ยังไม่สมบูรณ์

OpenAI เลือกส่งมอบก่อนที่โมเดลจะขัดเกลาเสมอ GPT‑2 เปิดตัวพร้อมข้อกังวลด้านความปลอดภัยและเผยแพร่แบบค่อยเป็นค่อยไป GPT‑3 เปิดตัวในเบตาควบคุมที่มีข้อบกพร่องชัด—hallucinations, อคติ, ความไม่สม่ำเสมอ

การแสดงออกชัดที่สุดของปรัชญานี้คือ ChatGPT ปลาย 2022 มันไม่ใช่โมเดลที่ซับซ้อนที่สุดของ OpenAI และก็ไม่ได้ขัดเกลาเป็นพิเศษ แต่ให้:\n\n- อินเทอร์เฟซแชทง่ายๆ ที่ใครๆ ก็เข้าใจได้\n- การเข้าถึงฟรีในช่วงแรก เชื้อเชิญการทดลองจำนวนมาก\n- วงจรวนปรับเร็วจากบทสนทนาจริง

แทนที่จะปรับโมเดลในความเป็นส่วนตัวอย่างยาว OpenAI ปล่อยให้สาธารณะเป็นเครื่องยนต์ฟีดแบ็กขนาดใหญ่ การป้องกัน การดูแล และ UX พัฒนาไปสัปดาห์ต่อสัปดาห์โดยอิงจากพฤติกรรมจริง

พันธมิตรเชิงกลยุทธ์กับ Microsoft และการเข้าถึงคอมพิวต์

การเดิมพันของ OpenAI ในการสเกลต้องการงบคอมพิวต์มหาศาล นั่นคือที่พันธมิตร Microsoft สำคัญ\n\nตั้งแต่ 2019 และลึกขึ้นเรื่อยๆ Microsoft ให้:\n\n- การลงทุนมูลค่าหลายพันล้านดอลลาร์แก่ OpenAI LP\n- การโฮสต์บน Azure แบบผูกขาดสำหรับโมเดลของ OpenAI\n- การร่วมทางการตลาดผ่านผลิตภัณฑ์เช่น Bing Chat และ Copilot

สำหรับ OpenAI นี่แก้ปัญหาคอขวดสำคัญ: สามารถสเกลการรันการฝึกบนซูเปอร์คอมพิวเตอร์ AI โดยไม่ต้องสร้างหรือระดมทุนคลาวด์ของตัวเอง\n\nสำหรับ Microsoft นี่เป็นวิธีทำให้ Azure แตกต่างและเติม AI เข้าใน Office, GitHub, Windows, และ Bing เร็วกว่าการสร้างทุกอย่างจากศูนย์

วงจรป้อนกลับ: ผู้ใช้ → ข้อมูล → รายได้ → โมเดลใหญ่ขึ้น

การตัดสินใจทั้งหมด—สเกล, API‑first, แชทผู้บริโภค, พันธมิตรกับ Microsoft—ป้อนเข้าสู่วงจรเสริม:\n\n1. โมเดลที่ดีขึ้น ดึงดูดนักพัฒนาและผู้ใช้\n2. API และ ChatGPT ทำให้ง่ายต่อการรวมหรือทดลอง\n3. การใช้งานสร้างรายได้ ซึ่งเป็นเงินทุนให้การรันการฝึกใหญ่ขึ้นและโครงสร้างพื้นฐานดียิ่งขึ้น\n4. ปฏิสัมพันธ์ในโลกจริง ผลิตข้อมูลคุณค่าสูงสำหรับการปรับจูนและ RLHF\n5. โมเดลที่ดีขึ้น ขับฟีเจอร์ใหม่ (ปลั๊กอิน เครื่องมือ มัลติโมดัล) ดึงดูดผู้ใช้มากขึ้น

OpenAI ไม่ได้มุ่งสู่การตีพิมพ์งานวิจัยที่เพอร์เฟ็กต์ แต่เลือกที่จะสร้างวงจรผสมผสานระหว่างผู้ใช้ ข้อมูล และเงินสด การสเกลไม่ใช่แค่โมเดลที่ใหญ่ขึ้น แต่เป็นการสเกลผู้ใช้ ข้อมูล และกระแสเงินอย่างรวดเร็วพอที่จะผลักดันขอบเขตต่อไป

ช็อกจาก ChatGPT: เมื่อ OpenAI เอาชนะ Google ด้านการปฏิบัติใช้

เมื่อ OpenAI เปิดตัว ChatGPT ในวันที่ 30 พฤศจิกายน 2022 มันดูเหมือนพรีวิววิจัยเรียบง่าย: กล่องแชทธรรมดา ไม่มีการเรียกเก็บ และบล็อกโพสต์สั้น ห้าวันหลังเปิดตัว มีผู้ใช้เกินล้าน ภายในไม่กี่สัปดาห์ โพสต์และตัวอย่างใช้เคสไหลใน Twitter, TikTok, LinkedIn ผู้คนเขียนเรียงความ แก้บั๊กโค้ด ร่างอีเมลทางกฎหมาย และระดมความคิดธุรกิจด้วยเครื่องมือเดียว

ผลิตภัณฑ์ไม่ได้แถลงว่าเป็น “เดโมของโมเดลภาษาบน Transformer” แต่มันบอกเพียง: ถามอะไรได้ ได้คำตอบ ความชัดเจนนี้ทำให้เทคโนโลยีเข้าใจได้ทันทีสำหรับผู้ไม่เชี่ยวชาญ

ช็อกภายใน Google

ภายใน Google ปฏิกิริยาใกล้เคียงกับความตกใจมากกว่าการยกย่อง ผู้นำประกาศ “code red” Larry Page และ Sergey Brin ถูกดึงกลับมาหารือเรื่องผลิตภัณฑ์และกลยุทธ์ ทีมที่ทำงานกับโมเดลสนทนามาหลายปีกลายเป็นเป้าภายใต้การตรวจสอบอย่างเข้มข้น

วิศวกรรู้ว่า Google มีระบบที่ใกล้เคียงกับความสามารถของ ChatGPT โมเดลอย่าง LaMDA, PaLM, และ Meena เคยแสดงการสนทนาและการเหตุผลได้ดีบนเกณฑ์ภายใน แต่พวกมันถูกเก็บไว้หลังตัวกรอง ทดลองภายใน และการอนุมัติที่ซับซ้อน

ภายนอกดูเหมือน Google ถูกทำให้เสียหลัก

ChatGPT กับ LaMDA: เทคโนโลยีใกล้เคียง แต่ผลิตภัณฑ์ต่างกัน

เชิงเทคนิค ChatGPT และ LaMDA เป็นญาติ: โมเดลภาษาใหญ่บน Transformer ที่ปรับจูนสำหรับการสนทนา ช่องว่างหลักไม่ได้อยู่ที่สถาปัตยกรรม แต่เป็นการตัดสินใจด้านผลิตภัณฑ์

OpenAI:\n- ส่งมอบอินเทอร์เฟซเดียวที่ชัดเจน\n- ยอมรับความไม่สมบูรณ์ในที่สาธารณะและวนปรับ\n- ลงทุนหนักใน alignment และ RLHF แล้วเรียนรู้จากบทสนทนาหลายล้านรายการ

Google:\n- เก็บ LaMDA ไว้หลังเดโมที่จำกัด\n- ให้ความสำคัญกับการหลีกเลี่ยงความเสี่ยงและการปกป้องชื่อเสียง\n- ต่อสู้กับการแปลงต้นแบบวิจัยเป็นผลิตภัณฑ์สำหรับผู้บริโภค

การเปิดตัว Bard ที่รีบร้อนและความผิดพลาดต่อสาธารณะ

ภายใต้แรงกดดัน Google ประกาศ Bard ในกุมภาพันธ์ 2023 เดโมพรีวิวพยายามสะท้อนเวทมนตร์การสนทนา แต่หนึ่งในคำตอบสำคัญ—เกี่ยวกับการค้นพบจาก James Webb Space Telescope—ผิด พลาด ข้อผิดพลาดถูกสังเกตในไม่กี่นาทีและมูลค่าตลาดของ Alphabet ตกลงพันล้านในวันเดียว มันเสริมภาพเล่าร้าย: Google มาสาย ประหม่า และพลาด ขณะที่ OpenAI ดูมั่นใจและพร้อม

ความขมขื่นสำหรับพนักงาน Google คือเรื่องตลกขมขื่น Hallucination และความผิดพลาดเชิงข้อเท็จจริงเป็นปัญหาที่รู้กันดีสำหรับโมเดลภาษา ความแตกต่างคือ OpenAI ทำให้ผู้ใช้คุ้นเคยกับสิ่งนี้ผ่านคำเตือนและเฟรมการทดลอง ในขณะที่ Google ห่อ Bard ด้วยแบรนด์หรูหราและล้มบนข้อเท็จจริงพื้นฐาน

ความเร็ว UX และเรื่องเล่า: ขอบ OpenAI ในการปฏิบัติใช้

ความได้เปรียบของ ChatGPT เหนือระบบภายในของ Google ไม่เคยเป็นเพียงโมเดลใหญ่หรืออัลกอริธึมใหม่ แต่เป็นความเร็วในการปฏิบัติใช้และความชัดเจนของประสบการณ์

OpenAI:\n- เปลี่ยนสายงานวิจัยเป็นผลิตภัณฑ์ไวรัลชิ้นเดียว\n- ยอมรับวิธี public beta: “ลองใช้ พัง แล้วบอกเรา”\n- ออกแบบ UX ที่ตรงกับพฤติกรรมของคน: ถาม ตอบ วนปรับ

Google เคลื่อนไหวช้ากว่า มุ่งหาไม่มีข้อผิดพลาด และเปิด Bard เป็นการเปิดตัวแบบหรูหราไม่ใช่เฟสการเรียนรู้ เมื่อ Bard ถึงมือผู้ใช้ ChatGPT กลายเป็นนิสัยรายวันสำหรับนักเรียน ผู้ใช้ความรู้ และนักพัฒนาแล้ว

ความตกใจภายใน Google ไม่ได้เป็นเพียง OpenAI มี AI ดี แต่เป็นองค์กรเล็กกว่าที่เอาไอเดียที่ Google ช่วยคิดขึ้น ห่อเป็นผลิตภัณฑ์ที่ผู้คนธรรมดารัก และนิยามสาธารณชนว่าใครเป็นผู้นำด้าน AI—ในไม่กี่สัปดาห์

วัฒนธรรม แรงจูงใจ และความเสี่ยง: Google เทียบกับ OpenAI

Ship Your First AI Product

เปลี่ยนไอเดียให้เป็นแอปงานได้ผ่านการคุย แล้ววนปรับเหมือนทีมผลิตภัณฑ์

Try Free

Google และ OpenAI เริ่มจากรากฐานทางเทคนิคที่คล้ายกัน แต่พื้นฐานองค์กรต่างกันมาก ความต่างนั้นหล่อหลอมการตัดสินใจเกี่ยวกับระบบแบบ GPT เกือบทั้งหมด

แรงจูงใจ: เครื่องทำเงินกับโหมดอยู่รอด

ธุรกิจหลักของ Google คือ search และ ads เครื่องยนต์นี้ให้เงินสดที่คาดเดาได้มหาศาล แรงจูงใจระดับสูงส่วนใหญ่ผูกอยู่กับการปกป้องมัน

การเปิดตัวโมเดลสนทนาที่ทรงพลังอาจ:\n- ลดจำนวนการแสดงโฆษณา\n- ตอบคำถามโดยไม่ต้องค้นหา\n- และหลอกลวงในแบบที่ทำลายความเชื่อถือ

จึงถูกมองเป็นภัยโดยสัญชาตญาณ การดีฟอลต์คือความระมัดระวัง ทุกผลิตภัณฑ์ใหม่ต้องพิสูจน์ว่ามันจะไม่ทำร้ายการค้นหาหรือความปลอดภัยของแบรนด์

OpenAI ตรงข้าม: ไม่มีเครื่องทำเงินใหญ่ แรงจูงใจคือการส่งมอบโมเดลที่มีค่า ดึงใจนักพัฒนา เซ็นสัญญาคอมพิวต์ใหญ่ และเปลี่ยนงานวิจัยเป็นรายได้ก่อนคนอื่น ความเสี่ยงจากการไม่เปิดตัวมีมากกว่าความเสี่ยงจากการปล่อยเร็วเกินไป

วัฒนธรรม: ความทนต่อความเสี่ยงและความอ่อนไหวต่อ PR

Google เคยเผชิญการสอบสวนด้านการต่อต้านผูกขาด คดีความเป็นส่วนตัว และการกำกับดูแลโลก วัฒนธรรมจึงเป็นแบบ:\n- ทีม PR นโยบาย และกฎหมายมีสิทธิยับยั้งสูง\n- การตรวจสอบความปลอดภัยยาวนานและหลายชั้น\n- มองความเสียหายชื่อเสียงเป็นความเสี่ยงระดับบน

OpenAI ยอมรับว่าโมเดลทรงพลังจะยุ่งในที่สาธารณะ บริษัทเน้นการวนปรับพร้อมชุดการป้องกัน มากกว่ารอบการปรับปรุงภายในยาวๆ ความอดทนต่อความเสี่ยงของผลิตภัณฑ์สูงกว่า

โครงสร้างและความเร็ว: คณะกรรมการ vs การรวมอำนาจตัดสินใจ

ที่ Google การเปิดตัวใหญ่ผ่านคณะกรรมการ การอนุมัติข้ามองค์กร และการต่อรอง OKR ที่ซับซ้อน นั่นชะลอผลิตภัณฑ์ที่ข้ามขอบเขต Search, Ads, Cloud, Android

OpenAI รวมอำนาจไว้ในกลุ่มผู้นำขนาดเล็กและทีมผลิตภัณฑ์โฟกัส การตัดสินใจเกี่ยวกับ ChatGPT ราคา และทิศทาง API ตัดสินได้เร็ว แล้วปรับตามการใช้งานจริง

เมื่อแค่การวิจัยไม่พอ

หลายปี Google ได้เปรียบจากการตีพิมพ์บทความที่ดีที่สุดและฝึกโมเดลที่เหนือกว่า แต่เมื่อผู้อื่นสามารถทำซ้ำงานวิจัยได้ ความได้เปรียบย้ายไปสู่การผสมผสานระหว่างวิจัยและ:\n- การออกแบบผลิตภัณฑ์\n- ประสบการณ์สำหรับนักพัฒนา\n- วงจรป้อนกลับจากข้อมูล\n- ความเร็วในการออกสู่ตลาด

OpenAI ปฏิบัติต่อโมเดลเป็นวัสดุผลิตภัณฑ์: ส่ง API ส่งอินเทอร์เฟซแชท เรียนรู้จากผู้ใช้ แล้วป้อนกลับสู่รุ่นถัดไป

Google ในทางกลับกันเก็บระบบที่มีความสามารถมากเป็นเครื่องมือภายในหรือตัวอย่างแคบๆ หลายปีผ่านไปก่อนจะพยายามแปรเป็นผลิตภัณฑ์เชิงสาธารณะ เมื่อมันพยายามทำเช่นนั้น OpenAI สร้างนิสัย ความคาดหวัง และระบบนิเวศรอบ GPT ไปเรียบร้อยแล้ว

ช่องว่างไม่ใช่เรื่องเข้าใจ Transformers ดีแค่ไหน แต่เป็นเรื่องใครกล้าและสามารถแปลงความรู้นั้นเป็นผลิตภัณฑ์ต่อหน้าผู้คนนับร้อยล้าน

นวัตกรรมเชิงเทคนิค vs นวัตกรรมเชิงผลิตภัณฑ์: ใครทำอะไรบ้าง

Google: เครื่องยนต์ทางเทคนิค

ในด้านเทคนิค Google ยังเป็นกำลังสำคัญ ผลักดันด้านโครงสร้างพื้นฐาน: TPUs เฉพาะทาง เครือข่ายดาต้าเซ็นเตอร์ขั้นสูง และเครื่องมือภายในที่ทำให้การฝึกโมเดลขนาดใหญ่เป็นเรื่องปกติก่อนบริษัทอื่น

นักวิจัยของ Google ผลักดันแนวหน้าด้านสถาปัตยกรรม (Transformers, attention variants, mixture-of-experts, retrieval-augmented models), กฎการสเกล และประสิทธิภาพการฝึก บทความสำคัญของ ML สมัยใหม่จำนวนมากมาจาก Google หรือ DeepMind

แต่นวัตกรรมส่วนใหญ่ยังคงอยู่ในเอกสาร แพลตฟอร์มภายใน และฟีเจอร์ย่อยใน Search, Ads, Workspace แทนที่จะกลายเป็นผลิตภัณฑ์เด่นหนึ่งชิ้น ผู้ใช้เห็นการปรับปรุงเล็กๆ หลายจุดแทน

OpenAI: เครื่องยนต์ผลิตภัณฑ์และแพลตฟอร์ม

OpenAI เลือกเส้นทางต่างออกไป เชิงเทคนิคมันสร้างบนไอเดียที่คนอื่นตีพิมพ์ รวมถึง Google ข้อได้เปรียบของมันคือเปลี่ยนไอเดียนั้นเป็นสายผลิตภัณฑ์ชัดเจน:\n\n- ประสบการณ์นำชิ้นเดียว: ChatGPT, อินเทอร์เฟซที่เข้าใจง่ายและไม่ต้องตั้งค่า\n- แพลตฟอร์มหลัก: API ที่มี endpoints เสถียรและการตั้งราคาที่คาดเดาได้\n- เรื่องราวสำหรับนักพัฒนา: เอกสารดี ตัวอย่าง และภาพจำง่าย—"เรียกโมเดลเหมือนเรียกฟังก์ชัน"\n การห่อหุ้มอย่างรวมศูนย์นี้เปลี่ยนความสามารถดิบของโมเดลเป็นสิ่งที่ผู้คนนำไปใช้ได้ทันที ขณะที่ Google ส่งโมเดลทรงพลังภายใต้แบรนด์และพื้นผิวหลายอย่าง OpenAI มุ่งความสนใจไปที่ชื่อและฟลว์ไม่กี่ย่อย

การกระจายตัวชนะความเป็นผู้นำทางเทคนิคอย่างบริสุทธิ์

เมื่อ ChatGPT โด่งดัง OpenAI ได้สิ่งที่ Google เคยเป็นเจ้าของ: mindshare เริ่มต้น นักพัฒนาทดลองบน OpenAI โดยค่าเริ่มต้น เขียนบทแนะนำกับ API ของมัน และเสนอไอเดียสตาร์ทอัพที่ "สร้างบน GPT" คุณภาพโมเดลถ้ามีช่องว่างก็มีความหมายลดลงเมื่อเทียบกับช่องทางการแจกจ่าย

บทเรียน: ชนะด้านวิทยาศาสตร์ไม่เพียงพอ หากไม่มีผลิตภัณฑ์ ชุดราคา เรื่องราว และทางการผนวกเข้ากับงาน การเป็นเครื่องยนต์วิจัยที่แข็งแรงที่สุดก็ถูกบริษัทโฟกัสแซงได้

หลังการปลุก: Bard, Gemini และการรีเซ็ต AI ของ Google

Make It Feel Real

ทำให้แอปของคุณดูจริงจังโดยวางบนโดเมนเมื่อพร้อมจะสาธารณะ

Add Domain

เมื่อ ChatGPT เปิดเผยความล้มเหลวด้านการปฏิบัติใช้ของ Google บริษัทประกาศ "code red" สาธารณะ ตามด้วยการรีเซ็ตยุทธศาสตร์ AI อย่างรวดเร็ว แม้บางครั้งจะยุ่งเหยิง แต่จริงจัง

จาก Bard มาถึง Gemini: การยอมรับการรีเซ็ต

คำตอบแรกของ Google คือ Bard อินเทอร์เฟซแชทบน LaMDA และต่อมายกระดับด้วย PaLM 2 Bard ให้ความรู้สึกรีบร้อนและระมัดระวังพร้อมกัน: การเข้าถึงจำกัด การเปิดตัวช้า และข้อจำกัดชัดเจน

การรีเซ็ตจริงมาพร้อม Gemini:\n\n- Gemini Ultra, Pro, Nano เป็นตระกูลโมเดลที่ชัดเจนสำหรับคลาวด์ ผู้บริโภค และการใช้บนอุปกรณ์\n- Bard ถูกรีแบรนด์เป็น Gemini (และ Gemini Advanced) เพื่อสื่อการตัดขาดจากยุคทดลอง\n- คำมั่นสาธารณะที่จะทำให้ Gemini เป็นแบรนด์ AI แกนกลางในผลิตภัณฑ์ Google

การเปลี่ยนตำแหน่งนี้ย้าย Google จาก "บริษัทค้นหาที่ทดลองแชทบอท" เป็น "แพลตฟอร์ม AI-first ที่มีตระกูลโมเดลนำ" แม้ว่าการจัดวางจะตามหลัง OpenAI อยู่บ้าง

ผสาน Gemini เข้ากับผลิตภัณฑ์หลักของ Google

จุดแข็งของ Google คือการกระจายตัว จึงมุ่งผสาน Gemini ทุกที่ที่ผู้ใช้อยู่แล้ว:\n\n- Search: Search Generative Experience และ AI Overviews ที่ตอบคำถามโดยตรง ไม่ใช่แค่ลิงก์\n- Workspace: ผู้ช่วย Gemini สำหรับ Gmail, Docs, Sheets, Slides, Meet ในการร่าง สรุป และวิเคราะห์เนื้อหา\n- Android: Gemini เป็นผู้ช่วยระดับระบบ โมดัลหลายรูปแบบ และโมเดล Nano บนอุปกรณ์เพื่อความเป็นส่วนตัว\n- Chrome: ช่วยเขียน จัดแท็บ และฟีเจอร์นักพัฒนาภายในเบราว์เซอร์ที่ขับเคลื่อนโดย Gemini

กลยุทธ์คือ: ถ้า OpenAI ชนะด้านความใหม่และแบรนด์ Google ยังชนะด้าน ตำแหน่งตั้งต้น และการผสานเข้ากับเวิร์กโฟลว์ประจำวันได้แน่นหนา

ความปลอดภัย การกำกับดูแล และการเปิดเผยอย่างมีมาตรฐาน

เมื่อ Google ขยายการเข้าถึง มันพึ่งพาหลักการ AI และท่าทีด้านความปลอดภัยอย่างหนัก:\n\n- red-teaming และการประเมินอย่างเคร่งครัดก่อนปล่อยโมเดลความสามารถสูง\n- เปิดตัวเป็นระยะตามภูมิภาค บางฟีเจอร์ถูกจำกัดตามอายุและประเภทบัญชี\n- ลงทุนในการวิจัย alignment ตัวกรองเนื้อหา และพฤติกรรมปฏิเสธ\n- งาน watermarking และ provenance (เช่น SynthID สำหรับภาพและสื่อ)

การแลกเปลี่ยนคือการมีเกราะมากขึ้นและการทดลองช้าลง เมื่อเทียบกับการวนปรับเร็วของ OpenAI ที่อาจมีข้อผิดพลาดสาธารณะเป็นครั้งคราว

Google ตามทันจริงหรือไม่?

ในแง่คุณภาพโมเดล Gemini Advanced และรุ่นบนสุดของ Gemini ดูเหมือนจะแข่งขันกับ GPT-4 ได้ในหลายเบนช์มาร์กและรายงานจากนักพัฒนา บางงานมัลติโมดัลและการเขียนโค้ด Gemini นำ ในบางงาน GPT-4 ยังคงเป็นมาตรฐาน

ที่ Google ยังตามหลังคือ mindshare และระบบนิเวศ:\n\n- OpenAI ยังคงเป็นตัวเลือกเริ่มต้นสำหรับสตาร์ทอัพและนักวิจัยหลายคน\n- แบรนด์ “ChatGPT” เป็นพจนานุกรมของ AI สำหรับผู้ใช้ทั่วไป\n- API และระบบปลั๊กอินของ OpenAI เติบโตและพัฒนาเร็วกว่า

เครื่องถ่วงดุลของ Google คือการกระจายตัวขนาดมหึมา (Search, Android, Chrome, Workspace) และโครงสร้างพื้นฐานลึก หากแปลงสิ่งนั้นให้เป็นประสบการณ์ AI ที่น่าดึงดูดได้เร็วพอ มันสามารถลดหรือพลิกช่องว่างการรับรู้ได้

อนาคตหลายขั้ว ไม่ใช่การแข่งขันสองม้า

การรีเซ็ตเกิดขึ้นในสนามที่ไม่ใช่แค่ Google vs OpenAI:\n\n- OpenAI: mindshare ผู้บริโภค การวนปรับเร็ว ระบบนิเวศนักพัฒนา\n- Google: โครงสร้างพื้นฐาน ข้อมูล การกระจายตัว และ Gemini ในผลิตภัณฑ์\n- โอเพนซอร์ส (Meta’s Llama, Mistral ฯลฯ): เคลื่อนไหวเร็ว ถูก และดีพอสำหรับหลายกรณี\n- Anthropic และอื่นๆ: แตกต่างด้วยความปลอดภัย ความน่าเชื่อถือ และแนวดิ่งเฉพาะ

การรีเซ็ตของ Google หมายความว่ามันไม่ "พลาด" ช่วง generative อีกต่อไป แต่อนาคตเป็น หลายขั้ว: ไม่มีผู้ชนะเดียวและไม่มีบริษัทเดียวควบคุมทิศทางของนวัตกรรมโมเดลหรือผลิตภัณฑ์

สำหรับผู้สร้าง นั่นหมายถึงการออกแบบกลยุทธ์ที่สมมติผู้ให้บริการหลายราย โมเดลโอเพนซอร์สทรงพลัง และการแซงกันทางเทคนิคบ่อยครั้ง แทนที่จะเดิมพันทุกอย่างบนสแต็ก AI เดียวหรือแบรนด์เดียว

บทเรียนสำคัญสำหรับผู้สร้าง: อย่าทำซ้ำความผิดพลาดของ Google

Google พิสูจน์ว่าคุณสามารถคิดค้นเบรกทรู แล้วยังแพ้คลื่นมูลค่าแรกได้ สำหรับผู้สร้าง จุดสำคัญคือไม่ชมปรากฏการณ์นี้ แต่หาทางไม่ให้มันเกิดกับคุณ

1. ส่งของเป็นผลิตภัณฑ์ อย่าแค่ตีพิมพ์

ถือผลการวิจัยสำคัญเป็น สมมติฐานผลิตภัณฑ์ ไม่ใช่จุดจบ\n\n- ให้เจ้าของผลิตภัณฑ์รับผิดชอบผลการวิจัยใหญ่ทุกชิ้น\n- ในไม่กี่สัปดาห์ กำหนดปัญหาผู้ใช้ที่ชัดเจนและประสบการณ์ v1 แม้จะแคบ\n- ตั้งกำหนดส่งที่ดีฟอลต์คือ: เปิดให้ผู้ใช้จริง แม้จะเป็น 1,000 คน

ถ้าผลการวิจัยสำคัญพอที่จะตีพิมพ์ มันก็ควรพอที่จะทำต้นแบบให้ลูกค้าได้ทดลอง

2. จูนแรงจูงใจให้สอดคล้องกับผลลัพธ์ที่ส่งมอบ

คนทำตามสิ่งที่ได้รางวัล\n\n- ให้การเลื่อนขั้นและเกียรติยศผูกกับผลกระทบต่อผู้ใช้ ไม่ใช่แค่การอ้างอิงหรืองานวิจัยภายใน\n- ชื่นชมทีมข้ามฟังก์ชัน (วิจัย วิศวกรรม ผลิตภัณฑ์ กฎหมาย) ที่ย้ายไอเดียเสี่ยงสู่การผลิต\n- ให้ผู้นำเดี่ยวมีอำนาจทั้งการทดลองและการเปิดตัว เพื่อไม่ให้การตัดสินใจตายที่คณะกรรมการ

3. เดิมพันผลิตภัณฑ์อย่างชัดเจนบนพรอพริมิตีใหม่

Transformers เป็นพรอพริมิตีคอมพิวติ้งใหม่ Google ปฏิบัติต่อมันเป็นการอัพเกรดโครงสร้างพื้นฐาน ส่วน OpenAI ทำเป็นเครื่องยนต์ผลิตภัณฑ์\n\nเมื่อคุณเจอไอเดียวิเคราะห์ลึก:\n\n- ชื่อ 1–2 ผลิตภัณฑ์นำที่จะผลักไอเดียให้ถึงขีดสุด\n- แยกทีมและงบ 12–24 เดือน\n- ยอมรับการทับซ้อนและแข่งกับผลิตภัณฑ์เก่าเมื่อ upside ใหญ่

4. ถ่วงความปลอดภัยกับการเรียนรู้จากโลกจริง

ความกังวลเรื่องแบรนด์และความปลอดภัยมีเหตุผล แต่ใช้มันเป็นข้ออ้างเลื่อนอย่างไม่มีกำหนดไม่ใช่คำตอบ\n\nออกแบบโมเดลความเสี่ยงเป็นชั้นๆ:\n\n- กรณีใช้ความเสี่ยงสูง (สุขภาพ การเงิน เลือกตั้ง) ต้องมีกฎเข้มงวด\n- การทดลองชัดเจนและป้ายบอกชัดสามารถปล่อยได้เร็วภายใต้การเฝ้าดูและ kill-switch\n แทนที่จะรอความแน่นอน สร้างการสัมผัสแบบควบคุม: การเปิดตัวเป็นขั้นตอน การบันทึกที่แข็งแกร่ง เส้นทางย้อนกลับด่วน การ red-teaming และการสื่อสารสาธารณะที่บอกว่าคุณยังเรียนรู้อยู่

5. เป็นเจ้าของแพลตฟอร์มที่คุณเปิดเผย

Google เปิดทางให้คนอื่นสร้างระบบ GPT-style ด้วยการเปิดซอร์สไอเดียและเครื่องมือ แล้วดูคนอื่นสร้างประสบการณ์ ikonic ขึ้น

เมื่อคุณเปิดความสามารถใหม่:\n\n- สร้างผลิตภัณฑ์อ้างอิงที่โชว์เพดานสิ่งที่เป็นไปได้\n- เสนอ API ตอนต้น แต่มีประสบการณ์ first-party ที่คุณวนปรับไม่หยุด\n- ปฏิบัติต่อผู้พัฒนาภายนอกเป็นพันธมิตร ไม่ใช่คนเดียวที่จะค้นพบผู้ใช้

6. สถาบันวิธีการจากกระดาษสู่ผลิตภัณฑ์

คุณไม่สามารถพึ่งพาบุคคลเฉพาะหรือทีมฮีโร่ได้\n\nฝังการเปลี่ยนนี้ไว้ในกระบวนการบริษัท:\n\n- มาตรฐานท่อ: ไอเดีย → เดโมภายใน → เบต้า จำกัด → เปิดทั่วไป\n- ตั้งกลุ่มเฉพาะงานที่แปลงผลงานวิจัยให้เป็นผลิตภัณฑ์หรือ API\n- หมุนเวียนนักวิจัยอาวุโสเข้าสู่บทบาทผู้นำผลิตภัณฑ์ เพื่อให้คนที่เข้าใจความสามารถยังเป็นเจ้าของการประยุกต์

7. ยอมให้เทคโนโลยีของตัวเองเซอร์ไพรส์

ความผิดพลาดใหญ่ของ Google ไม่ใช่การคาดการณ์ AI ผิด แต่เป็นการประเมินต่ำว่าค้นพบของตัวเองจะกลายเป็นอะไรเมื่ออยู่ในมือผู้บริโภค

สำหรับผู้ก่อตั้ง PM และผู้บริหาร มุมมองเชิงปฏิบัติคือ:\n\n- สมมติว่าการค้นพบของคุณมีพื้นผิวการใช้งานมากกว่าที่เห็นจากข้างในอาคาร\n- เอามันให้ผู้ใช้เห็นเร็วพอที่พวกเขาจะแสดงการใช้ที่น่าแปลกใจและมีมูลค่า\n- พร้อมที่จะปรับโร้ดแมปเมื่อการใช้งานเหล่านั้นขัดกับแผนเดิมของคุณ

ความก้าวหน้าต่อไป—ไม่ว่าจะเป็นโมเดล อินเทอร์เฟซ หรือพรอพริมิตีคอมพิวติ้งใหม่ทั้งหมด—จะถูกพาณิชย์โดยทีมที่ยอมเปลี่ยนจาก “เราค้นพบสิ่งนี้” เป็น “เรารับผิดชอบการส่งมอบสิ่งนี้” อย่างรวดเร็ว

บทเรียนจาก Google ไม่ใช่การตีพิมพ์น้อยลงหรือซ่อนงานวิจัย แต่ว่าต้องจับคู่การค้นพบระดับโลกกับการเป็นเจ้าของผลิตภัณฑ์ การตั้งแรงจูงใจที่ชัดเจน และอคติไปทางการเรียนรู้ในที่สาธารณะ องค์กรที่ทำเช่นนั้นจะเป็นเจ้าของคลื่นต่อไป ไม่ใช่แค่เขียนบทความที่เริ่มมัน

คำถามที่พบบ่อย

Google คิดค้น GPT จริงหรือ เป็นการกล่าวเกินจริง?

ไม่ใช่แบบตรงๆ แต่ Google เป็นผู้คิดค้น เทคโนโลยีหลัก ที่ทำให้ GPT เป็นไปได้

นักวิจัยของ Google สร้างสถาปัตยกรรม Transformer ในปี 2017 (“Attention Is All You Need”).
โมเดล GPT (GPT‑1, 2, 3, 4) เป็นหลักแล้ว decoder ของ Transformer ขนาดใหญ่ที่ฝึกในสเกลมหาศาล.
OpenAI ไม่ได้แทนที่ไอเดียของ Google; แต่ ขยายและใส่เป็นผลิตภัณฑ์.

สรุปคือ Google สร้างรากฐานทางปัญญาและโครงสร้างพื้นฐานจำนวนมาก ส่วน OpenAI ชนะคลื่นมูลค่าแรกโดยเปลี่ยนรากฐานนั้นเป็นผลิตภัณฑ์กระแสหลัก (ChatGPT และ API).

ถ้า Google มีเทคโนโลยีหลัก เหตุใดจึงไม่ได้เปิดตัวอะไรเหมือน ChatGPT ก่อน?

Google ให้ความสำคัญกับ การวิจัย โครงสร้างพื้นฐาน และการปรับปรุงการค้นหาแบบค่อยเป็นค่อยไป ขณะที่ OpenAI เลือกที่จะ ส่งมอบผลิตภัณฑ์หนึ่งชิ้นที่กล้าหาญและใช้งานได้ทั่วไป

ความแตกต่างหลัก:

ความแตกต่างที่จับต้องได้ระหว่าง BERT ของ Google กับ GPT ของ OpenAI คืออะไร?

BERT และ GPT ต่างใช้ Transformer แต่ถูกออกแบบให้เหมาะกับ งานคนละแบบ:

ทำไม Google ระมัดระวังมากในการปล่อยแชทบอทสาธารณะที่มีพลัง?

Google เห็นการสร้างข้อความแบบเสรีเป็นความเสี่ยงและยากต่อการสร้างรายได้ภายในโมเดลธุรกิจหลัก

ข้อกังวลหลัก:

แบรนด์และความเชื่อถือ: แชทบอทที่สร้างข้อเท็จจริงผิดภายใต้แบรนด์ Google อาจทำลายความน่าเชื่อถือของ Search
การสร้างข้อความแบบเปิดกว้างอาจผลิตเนื้อหาที่เป็นอันตรายหรือมีอคติ ดึงดูดการตรวจสอบจากหน่วยงานกฎระเบียบและสาธารณะ

OpenAI ทำอะไรแตกต่างจนเปลี่ยนงานวิจัยของ Google ให้เป็นผลิตภัณฑ์ที่ชนะ?

OpenAI ทำการเดิมพันใหญ่สามอย่างและลงมืออย่างต่อเนื่อง:

การสเกลเป็นกลยุทธ์ ไม่ใช่การทดลองข้างเคียง
ผลักดัน Transformer มาตรฐานไปสู่สเกลสุดโต่ง (ข้อมูล, พารามิเตอร์, คำนวณ) โดยอาศัยกฎการสเกลแทนการเปลี่ยนสถาปัตยกรรมบ่อยๆ

เมื่อ ChatGPT เปิดตัว Google ล้าหลังทางความสามารถด้าน AI จริงหรือ?

ไม่ใช่ในแง่ความสามารถของโมเดลล้วนๆ แต่เป็นเรื่องของ ผลิตภัณฑ์และเล่าเรื่อง ที่พลิกการรับรู้ของสาธารณะ

Google มีระบบภายในที่ใกล้เคียงกับ ChatGPT (เช่น LaMDA, PaLM) ก่อนที่ ChatGPT จะเปิดตัว
สิ่งที่น่าแปลกใจคือองค์กรเล็กกว่า:
- เอาเทคโนโลยีพื้นฐานที่ใกล้เคียงกัน
- ห่อหุ้มเป็นผลิตภัณฑ์เดียวที่ไวรัล (ChatGPT)
- ยอมรับความไม่สมบูรณ์ในที่สาธารณะและเรียนรู้อย่างรวดเร็ว

ผลลัพธ์คือการรับรู้สาธารณะเปลี่ยนจาก “Google นำด้าน AI” เป็น “ChatGPT/OpenAI นิยาม AI” ข้อพลาดของ Google คือประเมินต่ำไปว่าผลงานตัวเองจะกลายเป็นอะไรได้เมื่อวางในมือลูกค้าอย่างง่าย

ทำไม ChatGPT ให้ความรู้สึกดีกว่า Bard ของ Google และการตอบสนองอื่นๆ?

ChatGPT เด่นเพราะ การดำเนินการและการตั้งกรอบ มากกว่าการมีอัลกอริธึมเฉพาะตัว

องค์ประกอบสำคัญ:

UX เรียบง่าย: กล่องแชทเดียว ไม่มีการตั้งค่า ความเข้าใจง่าย
ลดแรงต้าน ให้คนทดลองจำนวนมาก

บทเรียนสำคัญจากการเปรียบเทียบ Google กับ OpenAI สำหรับผู้ก่อตั้งและทีมผลิตภัณฑ์คืออะไร?

เรื่องนี้ชี้ให้เห็นวิธีการเปลี่ยนเทคโนโลยีลึกๆ ให้เป็นความได้เปรียบที่ยั่งยืน:

อย่าหยุดแค่กระดาษหรือต้นแบบ. เอาค้นพบเป็นสมมติฐานผลิตภัณฑ์ แล้วนำไปให้ผู้ใช้จริงเร็วๆ

บริษัทขนาดเล็กหรือสตาร์ทอัพจะหลีกเลี่ยงการทำผิดแบบ Google ใน AI ได้อย่างไร?

คุณสามารถทำผิดพลาดแบบ Google ได้ไม่ว่าจะขนาดไหน ถ้า:

ถือการวิจัยเป็นจุดจบแทนที่จะเป็นจุดเริ่มต้นของผลิตภัณฑ์
ให้กระบวนการที่กลัวความเสี่ยงยับยั้งการเปิดตัวเล็กๆ ที่ควบคุมได้
ปรับโครงสร้างองค์กรและ OKR เพื่อปกป้องรายได้เก่าๆ มากกว่าการทดลอง

เพื่อเลี่ยง:

มอบเจ้าของเดียวที่มีอำนาจแปลงค้นพบสำคัญเป็นพายล็อตต่อหน้าผู้ใช้

Google สูญเสียการแข่งขัน AI ให้ OpenAI แบบถาวรหรือยัง หรือกำลังตามทันด้วย Gemini?

Google ยังเป็น แรงขับทางเทคนิค และได้รีเซ็ตอย่างจริงจังด้วย Gemini:

มีตระกูลโมเดลชัดเจน (Ultra, Pro, Nano) และเปลี่ยนชื่อ Bard เป็น Gemini
กำลังผนวก Gemini เข้ากับ Search, Workspace, Android, Chrome ทำให้มีการกระจายตัวมหาศาล
บนบรรดาเกณฑ์บ่อยๆ Gemini อันดับสูงเทียบเคียง GPT‑4 ได้ในหลายพื้นที่

จุดที่ Google ยังตามหลัง: