เรียนรู้ว่า AGI คืออะไร โมเดลภาษาทำงานอย่างไร และเหตุผลสำคัญที่โมเดลข้อความในปัจจุบันอาจไม่มีทางกลายเป็น AGI ที่แท้จริงเพียงแค่การขยายขนาดหรือการปรับแต่ง

ถ้าคุณอ่านข่าวเทค โบรชัวร์นักลงทุน หรือหน้าผลิตภัณฑ์ คุณจะเห็นคำว่า intelligence ถูกขยายความจนเกินจริง แช็ตบ็อตถูกเรียกว่า “เกือบเป็นมนุษย์” ผู้ช่วยเขียนโค้ดกลายเป็น “เหมือนวิศวกรจูเนียร์” และบางคนก็เรียกโมเดลภาษาขนาดใหญ่ที่ทรงพลังว่าเป็นก้าวแรกของ ปัญญาประดิษฐ์ทั่วไป (AGI)
บทความนี้เขียนถึงผู้ที่สงสัย นักก่อตั้ง ผู้นำผลิตภัณฑ์ และผู้อ่านเชิงเทคนิคที่ใช้เครื่องมือต่าง ๆ เช่น GPT-4 หรือ Claude และสงสัยว่า: นี่คือรูปลักษณ์ของ AGI หรือยังขาดอะไรบางอย่างที่สำคัญ?
LLM ทำสิ่งที่น่าประทับใจจริง ๆ พวกมันสามารถ:
ต่อคนทั่วไป นั่นดูแทบไม่ต่างจาก “ความฉลาดทั่วไป” เมื่อโมเดลเขียนเรียงความเกี่ยวกับ Kant แก้ข้อผิดพลาด TypeScript ของคุณ และช่วยร่างบันทึกทางกฎหมายได้ในการสนทนาเดียวกัน ก็เป็นเรื่องธรรมดาที่จะคิดว่าเราใกล้เคียงกับ AGI
แต่สมมติฐานนั้นเทียบเท่าอย่างเงียบ ๆ ระหว่าง การเก่งด้านภาษา กับ การมีสติปัญญาทั่วไป นั่นคือความสับสนหลักที่บทความนี้จะแกะให้เห็นชัด
ข้อโต้แย้งที่จะพัฒนาขึ้นเป็นตอน ๆ คือ:
โมเดลภาษาขนาดใหญ่ในปัจจุบันเป็นผู้เรียนรูปแบบจากข้อความและโค้ดที่มีความสามารถสูง แต่สถาปัตยกรรมและวิธีการฝึกทำให้พวกมัน ไม่น่าจะ กลายเป็น AGI จริง ๆ เพียงแค่เพิ่มขนาดหรือปรับแต่งเล็กน้อย
พวกมันจะดีขึ้นต่อไป กว้างขึ้น และมีประโยชน์มากขึ้น อาจเป็นส่วนหนึ่งของระบบที่ดูคล้าย AGI แต่มีเหตุผลเชิงลึก—เกี่ยวกับการฝังรากในโลก เอเจนซี่ ความจำ รูปร่างกาย และแบบจำลองตนเอง—ที่ชี้ว่า “การเพิ่มขนาด LLM” อาจไม่ใช่เส้นทางเดียวกับ “ความฉลาดทั่วไป”
คาดหวังการพาทัวร์เชิงความเห็น แต่ยึดโยงกับงานวิจัยปัจจุบัน ความสามารถและความล้มเหลวที่จับต้องได้ของ LLM และคำถามเปิดที่นักวิทยาศาสตร์จริงจังกำลังต่อสู้ ไม่ใช่แค่ความชูโรงหรือการปลุกปั่นความกลัว
เมื่อคนพูดถึง AGI พวกเขามักจะไม่ได้หมายถึงสิ่งเดียวกันเสมอไป เพื่อให้การถกเถียงชัดขึ้น ควรแยกแนวคิดแกนกลางบางอย่างออกมา
AI (ปัญญาประดิษฐ์) คือสาขากว้างของการสร้างระบบที่ทำงานที่ต้องการพฤติกรรมที่ดู “ฉลาด”: จำเสียง แนะนำหนัง เล่นเกม Go เขียนโค้ด และอื่น ๆ
สิ่งที่มีอยู่ส่วนใหญ่วันนี้คือ AI แบบแคบ (หรือ weak AI): ระบบที่ออกแบบและฝึกสำหรับชุดงานเฉพาะภายใต้เงื่อนไขเฉพาะ ตัวอย่างเช่น ตัวจำแนกรูปภาพที่แยกแมวกับสุนัข หรือแช็ตบ็อตบริการลูกค้าที่จูนสำหรับคำถามธนาคาร สามารถเก่งมาก ภายใน นิชเหล่านั้น แต่ล้มเหลวอย่างหนักเมื่ออยู่นอกบริบท
ปัญญาประดิษฐ์ทั่วไป (AGI) แตกต่างอย่างมาก มันหมายถึงระบบที่สามารถ:
กฎปฏิบัติ: AGI โดยหลักการอาจเรียนงานที่ต้องใช้สติปัญญาแทบทุกอย่างที่มนุษย์ทำได้ หากมีเวลาและทรัพยากร โดยไม่ต้องออกแบบใหม่สำหรับแต่ละงาน
คำที่เกี่ยวข้องบ่อย ๆ เช่น:
ตรงข้ามกับโมเดลแช็ตและโมเดลรูปภาพสมัยใหม่ที่ยังเป็นแบบแคบ: น่าประทับใจ แต่ถูกปรับให้เหมาะกับรูปแบบข้อมูลเฉพาะ ไม่ใช่ความฉลาดข้ามโดเมนอย่างเปิดกว้าง
ความฝัน AGI สมัยใหม่เริ่มจากข้อเสนอของ Alan Turing ในปี 1950: ถ้าเครื่องสามารถสนทนาเหมือนไม่ต่างจากมนุษย์ (Turing test) จะถือว่าเป็นฉลาดไหม? นั่นกรอบความฉลาดโดยอิงพฤติกรรม โดยเฉพาะภาษาและการให้เหตุผล
จาก 1950s ถึง 1980s นักวิจัยตาม AGI ผ่าน symbolic AI หรือ “GOFAI” (Good Old-Fashioned AI) โดยมองว่าความฉลาดคือการจัดการสัญลักษณ์ตามกฎตรรกะ โปรแกรมพิสูจน์ทฤษฎี เล่นเกม และระบบผู้เชี่ยวชาญทำให้บางคนเชื่อว่าการคิดแบบมนุษย์ใกล้เข้ามาแล้ว
แต่ GOFAI เจอปัญหาในการรับรู้สามัญสำนึก และการจัดการข้อมูลโลกจริงที่ยุ่งเหยิง ระบบแก้ปัญหาเชิงตรรกะได้แต่ล้มเหลวกับงานที่เด็กทำได้ง่าย ช่องว่างนี้นำไปสู่ยุคหนาว AI แรกและมุมมองที่ระมัดระวังขึ้นต่อ AGI
เมื่อข้อมูลและคอมพิวต์เติบโต AI เปลี่ยนจากกฎเขียนด้วยมือเป็นการเรียนจากตัวอย่าง การเรียนเชิงสถิติแล้วตามด้วย deep learning นิยามความก้าวหน้าใหม่: แทนที่จะเข้ารหัสความรู้ ระบบเรียนรูปแบบจากชุดข้อมูลขนาดใหญ่
เหตุการณ์สำคัญเช่น DeepBlue และ AlphaGo ถูกยกย่องเป็นก้าวสู่ความฉลาดทั่วไป แต่ในความจริงแล้วพวกมันถูกออกแบบมาชำนาญเกมเดี่ยวภายใต้กฎตายตัว โดยไม่มีการถ่ายโอนสู่การให้เหตุผลในชีวิตประจำวัน
ซีรีส์ GPT เป็นก้าวกระโดดอีกครั้ง คราวนี้ในภาษา GPT-3 และ GPT-4 สามารถร่างเรียงความ เขียนโค้ด และเลียนแบบสไตล์ ซึ่งกระตุ้นการคาดเดาว่า AGI ใกล้เข้ามาแล้ว
แต่โมเดลเหล่านี้ยังคงเป็นผู้เรียนรูปแบบจากข้อความ พวกมันไม่ตั้งเป้าหมาย สร้างแบบจำลองโลกที่ฝังราก หรือขยายความสามารถด้วยตัวเอง
ในแต่ละคลื่น—symbolic AI, machine learning คลาสสิค, deep learning และตอนนี้คือ LLM—ความฝัน AGI มักถูกฉายไปยังความสำเร็จแคบ ๆ แล้วต้องปรับมุมมองเมื่อข้อจำกัดปรากฏ
โมเดลภาษาขนาดใหญ่เป็นผู้เรียนรูปแบบที่ฝึกบนชุดข้อความมหาศาล: หนังสือ เว็บไซต์ โค้ด ฟอรั่ม และอื่น ๆ เป้าหมายดูเรียบง่ายแต่หลอกตา: ให้ข้อความบางส่วนแล้วทำนายโทเค็นถัดไป
ก่อนฝึก ข้อความจะถูกแบ่งเป็นโทเค็น: อาจเป็นคำเต็ม ("cat"), ชิ้นส่วนคำ ("inter", "esting") หรือแม้แต่เครื่องหมายวรรคตอน ระหว่างการฝึก โมเดลเห็นลำดับเช่น:
"แมวตัวนั้นนั่งบน ___"
และเรียนรู้ที่จะให้ความน่าจะเป็นสูงกับโทเค็นถัดไปที่เป็นไปได้ ("พรม", "โซฟา") และต่ำกับสิ่งที่ไม่สมเหตุสมผล ("ประธานาธิบดี") กระบวนการนี้ เมื่อขยายสู่แทรมของโทเค็นนับล้านล้าน จะสร้างพารามิเตอร์ภายในเป็นพันล้านหรือมากกว่า
ภายใน โมเดลเป็นเพียงฟังก์ชันขนาดใหญ่ที่แปลงลำดับโทเค็นเป็นการแจกแจงความน่าจะเป็นของโทเค็นถัดไป การฝึกใช้ gradient descent เพื่อปรับพารามิเตอร์ให้พยากรณ์แม่นยำขึ้น
"Scaling laws" บรรยายความสม่ำเสมอที่นักวิจัยพบ: เมื่อเพิ่มขนาดโมเดล ขนาดข้อมูล และคอมพิวต์ ประสิทธิภาพมักจะดีขึ้นในทางที่คาดการณ์ได้ โมเดลใหญ่ที่ฝึกด้วยข้อความมากขึ้นมักจะทำนายได้ดีขึ้น—จนถึงขีดจำกัดด้านข้อมูล คอมพิวต์ และความเสถียรการฝึก
LLM ไม่ได้เก็บข้อเท็จจริงแบบฐานข้อมูลหรือให้เหตุผลเหมือนมนุษย์ มันเข้ารหัสความสม่ำเสมอเชิงสถิติ: คำ วลี และโครงสร้างที่มักไปด้วยกันในบริบทต่าง ๆ
มันไม่มีแนวคิดที่ฝังรากกับการรับรู้หรือประสบการณ์ทางกายภาพ LLM พูดถึง "สีแดง" หรือ "ความหนัก" ได้ผ่านวิธีที่คำเหล่านั้นถูกใช้ในข้อความ ไม่ใช่จากการเห็นสีหรือยกของจริง
นี่คือสาเหตุที่โมเดลฟังดูรู้เรื่องแต่ยังทำผิดพลาดอย่างมั่นใจ: มันกำลังขยายรูปแบบ ไม่ใช่ปรึกษาแบบจำลองความจริงโดยตรง
Pre-training คือระยะเริ่มต้นยาว ๆ ที่โมเดลเรียนรูปแบบภาษาโดยการทำนายโทเค็นถัดไปบนโคเปอร์สขนาดใหญ่ นี่คือที่ที่ความสามารถส่วนใหญ่ปรากฏ
หลังจากนั้น fine-tuning ปรับโมเดลที่ผ่านการฝึกให้เข้ากับเป้าหมายแคบ ๆ: ทำตามคำสั่ง เขียนโค้ด แปล หรือช่วยในโดเมนเฉพาะ โมเดลถูกแสดงตัวอย่างพฤติกรรมที่ต้องการและปรับเล็กน้อย
Reinforcement learning from human feedback (RLHF) เพิ่มชั้นอีกชั้น: มนุษย์ให้คะแนนหรือเปรียบเทียบผลลัพธ์ของโมเดล แล้วโมเดลถูกปรับเพื่อผลิตคำตอบที่คนชอบมากกว่า (เช่น เป็นประโยชน์น้อยลงเป็นอันตรายน้อยลง ซื่อสัตย์ขึ้น) RLHF ไม่ได้ให้ประสาทสัมผัสใหม่หรือความเข้าใจลึกขึ้น มันปรับรูปแบบการนำเสนอและการกรองสิ่งที่เรียนมาแล้ว
รวมกัน ขั้นตอนเหล่านี้สร้างระบบที่เก่งมากในการสร้างข้อความลื่นไหลโดยอาศัยรูปแบบเชิงสถิติ—โดยไม่มีความเข้าใจที่ฝังราก เป้าหมาย หรือการรับรู้
โมเดลภาษาขนาดใหญ่ดูน่าประทับใจเพราะทำงานหลากหลายที่เคยดูเป็นเรื่องไกลเกินเอื้อมสำหรับเครื่อง
LLM สามารถสร้างสกินโค้ดใช้งานได้ รีแฟคเตอร์โค้ดที่มีอยู่ และอธิบายไลบรารีที่ไม่คุ้นเคยเป็นภาษาธรรมดา สำหรับนักพัฒนาบางคน พวกมันทำงานเป็นคู่โปรแกรมเมอร์ที่มีประสิทธิภาพ: แนะนำกรณีมุม จับบั๊กชัด ๆ และสร้างโครงโมดูลทั้งชุด
พวกมันยังเก่งเรื่องสรุป ถ้าให้รายงาน งานวิจัย หรือเธรดอีเมลยาว ๆ LLM สามารถย่อเป็นประเด็นสำคัญ ชี้รายการที่ต้องทำ หรือปรับโทนให้เหมาะกับผู้ฟังต่างกันได้
การแปลก็เป็นจุดแข็ง โมเดลสมัยใหม่รองรับหลายภาษา มักจับโทนและระดับภาษาได้พอสมควรสำหรับการสื่อสารระดับมืออาชีพทั่วไป
เมื่อโมเดลขยายความสามารถใหม่ ๆ ดูเหมือนจะปรากฏขึ้น "จากที่ว่าง": แก้ปริศนาเชิงตรรกะ ผ่านข้อสอบระดับมืออาชีพ หรือตามคำสั่งหลายขั้นตอนที่รุ่นก่อนทำไม่ได้ ในดัชนีมาตรฐาน—ปัญหาคณิตศาสตร์ คำถามบาร์เอกซ์แอม ใบสอบการแพทย์—LLM ชั้นนำตอนนี้ทำคะแนนได้เทียบหรือเกินค่าเฉลี่ยมนุษย์
พฤติกรรมเหล่านี้ชวนให้คนพูดว่าโมเดลกำลัง "ให้เหตุผล" หรือ "เข้าใจ" เหมือนมนุษย์ กราฟประสิทธิภาพและการจัดอันดับเสริมความคิดว่าเราใกล้ AGI
LLM ถูกฝึกให้ต่อข้อความในแบบที่สอดคล้องกับรูปแบบในข้อมูล วัตถุประสงค์การฝึกนี้ บวกกับการขยายขนาดเพียงพอ ทำให้พวกมันเลียนแบบความเชี่ยวชาญและเอเจนซี่: พูดมั่นใจ จำบริบทระหว่างเซสชัน และให้เหตุผลประกอบคำตอบด้วยถ้อยคำลื่นไหล
แต่นี่คือภาพลวงตาของความเข้าใจ โมเดลไม่รู้ว่าโค้ดจะทำงานอย่างไรเมื่อรันจริง ไม่รู้ว่าการวินิจฉัยทางการแพทย์หมายถึงอะไรสำหรับคนไข้ หรือการกระทำทางกายภาพใดจะเกิดขึ้นตามแผน มันไม่มีการฝังรากในโลกนอกข้อความ
การทำคะแนนดีในข้อสอบ—แม้ข้อสอบออกแบบมาสำหรับมนุษย์—ไม่ได้เท่ากับ AGI มันแสดงว่าการเรียนรูปแบบจากข้อความจำนวนมหาศาลสามารถประมาณทักษะเฉพาะหลายอย่างได้ แต่ไม่ใช่สติปัญญาแบบเปิดกว้าง ฝังราก และข้ามโดเมนตามที่ AGI มักจะต้องการ
LLM เป็นผู้ทำนายข้อความที่ยอดเยี่ยม แต่การออกแบบแบบนี้เองก็สร้างขีดจำกัดที่แข็งแกร่ง
LLM ไม่เห็น ไม่ได้ยิน เคลื่อนไหว หรือจัดการวัตถุ ช่องทางติดต่อโลกของมันมีเพียงข้อความ (และในบางโมเดลใหม่ อาจรวมภาพนิ่งหรือคลิปสั้น ๆ) มันไม่มีสตรีมความรู้สึกต่อเนื่อง ไม่มีร่างกาย และไม่มีวิธีลงมือแล้วสังเกตผล
ถ้าไม่มีเซนเซอร์และการมีรูปร่าง ก็มิอาจสร้างแบบจำลองโลกที่ฝังรากและอัปเดตอย่างต่อเนื่อง คำอย่าง "หนัก" "เหนียว" หรือ "เปราะ" เป็นเพียงเพื่อนร่วมข้อความ ไม่ใช่ข้อจำกัดที่ประสบด้วยตัวเอง นั่นทำให้สามารถเลียนแบบความเข้าใจได้อย่างน่าประทับใจ แต่จำกัดการเรียนรู้จากการโต้ตอบโดยตรง
เพราะ LLM ถูกฝึกให้ต่อคำ มันผลิตการเติมที่สอดคล้องกับรูปแบบที่เรียนมา ไม่ใช่สิ่งที่เป็นความจริง เมื่อข้อมูลบางด้านบางเบาหรือขัดแย้ง มันจะเติมช่องว่างด้วยการประดิษฐ์ที่ฟังดูมีเหตุผล
โมเดลยังขาดสถานะความเชื่อยั่งยืน ตอบแต่ละครั้งถูกสร้างขึ้นใหม่จาก prompt และน้ำหนัก ไม่มีบัญชีภายในคงที่ของ "ข้อเท็จจริงที่ฉันถือ" ฟีเจอร์หน่วยความจำระยะยาวมักต่อเติมเป็นที่เก็บภายนอก แต่ระบบแกนกลางไม่บำรุงหรือทบทวนความเชื่อแบบมนุษย์
การฝึก LLM เป็นกระบวนการออฟไลน์ที่ต้องใช้ทรัพยากรมาก การอัปเดตความรู้ของมันมักหมายถึงการฝึกซ้ำหรือการปรับแต่งบนชุดข้อมูลใหม่ ไม่ใช่การเรียนรู้จากการโต้ตอบทีละขั้นอย่างลื่นไหล
ข้อนี้จำกัดสำคัญ: โมเดลไม่สามารถติดตามการเปลี่ยนแปลงรวดเร็วในโลก ปรับแนวคิดจากประสบการณ์ต่อเนื่อง หรือแก้ความเข้าใจผิดเชิงลึกผ่านการเรียนรู้ทีละขั้นได้อย่างเชื่อถือได้ ที่ดีที่สุด มันอาจจำลองการปรับตัวโดยการเรียบเรียงผลลัพธ์ใหม่ตาม prompt หรือเครื่องมือที่แนบมา
LLM ถนัดจับรูปแบบเชิงสถิติ: คำไหนปรากฏด้วยกันบ่อย ประโยคไหนตามมาหลังอีกประโยค ผลลัพธ์แบบไหนดูเหมือนคำอธิบาย
แต่นั่นไม่เหมือนกับการเข้าใจว่าทำไมโลกเป็นอย่างที่เป็น ความเข้าใจเชิงสาเหตุเกี่ยวข้องกับการตั้งสมมติฐาน การแทรกแซง สังเกตการเปลี่ยนแปลง และอัปเดตแบบจำลองภายในเมื่อการทำนายล้มเหลว ระบบทำนายข้อความล้วน ๆ ไม่มีวิธีตรงในการแทรกแซงหรือสัมผัสความประหลาดใจ มันอธิบายการทดลองได้แต่ไม่สามารถลงมือทำ
ตราบใดที่ระบบถูกจำกัดให้ทำนายข้อความจากข้อความในอดีต มันยังคงเป็นผู้เรียนรูปแบบ สำเนาเหตุผล เล่าเหตุผล และแสร้งทำเป็นทบทวนมุมมอง แต่ไม่ได้อาศัยอยู่ในโลกที่ "ความเชื่อ" ถูกทดสอบด้วยผลลัพธ์ ช่องว่างนี้เป็นจุดศูนย์กลางว่าทำไมความชำนาญด้านภาษามาก ๆ เพียงอย่างเดียวไม่น่าจะพาไปสู่ AGI
ภาษาเป็นอินเทอร์เฟซที่ทรงพลังต่อความฉลาด แต่มันไม่ใช่เนื้อแท้ของความฉลาดเอง ระบบที่ทำนายประโยคที่เป็นไปได้แตกต่างอย่างมากจากเอเจนต์ที่เข้าใจ วางแผน และลงมือทำในโลก
มนุษย์เรียนรู้แนวคิดโดยการเห็น สัมผัส เคลื่อนไหว และจัดการ "ถ้วย" ไม่ใช่แค่การเห็นคำว่า "cup" ในประโยค เพียงอย่างเดียว นักจิตวิทยาเรียกสิ่งนี้ว่า การฝังราก (grounding): แนวคิดเชื่อมโยงกับการรับรู้และการกระทำ
AGI จะต้องการการฝังรากเช่นนี้ เพื่อจะทั่วไปได้อย่างเชื่อถือ มันต้องเชื่อมสัญลักษณ์ (คำหรือการแทนภายใน) กับความสม่ำเสมอในโลกทางกายภาพและสังคม
LLM มาตรฐานเรียนจากข้อความเท่านั้น ความ "เข้าใจ" ของมันต่อถ้วยเป็นสถิติ: ความสัมพันธ์ระหว่างคำในประโยคพันล้าน สิ่งนี้มีประโยชน์สำหรับการสนทนาและการเขียนโค้ด แต่เปราะบางเมื่อนำไปใช้ในบริบทที่ต้องการการโต้ตอบโดยตรงกับความเป็นจริง
ความฉลาดทั่วไปยังเกี่ยวข้องกับความต่อเนื่องในเวลา: ความจำระยะยาว เป้าหมายถาวร และความชอบคงที่ มนุษย์สะสมประสบการณ์ แก้ไขความเชื่อ และไล่ตามโครงการเป็นเดือนหรือปี
LLM ไม่มีหน่วยความจำถาวรในตัวและไม่มีเป้าหมายภายในใด ๆ ความต่อเนื่องหรือ "บุคลิก" ต้องต่อเติมด้วยเครื่องมือภายนอก (ฐานข้อมูล โปรไฟล์ system prompts) โดยปกติแต่ละคำถามเป็นการจับคู่รูปแบบใหม่ ไม่ใช่ก้าวในประวัติชีวิตที่สอดคล้องกัน
AGI มักถูกนิยามว่าเป็นความสามารถแก้ปัญหาในงานหลากหลาย รวมถึงงานใหม่ ๆ โดยการคิดเกี่ยวกับสาเหตุและผลและการแทรกแซงสภาพแวดล้อม ซึ่งหมายถึง:
LLM ไม่ใช่เอเจนต์ มันสร้างโทเค็นถัดไป มัน สามารถ อธิบายแผนหรือพูดถึงสาเหตุได้เพราะรูปแบบเหล่านี้มีในข้อความ แต่โดยเนื้อแท้มันไม่ลงมือทำ สังเกตผล และปรับแบบจำลองภายใน
การเปลี่ยน LLM ให้กลายเป็นระบบที่ลงมือทำ จำเป็นต้องห่อมันด้วยองค์ประกอบภายนอกสำหรับการรับรู้ ความจำ การใช้เครื่องมือ และการควบคุม โมเดลภาษายังคงเป็นโมดูลชาญฉลาดสำหรับเสนอและประเมิน ไม่ใช่เอเจนต์ที่มีสติปัญญาในตัว
โดยสรุป ความฉลาดทั่วไปต้องการแนวคิดที่ฝังราก แรงจูงใจต่อเนื่อง แบบจำลองเชิงสาเหตุ และการโต้ตอบปรับตัวกับโลก การชำนาญด้านภาษา—แม้จะมีประโยชน์อย่างมาก—เป็นเพียงส่วนหนึ่งของภาพกว้าง
เมื่อคนคุยกับโมเดลที่คล่อง มันรู้สึกเป็นธรรมดาที่คิดว่ามีจิตใจอยู่ข้างหลัง ภาพลวงตานี้แข็งแรง แต่เป็นเพียงภาพลวงตา
นักวิจัยแบ่งกันว่าความฉลาดทั่วไปจำเป็นต้องมีจิตสำนึกหรือไม่
ยังไม่มีทฤษฎีที่ทดสอบได้มาสรุป ดังนั้นยังเร็วเกินไปที่จะประกาศว่า AGI ต้องมีหรือไม่ต้องมีจิตสำนึก สิ่งที่สำคัญตอนนี้คือชัดเจนเกี่ยวกับสิ่งที่ LLM ขาด
โมเดลภาษาขนาดใหญ่เป็นผู้ทำนายโทเค็นตามสแนปช็อตของข้อความ มันไม่มีตัวตนคงที่ข้ามเซสชันหรือแม้แต่ข้ามรอบ ตรงไปตรงมานอกจากจะถูกเข้ารหัสใน prompt และบริบทระยะสั้น
เมื่อ LLM พูดว่า "ฉัน" มันเพียงทำตามนิยามทางภาษา ไม่ได้อ้างถึงผู้มีชีวิตภายใน
สิ่งมีสติสัมผัสมีประสบการณ์: รู้สึกเจ็บ เบื่อ อยากรู้อยากเห็น พอใจ พวกเขายังมีแรงจูงใจภายใน—สิ่งที่สำคัญกับพวกเขาเองโดยไม่ต้องรางวัลจากภายนอก
LLM ในทางตรงกันข้าม:
พฤติกรรมของพวกมันเป็นผลจากการจับคู่รูปแบบ ไม่ใช่การแสดงออกของชีวิตภายใน
เพราะภาษาคือหน้าต่างหลักสู่จิตใจอื่น ๆ บทสนทนาที่ราบรื่นทำให้เชื่อว่ามีบุคคลอยู่เบื้องหลัง แต่กับ LLM นี่แหละจุดที่เราหลงทางได้ง่าย
การเหมารวมมนุษย์ให้ระบบนี้อาจ:
การปฏิบัติต่อ LLM เหมือนคนทำให้เส้นแบ่งระหว่างการจำลองกับความเป็นจริงพร่ามัว เพื่อคิดอย่างชัดเจนเกี่ยวกับ AGI และความเสี่ยง AI ปัจจุบัน เราต้องจำไว้ว่าการแสดงบุคลิกอย่างแนบเนียนไม่เท่ากับการเป็นบุคคลจริง
ถ้าเราสร้าง AGI ขึ้นมา เราจะรู้ได้อย่างไรว่านั่นคือของจริง ไม่ใช่แช็ตบ็อตที่เก๋ไก๋มาก?
แบบทดสอบสไตล์ Turing.
แบบทดสอบ Turing แบบคลาสสิกและสมัยใหม่ถามว่า: ระบบสามารถสนทนาเหมือนมนุษย์จนคนหลงเชื่อได้ไหม? LLM ทำได้ดีในด้านนี้แล้ว จึงแสดงว่ามาตรฐานนี้ต่ำเกินไป การวัดทักษะการแช็ตวัดสไตล์ ไม่ใช่ความลึกของความเข้าใจ การวางแผน หรือความสามารถในโลกจริง
การประเมินแบบ ARC-style.
งานที่ได้แรงบันดาลใจจาก Alignment Research Center (ARC) มุ่งทดสอบปัญหาการให้เหตุผลใหม่ ๆ คำสั่งหลายขั้นตอน และการใช้เครื่องมือ พวกมันตรวจสอบว่าระบบแก้ปัญหาที่ไม่เคยเห็นได้ไหมโดยการประกอบทักษะใหม่ ๆ LLM ทำงานบางอย่างได้—แต่บ่อยครั้งต้องการ prompt ที่ออกแบบอย่างระมัดระวัง เครื่องมือภายนอก และการดูแลของมนุษย์
การทดสอบเอเจนซี่.
การทดสอบแบบ "เอเจนต์" เสนอว่าระบบสามารถติดตามเป้าหมายเปิด ๆ ตลอดเวลา แบ่งเป็นเป้าย่อย ปรับแผน รับมือการรบกวน และเรียนรู้จากผลลัพธ์ได้ไหม เอเจนต์ที่สร้างด้วย LLM อาจดูมีเอเจนซี่ แต่เบื้องหลังขึ้นกับสคริปต์เปราะบางและการรองรับของมนุษย์
เพื่อถือเป็น AGI เราอยากเห็นอย่างน้อย:
อิสระ. ตั้งและจัดการเป้าหมายย่อย ตรวจสอบความคืบหน้า และฟื้นตัวจากความล้มเหลวโดยไม่มีมนุษย์คอยชี้นำ
การถ่ายโอนข้ามโดเมน. ทักษะที่เรียนในพื้นที่หนึ่งควรนำไปใช้ในพื้นที่ที่ต่างกันได้อย่างราบรื่นโดยไม่ต้องฝึกใหม่มาก
ความสามารถในโลกจริง. วางแผนและลงมือในสภาพแวดล้อมที่ยุ่งและไม่แน่นอน—ทั้งทางกายภาพ สังคม และดิจิทัล—ที่กฎไม่สมบูรณ์และผลลัพธ์มีความหมายจริง
LLM แม้ห่อในกรอบเอเจนต์โดยทั่วไป:
การผ่านการทดสอบการแช็ตหรือชุดดัชนีจำเพาะยังไม่เพียงพอ การรู้จัก AGI จริงต้องดูไปไกลกว่าคุณภาพการสนทนาไปสู่ความเป็นอิสระอย่างยั่งยืน การถ่ายโอนข้ามโดเมน และการลงมือที่เชื่อถือได้ในโลก—ซึ่ง LLM ปัจจุบันยังต้องการหลักค้ำจุนจำนวนมากเพื่อให้ได้ผลบางส่วนที่เปราะบาง
ถ้าเราเอา AGI อย่างจริงจัง "โมเดลข้อความขนาดใหญ่" เป็นเพียงส่วนประกอบหนึ่ง ไม่ใช่ระบบสำเร็จรูป งานวิจัยส่วนใหญ่ที่ฟังดูว่า "มุ่งสู่ AGI" แท้จริงคือการห่อ LLM เข้าไปในสถาปัตยกรรมที่ร่ำรวยขึ้น
ทิศทางหนึ่งคือเอเจนต์ที่มี LLM: ระบบใช้ LLM เป็นแกนการให้เหตุผลและวางแผน แต่ล้อมรอบด้วย:
ที่นี่ LLM หยุดเป็น "ความฉลาดทั้งหมด" และกลายเป็นอินเทอร์เฟซภาษาที่ยืดหยุ่นในเครื่องจักรตัดสินใจที่กว้างกว่า
ระบบใช้เครื่องมือให้ LLM เรียกใช้งานเครื่องมือค้นหา ฐานข้อมูล ตัวตีความโค้ด หรือ API เฉพาะทาง ช่วยให้มัน:
การต่อเชื่อมแบบนี้แก้บางจุดอ่อนของการเรียนจากข้อความเพียงอย่างเดียว แต่ปัญหาเปลี่ยนเป็น: ความฉลาดโดยรวมขึ้นกับการประสานงานและการออกแบบเครื่องมือ ไม่ใช่แค่โมเดล
เส้นทางอีกอันคือ โมเดลหลายสื่อ ที่ประมวลผลข้อความ รูปภาพ เสียง วิดีโอ และบางครั้งข้อมูลเซนเซอร์ พวกมันใกล้เคียงกับวิธีที่มนุษย์รวมการรับรู้และภาษา
ก้าวไปอีกขั้นคือ LLM ควบคุม หุ่นยนต์ หรือร่างจำลอง ระบบเหล่านี้สามารถสำรวจ ลงมือ และเรียนรู้จากฟีดแบ็กทางกายภาพ แก้บางช่องว่างเกี่ยวกับสาเหตุและความเข้าใจที่ฝังราก
แนวทางทั้งหมดนี้อาจพาเรา เข้าใกล้ ความสามารถแบบ AGI แต่ก็เปลี่ยนเป้าหมายการวิจัย เราไม่ถามอีกต่อไปว่า “LLM เดียวจะเป็น AGI ได้ไหม?” แต่ถามว่า “ระบบซับซ้อนที่รวม LLM เครื่องมือ ความจำ การรับรู้ และการมีรูปร่าง จะเลียนแบบความฉลาดทั่วไปได้ไหม?”
ความต่างนี้สำคัญ LLM เป็นผู้ทำนายข้อความที่ทรงพลัง AGI—ถ้าเป็นไปได้จริง—จะเป็นระบบบูรณาการทั้งระบบ โดยที่ภาษาคือส่วนหนึ่งเท่านั้น
เรียกโมเดลภาษาขนาดใหญ่ว่า “AGI” ไม่ใช่แค่ปัญหาทางศัพท์ มันบิดเบือนแรงจูงใจ สร้างจุดบอดด้านความปลอดภัย และทำให้ผู้ตัดสินใจสับสน
เมื่อเดโมถูกกรอบว่าเป็น “AGI ยุคแรก” ความคาดหวังพุ่งเกินกว่าความสามารถจริง ค่าเสียหายของการโฆษณาชวนเชื่อมีหลายด้าน:
ถ้าผู้ใช้คิดว่าพวกเขากำลังพูดกับบางสิ่งที่ "ทั่วไป" หรือ "เกือบมนุษย์" พวกเขามักจะ:
ความเชื่อมั่นมากเกินไปทำให้บักธรรมดาและข้อผิดพลาดอันตรายยิ่งขึ้น
ผู้กำกับดูแลและสาธารณชนมีปัญหาในการติดตามความสามารถของ AI เมื่อทุก autocomplete ที่แข็งแกร่งถูกตลาดว่าเป็น AGI เกิดปัญหาตามมา:
คำที่ชัดเจน—LLM, โมเดลแคบ, ทิศทางวิจัย AGI—ช่วยปรับความคาดหวังให้เป็นจริง ความชัดเจนเกี่ยวกับความสามารถและข้อจำกัด:
LLM เป็นเครื่องจักรทำนายรูปแบบที่ยอดเยี่ยม: บีบอัดข้อความจำนวนมากเป็นโมเดลสถิติและทำนายการต่อไป นั่นทำให้มันทรงพลังในการช่วยเขียน แก้โค้ด สำรวจข้อมูล และพัฒนาต้นแบบแนวคิด แต่สถาปัตยกรรมนี้ยังคงแคบ มันไม่ให้ตัวตนถาวร ความเข้าใจที่ฝังราก เป้าหมายระยะยาว หรือการเรียนรู้ข้ามโดเมนที่ยืดหยุ่นซึ่งนิยาม AGI
LLM:
ข้อจำกัดเชิงโครงสร้างเหล่านี้คือเหตุผลที่การขยายโมเดลข้อความอย่างเดียวไม่น่าจะให้ AGI จริง คุณอาจได้ความคล่องแคล่ว ความจำข้อมูลที่ดีขึ้น และการจำลองการให้เหตุผลที่น่าประทับใจ—แต่ไม่ใช่ระบบที่รู้ ต้องการ หรือใส่ใจจริง
ใช้ LLM ในงานที่การทำนายรูปแบบให้ผลดี เช่น:
ให้มนุษย์อยู่ในวงสำหรับ:
ปฏิบัติต่อผลลัพธ์เป็นสมมติฐานที่ต้องตรวจสอบ ไม่ใช่ความจริงที่เชื่อได้
เรียก LLM ว่า "AGI" บดบังข้อจำกัดจริงและชวนให้พึ่งพาเกินไป ทำให้สับสนด้านกฎเกณฑ์ และกระตุ้นความหวาดกลัวที่ไม่จำเป็น เห็นพวกมันเป็นผู้ช่วยขั้นสูงที่ฝังในงานของมนุษย์จะซื่อสัตย์และปลอดภัยกว่า
ถ้าคุณอยากวิเคราะห์การใช้งานและการค้าขายเชิงปฏิบัติ ลองดูบทความอื่น ๆ ในบล็อกของเรา สำหรับรายละเอียดการจัดแพ็กเกจและการตั้งราคา ดูหน้าราคาและรายละเอียดการให้บริการของเรา
AGI (Artificial General Intelligence) หมายถึงระบบที่สามารถ:
กฎคร่าว ๆ คือ AGI ควรจะสามารถเรียนงานที่ต้องใช้สติปัญญาได้เกือบทุกงานที่มนุษย์ทำได้ โดยไม่ต้องออกแบบสถาปัตยกรรมเฉพาะสำหรับแต่ละงาน
โมเดลภาษาขนาดใหญ่ปัจจุบัน:
พวกมันสามารถ จำลอง ความรู้และการให้เหตุผลได้เพราะภาษาบรรจุความเชี่ยวชาญของมนุษย์มากมาย แต่:
เหตุผลที่คนมักสับสน LLM กับ AGI คือ:
ทั้งหมดนี้สร้าง ภาพลวงตา ของความเข้าใจและความมีเจตนา แต่เบื้องหลังยังเป็นแค่การทำนายข้อความตามรูปแบบในข้อมูล ไม่ใช่การสร้างแบบจำลองโลกที่มีเหตุผลเชิงสาเหตุเพื่อไล่ตามเป้าหมายของตัวเอง
คิดง่าย ๆ ว่า LLM คือ:
ประเด็นสำคัญ:
LLM เก่งเมื่อภารกิจคือการทำนายรูปแบบข้อความหรือโค้ด เช่น:
พวกมันมีปัญหาเมื่อภารกิจต้องการ:
“กฎการขยายขนาด” แสดงว่าเมื่อเพิ่มขนาดโมเดล ข้อมูล และคอมพิวต์ ประสิทธิภาพบนหลายดัชนีจะดีขึ้น แต่การขยายขนาดเพียงอย่างเดียวไม่แก้ช่องว่างเชิงโครงสร้าง เช่น:
การขยายขนาดให้:
แต่มันไม่ทำให้เกิดความฉลาดทั่วไปที่เป็นอิสระในทันที ต้องมีส่วนประกอบสถาปัตยกรรมและการออกแบบระบบใหม่ๆ เพิ่มเติม
ใช้ LLM ให้เป็นผู้ช่วย ไม่ใช่ผู้เชี่ยวชาญอ้างอิง:
ออกแบบระบบเพื่อให้โมเดลเสริมการตัดสินใจของมนุษย์ แทนการทดแทน มีเส้นทางการยกระดับเมื่อโมเดลไม่แน่ใจหรือผิดพลาด และสื่อสารข้อจำกัดของโมเดลให้ผู้ใช้เข้าใจ
การเรียก LLM ว่า “AGI” มีความเสี่ยงหลายอย่าง:
ภาษาที่แม่นยำกว่า—เช่น “LLM”, “โมเดลเฉพาะทาง”, “ระบบที่ใช้ LLM”—ช่วยปรับความคาดหวังให้สอดคล้องกับความเสี่ยงและความสามารถจริง
การพิสูจน์ว่าเป็น AGI ควรไปไกลกว่าแค่การคุยเก่ง เราน่าจะต้องเห็น:
LLM ปัจจุบัน แม้จะถูกห่อด้วยกรอบเอเจนต์ ต้องพึ่งสคริปต์และการรวมเครื่องมือจากมนุษย์มาก และยังขาดความแข็งแกร่งและทั่วไปที่ต้องการ
นักวิจัยสำรวจเส้นทางที่ LLM เป็นเพียงส่วนประกอบของระบบที่ใหญ่กว่า เช่น:
แนวทางเหล่านี้เพิ่มการฝังราก ความเข้าใจเชิงสาเหตุ และสถานะต่อเนื่อง แต่คำถามเปลี่ยนเป็น: “ระบบซับซ้อนที่รวม LLM จะเลียนแบบพฤติกรรมแบบ AGI ได้หรือไม่?” แทนที่จะถามว่า LLM เดียวจะเป็น AGI ได้ไหม
ดังนั้น LLM จึงเป็นผู้เรียนแบบแคบผ่านรูปแบบภาษา ไม่ใช่เอเจนต์ที่มีสติปัญญาทั่วไป
ทุกอย่างที่ดูเหมือนการให้เหตุผลหรือความจำเกิดขึ้นจากวัตถุประสงค์ทำนายโทเค็นและการปรับขนาด/การปรับแต่ง ไม่ใช่ตรรกะเชิงสัญลักษณ์หรือคลังความเชื่อถาวร
ในบริบทเหล่านี้ ควรใช้มนุษย์ควบคุมเข้มแข็งและเครื่องมือตรวจสอบภายนอก