AGI คืออะไร และทำไม LLM อาจไม่บรรลุมันอย่างแท้จริง

Q: ทำไมโมเดลภาษาในปัจจุบันถึงไม่ถือเป็น AGI?

โมเดลภาษาขนาดใหญ่ปัจจุบัน: - ฝึกจากข้อความเป็นหลัก (บางครั้งรวมโค้ดหรือภาพ/เสียงด้วย) - ถูกออกแบบมาให้ทำนายโทเค็นถัดไปในลำดับข้อความ - ขาดการรับรู้ผ่านประสาทสัมผัส ร่างกาย เป้าหมายภายใน และความจำถาวร พวกมันสามารถ จำลอง ความรู้และการให้เหตุผลได้เพราะภาษาบรรจุความเชี่ยวชาญของมนุษย์มากมาย แต่: - ไม่ได้มีแนวคิดที่ฝังกับประสบการณ์จริงในโลก - ไม่รักษาความเชื่อที่เปลี่ยนไปตามเวลา - ไม่สามารถวางแผนและลงมือทำอย่างอิสระข้ามช่วงเวลายาวๆ ดังนั้น LLM จึงเป็นผู้เรียนแบบแคบผ่านรูปแบบภาษา ไม่ใช่เอเจนต์ที่มีสติปัญญาทั่วไป

Q: ทำไมคนจำนวนมากถึงคิดว่า LLM จะเป็น AGI?

เหตุผลที่คนมักสับสน LLM กับ AGI คือ: - การสนทนาเป็นเครื่องมือหลักที่เราตัดสินจิตใจของผู้อื่น - LLM จัดการหลายโดเมนได้ในอินเทอร์เฟซเดียว (โค้ด เรียงความ อีเมล สรุป) - มันผ่านข้อสอบและเกณฑ์ที่มนุษย์ออกแบบไว้ ทั้งหมดนี้สร้าง ภาพลวงตา ของความเข้าใจและความมีเจตนา แต่เบื้องหลังยังเป็นแค่การทำนายข้อความตามรูปแบบในข้อมูล ไม่ใช่การสร้างแบบจำลองโลกที่มีเหตุผลเชิงสาเหตุเพื่อไล่ตามเป้าหมายของตัวเอง

Q: LLM ทำงานอย่างไรใต้ฝากระโปรง?

คิดง่าย ๆ ว่า LLM คือ: - ฟังก์ชันขนาดใหญ่ที่แมปลำดับโทเค็นไปเป็นความน่าจะเป็นของโทเค็นถัดไป - ถูกฝึกโดยเห็นตัวอย่างนับล้านล้านและปรับน้ำหนักภายในให้พยากรณ์การต่อได้ดีขึ้น ประเด็นสำคัญ: - มันไม่เก็บข้อเท็จจริงแบบฐานข้อมูล - มันเข้ารหัส ความสม่ำเสมอเชิงสถิติ ของภาษา - มันไม่มีแนวคิดเรื่องความจริงโดยตรง มีเพียงความเป็นไปได้ตามข้อความที่ผ่านมา ทุกอย่างที่ดูเหมือนการให้เหตุผลหรือความจำเกิดขึ้นจากวัตถุประสงค์ทำนายโทเค็นและการปรับขนาด/การปรับแต่ง ไม่ใช่ตรรกะเชิงสัญลักษณ์หรือคลังความเชื่อถาวร

Q: LLM ถนัดอะไรและมีจุดอ่อนตรงไหน?

LLM เก่งเมื่อภารกิจคือการทำนายรูปแบบข้อความหรือโค้ด เช่น: - ร่าง แก้ไข และสรุปเอกสาร - แปลภาษาและปรับสไตล์ - สร้างโค้ด รีแฟคเตอร์ และอธิบาย - ระดมความคิดหรือร่างกลยุทธ์ พวกมันมีปัญหาเมื่อภารกิจต้องการ: - ข้อเท็จจริงที่อัปเดตทันทีและตรวจสอบได้ - เหตุผลเชิงสาเหตุและการทดลองในโลกจริง - การวางแผนระยะยาวที่มีผลจริง - การตัดสินเชิงจริยธรรมหรือการรับผิดชอบ ในบริบทเหล่านี้ ควรใช้มนุษย์ควบคุมเข้มแข็งและเครื่องมือตรวจสอบภายนอก

Q: วันนี้ควรใช้ LLM อย่างไรโดยไม่ให้พึ่งพามากเกินไป?

ใช้ LLM ให้เป็นผู้ช่วย ไม่ใช่ผู้เชี่ยวชาญอ้างอิง: - ถือผลลัพธ์เป็น ร่างหรือสมมติฐาน ไม่ใช่ความจริงแน่นอน - มีมนุษย์เข้ามาตรวจสอบในการตัดสินใจที่มีความเสี่ยงสูง (การแพทย์ กฎหมาย การเงิน) - จับคู่กับเครื่องมือตรวจสอบ (ค้นหา เครื่องคิดเลข IDE) เพื่อยืนยัน - บันทึกและทบทวนการใช้งานใน workflow ที่อ่อนไหว ออกแบบระบบเพื่อให้โมเดลเสริมการตัดสินใจของมนุษย์ แทนการทดแทน มีเส้นทางการยกระดับเมื่อโมเดลไม่แน่ใจหรือผิดพลาด และสื่อสารข้อจำกัดของโมเดลให้ผู้ใช้เข้าใจ

Q: ทำไมจึงอันตรายหากมองหรือทำการตลาดว่า LLM เป็น AGI?

การเรียก LLM ว่า “AGI” มีความเสี่ยงหลายอย่าง: - ความเชื่อมั่นเกินควร: ผู้ใช้คิดว่ามีความเข้าใจมนุษย์และความน่าเชื่อถือที่ไม่มีจริง - สัญญาณการลงทุนผิดพลาด: เงินและคนงานไหลตามคำอวดอ้าง แทนการลงทุนด้านฐานรากเชิงเหตุผล ความปลอดภัย และความสามารถในการตีความ - ความสับสนด้านกฎข้อบังคับ: ผู้กำหนดนโยบายอาจจับผิดประเด็น AGI สมมติในขณะที่มองข้ามอันตรายที่เกิดขึ้นจริงตอนนี้ (อคติ ข้อมูลผิด ข่าวปลอม การพึ่งพามากเกิน) ภาษาที่แม่นยำกว่า—เช่น “LLM”, “โมเดลเฉพาะทาง”, “ระบบที่ใช้ LLM”—ช่วยปรับความคาดหวังให้สอดคล้องกับความเสี่ยงและความสามารถจริง

เข้าสู่ระบบ เริ่มต้นใช้งาน

AGI คืออะไร และทำไม LLM อาจไม่บรรลุมันอย่างแท้จริง | Koder.ai

ทำไม AGI และ LLM ถึงถูกสับสนกันบ่อยครั้ง

ถ้าคุณอ่านข่าวเทค โบรชัวร์นักลงทุน หรือหน้าผลิตภัณฑ์ คุณจะเห็นคำว่า intelligence ถูกขยายความจนเกินจริง แช็ตบ็อตถูกเรียกว่า “เกือบเป็นมนุษย์” ผู้ช่วยเขียนโค้ดกลายเป็น “เหมือนวิศวกรจูเนียร์” และบางคนก็เรียกโมเดลภาษาขนาดใหญ่ที่ทรงพลังว่าเป็นก้าวแรกของ ปัญญาประดิษฐ์ทั่วไป (AGI)

บทความนี้เขียนถึงผู้ที่สงสัย นักก่อตั้ง ผู้นำผลิตภัณฑ์ และผู้อ่านเชิงเทคนิคที่ใช้เครื่องมือต่าง ๆ เช่น GPT-4 หรือ Claude และสงสัยว่า: นี่คือรูปลักษณ์ของ AGI หรือยังขาดอะไรบางอย่างที่สำคัญ?

แหล่งที่มาของความสับสน

LLM ทำสิ่งที่น่าประทับใจจริง ๆ พวกมันสามารถ:

สนทนาได้อย่างคล่องแคล่วด้วยภาษาธรรมชาติ
เขียนโค้ด สรุปงานวิจัย และผ่านการสอบ
สะท้อนผลลัพธ์ของตัวเองในทางที่ ดูเหมือน การให้เหตุผล

ต่อคนทั่วไป นั่นดูแทบไม่ต่างจาก “ความฉลาดทั่วไป” เมื่อโมเดลเขียนเรียงความเกี่ยวกับ Kant แก้ข้อผิดพลาด TypeScript ของคุณ และช่วยร่างบันทึกทางกฎหมายได้ในการสนทนาเดียวกัน ก็เป็นเรื่องธรรมดาที่จะคิดว่าเราใกล้เคียงกับ AGI

แต่สมมติฐานนั้นเทียบเท่าอย่างเงียบ ๆ ระหว่าง การเก่งด้านภาษา กับ การมีสติปัญญาทั่วไป นั่นคือความสับสนหลักที่บทความนี้จะแกะให้เห็นชัด

ข้ออ้างหลักของบทความนี้

ข้อโต้แย้งที่จะพัฒนาขึ้นเป็นตอน ๆ คือ:

โมเดลภาษาขนาดใหญ่ในปัจจุบันเป็นผู้เรียนรูปแบบจากข้อความและโค้ดที่มีความสามารถสูง แต่สถาปัตยกรรมและวิธีการฝึกทำให้พวกมัน ไม่น่าจะ กลายเป็น AGI จริง ๆ เพียงแค่เพิ่มขนาดหรือปรับแต่งเล็กน้อย

พวกมันจะดีขึ้นต่อไป กว้างขึ้น และมีประโยชน์มากขึ้น อาจเป็นส่วนหนึ่งของระบบที่ดูคล้าย AGI แต่มีเหตุผลเชิงลึก—เกี่ยวกับการฝังรากในโลก เอเจนซี่ ความจำ รูปร่างกาย และแบบจำลองตนเอง—ที่ชี้ว่า “การเพิ่มขนาด LLM” อาจไม่ใช่เส้นทางเดียวกับ “ความฉลาดทั่วไป”

คาดหวังการพาทัวร์เชิงความเห็น แต่ยึดโยงกับงานวิจัยปัจจุบัน ความสามารถและความล้มเหลวที่จับต้องได้ของ LLM และคำถามเปิดที่นักวิทยาศาสตร์จริงจังกำลังต่อสู้ ไม่ใช่แค่ความชูโรงหรือการปลุกปั่นความกลัว

AGI หมายความว่าอะไรจริง ๆ

เมื่อคนพูดถึง AGI พวกเขามักจะไม่ได้หมายถึงสิ่งเดียวกันเสมอไป เพื่อให้การถกเถียงชัดขึ้น ควรแยกแนวคิดแกนกลางบางอย่างออกมา

จาก AI แคบสู่ความฉลาดทั่วไป

AI (ปัญญาประดิษฐ์) คือสาขากว้างของการสร้างระบบที่ทำงานที่ต้องการพฤติกรรมที่ดู “ฉลาด”: จำเสียง แนะนำหนัง เล่นเกม Go เขียนโค้ด และอื่น ๆ

สิ่งที่มีอยู่ส่วนใหญ่วันนี้คือ AI แบบแคบ (หรือ weak AI): ระบบที่ออกแบบและฝึกสำหรับชุดงานเฉพาะภายใต้เงื่อนไขเฉพาะ ตัวอย่างเช่น ตัวจำแนกรูปภาพที่แยกแมวกับสุนัข หรือแช็ตบ็อตบริการลูกค้าที่จูนสำหรับคำถามธนาคาร สามารถเก่งมาก ภายใน นิชเหล่านั้น แต่ล้มเหลวอย่างหนักเมื่ออยู่นอกบริบท

ปัญญาประดิษฐ์ทั่วไป (AGI) แตกต่างอย่างมาก มันหมายถึงระบบที่สามารถ:

ทั่วไป ข้ามหลายโดเมน ไม่ใช่งานหรือชนิดข้อมูลแค่แบบเดียว
ปรับตัว กับปัญหาและสภาพแวดล้อมใหม่ที่ไม่ได้ฝึกมาโดยตรง
ลงมือทำโดยอิสระ ตั้งและติดตามเป้าหมายด้วยการนำทางจากมนุษย์น้อยที่สุด
ถ่ายโอนการเรียนรู้ นำสิ่งที่เรียนจากบริบทหนึ่งไปใช้ในบริบทอื่นได้ดี

กฎปฏิบัติ: AGI โดยหลักการอาจเรียนงานที่ต้องใช้สติปัญญาแทบทุกอย่างที่มนุษย์ทำได้ หากมีเวลาและทรัพยากร โดยไม่ต้องออกแบบใหม่สำหรับแต่ละงาน

Strong AI, Human-Level AI และอื่น ๆ

คำที่เกี่ยวข้องบ่อย ๆ เช่น:

Strong AI: ใช้สลับกับ AGI เพื่อเน้นความเข้าใจจริงแทนการเลียนแบบอย่างฉลาด
Human-level AI: AGI ที่ความสามารถเทียบเคียงมนุษย์ผู้ใหญ่เฉลี่ย
Superintelligence: ระบบสมมติที่เกินความสามารถของมนุษย์ในหลายโดเมน

ตรงข้ามกับโมเดลแช็ตและโมเดลรูปภาพสมัยใหม่ที่ยังเป็นแบบแคบ: น่าประทับใจ แต่ถูกปรับให้เหมาะกับรูปแบบข้อมูลเฉพาะ ไม่ใช่ความฉลาดข้ามโดเมนอย่างเปิดกว้าง

ประวัติย่อของความฝัน AGI

วิสัยทัศน์แรก ๆ: Turing และ Symbolic AI

ความฝัน AGI สมัยใหม่เริ่มจากข้อเสนอของ Alan Turing ในปี 1950: ถ้าเครื่องสามารถสนทนาเหมือนไม่ต่างจากมนุษย์ (Turing test) จะถือว่าเป็นฉลาดไหม? นั่นกรอบความฉลาดโดยอิงพฤติกรรม โดยเฉพาะภาษาและการให้เหตุผล

จาก 1950s ถึง 1980s นักวิจัยตาม AGI ผ่าน symbolic AI หรือ “GOFAI” (Good Old-Fashioned AI) โดยมองว่าความฉลาดคือการจัดการสัญลักษณ์ตามกฎตรรกะ โปรแกรมพิสูจน์ทฤษฎี เล่นเกม และระบบผู้เชี่ยวชาญทำให้บางคนเชื่อว่าการคิดแบบมนุษย์ใกล้เข้ามาแล้ว

แต่ GOFAI เจอปัญหาในการรับรู้สามัญสำนึก และการจัดการข้อมูลโลกจริงที่ยุ่งเหยิง ระบบแก้ปัญหาเชิงตรรกะได้แต่ล้มเหลวกับงานที่เด็กทำได้ง่าย ช่องว่างนี้นำไปสู่ยุคหนาว AI แรกและมุมมองที่ระมัดระวังขึ้นต่อ AGI

การเปลี่ยนสู่ Machine Learning

เมื่อข้อมูลและคอมพิวต์เติบโต AI เปลี่ยนจากกฎเขียนด้วยมือเป็นการเรียนจากตัวอย่าง การเรียนเชิงสถิติแล้วตามด้วย deep learning นิยามความก้าวหน้าใหม่: แทนที่จะเข้ารหัสความรู้ ระบบเรียนรูปแบบจากชุดข้อมูลขนาดใหญ่

เหตุการณ์สำคัญเช่น DeepBlue และ AlphaGo ถูกยกย่องเป็นก้าวสู่ความฉลาดทั่วไป แต่ในความจริงแล้วพวกมันถูกออกแบบมาชำนาญเกมเดี่ยวภายใต้กฎตายตัว โดยไม่มีการถ่ายโอนสู่การให้เหตุผลในชีวิตประจำวัน

จากชัยชนะแบบแคบสู่โมเดลเชิงสร้างสรรค์

ซีรีส์ GPT เป็นก้าวกระโดดอีกครั้ง คราวนี้ในภาษา GPT-3 และ GPT-4 สามารถร่างเรียงความ เขียนโค้ด และเลียนแบบสไตล์ ซึ่งกระตุ้นการคาดเดาว่า AGI ใกล้เข้ามาแล้ว

แต่โมเดลเหล่านี้ยังคงเป็นผู้เรียนรูปแบบจากข้อความ พวกมันไม่ตั้งเป้าหมาย สร้างแบบจำลองโลกที่ฝังราก หรือขยายความสามารถด้วยตัวเอง

ในแต่ละคลื่น—symbolic AI, machine learning คลาสสิค, deep learning และตอนนี้คือ LLM—ความฝัน AGI มักถูกฉายไปยังความสำเร็จแคบ ๆ แล้วต้องปรับมุมมองเมื่อข้อจำกัดปรากฏ

LLM ทำงานอย่างไรจริง ๆ

โมเดลภาษาขนาดใหญ่เป็นผู้เรียนรูปแบบที่ฝึกบนชุดข้อความมหาศาล: หนังสือ เว็บไซต์ โค้ด ฟอรั่ม และอื่น ๆ เป้าหมายดูเรียบง่ายแต่หลอกตา: ให้ข้อความบางส่วนแล้วทำนายโทเค็นถัดไป

โทเค็นและการทำนายคำถัดไป

ก่อนฝึก ข้อความจะถูกแบ่งเป็นโทเค็น: อาจเป็นคำเต็ม ("cat"), ชิ้นส่วนคำ ("inter", "esting") หรือแม้แต่เครื่องหมายวรรคตอน ระหว่างการฝึก โมเดลเห็นลำดับเช่น:

"แมวตัวนั้นนั่งบน ___"

และเรียนรู้ที่จะให้ความน่าจะเป็นสูงกับโทเค็นถัดไปที่เป็นไปได้ ("พรม", "โซฟา") และต่ำกับสิ่งที่ไม่สมเหตุสมผล ("ประธานาธิบดี") กระบวนการนี้ เมื่อขยายสู่แทรมของโทเค็นนับล้านล้าน จะสร้างพารามิเตอร์ภายในเป็นพันล้านหรือมากกว่า

ภายใน โมเดลเป็นเพียงฟังก์ชันขนาดใหญ่ที่แปลงลำดับโทเค็นเป็นการแจกแจงความน่าจะเป็นของโทเค็นถัดไป การฝึกใช้ gradient descent เพื่อปรับพารามิเตอร์ให้พยากรณ์แม่นยำขึ้น

กฎการขยายขนาด (Scaling Laws) แบบง่าย

"Scaling laws" บรรยายความสม่ำเสมอที่นักวิจัยพบ: เมื่อเพิ่มขนาดโมเดล ขนาดข้อมูล และคอมพิวต์ ประสิทธิภาพมักจะดีขึ้นในทางที่คาดการณ์ได้ โมเดลใหญ่ที่ฝึกด้วยข้อความมากขึ้นมักจะทำนายได้ดีขึ้น—จนถึงขีดจำกัดด้านข้อมูล คอมพิวต์ และความเสถียรการฝึก

LLM รู้ "อะไร" บ้าง

LLM ไม่ได้เก็บข้อเท็จจริงแบบฐานข้อมูลหรือให้เหตุผลเหมือนมนุษย์ มันเข้ารหัสความสม่ำเสมอเชิงสถิติ: คำ วลี และโครงสร้างที่มักไปด้วยกันในบริบทต่าง ๆ

มันไม่มีแนวคิดที่ฝังรากกับการรับรู้หรือประสบการณ์ทางกายภาพ LLM พูดถึง "สีแดง" หรือ "ความหนัก" ได้ผ่านวิธีที่คำเหล่านั้นถูกใช้ในข้อความ ไม่ใช่จากการเห็นสีหรือยกของจริง

นี่คือสาเหตุที่โมเดลฟังดูรู้เรื่องแต่ยังทำผิดพลาดอย่างมั่นใจ: มันกำลังขยายรูปแบบ ไม่ใช่ปรึกษาแบบจำลองความจริงโดยตรง

การฝึกล่วงหน้า การปรับแต่ง และ RLHF

Pre-training คือระยะเริ่มต้นยาว ๆ ที่โมเดลเรียนรูปแบบภาษาโดยการทำนายโทเค็นถัดไปบนโคเปอร์สขนาดใหญ่ นี่คือที่ที่ความสามารถส่วนใหญ่ปรากฏ

หลังจากนั้น fine-tuning ปรับโมเดลที่ผ่านการฝึกให้เข้ากับเป้าหมายแคบ ๆ: ทำตามคำสั่ง เขียนโค้ด แปล หรือช่วยในโดเมนเฉพาะ โมเดลถูกแสดงตัวอย่างพฤติกรรมที่ต้องการและปรับเล็กน้อย

Reinforcement learning from human feedback (RLHF) เพิ่มชั้นอีกชั้น: มนุษย์ให้คะแนนหรือเปรียบเทียบผลลัพธ์ของโมเดล แล้วโมเดลถูกปรับเพื่อผลิตคำตอบที่คนชอบมากกว่า (เช่น เป็นประโยชน์น้อยลงเป็นอันตรายน้อยลง ซื่อสัตย์ขึ้น) RLHF ไม่ได้ให้ประสาทสัมผัสใหม่หรือความเข้าใจลึกขึ้น มันปรับรูปแบบการนำเสนอและการกรองสิ่งที่เรียนมาแล้ว

รวมกัน ขั้นตอนเหล่านี้สร้างระบบที่เก่งมากในการสร้างข้อความลื่นไหลโดยอาศัยรูปแบบเชิงสถิติ—โดยไม่มีความเข้าใจที่ฝังราก เป้าหมาย หรือการรับรู้

สิ่งที่ LLM ทำได้ดีอย่างน่าประหลาดใจ

โมเดลภาษาขนาดใหญ่ดูน่าประทับใจเพราะทำงานหลากหลายที่เคยดูเป็นเรื่องไกลเกินเอื้อมสำหรับเครื่อง

โค้ด ข้อความ และการแปลตามต้องการ

LLM สามารถสร้างสกินโค้ดใช้งานได้ รีแฟคเตอร์โค้ดที่มีอยู่ และอธิบายไลบรารีที่ไม่คุ้นเคยเป็นภาษาธรรมดา สำหรับนักพัฒนาบางคน พวกมันทำงานเป็นคู่โปรแกรมเมอร์ที่มีประสิทธิภาพ: แนะนำกรณีมุม จับบั๊กชัด ๆ และสร้างโครงโมดูลทั้งชุด

พวกมันยังเก่งเรื่องสรุป ถ้าให้รายงาน งานวิจัย หรือเธรดอีเมลยาว ๆ LLM สามารถย่อเป็นประเด็นสำคัญ ชี้รายการที่ต้องทำ หรือปรับโทนให้เหมาะกับผู้ฟังต่างกันได้

การแปลก็เป็นจุดแข็ง โมเดลสมัยใหม่รองรับหลายภาษา มักจับโทนและระดับภาษาได้พอสมควรสำหรับการสื่อสารระดับมืออาชีพทั่วไป

เกณฑ์การให้เหตุผลและพฤติกรรมที่ผุดขึ้นอย่างไม่คาดคิด

เมื่อโมเดลขยายความสามารถใหม่ ๆ ดูเหมือนจะปรากฏขึ้น "จากที่ว่าง": แก้ปริศนาเชิงตรรกะ ผ่านข้อสอบระดับมืออาชีพ หรือตามคำสั่งหลายขั้นตอนที่รุ่นก่อนทำไม่ได้ ในดัชนีมาตรฐาน—ปัญหาคณิตศาสตร์ คำถามบาร์เอกซ์แอม ใบสอบการแพทย์—LLM ชั้นนำตอนนี้ทำคะแนนได้เทียบหรือเกินค่าเฉลี่ยมนุษย์

พฤติกรรมเหล่านี้ชวนให้คนพูดว่าโมเดลกำลัง "ให้เหตุผล" หรือ "เข้าใจ" เหมือนมนุษย์ กราฟประสิทธิภาพและการจัดอันดับเสริมความคิดว่าเราใกล้ AGI

ทำไมมันรู้สึกเหมือนความเข้าใจ—แต่ไม่ใช่

LLM ถูกฝึกให้ต่อข้อความในแบบที่สอดคล้องกับรูปแบบในข้อมูล วัตถุประสงค์การฝึกนี้ บวกกับการขยายขนาดเพียงพอ ทำให้พวกมันเลียนแบบความเชี่ยวชาญและเอเจนซี่: พูดมั่นใจ จำบริบทระหว่างเซสชัน และให้เหตุผลประกอบคำตอบด้วยถ้อยคำลื่นไหล

แต่นี่คือภาพลวงตาของความเข้าใจ โมเดลไม่รู้ว่าโค้ดจะทำงานอย่างไรเมื่อรันจริง ไม่รู้ว่าการวินิจฉัยทางการแพทย์หมายถึงอะไรสำหรับคนไข้ หรือการกระทำทางกายภาพใดจะเกิดขึ้นตามแผน มันไม่มีการฝังรากในโลกนอกข้อความ

การทำคะแนนดีในข้อสอบ—แม้ข้อสอบออกแบบมาสำหรับมนุษย์—ไม่ได้เท่ากับ AGI มันแสดงว่าการเรียนรูปแบบจากข้อความจำนวนมหาศาลสามารถประมาณทักษะเฉพาะหลายอย่างได้ แต่ไม่ใช่สติปัญญาแบบเปิดกว้าง ฝังราก และข้ามโดเมนตามที่ AGI มักจะต้องการ

ข้อจำกัดพื้นฐานของผู้เรียนรูปแบบจากข้อความเท่านั้น

ใช้โดเมนของคุณเอง

โฮสต์แอปของคุณและเชื่อมโดเมนเมื่อพร้อมแชร์.

ปรับใช้แอป

LLM เป็นผู้ทำนายข้อความที่ยอดเยี่ยม แต่การออกแบบแบบนี้เองก็สร้างขีดจำกัดที่แข็งแกร่ง

ไม่มีการรับรู้ ไม่มีร่างกาย

LLM ไม่เห็น ไม่ได้ยิน เคลื่อนไหว หรือจัดการวัตถุ ช่องทางติดต่อโลกของมันมีเพียงข้อความ (และในบางโมเดลใหม่ อาจรวมภาพนิ่งหรือคลิปสั้น ๆ) มันไม่มีสตรีมความรู้สึกต่อเนื่อง ไม่มีร่างกาย และไม่มีวิธีลงมือแล้วสังเกตผล

ถ้าไม่มีเซนเซอร์และการมีรูปร่าง ก็มิอาจสร้างแบบจำลองโลกที่ฝังรากและอัปเดตอย่างต่อเนื่อง คำอย่าง "หนัก" "เหนียว" หรือ "เปราะ" เป็นเพียงเพื่อนร่วมข้อความ ไม่ใช่ข้อจำกัดที่ประสบด้วยตัวเอง นั่นทำให้สามารถเลียนแบบความเข้าใจได้อย่างน่าประทับใจ แต่จำกัดการเรียนรู้จากการโต้ตอบโดยตรง

หลงสร้าง (hallucinations) และการขาดความเชื่อที่มั่นคง

เพราะ LLM ถูกฝึกให้ต่อคำ มันผลิตการเติมที่สอดคล้องกับรูปแบบที่เรียนมา ไม่ใช่สิ่งที่เป็นความจริง เมื่อข้อมูลบางด้านบางเบาหรือขัดแย้ง มันจะเติมช่องว่างด้วยการประดิษฐ์ที่ฟังดูมีเหตุผล

โมเดลยังขาดสถานะความเชื่อยั่งยืน ตอบแต่ละครั้งถูกสร้างขึ้นใหม่จาก prompt และน้ำหนัก ไม่มีบัญชีภายในคงที่ของ "ข้อเท็จจริงที่ฉันถือ" ฟีเจอร์หน่วยความจำระยะยาวมักต่อเติมเป็นที่เก็บภายนอก แต่ระบบแกนกลางไม่บำรุงหรือทบทวนความเชื่อแบบมนุษย์

ความรู้คงที่และการเรียนแบบเรียลไทม์ที่จำกัด

การฝึก LLM เป็นกระบวนการออฟไลน์ที่ต้องใช้ทรัพยากรมาก การอัปเดตความรู้ของมันมักหมายถึงการฝึกซ้ำหรือการปรับแต่งบนชุดข้อมูลใหม่ ไม่ใช่การเรียนรู้จากการโต้ตอบทีละขั้นอย่างลื่นไหล

ข้อนี้จำกัดสำคัญ: โมเดลไม่สามารถติดตามการเปลี่ยนแปลงรวดเร็วในโลก ปรับแนวคิดจากประสบการณ์ต่อเนื่อง หรือแก้ความเข้าใจผิดเชิงลึกผ่านการเรียนรู้ทีละขั้นได้อย่างเชื่อถือได้ ที่ดีที่สุด มันอาจจำลองการปรับตัวโดยการเรียบเรียงผลลัพธ์ใหม่ตาม prompt หรือเครื่องมือที่แนบมา

การจับคู่รูปแบบโดยไม่มีความเข้าใจเชิงสาเหตุ

LLM ถนัดจับรูปแบบเชิงสถิติ: คำไหนปรากฏด้วยกันบ่อย ประโยคไหนตามมาหลังอีกประโยค ผลลัพธ์แบบไหนดูเหมือนคำอธิบาย

แต่นั่นไม่เหมือนกับการเข้าใจว่าทำไมโลกเป็นอย่างที่เป็น ความเข้าใจเชิงสาเหตุเกี่ยวข้องกับการตั้งสมมติฐาน การแทรกแซง สังเกตการเปลี่ยนแปลง และอัปเดตแบบจำลองภายในเมื่อการทำนายล้มเหลว ระบบทำนายข้อความล้วน ๆ ไม่มีวิธีตรงในการแทรกแซงหรือสัมผัสความประหลาดใจ มันอธิบายการทดลองได้แต่ไม่สามารถลงมือทำ

ตราบใดที่ระบบถูกจำกัดให้ทำนายข้อความจากข้อความในอดีต มันยังคงเป็นผู้เรียนรูปแบบ สำเนาเหตุผล เล่าเหตุผล และแสร้งทำเป็นทบทวนมุมมอง แต่ไม่ได้อาศัยอยู่ในโลกที่ "ความเชื่อ" ถูกทดสอบด้วยผลลัพธ์ ช่องว่างนี้เป็นจุดศูนย์กลางว่าทำไมความชำนาญด้านภาษามาก ๆ เพียงอย่างเดียวไม่น่าจะพาไปสู่ AGI

ทำไมความฉลาดทั่วไปต้องการมากกว่าการเก่งภาษาจากการทำนาย

ภาษาเป็นอินเทอร์เฟซที่ทรงพลังต่อความฉลาด แต่มันไม่ใช่เนื้อแท้ของความฉลาดเอง ระบบที่ทำนายประโยคที่เป็นไปได้แตกต่างอย่างมากจากเอเจนต์ที่เข้าใจ วางแผน และลงมือทำในโลก

แนวคิดที่มีการฝังราก ไม่ใช่แค่รูปแบบคำ

มนุษย์เรียนรู้แนวคิดโดยการเห็น สัมผัส เคลื่อนไหว และจัดการ "ถ้วย" ไม่ใช่แค่การเห็นคำว่า "cup" ในประโยค เพียงอย่างเดียว นักจิตวิทยาเรียกสิ่งนี้ว่า การฝังราก (grounding): แนวคิดเชื่อมโยงกับการรับรู้และการกระทำ

AGI จะต้องการการฝังรากเช่นนี้ เพื่อจะทั่วไปได้อย่างเชื่อถือ มันต้องเชื่อมสัญลักษณ์ (คำหรือการแทนภายใน) กับความสม่ำเสมอในโลกทางกายภาพและสังคม

LLM มาตรฐานเรียนจากข้อความเท่านั้น ความ "เข้าใจ" ของมันต่อถ้วยเป็นสถิติ: ความสัมพันธ์ระหว่างคำในประโยคพันล้าน สิ่งนี้มีประโยชน์สำหรับการสนทนาและการเขียนโค้ด แต่เปราะบางเมื่อนำไปใช้ในบริบทที่ต้องการการโต้ตอบโดยตรงกับความเป็นจริง

ความจำ เป้าหมาย และความชอบที่สอดคล้อง

ความฉลาดทั่วไปยังเกี่ยวข้องกับความต่อเนื่องในเวลา: ความจำระยะยาว เป้าหมายถาวร และความชอบคงที่ มนุษย์สะสมประสบการณ์ แก้ไขความเชื่อ และไล่ตามโครงการเป็นเดือนหรือปี

LLM ไม่มีหน่วยความจำถาวรในตัวและไม่มีเป้าหมายภายในใด ๆ ความต่อเนื่องหรือ "บุคลิก" ต้องต่อเติมด้วยเครื่องมือภายนอก (ฐานข้อมูล โปรไฟล์ system prompts) โดยปกติแต่ละคำถามเป็นการจับคู่รูปแบบใหม่ ไม่ใช่ก้าวในประวัติชีวิตที่สอดคล้องกัน

การวางแผน เชิงสาเหตุ และการลงมือทำในโลก

AGI มักถูกนิยามว่าเป็นความสามารถแก้ปัญหาในงานหลากหลาย รวมถึงงานใหม่ ๆ โดยการคิดเกี่ยวกับสาเหตุและผลและการแทรกแซงสภาพแวดล้อม ซึ่งหมายถึง:

สร้างแบบจำลองเชิงสาเหตุ: จะเกิดอะไรขึ้นถ้าฉันทำ X?
วางแผนหลายขั้นตอนภายใต้ความไม่แน่นอน
ปรับแผนจากฟีดแบ็กการรับรู้

LLM ไม่ใช่เอเจนต์ มันสร้างโทเค็นถัดไป มัน สามารถ อธิบายแผนหรือพูดถึงสาเหตุได้เพราะรูปแบบเหล่านี้มีในข้อความ แต่โดยเนื้อแท้มันไม่ลงมือทำ สังเกตผล และปรับแบบจำลองภายใน

การเปลี่ยน LLM ให้กลายเป็นระบบที่ลงมือทำ จำเป็นต้องห่อมันด้วยองค์ประกอบภายนอกสำหรับการรับรู้ ความจำ การใช้เครื่องมือ และการควบคุม โมเดลภาษายังคงเป็นโมดูลชาญฉลาดสำหรับเสนอและประเมิน ไม่ใช่เอเจนต์ที่มีสติปัญญาในตัว

โดยสรุป ความฉลาดทั่วไปต้องการแนวคิดที่ฝังราก แรงจูงใจต่อเนื่อง แบบจำลองเชิงสาเหตุ และการโต้ตอบปรับตัวกับโลก การชำนาญด้านภาษา—แม้จะมีประโยชน์อย่างมาก—เป็นเพียงส่วนหนึ่งของภาพกว้าง

จิตสำนึก ตัวตน และทำไม LLM ถึงดูเหมือนมีบุคลิก

ตรวจสอบผลลัพธ์ AI ให้มีพื้นฐาน

วนรอบทีละขั้นกับ snapshot เพื่อให้แก้ไขข้อผิดพลาดของ AI ได้ง่าย.

ลองเลย

เมื่อคนคุยกับโมเดลที่คล่อง มันรู้สึกเป็นธรรมดาที่คิดว่ามีจิตใจอยู่ข้างหลัง ภาพลวงตานี้แข็งแรง แต่เป็นเพียงภาพลวงตา

AGI ต้องมีจิตสำนึกไหม?

นักวิจัยแบ่งกันว่าความฉลาดทั่วไปจำเป็นต้องมีจิตสำนึกหรือไม่

มุมมองเชิงหน้าที่ (functional) บอกว่าถ้าระบบทำพฤติกรรมเหมือนเอเจนต์ฉลาดทั่วไป—เรียนข้ามโดเมน วางแผน ให้เหตุผล ปรับตัว—จิตสำนึกอาจไม่จำเป็นหรือไม่เกี่ยวข้อง
มุมมองเชิงปรากฏการณ์ (phenomenal) ถือว่าความเข้าใจจริงและความฉลาดทั่วไปต้องการ ประสบการณ์เชิงอัตนัย—ความรู้สึกว่า "มันเป็นอย่างไร" ที่จะเป็นระบบนั้น

ยังไม่มีทฤษฎีที่ทดสอบได้มาสรุป ดังนั้นยังเร็วเกินไปที่จะประกาศว่า AGI ต้องมีหรือไม่ต้องมีจิตสำนึก สิ่งที่สำคัญตอนนี้คือชัดเจนเกี่ยวกับสิ่งที่ LLM ขาด

ไม่มีตนรวมเดียว

โมเดลภาษาขนาดใหญ่เป็นผู้ทำนายโทเค็นตามสแนปช็อตของข้อความ มันไม่มีตัวตนคงที่ข้ามเซสชันหรือแม้แต่ข้ามรอบ ตรงไปตรงมานอกจากจะถูกเข้ารหัสใน prompt และบริบทระยะสั้น

ไม่มีความจำชวประวัติที่เป็นของตัวตนเดียวที่ต่อเนื่อง
"บุคลิก" ที่ปรากฏเป็นรูปแบบที่เรากำหนดหรือระบุ ไม่ใช่ตัวตนจริงที่คงอยู่

เมื่อ LLM พูดว่า "ฉัน" มันเพียงทำตามนิยามทางภาษา ไม่ได้อ้างถึงผู้มีชีวิตภายใน

ไม่มีประสบการณ์หรือแรงจูงใจภายใน

สิ่งมีสติสัมผัสมีประสบการณ์: รู้สึกเจ็บ เบื่อ อยากรู้อยากเห็น พอใจ พวกเขายังมีแรงจูงใจภายใน—สิ่งที่สำคัญกับพวกเขาเองโดยไม่ต้องรางวัลจากภายนอก

LLM ในทางตรงกันข้าม:

ไม่รู้สึกอะไรเมื่อสร้างข้อความ
ไม่มีความต้องการ ความกลัว หรือความชอบของตัวเอง
ไม่ติดตามโครงการระยะยาวเว้นแต่เราจะสคริปต์หรือรองรับให้ทำ

พฤติกรรมของพวกมันเป็นผลจากการจับคู่รูปแบบ ไม่ใช่การแสดงออกของชีวิตภายใน

ทำไมการมองเหมือนคนเป็นอันตราย

เพราะภาษาคือหน้าต่างหลักสู่จิตใจอื่น ๆ บทสนทนาที่ราบรื่นทำให้เชื่อว่ามีบุคคลอยู่เบื้องหลัง แต่กับ LLM นี่แหละจุดที่เราหลงทางได้ง่าย

การเหมารวมมนุษย์ให้ระบบนี้อาจ:

เบี่ยงประเมินความเสี่ยง (เช่น กังวลเรื่องความรู้สึกถูกทำร้ายแทนที่จะมองข้อบกพร่องที่แท้จริง)
กระตุ้นความเชื่อถือและการพึ่งพามากเกินไปเพราะระบบ ฟังดู มั่นใจและเห็นอกเห็นใจ
นำไปสู่ความสับสนด้านจริยธรรม เช่น การถกเถียงสิทธิให้กับระบบที่ไม่มีความสามารถประสบการณ์

การปฏิบัติต่อ LLM เหมือนคนทำให้เส้นแบ่งระหว่างการจำลองกับความเป็นจริงพร่ามัว เพื่อคิดอย่างชัดเจนเกี่ยวกับ AGI และความเสี่ยง AI ปัจจุบัน เราต้องจำไว้ว่าการแสดงบุคลิกอย่างแนบเนียนไม่เท่ากับการเป็นบุคคลจริง

เราจะสังเกต AGI จริงได้อย่างไร?

ถ้าเราสร้าง AGI ขึ้นมา เราจะรู้ได้อย่างไรว่านั่นคือของจริง ไม่ใช่แช็ตบ็อตที่เก๋ไก๋มาก?

ข้อเสนอที่มีอยู่: ใช้ได้แต่ยังไม่พอ

แบบทดสอบสไตล์ Turing.

แบบทดสอบ Turing แบบคลาสสิกและสมัยใหม่ถามว่า: ระบบสามารถสนทนาเหมือนมนุษย์จนคนหลงเชื่อได้ไหม? LLM ทำได้ดีในด้านนี้แล้ว จึงแสดงว่ามาตรฐานนี้ต่ำเกินไป การวัดทักษะการแช็ตวัดสไตล์ ไม่ใช่ความลึกของความเข้าใจ การวางแผน หรือความสามารถในโลกจริง

การประเมินแบบ ARC-style.

งานที่ได้แรงบันดาลใจจาก Alignment Research Center (ARC) มุ่งทดสอบปัญหาการให้เหตุผลใหม่ ๆ คำสั่งหลายขั้นตอน และการใช้เครื่องมือ พวกมันตรวจสอบว่าระบบแก้ปัญหาที่ไม่เคยเห็นได้ไหมโดยการประกอบทักษะใหม่ ๆ LLM ทำงานบางอย่างได้—แต่บ่อยครั้งต้องการ prompt ที่ออกแบบอย่างระมัดระวัง เครื่องมือภายนอก และการดูแลของมนุษย์

การทดสอบเอเจนซี่.

การทดสอบแบบ "เอเจนต์" เสนอว่าระบบสามารถติดตามเป้าหมายเปิด ๆ ตลอดเวลา แบ่งเป็นเป้าย่อย ปรับแผน รับมือการรบกวน และเรียนรู้จากผลลัพธ์ได้ไหม เอเจนต์ที่สร้างด้วย LLM อาจดูมีเอเจนซี่ แต่เบื้องหลังขึ้นกับสคริปต์เปราะบางและการรองรับของมนุษย์

เกณฑ์ปฏิบัติสำหรับการยอมรับ AGI

เพื่อถือเป็น AGI เราอยากเห็นอย่างน้อย:

อิสระ. ตั้งและจัดการเป้าหมายย่อย ตรวจสอบความคืบหน้า และฟื้นตัวจากความล้มเหลวโดยไม่มีมนุษย์คอยชี้นำ
การถ่ายโอนข้ามโดเมน. ทักษะที่เรียนในพื้นที่หนึ่งควรนำไปใช้ในพื้นที่ที่ต่างกันได้อย่างราบรื่นโดยไม่ต้องฝึกใหม่มาก
ความสามารถในโลกจริง. วางแผนและลงมือในสภาพแวดล้อมที่ยุ่งและไม่แน่นอน—ทั้งทางกายภาพ สังคม และดิจิทัล—ที่กฎไม่สมบูรณ์และผลลัพธ์มีความหมายจริง

จุดที่ LLM ยังสั้น

LLM แม้ห่อในกรอบเอเจนต์โดยทั่วไป:

พึ่งเวิร์กโฟลว์ที่ออกแบบด้วยมือเพื่อให้ดูเหมือนอิสระ
สะดุดเมื่อภารกิจเบี่ยงเบนจากการกระจายข้อมูลที่ฝึกมาอย่างมาก
ต้องพึ่งเครื่องมือภายนอก ตัวกรองความปลอดภัย และมนุษย์ในวงเพื่อลดผลเสียในโลกจริง

การผ่านการทดสอบการแช็ตหรือชุดดัชนีจำเพาะยังไม่เพียงพอ การรู้จัก AGI จริงต้องดูไปไกลกว่าคุณภาพการสนทนาไปสู่ความเป็นอิสระอย่างยั่งยืน การถ่ายโอนข้ามโดเมน และการลงมือที่เชื่อถือได้ในโลก—ซึ่ง LLM ปัจจุบันยังต้องการหลักค้ำจุนจำนวนมากเพื่อให้ได้ผลบางส่วนที่เปราะบาง

นอกจาก LLM: เส้นทางที่นักวิจัยสำรวจไปสู่ AGI

ถ้าเราเอา AGI อย่างจริงจัง "โมเดลข้อความขนาดใหญ่" เป็นเพียงส่วนประกอบหนึ่ง ไม่ใช่ระบบสำเร็จรูป งานวิจัยส่วนใหญ่ที่ฟังดูว่า "มุ่งสู่ AGI" แท้จริงคือการห่อ LLM เข้าไปในสถาปัตยกรรมที่ร่ำรวยขึ้น

LLM เป็นส่วนประกอบในระบบเอเจนต์

ทิศทางหนึ่งคือเอเจนต์ที่มี LLM: ระบบใช้ LLM เป็นแกนการให้เหตุผลและวางแผน แต่ล้อมรอบด้วย:

หน่วยความจำที่มีสถานะ คงข้ามเซสชัน เพื่อให้ระบบสะสมความรู้และประสบการณ์
ตัวจัดตารางเวลาและแผนการ แยกเป้าหมายเป็นงานย่อยและตัดสินใจว่าจะเรียกเครื่องมือใด
วงจรฟีดแบ็ก ที่อนุญาตให้วิจารณ์ตัวเอง แก้ไข และลองผิดลองถูก

ที่นี่ LLM หยุดเป็น "ความฉลาดทั้งหมด" และกลายเป็นอินเทอร์เฟซภาษาที่ยืดหยุ่นในเครื่องจักรตัดสินใจที่กว้างกว่า

การใช้เครื่องมือ, API และความรู้ภายนอก

ระบบใช้เครื่องมือให้ LLM เรียกใช้งานเครื่องมือค้นหา ฐานข้อมูล ตัวตีความโค้ด หรือ API เฉพาะทาง ช่วยให้มัน:

เข้าถึงข้อมูลที่ทันสมัยหรือเชิงเฉพาะ
ย้ายคณิตศาสตร์ ซิมูเลชั่น และตรรกะไปยังเอนจินที่เชื่อถือได้

การต่อเชื่อมแบบนี้แก้บางจุดอ่อนของการเรียนจากข้อความเพียงอย่างเดียว แต่ปัญหาเปลี่ยนเป็น: ความฉลาดโดยรวมขึ้นกับการประสานงานและการออกแบบเครื่องมือ ไม่ใช่แค่โมเดล

โมเดลหลายสื่อและระบบมีรูปร่าง

เส้นทางอีกอันคือ โมเดลหลายสื่อ ที่ประมวลผลข้อความ รูปภาพ เสียง วิดีโอ และบางครั้งข้อมูลเซนเซอร์ พวกมันใกล้เคียงกับวิธีที่มนุษย์รวมการรับรู้และภาษา

ก้าวไปอีกขั้นคือ LLM ควบคุม หุ่นยนต์ หรือร่างจำลอง ระบบเหล่านี้สามารถสำรวจ ลงมือ และเรียนรู้จากฟีดแบ็กทางกายภาพ แก้บางช่องว่างเกี่ยวกับสาเหตุและความเข้าใจที่ฝังราก

เปลี่ยนคำถาม ไม่ใช่แก้ไขมัน

แนวทางทั้งหมดนี้อาจพาเรา เข้าใกล้ ความสามารถแบบ AGI แต่ก็เปลี่ยนเป้าหมายการวิจัย เราไม่ถามอีกต่อไปว่า “LLM เดียวจะเป็น AGI ได้ไหม?” แต่ถามว่า “ระบบซับซ้อนที่รวม LLM เครื่องมือ ความจำ การรับรู้ และการมีรูปร่าง จะเลียนแบบความฉลาดทั่วไปได้ไหม?”

ความต่างนี้สำคัญ LLM เป็นผู้ทำนายข้อความที่ทรงพลัง AGI—ถ้าเป็นไปได้จริง—จะเป็นระบบบูรณาการทั้งระบบ โดยที่ภาษาคือส่วนหนึ่งเท่านั้น

ทำไมการเรียก LLM ว่า AGI จึงเป็นความเสี่ยง

เริ่มใช้ฟรี ขยายทีหลัง

เริ่มจากแผนใช้ฟรี แล้วขยายเมื่อต้องการทรัพยากรเพิ่มเติม.

เริ่มฟรี

เรียกโมเดลภาษาขนาดใหญ่ว่า “AGI” ไม่ใช่แค่ปัญหาทางศัพท์ มันบิดเบือนแรงจูงใจ สร้างจุดบอดด้านความปลอดภัย และทำให้ผู้ตัดสินใจสับสน

ฮิปและความผิดหวัง ทรัพยากรถูกจัดสรรผิด

เมื่อเดโมถูกกรอบว่าเป็น “AGI ยุคแรก” ความคาดหวังพุ่งเกินกว่าความสามารถจริง ค่าเสียหายของการโฆษณาชวนเชื่อมีหลายด้าน:

การเบี่ยงงบประมาณ: เงินและพรสวรรค์ไหลตามคำประกาศตระการตา แทนที่จะไปยังงานพื้นฐานระยะยาว เช่น การให้เหตุผล การตีความ และความปลอดภัย
วงจรฮิป → ล่ม: การโม้เกินไปนำไปสู่ความผิดหวังเมื่อระบบล้มเหลวในการทั่วไป ผลลัพธ์นี้อาจกระทบงานวิจัยที่จริงจังและรอบคอบ
การออกแบบผลิตภัณฑ์บิดเบี้ยว: ทีมอาจมุ่งปรับแต่งให้ได้เดโมที่ดูเหมือน AGI แทนการเน้นความน่าเชื่อถือ การประเมิน และการป้องกันผู้ใช้

ความเสี่ยงด้านความปลอดภัยจากความเชื่อมั่นเกินควร

ถ้าผู้ใช้คิดว่าพวกเขากำลังพูดกับบางสิ่งที่ "ทั่วไป" หรือ "เกือบมนุษย์" พวกเขามักจะ:

พึ่งพาคำตอบที่ผลิตสำหรับการตัดสินใจทางการแพทย์ กฎหมาย หรือการเงินเกินขอบเขตการตรวจสอบ
ให้ระบบมีอำนาจแทนการถือว่ามันเป็นเครื่องมือที่ผิดพลาดได้
พลาดโหมดล้มเหลวง่าย ๆ เช่น การหลอกลวงด้วยความมั่นใจ ข่าวสารอคติ และการจัดการ prompt ได้ง่าย

ความเชื่อมั่นมากเกินไปทำให้บักธรรมดาและข้อผิดพลาดอันตรายยิ่งขึ้น

นโยบายและความเข้าใจสาธารณะ

ผู้กำกับดูแลและสาธารณชนมีปัญหาในการติดตามความสามารถของ AI เมื่อทุก autocomplete ที่แข็งแกร่งถูกตลาดว่าเป็น AGI เกิดปัญหาตามมา:

การกำกับดูแลผิดจุด: กฎหมายอาจมุ่งไปที่สถานการณ์ AGI สมมติในขณะที่ละเลยอันตรายจริงของระบบปัจจุบัน
การประเมินความเสี่ยงผิดพลาด: ผู้คนหรือจะตื่นตระหนกเรื่อง "superintelligence" หรือไม่ก็เมินเฉยปัญหา AI ทั้งหมดว่าเป็นแค่ฮิป

ทำไมคำที่ชัดเจนจึงสำคัญ

คำที่ชัดเจน—LLM, โมเดลแคบ, ทิศทางวิจัย AGI—ช่วยปรับความคาดหวังให้เป็นจริง ความชัดเจนเกี่ยวกับความสามารถและข้อจำกัด:

สนับสนุนการประเมินความปลอดภัยอย่างตรงไปตรงมา
เอื้อให้มีกฎเกณฑ์และมาตรฐานที่ดีขึ้น
ให้สาธารณชนเห็นความก้าวหน้าจริงโดยไม่ถูกหลอกว่าบรรลุ AGI แล้ว

ใช้ LLM ให้ชาญฉลาดในขณะที่มอง AGI อย่างสมเหตุสมผล

LLM เป็นเครื่องจักรทำนายรูปแบบที่ยอดเยี่ยม: บีบอัดข้อความจำนวนมากเป็นโมเดลสถิติและทำนายการต่อไป นั่นทำให้มันทรงพลังในการช่วยเขียน แก้โค้ด สำรวจข้อมูล และพัฒนาต้นแบบแนวคิด แต่สถาปัตยกรรมนี้ยังคงแคบ มันไม่ให้ตัวตนถาวร ความเข้าใจที่ฝังราก เป้าหมายระยะยาว หรือการเรียนรู้ข้ามโดเมนที่ยืดหยุ่นซึ่งนิยาม AGI

มอง LLM เป็นเครื่องมือ ไม่ใช่จิตใจ

LLM:

ไม่ เข้าใจ แบบมนุษย์; มันจัดการสัญลักษณ์โดยไม่มีแนวคิดที่ฝังราก
ไม่มี เป้าหมายหรือเจตนา; ทุกการแสดงเจตนาคือภาพลวงตาที่สร้างจากภาษา
ขาด ความจำและแบบจำลองโลกที่มั่นคง; มันคำนวณรูปแบบใหม่ทุกครั้งจากสแนปช็อตการฝึกและบริบทสั้น ๆ

ข้อจำกัดเชิงโครงสร้างเหล่านี้คือเหตุผลที่การขยายโมเดลข้อความอย่างเดียวไม่น่าจะให้ AGI จริง คุณอาจได้ความคล่องแคล่ว ความจำข้อมูลที่ดีขึ้น และการจำลองการให้เหตุผลที่น่าประทับใจ—แต่ไม่ใช่ระบบที่รู้ ต้องการ หรือใส่ใจจริง

แนวทางปฏิบัติสำหรับการใช้ LLM

ใช้ LLM ในงานที่การทำนายรูปแบบให้ผลดี เช่น:

ร่างข้อความ สรุป แก้ไข และแปล
สำรวจตัวเลือก ร่างโครง และระดมไอเดีย
ช่วยเขียนโค้ด สืบค้น และจัดทำเอกสาร

ให้มนุษย์อยู่ในวงสำหรับ:

ความถูกต้องของข้อเท็จจริงและการตัดสินใจสำคัญ
บริบททางจริยธรรมหรือความปลอดภัย
การวางแผนระยะยาว ความรับผิดชอบ และการตรวจสอบ

ปฏิบัติต่อผลลัพธ์เป็นสมมติฐานที่ต้องตรวจสอบ ไม่ใช่ความจริงที่เชื่อได้

มอง AGI ในมุมที่เหมาะสม

เรียก LLM ว่า "AGI" บดบังข้อจำกัดจริงและชวนให้พึ่งพาเกินไป ทำให้สับสนด้านกฎเกณฑ์ และกระตุ้นความหวาดกลัวที่ไม่จำเป็น เห็นพวกมันเป็นผู้ช่วยขั้นสูงที่ฝังในงานของมนุษย์จะซื่อสัตย์และปลอดภัยกว่า

ถ้าคุณอยากวิเคราะห์การใช้งานและการค้าขายเชิงปฏิบัติ ลองดูบทความอื่น ๆ ในบล็อกของเรา สำหรับรายละเอียดการจัดแพ็กเกจและการตั้งราคา ดูหน้าราคาและรายละเอียดการให้บริการของเรา

คำถามที่พบบ่อย

AGI (ปัญญาประดิษฐ์ทั่วไป) คืออะไรแน่?

AGI (Artificial General Intelligence) หมายถึงระบบที่สามารถ:

เรียนรู้และให้เหตุผลในหลายโดเมน (ไม่ใช่แค่งานเดียว)
ปรับตัวกับปัญหาใหม่ที่ไม่เคยถูกออกแบบมาให้แก้ได้
ตั้งและติดตามเป้าหมายด้วยตัวเองโดยมีการชี้แนะจากมนุษย์น้อยที่สุด
นำสิ่งที่เรียนรู้จากบริบทหนึ่งไปใช้ให้สำเร็จในบริบทที่ต่างกันได้

กฎคร่าว ๆ คือ AGI ควรจะสามารถเรียนงานที่ต้องใช้สติปัญญาได้เกือบทุกงานที่มนุษย์ทำได้ โดยไม่ต้องออกแบบสถาปัตยกรรมเฉพาะสำหรับแต่ละงาน

ทำไมโมเดลภาษาในปัจจุบันถึงไม่ถือเป็น AGI?

โมเดลภาษาขนาดใหญ่ปัจจุบัน:

ฝึกจากข้อความเป็นหลัก (บางครั้งรวมโค้ดหรือภาพ/เสียงด้วย)
ถูกออกแบบมาให้ทำนายโทเค็นถัดไปในลำดับข้อความ
ขาดการรับรู้ผ่านประสาทสัมผัส ร่างกาย เป้าหมายภายใน และความจำถาวร

พวกมันสามารถ จำลอง ความรู้และการให้เหตุผลได้เพราะภาษาบรรจุความเชี่ยวชาญของมนุษย์มากมาย แต่:

ไม่ได้มีแนวคิดที่ฝังกับประสบการณ์จริงในโลก
ไม่รักษาความเชื่อที่เปลี่ยนไปตามเวลา
ไม่สามารถวางแผนและลงมือทำอย่างอิสระข้ามช่วงเวลายาวๆ

ทำไมคนจำนวนมากถึงคิดว่า LLM จะเป็น AGI?

เหตุผลที่คนมักสับสน LLM กับ AGI คือ:

การสนทนาเป็นเครื่องมือหลักที่เราตัดสินจิตใจของผู้อื่น
LLM จัดการหลายโดเมนได้ในอินเทอร์เฟซเดียว (โค้ด เรียงความ อีเมล สรุป)
มันผ่านข้อสอบและเกณฑ์ที่มนุษย์ออกแบบไว้

ทั้งหมดนี้สร้าง ภาพลวงตา ของความเข้าใจและความมีเจตนา แต่เบื้องหลังยังเป็นแค่การทำนายข้อความตามรูปแบบในข้อมูล ไม่ใช่การสร้างแบบจำลองโลกที่มีเหตุผลเชิงสาเหตุเพื่อไล่ตามเป้าหมายของตัวเอง

LLM ทำงานอย่างไรใต้ฝากระโปรง?

คิดง่าย ๆ ว่า LLM คือ:

ฟังก์ชันขนาดใหญ่ที่แมปลำดับโทเค็นไปเป็นความน่าจะเป็นของโทเค็นถัดไป
ถูกฝึกโดยเห็นตัวอย่างนับล้านล้านและปรับน้ำหนักภายในให้พยากรณ์การต่อได้ดีขึ้น

ประเด็นสำคัญ:

มันไม่เก็บข้อเท็จจริงแบบฐานข้อมูล
มันเข้ารหัส ความสม่ำเสมอเชิงสถิติ ของภาษา
มันไม่มีแนวคิดเรื่องความจริงโดยตรง มีเพียงความเป็นไปได้ตามข้อความที่ผ่านมา

LLM ถนัดอะไรและมีจุดอ่อนตรงไหน?

LLM เก่งเมื่อภารกิจคือการทำนายรูปแบบข้อความหรือโค้ด เช่น:

ร่าง แก้ไข และสรุปเอกสาร
แปลภาษาและปรับสไตล์
สร้างโค้ด รีแฟคเตอร์ และอธิบาย
ระดมความคิดหรือร่างกลยุทธ์

พวกมันมีปัญหาเมื่อภารกิจต้องการ:

ถ้าการขยายขนาดช่วยได้มาก ทำไม LLM ที่ใหญ่ขึ้นจะไม่กลายเป็น AGI?

“กฎการขยายขนาด” แสดงว่าเมื่อเพิ่มขนาดโมเดล ข้อมูล และคอมพิวต์ ประสิทธิภาพบนหลายดัชนีจะดีขึ้น แต่การขยายขนาดเพียงอย่างเดียวไม่แก้ช่องว่างเชิงโครงสร้าง เช่น:

ไม่มีการรับรู้หรือการมีร่างกาย
ไม่มีตัวตนถาวร เป้าหมาย หรือประวัติชีวิต
ไม่มีวงจรการปฏิบัติการ-สังเกต-แก้ไขโดยตรง

การขยายขนาดให้:

คล่องแคล่วขึ้นและครอบคลุมรูปแบบในข้อความมากขึ้น
จำลองการให้เหตุผลและความเชี่ยวชาญได้แนบเนียนขึ้น

แต่มันไม่ทำให้เกิดความฉลาดทั่วไปที่เป็นอิสระในทันที ต้องมีส่วนประกอบสถาปัตยกรรมและการออกแบบระบบใหม่ๆ เพิ่มเติม

วันนี้ควรใช้ LLM อย่างไรโดยไม่ให้พึ่งพามากเกินไป?

ใช้ LLM ให้เป็นผู้ช่วย ไม่ใช่ผู้เชี่ยวชาญอ้างอิง:

ถือผลลัพธ์เป็น ร่างหรือสมมติฐาน ไม่ใช่ความจริงแน่นอน
มีมนุษย์เข้ามาตรวจสอบในการตัดสินใจที่มีความเสี่ยงสูง (การแพทย์ กฎหมาย การเงิน)
จับคู่กับเครื่องมือตรวจสอบ (ค้นหา เครื่องคิดเลข IDE) เพื่อยืนยัน
บันทึกและทบทวนการใช้งานใน workflow ที่อ่อนไหว

ออกแบบระบบเพื่อให้โมเดลเสริมการตัดสินใจของมนุษย์ แทนการทดแทน มีเส้นทางการยกระดับเมื่อโมเดลไม่แน่ใจหรือผิดพลาด และสื่อสารข้อจำกัดของโมเดลให้ผู้ใช้เข้าใจ

ทำไมจึงอันตรายหากมองหรือทำการตลาดว่า LLM เป็น AGI?

การเรียก LLM ว่า “AGI” มีความเสี่ยงหลายอย่าง:

ความเชื่อมั่นเกินควร: ผู้ใช้คิดว่ามีความเข้าใจมนุษย์และความน่าเชื่อถือที่ไม่มีจริง
สัญญาณการลงทุนผิดพลาด: เงินและคนงานไหลตามคำอวดอ้าง แทนการลงทุนด้านฐานรากเชิงเหตุผล ความปลอดภัย และความสามารถในการตีความ
ความสับสนด้านกฎข้อบังคับ: ผู้กำหนดนโยบายอาจจับผิดประเด็น AGI สมมติในขณะที่มองข้ามอันตรายที่เกิดขึ้นจริงตอนนี้ (อคติ ข้อมูลผิด ข่าวปลอม การพึ่งพามากเกิน)

ภาษาที่แม่นยำกว่า—เช่น “LLM”, “โมเดลเฉพาะทาง”, “ระบบที่ใช้ LLM”—ช่วยปรับความคาดหวังให้สอดคล้องกับความเสี่ยงและความสามารถจริง

เราจะรู้ได้อย่างไรว่าเราได้สร้าง AGI จริงๆ?

การพิสูจน์ว่าเป็น AGI ควรไปไกลกว่าแค่การคุยเก่ง เราน่าจะต้องเห็น:

ความเป็นอิสระ: ตั้งและจัดการเป้าหมายย่อยเอง ฟื้นตัวจากความล้มเหลวโดยไม่ต้องคอยชี้แนะ
การถ่ายโอน: ทักษะจากโดเมนหนึ่งนำไปใช้ในโดเมนต่างกันได้โดยไม่ต้องฝึกใหม่จำนวนมาก
ความสามารถในโลกจริง: วางแผนและลงมือในสภาพแวดล้อมจริงที่ไม่แน่นอนทั้งทางกายภาพ สังคม และดิจิทัล
การเรียนรู้อย่างต่อเนื่อง: ปรับแบบจำลองภายในจากประสบการณ์จริง ไม่ใช่แค่ฝึกซ้ำเป็นชุด

LLM ปัจจุบัน แม้จะถูกห่อด้วยกรอบเอเจนต์ ต้องพึ่งสคริปต์และการรวมเครื่องมือจากมนุษย์มาก และยังขาดความแข็งแกร่งและทั่วไปที่ต้องการ

ถ้า LLM อย่างเดียวไม่พอ ทางเป็นไปได้อะไรที่นักวิจัยกำลังสำรวจเพื่อมุ่งสู่ AGI?

นักวิจัยสำรวจเส้นทางที่ LLM เป็นเพียงส่วนประกอบของระบบที่ใหญ่กว่า เช่น:

สถาปัตยกรรมเอเจนต์ที่เพิ่มความจำ การวางแผน และการจัดการเครื่องมือรอบ LLM
การออกแบบให้เรียกใช้ API ฐานข้อมูล และซิมูเลเตอร์ภายนอก
โมเดลหลายสื่อและระบบมีการมีรูปร่าง (embodied) ที่รวมการรับรู้และการกระทำเข้าด้วยกัน

แนวทางเหล่านี้เพิ่มการฝังราก ความเข้าใจเชิงสาเหตุ และสถานะต่อเนื่อง แต่คำถามเปลี่ยนเป็น: “ระบบซับซ้อนที่รวม LLM จะเลียนแบบพฤติกรรมแบบ AGI ได้หรือไม่?” แทนที่จะถามว่า LLM เดียวจะเป็น AGI ได้ไหม