Question 1

Transformer คืออะไรในภาษาง่าย ๆ?

Accepted Answer

Transformer คือสถาปัตยกรรมเครือข่ายประสาทสำหรับข้อมูลแบบลำดับที่ใช้ self-attention เพื่อให้แต่ละโทเค็นเชื่อมความสัมพันธ์กับโทเค็นอื่น ๆ ภายในอินพุตเดียวกันได้

แทนที่จะสะสมข้อมูลทีละก้าว (แบบ RNNs/LSTMs) มันสร้างบริบทโดยการตัดสินใจว่า ควรให้ความสำคัญกับอะไร ทั่วทั้งลำดับ ซึ่งช่วยให้เข้าใจความสัมพันธ์ระยะไกลได้ดีขึ้นและทำให้การเทรนสามารถขนานกันได้ง่ายขึ้น

Question 2

ทำไม Transformers ถึงมาแทน RNNs และ LSTMs สำหรับหลายงาน NLP?

Accepted Answer

RNNs และ LSTMs ประมวลผลข้อความ ทีละโทเค็น ทำให้การเทรนยากต่อการขนานและสร้างคอขวดสำหรับความสัมพันธ์ระยะไกล Transformers ใช้ attention เพื่อเชื่อมโทเค็นที่อยู่ไกลกันโดยตรง และสามารถคำนวณการปฏิสัมพันธ์ระหว่างโทเค็นหลายคู่พร้อมกันในช่วงการเทรน—ทำให้สามารถสเกลได้เร็วขึ้นด้วยข้อมูลและการคำนวณที่มากขึ้น

Question 3

Attention คืออะไร และควรคิดอย่างไรถึงมัน?

Accepted Answer

Attention คือกลไกที่ตอบคำถาม: "โทเค็นอื่น ๆ ตัวไหนสำคัญที่สุดสำหรับการเข้าใจโทเค็นนี้ตอนนี้?" คิดว่ามันเหมือนการดึงข้อมูลภายในประโยค: - query ถามว่าต้องการข้อมูลแบบไหน - keys แสดงสิ่งที่แต่ละโทเค็นมีให้ - values คือข้อมูลที่จะถูกผสมเข้าด้วยกัน ผลลัพธ์คือการผสมถ่วงน้ำหนักของโทเค็นที่เกี่ยวข้อง ให้แต่ละตำแหน่งมีการแทนค่าที่รับรู้บริบท

Question 4

ความแตกต่างระหว่าง attention กับ self-attention คืออะไร?

Accepted Answer

Self-attention หมายความว่าโทเค็นภายในลำดับหันไปให้ความสนใจกับ โทเค็นอื่น ๆ ในลำดับเดียวกัน นี่คือเครื่องมือหลักที่ช่วยให้โมเดลแก้ปัญหาเช่น coreference (เช่น "it" อ้างถึงอะไร), ความสัมพันธ์ประธาน–กิริยาข้ามประโยค และพึ่งพาที่อยู่ไกลในข้อความ—โดยไม่ต้องส่งทุกอย่างผ่าน “ความจำ” แบบลำดับเดียว

Question 5

ทำไม Transformers ถึงใช้ multi-head attention?

Accepted Answer

Multi-head attention รันการคำนวณ attention หลายตัวพร้อมกัน และแต่ละหัวสามารถเชี่ยวชาญรูปแบบที่ต่างกันได้

ในทางปฏิบัติ หัวต่าง ๆ มักให้ความสนใจในความสัมพันธ์ที่ต่างกัน (ไวยากรณ์, การเชื่อมโยงระยะไกล, การแก้คำสรรพนาม, สัญญาณหัวข้อ) แล้วโมเดลรวมมุมมองเหล่านี้เข้าด้วยกันเพื่อให้สามารถแทนโครงสร้างหลายแบบพร้อมกันได้

Question 6

ถ้า attention มองทุกอย่าง โมเดลจะรู้ลำดับคำได้อย่างไร?

Accepted Answer

Self-attention เพียงอย่างเดียวไม่ได้รู้ลำดับของคำ—ถ้าสลับคำ โมเดลธรรมดาอาจมองว่าเป็นไปได้เท่าเทียม

Positional encodings แทรกสัญญาณตำแหน่งลงใน embedding ของโทเค็นเพื่อให้โมเดลเรียนรู้รูปแบบเช่น "คำที่ตามหลัง not มีความสำคัญ" หรือโครงสร้างประธานก่อนกริยา

ตัวเลือกทั่วไปได้แก่ sinusoidal (แบบคงที่), learned absolute positions, และวิธี relative/rotary

Question 7

ภายใน Transformer block นอกจาก attention มีอะไรอีก?

Accepted Answer

บล็อก Transformer ส่วนใหญ่รวม: - Attention : ย้ายข้อมูล ระหว่างโทเค็น - FFN/MLP : ประมวลผลข้อมูล ภายในแต่ละโทเค็น - Residual connections : ช่วยให้ gradient ไหลและให้เลเยอร์ปรับปรุงทีละน้อย - Layer normalization : ทำให้การกระจายค่าเสถียรเมื่อผ่านชั้นลึก ๆ การซ้อนบล็อกหลาย ๆ ชั้นจึงให้ความลึกที่ช่วยให้เกิดฟีเจอร์ที่ซับซ้อนและพฤติกรรมที่แข็งแรงเมื่อสเกลขึ้น

Question 8

Encoder–decoder กับ decoder-only: แบบไหนที่ LLMs ใช้?

Accepted Answer

ต้นฉบับใน Attention Is All You Need เป็นสถาปัตยกรรม encoder–decoder : - encoder อ่านอินพุตแบบสองทิศทาง - decoder สร้างผลลัพธ์โดยใช้ cross-attention ไปยัง encoder LLMs สมัยใหม่ส่วนใหญ่เป็น decoder-only ฝึกให้ทำนายโทเค็นถัดไปโดยใช้ causal (masked) self-attention ซึ่งสอดคล้องกับการสร้างข้อความจากซ้ายไปขวาและสเกลได้ดีบนคอร์ปัสขนาดใหญ่

Question 9

บทบาทของ Noam Shazeer ในการสร้าง Transformer คืออะไร?

Accepted Answer

Noam Shazeer เป็น ผู้เขียนร่วม ในบทความปี 2017 "Attention Is All You Need" ซึ่งแนะนำสถาปัตยกรรม Transformer ถูกต้องที่จะกล่าวว่าเขาเป็นผู้ร่วมมีส่วนสำคัญ แต่สถาปัตยกรรมนี้ถูกพัฒนาขึ้นโดย ทีม ที่ Google ผลกระทบที่แท้จริงยังมาจากการปรับปรุงและงานติดตามผลที่ชุมชนและอุตสาหกรรมสร้างขึ้นต่อจากแนวคิดต้นฉบับ

Question 10

เพราะเหตุใดหน้าต่างบริบทขนาดยาวถึงแพง และทีมสามารถจัดการอย่างไร?

Accepted Answer

สำหรับอินพุตยาว ๆ self-attention แบบมาตรฐานมีค่าใช้จ่ายสูง เพราะการเปรียบเทียบโตขึ้นโดยประมาณตามกำลังสองของความยาวลำดับ ซึ่งส่งผลต่อหน่วยความจำและการคำนวณ

แนวทางปฏิบัติที่ทีมสามารถใช้ได้รวมถึง:

เลือกโมเดลที่มีหน้าต่างบริบทขนาดใหญ่เป็นพื้นฐาน
ใช้ RAG (ดึงเฉพาะชิ้นที่เกี่ยวข้องแทนยัดทุกอย่างเข้าไป)
ใช้วิธี long-context variants (มักเป็น sparse/efficient attention)
วัดการแลกเปลี่ยน: latency, ต้นทุนต่อโทเค็น, และความแม่นยำบนภารกิจจริง

Noam Shazeer และสถาปัตยกรรม Transformer เบื้องหลัง LLMs

ทำไม Transformer ยังสำคัญ

ทำไมคุณถึงเจอ Transformer บ่อย

สิ่งที่จะได้เรียนรู้ในบทความนี้

ควรคาดหวังอะไร (และไม่ควรคาดหวัง)

บทบาทของ Noam Shazeer ในเรื่องราวของ Transformer

สิ่งที่บทความปี 2017 เปลี่ยนแปลง

จากแนวคิดวิจัยสู่บล็อกของการพัฒนา

การให้เครดิตอย่างแม่นยำ

สิ่งที่มาก่อน: RNNs, LSTMs และข้อจำกัดของพวกมัน

ภาพรวดเร็วของการทำงาน

ทำไมการพึ่งพาแบบระยะไกลจึงยาก

ความท้าทายด้านการเทรนและการสเกล

แรงจูงใจสำหรับแนวทางที่ขนานได้มากขึ้น

Attention อธิบายโดยไม่ใช้คณิตศาสตร์

แนวคิด "ค้นหาแล้วดึง"

คะแนนความเกี่ยวข้อง → น้ำหนัก attention

ตัวอย่างง่าย ๆ (คำสรรพนามและไวยากรณ์)

Self-Attention: กลไกหลัก

โทเค็นที่ให้ความสนใจกับโทเค็น

วิธีที่สร้างบริบท

ทำไมการเทรนขนานได้

ทำไมมันแข็งแกร่งกับความสัมพันธ์ระยะไกล

Multi-Head Attention: หลายมุมมองของประโยคเดียวกัน

ทำไมมุมมอง attention เดียวอาจไม่พอ

หลายหัวทำอะไรได้บ้าง

วิธีรวมหัวต่าง ๆ

คำถามที่พบบ่อย