การออกแบบระบบเอเจนต์ให้ไม่ล้มเมื่อใช้งานจริง

Q: How do I make an agent predictable and easy to debug?

ให้ LLM ทำงานภายใน กรอบที่ชัดเจน แทนวงลูปแบบเสรี: - จำลองเอเจนต์เป็น state machine ที่มีสถานะจำกัดและการเปลี่ยนสถานะที่อนุญาต - ใช้ LLM สำหรับการตัดสินใจระดับท้องถิ่นเท่านั้น (เช่น จะเรียกเครื่องมืออะไรต่อ เติมพารามิเตอร์อย่างไร) ไม่ใช่ให้คิดกระบวนการทั้งหมดเอง - เก็บสถานะภายนอกเพื่อให้ทุกการเปลี่ยนสถานะสามารถ replay และตรวจสอบได้ - ทำให้เอเจนต์มีขนาดเล็กและมีจุดมุ่งหมายชัดเจน: งานหนึ่งงานและตัวชี้วัดความสำเร็จหลักหนึ่งตัว วิธีนี้ช่วยให้คุณอธิบาย ทดสอบ และดีบักพฤติกรรมทีละขั้น แทนที่จะไล่ตาม "ความคิด" ของเอเจนต์ที่ไม่โปร่งใส

Q: What is the right way to manage memory and state for agents?

แยกระหว่าง สถานะระยะสั้น กับ หน่วยความจำระยะยาว และถือว่า LLM เป็นฟังก์ชันที่ไร้สถานะ - ใช้สถานะระยะสั้นสำหรับสิ่งที่ต้องการเพื่อจบงานปัจจุบัน: เป้าหมายที่ใช้งานอยู่ ขั้นตอนปัจจุบัน ผลลัพธ์จากเครื่องมือ และตัวนับ retry - เก็บหน่วยความจำระยะยาว (เช่น โปรไฟล์ผู้ใช้ ประวัติโปรเจกต์) ในสตอร์ภายนอกด้วยสกีมาเชิงโครงสร้าง ไม่ใช่การเก็บทรานสคริปต์ดิบ - ถือว่า LLM เป็นฟังก์ชันบริสุทธิ์ที่ทำงานบนอ็อบเจ็กต์สถานะ: โหลดสถานะที่เกี่ยวข้อง สร้าง prompt เรียกโมเดล แล้ว persist สถานะที่อัปเดต หลีกเลี่ยงการใช้ raw logs หรือประวัติการสนทนาเป็นหน่วยความจำโดยตรง ให้สกัดเป็นระเบียนเชิงโครงสร้างที่กะทัดรัดพร้อมนโยบายการเก็บรักษาและความเป็นส่วนตัว

เข้าสู่ระบบ เริ่มต้นใช้งาน

การออกแบบระบบเอเจนต์ให้ไม่ล้มเมื่อใช้งานจริง | Koder.ai

จากงานสาธิตที่น่าประทับใจสู่เอเจนต์ที่เปราะบางใน production

ระบบเอเจนต์คือแอปพลิเคชันที่ LLM ไม่ได้แค่ตอบ prompt แต่ ตัดสินใจว่าจะทำอะไรต่อ: เรียกเครื่องมือไหน ดึงข้อมูลอะไร ทำขั้นตอนไหน และเมื่อไรที่ถือว่า “เสร็จ” พวกมันรวมโมเดล ชุดเครื่องมือ (API, ฐานข้อมูล, บริการ), วงจรการวางแผน/ใช้งาน และโครงสร้างพื้นฐานที่เชื่อมทุกอย่างเข้าด้วยกัน

ในงานสาธิต สิ่งนี้ดูเหมือนเวทมนตร์: เอเจนต์วางแผน เรียกเครื่องมือไม่กี่ครั้ง แล้วคืนผลลัพธ์ที่เพอร์เฟ็กต์ เส้นทางที่ราบรื่น หน่วงเวลาต่ำ และไม่มีอะไรล้มเหลวพร้อมกัน

ทำไมนิทรรศการถึงสำเร็จแต่ production ล้มเหลว

ในโหลดงานจริง เอเจนต์เดียวกันถูกกดดันในแบบที่งานสาธิตไม่เคยเจอ:

API เกิด timeout คืนข้อมูลบางส่วน หรือสัญญา (contract) เปลี่ยน
คำขอหลายรายการแข่งใช้ทรัพยากรร่วมและทำให้สถานะคอร์รัปต์
การสนทนาที่ยาวขึ้นทำให้บริบทบวมและเกินขีดจำกัดคอนเท็กซ์
ข้อผิดพลาดเล็ก ๆ จากโมเดลทับซ้อนกันผ่านการเรียกเครื่องมือหลายครั้ง

ผลลัพธ์คือพฤติกรรมที่ไม่เสถียร ยากจะทำซ้ำ ข้อมูลเสียเงียบ และการใช้งานที่บางครั้งค้างหรือวนไม่จบ

ผลกระทบทางธุรกิจจริง

เอเจนต์ที่ไม่เสถียรไม่ใช่แค่ทำให้ผู้ใช้ไม่พอใจ แต่ยัง:

ก่อให้เกิด incident และการโทรแจ้งผู้รับผิดชอบ
ผลิตคำตอบผิดที่เล็ดรอดไปยังระบบลงต่อ
ทำลายความเชื่อมั่นของผู้ใช้: คนหยุดพึ่งพาฟีเจอร์นั้นโดยเงียบ ๆ
พุ่งค่าใช้จ่ายคลาวด์จาก retry และลูปที่วิ่งไม่หยุด

บทความนี้มุ่งเน้นอะไร

บทความนี้เน้นที่ รูปแบบวิศวกรรม ไม่ใช่แค่ "prompt ที่ดีกว่า" เราจะดู state machines, สัญญาเครื่องมือที่ชัดเจน, กลยุทธ์ retry และการจัดการความล้มเหลว, การควบคุมหน่วยความจำและความขนาน, และรูปแบบ observability ที่ทำให้ระบบเอเจนต์ทำนายได้ภายใต้ภาระงาน — ไม่ใช่แค่สร้างความประทับใจบนเวที

ทำไมสถาปัตยกรรมเอเจนต์ส่วนใหญ่จึงล้มเมื่อสเกลขึ้น

ระบบเอเจนต์ส่วนใหญ่ดูดีในสาธิตเส้นทางเดียวที่สำเร็จ แต่จะล้มเมื่อมีทราฟฟิก เครื่องมือ และกรณีขอบมาพร้อมกัน

พฤติกรรมเปราะบาง: ลูป หยุดชะงัก งานที่ทำไม่เสร็จ ข้อผิดพลาดเงียบ

การออร์เคสตราแบบตื้นเขินสมมติว่าโมเดลจะ "ทำสิ่งที่ถูกต้อง" ในการเรียกหนึ่งหรือสองครั้ง แต่ในการใช้งานจริง คุณจะเห็นรูปแบบซ้ำ ๆ:

ลูป: เอเจนต์รันแผนซ้ำหรือเรียกเครื่องมือเดิมซ้ำเพราะไม่รู้จักการจบหรือการล้มเหลว
หยุดชะงัก: เอเจนต์รอเครื่องมือหรือ subtasks โดยไม่มี timeout ทำให้เซสชันผู้ใช้ค้าง
งานทำไม่สมบูรณ์: เอเจนต์ทำงานครึ่งทาง (เช่น ร่างอีเมลแต่ไม่ส่ง สร้างแผนแต่ไม่ลงมือทำ)
ข้อผิดพลาดเงียบ: เครื่องมือผิดพลาดหรือสกีมาไม่ตรง แต่เอเจนต์ยังคงคืนคำตอบที่ฟังดูเชื่อถือได้แต่ข้อมูลขาดหรือผิด

โดยไม่มีสถานะที่ชัดเจนและเงื่อนไขการยุติ พฤติกรรมเหล่านี้หลีกเลี่ยงไม่ได้

ความไม่แน่นอนที่ซ่อนอยู่และความไม่น่าเชื่อถือของเครื่องมือ

การสุ่มของ LLM ความแปรผันของหน่วงเวลา และเวลาในการตอบของเครื่องมือสร้าง ความไม่แน่นอนที่ซ่อนอยู่ อินพุตเดียวกันอาจพาไปยังสาขาต่างกัน เรียกเครื่องมือต่างกัน หรือแปลผลลัพธ์ของเครื่องมือต่างกัน

เมื่อสเกลขึ้น ปัญหาเครื่องมือจะกลายเป็นตัวกำหนด:

Timeout และความเปราะจาก upstream APIs และฐานข้อมูล
Schema drift ระหว่างสัญญาเครื่องมือกับสิ่งที่บริการคืนจริง
ฟอร์แมตข้อผิดพลาดที่ไม่สอดคล้องกัน ซึ่งเอเจนต์ไม่ได้ถูกสอนให้จัดการ

ทุกประเด็นเหล่านี้นำไปสู่ลูปซ้ำ retry ที่ไม่จำเป็น หรือคำตอบสุดท้ายที่ผิด

ความขนานเพิ่มความรุนแรงของกรณีขอบและความไม่สอดคล้องกับผลิตภัณฑ์

สิ่งที่ไม่พังที่ 10 RPS จะพังบ่อยเมื่อเป็น 1,000 RPS ความขนานเปิดเผย:

เงื่อนไข race บนสถานะหรือแคชที่ใช้ร่วมกัน
การใช้โควต้าจนหมดทำให้เครื่องมือล้มเป็นทอดๆ
ฝูง retry ที่เกิดจากบั๊กลิงก์เดียว

ทีมผลิตภัณฑ์มักคาดหวังเวิร์กโฟลว์เชิงกำหนดการ SLA ที่ชัดเจน และการตรวจสอบย้อนหลัง เอเจนต์ที่ปล่อยไว้อย่างไม่จำกัดจะให้พฤติกรรมแบบ ความน่าจะเป็นและพยายามดีที่สุด โดยรับประกันน้อย

เมื่อสถาปัตยกรรมมองข้ามความไม่ตรงกันนี้—มองเอเจนต์เหมือนบริการแบบเดิมแทนที่จะเป็นตัววางแผนเชิงสถิติ—ระบบจะพฤติกรรมไม่คาดคิดเมื่อความน่าเชื่อถือสำคัญที่สุด

หลักการออกแบบสำหรับระบบเอเจนต์ที่พร้อมใช้งานใน production

เอเจนต์ที่พร้อมใช้งานใน production เน้นการออกแบบระบบที่มีวินัย มากกว่าการพึ่งพา "prompt ฉลาด" วิธีคิดที่มีประโยชน์คือมองพวกมันเป็นเครื่องเล็ก ๆ ที่คาดเดาได้ซึ่งบางครั้งเรียก LLM ไม่ใช่ก้อนลึกลับของ LLM ที่บางครั้งสัมผัสระบบของคุณ

อะไรทำให้เอเจนต์พร้อมใช้งานใน production?

คุณสมบัติสำคัญ 4 ประการ:

ความปลอดภัย: เอเจนต์ต้องเคารพข้อจำกัดในการเข้าถึงข้อมูล ผลข้างเคียง และสัญญากับผู้ใช้ เช่น สิทธิ์ที่ชัดเจน guardrail ของเครื่องมือ และจัดการเอาต์พุตที่ไม่เชื่อถือได้อย่างรอบคอบ
ความคาดเดาได้: ด้วยอินพุตและสถานะเดียวกัน เอเจนต์ควรพฤติกรรมภายในช่วงที่คาดหวัง คุณควรอธิบายได้ว่าเอเจนต์ ทำอะไรได้ และ ทำอะไรไม่ได้
การดีบักได้ง่าย: เมื่อมีข้อผิดพลาด คุณต้องติดตามเส้นทางได้: อยู่ในสถานะใด การตัดสินใจใด เรียกเครื่องมือใด การเรียกโมเดลใด ไม่มีลูปซ่อนเร้น ไม่มี "ความคิด" ที่ไม่เป็นโครงสร้าง
ความทนทานต่อการเปลี่ยนแปลง: คุณสามารถอัปเกรดโมเดล เครื่องมือ หรือนโยบายโดยไม่ต้องเขียนระบบใหม่ทั้งหมด

คุณสมบัติเหล่านี้ไม่ได้มาจาก prompt เพียงอย่างเดียว แต่อยู่ในโครงสร้าง

เลือกเวิร์กโฟลว์ที่ชัดเจนแทนลูปแบบอิสระ

รูปแบบเริ่มต้นที่หลายทีมใช้คือ: "while not done, call the model, let it think, maybe call a tool, repeat" ซึ่งง่ายสำหรับการพัฒนาแต่ยากในเชิงปฏิบัติการ

รูปแบบที่ปลอดภัยกว่าคือแทนที่ด้วย เวิร์กโฟลว์แบบชัดเจน:

กำหนดชุดสถานะจำนวนน้อย (เช่น COLLECTING_INPUT, PLANNING, EXECUTING_STEP, WAITING_ON_HUMAN, DONE)
กำหนดการเปลี่ยนสถานะที่อนุญาตระหว่างสถานะเหล่านั้น
ใช้ LLM ส่วนใหญ่สำหรับ การตัดสินใจท้องถิ่น: เลือกสถานะถัดไป เลือกเครื่องมือ หรือเติมพารามิเตอร์

วิธีนี้แปลงเอเจนต์เป็น state machine ที่ทุกขั้นตอนตรวจสอบได้ ทดสอบได้ และ replay ได้ ลูปแบบอิสระอาจให้ความยืดหยุ่น แต่เวิร์กโฟลว์ที่ชัดเจนคือสิ่งที่จะทำให้ incident ดีบักได้และพฤติกรรมตรวจสอบได้

แยก "god agent" ออกเป็นทักษะย่อย

เอเจนต์โมโนลิทิกที่ "ทำทุกอย่าง" แม้จะดูดึงดูดแต่สร้างการเชื่อมโยงแน่นเกินไประหว่างความรับผิดชอบที่ต่างกัน เช่น การวางแผน การดึงข้อมูล โลจิกทางธุรกิจ การออร์เคสตรา UI เป็นต้น

ให้ประกอบด้วย เอเจนต์หรือสกิลขนาดเล็กที่มีขอบเขตชัดเจน:

planner ที่แยกงานออกเป็นขั้นตอน
executor ที่รันขั้นตอนที่เป็นรูปธรรม
ผู้เชี่ยวชาญแต่ละโดเมน (billing, support, analytics ฯลฯ)

แต่ละสกิลสามารถมี state machine ของตัวเอง เครื่องมือ และกฎความปลอดภัย การประกอบกันของสกิลเหล่านี้จะกลายเป็นเวิร์กโฟลว์ระดับบน ไม่ใช่ prompt ที่โตขึ้นเรื่อย ๆ ในเอเจนต์เดียว

ความโมดูลาร์นี้ทำให้แต่ละเอเจนต์ง่ายพอที่จะใคร่ครวญและพัฒนาความสามารถเฉพาะโดยไม่ทำให้ส่วนอื่นล้มตาม

แยกนโยบาย สถานะ และเครื่องมือ

รูปแบบทางความคิดที่มีประโยชน์คือแยกเอเจนต์เป็นสามชั้น:

นโยบายการตัดสินใจ (LLM prompts + model)
ครอบคลุม วิธีที่ เอเจนต์เลือกการกระทำถัดไป ภายใต้ข้อจำกัดเข้มงวด ควรสามารถสลับโมเดล ปรับอุณหภูมิ หรือปรับ prompts โดยไม่แตะ wiring ของระบบ
state machine / workflow engine
เป็นเจ้าของ ตำแหน่ง ในกระบวนการ การเปลี่ยนสถานะที่เป็นไปได้ และวิธีเก็บความคืบหน้า นโยบายเสนอการเคลื่อนไหว; state machine ตรวจสอบและประยุกต์ใช้
ชั้นเครื่องมือ
ทำหน้าที่ สิ่งที่ สามารถเกิดขึ้นจริงในโลก: API, ฐานข้อมูล, คิว, บริการภายนอก เครื่องมือเผยสัญญาแคบ ๆ แบบ typed และบังคับ authorization, rate limits และ validation

การบังคับแยกชั้นนี้ช่วยหลีกเลี่ยงการซ่อนโลจิกทางธุรกิจใน prompt หรือคำอธิบายเครื่องมือ ทำให้ LLM เป็นส่วนตัดสินใจภายในเปลือก deterministic ที่ชัดเจน ไม่ใช่เปลือกเอง

ออกแบบให้เล็กและชัดเจน

ระบบเอเจนต์ที่เชื่อถือได้ที่สุดไม่ใช่งานสาธิตที่ยิ่งใหญ่ที่สุด แต่เป็นระบบที่คุณอธิบายได้บนไวท์บอร์ด

ข้อปฏิบัติ:

ให้แต่ละเอเจนต์มุ่งหน้าที่เดียวและตัวชี้วัดความสำเร็จหลักหนึ่งอย่าง
เข้ารหัสเวิร์กโฟลว์และการเปลี่ยนสถานะอย่างชัดเจน แทนที่จะอธิบายเป็นข้อความธรรมดา
ให้ LLM เลือก ระหว่าง ตัวเลือกที่กำหนดไว้ดีแล้ว แทนให้คิดขั้นตอนวิธีทั้งหมดตั้งแต่ต้น

การเอียงไปทางเอเจนต์ที่เล็ก ประกอบได้ และมีโครงสร้างดีช่วยให้ระบบขยายขอบเขตโดยไม่ล้มด้วยความซับซ้อนของตนเอง

การมองเวิร์กโฟลว์ของเอเจนต์เป็น state machine ที่ชัดเจน

การใช้งานเอเจนต์ส่วนใหญ่เริ่มจากลูป "คิด ทำ สังเกต" อยู่รอบการเรียก LLM ซึ่งใช้ได้กับงานสาธิต แต่เปลือกแบบนี้จะทึบและเปราะเร็วกว่า แนวทางที่ดีกว่าคือให้เอเจนต์เป็น state machine ที่ชัดเจน: ชุดสถานะจำกัด กับการเปลี่ยนสถานะที่กำหนดโดยอีเวนต์

แทน flow ของเอเจนต์ด้วยสถานะและการเปลี่ยนสถานะ

แทนที่จะปล่อยให้โมเดลตัดสินใจโดยนัยว่าจะทำอะไรต่อ ให้กำหนดไดอะแกรมสถานะเล็ก ๆ:

PLAN – แปลคำขอผู้ใช้ แยกเป็นขั้นตอน เลือกเครื่องมือ
CALL_TOOL – รันการเรียกเครื่องมือเดียว (หรือเป็นชุด) ด้วยอินพุตที่ถูก validate
VERIFY – ตรวจผลลัพธ์เครื่องมือกับ invariants ง่าย ๆ หรือเช็คด้วยโมเดลรอง
RECOVER – จัดการข้อผิดพลาด: retry, fallback, หรือยกระดับ
DONE – คืนคำตอบสุดท้ายและปิดเวิร์กโฟลว์
FAILED – ข้อผิดพลาดปลายทางพร้อมเหตุผลและบริบทชัดเจน

การเปลี่ยนระหว่างสถานะเหล่านี้ถูกกระตุ้นด้วย อีเวนต์แบบมีชนิด เช่น UserRequestReceived, ToolCallSucceeded, ToolValidationFailed, TimeoutExceeded, หรือ HumanOverride ทุกอีเวนต์พร้อมสถานะปัจจุบันจะกำหนดสถานะถัดไปและการกระทำที่ตามมา

นี่ทำให้ retry และ timeout ตรงไปตรงมา: แนบ policy เฉพาะกับสถานะแต่ละตัว (เช่น CALL_TOOL อาจ retry 3 ครั้งแบบ exponential backoff, PLAN อาจไม่ retry เลย) แทนที่จะกระจาย logic ของ retry ทั่วโค้ดเบส

เก็บสถานะภายนอกเพื่อความทนทานและสเกล

เก็บสถานะปัจจุบันและคอนเท็กซ์ขั้นต่ำในสตอร์ภายนอก (ฐานข้อมูล คิว หรือ workflow engine) เอเจนต์จะกลายเป็นฟังก์ชันบริสุทธิ์:

next_state, actions = transition(current_state, event, context)

สิ่งนี้ทำให้เกิดประโยชน์:

ความทนทาน – ถ้า worker ตายกะทันหัน worker อื่นสามารถกลับมาทำงานต่อจากสถานะที่ persist ไว้
การสเกลแนวนอน – worker ที่ stateless จะรับอีเวนต์ อัปเดตสถานะ และปล่อยอีเวนต์ถัดไป
การ replay และการชดเชย – คุณสามารถสร้างรันซ้ำได้ ขับเคลื่อนซ้ำจากสถานะใดก็ได้ หรือรันการชดเชยเมื่อเวิร์กโฟลว์ต้องย้อนกลับ

ประโยชน์ในการสืบค้นเหตุผลและการตรวจสอบย้อนหลัง

ด้วย state machine ทุกขั้นตอนของพฤติกรรมเอเจนต์ชัดเจน: อยู่สถานะใด อีเวนต์ใดเกิด การเปลี่ยนใดทำงาน ผลข้างเคียงอะไรเกิดขึ้น ความชัดเจนนี้ทำให้การดีบักเร็วขึ้น ทำให้การสืบสวน incident ง่ายขึ้น และสร้างเส้นทางการตรวจสอบ (audit trail) ตามธรรมชาติสำหรับการตรวจสอบด้านการปฏิบัติตามข้อกำหนด คุณสามารถพิสูจน์จากล็อกและประวัติสถานะได้ว่าการกระทำที่มีความเสี่ยงถูกทำเฉพาะจากสถานะที่กำหนดและภายใต้เงื่อนไขที่ชัดเจน

ออกแบบสัญญา (tool contracts) ที่เชื่อถือได้สำหรับเอเจนต์

เอเจนต์ทำงานคาดเดาได้มากขึ้นเมื่อเครื่องมือไม่ดูเหมือน "API ที่ซ่อนในคำพูด" แต่เหมือนอินเทอร์เฟซที่ออกแบบมาอย่างดีมีการรับประกันชัดเจน

กำหนดสัญญา ไม่ใช่แค่ prompt

แต่ละเครื่องมือควรมีสัญญาที่ครอบคลุม:

สกีมาอินพุต: ฟิลด์ที่ต้องมี ประเภท ค่า enum ขอบเขต ค่าเริ่มต้น
สกีมาเอาต์พุต: payload เมื่อสำเร็จ ฟิลด์ที่สามารถเป็น null ได้ และความหมายของ "ไม่มีผลลัพธ์"
โมเดลข้อผิดพลาด: ข้อผิดพลาดแบบ typed (เช่น InvalidInput, NotFound, RateLimited, TransientFailure) พร้อมความหมายชัดเจน
SLA: ความคาดหวังด้านหน่วงเวลา เป้าหมายความพร้อมใช้งาน และข้อจำกัดอัตราเรียก

เผยสัญญานี้ต่อโมเดลเป็นเอกสารเชิงโครงสร้าง ไม่ใช่กำแพงของข้อความ planner ของเอเจนต์ควรรู้ว่าข้อผิดพลาดใด retry ได้ ข้อผิดพลาดใดต้องขอผู้ใช้ และข้อผิดพลาดใดควรหยุดเวิร์กโฟลว์

JSON เข้มงวดและการ validate ที่เคร่งครัด

ปฏิบัติต่อ I/O ของเครื่องมือเหมือน API ใน production:

ใช้ สกีมา JSON เข้มงวด (เช่น OpenAPI, JSON Schema) สำหรับอินพุตและเอาต์พุต
Validate ก่อนเรียก (เพื่อจับข้อผิดพลาดจากโมเดล) และ หลังเรียก (เพื่อตรวจการ regressions ของเครื่องมือ)
ซ่อมไขปัญหาเล็กน้อยอัตโนมัติ (เช่น การบังคับชนิด) แต่บันทึกไว้เพื่อตามปรับ

สิ่งนี้ช่วยให้ prompt สั้นลง: แทนคำสั่งยาว ๆ ให้พึ่งพาแนวทางที่ขับเคลื่อนด้วยสกีมา ข้อจำกัดชัดเจนลดการสร้างอาร์กิวเมนต์ที่ประสาทหลอนและลำดับการเรียกเครื่องมือที่ไม่มีความหมาย

การเวอร์ชันและความเข้ากันได้

เครื่องมือมีวิวัฒนาการ เอเจนต์ไม่ควรพังเมื่อเครื่องมือเปลี่ยน:

เวอร์ชันสัญญาเครื่องมือ (v1, v1.1, v2) และผูกเอเจนต์กับเวอร์ชัน
เลิกใช้ฟิลด์ทีละน้อย; ให้ยังอ่านฟิลด์เก่าได้สักระยะ
เพิ่มฟิลด์ในทางที่เข้ากันย้อนหลังได้; หลีกเลี่ยงการเปลี่ยนความหมายโดยเงียบ ๆ

โลจิกการวางแผนสามารถผสมเอเจนต์และเครื่องมือในระดับความโตที่ต่างกันได้อย่างปลอดภัย

จัดการความล้มเหลวและโหมด degraded

ออกแบบสัญญาโดยคำนึงถึง ความล้มเหลวบางส่วน:

อนุญาตผลลัพธ์บางส่วนพร้อมรายละเอียดข้อผิดพลาดต่อรายการ
กำหนดการตอบแบบ degraded (เช่น ข้อมูลแคช ประมาณการ หรือข้อมูลล้าสมัย) แทนการล้มเหลวแบบหนัก
ทำเครื่องหมายว่าฟิลด์ใดเป็น "best effort" และฟิลด์ใดเป็น "ต้องมี"

เอเจนต์จะปรับตัวได้: ดำเนินเวิร์กโฟลว์ด้วยฟังก์ชันการทำงานลดลง ขอการยืนยันจากผู้ใช้ หรือสลับไปใช้เครื่องมือสำรอง

ขอบเขตความปลอดภัยและการอนุญาต

สัญญาเครื่องมือเป็นที่ธรรมชาติในการเข้ารหัสข้อจำกัดด้านความปลอดภัย:

ระบุขอบเขตสิ่งที่เครื่องมือสามารถอ่านหรือแก้ไขได้
ต้องมีพารามิเตอร์ยืนยันสำหรับการกระทำที่ละเอียดอ่อน (เช่น confirm: true)
แยกระหว่างการดำเนินการตามผู้ใช้และการดำเนินการระบบ

รวมสิ่งนี้กับการตรวจสอบฝั่งเซิร์ฟเวอร์; อย่าเชื่อว่าโมเดลจะ "ประพฤติ" เสมอไป

ทำไมสัญญาที่ดีช่วยลดความซับซ้อนของเอเจนต์

เมื่อเครื่องมือมีสัญญาที่ชัดเจน ตรวจสอบได้ และเวอร์ชันได้ prompt จะสั้นลง ออร์เคสตราโลจิกจะง่ายขึ้น และการดีบักง่ายขึ้นมาก คุณย้ายความซับซ้อนจากคำอธิบายภาษาธรรมชาติที่เปราะเป็นสกีมาและนโยบายที่กำหนดผล จึงลดการเรียกเครื่องมือที่ประสาทหลอนและผลข้างเคียงที่ไม่คาดคิด

รูปแบบการ retry, idempotency, และการจัดการความล้มเหลว

Earn credits as you build

Publish what you build and earn credits for creating content about Koder.ai.

Earn Credits

ระบบเอเจนต์ที่เชื่อถือได้ถือว่าทุกอย่างจะล้มสักครั้ง: โมเดล เครื่องมือ เครือข่าย หรือแม้แต่ชั้นการประสานงานของคุณ เป้าหมายไม่ใช่หลีกเลี่ยงความล้มเหลว แต่ทำให้มันถูกจัดการได้ถูกและปลอดภัย

Idempotency: รากฐานของ retry ที่ปลอดภัย

Idempotency หมายความว่า: การทำคำขอซ้ำมีผลภายนอกเท่ากับการทำครั้งเดียว สิ่งนี้สำคัญสำหรับเอเจนต์ LLM ที่มักเรียกเครื่องมือซ้ำหลังความล้มเหลวบางส่วนหรือคำตอบคลุมเครือ

ทำให้เครื่องมือ idempotent ด้วยการออกแบบ:

Request IDs: ทุกการเรียกมี request_id คงที่ เครื่องมือเก็บและคืนผลลัพธ์เดิมเมื่อเห็น ID ซ้ำ
Upserts แทนการ insert: ใช้ semantics "create-or-update" โดยใช้ business key แทน primary auto-increment
Checksums และการเวอร์ชัน: แนบแฮชเนื้อหาหรือหมายเลขเวอร์ชันเพื่อให้เครื่องมือจับการซ้ำ อ่าน stale write หรือตรวจจับความขัดแย้งได้

ยุทธศาสตร์ retry ที่ไม่พุ่งค่าใช้จ่าย

ใช้ retry ที่มีโครงสร้างสำหรับความล้มเหลวชั่วคราว (timeout, rate limit, 5xx): exponential backoff, jitter เพื่อหลีกเลี่ยง thundering herd, และจำกัดจำนวนครั้งสูงสุด บันทึกทุกการพยายามพร้อม correlation IDs เพื่อให้ติดตามพฤติกรรมเอเจนต์ได้

สำหรับ ความล้มเหลวถาวร (4xx, validation errors, business rule violations) ห้าม retry ให้แสดงข้อผิดพลาดเชิงโครงสร้างต่อ policy ของเอเจนต์เพื่อให้มันสามารถปรับแผน ถามผู้ใช้ หรือเลือกเครื่องมืออื่นได้

Circuit breakers และ fallback

ติดตั้ง circuit breakers ทั้งที่ชั้นเอเจนต์และชั้นเครื่องมือ: หลังความล้มเหลวบ่อยครั้ง ให้บล็อกการเรียกเครื่องมือนั้นชั่วคราวและล้มเร็ว (fail fast) จับคู่กับ fallback ที่กำหนดชัดเจน: โหมด degraded, ข้อมูลแคช หรือเครื่องมือทางเลือก

หลีกเลี่ยงการ retry แบบตาบอดจากลูปเอเจนต์ หากไม่มีเครื่องมือ idempotent และคลาสข้อผิดพลาดที่ชัดเจน คุณจะเพิ่มผลข้างเคียง หน่วงเวลา และค่าใช้จ่ายโดยไม่จำเป็น

การจัดการหน่วยความจำ สถานะ และความสอดคล้องของข้อมูลสำหรับเอเจนต์

เอเจนต์ที่เชื่อถือได้เริ่มจากการคิดที่ชัดเจนเกี่ยวกับ อะไรคือสถานะ และ เก็บไว้ที่ไหน

สถานะระยะสั้น vs. ความจำระยะยาว

ปฏิบัติต่อเอเจนต์เหมือนบริการที่จัดการคำขอ:

สถานะระยะสั้น: ทุกอย่างที่จำเป็นเพื่อจบงานหรือซับทาส์ปัจจุบัน เช่น เป้าหมายที่กำลังทำ ขั้นตอนปัจจุบัน ผลลัพธ์เครื่องมือ การตัดสินใจบางส่วน และตัวแปรควบคุม (retry ที่เหลือ สาขาที่เลือก ฯลฯ) ควรมีขอบเขตแคบและทิ้งได้เมื่อเวิร์กโฟลว์เสร็จ
ความจำระยะยาว: ข้อมูลที่ต้องอยู่ข้ามรันและเซสชัน เช่น โปรไฟล์ผู้ใช้ ค่ากำหนด ประวัติการตัดสินใจ และทางลัดที่เรียนรู้

การผสมสองอย่างนี้นำไปสู่ความสับสนและบั๊ก เช่น การใส่ผลลัพธ์เครื่องมือชั่วคราวลงใน "memory" ทำให้เอเจนต์ใช้บริบทเก่าในการสนทนาครั้งถัดไป

จะเก็บสถานะไว้ที่ไหน

มีตัวเลือกหลักสามแบบ:

In-context (แค่ prompt) – เรียบง่าย หน่วงเวลาต่ำ แต่จำกัดและไม่ทนทาน เหมาะสำหรับสถานะระยะสั้นภายในรันเดียว
สตอร์ภายนอก – ฐานข้อมูล แคช หรือ vector store เหมาะสำหรับความจำระยะยาวและสถานะที่ต้องทนต่อการรีสตาร์ทหรือประสานงานข้าม worker
ไฮบริด – เก็บสถานะอำนาจในที่ภายนอก โหลดเฉพาะที่จำเป็นเข้ามาในคอนเท็กซ์สำหรับขั้นตอนถัดไป

กฎที่ดี: LLM เป็นฟังก์ชันไร้สถานะบนอ็อบเจ็กต์สถานะที่ชัดเจน เก็บอ็อบเจ็กต์นั้นข้างนอกโมเดลและสร้าง prompt จากมัน

หลีกเลี่ยง anti-pattern "logs as memory"

รูปแบบล้มเหลวจำนวนมากคือการใช้ logs, traces หรือ prompt เป็นหน่วยความจำโดยปริยาย

ปัญหา:

การดึงข้อมูลกลายเป็นวิธีการติดตามและเปราะ
ข้อเท็จจริงสำคัญถูกฝังในข้อความยาว
หลายรันอาจขัดแย้งกันโดยไม่มี "last write wins" ชัดเจน

ให้กำหนด สกีมา memory เชิงโครงสร้าง เช่น user_profile, project, task_history เป็นต้น สกัด logs จากสถานะแทนที่จะให้ logs เป็นแหล่งความจริง

ความสอดคล้องกับข้อมูลและเครื่องมือที่ใช้ร่วมกัน

เมื่อหลายเครื่องมือหรือหลายเอเจนต์อัปเดตเอนทิตีเดียวกัน (เช่น record CRM หรืองาน) คุณต้องมีการควบคุมความสอดคล้องพื้นฐาน:

ใช้ แหล่งความจริงเดียว สำหรับเอนทิตีสำคัญ
นิยามสัญญาเครื่องมือแบบ idempotent: เครื่องมือควรจัดการ retry ได้อย่างปลอดภัยโดยใช้ IDs คงที่และ semantics แบบ upsert
ใช้ optimistic concurrency (หมายเลขเวอร์ชัน timestamp) เมื่อเอเจนต์อาจแข่งกันอัปเดตบันทึกเดียวกัน

สำหรับการดำเนินการมูลค่าสูง ให้บันทึก decision log แยกจาก conversational log: อะไรเปลี่ยน ทำไม และอ้างอิงจากอินพุตใด

Snapshot และการเรียกใช้งานที่ resume ได้

เพื่อรอดจากการ crash, deploys และ rate limiting เวิร์กโฟลว์ควร resume ได้:

หลังแต่ละขั้นตอนสำคัญ ให้ persist snapshot ของสถานะ: ขั้นตอนปัจจุบัน อินพุต ผลลัพธ์เครื่องมือ และการกระทำที่ค้างอยู่
ทำให้ทุกการเปลี่ยนใน state machine สามารถ replay ได้จาก snapshot
เมื่อเกิดข้อผิดพลาดหรือรีสตาร์ท ให้โหลด snapshot ล่าสุดและทำต่อแทนการเริ่มต้นใหม่

สิ่งนี้ยังช่วยให้ดีบักแบบ time travel: คุณสามารถตรวจสอบและ replay สถานะที่นำไปสู่การตัดสินใจที่ผิดพลาดได้

ความเป็นส่วนตัว การเก็บรักษา และการเก็บความจำอย่างมีนัยยะ

ความจำเป็นทั้งเป็นทรัพย์สินและภาระ สำหรับเอเจนต์ใน production:

ระบุชัดเจนว่า อะไรไม่ควรถูกเก็บ (เช่น ความลับ เอกสารดิบ PII) ใช้การลบข้อมูลหรือ hashing เมื่อจำเป็น
กำหนด นโยบายการเก็บรักษา ต่อแต่ละประเภทความจำ (ระดับเซสชัน, 30 วัน, legal hold ฯลฯ)
ให้ผู้ใช้ ควบคุมดูและลบ ความจำระยะยาวของตน
หลีกเลี่ยงการเก็บ prompt หรืออินพุตเครื่องมือเต็มรูปแบบเมื่อสรุปเชิงโครงสร้างที่เล็กกว่าก็พอ

ปฏิบัติต่อความจำเป็นเป็นผลิตภัณฑ์: ออกแบบ มีเวอร์ชัน และกำกับดูแล ไม่ใช่แค่ dump ของข้อความที่เติบโตขึ้นเรื่อย ๆ แนบกับเอเจนต์ของคุณ

ความขนาน ข้อจำกัดอัตรา และ backpressure ในระบบเอเจนต์

เอเจนต์ดูเป็นลำดับบนไวท์บอร์ด แต่ทำงานเหมือนระบบกระจายเมื่ออยู่ภายใต้ภาระงานจริง เมื่อมีผู้ใช้พร้อมกัน เครื่องมือ และงานพื้นหลัง คุณต้องรับมือกับ race condition งานซ้ำ และปัญหาการเรียงลำดับ

ความเสี่ยงจากความขนานในเวิร์กโฟลว์ของเอเจนต์

รูปแบบความล้มเหลวทั่วไป:

Race conditions: การรันเอเจนต์สองครั้งอาจอัปเดตตั๋ว ตะกร้าสินค้า หรือเอกสารเดียวกันพร้อมกันและเขียนทับกัน
งานซ้ำ: การเรียกซ้ำหรือ worker ตั้งค่าผิดพลาดอาจประมวลผลงานเดียวกันสองครั้ง (เช่น เก็บเงินซ้ำ)
ผลกระทบเรียงลำดับผิด: การเรียกเครื่องมือเสร็จไม่ตามลำดับคาดหมาย ทำให้ผลลัพธ์เก่าทับผลลัพธ์ใหม่

ลดความเสี่ยงด้วยสัญญาเครื่องมือ idempotent สถานะเวิร์กโฟลว์ที่ชัดเจน และการล็อกแบบ optimistic/pessimistic ที่ชั้นข้อมูล

คิว vs โฟลว์ซิงโครนัส

โฟลว์แบบ synchronous ง่ายแต่เปราะ: ทุก dependency ต้องขึ้นและเร็วพอ เมื่อเอเจนต์กระจายเป็นหลายเครื่องมือหรือซับทาส์คู่ขนาน ให้ย้ายขั้นตอนที่รันนานหรือมีผลข้างเคียงไว้หลัง คิว

การออร์เคสตราด้วยคิวให้คุณ:

ควบคุมความขนานด้วย worker pools
รวม retry และ deduplication ไว้ตรงกลาง
แยกเครื่องมือช้า/เปราะออกจากความหน่วงที่มองเห็นต่อผู้ใช้

ข้อจำกัดอัตราและ backpressure

เอเจนต์มักเจอขีดจำกัดสามกลุ่ม:

โมเดล: tokens ต่อวินาที, requests ต่อวินาที, ขนาดคอนเท็กซ์
เครื่องมือ: บริการภายในที่มี QPS หรือลิมิต CPU
API ภายนอก: โควต้าของบุคคลที่สามและขีดจำกัดตายตัว

คุณต้องมี ชั้น rate-limit ชัดเจนพร้อม throttle ต่อผู้ใช้ ต่อเทนแนนต์ และแบบรวม ใช้ token bucket หรือ leaky bucket เพื่อบังคับนโยบาย และส่ง error type ที่ชัดเจน (เช่น RATE_LIMIT_SOFT, RATE_LIMIT_HARD) เพื่อให้เอเจนต์ถอยได้อย่างสุภาพ

Backpressure คือวิธีที่ระบบปกป้องตนเองภายใต้ความเครียด กลยุทธ์ได้แก่:

ทิ้งทราฟฟิกที่ไม่สำคัญก่อน
ลดคุณสมบัติ (คอนเท็กซ์สั้นลง เรียกเครื่องมือน้อยลง)
หยุดคิวที่ความสำคัญต่ำ ขณะที่รักษาโฟลว์ที่สำคัญไว้

ติดตามสัญญาณอิ่มตัว: ความลึกของคิว การใช้งาน worker อัตราข้อผิดพลาดของโมเดล/เครื่องมือ และ latency percentiles คิวที่ขึ้นพร้อมกับ latency หรืออัตรา 429/503 คือสัญญาณเตือนว่าระบบเอเจนต์กำลังโหลดเกิน

Observability: tracing, metrics, และ logs สำหรับพฤติกรรมเอเจนต์

Keep full code ownership

Export the source code and plug it into your existing repos and pipelines.

Export Code

คุณไม่อาจทำให้เอเจนต์เชื่อถือได้หากตอบสองคำถามนี้ไม่ได้อย่างรวดเร็ว: มันทำอะไร? และ ทำไปทำไม? Observability สำหรับระบบเอเจนต์คือทำให้คำตอบเหล่านี้หาง่ายและแม่นยำ

สิ่งที่คุณต้องเห็น

ออกแบบ observability ให้ task เดียวมี trace ที่เชื่อมต่อผ่าน:

ทุกขั้นตอนของเอเจนต์และการเปลี่ยนสถานะ
ทุกการเรียกเครื่องมือและการตอบกลับ
ทุกการเรียกโมเดลและรูปแบบ prompt

แนบ logs เชิงโครงสร้าง สำหรับการตัดสินใจสำคัญ (เช่น การเลือกเส้นทาง การปรับแผน การทริกเกอร์ guardrail) และ metrics สำหรับปริมาณและสุขภาพ

เทรซที่มีประโยชน์มักรวม:

metadata ของงาน: tenant, user, channel, priority
สถานะเอเจนต์: ชื่อสถานะปัจจุบัน สถานะถัดไป ตัวนับ retry
I/O ของเครื่องมือ: อินพุต เอาต์พุต หน่วงเวลา ข้อผิดพลาด สถานะ circuit-breaker
การเรียกโมเดล: รหัสเทมเพลต prompt, ชื่อโมเดล, จำนวน token, latency

การบันทึกและการ redaction

บันทึก prompt อินพุต/เอาต์พุตของเครื่องมือในรูปแบบเชิงโครงสร้าง แต่ให้ผ่าน ชั้น redaction ก่อน:

ปกปิด PII และความลับ
ตัดทอน payload ขนาดใหญ่พร้อมแฮชสำหรับการอ้างอิง
ทำเครื่องหมายฟิลด์ตามระดับความไวเพื่อควบคุมการเก็บรักษาและการเข้าถึง

เก็บเนื้อหาดิบไว้เบื้องหลัง feature flags ในสภาพแวดล้อมทดสอบ; production ควรมองเห็นแบบ redacted เป็นค่าปริยาย

Metrics ที่สำคัญจริง ๆ

อย่างน้อยที่สุด ให้ติดตาม:

อัตราความสำเร็จ/ล้มเหลวของงานตามเอเจนต์และกรณีใช้งาน
ค่าเฉลี่ยและ P95 จำนวนขั้นตอนต่อหนึ่งงาน
Latency: end-to-end และแยกตามเครื่องมือ/โมเดล
ต้นทุนต่อหนึ่งงาน (tokens, ค่าเครื่องมือ) และต่อผลลัพธ์ที่สำเร็จ

เมื่อเกิด incident เทรซและ metrics ที่ดีจะช่วยเปลี่ยนจาก "เอเจนต์ดูล้ม" เป็นข้อความชัดเจนเช่น: “P95 งานล้มใน ToolSelection หลัง 2 retries เนื่องจากสกีมาใหม่ใน billing_service” ทำให้การวินิจฉัยลดจากชั่วโมงเป็นนาที และให้จุดปรับที่ชัดเจน

กลยุทธ์การทดสอบและประเมินสำหรับระบบเอเจนต์

การทดสอบเอเจนต์คือการทดสอบทั้ง เครื่องมือ ที่มันเรียก และ โฟลว์ ที่เย็บทุกอย่างเข้าด้วยกัน จงปฏิบัติเหมือนการทดสอบระบบกระจาย ไม่ใช่แค่ปรับ prompt

การทดสอบหน่วย: สัญญาเครื่องมือ ไม่ใช่ prompt

เริ่มจาก unit tests ที่ขอบเขตเครื่องมือ:

ยืนยันสกีมา: ฟิลด์ที่ต้องมี enums ขอบเขต และ invariants
ทดสอบ idempotency และ semantics ของข้อผิดพลาด (ข้อผิดพลาดอะไร รหัสอะไร retry ได้หรือไม่)
ตรวจว่าเครื่องมือจัดการอินพุตผิดรูปอย่างสุภาพและคืน structured failures

การทดสอบเหล่านี้ไม่ขึ้นกับ LLM เรียกเครื่องมือโดยตรงด้วยอินพุตสังเคราะห์และยืนยันเอาต์พุตหรือข้อผิดพลาดที่แน่นอน

การทดสอบการผสาน: โฟลว์และพฤติกรรมหลายขั้นตอน

Integration tests ทดสอบเวิร์กโฟลว์เอเจนต์แบบ end-to-end: LLM + เครื่องมือ + ออร์เคสตรา

ออกแบบเป็นการทดสอบตามสถานการณ์:

Happy paths สำหรับเส้นทางผู้ใช้หลัก (การจอง คืนเงิน ยกระดับ ฯลฯ)
กรณีขอบ: ข้อมูลขาด ผลลัพธ์เครื่องมือบางส่วน ข้อผิดพลาด timeout rate limit
ปฏิสัมพันธ์ข้ามเครื่องมือ: เมื่อเอาต์พุตของเครื่องมือ A ไปเป็นอินพุตของ B

การทดสอบเหล่านี้ยืนยัน การเปลี่ยนสถานะและการเรียกเครื่องมือ ไม่ใช่ทุก token ของคำตอบจาก LLM ตรวจสอบ: เรียกเครื่องมือใด ด้วยอาร์กิวเมนต์อะไร ตามลำดับใด และเอเจนต์จบที่สถานะ/ผลลัพธ์ใด

Fixtures ที่ deterministic สำหรับ LLM และเครื่องมือ

เพื่อให้การทดสอบทำซ้ำได้ ให้ fixture ทั้งการตอบของ LLM และผลลัพธ์เครื่องมือ:

บันทึกการตอบ LLM ครั้งเดียว (ต่อ prompt + model + config) และเก็บเป็น JSON fixtures
โมคระบบภายนอกเบื้องหลังเครื่องมือเพื่อไม่ให้ทดสอบเรียกบริการจริง
ใช้ seeds ที่ชัดเจนและ config อุณหภูมิคงที่ในการทดสอบ

รูปแบบทั่วไป:

with mocked_llm(fixtures_dir="fixtures/llm"), mocked_tools():
    result = run_agent_scenario(input_case)
    assert result.state == "COMPLETED"

ชุด regression สำหรับ prompt และสกีมา

ทุกการเปลี่ยน prompt หรือสกีมา ต้องรัน regression:

เก็บชุดอินพุตคิวกรุพระเบิดพร้อมสถานะที่คาดหวัง ร่องรอยของเครื่องมือ หรือการจำแนกที่คาดหวัง
ล็อกเป็น golden files; diff ของไฟล์จะแจ้งการเปลี่ยนพฤติกรรม
อนุมัติหรือย้อนกลับการเปลี่ยนแปลงใด ๆ ในโฟลว์สำคัญ

การพัฒนา schema (เพิ่มฟิลด์หรือเข้มข้นชนิด) ต้องมีกรณี regression ของตัวเองเพื่อตรวจจับเอเจนต์หรือเครื่องมือที่ยังสมมติสัญญาเดิม

การประเมินแบบออฟไลน์ก่อนปล่อย

อย่าส่งโมเดล นโยบาย หรือกลยุทธ์ routing ใหม่ตรงสู่การผลิต:

รันชุด regression ออฟไลน์กับการกำหนดค่านั้น
รัน replay บนตัวอย่างการโต้ตอบในอดีต
คำนวณเมตริกอัตโนมัติ (ความสำเร็จของงาน อัตราข้อผิดพลาดของเครื่องมือ latency ต้นทุน) และเมื่อจำเป็น ให้มีการประเมินโดยมนุษย์บนตัวอย่าง

หลังผ่านเกตออฟไลน์แล้วเท่านั้นจึงอนุญาตให้ variant ใหม่เข้าสู่ production โดยปกติภายใต้ feature flags และการเปิดแบบค่อยเป็นค่อยไป

การจัดการข้อมูลทดสอบและการนิรนาม

ล็อกเอเจนต์มักมีข้อมูลผู้ใช้ที่อ่อนไหว การทดสอบต้องเคารพเรื่องนี้:

สร้างชุดข้อมูลทดสอบจากอินพุตที่ นิรนาม หรือสังเคราะห์
ลบหรือแฮชตัวระบุ ข้อความ PII และความลับก่อนเก็บล็อกหรือ fixtures
แยกการเข้าถึง: วิศวกรดูพฤติกรรมได้แต่ไม่เห็นความลับของผู้ใช้

กำหนดกฎเหล่านี้ใน CI pipeline เพื่อห้ามไม่ให้สร้างหรือเก็บ artifacts ของการทดสอบโดยไม่มีการตรวจสอบการนิรนาม

การปฏิบัติการ การมอนิเตอร์ และการพัฒนาเอเจนต์ใน production

Ship with rollback ready

Test changes with snapshots and roll back quickly when a run goes sideways.

Use Snapshots

การปฏิบัติการเอเจนต์ใน productionใกล้เคียงกับการรันระบบกระจายมากกว่าการปล่อยโมเดลนิ่ง คุณต้องมีการควบคุมการเปิดตัว เป้าหมายความน่าเชื่อถือ และการจัดการการเปลี่ยนแปลงอย่างมีวินัย

ยุทธศาสตร์การเปิดตัวอย่างปลอดภัย

แนะนำให้แนะนำเอเจนต์หรือพฤติกรรมใหม่แบบค่อยเป็นค่อยไป:

Shadow mode: รันเอเจนต์คู่กับระบบเดิม บันทึกการตัดสินใจแต่ไม่ให้กระทบผู้ใช้ เปรียบเทียบผลลัพธ์ออฟไลน์
Canaries: ให้ส่วนน้อยของทราฟฟิก (เช่น 1–5%) ใช้เวอร์ชันใหม่ ดูอัตราข้อผิดพลาด latency และคุณภาพก่อนจะขยาย
A/B tests: สำหรับโฟลว์ที่เห็นโดยผู้ใช้ เปรียบเทียบเอเจนต์ใหม่กับเก่าโดยใช้ KPI ทางธุรกิจ ไม่ใช่แค่เมตริกโมเดล

รองรับทั้งหมดด้วย feature flags และนโยบาย config: กฎการ routing เครื่องมือที่เปิดใช้งาน อุณหภูมิ การตั้งค่าความปลอดภัย การเปลี่ยนแปลงควรทำได้ด้วย config ไม่ใช่โค้ด และย้อนกลับได้ทันที

SLOs และ workflow ในการจัดการ incident

กำหนด SLO ที่สะท้อนทั้งสุขภาพระบบและมูลค่าผู้ใช้:

ความน่าเชื่อถือ: อัตราความสำเร็จของงาน เครื่องมือ และเวิร์กโฟลว์ end-to-end
หน่วงเวลา: p50/p95 ของเส้นทางสำคัญ
คุณภาพ: คะแนน auto-eval, การแจกแจงการให้คะแนนโดยมนุษย์ หรือเมตริกความสำเร็จเฉพาะงาน

ผูกเข้ากับการแจ้งเตือนและปฏิบัติการ incident เช่นบริการอื่น ๆ: กำหนดความรับผิดชอบ runbooks สำหรับ triage และขั้นตอนเยียวยามาตรฐาน (rollback flag, drain ทราฟฟิก, safe-mode)

การปรับปรุงต่อเนื่องและการควบคุมการเปลี่ยนแปลง

ใช้ล็อก เทรซ และทรานสคริปต์การสนทนาเพื่อปรับแต่ง prompts เครื่องมือ และนโยบาย ทำทุกการเปลี่ยนเป็น artifact ที่มีเวอร์ชัน มีการตรวจสอบ อนุมัติ และย้อนกลับ

หลีกเลี่ยงการเปลี่ยน prompt หรือเครื่องมือแบบเงียบ ๆ หากไม่มีการควบคุมการเปลี่ยนแปลง คุณจะจับสาเหตุการ regressions ไม่ได้และการตอบสนองต่อ incident จะกลายเป็นการเดาแทนการแก้ปัญหาเชิงวิศวกรรม

สถาปัตยกรรมอ้างอิงสำหรับระบบเอเจนต์ที่เชื่อถือได้

ระบบเอเจนต์ที่พร้อมใช้งานใน production ได้ประโยชน์จากการแยกความรับผิดชอบให้ชัดเจน เป้าหมายคือให้เอเจนต์ฉลาดในการตัดสินใจ แต่เรียบง่ายในโครงสร้างพื้นฐาน

ส่วนประกอบหลัก

1. Gateway / API edge
ทางเข้าหนึ่งเดียวสำหรับไคลเอนต์ (apps, services, UIs) ทำหน้าที่:

การพิสูจน์ตัวตนและการอนุญาต (user, service, tenant)
การจำกัดอัตราและควอตา
การปรับรูปคำขอ (สกีมา ข้อจำกัดขนาด การ validate พื้นฐาน)

2. Orchestrator
Orchestrator เป็น "ลำคอ" ไม่ใช่สมอง มันประสานงาน:

Planner: แปลเจตนาผู้ใช้เป็นเวิร์กโฟลว์หรือ state machine
State orchestrator: รันเวิร์กโฟลว์ ติดตามสถานะ จัดการ retry และ timeout
Policy engine: บังคับใช้ความปลอดภัย การปฏิบัติตามข้อกำหนด เครื่องมือที่อนุญาต กฎ PII และงบประมาณค่าใช้จ่าย

LLM อยู่หลัง orchestrator ใช้โดย planner และโดยเครื่องมือที่ต้องการความเข้าใจภาษาเป็นพิเศษ

3. ชั้นเครื่องมือและการเก็บข้อมูล
โลจิกธุรกิจยังคงอยู่ใน microservices, คิว และระบบข้อมูลที่มีอยู่ เครื่องมือเป็น wrapper บาง ๆ รอบ:

บริการภายใน HTTP/gRPC
ฐานข้อมูล, vector stores, caches
API ภายนอก

Orchestrator เรียกเครื่องมือผ่านสัญญาที่เข้มงวด ขณะที่ระบบจัดเก็บยังคงเป็นแหล่งความจริง

การผนวกรวม การควบคุม และเทเลเมทรี

บังคับ auth และ quotas ที่ gateway; บังคับความปลอดภัย การเข้าถึงข้อมูล และนโยบายใน orchestrator การเรียกทั้งหมด (LLM และเครื่องมือ) ปล่อยเทเลเมทรีเชิงโครงสร้างไปยัง pipeline ที่ป้อน:

Traces สำหรับพฤติกรรมทีละขั้น
Metrics สำหรับ SLOs และ rate limits
Audit logs สำหรับความปลอดภัยและการปฏิบัติตามข้อกำหนด
การคิดต้นทุนตามผู้ใช้ โปรเจกต์ และเครื่องมือ

สถาปัตยกรรมที่เรียบง่าย (gateway → orchestrator เดียว → tools) บริหารง่ายกว่า การเพิ่ม planner แยก policy engine และ model gateways เพิ่มความยืดหยุ่นแต่แลกกับความซับซ้อน เวลาแฝง และงานปฏิบัติการที่มากขึ้น

สรุปและขั้นตอนถัดไปสำหรับทีมของคุณ

ตอนนี้คุณมีส่วนประกอบหลักสำหรับเอเจนต์ที่ทำงานทำนายได้ภายใต้ภาระงานจริง: state machines ชัดเจน สัญญาเครื่องมือที่ชัดเจน retry ที่มีวินัย และ observability เชิงลึก ขั้นตอนสุดท้ายคือเปลี่ยนแนวคิดเหล่านี้ให้เป็นแนวปฏิบัติที่ทำซ้ำได้สำหรับทีมของคุณ

รูปแบบหลักในภาพเดียว

คิดเอเจนต์แต่ละตัวเป็น เวิร์กโฟลว์มีสถานะ:

state machine กำหนดขั้นตอนที่ถูกกฎหมาย (plan → gather → act → summarize ฯลฯ) และการเปลี่ยนระหว่างกัน
สัญญาเครื่องมือ กำหนดสิ่งที่แต่ละการกระทำทำได้ ด้วยสกีมา เวลา timeout และพื้นผิวข้อผิดพลาดที่ชัดเจน
retry และ idempotency ปกป้องทุกการโต้ตอบภายนอกเพื่อให้ replay ปลอดภัยและผลข้างเคียงไม่ซ้ำซ้อน
observability (traces, metrics, logs) ทำให้ทุกการตัดสินใจและการเรียกเครื่องมืออธิบายได้และดีบักได้

เมื่อชิ้นส่วนเหล่านี้สอดคล้องกัน คุณจะได้ระบบที่ค่อย ๆ ลดความสามารถเมื่อมีปัญหา แทนที่จะล้มครืนเมื่อเจอกรณีขอบ

เช็กลิสต์แบบเบาเพื่อนำเอเจนต์สู่ production

ก่อนส่งเอเจนต์ต้นแบบให้ผู้ใช้จริง ให้ยืนยัน:

เวิร์กโฟลว์: สถานะและการเปลี่ยนชัดเจน ไม่มีลูปซ่อนเร้น ไม่มีโซ่เครื่องมือไม่จำกัด
สัญญา: ทุกเครื่องมือมีอินพุต/เอาต์พุต typed, failure modes ชัดเจน และ timeout
ความปลอดภัย: Guardrail บนอินพุต เอาต์พุต และการกระทำ (rate limits, allowlists, quotas)
Retry: นโยบายกำหนดต่อเครื่องมือ; คีย์ idempotency มีสำหรับการเรียกที่มีผลข้างเคียงทั้งหมด
สถานะ: ความจำและสถานะถาวรถูกขอบเขต มีเวอร์ชัน และกู้คืนได้
observability: คุณตอบว่า “เกิดอะไรขึ้น?” สำหรับเซสชันผู้ใช้ใดก็ได้ในเทรซเดียว
การทดสอบ: มีการทดสอบตามสถานการณ์และชุด regression สำหรับ prompt เครื่องมือ และนโยบาย

ถ้าข้อใดขาด คุณยังอยู่ในโหมดต้นแบบ

วิธีที่ทีมสามารถแบ่งความรับผิดชอบ

เซ็ตอัพที่ยั่งยืนมักแยกระหว่าง:

ทีมผลิตภัณฑ์: รับผิดชอบพฤติกรรมเอเจนต์ prompts เครื่องมือโดเมน และชุดข้อมูลประเมิน
ทีมแพลตฟอร์ม/โครงสร้างพื้นฐาน: รับผิดชอบเฟรมเวิร์ก state-machine, SDK เครื่องมือร่วม, การล็อกและเทรซ, การบังคับใช้ policy, และโครงสร้างพื้นฐานการประเมินร่วม

วิธีนี้ช่วยให้ทีมผลิตภัณฑ์เคลื่อนที่เร็ว ในขณะที่ทีมแพลตฟอร์มบังคับใช้ความน่าเชื่อถือ ความปลอดภัย และการควบคุมค่าใช้จ่าย

การขยายต่อไปและการพัฒนาอย่างปลอดภัย

เมื่อคุณวางรากฐานมั่นคงแล้ว คุณสามารถสำรวจ:

นโยบายที่เรียนรู้ได้: ใช้เทรซที่บันทึกเพื่อปรับปรุง routing การเลือกเครื่องมือ และกลยุทธ์ fallback
การเรียนรู้แบบเสริมแรง: เพิ่มประสิทธิภาพผลลัพธ์ระยะยาวเช่นการทำงานสำเร็จหรือรายได้ แทนแต่ละคำตอบ
เวิร์กโฟลว์ที่ปรับจูนตัวเอง: ปรับอุณหภูมิ เครื่องมือ หรือ sub-flows อัตโนมัติตามผลการสังเกต

ความก้าวหน้าควรเป็นไปแบบค่อยเป็นค่อยไป: ใส่องค์ประกอบการเรียนรู้ใหม่ ๆ ไว้ข้างหลัง feature flags ด้วยการประเมินแบบออฟไลน์และ guardrails ที่เข้มงวด

หัวข้อหลักตลอดบทความนี้คือ: ออกแบบเพื่อรับมือความล้มเหลว, เลือกความชัดเจนเหนือความเฉลียวฉลาด, และทำซ้ำในส่วนที่คุณมองเห็นและย้อนกลับได้ง่าย ภายใต้ข้อจำกัดเหล่านี้ ระบบเอเจนต์จะหยุดเป็นต้นแบบที่น่ากลัวและกลายเป็นโครงสร้างพื้นฐานที่องค์กรของคุณพึ่งพาได้

คำถามที่พบบ่อย

What is an agentic system, and how is it different from a normal LLM app?

ระบบเอเจนต์ (agentic system) คือแอปพลิเคชันที่ LLM ไม่ได้ตอบแค่คำถามเดียว แต่ ตัดสินใจว่าจะทำอะไรต่อ: จะเรียกเครื่องมือใด จะดึงข้อมูลอะไร จะทำขั้นตอนไหนใน workflow และเมื่อไรที่ถือว่า "เสร็จ".

ต่างจากการเรียกแชทแบบธรรมดา ระบบเอเจนต์ประกอบด้วย:

นโยบายการตัดสินใจ (LLM + prompts)
เวิร์กโฟลว์หรือ state machine ที่ติดตามสถานะและความคืบหน้า
ชุดเครื่องมือ (API, ฐานข้อมูล, บริการ) ที่เอเจนต์สามารถเรียกใช้
โครงสร้างพื้นฐานสำหรับ retry, การเก็บสถานะ, การล็อก และการมองเห็น (observability)

ใน production โมเดลภาษาเป็นเพียงส่วนตัดสินใจหนึ่งภายในกรอบระบบที่ deterministic มากขึ้น ไม่ใช่ทั้งระบบทั้งหมด

Why do agents that look great in demos often fail in production?

งานสาธิตมักวิ่งบนเส้นทางที่สมบูรณ์แบบ: ผู้ใช้คนเดียว พฤติกรรมของเครื่องมือเป็นไปตามคาด ไม่มี timeout ไม่มีการเปลี่ยนรูปแบบสกีมา และการสนทนาไม่ยาวมาก ในการใช้งานจริง เอเจนต์ต้องเจอ:

เครื่องมือไม่เสถียร: timeout, ข้อผิดพลาด 5xx, และผลลัพธ์ที่เปลี่ยนรูปแบบ
การประมวลผลพร้อมกันจำนวนมาก: ผู้ใช้หลายคนแข่งใช้ทรัพยากรและจำกัดอัตราเรียก
เซสชันที่ยาวขึ้น: บริบทบวม สับสนเรื่องความจำ และสถานะที่ drift
ข้อผิดพลาดจากโมเดลที่ทับซ้อน: ความผิดพลาดเล็ก ๆ ทบกันจนกลายเป็นปัญหาใหญ่

ถ้าไม่มีเวิร์กโฟลว์ที่ชัดเจน สัญญา (contracts) ของเครื่องมือ และการจัดการความล้มเหลว ปัจจัยเหล่านี้จะสร้าง loop, stall, งานที่ทำไม่สมบูรณ์ และข้อผิดพลาดเงียบ ๆ ที่มักไม่ปรากฏในสภาพแวดล้อมสาธิต

How do I make an agent predictable and easy to debug?

ให้ LLM ทำงานภายใน กรอบที่ชัดเจน แทนวงลูปแบบเสรี:

จำลองเอเจนต์เป็น state machine ที่มีสถานะจำกัดและการเปลี่ยนสถานะที่อนุญาต
ใช้ LLM สำหรับการตัดสินใจระดับท้องถิ่นเท่านั้น (เช่น จะเรียกเครื่องมืออะไรต่อ เติมพารามิเตอร์อย่างไร) ไม่ใช่ให้คิดกระบวนการทั้งหมดเอง
เก็บสถานะภายนอกเพื่อให้ทุกการเปลี่ยนสถานะสามารถ replay และตรวจสอบได้
ทำให้เอเจนต์มีขนาดเล็กและมีจุดมุ่งหมายชัดเจน: งานหนึ่งงานและตัวชี้วัดความสำเร็จหลักหนึ่งตัว

วิธีนี้ช่วยให้คุณอธิบาย ทดสอบ และดีบักพฤติกรรมทีละขั้น แทนที่จะไล่ตาม "ความคิด" ของเอเจนต์ที่ไม่โปร่งใส

What does it mean to model an agent as a state machine?

หมายถึงการมองเอเจนต์เป็นเวิร์กโฟลว์ที่มีชื่อสถานะและอีเวนต์ที่มีชนิดข้อมูล แทนการเขียน while not done: call LLM แบบทั่วไป

สถานะตัวอย่างอาจได้แก่:

How should I design tool contracts for my agents?

ออกแบบเครื่องมือเหมือน API ที่พร้อมใช้ใน production ไม่ใช่คำอธิบายเป็นย่อหน้าซ่อนใน prompt แต่ละเครื่องมือควรมี:

How do I handle failures, retries, and idempotency in agent workflows?

คาดว่าการเรียกภายนอกทุกครั้งจะล้มเหลวสักครั้ง และออกแบบให้ความล้มเหลวนั้นถูกจัดการได้อย่างปลอดภัย

รูปแบบสำคัญ:

การเรียกซ้ำคำขอเดิมควรให้ผลลัพธ์เหมือนทำครั้งเดียว โดยให้ทุกคำขอมี ที่คงที่

What is the right way to manage memory and state for agents?

แยกระหว่าง สถานะระยะสั้น กับ หน่วยความจำระยะยาว และถือว่า LLM เป็นฟังก์ชันที่ไร้สถานะ

ใช้สถานะระยะสั้นสำหรับสิ่งที่ต้องการเพื่อจบงานปัจจุบัน: เป้าหมายที่ใช้งานอยู่ ขั้นตอนปัจจุบัน ผลลัพธ์จากเครื่องมือ และตัวนับ retry
เก็บหน่วยความจำระยะยาว (เช่น โปรไฟล์ผู้ใช้ ประวัติโปรเจกต์) ในสตอร์ภายนอกด้วยสกีมาเชิงโครงสร้าง ไม่ใช่การเก็บทรานสคริปต์ดิบ
ถือว่า LLM เป็นฟังก์ชันบริสุทธิ์ที่ทำงานบนอ็อบเจ็กต์สถานะ: โหลดสถานะที่เกี่ยวข้อง สร้าง prompt เรียกโมเดล แล้ว persist สถานะที่อัปเดต

หลีกเลี่ยงการใช้ raw logs หรือประวัติการสนทนาเป็นหน่วยความจำโดยตรง ให้สกัดเป็นระเบียนเชิงโครงสร้างที่กะทัดรัดพร้อมนโยบายการเก็บรักษาและความเป็นส่วนตัว

How should I deal with concurrency, rate limits, and backpressure in agent systems?

มองระบบเอเจนต์เป็นระบบกระจายภายใต้ภาระงาน แม้แต่ flow ลำดับเดียวก็ตาม

เพื่อความน่าเชื่อถือ:

ย้ายขั้นตอนที่รันนานหรือมีผลข้างเคียงให้อยู่หลัง คิว เพื่อควบคุม concurrency ด้วย worker pools
บังคับ rate limits สำหรับโมเดลและเครื่องมือโดยมีโควต้าต่อผู้ใช้ ต่อเทนแนนต์ และระดับรวม

What observability do I need to run agents safely in production?

คุณต้องตอบได้ว่า “เอเจนต์ทำอะไร” และ “ทำไปเพราะอะไร” สำหรับแต่ละงานอย่างรวดเร็ว

สิ่งที่ต้องมีในการมองเห็น (observability):

Traces: เทรซแบบ end-to-end ต่อหนึ่งงาน ครอบคลุมการเปลี่ยนสถานะ เครื่องมือที่เรียก และการเรียกโมเดล
บันทึกการตัดสินใจสำคัญ (เช่น การเลือกเครื่องมือ การปรับแผน การทริกเกอร์ guardrail) พร้อม correlation IDs

How should teams roll out and operate agentic systems safely over time?

ปฏิบัติกับเอเจนต์เหมือนบริการที่พัฒนาอย่างต่อเนื่อง ไม่ใช่ prompt แบบคงที่ และจัดการด้วยมาตรฐานการผลิตเดียวกับซอฟต์แวร์อื่น ๆ

แนวทางแนะนำ:

ใช้ shadow mode, canaries และ feature flags ในการเปิดตัวเวอร์ชันใหม่อย่างค่อยเป็นค่อยไป
กำหนด SLO สำหรับความน่าเชื่อถือ latency และคุณภาพ แล้วผูกเข้ากับการแจ้งเตือนและ runbooks
รักษาชุด regression และการ replay ออฟไลน์สำหรับการเปลี่ยนแปลงทุกครั้งของ prompt เครื่องมือ หรือ policy
แยกความรับผิดชอบ: ทีมผลิตภัณฑ์รับผิดชอบพฤติกรรมและเครื่องมือโดเมนของตน ทีมแพลตฟอร์มรับผิดชอบเฟรมเวิร์ก state-machine, SDK เครื่องมือร่วม, การมองเห็น และการบังคับใช้ policy

request_id