ติดตามประวัติของ Anthropic ตั้งแต่การก่อตั้ง งานวิจัยแรกๆ จนถึงการพัฒนา Claude และเหตุการณ์สำคัญที่หล่อหลอมงานด้านความปลอดภัยของ AI

Anthropic เป็นบริษัทวิจัยและผลิตภัณฑ์ด้าน AI ที่เป็นที่รู้จักจากตระกูลโมเดลภาษาชื่อ Claude ก่อตั้งโดยนักวิจัยที่มีประสบการณ์ลึกเกี่ยวกับระบบ AI ขนาดใหญ่ Anthropic ยืนอยู่ตรงจุดตัดของการวิจัยพื้นฐานด้าน AI ผลิตภัณฑ์ที่ใช้งานได้จริง และงานด้านความปลอดภัยและการจัดแนวของ AI
บทความนี้สืบย้อนประวัติของ Anthropic ตั้งแต่จุดเริ่มต้นจนถึงปัจจุบัน โดยเน้นแนวคิด การตัดสินใจ และเหตุการณ์สำคัญที่หล่อหลอมบริษัท เราจะเดินตามลำดับเวลา: เริ่มจากบริบทงานวิจัย AI ก่อนการก่อตั้ง Anthropic แล้วสำรวจผู้ก่อตั้งและทีมเริ่มแรก ภารกิจและค่านิยม ฐานเทคนิค การระดมทุนและการเติบโต วิวัฒนาการผลิตภัณฑ์ตั้งแต่ Claude จนถึง Claude 3.5 และบทบาทของบริษัทในชุมชนวิจัย AI กว้างขึ้น
ประวัติของ Anthropic มีความสำคัญมากกว่าข่าวสารบริษัททั่วไป ตั้งแต่แรกบริษัทให้ความสำคัญกับความปลอดภัยและการจัดแนวเป็นคำถามวิจัยแกนกลาง ไม่ใช่สิ่งที่มาทีหลัง แนวคิดอย่าง Constitutional AI การทดสอบแบบ red‑teaming อย่างกว้างขวาง และการประเมินโมเดลเพื่อความปลอดภัยไม่ใช่โครงการรอง แต่เป็นส่วนประกอบหลักของวิธีที่ Anthropic สร้างและนำระบบไปใช้ ท่าทีนี้ส่งผลต่อวิธีคิดของห้องทดลอง AI อื่นๆ ผู้กำหนดนโยบาย และลูกค้าเกี่ยวกับโมเดลขั้นสูง
จุดมุ่งหมายที่นี่คือให้ภาพจริงและสมดุลของการพัฒนา Anthropic: บริษัทตั้งใจทำอะไร งานบน Claude และเครื่องมือที่เกี่ยวข้องพัฒนาอย่างไร ทิศทางวิจัยใดเป็นจุดเปลี่ยน และการพิจารณาด้านความปลอดภัยหล่อหลอมไทม์ไลน์และเหตุการณ์สำคัญอย่างไร นี่ไม่ใช่โบรชัวร์ของบริษัท แต่เป็นภาพรวมเชิงประวัติศาสตร์สำหรับผู้อ่านที่อยากเข้าใจว่าองค์กรหนึ่งพยายามจัดแนวความก้าวหน้าทางเทคนิคอย่างรวดเร็วให้สอดคล้องกับความปลอดภัยระยะยาวอย่างไร
เมื่อจบอ่าน คุณควรเห็นภาพชัดเจนว่า Anthropic มาจากไหน ลำดับความสำคัญของบริษัทมีผลกับผลิตภัณฑ์และงานวิจัยอย่างไร และเหตุใดแนวทางนี้จึงมีความหมายต่ออนาคตของ AI
ในปลายทศวรรษ 2010 deep learning ได้เปลี่ยนแปลงวงการเห็นผลในงานด้านการมองเห็นด้วยคอมพิวเตอร์และการประมวลผลเสียง โครงข่าย convolution ที่ชนะ ImageNet ระบบรู้จำเสียงระดับใหญ่ และระบบแปลภาษาที่ใช้งานได้จริงแสดงให้เห็นว่าการขยายขนาดข้อมูลและการคำนวณสามารถปลดล็อกความสามารถใหม่ๆ ได้อย่างชัดเจน
จุดเปลี่ยนสำคัญคือสถาปัตยกรรม transformer (Vaswani et al., 2017) ต่างจากเครือข่ายแบบ recurrent transformer จัดการการอ้างอิงระยะไกลได้อย่างมีประสิทธิภาพและขนานการประมวลผลได้ดีกับ GPU สิ่งนี้เปิดทางให้การฝึกโมเดลขนาดใหญ่บนคอร์ปัสข้อความมหาศาลเป็นไปได้
BERT ของ Google (2018) แสดงให้เห็นว่าการ pretraining บนข้อความทั่วไปแล้วค่อย fine‑tune สามารถเอาชนะโมเดลเชิงเฉพาะงานได้ในหลายภารกิจ NLP ตามมาด้วยซีรีส์ GPT ของ OpenAI ที่ผลักดันแนวคิดต่อไป: ฝึกโมเดล autoregressive ขนาดใหญ่ตัวเดียวแล้วอาศัยการขยายขนาดและการ prompting แทนการ fine‑tune เฉพาะงาน
ราว 2019–2020 งานด้านกฎการสเกลของเครือข่ายประสาทยืนยันสิ่งที่ผู้ปฏิบัติงานสังเกตเห็น: ประสิทธิภาพของโมเดลดีขึ้นอย่างเป็นระบบเมื่อเพิ่มพารามิเตอร์ ข้อมูล และการคำนวณ งานศึกษาแสดงให้เห็นว่าโมเดลภาษาที่ใหญ่ขึ้น:\n\n- มีความสามารถ few‑shot และ zero‑shot ที่แข็งแกร่งขึ้น\n- พัฒนาทักษะแบบ emergent (เช่น การให้เหตุผลพื้นฐาน การเขียนโค้ด)\n- สามารถทั่วไปข้ามโดเมนได้อย่างน่าประหลาดใจ\n\nGPT‑2 ในปี 2019 และ GPT‑3 ในปี 2020 แสดงให้เห็นว่าสเกลเพียงอย่างเดียวสามารถเปลี่ยนโมเดลข้อความทั่วไปให้เป็นเครื่องมืออเนกประสงค์สำหรับการแปล สรุป ตอบคำถาม และอื่นๆ โดยไม่ต้องฝึกเฉพาะงานเสมอไป
ควบคู่ไปกับความก้าวหน้าเหล่านี้ นักวิจัยและผู้กำหนดนโยบายเริ่มกังวลมากขึ้นเกี่ยวกับวิธีการที่โมเดลที่มีความสามารถสูงขึ้นถูกสร้างและนำไปใช้ ความเสี่ยงที่ถูกพูดถึงในชุมชนเทคนิคและนโยบายรวมถึง:\n\n- การนำไปใช้ในทางที่ผิดเพื่อการบิดเบือนข้อมูล สแปม และการชักจูงสังคม\n- การขยายอคติ ความเป็นพิษ และสเตริโอไทป์\n- ขาดความโปร่งใสและความคาดเดาได้ของพฤติกรรมโมเดล\n\n- ความท้าทายระยะยาวด้านการจัดแนวเมื่อระบบมีความสามารถสูงขึ้น\n\nการปล่อย GPT‑2 แบบจำกัดบางส่วน ซึ่งกล่าวถึงความเสี่ยงจากการนำไปใช้ผิดเป็นเหตุผล แสดงให้เห็นว่าห้องทดลองชั้นนำกำลังรับมือกับคำถามเหล่านี้แบบเรียลไทม์
กลุ่มวิชาการและองค์กรไม่แสวงหากำไร เช่น CHAI ที่ Berkeley, Future of Humanity Institute, Center for Security and Emerging Technology และอื่นๆ กำลังสำรวจกลยุทธ์การจัดแนว เครื่องมือการตีความ และกรอบการกำกับดูแล DeepMind และ OpenAI เองก็สร้างทีมความปลอดภัยภายในและเริ่มเผยแพร่งานด้าน reward learning, scalable oversight และ value alignment
ต้นทศวรรษ 2020 แรงกดดันทางการแข่งขันระหว่างห้องทดลองและบริษัทเทคโนโลยีหลักกระตุ้นให้มีการสเกลโมเดลอย่างรวดเร็วและกำหนดไทม์ไลน์การปรับใช้ที่เร่งด่วน การสาธิตสาธารณะและ API เชิงพาณิชย์แสดงความต้องการที่สูงสำหรับ generative AI ซึ่งดึงดูดการลงทุนจำนวนมาก
ในขณะเดียวกัน นักวิจัยหลายคนโต้แย้งว่าความปลอดภัย ความน่าเชื่อถือ และการกำกับดูแลยังตามไม่ทันการเพิ่มขึ้นของความสามารถ ข้อเสนอด้านเทคนิคสำหรับการจัดแนวยังอยู่ในช่วงเริ่มต้น ความเข้าใจเชิงทดลองเกี่ยวกับโหมดการล้มเหลวมีจำกัด การปฏิบัติการประเมินยังขาดความเป็นมาตรฐาน
ความตึงเครียดระหว่างการไล่ตามโมเดลที่ใหญ่ขึ้นและการเรียกร้องให้มีการพัฒนาที่ระมัดระวังและเป็นระบบนี้คือภูมิทัศน์การวิจัยที่อยู่ก่อนการก่อตั้ง Anthropic
Anthropic ก่อตั้งในปี 2021 โดยพี่น้อง Dario และ Daniela Amodei พร้อมกลุ่มเพื่อนร่วมงานเล็กๆ ที่เคยทำงานอยู่ในจุดศูนย์กลางของงานวิจัย AI ระดับแนวหน้า
Dario เคยเป็นหัวหน้าทีมโมเดลภาษาที่ OpenAI และมีส่วนในงานที่มีอิทธิพลด้านกฎการสเกล การตีความ และความปลอดภัยของ AI Daniela เคยนำงานด้านความปลอดภัยและนโยบายที่ OpenAI และก่อนหน้านั้นทำงานด้านประสาทวิทยาศาสตร์และการวิจัยเชิงคำนวณ มุ่งศึกษาพฤติกรรมและการล้มเหลวของระบบที่ซับซ้อน รอบๆ พวกเขามีนักวิจัย วิศวกร และผู้เชี่ยวชาญด้านนโยบายจาก OpenAI, Google Brain, DeepMind และห้องทดลองอื่นๆ ที่ร่วมกันมีประสบการณ์ในการฝึก ปรับใช้ และประเมินโมเดลขนาดใหญ่ในช่วงแรกๆ
ราว 2020–2021 โมเดลภาษาขนาดใหญ่ย้ายจากงานคาดการณ์ไปสู่ระบบที่มีอิทธิพลต่อผลิตภัณฑ์ ผู้ใช้ และการถกเถียงสาธารณะ กลุ่มผู้ก่อตั้งเห็นทั้งสัญญาและความเสี่ยง: การเพิ่มความสามารถอย่างรวดเร็ว พฤติกรรมที่เกิดขึ้นโดยไม่คาดหมาย และเทคนิคความปลอดภัยที่ยังไม่成熟
ความกังวลหลายประการกระตุ้นให้เกิด Anthropic:\n\n- การจัดแนวและการควบคุม: ทำอย่างไรให้โมเดลที่มีความสามารถสูงพฤติกรรมเป็นไปตามที่คาดหวัง ช่วยเหลือ และสอดคล้องกับค่านิยมมนุษย์\n- การตัดสินใจเกี่ยวกับการปรับใช้: การเลือกข้อมูลฝึก การกำหนดการเข้าถึง และเชิงพาณิชย์มีผลต่อการนำไปใช้ในทางที่ผิด ความปลอดภัย และผลกระทบทางสังคมอย่างไร\n- การกำกับดูแลและแรงจูงใจ: โครงสร้างองค์กรและแรงจูงใจทางการเงินที่มีอยู่เหมาะสมต่อการดูแลระบบ AI ที่อาจเปลี่ยนแปลงโลกหรือไม่\n Anthropic ถูกออกแบบให้เป็นบริษัทวิจัย AI ที่หลักการจัดระเบียบคือความปลอดภัย แทนที่จะมองความปลอดภัยเป็นสิ่งเติมท้าย ผู้ก่อตั้งต้องการให้ความปลอดภัยถูกถักทอเข้าไปในกระบวนการออกแบบ ฝึก ประเมิน และปรับใช้โมเดลตั้งแต่แรก
ตั้งแต่แรก Anthropic ตั้งเป้าพัฒนาเทคโนโลยีแนวหน้าพร้อมกับเทคนิครักษาความสามารถให้ตรวจสอบได้ บังคับทิศทางได้ และให้ความช่วยเหลืออย่างน่าเชื่อถือ
สิ่งที่หมายความคือ:\n\n- ลงทุนในงานวิจัยที่เกี่ยวข้องกับความปลอดภัย เช่น การจัดแนว การตีความ และความน่าเชื่อถือ\n- สร้างกระบวนการภายในที่ทำการ red‑teaming การทดสอบความเครียด และการทบทวนข้ามศาสตร์ก่อนเปิดให้ใช้งานกว้าง\n- จัดโครงสร้างองค์กรให้มีแนวคิดประโยชน์สาธารณะชัดเจน สื่อว่าผลกระทบทางสังคมระยะยาวจะถือเป็นเป้าหมายหลักควบคู่ไปกับความก้าวหน้าทางเทคนิค
ผู้ก่อตั้งเห็นโอกาสสร้างองค์กรที่การตัดสินใจเกี่ยวกับการสเกลโมเดล การเปิดเผยความสามารถ และการร่วมมือกับลูกค้าจะถูกกรองโดยการพิจารณาความปลอดภัยและจริยธรรมอย่างเป็นระบบ แทนที่จะจัดการเป็นรายกรณีภายใต้แรงกดดันเชิงพาณิชย์
การจ้างงานเริ่มแรกของ Anthropic สะท้อนปรัชญานี้ ทีมเริ่มแรกรวม:\n\n- ผู้เชี่ยวชาญ ML ขนาดใหญ่ที่รู้วิธีฝึกและปรับแต่งโมเดลภาษามหึมา\n- นักวิจัยด้านการจัดแนวและการตีความที่มุ่งเข้าใจสิ่งที่โมเดลเรียนรู้และการทั่วไปของมัน\n- ผู้เชี่ยวชาญด้านความปลอดภัยและ red‑teaming ที่มีประสบการณ์ในการเจาะระบบหาเวกเตอร์การใช้ในทางผิดและโหมดการล้มเหลว\n- ผู้เชี่ยวชาญด้านนโยบายและผลกระทบทางสังคมที่สามารถคิดเรื่องกฎระเบียบ การกำกับดูแล และผลลัพธ์ต่อสังคม\n การผสมผสานนี้ทำให้ Anthropic มองการพัฒนา AI เป็นโครงการทางสังคม‑เทคนิค มากกว่าเป็นความท้าทายด้านวิศวกรรมล้วนๆ การออกแบบโมเดล โครงสร้างพื้นฐาน การประเมิน และกลยุทธ์การปรับใช้ถูกอภิปรายร่วมกันโดยนักวิจัย วิศวกร และทีมงานนโยบายตั้งแต่เริ่มต้น
การก่อตั้งบริษัทมาพร้อมกับการอภิปรายอย่างเข้มข้นในชุมชน AI เรื่องการจัดการระบบที่สเกลอย่างรวดเร็ว: การเข้าถึงแบบเปิด vs API แบบมีการควบคุม การเปิดซอร์ส vs การปล่อยแบบมีการควบคุม การรวมศูนย์การคำนวณ และความเสี่ยงระยะยาวของ AI ที่ไม่สอดคล้องกับค่านิยมมนุษย์
Anthropic วางตัวเป็นความพยายามตอบคำถามสำคัญในวงการเหล่านั้น: การสร้างห้องทดลอง AI แนวหน้าในรูปแบบใดที่จะมีโครงสร้าง วิธีการ และวัฒนธรรมที่มุ่งความปลอดภัยและความรับผิดชอบระยะยาว พร้อมกับผลักดันขอบเขตงานวิจัยต่อไปได้
Anthropic ก่อตั้งรอบๆ ภารกิจชัดเจน: สร้างระบบ AI ที่เชื่อถือได้ ตีความได้ และบังคับทิศทางได้ และที่ท้ายที่สุดให้ประโยชน์ต่อสังคม ตั้งแต่แรกบริษัทมองงานของตนไม่ใช่แค่การสร้างโมเดลที่มีความสามารถ แต่เป็นการกำหนดพฤติกรรมของ AI ขั้นสูงเมื่อมันมีอำนาจมากขึ้น
Anthropic สรุปค่านิยมพฤติกรรมของ AI เป็นสามคำ: ช่วยเหลือ (helpful), ตรงไปตรงมา (honest), ไม่เป็นอันตราย (harmless)\n\n- ช่วยเหลือ หมายความว่าโมเดลควรแก้ปัญหาของผู้ใช้ ติดตามคำสั่ง และให้ความช่วยเหลือที่ใช้ได้จริง\n- ตรงไปตรงมา หมายถึงให้ความสำคัญกับความจริงมากกว่าการโน้มน้าว หลีกเลี่ยงการแต่งเรื่อง และระบุความไม่แน่นอนอย่างชัดเจน\n- ไม่เป็นอันตราย หมายถึงลดความเสี่ยงที่จะก่อให้เกิดอันตรายทางกาย จิตใจ หรือสังคม รวมถึงการปฏิเสธคำขอที่ไม่ปลอดภัยหรือละเมิด\n\nค่านิยมเหล่านี้ไม่ใช่สโลแกนการตลาด แต่เป็นเป้าหมายทางวิศวกรรม ข้อมูลฝึก ชุดการประเมิน และนโยบายการปรับใช้ ถูกกำหนดขึ้นเพื่อวัดและปรับปรุงตามมิติทั้งสาม ไม่ใช่แค่ความสามารถดิบ
Anthropic ถือความปลอดภัยและความน่าเชื่อถือเป็นข้อจำกัดการออกแบบหลัก ไม่ใช่เรื่องที่ตามมาทีหลัง นำไปสู่การลงทุนใหญ่ใน:\n\n- งานวิจัยด้านการจัดแนวและความปลอดภัย รวมถึงการหลีกเลี่ยงผลลัพธ์ที่เป็นอันตราย การนำไปใช้ในทางที่ผิด และโหมดการล้มเหลวเมื่อสเกลโมเดล\n- ความน่าเชื่อถือ เช่น การลด hallucination ปรับปรุงความแม่นยำเชิงข้อเท็จจริง และจัดการกรณีมุมฉาก (edge cases) และพรอมต์ที่โจมตีได้\n- การตีความ (interpretability) ด้วยงานวิจัยที่พยายามเปิดเผยกลไกภายในของโมเดล เพื่อให้พฤติกรรมตรวจสอบได้และควบคุมได้ดีขึ้น\n\nการสื่อสารสาธารณะของบริษัทเน้นเสมอถึงความเสี่ยงระยะยาวของระบบ AI ที่ทรงพลังและความจำเป็นของพฤติกรรมที่คาดเดาได้และตรวจสอบได้
เพื่อทำให้ค่านิยมนี้เป็นรูปธรรม Anthropic แนะนำแนวทาง Constitutional AI แทนที่จะพึ่งพาการป้อนกลับจากมนุษย์เพียงอย่างเดียว Constitutional AI ใช้ "รัฐธรรมนูญ" ที่เขียนขึ้นซึ่งประกอบด้วยหลักการระดับสูง เช่น สิทธิมนุษยชนและแนวทางความปลอดภัยทั่วไป\n\nโมเดลจะถูกฝึกให้:\n\n1. วิจารณ์ตนเอง ต่อคำตอบเทียบกับหลักการเหล่านี้\n2. แก้ไข คำตอบเพื่อให้สอดคล้องกับรัฐธรรมนูญมากขึ้น\n\nวิธีนี้ขยายการควบคุมการจัดแนว: ชุดหลักการที่รอบคอบชุดเดียวสามารถชี้นำการโต้ตอบการฝึกจำนวนมากโดยไม่ต้องให้มนุษย์ประเมินทุกคำตอบ นอกจากนี้ยังทำให้พฤติกรรมของโมเดลโปร่งใสมากขึ้น เพราะกฎที่ใช้สามารถอ่าน โต้แย้ง และปรับปรุงได้ตามเวลา
ภารกิจและการมุ่งเน้นเรื่องความปลอดภัยของ Anthropic ส่งผลโดยตรงต่อทิศทางงานวิจัยที่บริษัทเลือกทำและวิธีการส่งมอบผลิตภัณฑ์\n\nทางด้านการวิจัย หมายถึงการให้ความสำคัญกับโครงการที่:\n\n- ปรับปรุงการควบคุมและการบังคับทิศทางของโมเดลขนาดใหญ่\n- เปิดเผยตัวแทนภายในของโมเดลและวงจร (representations and circuits)\n- พัฒนาการประเมินสำหรับความเป็นอันตราย การหลอกลวง และศักยภาพการนำไปใช้ในทางที่ผิด\n- ศึกษาว่าเมื่อโมเดลมีความสามารถมากขึ้น ความเสี่ยงเปลี่ยนแปลงอย่างไร\n\nทางด้านผลิตภัณฑ์ เครื่องมืออย่าง Claude ถูกออกแบบพร้อมข้อจำกัดด้านความปลอดภัยตั้งแต่ต้น พฤติกรรมการปฏิเสธ การกรองเนื้อหา และ system prompts ที่ยึดหลักรัฐธรรมนูญถือเป็นฟีเจอร์หลัก ไม่ใช่ของแถม ข้อเสนอสำหรับองค์กรเน้นการตรวจสอบได้ นโยบายความปลอดภัยที่ชัดเจน และพฤติกรรมที่คาดเดาได้\n\nโดยผูกภารกิจเข้าไปกับทางเลือกทางเทคนิคที่ชัดเจน—พฤติกรรมช่วยเหลือ ตรงไปตรงมา ไม่เป็นอันตราย วิธีฝึกรัฐธรรมนูญ งานตีความและความปลอดภัย—Anthropic จึงวางตำแหน่งประวัติศาสตร์และวิวัฒนาการของตนโดยรอบคำถามว่าจะแนบค่านิยมมนุษย์เข้ากับระบบ AI ที่มีความสามารถได้อย่างไร
ตั้งแต่เดือนแรก Anthropic มองงานวิจัยความปลอดภัยและการเพิ่มความสามารถเป็นวาระงานร่วมกัน โฟกัสทางเทคนิคช่วงแรกของบริษัทจัดเป็นสายหลักไม่กี่ด้าน
สายงานวิจัยหลักตรวจสอบว่าระบบภาษาขนาดใหญ่แสดงพฤติกรรมอย่างไรเมื่อเผชิญกับพรอมต์ สัญญาณการฝึก และสภาพแวดล้อมการปรับใช้ต่างๆ ทีมทำการสำรวจเป็นระบบว่า:\n\n- เมื่อใดและเพราะเหตุใดโมเดลจึงสร้างข้อความที่เป็นอันตราย หลอกลวง หรือมั่นใจเกินไป\n- พฤติกรรมเปลี่ยนอย่างไรเมื่อขนาดโมเดลและข้อมูลฝึกสเกลขึ้น\n- พรอมต์รูปแบบใดที่ดึงคำตอบช่วยเหลือและตรงไปตรงมาที่สุด\n\nงานเหล่านี้นำไปสู่ชุดการประเมินที่เป็นโครงสร้างสำหรับ “ความช่วยเหลือ” และ “ความไม่เป็นอันตราย” และเป็นมาตรวัดภายในที่ติดตามการแลกเปลี่ยนระหว่างสองมิติ
Anthropic พัฒนาจากแนวทาง reinforcement learning from human feedback (RLHF) แต่เพิ่มแนวคิดของตัวเอง นักวิจัยทดลองกับ:\n\n- ข้อมูลเปรียบเทียบจากผู้ให้คะแนนมนุษย์ที่ละเอียดมากขึ้น\n- รูบริกละเอียดสำหรับประเมินพฤติกรรมที่เกี่ยวกับความปลอดภัย\n- กระบวนการตรวจจับโหมดการล้มเหลวที่ละเอียด ไม่ใช่แค่ความเป็นพิษที่ชัดเจน\n\nความพยายามเหล่านี้ป้อนเข้าไปในงานเริ่มแรกของบริษัทเกี่ยวกับ Constitutional AI: ฝึกโมเดลให้ปฏิบัติตาม “รัฐธรรมนูญ” ที่เขียนไว้ แทนที่จะพึ่งพาเพียงการจัดอันดับความชอบของมนุษย์ วิธีนี้มุ่งทำให้การจัดแนวโปร่งใส ตรวจสอบได้ และสม่ำเสมอมากขึ้น
อีกเสาหลักคือ interpretability—พยายามมองว่าโมเดล “รู้” อะไรภายใน Anthropic เผยแพร่งานเกี่ยวกับลักษณะเฉพาะและวงจรในเครือข่ายประสาท สำรวจว่าคอนเซ็ปต์ถูกแทนในชั้นและการกระตุ้นอย่างไร
แม้งานเหล่านี้ยังเป็นการสำรวจ แต่ก็วางรากฐานทางเทคนิคสำหรับโครงการ interpretability เชิงกลไกต่อไป และสื่อว่าองค์กรจริงจังกับการเปิดกล่องดำของระบบ
เพื่อหนุนงานทั้งหมดนี้ Anthropic ลงทุนหนักในชุดการประเมิน ทีมเฉพาะด้านออกแบบพรอมต์เชิงจู่โจม การทดสอบสถานการณ์ และการตรวจสอบอัตโนมัติเพื่อค้นหากรณีมุมฉากก่อนที่โมเดลจะถูกปรับใช้ในวงกว้าง
เมื่อการประเมินเป็นวัตถุการวิจัยชั้นหนึ่ง—ปรับปรุง ทำเวอร์ชัน และเผยแพร่—Anthropic ก็ได้ชื่อเสียงในชุมชนวิจัย AI ในด้านวิธีการที่มีวินัยและขับเคลื่อนด้วยความปลอดภัยซึ่งผสานอยู่กับการพัฒนาโมเดล Claude ที่มีความสามารถมากขึ้น
เส้นทางของ Anthropic ถูกกำหนดจากการที่ได้รับทุนมากตั้งแต่แรกสำหรับบริษัทวิจัยรุ่นใหม่
รายงานสาธารณะระบุช่วงเริ่มต้นในปี 2020–2021 ตามด้วย Series A ขนาดใหญ่ในปี 2021 ราว $100M+ ซึ่งเปิดโอกาสให้ทีมผู้ก่อตั้งจ้างนักวิจัยหลักและเริ่มการฝึกโมเดลจริงจัง
ในปี 2022 Anthropic ประกาศ Series B ขนาดใหญ่ที่รายงานกันโดยทั่วไปประมาณ $580M รอบนี้ได้รับการสนับสนุนจากนักลงทุนด้านเทคโนโลยีและแหล่งทุนที่เกี่ยวข้องกับคริปโต ช่วยให้บริษัทแข่งขันที่แนวหน้าในการวิจัย AI ขนาดใหญ่ซึ่งต้องการทุนสูงมาก
ตั้งแต่ 2023 เป็นต้นมา การระดมทุนเปลี่ยนไปสู่พันธมิตรเชิงกลยุทธ์กับผู้ให้บริการคลาวด์ รายงานสาธารณะเน้นกรอบการลงทุนในระดับพันล้านดอลลาร์กับ Google และ Amazon ทั้งในรูปแบบการลงทุนแบบถือหุ้นและการผูกสัญญาโครงสร้างพื้นฐานคลาวด์และฮาร์ดแวร์ ข้อตกลงเหล่านี้ผสมทุนเข้ากับการเข้าถึง GPU/TPU ขนาดใหญ่
ทุนนั้นทำให้ Anthropic สามารถ:\n\n- ฝึกโมเดล Claude ที่ใหญ่ขึ้นและมีความสามารถมากขึ้นบนคลัสเตอร์การคำนวณขนาดใหญ่\n- สร้างเครื่องมือภายใน ท่อข้อมูลข้อมูล และชุดการประเมินสำหรับงานวิจัยที่มุ่งความปลอดภัย\n- ประกันสัญญาคลาวด์ระยะยาว เพื่อลดความไม่แน่นอนเรื่องการเข้าถึงการคำนวณในอนาคต\n บริษัทขยายจากกลุ่มผู้ก่อตั้งขนาดเล็ก—ส่วนใหญ่เป็นอดีตนักวิจัยและวิศวกรจาก OpenAI—ไปสู่องค์กรที่เติบโตครอบคลุมหลายสาขา ตามรายงานสาธารณะพนักงานขยายเป็นหลักร้อย และมีบทบาทใหม่ๆ เกิดขึ้นนอกเหนือจากงานวิจัย ML ล้วนๆ
ทุนช่วยให้ Anthropic จ้าง:\n\n- นักวิจัยด้านความปลอดภัยและการจัดแนว เพื่อสำรวจการควบคุมที่สามารถขยายได้ Constitutional AI และ red‑teaming\n- วิศวกรโครงสร้างพื้นฐานและความน่าเชื่อถือ เพื่อจัดการการรันการฝึกขนาดใหญ่และการปรับใช้โมเดล\n- วิศวกรผลิตภัณฑ์และ API เพื่อเปลี่ยนโมเดลวิจัยให้เป็นบริการที่ใช้งานได้จริง\n- ผู้เชี่ยวชาญนโยบาย การกำกับดูแล และ trust & safety เพื่อติดต่อกับหน่วยงานกำกับ ลูกค้า และภาคประชาสังคม\n การผสมผสานนี้แสดงว่า Anthropic มองความปลอดภัยของ AI ไม่ใช่แค่งานวิจัย แต่เป็นฟังก์ชันขององค์กรที่ต้องการทีมวิศวกร นักวิจัย ทนาย ความสัมพันธ์เชิงนโยบาย และการสื่อสารทำงานร่วมกัน
เมื่อเงินทุนเพิ่มขึ้น Anthropic สามารถทำทั้งงานวิจัยระยะยาวด้านความปลอดภัยและพัฒนาผลิตภัณฑ์ระยะสั้นได้ ในช่วงแรกทรัพยากรส่วนใหญ่ใช้ไปกับงานวิจัยพื้นฐานและการฝึกโมเดลพื้นฐาน ด้วยรอบเงินทุนและพันธมิตรคลาวด์ต่อมา บริษัทจึงสามารถ:\n\n- รักษาเส้นทางวิจัยเฉพาะด้านที่มุ่งการจัดแนว การประเมิน และ interpretability\n- รันความพยายามฝึกหลายงานพร้อมกัน (เช่น Claude, Claude 2, ครอบครัว Claude 3)\n- สร้างและบริหาร API ฟีเจอร์องค์กร และการผนวกรวมโดยไม่ดึงนักวิจัยทั้งหมดไปสู่วิศวกรรมผลิตภัณฑ์\n ผลคือการเปลี่ยนจากทีมก่อตั้งขนาดเล็กที่หนักด้านวิจัยไปสู่องค์กรที่มีโครงสร้างมากขึ้น สามารถวนรอบ Claude เป็นผลิตภัณฑ์เชิงพาณิชย์ได้ ในขณะเดียวกันยังลงทุนหนักในงานวิจัยด้านความปลอดภัยและแนวทางการกำกับดูแลภายใน
Claude เป็นสายผลิตภัณฑ์หลักของ Anthropic และเป็นภาพลักษณ์สาธารณะของงานวิจัย จากรุ่นแรกที่เชิญใช้งานจนถึง Claude 3.5 Sonnet แต่ละรุ่นตั้งเป้าขยายความสามารถพร้อมปรับปรุงความน่าเชื่อถือและความปลอดภัย
รุ่น Claude แรกๆ ทดสอบกับกลุ่มพันธมิตรเล็กๆ ในปี 2022 และต้น 2023 ออกแบบเป็นผู้ช่วยข้อความอเนกประสงค์สำหรับการเขียน การวิเคราะห์ การโค้ด และการสนทนา โมเดลเหล่านี้แสดงให้เห็นการให้ความสำคัญกับความไม่เป็นอันตราย: ปฏิเสธคำขออันตรายอย่างสม่ำเสมอขึ้น อธิบายข้อจำกัดได้ชัดเจนขึ้น และสไตล์การสนทนาเน้นความตรงไปตรงมามากกว่าการโน้มน้าว
พร้อมกันนั้น Anthropic ขยายความยาวบริบท ทำให้ Claude สามารถทำงานกับเอกสารยาวและการสนทนาแบบหลายขั้นตอน ซึ่งเหมาะกับกรณีใช้งานเช่น การสรุปสั้น ทบทวนสัญญา และเวิร์กโฟลว์งานวิจัย
ด้วย Claude 2 (กลางปี 2023) Anthropic ขยายการเข้าถึงผ่านแอป Claude และ API โมเดลปรับปรุงการเขียนเชิงโครงสร้าง การโค้ด และการตามคำสั่งซับซ้อน พร้อมหน้าต่างบริบทที่ยาวขึ้นเหมาะกับการวิเคราะห์ไฟล์ขนาดใหญ่และประวัติการสนทนา
Claude 2.1 ปรับปรุงจุดเหล่านี้: ลดการสร้างข้อมูลเท็จในงานเชิงข้อเท็จจริง ความจำบริบทยาวดีขึ้น และพฤติกรรมด้านความปลอดภัยสม่ำเสมอขึ้น องค์กรเริ่มนำ Claude ไปใช้ในงานร่างคำตอบลูกค้า การวิเคราะห์นโยบาย และผู้ช่วยความรู้องค์กร
ครอบครัว Claude 3 (Opus, Sonnet, Haiku) นำการก้าวกระโดดเรื่องการให้เหตุผล ระดับความเร็ว และอินพุตมัลติ-โมดัล ทำให้ผู้ใช้สามารถสอบถามรูปภาพและเอกสารซับซ้อนได้ หน้าต่างบริบทที่ใหญ่ขึ้นและการยึดตามคำสั่งที่ดีขึ้นเปิดกรณีใช้งานใหม่ในด้านการวิเคราะห์ ผลิตภัณฑ์ และการสำรวจข้อมูล
Claude 3.5 Sonnet (ปล่อยกลางปี 2024) ขยับอีกขั้น มอบคุณภาพการให้เหตุผลและการเขียนโค้ดในระดับใกล้แนวหน้าที่ราคาอยู่ในระดับกลาง พร้อมการตอบสนองที่รวดเร็วเหมาะกับผลิตภัณฑ์เชิงโต้ตอบ นอกจากนี้ยังปรับปรุงการใช้เครื่องมือและผลลัพธ์เชิงโครงสร้าง ทำให้ง่ายต่อการผนวกรวมกับการเรียกฟังก์ชัน ฐานข้อมูล และ API ภายนอก
ตลอดหลายรุ่น Anthropic ผสมผสานการเพิ่มประสิทธิภาพกับความปลอดภัยและความน่าเชื่อถือ วิธี Constitutional AI การทดสอบเชิงรุก และชุดประเมินมีการอัปเดตทุกครั้งที่ปล่อยเพื่อให้พฤติกรรมการปฏิเสธ การปกป้องความเป็นส่วนตัว และความโปร่งใสสอดคล้องกับความสามารถที่เพิ่มขึ้น
ข้อเสนอแนะจากผู้ใช้และลูกค้ามีอิทธิพลมาก: บันทึกเหตุการณ์ (จัดการภายใต้นโยบายความเป็นส่วนตัวที่เข้มงวด), ตั๋วซัพพอร์ต และโปรแกรมพันธมิตรชี้จุดที่ Claude เข้าใจผิด ปฏิเสธมากเกินไป หรือให้คำตอบไม่ชัดเจน ข้อมูลเชิงลึกเหล่านี้ถูกนำไปปรับชุดฝึก ชุดประเมิน และออกแบบผลิตภัณฑ์ ชี้ทางวิวัฒนาการของ Claude จากผู้ช่วยทดลองสู่ AI ที่หลากหลายพร้อมใช้ในการผลิตในอุตสาหกรรมต่างๆ
โมเดลของ Anthropic ย้ายจากห้องวิจัยสู่ระบบการผลิตอย่างรวดเร็ว ขับเคลื่อนโดยความต้องการจากองค์กรที่ต้องการการให้เหตุผลที่แข็งแรง การควบคุมชัดเจน และพฤติกรรมที่คาดเดาได้
ฐานผู้ใช้เริ่มแรกกระจุกตัวในกลุ่มหลักๆ:\n\n- องค์กร ใช้ Claude ในเครื่องมือภายในสำหรับงานความรู้ การวิเคราะห์ และการปฏิบัติการลูกค้า\n- ทีมพัฒนาและสตาร์ทอัพ ผนวกรวม Claude ผ่าน API เพื่อขับเคลื่อนผลิตภัณฑ์ของตน\n- องค์กรไม่แสวงหาผลกำไร กลุ่มวิจัย และองค์กรนโยบาย ทดลองใช้ผู้ช่วยที่ปลอดภัยสำหรับการวิเคราะห์ การร่าง และการศึกษา\n\nส่วนผสมนี้ช่วยให้ Anthropic ปรับ Claude ให้เหมาะกับทั้งสภาพแวดล้อมที่ต้องปฏิบัติตามข้อกำหนดสูงและทีมผลิตภัณฑ์ที่คล่องตัว
ความร่วมมือหลายรายการชี้ชะตาการขยับสู่โครงสร้างพื้นฐานกระแสหลักของ Anthropic:\n\n- Quora’s Poe ผนวกรวม Claude เป็นตัวเลือกหลักสำหรับผู้ใช้แสดงคุณภาพการโต้ตอบและการอธิบาย\n- เครื่องมือด้านการผลิตและความร่วมมือ เช่น Notion และรายอื่นๆ นำ Claude ไปใช้ช่วยเขียน สรุป และสร้างเนื้อหาเชิงโครงสร้าง\n- ผู้ช่วยค้นหาและการท่องเว็บ รวมถึงการทดลองของ DuckDuckGo ใช้โมเดลของ Anthropic เบื้องหลัง\n- พันธมิตรคลาวด์และแพลตฟอร์ม กับผู้ให้บริการอย่าง Amazon (ผ่าน Bedrock) และ Google Cloud ทำให้ Claude เข้าถึงองค์กรที่ใช้ระบบนิเวศนั้นอยู่แล้วได้ง่ายขึ้น\n\nข้อตกลงเหล่านี้ขยายการเข้าถึงของ Anthropic มากกว่าลูกค้า API โดยตรง
Anthropic วาง API ของตนเป็นชั้นเหตุผลและผู้ช่วยทั่วไป มากกว่าจะเป็นบริการแชทแคบๆ เอกสารและตัวอย่างเน้น:\n\n- การรวม HTTP และ SDK ที่ง่าย\n- เวิร์กโฟลว์บริบทยาว (ประมวลผลเอกสารขนาดใหญ่ log หรือฐานความรู้)\n- system prompts และเครื่องมือ (function calling) สำหรับพฤติกรรมที่ปรับแต่งได้\n\nสิ่งนี้ทำให้การฝัง Claude ในผลิตภัณฑ์ แอปภายใน และท่อข้อมูลข้อมูลที่มีอยู่เป็นเรื่องธรรมชาติมากกว่าการมองเป็นแอปเดสติเนชันแยกต่างหาก
ในหลายภาคส่วน รูปแบบการใช้งานที่ปรากฏคือ:\n\n- สนับสนุนงานความรู้: ร่างอีเมลและรายงาน สรุปการประชุม เขียนนโยบายใหม่ หรือแปลงบันทึกดิบเป็นเอกสารเชิงโครงสร้าง\n- ช่วยโค้ด: อธิบายโค้ดที่ไม่คุ้นเคย แนะนำการนำไปใช้ สร้างเทสต์ และตรวจสอบ pull request\n- การวิเคราะห์และงานวิจัย: ย่อย PDF ยาว เปรียบเทียบนโยบายหรือสัญญา และสกัดข้อมูลเชิงโครงสร้างให้แอนะลิสต์หรือทีมกฎหมาย\n- ผู้ช่วยลูกค้าหน้าบ้าน: ขับเคลื่อนแชทวิดเจ็ต การค้นหาในศูนย์ช่วยเหลือ และการแก้ปัญหาแบบมีขั้นตอน มักปรับแต่งผ่าน prompt design และการใช้เครื่องมือ\n\nการใช้งานเหล่านี้มักผสานทักษะภาษาของ Claude เข้ากับข้อมูลลูกค้าและตรรกะธุรกิจภายในระบบเดิม
การสื่อสารเชิงการตลาดของ Anthropic เน้นหนักที่ ความปลอดภัย ความสามารถในการบังคับทิศทาง และความคาดเดาได้ เอกสารทางเทคนิคและการตลาดเน้น:\n\n- Constitutional AI ในฐานะวิธีการจัดแนวพฤติกรรมโมเดลกับหลักการที่เขียนไว้\n- มาตรการป้องกันเนื้อหาต้องห้ามและกรณีใช้งานที่ละเอียดอ่อน\n- ตัวเลือกการตั้งค่าสำหรับโทน เสนอความคิดริเริ่มของโมเดล และพฤติกรรมการปฏิเสธ\n- การประเมินอย่างต่อเนื่อง การ red‑teaming และแนวทางตอบโต้เหตุการณ์\n\nสำหรับลูกค้าที่มีความเสี่ยงสูง เช่น สถาบันการเงิน องค์กรสาธารณสุข และแพลตฟอร์มการศึกษา การเน้นเรื่องนี้มักสำคัญพอๆ กับความสามารถดิบของโมเดล ส่งผลต่อวิธีและสถานที่ที่ Claude ถูกนำไปใช้จริง
ตั้งแต่เริ่มต้น Anthropic ให้ความสำคัญกับการกำกับดูแลและความปลอดภัยเป็นข้อจำกัดการออกแบบแทนที่จะเป็นเรื่องตามหลัง นั่นสะท้อนไปยังวิธีการฝึก ประเมิน ปล่อย และติดตามโมเดลตามเวลา
Anthropic ให้คำมั่นว่าจะปล่อยรุ่นแบบเป็นขั้นตอน โดยมีการทบทวนความปลอดภัยภายในและนโยบาย Responsible Scaling ก่อนปล่อยรุ่นสำคัญ ทีมจะรันการประเมินอย่างครอบคลุมต่อความสามารถที่อาจเป็นอันตราย เช่น การใช้ในทางไซเบอร์ การชักจูง หรือการช่วยเหลือทางชีวภาพ ผลลัพธ์การประเมินเหล่านี้นำไปใช้ในการตัดสินใจว่าจะปล่อย จำกัด หรือเสริมความแข็งแกร่งของโมเดลอย่างไร
การ red‑teaming เป็นส่วนประกอบหลัก ผู้เชี่ยวชาญภายในและภายนอกถูกเชิญให้ทดสอบโมเดลว่าทำให้เกิดโหมดการล้มเหลวได้ง่ายแค่ไหน ผลการค้นพบถูกนำไปสู่การปรับแต่งความปลอดภัย การตั้งค่าผลิตภัณฑ์ และนโยบายที่อัปเดต
การทบทวนความปลอดภัยไม่ได้จบที่การเปิดตัว Anthropic ติดตามรายงานการใช้ในทางผิด ตรวจสอบการเปลี่ยนพฤติกรรมหลังการอัปเดต และใช้ฟีดแบ็กจากลูกค้าและรายงานเหตุการณ์เพื่อปรับค่าการกำหนดค่า การควบคุมการเข้าถึง และการตั้งค่าดีฟอลต์
Constitutional AI เป็นวิธีการความปลอดภัยที่โดดเด่นของ Anthropic แทนที่จะพึ่งพาผู้ให้คะแนนมนุษย์เพียงอย่างเดียว โมเดลถูกฝึกให้วิจารณ์และแก้ไขคำตอบตาม “รัฐธรรมนูญ” ที่เขียนขึ้น หลักการเหล่านี้ดึงมาจากแหล่งสาธารณะ เช่น เอกสารสิทธิมนุษยชนและแนวทางจริยธรรม AI ที่ยอมรับโดยทั่วไป เป้าหมายคือสร้างโมเดลที่สามารถอธิบายว่าทำไมคำตอบไม่เหมาะสมและปรับแก้ แทนการบล็อกเนื้อหาเพียงอย่างเดียวด้วยตัวกรองแข็ง
ด้วยเหตุนี้ Constitutional AI จึงปฏิบัติภารกิจของ Anthropic: จัดแนวระบบทรงพลังกับหลักการที่ชัดเจน ตรวจสอบได้ และโปร่งใสพอให้ผู้ภายนอกวิพากษ์ได้
การกำกับดูแลของ Anthropic ไม่ได้เป็นแค่ภายในบริษัท บริษัทมีส่วนร่วมในข้อตกลงด้านความปลอดภัยกับรัฐบาลและเพื่อนร่วมวงการ มีส่วนช่วยพัฒนาเบนช์มาร์กทางเทคนิค และสนับสนุนการพัฒนามาตรฐานร่วมสำหรับโมเดลแนวหน้า
บันทึกสาธารณะแสดงการมีส่วนร่วมกับผู้กำหนดนโยบายผ่านการให้ข้อมูลการพิจารณาในที่ประชุม บทบาทที่ปรึกษา และการให้คำปรึกษา ตลอดจนความร่วมมือกับองค์กรประเมินและหน่วยงานมาตรฐานในการทดสอบความสามารถที่เป็นอันตรายและคุณภาพการจัดแนว
ช่องทางภายนอกเหล่านี้มีสองหน้าที่: เปิดแนวทางของ Anthropic ให้ได้รับการวิพากษ์จากภายนอก และช่วยแปลงานวิจัยเรื่องความปลอดภัย ชุดประเมิน และวิธีการจัดแนวให้กลายเป็นกฎเกณฑ์ มาตรฐาน และแนวปฏิบัติที่เกิดขึ้นจริงสำหรับระบบ AI ขั้นสูง
ด้วยวิธีนี้ การกำกับดูแล การทดสอบเชิงรุก และวิธีการมีโครงสร้างอย่าง Constitutional AI สะท้อนภารกิจดั้งเดิมของบริษัท: สร้างระบบที่มีความสามารถพร้อมลดความเสี่ยงและเพิ่มความรับผิดชอบเมื่อความสามารถเพิ่มขึ้น
Anthropic ยืนเคียง OpenAI, DeepMind, Google และ Meta ในฐานะหนึ่งในห้องทดลองแนวหน้าของวงการ แต่สร้างอัตลักษณ์เฉพาะตัวด้วยการยกความปลอดภัยและการตีความเป็นปัญหาหลัก ไม่ใช่เงื่อนไขรอง
ตั้งแต่บทความแรกๆ Anthropic มุ่งสอบถามคำถามที่หลายห้องทดลองมักมองเป็นเรื่องรอง: การจัดแนว โหมดการล้มเหลว และความเสี่ยงเมื่อสเกล งานด้าน Constitutional AI วิธีการ red‑teaming และการตีความได้รับการอ่านอย่างกว้างขวางโดยนักวิจัยที่สร้างและประเมินโมเดลใหญ่ แม้ในองค์กรที่แข่งขันกัน
โดยการเผยแพร่งานเทคนิคในที่ประชุมใหญ่และบน preprint servers นักวิจัยของ Anthropic มีส่วนร่วมในแหล่งความรู้และเมทอดร่วมกันที่ขับเคลื่อนความก้าวหน้าข้ามห้องทดลอง ขณะเดียวกันก็มักเชื่อมผลลัพธ์ด้านประสิทธิภาพเข้ากับคำถามเรื่องการควบคุมและความน่าเชื่อถือ
Anthropic มีบทบาทเด่นในการอภิปรายสาธารณะเรื่องความปลอดภัย AI ผู้นำและนักวิจัยของบริษัท:\n\n- ลงนามและมีส่วนช่วยกำหนดข้อตกลงด้านความปลอดภัยร่วมกับรัฐบาลสหรัฐฯ\n- เข้าร่วมการประชุม AI Safety Summit ที่สหราชอาณาจักรและความริเริ่มพหุภาคีเกี่ยวกับการกำกับดูแลโมเดลแนวหน้า\n- มีส่วนร่วมกับสมาคมและความพยายามกำหนดมาตรฐาน เช่น consortiums ที่เกี่ยวข้องกับการประเมิน\n ในบริบทเหล่านี้ Anthropic มักผลักดันมาตรฐานความปลอดภัยที่เป็นรูปธรรม สามารถทดสอบได้ การประเมินอิสระ และการปล่อยทีละขั้นของระบบที่มีความสามารถสูง
Anthropic มีส่วนร่วมในเบนช์มาร์กและความพยายามด้านการประเมินร่วมของโมเดลภาษาขนาดใหญ่ โดยเฉพาะการทดสอบที่กดดันโมเดลให้เผชิญกับความสามารถเป็นอันตราย ศักยภาพในการนำไปใช้ในทางผิด หรือพฤติกรรมหลอกลวง
นักวิจัยของ Anthropic เผยแพร่บทความอย่างสม่ำเสมอ นำเสนอในเวิร์กชอป และร่วมมือกับนักวิชาการในหัวข้อเช่น interpretability พฤติกรรมเมื่อสเกล และ preference learning พวกเขาเผยแพร่ชุดข้อมูล ตัวอย่าง และเครื่องมือบางส่วนที่ช่วยให้นักวิจัยภายนอกตรวจสอบพฤติกรรมและเทคนิคการจัดแนวของโมเดลได้
แม้ Anthropic จะไม่ใช่แล็บที่เปิดซอร์สโมเดลใหญ่ฟรี แต่ผลงานของบริษัทมีอิทธิพลต่อชุมชนโอเพนซอร์ส: เทคนิคอย่าง Constitutional AI และแนวปฏิบัติการประเมินบางรูปแบบถูกนำไปปรับใช้ในโครงการเปิดที่พยายามทำให้โมเดลขนาดเล็กปลอดภัยขึ้น
เส้นทางของ Anthropic สะท้อนการเปลี่ยนแปลงกว้างในวิธีการพัฒนาโมเดลทรงพลัง งานวิจัยโมเดลใหญ่เริ่มแรกเน้นกำลังล้วนๆ เมื่อเวลาผ่านไป ความกังวลเรื่องการนำไปใช้ในทางผิด ความเสี่ยงเชิงระบบ และการจัดแนวเคลื่อนเข้ามาเป็นศูนย์กลางมากขึ้น
ด้วยการจัดองค์กรโดยตรงรอบความปลอดภัย ลงทุนใน interpretability ที่สเกล และมีส่วนร่วมกับรัฐบาลเรื่องการกำกับดูแลโมเดลแนวหน้า Anthropic ทั้งตอบสนองต่อและเร่งการเปลี่ยนผ่านนี้ ประวัติของบริษัทแสดงให้เห็นว่าการวิจัยความสามารถชั้นนำและงานความปลอดภัยเชิงเข้มงวดกลายเป็นความคาดหวังร่วมกันสำหรับห้องทดลองที่ทำงานที่แนวหน้าของ AI
เรื่องราวของ Anthropic เน้นความตึงเครียดกลางๆ ของ AI: งานความปลอดภัยที่มีความหมายมักขึ้นกับการผลักดันความสามารถต่อไป แต่ทุกความก้าวหน้าก็ยกคำถามด้านความปลอดภัยใหม่ๆ บริษัทนี้เป็นการทดลองในทางหนึ่งของการจัดการความตึงเครียดนั้นในที่เปิดเผย
Anthropic เริ่มโดยนักวิจัยที่กังวลว่า ระบบ AI ทั่วไปอาจยากที่จะบังคับทิศทางได้อย่างเชื่อถือเมื่อมันมีความสามารถสูงขึ้น ความกังวลนั้นหล่อหลอมลำดับความสำคัญเริ่มแรก: งานตีความ วิธีการจัดแนวอย่าง Constitutional AI และแนวทางการปล่อยที่รอบคอบ
เมื่อโมเดล Claude เติบโตทั้งด้านความสามารถและความสำคัญเชิงพาณิชย์ แรงจูงใจดั้งเดิมยังคงปรากฏ แต่ทำงานท่ามกลางแรงกดดันจากโลกจริงมากขึ้น เช่น ความต้องการลูกค้า การแข่งขัน และการสเกลโมเดลที่รวดเร็ว ผ่านเส้นทางนี้บริษัทพยายามเก็บรักษาความสัมพันธ์แนบแน่นระหว่างงานวิจัยความปลอดภัยกับการพัฒนาผลิตภัณฑ์ แทนที่จะแยกการทำงานเป็นสองเส้นทาง
เอกสารสาธารณะชี้เป้าหมายระยะยาวซ้ำๆ เช่น:\n\n- สร้างระบบ AI ที่ "ช่วยเหลือ ตรงไปตรงมา และไม่เป็นอันตราย" เป็นค่าเริ่มต้น\n- พัฒนาวิธีการ (เช่น การฝึกรัฐธรรมนูญ ชุดประเมิน เครื่องมือ interpretability) ที่ทำให้พฤติกรรมคาดเดาและบังคับทิศทางได้มากขึ้น\n- มีส่วนร่วมในการกำหนดบรรทัดฐาน มาตรฐาน และแนวทางกำกับดูแลที่ลดความเสี่ยงเชิงระบบจากโมเดลทรงพลัง\n การเน้นไม่ใช่แค่การป้องกันความล้มเหลวครั้งใหญ่ แต่เป็นการสร้างเทคโนโลยีที่สถาบันต่างๆ หลายรูปแบบสามารถนำทางได้อย่างเชื่อถือได้ แม้เมื่อโมเดลมีผลกระทบเชิงเปลี่ยนโลก
ความไม่แน่นอนสำคัญยังคงมีอยู่—ทั้งสำหรับ Anthropic และวงการโดยรวม:\n\n- เทคนิคการจัดแนวจะตามทันความก้าวหน้าความสามารถได้หรือไม่ โดยเฉพาะเมื่อโมเดลได้รูปแบบใหม่ของการใช้เครื่องมือหรือเอเยนซี\n- แรงจูงใจเชิงพาณิชย์และภูมิรัฐศาสตร์จะเอื้อต่อการสเกลที่ระมัดระวังหรือบีบให้เร่งการปล่อยเร็วเกินไป\n- การตีความและชุดประเมินสามารถตรวจจับโหมดการล้มเหลวละเอียดๆ ก่อนปล่อยได้ไกลแค่ไหน\n- รูปแบบสถาบันใด—การตรวจสอบภายนอก ใบอนุญาต มาตรฐาน—จะทำงานได้จริงในทางปฏิบัติ
การเข้าใจประวัติของ Anthropic ช่วยวางงานปัจจุบันของบริษัทในบริบท การตัดสินใจเกี่ยวกับการปล่อยโมเดล รายงานความปลอดภัย การร่วมมือกับผู้ประเมินภายนอก และการมีส่วนร่วมในเวทีนโยบายไม่ได้เป็นการตัดสินใจแยกส่วน แต่เป็นผลมาจากความกังวลตั้งต้นเกี่ยวกับการควบคุม ความน่าเชื่อถือ และผลกระทบระยะยาว
ขณะที่ Anthropic พัฒนาต่อไปด้วยโมเดล Claude ที่มีความสามารถมากขึ้นและการผสานเข้ากับระบบโลกจริง อดีตของบริษัทให้เลนส์ที่มีประโยชน์: ความก้าวหน้าและความระมัดระวังถูกไล่ตามพร้อมกัน และระดับที่ความสมดุลนี้ประสบความสำเร็จจะกำหนดทั้งอนาคตของบริษัทและเส้นทางการพัฒนา AI โดยรวม
Anthropic เป็นบริษัทวิจัยและพัฒนาผลิตภัณฑ์ด้าน AI ที่มุ่งสร้างโมเดลภาษาขนาดใหญ่ เป็นที่รู้จักจากตระกูล Claude โดยตั้งอยู่ตรงจุดตัดระหว่าง:
ตั้งแต่ก่อตั้ง Anthropic ให้ความสำคัญกับความปลอดภัยและการจัดแนวเป็นปัญหางานวิจัยหลัก ไม่ใช่สิ่งที่เพิ่มเข้ามาทีหลัง ซึ่งมีผลต่องานเทคนิค ผลิตภัณฑ์ และแนวทางการปกครองของบริษัท
Anthropic ก่อตั้งขึ้นในปี 2021 โดย Dario และ Daniela Amodei พร้อมเพื่อนร่วมงานจากห้องวิจัยอย่าง OpenAI, Google Brain และ DeepMind ทีมผู้ก่อตั้งมีประสบการณ์ตรงในการฝึกและปรับใช้โมเดลภาษาขนาดใหญ่และเห็นทั้งศักยภาพและความเสี่ยง
พวกเขาริเริ่ม Anthropic เพราะกังวลเรื่อง:
Anthropic ตั้งใจเป็นองค์กรที่ให้ความสำคัญกับความปลอดภัยและประโยชน์ระยะยาวเป็นข้อจำกัดในการออกแบบ ไม่ใช่สิ่งถูกละเลย
เป้าหมายเหล่านี้ถูกใช้เป็นตัวชี้วัดทางวิศวกรรม: ข้อมูลฝึก การประเมิน และนโยบายการปรับใช้ถูกออกแบบเพื่อวัดและปรับปรุงตามมิติทั้งสาม ไม่ใช่เพียงความสามารถล้วนๆ
Constitutional AI คือวิธีของ Anthropic ในการชี้นำพฤติกรรมของโมเดลโดยใช้ชุดหลักการที่เขียนไว้ แทนการพึ่งพาการให้คะแนนจากมนุษย์เพียงอย่างเดียว
ในทางปฏิบัติ Anthropic จะ:
วิธีนี้ช่วย:
Anthropic รวมงานด้านความสามารถและความปลอดภัยเข้าด้วยกันตั้งแต่แรก เรียกได้ว่าเป็นกรอบงานทางเทคนิคที่ผสมหลายเส้นทางสำคัญ เช่น:
Anthropic ได้ระดมทุนรอบใหญ่และสร้างพันธมิตรเชิงกลยุทธ์เพื่อสนับสนุนงานวิจัยระดับแนวหน้า เช่น:
ทุนเหล่านี้ถูกใช้เพื่อฝึกโมเดล Claude ขนาดใหญ่ สร้างเครื่องมือและชุดการประเมินด้านความปลอดภัย และขยายทีมข้ามสหสาขาวิชาชีพ
Claude เป็นสายผลิตภัณฑ์หลักของ Anthropic และวิวัฒนาการจากรุ่นเชิงทดลองสู่รุ่นการใช้งานจริงแต่ยังคงยึดหลักความปลอดภัย
Claude ถูกนำไปใช้ในระบบการผลิตอย่างรวดเร็วโดยลูกค้าที่ต้องการการให้เหตุผลชัดเจน การควบคุมที่มากขึ้น และพฤติกรรมที่คาดเดาได้
กลุ่มผู้ใช้งานหลักได้แก่:
การปรับใช้มักผสานขีดความสามารถของ Claude เข้ากับข้อมูลและตรรกะธุรกิจภายในระบบที่มีอยู่ โดยให้ความสำคัญกับบริบทยาว การเรียกใช้งานเครื่องมือ และการมีกรอบความปลอดภัย
Anthropic มองเรื่องการกำกับดูแลและความปลอดภัยเป็นข้อจำกัดในการออกแบบตั้งแต่ต้น ซึ่งสะท้อนในกระบวนการฝึก ประเมิน ปล่อย และติดตามโมเดล
Constitutional AI ถูกใช้เป็นวิธีการหลักในการทำให้พฤติกรรมของโมเดลสอดคล้องกับหลักการที่อ่านและตรวจสอบได้ ส่วนการมีส่วนร่วมกับภายนอก เช่น การร่วมมือกับรัฐบาลและหน่วยงานประเมิน ช่วยให้แนวปฏิบัติของ Anthropic ถูกตรวจสอบและปรับปรุงโดยสาธารณะ
Anthropic ยืนอยู่ในแวดวงเดียวกับ OpenAI, DeepMind, Google และ Meta ในฐานะหนึ่งในห้องทดลองชั้นแนวหน้า แต่แตกต่างด้วยการให้ความสำคัญกับความปลอดภัยและการตีความเป็นปัญหาหลัก
โดยรวม Anthropic ช่วยผลักดันการเปลี่ยนผ่านในวงการจากการเน้นกำลังไปสู่การผนวกความปลอดภัยเข้ามาเป็นส่วนหนึ่งของงานวิจัยชั้นนำ
เรื่องราวของ Anthropic เน้นความขัดแย้งที่สำคัญของ AI: งานความปลอดภัยที่มีความหมายมักขึ้นกับการผลักดันความสามารถต่อไป แต่ทุกความก้าวหน้าก็ยกคำถามใหม่ๆ ทางด้านความปลอดภัย
เป้าหมายระยะยาวที่เห็นได้จากเอกสารสาธารณะของ Anthropic ได้แก่:
คำถามเปิดที่ยังคงอยู่ได้แก่:
งานเหล่านี้ถูกรวมเข้ากับการพัฒนา Claude แทนที่จะเป็นกิจกรรมแยกต่างหากจากงานผลิตภัณฑ์
ในแต่ละรุ่น Anthropic ผสมผสานการปรับปรุงความสามารถเข้ากับการฝึกความปลอดภัย การทดสอบเชิงรุก และการตอบรับจากลูกค้า
การเข้าใจประวัติของ Anthropic ช่วยให้เห็นบริบทของการตัดสินใจเรื่องการปล่อยรุ่น รายงานความปลอดภัย และการมีส่วนร่วมกับผู้กำหนดนโยบาย—สิ่งเหล่านี้สะท้อนความกังวลเริ่มแรกเกี่ยวกับการควบคุม ความน่าเชื่อถือ และผลกระทบระยะยาว