เรียนรู้ว่าซิลิคอนโครงสร้างพื้นฐานข้อมูลของ Marvell ช่วยสนับสนุนเครือข่ายคลาวด์ สตอเรจ และการเร่งความเร็วแบบกำหนดเอง — ขับเคลื่อนศูนย์ข้อมูลให้เร็วและมีประสิทธิภาพยิ่งขึ้นเบื้องหลัง.

คนส่วนใหญ่มักคิดว่า “คลาวด์” คือแคร์เซิร์ฟเวอร์ แต่ในความจริง ศูนย์ข้อมูลคลาวด์คือระบบขนาดใหญ่สำหรับการเคลื่อนย้าย เก็บ และปกป้องข้อมูลด้วยความเร็วสูง ซิลิคอนโครงสร้างพื้นฐานข้อมูล คือชุดชิปเฉพาะทางที่จัดการงานหนักด้านข้อมูลเหล่านั้นเพื่อให้ CPU หลักไม่ต้องรับภาระ
Marvell โฟกัสที่ชั้น “ตรงกลาง” นี้: ชิปที่เชื่อมคอมพิวต์เข้ากับเครือข่ายและสตอเรจ, เร่งงานที่พบบ่อยในดาต้าเซ็นเตอร์, และทำให้ทุกอย่างไหลได้อย่างเสถียรเมื่อโหลดสูง
ถ้าคุณจินตนาการแร็คคลาวด์จากบนลงล่าง อุปกรณ์ของ Marvell มักอยู่:
สิ่งเหล่านี้ไม่ใช่ “แอป” และไม่ใช่ “เซิร์ฟเวอร์” ในความหมายปกติ—แต่เป็นบล็อกฮาร์ดแวร์ที่ทำให้เซิร์ฟเวอร์นับพันทำงานร่วมกันเหมือนบริการเดียว
เมื่อซิลิคอนโครงสร้างพื้นฐานทำงานได้ดี คุณจะไม่เห็นมัน หน้าเว็บโหลดเร็วขึ้น วิดีโอลดการบัฟเฟอร์ และการสำรองข้อมูลเสร็จตรงเวลา—แต่ผู้ใช้ไม่เห็นเอนจิน offload เครือข่าย ตัวควบคุมสตอเรจ หรือโครงผ้าสวิตช์ที่ทำให้เรื่องนี้เกิดขึ้น ชิปเหล่านี้ทำงานเงียบๆ ลดความหน่วง ปล่อยรอบ CPU และทำให้ประสิทธิภาพเสถียรขึ้น
บทบาทของ Marvell แบ่งง่ายเป็นสามกลุ่ม:
นี่คือซิลิคอน “ที่ทำงานเงียบ” ที่ช่วยให้บริการคลาวด์ดูเรียบง่ายบนพื้นผิว
แอปคลาวด์ดูเหมือนจะถูกนิยามด้วยซอฟต์แวร์ แต่งานทางกายภาพยังเกิดขึ้นในแร็คที่เต็มไปด้วยเซิร์ฟเวอร์ สวิตช์ และสตอเรจ เมื่อความต้องการเพิ่มขึ้น คลาวด์ไม่สามารถพึ่งพา CPU ทั่วไปสำหรับทุกงานโดยไม่เจอข้อจำกัดด้านต้นทุนและประสิทธิภาพ
การเทรนและการใช้งาน AI เคลื่อนย้ายชุดข้อมูลขนาดใหญ่ภายในดาต้าเซ็นเตอร์ สตรีมวิดีโอ การสำรองข้อมูล การวิเคราะห์ และแพลตฟอร์ม SaaS เพิ่มภาระพื้นหลังอยู่ตลอด เมื่อตัวประมวลผลยังพอมี แต่คอขวดมักย้ายไปที่การเคลื่อนย้าย กรอง เข้ารหัส และเก็บข้อมูลให้เร็วพอ
ทราฟฟิกส่วนใหญ่ไม่ออกสู่สาธารณะ แต่เดินทาง “แบบ east–west” ระหว่างบริการ: การเรียกไมโครเซอร์วิส, อ่านฐานข้อมูล, อัปเดตแคช, การจำลองสตอเรจ และงาน AI กระจาย ทราฟฟิกภายในต้องการความหน่วงที่คาดเดาได้และแบนด์วิดท์สูง ซึ่งผลักให้ฮาร์ดแวร์เครือข่ายและสตอเรจทำการประมวลผลใกล้กับเส้นทางข้อมูลมากขึ้น
พลังงานและพื้นที่ไม่ใช่สิ่งไม่จำกัด หากผู้ให้บริการคลาวด์สามารถ offload งานเช่น การประมวลผลแพ็กเก็ต การเข้ารหัส การบีบอัด หรือการตรวจสอบสตอเรจไปยังซิลิคอนเฉพาะ CPU จะใช้เวลาน้อยลงกับงานโอเวอร์เฮด ซึ่งช่วยให้:\n
แทนที่จะขยายด้วยการเพิ่มคอร์ทั่วไป แพลตฟอร์มคลาวด์ใช้ชิปที่ออกแบบมาเฉพาะงานมากขึ้น—Smart NIC/DPU, ซิลิคอนสวิตช์, ตัวควบคุมสตอเรจ และตัวเร่ง—เพื่อจัดการงานโครงสร้างพื้นฐานซ้ำซ้อน ปริมาณสูง ผลลัพธ์คือคลาวด์ที่เร็วขึ้นและถูกลงในการรัน แม้ภาระงานจะต้องการข้อมูลมากขึ้นเรื่อยๆ
เซิร์ฟเวอร์คลาวด์ใช้เวลามากกับ “งานโครงสร้างพื้นฐาน” แทนที่จะรันแอปของคุณ ทุกแพ็กเก็ตต้องถูกย้าย ตรวจสอบ บันทึก และบางครั้งก็เข้ารหัส—งานเหล่านี้มักถูกทำโดย CPU หลัก การ offload เครือข่ายย้ายงานเหล่านั้นไปยังฮาร์ดแวร์เฉพาะ ซึ่งเป็นที่มาของ Smart NIC และ DPU ที่ปรากฏในดาต้าเซ็นเตอร์สมัยใหม่ (รวมถึงระบบที่ใช้ซิลิคอนของ Marvell)
Smart NIC คือการ์ดอินเทอร์เฟซเครือข่ายที่ทำมากกว่าแค่ส่ง/รับ นอกจากพอร์ตอีเธอร์เน็ตแล้ว ยังมีการประมวลผลเพิ่มเติม (มักเป็นคอร์ Arm และ/หรือลอจิกที่โปรแกรมได้) เพื่อรันฟีเจอร์เครือข่ายบนการ์ด
DPU (Data Processing Unit) ไปไกลกว่านั้น: ถูกออกแบบให้ทำหน้าที่เหมือน “คอมพิวเตอร์โครงสร้างพื้นฐาน” ภายในเซิร์ฟเวอร์ DPU มักรวมเครือข่ายประสิทธิภาพสูง คอร์ CPU หลายตัว ตัวเร่งฮาร์ดแวร์ (crypto, packet processing) และฟีเจอร์แยกโดเมนที่ทำให้มันจัดการการเคลื่อนย้ายข้อมูลและความปลอดภัยโดยไม่ต้องพึ่งพาโฮสต์มาก
แบบจำลองง่ายๆ ในหัว:\n
เป้าหมายของ offload คืองานที่ทำซ้ำและมีปริมาณมากซึ่งจะดึงรอบ CPU จากแอป ตัวอย่างทั่วไปได้แก่:
เมื่อ CPU ต้องคอย “ดูแล” เครือข่าย ประสิทธิภาพแอปอาจแกว่งเมื่อมีสไปก์ทราฟฟิก เพื่อนร่วมงานดัง (noisy neighbors) หรือการทำงานด้านความปลอดภัยที่กระทันหัน Offload ช่วยโดย:\n
ทางกายภาพ DPU มักมาในรูปแบบ การ์ด PCIe หรือโมดูล OCP NIC เชื่อมต่อกับ:
เชิงแนวคิด DPU กลายเป็น “นายตำแหน่งทราฟฟิก” ระหว่างเครือข่ายและเซิร์ฟเวอร์—จัดการนโยบาย การเข้ารหัส และสวิตชิ่งเพื่อให้ OS โฮสต์และ CPU มุ่งไปที่การรันแอป
เมื่อคุณเปิดแอปหรือย้ายข้อมูลไปคลาวด์ คำขอมักไม่ไปถึง “เซิร์ฟเวอร์” เครื่องเดียว แต่มันเดินทางผ่านผ้าทอของสวิตช์อีเธอร์เน็ตที่เชื่อมเซิร์ฟเวอร์นับพันให้งานเหมือนเครื่องยักษ์เครื่องเดียว
ศูนย์ข้อมูลส่วนใหญ่ใช้การออกแบบ “leaf-spine":
การออกแบบนี้ทำให้เส้นทางสั้นและคงที่ ซึ่งสำคัญสำหรับประสิทธิภาพในระดับใหญ่
มีสองตัวเลขที่กำหนดประสบการณ์ผู้ใช้และต้นทุน:\n
ผู้ปฏิบัติการคลาวด์มุ่งรักษาความหน่วงให้คงที่แม้ลิงก์จะหนาแน่น ในขณะเดียวกันยังคงผลักดันปริมาณทราฟฟิกมหาศาล
ชิปสวิตช์อีเธอร์เน็ตทำมากกว่าการ “ส่งต่อแพ็กเก็ต” ต้อง:\n
ผู้ขายเช่น Marvell ผลิตซิลิคอนที่มุ่งทำงานเหล่านี้อย่างคาดเดาได้ที่ความเร็วสูงมาก
การย้ายจาก 25/100G ไปสู่ 200/400/800G ไม่ใช่แค่ตัวเลข:\n
ผลคือเครือข่ายดาต้าเซ็นเตอร์ที่รู้สึกไม่เหมือน “สาย” แต่เป็นโครงสร้างพื้นฐานที่ใช้ร่วมกันสำหรับทุกงาน
เมื่อพูดถึงประสิทธิภาพคลาวด์ ผู้คนมักนึกถึง CPU และ GPU แต่ความเร็วและความเชื่อถือได้จำนวนมากถูกตัดสินโดยซิลิคอนสตอเรจที่อยู่ระหว่างแฟลชและส่วนที่เหลือของเซิร์ฟเวอร์ เลเยอร์นี้มักคือตัวควบคุมสตอเรจ—ชิปเฉพาะที่จัดการวิธีเขียน อ่าน ตรวจสอบ และกู้คืนข้อมูล
ตัวควบคุมสตอเรจเป็นผู้อำนวยการทราฟฟิกสำหรับข้อมูลถาวร แบ่งการเขียนที่เข้ามาเป็นชิ้นเล็กๆ จัดคิวการอ่านเพื่อให้ข้อมูลร้อนตอบกลับเร็ว และเรียกใช้งานตรวจสอบความสมบูรณ์อย่างต่อเนื่องเพื่อไม่ให้บิตเสียพัฒนาเป็นไฟล์เสีย
มันยังจัดการงานเอกสารน่าเบื่อที่ทำให้สตอเรจคาดเดาได้ในระดับใหญ่: การแมปบล็อกตรรกะกับตำแหน่งแฟลชจริง, การกระจายการสึกหรอ, และรักษาความหน่วงให้คงที่เมื่อแอปหลายตัวเข้าถึงพูลสตอเรจเดียวกัน
NVMe (Non-Volatile Memory Express) เป็นโปรโตคอลออกแบบมาสำหรับแฟลชที่รวดเร็ว มันเป็นที่นิยมเพราะลดโอเวอร์เฮดและรองรับคิวขนานหลายชุด—หมายความว่าสามารถมีคำขอหลายรายการพร้อมกันได้ เหมาะกับเวิร์กโหลดคลาวด์ที่มีการอ่าน/เขียนเล็กๆ จำนวนมากพร้อมกัน
สำหรับผู้ให้บริการคลาวด์ NVMe ไม่ใช่แค่ความเร็วสูงสุด แต่เป็นความหน่วงต่ำสม่ำเสมอเมื่อภาระสูง ซึ่งทำให้แอปตอบสนองได้ดี
คอนโทรลเลอร์สมัยใหม่มักมีฟีเจอร์ฮาร์ดแวร์ที่ถ้าไม่มีก็จะกินรอบ CPU เช่น:\n
สตอเรจไม่ใช่ระบบย่อยแยกตัว—มันกำหนดพฤติกรรมแอป:\n
สรุปคือ ซิลิคอนสตอเรจเปลี่ยนแฟลชดิบให้เป็นโครงสร้างพื้นฐานคลาวด์ที่เชื่อถือได้และให้ throughput สูง
เมื่อผู้ให้บริการคลาวด์อัพเกรดเซิร์ฟเวอร์ พวกเขาไม่ได้แค่เปลี่ยน CPU แต่ยังต้องการ “เนื้อเยื่อเชื่อมต่อ” ที่ให้ CPU คุยกับการ์ดเครือข่าย สตอเรจ และตัวเร่ง โดยไม่ต้องออกแบบใหม่ทั้งหมด นั่นคือเหตุผลที่มาตรฐานอย่าง PCIe และ CXL สำคัญ: ทำให้ชิ้นส่วนทำงานร่วมกันได้ ลดความเสี่ยงการอัพเกรด และช่วยให้ดาต้าเซ็นเตอร์ขยายได้อย่างคาดเดาได้
PCIe เป็นลิงก์หลักที่เชื่อมต่ออุปกรณ์เช่น:
แบบจำลองช่วยให้เข้าใจได้ง่าย: PCIe เหมือนการเพิ่มเลนให้ทางด่วน เจเนอเรชันใหม่เพิ่มความเร็วต่อเลน และลิงก์กว้างขึ้น (x8, x16) เพิ่มความจุรวม สำหรับผู้ปฏิบัติการคลาวด์ นี่ส่งผลโดยตรงต่อความเร็วที่ข้อมูลเคลื่อนระหว่างคอมพิวต์และอุปกรณ์ที่ป้อนข้อมูล
ซิลิคอนโครงสร้างพื้นฐานของ Marvell มักอยู่ในปลายหนึ่งของการเชื่อมต่อ PCIe—ภายใน NIC, DPU, ตัวควบคุมสตอเรจ หรือส่วนที่ใกล้สวิตช์—ดังนั้นความสามารถ PCIe จึงเป็นตัวจำกัดหรือเปิดทางสำหรับการอัพเกรดประสิทธิภาพ
CXL (Compute Express Link) สร้างบนชั้นกายภาพของ PCIe แต่เพิ่มวิธีแชร์ทรัพยากรเหมือนหน่วยความจำด้วยโอเวอร์เฮดต่ำ โดยสรุป CXL ช่วยให้เซิร์ฟเวอร์จัดการทรัพยากรภายนอก (เช่น การขยายหน่วยความจำหรือหน่วยความจำแบบพูล) ราวกับเป็นการขยายท้องถิ่นมากกว่าอุปกรณ์ที่ไกล
ผลประโยชน์ไม่ใช่แค่ “เร็วขึ้น” เท่านั้น PCIe และ CXL สนับสนุน:\n
มาตรฐานการเชื่อมต่อไม่ค่อยได้ข่าว แต่มีผลอย่างมากต่อความเร็วที่คลาวด์จะนำเทคโนโลยีเครือข่าย สตอเรจ และการเร่งมาใช้
“การเร่งความเร็วแบบกำหนดเอง” ในโครงสร้างพื้นฐานคลาวด์ไม่ได้หมายถึง GPU ขนาดใหญ่เสมอไป โดยบ่อยครั้งหมายถึงการเพิ่มบล็อกคอมพิวต์ขนาดเล็กที่เฉพาะทางเพื่อเร่งงานซ้ำๆ—เพื่อให้ CPU มุ่งไปที่การรันแอป
เวิร์กโหลดคลาวด์แตกต่างกันมาก: โหนดฐานข้อมูลที่เน้นสตอเรจมีคอขวดต่างจากกล่อง edge สำหรับสตรีมมิงวิดีโอหรืออุปกรณ์ไฟร์วอล ตัดสินใจออกแบบซิลิคอนเฉพาะมุ่งไปที่คอขวดเหล่านั้นโดยตรง—มักโดยย้ายฟังก์ชันลงฮาร์ดแวร์เพื่อให้ทำงานเร็วขึ้น คงที่ และใช้ CPU น้อยลง
หมวดหมู่ปฏิบัติที่พบซ้ำในดาต้าเซ็นเตอร์:
ทีมคลาวด์ขนาดใหญ่จะเริ่มจากการโปรไฟล์: คำขอชนตรงไหน และงานใดเกิดซ้ำเป็นล้านครั้งต่อวินาที จากนั้นเลือกว่าจะเร่งด้วยเอนจินที่โปรแกรมได้ (ปรับตัวได้มากกว่า) หรือบล็อกฟังก์ชันคงที่ (ประสิทธิภาพต่อวัตต์สูงสุด) ผู้ขายอย่าง Marvell มักให้บล็อกพื้นฐาน—เครือข่าย ความปลอดภัย อินเทอร์เฟซสตอเรจ—ทำให้ส่วนที่ “กำหนดเอง” โฟกัสที่เส้นทางร้อนของแพลตฟอร์มได้
บล็อกฟังก์ชันคงที่มักชนะใน งานต่อวัตต์ และความแน่นอน แต่ยากจะนำไปใช้กับงานอื่น ส่วนตัวเลือกที่โปรแกรมได้ยืดหยุ่นกว่าแต่กินพลังงานเมื่อต้องการปรับเปลี่ยน การออกแบบที่ดีที่สุดมักผสานทั้งสอง: ระดับควบคุมที่ยืดหยุ่นพร้อมทางเดินฮาร์ดแวร์ที่เร็วเมื่อจำเป็น
พลังงานมักเป็นเพดานจริงในดาต้าเซ็นเตอร์—ไม่ใช่จำนวนเซิร์ฟเวอร์ที่ซื้อได้ แต่คือปริมาณไฟฟ้าที่ส่งและถ่ายความร้อนได้ เมื่อศูนย์ข้อมูลถึงขีดจำกัดพลังงาน วิธีขยายคือให้แต่ละวัตต์ทำงานได้มากขึ้น
CPU ทั่วไปยืดหยุ่นแต่ไม่คุ้มค่าสำหรับงานซ้ำๆ อย่างการจัดการแพ็กเก็ต การเข้ารหัส โปรโตคอลสตอเรจ หรือเทเลเมทรี ซิลิคอนเฉพาะงานเช่น Smart NIC/DPU, สวิตช์, และตัวควบคุมสตอเรจ ทำงานเหล่านี้ด้วยรอบและการสูญเปล่าน้อยกว่า
ชัยชนะด้านพลังงานมักเป็นแบบอ้อม: หาก offload ลดการใช้ CPU คุณสามารถรันโหลดเดียวกันด้วยคอร์ CPU น้อยลง หรือลดนาฬิกา หรือลดจำนวนเซิร์ฟเวอร์ ซึ่งยังลดแรงกดดันหน่วยความจำและการจราจร PCIe ต่อไปด้วย
ทุกวัตต์กลายเป็นความร้อน มากขึ้นหมายถึงพัดลมแรงขึ้น การไหลของของเหลวสูงขึ้น และการวางแผนระดับแร็คเข้มงวดขึ้น แร็คที่มีความหนาแน่นสูงน่าสนใจ แต่ต้องสามารถระบายความร้อนได้สม่ำเสมอ นี่คือเหตุผลว่าทำไมการเลือกชิ้นส่วนไม่ใช่แค่ throughput ดิบ: องค์ประกอบที่ดึงพลังงานน้อยกว่าหรือยังคงประสิทธิภาพที่โหลดสูงช่วยให้โอเปอเรเตอร์ยัดความจุลงในพื้นที่เดิมได้มากขึ้นโดยไม่เกิดจุดร้อน
ตัวเลขประสิทธิภาพง่ายจะตลาดแต่ยากเปรียบเทียบ เมื่อเห็น “งานต่อวัตต์ดีขึ้น” ให้ดู:\n
คำกล่าวอ้างที่น่าเชื่อถือมักผูกวัตต์กับงานที่ทำซ้ำได้และแสดงการเปลี่ยนที่ระดับเซิร์ฟเวอร์หรือแร็ค ไม่ใช่แค่บนแผ่นสเปก
ผู้ให้บริการคลาวด์แชร์เครื่องจริงกับลูกค้าหลายราย ดังนั้นความปลอดภัยไม่สามารถ "ใส่ทีหลัง" ได้ หลายอย่างถูกบังคับใช้ตั้งแต่ระดับชิป—ใน Smart NIC/DPU, ซิลิคอนเครือข่าย, สวิตช์อีเธอร์เน็ต และตัวควบคุมสตอเรจ—ที่การ offload ฮาร์ดแวร์สามารถประยุกต์การป้องกันด้วยอัตราไลน์ได้
ซิลิคอนโครงสร้างพื้นฐานส่วนใหญ่รวมถึง root of trust ทางฮาร์ดแวร์: ลอจิกและคีย์ขนาดเล็กที่ไม่เปลี่ยนแปลงได้ซึ่งยืนยันเฟิร์มแวร์ก่อนการเริ่มทำงาน ด้วย secure boot ชิปตรวจสอบลายเซ็นคริปโตของเฟิร์มแวร์ (และบางครั้งส่วนบูตของโฮสต์) และปฏิเสธรันโค้ดที่ถูกแก้ไขหรือไม่รู้จัก
นโยบายนี้สำคัญเพราะ DPU หรือตัวควบคุมสตอเรจที่ถูกบุกรุกอาจอยู่ “ระหว่าง” เซิร์ฟเวอร์กับโครงข่าย/สตอเรจได้ secure boot ลดความเสี่ยงของการฝังตัวที่ชั้นนั้น
การเข้ารหัสมักถูกเร่งโดยตรงในซิลิคอนเพื่อไม่ให้กินรอบ CPU:\n
เพราะเป็นอินไลน์ ความปลอดภัยจึงไม่จำเป็นต้องแลกมาด้วยสตอเรจช้าลง
คลาวด์มัลติเทนแนนท์ต้องการการแยกโดเมนที่แน่นหนา ชิปโครงสร้างพื้นฐานช่วยบังคับใช้ด้วยคิวฮาร์ดแวร์ การป้องกันหน่วยความจำ ฟังก์ชันเสมือน และการบังคับใช้นโยบาย—เพื่อไม่ให้ทราฟฟิกหรือคำขอสตอเรจของผู้เช่าหนึ่งมองเห็นของอีกผู้เช่า นี่สำคัญเมื่อ DPU จัดการเครือข่ายเสมือนและเมื่ออุปกรณ์ PCIe ถูกแชร์ข้ามโหลด
ความทนทานไม่ใช่แค่ "ไม่มีความล้มเหลว" แต่คือการตรวจจับและกู้คืนเร็ว ฟีเจอร์ซิลิคอนหลายแบบมีเคาน์เตอร์เทเลเมทรี รายงานข้อผิดพลาด หมุดติดตามแพ็กเก็ต และเมตริกสุขภาพ ที่ทีมคลาวด์สามารถป้อนเข้าไปในระบบมอนิเตอร์ เมื่อเกิดปัญหา (แพ็กเก็ตหล่น, ความหน่วงพุ่ง, ข้อผิดพลาดลิงก์, การตอบสนองซ้ำ) สัญญาณเหล่านี้ช่วยระบุต้นตอได้เร็วกว่าว่าเป็นปัญหาในการสวิตช์ อุปกรณ์ DPU หรือคอนโทรลเลอร์สตอเรจ—ลดเวลาการแก้ไขและเพิ่มเวลาพร้อมใช้งานของโครงสร้างพื้นฐาน
ลองจินตนาการการกระทำง่ายๆ: เปิดแอปช็อปปิ้งแล้วแตะ “ดูประวัติการสั่งซื้อ” คำขอเดียวนี้เดินทางผ่านหลายระบบ—และแต่ละขั้นตอนเป็นโอกาสให้เกิดความล่าช้า
Smart NIC/DPU และซิลิคอนโครงสร้างพื้นฐานเฉพาะทาง (รวมถึงโซลูชันจากผู้ขายอย่าง Marvell) ย้ายงานซ้ำซ้อนออกจาก CPU ทั่วไป:\n
ผู้ปฏิบัติการคลาวด์ไม่เลือกชิปเพราะ “เร็วกว่า” ในเชิงนามธรรม—แต่เลือกเมื่อหน้างานใหญ่ ซ้ำบ่อย และคุ้มค่าต่อการทำเป็นฮาร์ดแวร์ ซิลิคอนเฉพาะมีค่าสูงสุดเมื่อมีคำขอเป็นล้านๆ รายการ รูปแบบการใช้งานคาดเดาได้ และการปรับปรุงเล็กๆ สะสมเป็นการประหยัดจริง
ทีมมักจับคอขวดที่ใหญ่ที่สุดไปผูกกับฟังก์ชันเฉพาะ: การประมวลผลแพ็กเก็ตและความปลอดภัยในเส้นทางเครือข่าย, การแปลสตอเรจและการปกป้องข้อมูลในเส้นทาง I/O, หรือ primitive ของการบีบอัด/crypto/AI ในบล็อกเร่ง งานสำคัญคือว่าการย้ายงานออกจะไม่ทำลายโมเดลซอฟต์แวร์ ถ้าแพลตฟอร์มของคุณพึ่งพาฟีเจอร์ Linux บางอย่าง พฤติกรรมของสวิตช์เสมือน หรือสัมมานุสัยสตอเรจ ชิปต้องสอดคล้องกับสมมติฐานเหล่านั้น
ขอคำชี้แจงเกี่ยวกับ:\n
เบนช์มาร์กสำคัญ แต่มีประโยชน์ก็ต่อเมื่อสะท้อนการผลิตจริง: ผสมแพ็กเก็ตจริง, ความลึกคิวสตอเรจจริง, และการแยกผู้เช่าที่สมเหตุสมผล พลังงานต้องประเมินเป็น “งานต่อวัตต์” ไม่ใช่แค่ throughput จุดสูงสุด—โดยเฉพาะเมื่อแร็คถูกจำกัดพลังงาน
ความพยายามในการรวมมักเป็นตัวตัดสิน: ชิปที่ดีกว่า 10% บนกระดาษอาจแพ้ชิปที่ง่ายกว่าในการโปรวิชัน มอนิเตอร์ และแพตช์ในระดับสเกล
ทีมคลาวด์ลดความเสี่ยงโดยเลือกมาตรฐาน (Ethernet, NVMe, PCIe/CXL), API ที่มีเอกสารดี, และเครื่องมือการจัดการที่ทำงานร่วมกันได้ แม้จะใช้ฟีเจอร์ของผู้ขาย (รวมถึง Marvell และคู่แข่ง) พวกเขาพยายามให้ control plane ชั้นสูงพกพาได้เพื่อให้ฮาร์ดแวร์เปลี่ยนได้โดยไม่ต้องเขียนแพลตฟอร์มใหม่ทั้งหมด
หลักการเดียวกันใช้กับฝั่งซอฟต์แวร์: เมื่อคุณสร้างบริการที่จะรันบนโครงสร้างพื้นฐานนี้ในอนาคต ควรรักษาให้สถาปัตยกรรมพกพาได้ แพลตฟอร์มอย่าง Koder.ai ช่วยเร่งการทดลองต้นแบบและการทำซ้ำของ backend เว็บ (Go + PostgreSQL) และ frontend React ผ่านเวิร์กโฟลว์สนทนา ในขณะเดียวกันยังให้ทีมส่งออกซอร์สโค้ดและปรับใช้ให้เข้ากับคลาวด์และข้อกำหนดการปฏิบัติตามของตัวเองได้
ซิลิคอนโครงสร้างพื้นฐานกำลังเปลี่ยนจาก “การเร่งที่เสริมได้” มาสู่ระบบพื้นฐาน เมื่อบริการมากขึ้นต้องการความหน่วงต่ำ (AI inference, วิเคราะห์เรียลไทม์, การตรวจสอบความปลอดภัย) ชิปที่จัดการเครือข่าย สตอเรจ และการเคลื่อนย้ายข้อมูลอย่างมีประสิทธิภาพจะสำคัญเทียบเท่า CPU
เครือข่ายแบนด์วิดท์สูงไม่ใช่ระดับพิเศษอีกต่อไป—เป็นความคาดหวัง ซึ่งผลักให้การสวิตช์อีเธอร์เน็ต การประมวลผลแพ็กเก็ต และ DPU/Smart NIC มุ่งสู่พอร์ตที่เร็วขึ้น ความหน่วงต่ำกว่า และการควบคุมคอขวดที่ดีขึ้น ผู้ขายเช่น Marvell จะแข่งขันกันที่ว่ามีงานกี่อย่างที่สามารถ offload บนฮาร์ดแวร์ได้ (การเข้ารหัส เทเลเมทรี การสวิตชิ่งเสมือน) โดยไม่เพิ่มความซับซ้อนในการปฏิบัติการ
PCIe และ CXL จะช่วยให้เกิดการแยกส่วนจริง: พูลหน่วยความจำและตัวเร่งเพื่อให้แร็คสามารถ “ประกอบ” ตามเวิร์กโหลด ซิลิคอนที่สำคัญไม่ใช่แค PHY ของ CXL แต่รวมถึงคอนโทรลเลอร์ สวิตช์ และเฟิร์มแวร์ที่ทำให้ทรัพยากรพูลคาดเดาได้ ปลอดภัย และสังเกตการณ์ได้สำหรับทีมคลาวด์
ผู้ให้บริการขนาดใหญ่ต้องการความแตกต่างและการผสานที่แน่นขึ้นข้ามชิปเครือข่าย สตอเรจ และการเร่งคัสตอม คาดว่าจะมีโปรแกรมกึ่งเฉพาะมากขึ้นที่ใช้บล็อกมาตรฐาน (SerDes, การสวิตช์อีเธอร์เน็ต, NVMe) ควบคู่กับฟีเจอร์เฉพาะแพลตฟอร์ม เครื่องมือปรับใช้ และหน้าต่างสนับสนุนยาว
งานต่อวัตต์จะเป็นตัวชูโรง โดยเฉพาะเมื่อพลังงานจำกัดการขยาย ความปลอดภัยจะเลื่อนไปใกล้เส้นทางข้อมูล (การเข้ารหัสอินไลน์, secure boot, attestation) สุดท้ายเส้นทางอัพเกรดจะสำคัญ: คุณจะนำแบนด์วิดท์ใหม่, เวอร์ชัน CXL, หรือฟีเจอร์ offload มาใช้ได้โดยไม่ต้องออกแบบแพลตฟอร์มใหม่หรือทำลายความเข้ากันได้กับแร็คที่มีอยู่หรือไม่?
Marvell มุ่งเป้าไปที่ชั้น “data path” ในศูนย์ข้อมูลคลาวด์: เครือข่าย (NIC/DPU, ซิลิคอนสวิตช์), ตัวควบคุมสตอเรจ (NVMe และฟังก์ชันที่เกี่ยวข้อง), และบล็อกเร่งความเร็วจำเพาะทาง (เช่น crypto, การประมวลผลแพ็กเก็ต, การบีบอัด, เทเลเมทรี). เป้าหมายคือการย้าย ปกป้อง และจัดการข้อมูลในขนาดใหญ่โดยไม่ใช้รอบ CPU หลักมากเกินไป.
เพราะ CPU ทั่วไปยืดหยุ่นแต่ไม่คุ้มค่าต่อการทำงานซ้ำๆ และปริมาณสูง เช่น การประมวลผลแพ็กเก็ต การเข้ารหัส และการจัดการโปรโตคอลสตอเรจ การย้ายงานเหล่านี้ไปยังซิลิคอนเฉพาะจะช่วยให้:
Smart NIC คือการ์ดเครือข่ายที่มีพลังประมวลผลเพิ่มเติมเพื่อรันฟีเจอร์เครือข่ายบนการ์ดเอง ส่วน DPU เป็นขั้นกว่าที่ทำหน้าที่เป็น “คอมพิวเตอร์โครงสร้างพื้นฐาน” ภายในเซิร์ฟเวอร์ มักรวมเครือข่ายประสิทธิภาพสูง คอร์ CPU หลายตัว ตัวเร่งฮาร์ดแวร์ และฟีเจอร์แยกโดเมนเพื่อจัดการการเคลื่อนย้ายข้อมูลและความปลอดภัยโดยไม่พึ่งพาโฮสต์มากนัก.
งานทั่วไปที่ถูก offload ได้แก่:
การย้ายงานเหล่านี้ออกจาก CPU ช่วยลดภาระ CPU และช่วยให้ความหน่วงมีเสถียรภาพเมื่อภาระสูงขึ้น.
ส่วนใหญ่เป็นทราฟฟิกที่วิ่งภายในศูนย์ข้อมูล (“east–west”): การเรียกบริการระหว่างไมโครเซอร์วิส, การจำลองข้อมูลสตอเรจ, ทราฟฟิกฐานข้อมูล/แคช และงาน AI กระจาย ที่การสื่อสารภายในต้องการความหน่วงที่คาดเดาได้และแบนด์วิดท์สูง จึงผลักให้การประมวลผลมากขึ้นไปอยู่ใกล้เส้นทางข้อมูล เช่น บน NIC/DPU และซิลิคอนสวิตช์ เพื่อให้ประสิทธิภาพคงที่ในระดับสเกล.
ศูนย์ข้อมูลขนาดใหญ่ส่วนใหญ่ใช้ทอป-ออฟ-แร็คและสไปน์ในแบบ leaf-spine:
ซิลิคอนสวิตช์ต้องส่งต่อแพ็กเก็ต, บัฟเฟอร์ช่วงการระเบิดของทราฟฟิก, บังคับใช้ QoS, และให้เทเลเมทรี—ทั้งหมดต้องทำที่อัตราไลน์เรต.
ตัวควบคุมสตอเรจเป็นตัวกลางระหว่างแฟลชกับระบบที่เหลือ ทำหน้าที่มากมายเพื่อให้สตอเรจเร็วและเชื่อถือได้:
หลายหน่วยยังเร่งการทำงานอย่าง การเข้ารหัส, การบีบอัด, และการช่วย parity/erasure coding เพื่อไม่ให้สตอเรจใช้เวลามากจาก CPU ของโฮสต์.
NVMe ถูกออกแบบมาเพื่อแฟลชโดยลดภาระและรองรับความขนานสูง (คิวหลายชุดและคำขอหลายรายการพร้อมกัน) ในสภาพแวดล้อมคลาวด์ ประโยชน์มักอยู่ที่ ความหน่วงต่ำสม่ำเสมอเมื่อภาระสูง ไม่ใช่แค่ความเร็วสูงสุด—ซึ่งสำคัญเมื่อมีคำสั่งอ่าน/เขียนเล็กๆ จำนวนมากวิ่งเข้าไปยังสตอเรจแชร์พร้อมกัน.
PCIe เป็นการเชื่อมต่อความเร็วสูงภายในเซิร์ฟเวอร์สำหรับ NIC, SSD, GPU และตัวเร่งต่างๆ ส่วน CXL ใช้เลเยอร์ทางกายภาพเดียวกันแต่เพิ่มวิธีแชร์ทรัพยากรเหมือนหน่วยความจำได้มีประสิทธิภาพขึ้น.
ผลเชิงปฏิบัติได้แก่:
ทีมคลาวด์เริ่มจากการโปรไฟล์งาน: ตรงไหนที่คำขอช้าลง และงานใดเกิดซ้ำเป็นล้านครั้งต่อวินาที จากนั้นตัดสินใจว่าจะเร่งด้วยเอนจินโปรแกรมได้ (ยืดหยุ่นกว่า) หรือบล็อกฟังก์ชันคงที่ (ประสิทธิภาพต่อวัตต์สูงสุด). ผู้ขายอย่าง Marvell มักให้บล็อกพื้นฐาน—เครือข่าย, ความปลอดภัย, อินเทอร์เฟซสตอเรจ—ทำให้ส่วนที่ “กำหนดเอง” มุ่งไปที่เส้นทางร้อนเฉพาะของคลาวด์ได้ง่ายขึ้น.
พิจารณาที่ trade-off ระหว่างประสิทธิภาพต่อวัตต์กับความยืดหยุ่น:
การออกแบบที่ดีมักผสมทั้งสอง: ระดับการควบคุมที่ยืดหยุ่นพร้อมทางเดินฮาร์ดแวร์ที่เร็วเมื่อจำเป็น.
การ offload ช่วยประหยัดพลังงานเพราะงานซ้ำๆ บน CPU ทั่วไปไม่ค่อยมีประสิทธิภาพ ซิลิคอนเฉพาะงานสามารถทำงานเหล่านี้ด้วยรอบน้อยลงและการสูญเปล่าน้อยกว่า.
ชัยชนะด้านพลังงานมักเป็นแบบอ้อม: หาก offload ลดการใช้ CPU คุณอาจรันโหลดเดิมด้วยคอร์ CPU น้อยลง หรือลดนาฬิกา หรือลดจำนวนเซิร์ฟเวอร์ ซึ่งลดแรงกดดันหน่วยความจำและการจราจร PCIe ต่อไปด้วย.
ซิลิคอนโครงสร้างพื้นฐานมักมี root of trust ทางฮาร์ดแวร์ และกระบวนการ secure boot ที่ตรวจสอบลายเซ็นของเฟิร์มแวร์ก่อนรัน โครงสร้างนี้สำคัญเพราะ DPU หรือตัวควบคุมสตอเรจที่ถูกแฮ็กอาจอยู่ระหว่างเซิร์ฟเวอร์กับผ้าทอเครือข่าย/สตอเรจได้.
นอกจากนี้ยังมีการเร่งการเข้ารหัสแบบอินไลน์ ทั้งสำหรับข้อมูลระหว่างทางและข้อมูลที่พัก เพื่อไม่ให้การเข้ารหัสทำให้ระบบช้าลงมากนัก. ฟีเจอร์แยกโดเมนและคิวฮาร์ดแวร์ช่วยบังคับใช้การแยกผู้เช่าในสภาพแวดล้อมมัลติเทนแนนท์. เทเลเมทรีในตัวช่วยให้ตรวจจับปัญหาและกู้คืนเร็วขึ้น.
ตัวอย่าง: คุณเปิดแอปช็อปปิ้งและแตะ “ดูประวัติการสั่งซื้อ” คำขอนั้นเดินทางผ่านหลายระบบและแต่ละขั้นตอนมีโอกาสทำให้เกิดความล่าช้า:
ผลลัพธ์ที่เห็นได้จริง: ความหน่วงหางต่ำลง, throughput ต่อเซิร์ฟเวอร์สูงขึ้น, และประสิทธิภาพเสถียรมากขึ้น เพราะงานโครงสร้างพื้นฐานถูกแยกออกและคาดเดาได้.
ทีมคลาวด์จะเลือกชิปเมื่อหน้างานมีขนาดใหญ่ ซ้ำบ่อย และคุ้มค่าต่อการทำเป็นฮาร์ดแวร์—โดยเฉพาะเมื่อการปรับแต่งเล็กๆ สะสมเป็นการประหยัดมหาศาลในฝูงเครื่อง.
คำถามที่พวกเขาถามผู้ขายก่อน PoC มักรวมถึง:
ความพยายามในการรวมระบบมักเป็นปัจจัยตัดสินมากกว่าแค่สเปกบนกระดาษ.
แนวโน้มต่อไป: ซิลิคอนโครงสร้างพื้นฐานจะกลายเป็นงานพื้นฐานไม่ใช่แค่ตัวเร่ง เมื่องานต่างๆ ต้องการความหน่วงต่ำขึ้น (เช่น AI inference, วิเคราะห์เรียลไทม์, ตรวจสอบความปลอดภัย) ชิปที่จัดการเครือข่าย สตอเรจ และการเคลื่อนย้ายข้อมูลอย่างมีประสิทธิภาพจะสำคัญเทียบเท่า CPU.
ที่ควรจับตามอง:
เมื่อตรวจสอบชิ้นส่วนยุคหน้า ให้ดูงานต่อวัตต์ ความปลอดภัยที่เลื่อนไปใกล้เส้นทางข้อมูล และเส้นทางอัพเกรดที่ไม่ทำให้ต้องออกแบบใหม่ทั้งแพลตฟอร์ม.