클라우드 인프라를 조용히 구동하는 Marvell의 실리콘

Q: 클라우드 서버에서 CPU에서 오프로드되는 작업 종류는 어떤 것들이 있나요?

일반적으로 오프로드되는 항목들: - 가상 스위칭 및 오버레이 (캡슐화/디캡슐화, 플로우 스티어링) - 보안 처리 (TLS/IPsec 암호화, 방화벽/ACL 적용) - 라인레이트 텔레메트리 (카운터, 플로우 로그, 패킷 샘플링) - 스토리지 트래픽 스티어링 (스토리지가 네트워크를 타는 설계에서) 이런 오프로드는 CPU 오버헤드를 줄이고 부하 시 레이턴시를 안정화합니다.

Q: ToR(Top-of-Rack)과 spine 스위치가 클라우드 성능에 어떤 영향을 미치나요?

하이퍼스케일 데이터센터 대부분은 리프-스파인(leaf-spine) 토폴로지를 사용합니다: - Top-of-rack(leaf) 스위치: 각 랙의 서버에 직접 연결됩니다. - Spine 스위치: 모든 리프 스위치를 연결해 어느 서버든 짧고 일관된 홉 수로 통신하게 합니다. 스위치 실리콘은 패킷 포워딩, 버퍼링, QoS 적용, 텔레메트리 제공을 라인레이트로 처리해야 합니다.

로그인 시작하기

클라우드 인프라를 조용히 구동하는 Marvell의 실리콘 | Koder.ai

Marvell이 현대 클라우드 데이터센터에서 하는 일

대부분 사람들은 “클라우드”를 단순히 서버로 생각하지만, 실제로 클라우드 데이터센터는 데이터를 고속으로 이동·저장·보호하는 거대한 시스템입니다. 데이터 인프라 실리콘은 이러한 데이터 집약적 작업을 처리해 메인 CPU의 부담을 덜어주는 특수화된 칩들의 집합입니다.

Marvell은 컴퓨트와 네트워크·스토리지를 연결하고, 일반적인 데이터센터 작업을 가속하며, 부하가 걸릴 때도 예측 가능한 흐름을 유지하게 하는 "중간 계층"에 집중합니다.

전형적인 클라우드 스택에서 Marvell의 위치

랙을 위에서 아래로 상상하면 Marvell 장치들은 종종 다음 위치에 놓입니다:

서버의 네트워크 엣지에 있어 트래픽 송수신을 효율적으로 돕습니다
스위치 및 네트워크 장비에 있어 패킷을 올바른 곳으로 전달합니다
스토리지 인접에 있어 SSD, 스토리지 네트워크, 서버 간 데이터를 이동시킵니다
핵심 인터커넥트에 걸쳐 있어 구성 요소 간 빠른 통신을 가능하게 합니다

이들은 전통적 의미의 ‘앱’이나 ‘서버’가 아니라 수천 대의 서버가 하나의 일관된 서비스처럼 동작하도록 만드는 하드웨어 빌딩 블록입니다.

이런 작업 대부분이 사용자에게 보이지 않는 이유

인프라 실리콘이 제 역할을 할 때 사용자는 이를 인지하지 못합니다. 페이지가 더 빨리 열리고, 비디오 버퍼링이 줄고, 백업이 제시간에 끝나지만 네트워킹 오프로드 엔진이나 스토리지 컨트롤러, 스위칭 패브릭이 이를 가능하게 한다는 사실은 보이지 않습니다. 이들 칩은 조용히 레이턴시를 낮추고 CPU 사이클을 확보하며 성능을 보다 일관되게 만들어 줍니다.

빠른 맵: 네트워킹, 스토리지, 가속

Marvell의 역할은 보통 세 가지 범주로 나누어 이해하기 쉽습니다:

네트워킹: 패킷을 빠르고 예측 가능하게 이동
스토리지: 대규모로 데이터를 안전하게 읽고 쓰기
가속: 반복적인 인프라 작업을 위한 목적형 컴퓨트

이것이 클라우드 서비스를 표면적으로 간단하게 느껴지게 하는 "조용한" 실리콘입니다.

클라우드가 전문화된 인프라 칩을 필요로 하는 이유

클라우드 애플리케이션은 ‘소프트웨어 정의’처럼 느껴지지만 물리적 작업은 랙으로 가득한 서버, 스위치, 스토리지에서 일어납니다. 수요가 증가함에 따라 모든 작업을 범용 CPU에 의존하면 비용과 효율성에서 한계에 부딪힙니다.

트래픽이 CPU 여유보다 빠르게 증가합니다

AI 트레이닝과 추론은 데이터센터 내부에서 거대한 데이터셋을 이동시킵니다. 동영상 스트리밍, 백업, 분석, SaaS 플랫폼은 지속적인 배경 부하를 더합니다. 컴퓨트가 충분하더라도 병목은 종종 데이터를 충분히 빠르게 이동·필터·암호화·저장하는 쪽으로 이동합니다.

데이터센터 내부에서는 동서(east–west) 트래픽이 지배적입니다

대부분의 클라우드 트래픽은 퍼블릭 인터넷을 통하지 않습니다. 이는 서비스 간 호출(마이크로서비스 간), 데이터베이스 읽기, 캐시 업데이트, 스토리지 복제, 분산 AI 작업 등 "동서" 방향으로 이동합니다. 내부 트래픽은 예측 가능한 레이턴시와 높은 처리량을 필요로 하며, 이는 데이터 경로 가까이에서 네트워킹·스토리지 하드웨어가 더 많은 처리를 하도록 만듭니다.

효율성이 최우선 요구사항이 되었습니다

전력과 공간은 무한하지 않습니다. 패킷 처리, 암호화, 압축, 스토리지 체크섬 등 작업을 전용 실리콘으로 오프로드하면 CPU가 오버헤드에 소비하는 시간이 줄어듭니다. 그 결과:

와트당 성능 향상(같은 전력으로 더 많은 작업)
서버 밀도 증가(랙당 더 많은 유효 컴퓨트)
운영 비용 절감(동일 처리량에서 낮은 에너지·냉각 비용)

‘하나의 큰 CPU’에서 전문화된 보조장치로

범용 코어를 더 추가해 확장하는 대신, 클라우드 플랫폼은 반복적이고 대량인 인프라 작업을 처리하기 위해 Smart NIC/DPU, 스위칭 실리콘, 스토리지 컨트롤러, 가속기 같은 목적형 칩을 점점 더 사용합니다. 결과적으로 워크로드가 더 데이터 집약적이더라도 클라우드는 더 빠르고 저렴하게 운영됩니다.

네트워킹 오프로드: 스마트 NIC과 DPU 설명

클라우드 서버는 종종 애플리케이션 실행 대신 ‘인프라 작업’을 상당히 많이 수행합니다. 모든 패킷은 이동, 검사, 로깅, 때로는 암호화되어야 하며—이러한 작업이 종종 메인 CPU에서 수행됩니다. 네트워킹 오프로드는 이러한 잡무를 전용 하드웨어로 옮기며, 여기서 Smart NIC과 DPU가 많은 현대 데이터센터(그리고 Marvell 실리콘이 사용된 시스템)에 등장합니다.

Smart NIC과 DPU(평이한 정의)

Smart NIC은 단순 송수신 이상의 작업을 수행하는 네트워크 인터페이스 카드입니다. 일반적인 이더넷 포트 외에 카드 위에서 네트워킹 기능을 실행할 수 있는 추가 연산(종종 Arm 코어나 프로그래머블 로직)을 포함합니다.

**DPU(Data Processing Unit)**는 한 단계 더 나아갑니다: 서버 내부의 전용 ‘인프라 컴퓨터’처럼 동작하도록 설계되었습니다. DPU는 보통 고성능 네트워킹, 다수의 CPU 코어, 하드웨어 가속기(암호, 패킷 처리), 그리고 강력한 격리 기능을 결합해 호스트 CPU에 의존하지 않고 데이터 이동과 보안을 관리할 수 있게 합니다.

실용적 비유:

Smart NIC: ‘브레인 있는 NIC’
DPU: 인프라 작업을 처리하는 독립적인 시스템을 더한 NIC

CPU에서 오프로드되는 항목들

오프로드 대상은 반복적이고 대량인 작업으로, 그렇지 않으면 애플리케이션 CPU 사이클을 빼앗습니다. 일반적 예시는 다음과 같습니다:

네트워킹 데이터패스: 가상 스위칭, 라우팅 규칙, 캡슐화/디캡슐화(오버레이 등), 트래픽 셰이핑
보안: TLS/IPsec 암호화, 방화벽 정책 적용, 마이크로세그멘테이션, 시큐어 부트 및 증명
스토리지 트래픽 가속: 스토리지 패킷을 효율적으로 스티어링하고, 일부 설계에서는 네트워크 기반 스토리지 흐름 지원
텔레메트리: 플로우 로그, 패킷 샘플링, 카운터, 레이턴시 측정—모두 와이어스피드로 캡처

왜 중요한가: 예측 가능한 성능과 낮은 CPU 부하

CPU가 네트워킹을 ‘돌봐야’ 하면 애플리케이션 성능은 트래픽 스파이크나 노이지 네이버, 보안 작업 폭증에 따라 흔들릴 수 있습니다. 오프로드는 다음을 통해 개선합니다:

CPU 코어 확보(웹 서비스, DB, AI 파이프라인에 더 많은 코어 제공)
레이턴시 안정화(패킷 처리가 전용 하드웨어 경로에서 이루어짐)
호스트 밀도 증가: 인프라에 쓰이는 CPU 자원이 줄어들어 서버당 더 많은 유효 작업 가능
격리 향상: 인프라 제어가 테넌트 워크로드와 분리되어 실행될 수 있음

DPU가 서버에서 위치하는 곳(그리고 무엇에 연결되는지)

물리적으로 DPU는 보통 PCIe 애드인 카드나 OCP NIC 모듈 형태로 제공됩니다. 이들은 다음에 연결됩니다:

Top-of-rack 네트워크(종종 고속 링크를 갖는 이더넷 포트)
호스트 서버의 PCIe를 통해 네트워크 트래픽의 게이트웨이 역할

개념적으로 DPU는 네트워크와 서버 사이의 ‘교통 정리자’가 되어 정책, 암호화, 스위칭을 처리해 호스트 OS와 CPU가 애플리케이션 실행에 집중하도록 합니다.

클라우드 네트워킹 내부: 이더넷 스위칭과 패킷 처리

앱을 열거나 클라우드에 데이터를 옮길 때 요청은 보통 ‘하나의 서버’로 가는 것이 아니라 수천 대의 서버를 하나의 거대한 기계처럼 연결하는 이더넷 스위치의 패브릭을 통합니다.

서버 간 데이터 이동 방식: ToR과 spine

대부분의 클라우드 데이터센터는 “leaf-spine” 설계를 사용합니다:

Top-of-rack(ToR) / leaf 스위치는 각 랙에 위치해 그 랙의 서버들과 직접 연결됩니다.
Spine 스위치는 모든 ToR을 연결해 어떤 서버든 일정한 홉 수로 도달할 수 있게 합니다.

이 설계는 경로를 짧고 일관되게 유지해 대규모에서 성능을 확보합니다.

낮은 레이턴시와 높은 처리량이 중요한 이유

두 가지 수치가 사용자 경험과 비용을 좌우합니다:

레이턴시: 패킷의 왕복 시간은 API, DB, 마이크로서비스, 실시간 분석 같은 대화형 워크로드에 중요합니다.
처리량: 초당 처리 가능한 데이터 양은 스토리지 복제, 백업, 스트리밍, 대규모 AI 데이터셋 전송에 중요합니다.

클라우드 운영자는 링크가 바쁠 때도 레이턴시를 안정적으로 유지하면서 대량의 트래픽을 처리하려고 합니다.

핵심 기능: 포워딩, 패킷 처리, QoS

이더넷 스위치 칩은 단순히 “패킷을 전달”하는 것 이상을 합니다. 해야 할 일은:

대상 조회(MAC, VLAN, 종종 라우팅/오버레이 헤더) 를 라인레이트로 수행
버퍼링 및 스케줄링으로 혼잡이 패브릭 전체로 전파되는 것을 방지
QoS 적용으로 레이턴시 민감 흐름이 배경 전송에 묻히지 않게 함
운영자가 성능을 조정할 수 있게 하는 텔레메트리와 혼잡 제어 지원

Marvell 같은 공급업체는 이러한 작업을 매우 높은 속도에서 예측 가능하게 수행하는 실리콘을 만듭니다.

“더 높은 속도”가 가능하게 하는 것

25/100G에서 200/400/800G로 이동하는 것은 단순한 숫자 놀음이 아닙니다. 더 높은 속도는 다음을 의미할 수 있습니다:

랙당 더 많은 VM을 과다 오버서브스크립션 없이 운용
더 빠른 스토리지 접근(특히 분리된 네트워크 NVMe의 경우)
AI 트레이닝 사이클 단축: GPU에 더 일관되게 데이터 공급

결과는 네트워크가 단순한 ‘선’이 아니라 모든 워크로드가 공유하는 인프라처럼 느껴지게 합니다.

스토리지 실리콘: 컨트롤러, NVMe, 데이터 보호

클라우드 성능을 논할 때 사람들은 종종 CPU와 GPU를 떠올리지만, 많은 ‘속도’와 신뢰성은 플래시와 나머지 시스템 사이에 놓인 스토리지 실리콘에 의해 결정됩니다. 이 계층은 일반적으로 스토리지 컨트롤러—데이터가 어떻게 쓰이고, 읽히고, 검사되고, 복구되는지를 관리하는 목적형 칩—입니다.

스토리지 컨트롤러가 실제로 하는 일

스토리지 컨트롤러는 영속적 데이터의 교통 정리자입니다. 들어오는 쓰기를 관리 가능한 청크로 나누고, 핫데이터는 빠르게 반환되도록 읽기를 예약하며, 부패된 비트가 파일을 손상시키지 않도록 지속적으로 무결성 검사를 수행합니다.

또한 스토리지를 대규모로 예측 가능하게 만드는 잡무(논리 블록을 물리 플래시에 매핑, 웨어 균형, 많은 애플리케이션이 동일한 스토리지 풀을 동시에 타격할 때 레이턴시를 일정하게 유지 등)를 처리합니다.

NVMe: 왜 널리 쓰이나요

NVMe(Non-Volatile Memory Express)는 빠른 플래시 스토리지를 위해 설계된 프로토콜입니다. 오버헤드를 줄이고 병렬 처리 가능한 여러 큐를 지원하므로 수천 건의 작은 읽기/쓰기 작업이 동시에 발생하는 클라우드 워크로드에 적합합니다.

클라우드 제공자에게 NVMe의 이점은 단지 최고 처리량이 아니라 부하가 걸렸을 때의 일관된 낮은 레이턴시입니다.

내장 기능: 암호화, 압축, RAID 유사 보호

현대 컨트롤러는 종종 CPU 사이클을 소비할 기능을 하드웨어로 내장합니다:

암호화/복호화로 저장 데이터 보호(성능 페널티 최소화)
압축으로 더 많이 저장하고 덜 이동(대역폭이 병목일 때 유용)
패리티/이레이저 코딩 보조로 장애 허용 및 빠른 재빌드

스토리지 성능이 애플리케이션 행동을 바꾸는 이유

스토리지는 고립된 서브시스템이 아니라 애플리케이션의 동작 방식을 형성합니다:

데이터베이스는 트랜잭션과 내구성 로그를 위해 빠르고 일관된 쓰기를 필요로 합니다.
분석 파이프라인은 대규모 데이터 읽기에서 큐잉이 발생하면 지연됩니다.
백업/복구는 처리량이 제한되면 비즈니스 연속성 문제가 됩니다.

요약하면, 스토리지 실리콘은 원시 플래시를 신뢰할 수 있고 고처리량의 클라우드 인프라로 바꾸는 역할을 합니다.

연결의 기초: PCIe와 CXL을 평이하게 설명

공유하고 보상 받기

Koder.ai와 함께 만든 것을 짧은 보고로 공유하면 크레딧을 획득하세요.

크레딧 받기

클라우드 제공자가 서버를 업그레이드할 때 CPU만 교체하는 것은 아닙니다. CPU가 NIC, 스토리지, 가속기와 통신할 수 있게 해주는 ‘결합 조직’도 필요합니다. 그래서 PCIe와 CXL 같은 표준이 중요합니다: 부품의 상호운용성을 유지하고 업그레이드를 덜 위험하게 하며 데이터센터의 예측 가능한 확장을 돕습니다.

PCIe: 서버 내부의 고속 고속도로

PCIe(Peripheral Component Interconnect Express)는 다음 장치들을 연결하는 주요 내부 링크입니다:

NIC(네트워크 인터페이스 카드)
SSD와 스토리지 컨트롤러
GPU 및 기타 가속기
DPU/Smart NIC

유용한 비유: PCIe는 고속도로 차선을 추가하는 것과 같습니다. 새 세대는 차선당 속도를 높이고, x8, x16처럼 더 넓은 링크는 총 대역폭을 더합니다. 클라우드 운영자에게 이는 컴퓨트와 이를 공급하는 장치 간 데이터 이동 속도에 직접적인 영향을 줍니다.

Marvell의 인프라 실리콘은 종종 이 PCIe 연결 한쪽 끝(즉, NIC, DPU, 스토리지 컨트롤러, 스위치 인접 구성요소)에 위치하므로 PCIe 역량은 성능 업그레이드에 대한 제한요소(혹은 촉진요소)가 될 수 있습니다.

CXL: 같은 도로를 이용해 메모리를 더 효율적으로 공유

CXL(Compute Express Link)은 PCIe 물리적 연결을 기반으로 하지만 장치들이 낮은 오버헤드로 메모리 유사 리소스를 공유할 수 있는 새로운 방법을 추가합니다. 평이하게 말하면, CXL은 서버가 특정 외부 리소스(메모리 확장이나 풀형 메모리)를 로컬 확장의 일부처럼 다루게 해줍니다.

클라우드 설계에서의 실질적 결과

속도 향상뿐만 아니라 PCIe와 CXL은:

더 유연한 시스템 설계: 컴퓨트, 네트워킹, 스토리지 블록을 혼합·조합 가능
더 나은 활용도: 유휴 자원(예: 한 서버의 메모리)을 줄여 자원 낭비 완화
원활한 업그레이드: 새로운 카드와 컨트롤러를 기존 서버 계열에 보다 쉽게 도입

연결 표준은 헤드라인을 장식하지는 않지만 클라우드가 더 나은 네트워킹, 스토리지, 가속기를 얼마나 빨리 도입할지 강하게 결정합니다.

커스텀 가속: 클라우드 워크로드용 목적형 컴퓨트

클라우드 인프라에서의 “커스텀 가속”은 항상 거대한 범용 GPU를 의미하지 않습니다. 더 자주 볼 수 있는 형태는 특정 반복 작업을 가속하는 작고 전문화된 컴퓨트 블록을 더하는 것입니다—그 결과 CPU는 애플리케이션에 집중할 수 있습니다.

“커스텀”의 실제 의미

클라우드 워크로드는 매우 다양합니다: 스토리지 중심 DB 노드는 비디오 스트리밍 엣지 박스나 방화벽 어플라이언스와 병목이 다릅니다. 목적형 실리콘은 이러한 병목을 직접 겨냥해 기능을 하드웨어로 이동시키므로 더 빠르고 일관되며 CPU 오버헤드가 적습니다.

자주 보이는 가속 예시

데이터센터에서 반복적으로 등장하는 몇 가지 범주:

패킷 처리 보조: 헤더 파싱, 플로우 스티어링, 트래픽 셰이핑, 정책 적용을 라인레이트로
보안 가속: 암호화(IPsec/TLS), 키 처리, 인라인 검사
스토리지 가속: 이레이저 코딩, 압축, 중복제거 보조, RAID 패리티 및 체크섬
비디오/미디어: 트랜스코딩, 패키징, 스트리밍 파이프라인의 콘텐츠 컨디셔닝
AI 추론 보조: 전체 트레이닝 가속기가 아니라 임베딩 조회, 전/후처리, 모델 서빙 파이프라인을 위한 소형 엔진

기업들이 워크로드에 맞춰 칩을 맞추는 방법

대형 클라우드 팀은 보통 프로파일링으로 시작합니다: 어디에서 요청이 지체되는가, 어떤 작업이 초당 수백만 번 반복되는가? 그런 다음 프로그래머블 엔진(적응성 높음) 또는 고정 기능 블록(최고 효율)을 선택합니다. Marvell 같은 벤더는 네트워킹, 보안, 스토리지 인터페이스 같은 빌딩 블록을 제공해 플랫폼 특정 핫패스에 집중할 수 있게 합니다.

트레이드오프: 와트당 성능 대 유연성

고정 기능 가속은 보통 와트당 성능과 결정성 면에서 유리하지만 워크로드가 바뀌면 재사용이 어렵습니다. 프로그래머블 옵션은 진화하기 쉽지만 전력 비용이 더 들고 일부 성능을 포기할 수 있습니다. 최적 설계는 두 가지를 섞어 핵심 부분에는 하드웨어 패스트패스를 두고 제어 평면은 유연하게 유지합니다.

전력과 효율성: 와트당 더 많은 작업을 수행하기

스토리지 벤치마크 로거 만들기

NVMe 큐 깊이와 테일 레이턴시 결과를 기록하는 스토리지 테스트 하니스 앱을 생성하세요.

앱 생성

전력은 데이터센터의 실제 상한선입니다—단순히 더 많은 서버를 들여오는 문제가 아니라 공급하고 제거할 수 있는 전력(열) 한계입니다. 설비가 전력 한계에 도달하면 성장 방법은 와트당 더 많은 유용 작업을 얻는 것뿐입니다.

왜 “오프로드”가 에너지를 절약하나

범용 CPU는 유연하지만 패킷 처리, 암호화, 스토리지 프로토콜 처리, 텔레메트리 같은 반복 작업에 항상 효율적인 것은 아닙니다. 목적형 인프라 실리콘(예: 스마트 NIC/DPU, 스위치, 스토리지 컨트롤러)은 더 적은 사이클과 낭비로 이러한 작업을 실행할 수 있습니다.

에너지 이득은 종종 간접적으로 옵니다: 오프로드로 CPU 사용률이 낮아지면 동일 워크로드를 더 적은 코어로, 더 낮은 클럭으로, 혹은 더 적은 서버로 운영할 수 있습니다. 이는 메모리 압박과 PCIe 트래픽도 줄여 추가적인 전력 절감으로 이어집니다.

냉각과 공간도 칩 결정의 일부

모든 와트는 열이 됩니다. 더 많은 열은 더 빠른 팬, 더 높은 쿨런트 흐름, 엄격한 랙 레벨 계획을 요구합니다. 고밀도 랙은 매력적일 수 있지만 꾸준히 냉각할 수 있어야 합니다. 그래서 컴포넌트 선택은 단순한 처리량뿐 아니라 고부하에서 효율을 유지하는지도 고려합니다. 전력을 덜 소모하거나 고부하에서도 효율적인 구성요소는 같은 공간에 더 많은 용량을 밀어넣을 수 있게 합니다.

효율성 주장을 평가하는 방법

“와트당 성능 향상” 주장은 비교하기 쉽지 않습니다. 확인할 점:

측정 맥락: 처리량, 레이턴시 목표, 패킷 크기, 활성 기능(예: 암호화 온/오프)
시스템 경계: 칩 단위 전력인지 카드 전체인지 아니면 서버 전체 영향인지
부하 곡선 거동: 피크보다 20–40% 이용률에서의 효율이 더 중요할 수 있음
동일 조건 비교: 동일 워크로드, 동일 CPU 세대, 유사 NIC/스위치 구성

가장 신뢰할 수 있는 주장들은 와트와 서버·랙 수준에서 무엇이 바뀌었는지 구체적이고 반복 가능한 워크로드로 보여줍니다.

인프라 실리콘에 내장된 보안 및 신뢰성 기능

멀티테넌트 클라우드는 많은 고객이 동일 물리 머신을 공유하므로 보안은 “나중에 추가”할 수 없습니다. 많은 보안 기능이 칩 수준—스마트 NIC/DPU, 클라우드 네트워킹 칩, 이더넷 스위칭 실리콘, 데이터센터 스토리지 컨트롤러—에서 적용되어 라인레이트로 보호를 적용할 수 있습니다.

하드웨어 루트 오브 트러스트와 시큐어 부트(신뢰된 코드만 실행되는 체인)

대부분의 인프라 실리콘은 하드웨어 루트 오브 트러스트를 포함합니다: 펌웨어를 부팅 전에 검증할 수 있는 소량의 불변 로직과 키입니다. 시큐어 부트로 칩은 펌웨어의 암호 서명을 검사하고(때로는 호스트의 부트 구성 요소도) 수정되었거나 알 수 없는 코드를 실행하지 않습니다.

이는 DPU나 스토리지 컨트롤러가 서버와 네트워크/스토리지 패브릭 사이에 위치할 수 있기 때문에 중요합니다. 시큐어 부트는 해당 계층에서의 은닉 지속성 위험을 줄입니다.

전송 중·저장 데이터의 인라인 암호화

암호화는 종종 실리콘에서 직접 가속되어 CPU 시간을 빼앗지 않습니다:

전송 중 데이터: DPU와 스마트 NIC은 IPsec/TLS 유사 처리와 키 관리를 오프로드하면서도 높은 처리량 유지
저장 데이터: 스토리지 실리콘은 쓰기 시 인라인 암호화를 수행하고 읽기 시 복호화하여 NVMe 경로와 통합

인라인으로 작동하므로 보안이 반드시 스토리지 네트워킹 성능을 저하시킬 필요는 없습니다.

공유 인프라에서의 테넌트 격리

멀티테넌트 클라우드는 엄격한 분리를 필요로 합니다. 인프라 칩은 하드웨어 큐, 메모리 보호, 가상 함수, 정책 적용으로 격리를 강화해 한 테넌트의 트래픽이나 스토리지 요청이 다른 테넌트의 데이터를 들여다볼 수 없게 합니다. 이는 DPU가 가상 네트워킹을 처리하거나 PCIe 장치가 워크로드 간 공유될 때 특히 중요합니다.

문제를 조기에 드러내는 관측성 기능

신뢰성은 단순히 ‘장애 없음’만을 의미하지 않습니다—더 빠른 감지와 복구도 포함됩니다. 많은 데이터 인프라 실리콘 설계는 텔레메트리 카운터, 오류 리포팅, 패킷 추적 훅, 헬스 메트릭을 내장해 운영팀이 모니터링 시스템으로 활용할 수 있게 합니다. 드롭, 레이턴시 스파이크, 링크 오류, 재시도 폭주 같은 문제가 발생하면 이러한 신호들은 이더넷 스위칭, DPU, 스토리지 컨트롤러 중 어디에서 문제가 발생했는지 빠르게 좁히는 데 도움을 줍니다.

엔드투엔드 예시: 클라우드 요청이 빨라지는 과정

간단한 동작을 그려봅니다: 쇼핑 앱에서 ‘주문 내역 보기’를 탭합니다. 이 단일 요청은 여러 시스템을 통과하며 각 단계가 지연 가능성을 품고 있습니다.

단계별: 요청 → DB → 응답

요청이 클라우드 엣지와 로드밸런서에 도달합니다. 패킷은 헬시한 애플리케이션 서버로 라우팅됩니다.
애플리케이션 호스트에 도달합니다. 전통적으로 호스트 CPU는 암호화, 방화벽 규칙, 가상 네트워킹, 큐 관리 같은 많은 ‘배관 작업’을 처리합니다.
앱이 DB를 쿼리합니다. 쿼리는 데이터센터 네트워크를 통해 DB 클러스터로 이동하고, 그곳에서 스토리지에서 데이터를 가져옵니다.
응답이 같은 경로로 돌아옵니다. 결과는 패키징되고 암호화되어 폰으로 전송됩니다.

레이턴시가 숨어드는 곳

네트워크 홉과 패킷 처리: 각 홉은 마이크로 딜레이를 더하고, 패킷당 작업(라우팅 결정, 터널 캡슐화, ACL 검사)이 큰 비용을 유발할 수 있습니다.
스토리지 I/O: 빠른 NVMe라도 큐가 쌓이거나 메타데이터 처리 비효율, 호스트 CPU 점유로 지연이 생길 수 있습니다.
CPU 경쟁: 동일 CPU 코어에서 애플리케이션과 인프라 작업을 같이 처리하면 버스티 트래픽에 의해 ‘노이지 네이버’ 현상이 생깁니다.

오프로드와 가속이 병목을 제거하는 방법

Smart NIC/DPU와 전용 인프라 실리콘(Marvell 등의 솔루션 포함)은 반복 작업을 범용 CPU에서 분리합니다:

네트워킹 오프로드는 터널링, 스위칭/스티어링, 정책 적용을 와이어에 가까운 위치에서 처리합니다.
암호화 가속은 TLS/IPsec 비용을 줄여 암호화가 애플리케이션 사이클을 빼앗지 않게 합니다.
스토리지 가속은 NVMe 큐 처리, RAID/데이터 보호 작업을 개선해 호스트의 무거운 I/O 북키핑 부담을 덜어줍니다.

실제로 개선되는 항목

테일 레이턴시 감소: 트래픽 스파이크 중 발생하는 드문 지연이 줄어듭니다.
처리량 증가: CPU가 애플리케이션 로직에 집중하므로 서버당 더 많은 요청을 처리할 수 있습니다.
성능 일관성 향상: 인프라 작업이 격리되고 예측 가능하게 되므로 전체 성능이 안정됩니다.

클라우드 팀이 인프라 실리콘을 선택하는 방법

작동하는 내부 앱 배포

내부 도구를 배포·호스팅한 뒤 필요하면 커스텀 도메인으로 전환하세요.

앱 배포

클라우드 운영자는 칩을 ‘추상적으로 빠르다’는 이유로 선택하지 않습니다—반복 가능하고 규모가 크며 전용 하드웨어로 옮길 가치가 있을 때 선택합니다. 전문 실리콘은 수백만 건의 유사한 요청이 있을 때, 성능 요구가 예측 가능할 때, 그리고 작은 효율성 향상이 전체 함대에 실질적 절감으로 이어질 때 가장 가치가 있습니다.

데이터시트가 아니라 워크로드에서 시작하세요

팀은 보통 가장 큰 병목을 특정 기능(네트워크 경로의 패킷 처리 및 보안, I/O 경로의 스토리지 변환 및 데이터 보호, 가속 블록의 압축/암호화/AI 프리미티브)으로 매핑합니다. 중요한 질문은 그 작업을 소프트웨어 모델을 깨뜨리지 않고 오프로드할 수 있는가입니다. 플랫폼이 특정 리눅스 기능, 가상 스위칭 동작, 스토리지 의미론에 의존한다면 칩은 그 가정에 맞아야 합니다.

PoC 전에 벤더에 물어볼 것들

명확히 요구할 항목:

지금 어떤 워크로드에 실리콘이 튜닝되어 있는가(그리고 아닌 것은 무엇인가)
로드맵 안정성: 차세대 핀/보드 호환성, 펌웨어 지원 기간, 기능 제공 일정
호환성: 드라이버, 하이퍼바이저 지원, Kubernetes/CNI 통합, 관측성 훅
공급 및 라이프사이클: 리드타임, 대체 공급 전략, 장기 가용성

옵션 평가 방법

벤치마크는 중요하지만 생산 환경을 반영할 때만 유용합니다: 실제 패킷 믹스, 실제 스토리지 큐 깊이, 현실적인 테넌트 격리 조건. 전력은 피크 처리량이 아니라 ‘와트당 작업’으로 평가합니다—특히 랙에 전력 제한이 있을 때.

통합 노력은 종종 결정 요인입니다. 종이상으로 10% 더 나은 칩도 대규모에서 프로비저닝·모니터·패치하기 쉬운 칩에 밀릴 수 있습니다.

락인 회피

클라우드 팀은 표준(이더넷, NVMe, PCIe/CXL), 잘 문서화된 API, 상호운용 가능한 관리 툴을 선호해 리스크를 낮춥니다. Marvell과 동료 벤더의 기능을 사용하더라도 상위 제어면을 이식 가능하게 유지해 하드웨어가 진화해도 플랫폼 전체를 재작성하지 않도록 합니다.

플랫폼 측면에서도 같은 원칙이 적용됩니다: 이런 인프라에서 결국 실행될 서비스들을 설계할 때 아키텍처를 이식 가능하게 유지하면 유리합니다. 예를 들어 Koder 같은 플랫폼은 채팅 기반 워크플로로 Go+PostgreSQL 백엔드와 React 프론트를 빠르게 프로토타이핑하고 소스코드를 추출·배포할 수 있게 도와줍니다.

데이터 인프라 실리콘의 다음 단계

데이터 인프라 실리콘은 ‘있으면 좋은 가속기’에서 기본 배관(plumbing)으로 이동하고 있습니다. 더 많은 서비스가 레이턴시 민감(예: AI 추론, 실시간 분석, 보안 검사)이 되면서 네트워킹, 스토리지, 데이터 이동을 효율적으로 처리하는 칩은 CPU만큼 중요해질 것입니다.

더 높은 대역폭이 기본이 됩니다

높은 대역폭 네트워크는 이제 특별 계층이 아니라 기대치입니다. 이는 이더넷 스위칭, 패킷 처리, DPU 및 스마트 NIC을 더 빠른 포트, 낮은 레이턴시, 더 나은 혼잡 제어로 밀어넣습니다. Marvell 같은 벤더들은 하드웨어에서 얼마나 많은 작업을 오프로드(암호화, 텔레메트리, 가상 스위칭 등)하면서 운영 복잡성을 늘리지 않을지 경쟁할 것입니다.

CXL과 컴포저블 인프라의 실용화

PCIe와 CXL 연결성은 메모리와 가속기를 풀링해 랙을 워크로드에 따라 ‘조합’할 수 있게 하며 점점 더 실무적이 됩니다. 실리콘 기회는 단순히 CXL PHY만이 아니라 풀형 리소스를 예측 가능하고 안전하게, 관측 가능하게 만드는 컨트롤러·스위칭·펌웨어에 있습니다.

대형 플랫폼 내부의 더 많은 커스텀 실리콘

대형 제공업체는 차별화와 긴밀한 통합을 원합니다. 표준 빌딩 블록(SerDes, 이더넷 스위칭, NVMe)에 플랫폼 특화 기능, 배포 툴링, 긴 지원 주기를 결합한 반커스텀 프로그램이 늘어날 전망입니다.

차세대 부품 평가 시 주의할 점

전력 한도가 확장 제약이 될수록 와트당 성능이 핵심 지표가 됩니다. 보안 기능은 데이터 경로에 더 가까워질 것이며(인라인 암호화, 시큐어 부트, 증명), 업그레이드 경로도 중요해집니다: 새로운 대역폭, CXL 버전, 오프로드 기능을 기존 플랫폼을 재설계하지 않고 도입할 수 있는가?

자주 묻는 질문

Marvell은 현대 클라우드 데이터센터에서 실제로 무엇을 하나요?

Marvell은 주로 클라우드 데이터센터의 "데이터 경로" 계층을 겨냥합니다: 네트워킹(NIC/DPU, 스위치 실리콘), 스토리지 컨트롤러(NVMe 관련 기능), 그리고 암호화·패킷 처리·압축·텔레메트리 같은 특별 가속 블록입니다. 목표는 메인 CPU를 소모하지 않고 대량의 데이터를 이동·보호·관리하는 것입니다.

클라우드 제공업체가 단순히 더 많은 CPU 대신 전용 인프라 칩을 필요한 이유는 무엇인가요?

범용 CPU는 유연하지만 패킷 처리, 암호화, 스토리지 프로토콜 처리처럼 반복적이고 대량인 인프라 작업에는 비효율적입니다. 이러한 작업을 전용 실리콘으로 오프로드하면 다음이 개선됩니다:

성능 일관성(낮은 테일 레이턴시)
효율성(와트당 더 많은 작업)
서버 활용도(애플리케이션을 위한 CPU 자원 증가)

스마트 NIC과 DPU의 차이는 무엇인가요?

스마트 NIC은 카드 위에서 네트워킹 기능을 실행할 수 있는 추가 연산 능력을 가진 NIC입니다. DPU는 한 단계 더 나아가 여러 코어와 하드웨어 가속기, 격리 기능을 결합해 서버 내부의 ‘인프라 전용 컴퓨터’처럼 동작합니다.

Smart NIC: ‘똑똑한 브레인을 가진 NIC’
DPU: 네트워킹 + 보안 + 텔레메트리를 호스트와 더 독립적으로 처리하는 ‘인프라 시스템’

클라우드 서버에서 CPU에서 오프로드되는 작업 종류는 어떤 것들이 있나요?

일반적으로 오프로드되는 항목들:

가상 스위칭 및 오버레이(캡슐화/디캡슐화, 플로우 스티어링)
보안 처리(TLS/IPsec 암호화, 방화벽/ACL 적용)
라인레이트 텔레메트리(카운터, 플로우 로그, 패킷 샘플링)
스토리지 트래픽 스티어링(스토리지가 네트워크를 타는 설계에서)

이런 오프로드는 CPU 오버헤드를 줄이고 부하 시 레이턴시를 안정화합니다.

동서(east–west) 트래픽이란 무엇이며, 인프라 실리콘에 왜 중요한가요?

대부분의 트래픽은 데이터센터 내부의 “동서(east–west)” 트래픽입니다: 서비스 간 호출, 스토리지 복제, DB/캐시 트래픽, 분산 AI 작업 등. 이러한 내부 트래픽은 예측 가능한 레이턴시와 높은 처리량을 요구하므로 NIC/DPU 및 스위치 실리콘에서 더 많은 처리 능력을 요구하게 됩니다.

ToR(Top-of-Rack)과 spine 스위치가 클라우드 성능에 어떤 영향을 미치나요?

하이퍼스케일 데이터센터 대부분은 리프-스파인(leaf-spine) 토폴로지를 사용합니다:

Top-of-rack(leaf) 스위치: 각 랙의 서버에 직접 연결됩니다.
Spine 스위치: 모든 리프 스위치를 연결해 어느 서버든 짧고 일관된 홉 수로 통신하게 합니다.

스위치 실리콘은 패킷 포워딩, 버퍼링, QoS 적용, 텔레메트리 제공을 라인레이트로 처리해야 합니다.

스토리지 컨트롤러는 무엇을 하고, 클라우드에서 왜 중요한가요?

스토리지 컨트롤러는 플래시와 시스템 사이에서 동작하며 스토리지를 빠르고 신뢰성 있게 만드는 작업을 담당합니다:

논리 블록을 물리 플래시에 매핑(FTL)
읽기/쓰기 예약 및 큐 관리
무결성 검사(체크섬, 오류 처리)
웨어 레벨링 및 수명 관리

많은 컨트롤러는 암호화, 압축, 패리티/이레이저 코딩 보조 같은 기능도 하드웨어로 가속해 호스트 CPU 점유를 줄입니다.

왜 NVMe가 클라우드 스토리지 설계에서 널리 쓰이나요?

NVMe는 플래시를 위해 설계된 프로토콜로, 오버헤드를 줄이고 병렬 처리(다수의 큐)를 지원합니다. 클라우드 환경에서의 이점은 단지 최대 처리량이 아니라 부하가 걸렸을 때도 일관되게 낮은 레이턴시를 제공한다는 점입니다—수천 건의 작은 I/O가 동시에 발생할 때 특히 중요합니다.

간단히 말해 PCIe와 CXL은 클라우드 서버 설계에 어떤 변화를 주나요?

PCIe는 NIC, DPU, SSD, GPU, 가속기를 연결하는 서버 내부의 고속 인터커넥트입니다. CXL은 동일한 물리 레이어를 활용하면서 메모리와 유사한 리소스를 더 효율적으로 공유하는 방법을 추가합니다.

실무적으로 PCIe/CXL은:

기존 서버 세대에 카드 교체로 업그레이드 가능
컴포저블 디자인(메모리/가속기 풀링)을 가능하게 함
유휴 리소스 감소로 활용도 향상을 지원합니다.

클라우드 워크로드용 커스텀 가속은 실제로 무엇을 의미하나요?

클라우드에서의 ‘커스텀 가속’은 꼭 대형 GPU만을 의미하지 않습니다. 보통은 반복되는 특정 작업을 가속하는 작고 전문화된 컴퓨트 블록을 추가해 CPU가 애플리케이션 로직에 집중하게 합니다.

일반적인 가속 예시:

패킷 처리 보조: 헤더 파싱, 플로우 스티어링, 트래픽 셰이핑
보안 가속: 암호화, 키 관리, 인라인 검사

오프로드가 에너지를 절약하는 이유는 무엇인가요?

전력은 데이터센터의 실제 한계입니다. 오프로드는 반복적 인프라 작업을 더 적은 사이클과 전력으로 처리해 전체 전력 효율을 개선합니다. CPU 활용도를 줄이면 더 적은 코어로 동일한 작업을 처리하거나 동작 주파수를 낮추는 등으로 서버 수나 냉각 요구를 줄일 수 있습니다.

효율성 주장의 검증 포인트:

측정 맥락: 처리량, 레이턴시 목표, 패킷 크기, 활성 기능
시스템 경계: 칩 단위 전력 vs 카드 전체 vs 서버 전체 영향
부하 곡선: 20–40% 부하에서의 효율성
동일 조건 비교: 동일 워크로드, 동일 CPU 세대, 유사 NIC/스위치 구성

인프라 실리콘에 내장된 보안 및 신뢰성 기능에는 어떤 것들이 있나요?

인프라 실리콘에는 많은 보안·신뢰성 기능이 내장되어 있습니다:

하드웨어 루트 오브 트러스트와 시큐어 부트: 펌웨어 서명을 검증해 신뢰되지 않은 코드 실행을 막습니다.
인라인 암호화: 데이터 전송 중 및 저장 시 암호화를 하드웨어에서 가속해 성능 저하 없이 보호합니다.
테넌트 격리: 하드웨어 큐, 메모리 보호, 가상 함수, 정책 적용을 통해 멀티테넌시 분리를 강화합니다.
관측성(Observability): 카운터, 오류 리포트, 패킷 추적 훅 등으로 문제를 빠르게 식별하고 복구 시간을 단축합니다.

엔드투엔드 예시: 클라우드 요청은 어떻게 빨라지나요?

간단한 예: 쇼핑 앱에서 ‘주문 내역 보기’를 탭하면 요청은 여러 시스템을 거치며 각 단계가 지연 요소가 됩니다.

병목이 생기는 지점:

네트워크 홉과 패킷 처리: 홉마다 마이크로 딜레이가 쌓이고, 캡슐화·ACL 검사 같은 패킷당 작업이 비용을 유발합니다.
스토리지 I/O: 큐업, 메타데이터 처리 비효율, 호스트 CPU 소모 등에서 지연이 발생합니다.
CPU 경쟁: 애플리케이션과 인프라 작업이 동일 코어를 쓰면 버스티 트래픽에 취약해집니다.

오프로드로 개선되는 점:

클라우드 팀은 인프라 칩(예: DPU, 스위치, 스토리지 컨트롤러)을 어떻게 선택하나요?

대규모에서 반복 가능하고 예측 가능한 작업일수록 전용 실리콘의 가치는 커집니다. 칩 선택은 단순히 ‘스펙상의 빠름’이 아니라 다음과 같은 기준으로 이뤄집니다:

워크로드 우선: 병목 지점을 특정 기능에 매핑
벤더에 묻는 질문: 어떤 워크로드에 최적화되어 있는지, 핀/보드 호환성 로드맵, 드라이버/하이퍼바이저/Kubernetes 통합, 공급·수명 보장
평가 방식: 생산 환경과 유사한 벤치마크, 와트당 작업량, 통합 노력
락인 회피: 표준(NVMe, PCIe/CXL, 이더넷)을 선호하고 상위 제어면(컨트롤 플레인)을 이식 가능하게 유지

또한 개발팀은 인프라의 변화에 맞춰 포팅 가능한 아키텍처를 설계하는 것이 장기적으로 유리합니다. 예를 들어 Koder 같은 플랫폼은 웹 백엔드(Go + PostgreSQL)와 React 프론트엔드를 프로토타이핑하고 소스 추출 및 자체 클라우드에 배포 가능한 워크플로를 제공합니다.

데이터 인프라 실리콘의 다음 단계는 무엇인가요?

데이터 인프라 실리콘은 ‘있는 게 있으면 좋은’ 가속기를 넘어 기본 배관(plumbing)이 되어가고 있습니다. AI 추론, 실시간 분석, 보안 검사처럼 레이턴시 민감한 서비스가 늘면서 네트워킹·스토리지·데이터 이동을 효율적으로 처리하는 칩의 중요성은 CPU만큼 커질 것입니다.

주요 전망:

더 높은 대역폭이 기본화: 포트 속도 증가, 낮은 레이턴시, 개선된 혼잡 제어 요구
CXL과 컴포저블 인프라의 실용화: 메모리·가속기 풀링을 위한 컨트롤러·스위칭·펌웨어의 역할 증가
대형 플랫폼 내부의 커스텀 실리콘 증가: 표준 블록에 플랫폼 특정 기능·툴링·긴 지원 주기를 결합한 반커스텀 전략

다음 세대 부품을 평가할 때는 와트당 성능, 데이터 경로에 가까운 보안 기능(인라인 암호화·시큐어 부트·증명), 그리고 기존 랙 호환성 없이도 대역폭·CXL·오프로드 기능을 도입할 수 있는지(업그레이드 경로)를 확인하세요.