SK hynix Memory & Packaging: AI Server Performance Economics

Q: What’s the simplest way to understand the AI server memory stack?

ਇਸਨੂੰ ਇਕ ਪਾਈਪਲਾਈਨ ਵਾਂਗ ਸੋਚੋ: - HBM (on-package GPU memory): ਸਭ ਤੋਂ ਵੱਧ bandwidth, GPU ਤੱਕ ਸਭ ਤੋਂ ਘੱਟ ਲੇਟੈਂਸੀ, ਸੀਮਤ ਸਮਰੱਥਾ। - DDR5 (CPU/system memory): ਕਾਫੀ ਵੱਡੀ ਸਮਰੱਥਾ, ਹਰ ਡਿਵਾਈਸ ਤੇ ਘੱਟ bandwidth, ਸਟੇਜਿੰਗ/ਪ੍ਰੀ-ਪ੍ਰੋਸੈੱਸਿੰਗ ਅਤੇ ਹੋਸਟ-ਸਾਈਡ ਕੈਸ਼ਿੰਗ ਲਈ। - NVMe/storage: GB ਦੇ ਮੁਤਾਬਕ ਸਭ ਤੋਂ ਸਸਤਾ ਪਰ ਲੇਟੈਂਸੀ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ; ਡਾਟਾਸੈੱਟ, ਚੇਕਪੌਇੰਟ ਅਤੇ ਸਪਿਲਓਵਰ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ। ਜਦੋਂ ਕੰਪਿਊਟ ਚੱਲ ਰਹੀ ਹੈ ਅਤੇ ਡੇਟਾ ਨੂੰ ਬਾਰ-ਬਾਰ ਸਟੈਕ 'ਤੇੋਂ ਹੇਠਾਂ ਭੇਜਣਾ ਪੈ ਜਾਂਦਾ ਹੈ (HBM → DDR5 → NVMe), ਤਾਂ ਇਹ ਪ੍ਰਦਰਸ਼ਨ ਸਮੱਸਿਆਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ।

Q: When should I prioritize HBM capacity versus HBM bandwidth?

ਇਹ ਸਾਰਣੀ ਆਸਾਨ ਨਿਯਮ ਵਰਤੋ: - ਜਦੋਂ ਤੁਸੀਂ ਛੋਟੀ ਬੈਚ ਆਕਾਰ, ਵੱਧ ਸ਼ਾਰਡਿੰਗ/ਆਫਲੋਡ, ਘੱਟ context ਲੰਬਾਈ ਜਾਂ ਆਉਟ-ਆਫ-ਮੇਮੋਰੀ ਸੀਮਾਵਾਂ ਦੀ ਸਮੱਸਿਆ ਦੇਖ ਰਹੇ ਹੋ — ਤਾਂ ਵਧੀ HBM ਸਮਰੱਥਾ ਚੁਣੋ। - ਜਦੋਂ ਪ੍ਰੋਫਾਈਲਿੰਗ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ਜੌਬ ਮੈਮੋਰੀ-ਬਾਊਂਡ ਹੈ (ਉੱਚ ਮੈਮੋਰੀ ਸਟਾਲ/ਉੱਚ ਪ੍ਰਾਪਤ bandwidth ਪਰ ਘੱਟ ਕੁੰਪਿਊਟ ਉਪਯੋਗਿਤਾ), ਤਾਂ ਜਿਆਦਾ HBM bandwidth ਲਾਭਦਾਇਕ ਹੁੰਦਾ ਹੈ। ਜੇ ਤੁਸੀਂ ਪਹਿਲਾਂ ਹੀ compute-bound ਹੋ, ਤਾਂ ਵਧੇਰੇ bandwidth ਤੋਂ ਘੱਟ ਲਾਭ ਮਿਲਦੇ ਹਨ; ਇਸ ਨਾਲ ਤੁਸੀਂ kernel ਅਪਟਿਮਾਈਜ਼ੇਸ਼ਨ, ਬੈਚਿੰਗ, ਜਾਂ ਤੇਜ਼ GPU ਜਨਰੇਸ਼ਨ ਦੀ ਓਰ ਵੇਖੋ।

Q: What role does DDR5 play in AI servers if models mostly run on GPUs?

ਪ੍ਰਯੋਗਕਰਨ ਲਈ DDR5 ਨੂੰ ਇੱਕ ਸਟੇਜਿੰਗ ਅਤੇ ਆਰਕਿਸਟ੍ਰੇਸ਼ਨ ਬਜੱਟ ਵਜੋਂ ਸੋਚੋ। ਜੇ ਤੁਹਾਡੇ ਵਰਕਲੋਡ ਤੇਜ਼ ਸਟੋਰੇਜ ਤੋਂ ਸਿੱਧਾ GPUs ਨੂੰ ਕਲੀਨ ਬੈਚ ਸਟ੍ਰੀਮ ਕਰਦੇ ਹਨ, ਤਾਂ ਤੁਸੀਂ ਘੱਟ ਪਰ ਡਿੱਗ ਰੈਟ DIMMs ਨੂੰ ਤਰਜੀਹ ਦੇ ਸਕਦੇ ਹੋ। ਪਰ ਜੇ ਤੁਸੀਂ ਭਾਰੀ preprocessing, ਹੋਸਟ-ਸਾਈਡ ਕੈਸ਼ਿੰਗ, ਜਾਂ ਇੱਕ ਨੋਡ 'ਤੇ ਕਈ ਸੇਵਾਵਾਂ ਚਲਾ ਰਹੇ ਹੋ, ਤਾਂ ਸਮਰੱਥਾ ਮੁੱਦਾ ਬਣ ਜਾਂਦੀ ਹੈ। ਇਹ ਸੰਤੁਲਨ accelerator memory 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦਾ ਹੈ: ਜੇ ਤੁਹਾਡੇ ਮਾਡਲ HBM ਸੀਮਾਵਾਂ ਦੇ ਨੇੜੇ ਹਨ, ਤਾਂ ਤੁਸੀਂ checkpointing, offload, ਜਾਂ ਵੱਡੇ ਬੈਚ ਕਿਊਜ਼ ਵਰਗੀ ਤਕਨੀਕਾਂ ਵਰਤੋਂਗੇ ਜੋ CPU ਮੈਮੋਰੀ 'ਤੇ ਦਬਾਅ ਵਧਾਉਂਦੀਆਂ ਹਨ।

Q: How do I judge whether “more expensive memory” is worth it for TCO?

ਇੱਕ ਆਮ ਨਿਯਮ ਵਰਤੋ: Unit-economics: - ਲਾਗਤ ਪ੍ਰਤੀ ਇਕਾਈ ਕੰਮ = (ਸਰਵਰ ਘੰਟਾ ਲਾਗਤ) ÷ (ਉਪਯੋਗੀ ਆਉਟਪੁੱਟ ਪ੍ਰਤੀ ਘੰਟਾ) ਜੇ ਤੇਜ਼ ਮੈਮੋਰੀ ਆਉਟਪੁੱਟ ਪ੍ਰਤੀ ਘੰਟਾ ਨੂੰ 15% ਵਧਾਉਂਦੀ ਹੈ ਅਤੇ ਸਰਵਰ ਲਾਗਤ 5% ਵਧਦੀ ਹੈ, ਤਾਂ ਇੱਕਾਈ ਅਰਥਸ਼ਾਸਤਰ ਸੁਧਰਦਾ ਹੈ—ਅਤੇ BOM ਬਿੰਦੂ ਉੱਚਾ ਹੋਣ ਦੇ ਬਾਵਜੂਦ ਕੁੱਲ ਤੌਰ 'ਤੇ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦਾ ਹੈ।

ਲੌਗ ਇਨ ਸ਼ੁਰੂ ਕਰੋ

SK hynix Memory & Packaging: AI Server Performance Economics | Koder.ai

ਕਿਉਂ ਮੈਮੋਰੀ ਏਆਈ ਸਰਵਰ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਲਾਗਤ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ

ਲੋਕ ਜਦੋਂ ਏਆਈ ਸਰਵਰਾਂ ਬਾਰੇ ਸੋਚਦੇ ਹਨ ਤਾਂ ਉਹ GPUs ਦੀ ਤਸਵੀਰ ਬਣਾਉਂਦੇ ਹਨ। ਪਰ ਅਸਲ ਤੌਰ 'ਤੇ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਤਾਕਤਵਾਂ ਵਿੱਚ, ਮੈਮੋਰੀ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਕਿ ਇਹ GPUs ਲਗਾਤਾਰ ਬਿਜੀ ਰਹਿੰਦੇ ਹਨ ਜਾਂ ਉਡਕਦੇ ਰਹਿੰਦੇ ਹਨ। ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਇੰਫਰੰਸ ਦੋਹਾਂ ਹੀ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਚਲਾਉਂਦੇ ਹਨ: ਮਾਡਲ ਵਜ਼ਨ, ਐਕਟੀਵੇਸ਼ਨ, attention caches, embeddings ਅਤੇ ਇਨਪੁੱਟ ਬੈਚ। ਜੇ ਮੈਮੋਰੀ ਸਿਸਟਮ ਡੇਟਾ ਤੇਜ਼ੀ ਨਾਲ ਨਹੀਂ ਪਹੁੰਚਾ ਸਕਦਾ ਤਾਂ compute ਯੂਨਿਟ ਆਈਡਲ ਹੋ ਜਾਂਦੇ ਹਨ ਅਤੇ ਤੁਹਾਡੇ ਮਹਿੰਗੇ ਐਕਸੈਲਰੇਟਰ ਘੰਟਿਆਂ ਵਿੱਚ ਘੱਟ ਕੰਮ ਕਰਦੇ ਹਨ।

ਮੈਮੋਰੀ ਨੂੰ “throughput gate” ਵਜੋਂ ਦੇਖਣਾ

GPU compute ਤੇਜ਼ੀ ਨਾਲ ਵਧਦਾ ਹੈ, ਪਰ ਡੇਟਾ ਮুভਮੈਂਟ मुफ्त ਨਹੀਂ ਵਧਦਾ। GPU memory subsystem (HBM ਅਤੇ ਇਸ ਦੀ ਪੈਕੇਜਿੰਗ) ਅਤੇ ਸਰਵਰ ਦੀ ਮੁੱਖ ਮੈਮੋਰੀ (DDR5) ਮਿਲ ਕੇ ਇਹ ਗੱਲ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ:

ਤੁਸੀਂ ਕਿਹੜਾ ਮਾਡਲ ਫਿੱਟ ਕਰ ਸਕਦੇ ਹੋ, ਅਤੇ ਕਿੰਨੀ ਵਾਰ ਤੁਹਾਨੂੰ ਸ਼ਾਰਡ ਜਾਂ ਆਫਲੋਡ ਕਰਨਾ ਪਏਗਾ
ਤੁਸੀਂ ਕਿੰਨੀ ਵੱਡੀ ਬੈਚ ਚਲਾ ਸਕਦੇ ਹੋ ਬਿਨਾਂ ਮੈਮੋਰੀ thrashing ਦੇ
ਲੰਬੇ ਰਨਾਂ ਦੌਰਾਨ ਤੁਸੀਂ ਕਿੰਨੀ ਲਗਾਤਾਰ throughput ਬਰਕਰਾਰ ਰਖ ਸਕਦੇ ਹੋ

AI ਕਲਸਟਰਾਂ ਵਿੱਚ “ਪਰਫਾਰਮੈਂਸ ਪ੍ਰਤੀ ਡਾਲਰ” ਦਾ ਮਤਲਬ

ਏਆਈ ਢਾਂਚੇ ਦੀਆਂ ਅਰਥ-ਨੀਤੀਆਂ ਆਮ ਤੌਰ 'ਤੇ ਨਤੀਜਿਆਂ ਪ੍ਰਤੀ ਲਾਗਤ ਯੂਨਿਟ ਨਾਲ ਮਾਪੀਆਂ ਜਾਂਦੀਆਂ ਹਨ: tokens/sec ਪ੍ਰਤੀ ਡਾਲਰ, training steps/day ਪ੍ਰਤੀ ਡਾਲਰ ਜਾਂ ਪ੍ਰਤੀ ਰੈਕ ਪ੍ਰਤੀ ਮਹੀਨਾ ਪੂਰੇ ਹੋਏ jobs।

ਮੈਮੋਰੀ ਉਸ ਸਮੀਕਰਨ ਨੂੰ ਦੋ ਪਾਸਿਆਂ ਤੋਂ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀ ਹੈ:

ਪਰਫਾਰਮੈਂਸ: ਜ਼ਿਆਦਾ ਵਰਤੀ ਜਾਂਯੋਗ bandwidth ਅਤੇ ਸਮਰੱਥਾ stalls ਘੱਟ ਕਰ ਸਕਦੀ ਹੈ ਅਤੇ ਵੱਧ ਸ਼ਾਰਡਿੰਗ ਤੋਂ ਬਣਦੇ ਸੰਚਾਰ ਓਵਰਹੈੱਡ ਨੂੰ ਘਟਾ ਸਕਦੀ ਹੈ।
ਲਾਗਤ: ਮੈਮੋਰੀ ਅਤੇ ਪੈਕੇਜਿੰਗ ਵਿਕਲਪ ਸਰਵਰ BOM, ਪਾਵਰ ਖਪਤ, ਕੁਲਿੰਗ ਲੋੜਾਂ ਅਤੇ ਲਕੜੀ/ਨੋਡ ਦਰੋਂ ਦੀ ਗਿਣਤੀ ਨੂੰ ਬਦਲ ਸਕਦੇ ਹਨ ਜੋ ਇੱਕ ਟਾਰਗਟ SLA ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਚਾਹੀਦੇ ਹੋ ਸਕਦੇ ਹਨ।

ਬੈਂਡਵਿਡਥ, ਸਮਰੱਥਾ, ਲੇਟੈਂਸੀ ਅਤੇ ਪਾਵਰ ਦੀ ਪਰਸਪਰ ਸੰਬੰਧਤਾ

ਇਹ ਤੱਤ ਇਕ-ਦੂਜੇ ਨਾਲ ਜੁੜੇ ਹੋਏ ਹਨ। ਉੱਚਾ bandwidth ਉਪਯੋਗਿਤਾ ਸੁਧਾਰ ਸਕਦਾ ਹੈ, ਪਰ ਸਿਰਫ਼ ਉਨ੍ਹਾਂ ਹਾਲਾਤਾਂ ਵਿੱਚ ਜਦੋਂ ਸਮਰੱਥਾ ਕਾਫੀ ਹੋਵੇ ਤਾਂ ਹੀ ਗਰਮ ਡੇਟਾ ਸਥਾਨਕ ਰਹੇ। ਲੇਟੈਂਸੀ ਉਹਨਾਂ ਤਬ ਖਾਸ ਹੈ ਜਦੋਂ ਐਕਸੈਸ ਪੈਟਰਨ ਅਨਿਯਮਤ ਹੋ (ਕੁਝ ਇੰਫਰੰਸ ਵਰਕਲੋਡਾਂ ਵਿੱਚ ਆਮ)। ਪਾਵਰ ਅਤੇ ਥਰਮਲ ਤਾਂ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ ਕਿ ਪੀਕ ਸਪੈੱਕ ਥਾਂਘਾਂ ਲੰਮੇ ਸਮੇਂ ਲਈ ਕਾਇਮ ਰਹਿ ਸਕਦੇ ਹਨ—ਜੋ ਲੰਬੇ ਟ੍ਰੇਨਿੰਗ ਰਨਾਂ ਅਤੇ ਉੱਚ ਡਿਊਟੀ-ਸਾਈਕਲ ਇੰਫਰੰਸ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਇਹ ਲੇਖ ਕੀ ਦੱਸੇਗਾ ਅਤੇ ਕੀ ਨਹੀਂ

ਇਹ ਲੇਖ ਇਹ ਵਿਵਰਣ ਕਰੇਗਾ ਕਿ ਮੈਮੋਰੀ ਅਤੇ ਪੈਕੇਜਿੰਗ ਚੋਣਾਂ ਕਿਸ ਤਰ੍ਹਾਂ ਏਆਈ ਸਰਵਰ throughput ਅਤੇ ਕੁੱਲ ਮਲਕੀਅਤ ਲਾਗਤ (TCO) ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀਆਂ ਹਨ, ਕਾਰਨ-ਮੁਤਾਬਿਕ ਨਜ਼ਰੀਏ ਨਾਲ। ਇਹ ਭਵਿੱਖੀ ਉਤਪਾਦ ਰੋਡਮੈਪ, ਕੀਮਤਾਂ ਜਾਂ ਵਿਕਰੇਤਾ-ਵਿਸ਼ੇਸ਼ ਉਪਲਬਧਤਾ ਬਾਰੇ ਅਨੁਮਾਨ ਨਹੀਂ ਲਗਾਏਗਾ। ਲਕਸ਼ ਹੈ ਕਿ ਤੁਸੀਂ ਏਆਈ ਸਰਵਰ ਕਨਫਿਗਰੇਸ਼ਨਾਂ ਦੇ ਮੁਲਾਂਕਣ ਵੇਲੇ ਬਿਹਤਰ ਸਵਾਲ ਪੁੱਛ ਸਕੋ।

ਏਆਈ ਸਰਵਰ ਮੈਮੋਰੀ ਸਟੈਕ ਦਾ ਸਧਾਰਨ ਦ੍ਰਿਸ਼

ਜੇ ਤੁਸੀਂ ਏਆਈ ਸਰਵਰ ਖਰੀਦ ਰਹੇ ਹੋ, ਤਾਂ ਮਦਦਗਾਰ ਹੈ ਕਿ “ਮੈਮੋਰੀ” ਨੂੰ ਉਹਨਾਂ ਪਰਤਾਂ ਦੇ ਇੱਕ ਸਟੈਕ ਵਜੋਂ ਸੋਚੋ ਜੋ compute ਨੂੰ ਡੇਟਾ ਪਹੁੰਚਾਉਂਦੀਆਂ ਹਨ। ਜਦੋਂ ਕੋਈ ਵੀ ਪਰਤ ਤੇਜ਼ੀ ਨਾਲ ਡੇਟਾ ਨਹੀਂ ਦੇ ਸਕਦੀ, ਤਾਂ GPUs ਨਿੱਕੀ-ਨਿੱਕੀ ਢੰਗ ਨਾਲ ਨਹੀਂ ਸੁਸਤ ਹੁੰਦੇ—ਉਹ ਅਕਸਰ ਆਈਡਲ ਰਹਿੰਦੇ ਹਨ ਅਤੇ ਤੁਸੀਂ ਪਾਵਰ, ਰੈਕ ਸਪੇਸ ਅਤੇ ਐਕਸੈਲਰੇਟਰਾਂ ਲਈ ਭੁਗਤਾਨ ਕਰਦੇ ਰਹਿੰਦੇ ਹੋ।

ਤੇਜ਼ ਨਕਸ਼ਾ: ਮੁੱਖ ਪਰਤਾਂ

ਉੱਚ-ਸਤਰ ਤੇ, ਇੱਕ ਏਆਈ ਸਰਵਰ ਦਾ ਮੈਮੋਰੀ ਸਟੈਕ ਕੁਝ ਇਸ ਤਰ੍ਹਾਂ ਹੁੰਦਾ ਹੈ:

GPU / accelerator compute: ਮੈਟ੍ਰਿਕਸ ਗਣਿੱਤੀ ਕਰਨ ਵਾਲੇ ਕੋਰ।
GPU ਪੈਕੇਜ 'ਤੇ HBM ਸਟੈਕ: ਬਹੁਤ ਉੱਚ bandwidth ਮੈਮੋਰੀ ਜੋ compute ਦੇ ਬਹੁਤ ਨੇੜੇ ਬੈਠੀ ਹੁੰਦੀ ਹੈ।
ਸਿਸਟਮ ਮੈਮੋਰੀ (DDR5) CPU ਪਾਸੇ: ਵੱਡੀ ਸਮਰੱਥਾ, ਹਰ ਡਿਵਾਈਸ ਤੇ HBM ਨਾਲੋਂ ਘੱਟ bandwidth, ਕਈ ਕੰਮਾਂ ਵਿਚ ਸਾਂਝੀ।
ਸਟੋਰੇਜ (NVMe, ਨੈਟਵਰਕਡ ਸਟੋਰੇਜ): GB ਪ੍ਰਤੀ ਸਭ ਤੋਂ ਸਸਤੀ, ਸਭ ਤੋਂ ਵੱਧ ਲੇਟੈਂਸੀ; ਡਾਟਾਸੈੱਟ, ਚੇਕਪੌਇੰਟ ਅਤੇ ਲਾਗਸ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਹੈ।

ਮੁੱਖ ਵਿਚਾਰ: GPU ਤੋਂ ਹਟਕੇ ਹਰ ਇੱਕ ਕਦਮ ਲੇਟੈਂਸੀ ਵਧਾਂਦਾ ਹੈ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ bandwidth ਘਟਾਉਂਦਾ ਹੈ।

ਕਿੱਥੇ ਬੋਤਲ-ਨੈਕ ਬਨਦੇ ਹਨ: ਟ੍ਰੇਨਿੰਗ ਬਣਾਮ ਇੰਫਰੰਸ

ਟ੍ਰੇਨਿੰਗ ਆਮ ਤੌਰ 'ਤੇ GPU ਦੇ ਅੰਦਰ bandwidth ਅਤੇ ਸਮਰੱਥਾ 'ਤੇ ਦਬਾਅ ਪਾਂਦਾ ਹੈ: ਵੱਡੇ ਮਾਡਲ, ਵੱਡੀਆਂ ਐਕਟੀਵੇਸ਼ਨ, ਬਹੁਤ ਪੜ੍ਹਨ/ਲਿਖਣ। ਜੇ ਮਾਡਲ ਜਾਂ ਬੈਚ ਕਨਫਿਗਰੇਸ਼ਨ ਮੈਮੋਰੀ ਨਾਲ ਸੀਮਿਤ ਹਨ, ਤਾਂ ਅਕਸਰ ਤੁਸੀਂ ਘੱਟ GPU ਉਪਯੋਗਿਤਾ ਵੇਖੋਗੇ ਭਾਵੇਂ compute ਲੱਗਦਾ "ਪ੍ਰਯਾਚਾਰਕ" ਹੋਵੇ।

ਇੰਫਰੰਸ ਵੱਖਰੀ ਤਰ੍ਹਾਂ ਦਿੱਖ ਸਕਦੀ ਹੈ। ਕੁਝ ਵਰਕਲੋਡ ਮੈਮੋਰੀ-бੈਂਡਵਿਡਥ ਖਪਾਉਂਦੇ ਹਨ (ਲੰਬੇ context ਵਾਲੇ LLMs), ਜਦੋਂਕਿ ਹੋਰ ਲੇਟੈਂਸੀ-ਸੰਵੇਦਨਸ਼ੀਲ ਹੁੰਦੇ ਹਨ (ਛੋਟੇ ਮਾਡਲ, ਬਹੁਤ ਸਾਰੀਆਂ ਬੇਨਤੀਆਂ)। ਇੰਫਰੰਸ ਅਕਸਰ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਤੇਜ਼ੀ ਨਾਲ ਡੇਟਾ GPU ਮੈਮੋਰੀ ਵਿੱਚ ਸਟੇਜ ਹੁੰਦਾ ਹੈ ਅਤੇ ਸਰਵਰ ਕਿੰਨਾ ਚੰਗਾ ਬਹੁਤ ਸਾਰੀਆਂ ਇਕੱਠੀਆਂ ਬੇਨਤੀਆਂ ਦੇ ਦੌਰਾਨ GPU ਨੂੰ ਭਰਦਾ ਹੈ।

ਸਰਲ ਮਾਨਸਿਕ ਮਾਡਲ: ਕੋਰਾਂ ਨੂੰ ਖਿਲਾਉਣਾ ਬਣਾਮ ਕੋਰ ਜੋੜਨਾ

ਹੋਰ GPU compute ਜੋੜਨਾ ਹੋਰ ਕੈਸ਼ਿਯਰਾਂ ਜੋੜਨ ਵਾਂਗ ਹੈ। ਜੇ "ਸਟਾਕ ਰੂਮ" (ਮੈਮੋਰੀ ਸਬਸਿਸਟਮ) ਚੀਜ਼ਾਂ ਤੇਜ਼ੀ ਨਾਲ ਨਹੀਂ ਪਹੁੰਚਾ ਰਹੀ, ਤਾਂ ਵਧੇਰੇ ਕੈਸ਼ਿਯਰ throughput ਨਹੀਂ ਵਧਾਉਂਦੇ।

ਬੈਂਡਵਿਡਥ ਦੀ ਕਮੀ ਮਹਿੰਗੀਆਂ ਹੈਂ ਕਿਉਂਕਿ ਇਹ ਸਿਸਟਮ ਦੇ ਸਭ ਤੋਂ ਮਹਿੰਗੇ ਹਿੱਸਿਆਂ—GPU ਘੰਟੇ, ਪਾਵਰ ਹੈਡਰੂਮ, ਅਤੇ ਕਲਸਟਰ ਪੁੰਜ—ਨੂੰ ਵੇਖਦੇ ਹੋਏ ਸੁਨਾਹਰੀ ਸਮਾਂ ਬਰਬਾਦ ਕਰਦੀ ਹੈ। ਇਸ ਲਈ ਖਰੀਦਦਾਰਾਂ ਨੂੰ ਮੈਮੋਰੀ ਸਟੈਕ ਨੂੰ ਇੱਕ ਪ੍ਰਣਾਲੀ ਵਜੋਂ ਮੁਲਾਂਕਣ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ਅਲੱਗ-ਅਲੱਗ ਲਾਇਨਾਂ ਵਜੋਂ ਨਹੀਂ।

HBM ਬੇਸਿਕਸ: ਇਹ ਅਮੂਮਨ DRAM ਤੋਂ ਕਿਵੇਂ ਵੱਖਰਾ ਹੈ

High Bandwidth Memory (HBM) ਅਜੇ ਵੀ "DRAM" ਹੈ, ਪਰ ਇਹ DDR5 ਸਟਿਕਾਂ ਵਰਗੇ ਆਮ DRAM ਨਾਲ ਬਹੁਤ ਵੱਖਰੀ ਤਰ੍ਹਾਂ ਬਣੀ ਅਤੇ ਜੋੜੀ ਜਾਂਦੀ ਹੈ। ਲਕੜੀ ਦਾ ਮਕਸਦ ਸਭ ਤੋਂ ਘੱਟ ਲਾਗਤ 'ਤੇ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਰੱਥਾ ਨਹੀਂ—ਇਹ ਬਹੁਤ ਉੱਚ memory bandwidth ਇੱਕ ਛੋਟੀ ਫੁੱਟਪ੍ਰਿੰਟ ਵਿੱਚ, accelerator ਦੇ ਨੇੜੇ, ਮੁਹੱਈਆ ਕਰਵਾਉਣਾ ਹੈ।

HBM ਕਿਹੜੀਆਂ ਗੱਲਾਂ ਲਈ ਅਨੁਕੂਲ ਹੈ

HBM ਕਈ DRAM ਡਾਈਜ਼ ਨੂੰ ਉੱਲ ਦਿਸ਼ਾ ਵਿੱਚ ਸਟੈਕ ਕਰਦਾ ਹੈ (ਇਕ ਲੇਅਰ ਕੇਕ ਵਾਂਗ) ਅਤੇ TSVs ਵਰਗੀਆਂ ਸੰਘਣੀ vertical connections ਵਰਤਦਾ ਹੈ ਤਾਂ ਜੋ ਲੇਅਰਾਂ ਵਿੱਚ ਡੇਟਾ ਚਲ ਸਕੇ। DDR ਵਰਗੇ ਸੰਗੀਨ, ਉੱਚ-ਗਤੀ ਚੈਨਲ 'ਤੇ ਨਿਰਭਰ ਹੋਣ ਦੀ ਬਜਾਏ, HBM ਇਕ ਬਹੁਤ ਚੌੜੀ ਇੰਟਰਫੇਸ ਵਰਤਦਾ ਹੈ। ਇਸ ਚੌੜਾਈ ਨਾਲ ਤੁਹਾਨੂੰ ਇੱਕ package ਪ੍ਰਤੀ ਬਹੁਤ ਵੱਡਾ bandwidth ਮਿਲਦਾ ਹੈ ਬਿਨਾਂ ਅਤਿਅਧਿਕ ਘੜੀ ਦਰਾਂ ਦੀ ਲੋੜ ਤੋਂ।

ਅਮਲ ਵਿੱਚ, ਇਹ "ਚੌੜਾ-ਅਤੇ-ਨੇੜੇ" ਡਿਜ਼ਾਇਨ ਸੂਚਨਾ ਸਿਗਨਲਾਂ ਦੀ ਦੂਰੀ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ GPU/accelerator ਨੂੰ ਡੇਟਾ ਇੰਨਾ ਤੇਜ਼ੀ ਨਾਲ ਖਿੱਚਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਕਿ ਉਸ ਦੇ compute ਯੂਨਿਟ ਬਿਜੀ ਰਹਿ ਸਕਣ।

ਐਕਸੈਲਰੇਟਰਾਂ ਅਤੇ ਵੱਡੇ ਮਾਡਲਾਂ ਲਈ HBM ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਸਰਵਿੰਗ ਵੱਡੇ ਮਾਡਲਾਂ ਲਈ ਤੇਰਬ-ਤੇਰਬ ਟੈਂਸਰਾਂ ਨੂੰ ਇੱਕ-ਵਾਰ ਫਿਰ-ਫਿਰ ਕੇ ਮੈਮੋਰੀ ਵਿੱਚ ਲਿਜਾਇਆ ਜਾਂਦਾ ਹੈ। ਜੇ compute ਮੈਮੋਰੀ ਦੀ ਉਡੀਕ ਕਰ ਰਿਹਾ ਹੈ, ਤਾਂ ਵਧੇਰੇ GPU ਕੋਰ ਜੋੜਨ ਨਾਲ ਬਹੁਤ ਫ਼ਾਇਦਾ ਨਹੀਂ। HBM ਇਸ ਬੋਤਲ-ਨੈਕ ਨੂੰ ਘਟਾਉਣ ਲਈ ਡਿਜ਼ਾਇਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਇਸ ਲਈ ਇਹ ਆਧੁਨਿਕ AI accelerators 'ਤੇ ਮਿਆਰੀ ਹੈ।

ਖਰੀਦਦਾਰਾਂ ਨੂੰ ਕਿਹੜੀਆਂ ਸੀਮਾਵਾਂ ਸਮਝਣੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ

HBM ਪ੍ਰਦਰਸ਼ਨ ਮੁਫ਼ਤ ਨਹੀਂ ਆਉਂਦਾ। compute package ਨਾਲ ਤੰਗ ਇੰਟਿਗ੍ਰੇਸ਼ਨ ਹੇਠਾਂ ਹਕੀਕਤਨ ਘਟਨਾਵਾਂ ਬਣਾਉਂਦੀ ਹੈ:

ਪਾਵਰ ਅਤੇ ਗਰਮੀ (ਬੈਂਡਵਿਡਥ ਗਰਮੀ ਬਣਾਉਂਦਾ ਹੈ; ਕੁਲਿੰਗ ਨੂੰ ਇਸ ਨਾਲ ਪਾਲਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ)
ਇਲਾਕਾ ਅਤੇ ਪੈਕੇਜਿੰਗ ਜਟਿਲਤਾ (ਪੈਕੇਜ ਤੇ ਸਪੇਸ ਕੀਮਤੀ ਹੁੰਦੀ ਹੈ)
ਯੀਲਡ ਅਤੇ ਸਪਲਾਈ (ਸਟੈਕਿੰਗ ਅਤੇ ਉੱਚ ਪੈਕੇਜਿੰਗ ਯੀਲਡ ਘਟਾ ਸਕਦੇ ਹਨ ਅਤੇ ਉਪਲਬਧਤਾ ਸੀਮਿਤ ਕਰ ਸਕਦੇ ਹਨ)

ਕਿੱਥੇ HBM ਘੱਟ ਮਦਦ ਕਰਦੀ ਹੈ

HBM ਉਨ੍ਹਾਂ ਹਾਲਾਤਾਂ ਵਿੱਚ ਚਮਕਦਾ ਹੈ ਜਿੱਥੇ bandwidth ਸੀਮਿਤ ਹੈ। ਪਰ capacity-heavy workloads—ਵੱਡੇ ਇਨ-ਮੇਮੋਰੀ ਡੇਟਾਬੇਸ, ਵੱਡੇ CPU-ਪਾਸੇ caches, ਜਾਂ ਉਹ ਕੰਮ ਜੋ RAM ਦੀ ਬਹੁਤ ਲੋੜ ਰੱਖਦੇ ਹਨ—ਲਈ HBM ਵਧਾਉਣਾ ਅਕਸਰ DDR5 ਵਧਾਉਣ ਜਾਂ ਡੇਟਾ ਪਲੇਸਮੈਂਟ ਨੂੰ ਦੁਬਾਰਾ ਸੋਚਣ ਨਾਲੋਂ ਘੱਟ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਹਿੰਦਾ ਹੈ।

ਖਰੀਦਦਾਰਾਂ ਲਈ SK hynix ਦੀ ਨੇਤ੍ਰਿਤਵਤਾ ਦਾ ਮਤਲਬ (ਹਾਈਪ ਬਿਨਾਂ)

"ਨੀਤ੍ਰਿਤਵ" ਇੱਕ ਮਾਰਕੀਟਿੰਗ ਸ਼ਬਦ ਵਾਂਗ ਸੁਰਖੀਆਂ ਦੇ ਸਕਦਾ ਹੈ, ਪਰ ਏਆਈ ਸਰਵਰ ਖਰੀਦਦਾਰਾਂ ਲਈ ਇਹ ਅਕਸਰ ਮਾਪਯੋਗ ਤਰੀਕਿਆਂ ਵਿੱਚ ਨਜਰ ਆਉਂਦਾ ਹੈ: ਕੀ ਵਾਸਤਵ ਵਿੱਚ ਵੋਲਿਊਮ ਵਿੱਚ ਭੇਜਿਆ ਜਾ ਰਿਹਾ ਹੈ, ਰੋਡਮੈਪ ਕਿੰਨਾ ਨਿਯਮਤ ਤਰੀਕੇ ਨਾਲ ਦੇ ਦਿੱਤਾ ਜਾ ਰਿਹਾ ਹੈ, ਅਤੇ ਹਾਰਡਵੇਅਰ ਵਿਕਸਿਤ ਹੋਣ ਤੋਂ ਬਾਅਦ ਭਾਗ ਕਿਵੇਂ ਰਵੱਈਆ ਕਰਦੇ ਹਨ।

ਨੇਤ੍ਰਿਤਵਤਾ ਅਮਲ ਵਿੱਚ ਕਿਵੇਂ ਨਜ਼ਰ ਆਉਂਦੀ ਹੈ

HBM ਉਤਪਾਦਾਂ ਲਈ ਜਿਵੇਂ HBM3E, ਨੇਤ੍ਰਿਤਵਤਾ ਦਾ ਅਰਥ ਹੁੰਦਾ ਹੈ ਕਿ ਇੱਕ ਵਿਕਰੇਤਾ ਉੱਚ-ਵਾਲੀਅਮ ਡਿਲੀਵਰੀਜ਼, ਟੀਚੇ ਵਾਲੇ ਸਪੀਡ ਗਰੇਡ ਅਤੇ ਸਮਰੱਥਾਵਾਂ 'ਤੇ ਠੀਕ ਢੰਗ ਨਾਲ ਜਾਰੀ ਰੱਖ ਸਕਦਾ ਹੈ। ਰੋਡਮੈਪ ਐਕਜ਼ੀਕਿਊਸ਼ਨ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ accelerator ਜਨਰੇਸ਼ਨਾਂ ਤੇਜ਼ੀ ਨਾਲ ਬਦਲਦੇ ਹਨ; ਜੇ ਮੈਮੋਰੀ ਰੋਡਮੈਪ ਡੇਲੈ ਹੋ ਜਾਏ ਤਾਂ ਤੁਹਾਡੇ ਪਲੇਟਫਾਰਮ ਵਿਕਲਪ ਘੱਟ ਹੋ ਜਾਂਦੇ ਹਨ ਅਤੇ ਕੀਮਤਾਂ ਉੱਤੇ ਦਬਾਅ ਪੈਂਦਾ ਹੈ।

ਇਸ ਵਿੱਚ ਓਪਰੇਸ਼ਨਲ ਪਰਿਪੱਕਤਾ ਵੀ ਸ਼ਾਮਿਲ ਹੈ: ਡਾਕੂਮੈਂਟੇਸ਼ਨ ਦੀ ਗੁਣਵੱਤਾ, ਟ੍ਰੇਸੇਬਿਲਿਟੀ, ਅਤੇ ਫ਼ੀਲਡ ਵਿੱਚ ਕੋਈ ਸਮੱਸਿਆ ਆਉਣ 'ਤੇ ਹੱਲ कितਨੀ ਤੇਜ਼ੀ ਨਾਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

binning consistency ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ uptime ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਿਤ ਕਰਦੇ ਹਨ

ਵੱਡੇ ਏਆਈ ਕਲਸਟਰ ਇੱਕ ਚਿਪ ਥੋੜ੍ਹੀ ਢੰਗ ਨਾਲ ਧੀਰਜ ਨਾਲ ਨਹੀਂ ਫੇਲਦੇ; ਉਹ ਇਸ ਲਈ ਫੇਲ ਹੁੰਦੇ ਹਨ ਕਿ ਫ਼ਰਕਵਾਰਤਾ ਕਾਰਨ ਆਪਰੇਸ਼ਨਲ ਰੁਕਾਵਟ ਬਣ ਜਾਦੀ ਹੈ। ਲਗਾਤਾਰ binning (ਜਿਸ ਵਿੱਚ ਹਿੱਸਿਆਂ ਨੂੰ performance ਅਤੇ power "ਬਕਟਾਂ" ਵਿੱਚ ਵਰਗੀਕਰਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ) ਇਸ ਗੱਲ ਦੇ ਮੌਕੇ ਘਟਾਉਂਦੀ ਹੈ ਕਿ ਕੁਝ ਨੋਡ ਜ਼ਿਆਦਾ ਗਰਮ ਚਲਣ, ਜਲਦੀ throttle ਹੋਣ, ਜਾਂ ਵੱਖਰੇ ਟਿਊਨਿੰਗ ਦੀ ਲੋੜ ਰੱਖਣ।

ਭਰੋਸੇਯੋਗਤਾ ਹੋਰ ਸਿਧੀ ਗੱਲ ਹੈ: ਘੱਟ initial failures ਦਾ ਅਰਥ ਹੈ ਘੱਟ GPU swap, ਘੱਟ ਨਿਮਰ ਸਰਵਿਸ ਵਿੰਡੋ, ਅਤੇ ਘੱਟ "ਚੁੱਪ" throughput ਘਟਿਆ। ਕਲਸਟਰ ਸਕੇਲ 'ਤੇ, ਸਰਗਰਮੀ ਵਿੱਚ ਥੋੜ੍ਹਾ ਜਿਹਾ ਫੇਰ ਵੀ availability ਅਤੇ on-call ਭਾਰ 'ਤੇ ਮਹੱਤਵਪੂਰਨ ਅਸਰ ਪਾ ਸਕਦਾ ਹੈ।

qualification cycle ਨਿਰਧਾਰਿਤ ਕਰਦੇ ਹਨ ਕਿ ਤੁਸੀਂ ਕੀ deploy ਕਰ ਸਕਦੇ ਹੋ

ਜ਼ਿਆਦਾਤਰ ਖਰੀਦਦਾਰ ਮੈਮੋਰੀ ਨੂੰ ਅਲੱਗ ਤੌਰ 'ਤੇ deploy ਨਹੀਂ ਕਰਦੇ—ਉਹ validated platforms deploy ਕਰਦੇ ਹਨ। qualification cycles (ਵਿਕਰੇਤਾ + OEM/ODM + accelerator ਵਿਕਰੇਤਾ) ਮਹੀਨਿਆਂ ਲੈ ਸਕਦੇ ਹਨ, ਅਤੇ ਇਹ ਤੈਅ ਕਰਦੇ ਹਨ ਕਿ ਕਿਸ ਮੈਮੋਰੀ SKU ਨੂੰ ਕਿਸ ਸਪੀਡ ਗਰੇਡ, ਥਰਮਲ ਅਤੇ firmware ਸੈਟਿੰਗਾਂ 'ਤੇ ਮਨਜ਼ੂਰ ਕੀਤਾ ਗਿਆ ਹੈ।

ਪ੍ਰਯੋਗਿਕ ਨਤੀਜਾ: ਇੱਕ spec ਸ਼ੀਟ 'ਤੇ ਦਾ "ਸਭ ਤੋਂ ਵਧੀਆ" ਹਿੱਸਾ ਉਸ ਵੇਲੇ ਹੀ ਉਪਯੋਗੀ ਹੈ ਜਦੋਂ ਉਹ ਤੁਹਾਡੇ ਦੁਆਰਾ ਇਸ ਤਿਮਾਹੀ ਵਿੱਚ ਖਰੀਦ ਸਕਣ ਵਾਲੇ ਸਰਵਰਾਂ ਲਈ qualified ਹੋ।

ਖਰੀਦਦਾਰ ਦਾ ਲੈਂਸ: ਉਪਲਬਧਤਾ, ਲੀਡ ਟਾਈਮ, validated platforms

ਚੋਣ ਮੁਲਾਂਕਣ ਕਰਦੇ ਸਮੇਂ ਮੰਗੋ:

ਠੀਕ ਪਾਰਟ ਅਤੇ ਸਪੀਡ ਗਰੇਡ ਮੁਤਾਬਿਕ ਮੌਜੂਦਾ lead times (ਕੇਵਲ "HBM3E ਉਪਲਬਧ" ਨਾ ਕਹੋ)
ਤੁਹਾਡੇ ਟਾਰਗਟ GPU/ਸਰਵਰ ਪਲੇਟਫਾਰਮਾਂ 'ਤੇ validated configurations ਦੇ ਸਬੂਤ
change-control commitments (PCN ਪ੍ਰਕਿਰਿਆ) ਤਾਂ ਜੋ ਆਉਣ ਵਾਲੇ lots ਤੁਹਾਡੀ qualification ਨੂੰ ਹੈਰਾਨ ਨਾ ਕਰਨ

ਇਸ ਨਾਲ ਗੱਲਬਾਤ deployable ਪਰਫਾਰਮੈਂਸ 'ਤੇ ਕੇਂਦਰਿਤ ਰਹੇਗੀ, ਸਿਰਫ਼ ਸਿਰਲੇਖਾਂ 'ਤੇ ਨਹੀਂ।

HBM ਪ੍ਰਦਰਸ਼ਨ: ਬੈਂਡਵਿਡਥ, ਸਮਰੱਥਾ ਅਤੇ ਅਸਲ ਵਰਕਲੋਡ

HBM ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਕਸਰ "ਵਧੀ ਬੈਂਡਵਿਡਥ" ਵਜੋਂ ਸੰਖੇਪ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਪਰ ਖਰੀਦਦਾਰ ਜੋ ਚਾਹੁੰਦੇ ਹਨ ਉਹ throughput ਹੈ: ਕਿੰਨੇ tokens/sec (LLMs) ਜਾਂ images/sec (vision) ਤੁਸੀਂ ਇੱਕ ਮਨਜ਼ੂਰਯੋਗ ਲਾਗਤ 'ਤੇ ਲਗਾਤਾਰ ਚਲਾ ਸਕਦੇ ਹੋ।

ਬੈਂਡਵਿਡਥ ਕਿਵੇਂ tokens/sec (ਜਾਂ images/sec) ਵਿੱਚ ਬਦਲਦੀ ਹੈ

ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਇੰਫਰੰਸ ਵਾਰ-ਵਾਰ ਵਜ਼ਨ ਅਤੇ ਐਕਟੀਵੇਸ਼ਨ ਨੂੰ GPU ਦੇ compute ਯੂਨਿਟਾਂ ਅਤੇ ਮੈਮੋਰੀ ਦੇ ਵਿਚਕਾਰ ਘੁੰਮਾਉਂਦੇ ਹਨ। ਜੇ compute ਤਿਆਰ ਹੈ ਪਰ ਡੇਟਾ ਦੇਰੀ ਨਾਲ ਆਉਂਦਾ ਹੈ, ਤਾਂ ਪਰਫਾਰਮੈਂਸ ਘਟਦਾ ਹੈ।

ਜ਼ਿਆਦਾ HBM bandwidth ਉਹਨਾਂ ਹਾਲਾਤਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਮਦਦ ਕਰਦੀ ਹੈ ਜਦੋਂ ਤੁਹਾਡਾ ਵਰਕਲੋਡ ਮੈਮੋਰੀ-ਬਾਊਂਡ ਹੁੰਦਾ ਹੈ (ਵੱਡੇ ਮਾਡਲ, ਲੰਬੇ context windows, ਅਤੇ ਕੁਝ attention/embedding-ਭਾਰੀ ਰਸਤੇ), ਅੱਤੇ ਉਹਨਾਂ ਹਾਲਾਤਾਂ ਵਿੱਚ ਉੱਚ bandwidth step time ਨੂੰ ਤੇਜ਼ ਕਰ ਸਕਦੀ ਹੈ—ਜਿਸਦਾ ਅਰਥ ਹੈ ਬਿਨਾਂ ਮਾਡਲ ਬਦਲੇ ਹੋਏ ਵੱਧ tokens/sec ਜਾਂ images/sec।

ਕਿੱਥੇ ਬੈਂਡਵਿਡਥ ਦੀਆਂ ਵਾਪਸੀ ਘਟਣ ਲੱਗਦੀਆਂ ਹਨ

ਬੈਂਡਵਿਡਥ ਲਾਭ ਸਦੀਵੀ ਨਹੀਂ ਵਧਦੇ। ਜਦੋਂ ਇੱਕ ਨੌਕਰੀ compute-bound ਹੋ ਜਾਂਦੀ ਹੈ (math units ਸੀਮਿਤ ਹਨ), ਤਾਂ ਵਧੇਰੇ ਮੈਮੋਰੀ bandwidth ਛੋਟੇ ਸੁਧਾਰ ਦਿੰਦੀ ਹੈ। ਤੁਸੀਂ ਇਹ ਮੈਟਰਿਕਸ ਵਿੱਚ ਦੇਖੋਗੇ: ਮੈਮੋਰੀ ਸਟਾਲ ਘੱਟ ਹੋ ਜਾਣਗੇ, ਪਰ ਕੁੱਲ step time ਹੋਰ ਬਿਹਤਰ ਨਹੀਂ ਹੋਵੇਗਾ।

ਇੱਕ ਵਿਵਹਾਰਕ ਨਿਯਮ: ਜੇ ਪ੍ਰੋਫਾਈਲਿੰਗ ਦਿਖਾਂਦਾ ਹੈ ਕਿ ਮੈਮੋਰੀ ਮੁੱਖ ਬੋਤਲ-ਨੈਕ ਨਹੀਂ, ਤਾਂ GPU ਜਨਰੇਸ਼ਨ, kernel ਕੁਸ਼ਲਤਾ, ਬੈਚਿੰਗ ਅਤੇ ਪੈਰੱਲੇਲਿਜ਼ਮ 'ਤੇ ਧਿਆਨ ਦਿਓ, ਨਾ ਕਿ ਸਿਰਫ਼ ਪੀਕ bandwidth ਨੰਬਰਾਂ ਦਾ ਪਿਛਾ ਕਰੋ।

ਸਮਰੱਥਾ ਬਣਾਮ ਬੈਂਡਵਿਡਥ: ਸਾਈਜ਼ਿੰਗ ਟਰੇਡ-ਆਫ

ਬੈਂਡਵਿਡਥ ਗਤੀ ਨੂੰ ਤੇਜ਼ ਕਰਦੀ ਹੈ; ਸਮਰੱਥਾ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਕਿ ਕੀ ਫਿੱਟ ਹੁੰਦਾ ਹੈ।

ਜੇ HBM ਸਮਰੱਥਾ ਬਹੁਤ ਛੋਟੀ ਹੈ, ਤਾਂ ਤੁਹਾਨੂੰ ਛੋਟੀ ਬੈਚਾਂ, ਵੱਧ ਮਾਡਲ ਸ਼ਾਰਡਿੰਗ/ਆਫਲੋਡ, ਜਾਂ ਘੱਟ context length ਨਾਲ ਕੰਮ ਕਰਨਾ ਪੈ ਸਕਦਾ ਹੈ—ਅਕਸਰ throughput ਘਟਾਉਂਦਾ ਅਤੇ ਡਿਪਲੋਇਮੈਂਟ ਨੁੰਹ ਜਟਿਲ ਬਣਾਉਂਦਾ ਹੈ। ਕਈ ਵਾਰ ਥੋੜ੍ਹੀ ਘੱਟ-ਬੈਂਡਵਿਡਥ ਪਰ ਕਾਫੀ ਸਮਰੱਥਾ ਵਾਲੀ ਕਨਫਿਗਰੇਸ਼ਨ ਇੱਕ ਤੇਜ਼ ਪਰ ਘੁੱਟੀ ਹੋਈ سیਟਅਪ ਨਾਲੋਂ ਵਧੀਆ ਨਤੀਜੇ ਦਿੰਦੀ ਹੈ।

ਟਰੈਕ ਕਰਨ-ਯੋਗ ਮੈਟਰਿਕਸ

ਕੁਝ ਇੰਡੀਕੇਟਰ ਕਸੂਤੀ ਤੌਰ 'ਤੇ ਟੈਸਟਾਂ ਵਿੱਚ ਲਗਾਤਾਰ ਟਰੈਕ ਕਰੋ:

Step time / latency (ਆਉਟਕਮ ਮੈਟਰਿਕ)
HBM utilization / achieved bandwidth (ਪੀਕ ਦੇ ਮੁਕਾਬਲੇ)
Memory stall / “not selected” cycles (ਕੀ ਤੁਸੀਂ HBM ਦੀ ਉਡੀਕ ਕਰ ਰਹੇ ਹੋ?)
SM/compute utilization (ਕੀ ਤੁਸੀਂ compute-bound ਹੋ?)

ਇਹ ਦੱਸਦੇ ਹਨ ਕਿ HBM bandwidth, HBM ਸਮਰੱਥਾ, ਜਾਂ ਕੁਝ ਹੋਰ ਵਾਸਤਵ ਵਿੱਚ ਸੀਮਿਤ ਕਰ ਰਿਹਾ ਹੈ।

ਪੈਕੇਜਿੰਗ ਨਵੀਨਤਾ: HBM ਦੇ ਪਿੱਛੇ ਛੁਪੀ ਹੋਈ ਚਾਬੀ

Run a node comparison report

ਦੋ ਸਰਵਰ ਕਨਫਿਗਸ ਦੀ ਪਾਸੇ-ਪਾਸੇ ਤੁਲਨਾ ਕਰੋ ਅਤੇ ਪ੍ਰੋਕਿਊਰਮੈਂਟ ਲਈ ਨਤੀਜੇ ਸੇਵ ਕਰੋ।

ਹੁਣ ਬਣਾਓ

HBM "ਕੇਵਲ ਤੇਜ਼ DRAM" ਨਹੀਂ ਹੈ। ਇਸ ਦੇ ਵਿਵਹਾਰ ਦੇ ਪਿੱਛੇ ਵੱਡੀ ਭੂਮਿਕਾ ਪੈकेਜਿੰਗ ਦੀ ਹੈ: ਕਿਵੇਂ ਕਈ ਮੈਮੋਰੀ ਡਾਈਜ਼ ਸਟੈਕ ਕੀਤੇ ਜਾਂਦੇ ਹਨ ਅਤੇ ਕਿਵੇਂ ਉਹ stack GPU ਨਾਲ ਜੋੜੇ ਜਾਂਦੇ ਹਨ। ਇਹ ਉਹ ਸ਼ਾਂਤ ਇੰਜੀਨੀਅਰਿੰਗ ਹੈ ਜੋ ਕੱਚੀ ਸਿਲਿਕਨ ਨੂੰ ਵਰਤਣਯੋਗ bandwidth ਵਿੱਚ ਬਦਲਦੀ ਹੈ।

ਪੈਕੇਜਿੰਗ HBM ਲਈ ਕੇਂਦਰੀ ਕਿਉਂ ਹੈ

HBM ਉੱਚ bandwidth ਇਸ ਤਰ੍ਹਾਂ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ ਕਿ ਮੈਮੋਰੀ ਨੂੰ compute ਦੀ ਡਾਇ ਦੇ ਬਹੁਤ ਨੇੜੇ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇੱਕ ਬਹੁਤ-ਚੌੜੀ ਇੰਟਰਫੇਸ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। ਲੰਮੇ trace motherboard 'ਤੇ ਟਰਾਂਜ਼ਮਿਸ਼ਨ ਦੀ ਬਜਾਏ, HBM GPU ਅਤੇ ਮੈਮੋਰੀ ਸਟੈਕ ਵਿਚਕਾਰ ਬਹੁਤ ਛੋਟੀ ਕਨੈਕਸ਼ਨਾਂ ਵਰਤਦਾ ਹੈ। ਛੋਟੀ ਦੂਰੀ ਆਮ ਤੌਰ 'ਤੇ ਸਫ਼ ਸਿਗਨਲ, ਹਰ ਬਿਟ 'ਤੇ ਘੱਟ energy ਅਤੇ ਗਤੀ 'ਤੇ ਘੱਟ ਸਮਝੌਤਾ ਦਿੰਦੀ ਹੈ।

ਆਮ HBM ਸੈਟਅਪ ਇੱਕ ਮੈਮੋਰੀ ਡਾਈਜ਼ ਦੀ ਸਟੈਕ ਹੈ ਜੋ GPU (ਜਾਂ accelerator) ਡਾਈ ਦੇ ਬगल ਵਿੱਚ ਬੈਠੀ ਹੋਈ ਹੈ, ਇੱਕ ਵਿਸ਼ੇਸ਼ਤਾਂ-ਪੁੱਟੀ base die ਅਤੇ ਇੱਕ high-density substrate structure ਰਾਹੀਂ ਜੁੜੀ ਹੋਈ। ਪੈਕੇਜੀਂਗ ਹੀ ਉਹ ਗੱਲ ਬਣਾਉਂਦੀ ਹੈ ਜੋ ਉਸ ਸੰਘਣੇ "ਬਾਈ-ਸਾਈਡ-ਬਾਈਸਾਈਡ" ਲੇਆਉਟ ਨੂੰ ਨਿਰਮਾਣਯੋਗ ਬਣਾਉਂਦੀ ਹੈ।

TSVs, micro-bumps, ਅਤੇ interposers—ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ

TSVs (Through-Silicon Vias) ਛੋਟੇ ਉੱਠਣ-ਉਤਰਣ ਵਾਲੇ ਰਸਤੇ ਹਨ ਜੋ ਮੈਮੋਰੀ ਡਾਈ ਵਿੱਚ ਖੋਦੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਜੋ ਸਿਗਨਲ ਸਟੈਕ ਦੇ ਉੱਪਰ-ਥੱਲੇ ਚੱਲ ਸਕਣ। ਇਹ HBM ਨੂੰ ਕਈ ਡਾਈਜ਼ ਸਟੈਕ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਿੰਦੇ ਹਨ ਅਤੇ ਇੱਕ ਬਹੁਤ ਚੌੜੀ ਮੈਮੋਰੀ ਇੰਟਰਫੇਸ ਵਰਗ ਬਣਾਉਂਦੇ ਹਨ।
Micro-bumps ਬਹੁਤ ਛੋਟੀਆਂ solder ਕਨੈਕਸ਼ਨ ਹਨ ਜੋ ਡਾਈਜ਼ ਨੂੰ ਇਕੱਠੇ ਜੋੜਦੀਆਂ ਹਨ (ਅਤੇ ਸਟੈਕ ਨੂੰ ਅਗਲੇ ਲੇਅਰ ਨਾਲ ਜੋੜਦੀਆਂ ਹਨ)। ਉਹ ਉੱਚ-ਘਣਤਾ ਵਾਲੀ ਵਾਇਰਿੰਗ ਇਕ ਛੋਟੀ ਜਗ੍ਹਾ ਉੱਤੇ ਬਣਾਉਂਦੀਆਂ ਹਨ—ਬੈਂਡਵਿਡਥ ਲਈ ਵਧੀਆ, ਪਰ alignment ਅਤੇ ਗੁਣਵੱਤਾ ਨਿਯੰਤਰਣ ਲਈ ਡਿਮਾਂਡਿੰਗ।
Interposers ਇਕ ਉੱਚ-ਸਟੀਕਤਾ "ਰੂਟਿੰਗ ਲੇਅਰ" ਵਾਂਗ ਹਨ ਜੋ GPU ਅਤੇ HBM ਸਟੈਕਾਂ ਦੇ ਵਿਚਕਾਰ ਬੈਠੇ ਹੁੰਦੇ ਹਨ, ਕਈ ਛੋਟੀਆਂ, ਪੈਰਾਲਲ ਕਨੈਕਸ਼ਨਾਂ ਮੁਹੱਈਆ ਕਰਵਾਉਂਦੇ ਹਨ। ਕੁਝ ਡਿਜ਼ਾਈਨਾਂ ਸਿਲਿਕਨ interposers ਵਰਤਦੀਆਂ ਹਨ; ਦੂਜੇ ਆਧੁਨਿਕ ਆਰਗੈਨਿਕ ਵਿਕਲਪ। ਮਕਸਦ ਇੱਕੋ ਹੈ: ਬਹੁਤ ਸਾਰੀਆਂ ਤਾਰਾਂ, ਬਹੁਤ ਛੋਟੀ।

ਥਰਮਲ, ਸਿਗਨਲ ਇੰਟੀਗ੍ਰਿਟੀ, ਅਤੇ yield ਦੀ ਲਾਗਤ

ਜ਼ਿਆਦਾ ਘਣਤਾ ਵਾਲੀ ਪੈਕੇਜਿੰਗ ਥਰਮਲ coupling ਵਧਾਉਂਦੀ ਹੈ: GPU ਅਤੇ ਮੈਮੋਰੀ ਸਟੈਕ ਇੱਕ-ਦੂਜੇ ਨੂੰ ਗਰਮ ਕਰਦੇ ਹਨ, ਅਤੇ ਹੌਟ-ਸਪੌਟ sustained throughput ਨੂੰ ਘਟਾ ਸਕਦੇ ਹਨ ਜੇ ਕੁਲਿੰਗ ਕਾਫੀ ਨਹੀਂ। ਪੈਕੇਜਿੰਗ ਚੋਣਾਂ ਸਿਗਨਲ ਇੰਟੀਗ੍ਰਿਟੀ ਨੂੰ ਵੀ ਪ੍ਰਭਾਵਤ ਕਰਦੀਆਂ ਹਨ (ਬਿਜਲੀ ਸਿਗਨਲ ਕਿੰਨੇ ਸਾਫ਼ ਰਹਿੰਦੇ ਹਨ)। ਛੋਟੀ interconnects ਮਦਦ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਸਿਰਫ਼ ਜੇ ਸਮੱਗਰੀ, alignment, ਅਤੇ ਪਾਵਰ ਡਿਲਿਵਰੀ ਕੰਟਰੋਲ ਵਿੱਚ ਹੋਣ।

ਅੰਤ ਵਿੱਚ, ਪੈਕੇਜਿੰਗ ਗੁਣਵੱਤਾ yield ਨੂੰ ਚਲਾਉਂਦੀ ਹੈ: ਜੇ ਕੋਈ ਸਟੈਕ, ਇੰਟਰਪੋਜਰ ਕਨੈਕਸ਼ਨ, ਜਾਂ ਬੰਪ ਐਰੇ ਫੇਲ ਕਰ ਜਾਏ, ਤਾਂ ਤੁਸੀਂ ਇੱਕ ਮਹਿੰਗੀ ਅਸੈਂਬਲ ਕੀਤੀ ਇਕਾਈ ਗਵਾ ਸਕਦੇ ਹੋ—ਕੇਵਲ ਇੱਕ ਡਾਈ ਨਹੀਂ। ਇਸ ਲਈ ਪੈਕੇਜਿੰਗ ਦੀ ਪਰਿਪੱਕਤਾ ਹਕੀਕਤ ਵਿੱਚ HBM ਦੀ ਕੀਮਤ 'ਤੇ ਉਤਨੇ ਹੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋ ਸਕਦੀ ਹੈ ਜਿੰਨੀ ਕਿ ਮੈਮੋਰੀ ਚਿੱਪਸ ਖ਼ੁਦ।

DDR5 ਏਆਈ-ਯੁੱਗ ਸਰਵਰਾਂ ਵਿੱਚ: ਦੂਜਾ ਮੈਮੋਰੀ ਬਜੱਟ

ਲੋਕ ਜਦੋਂ ਏਆਈ ਸਰਵਰਾਂ ਬਾਰੇ ਸੋਚਦੇ ਹਨ, ਧਿਆਨ ਤੁਰੰਤ GPU ਮੈਮੋਰੀ (HBM) ਅਤੇ ਐਕਸੈਲਰੇਟਰ ਪਰਦਰਸ਼ਨ ਤੇ ਹੁੰਦਾ ਹੈ। ਪਰ DDR5 ਅਜੇ ਵੀ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ ਕਿ ਬਾਕੀ ਸਿਸਟਮ ਉਹਨਾਂ ਐਕਸੈਲਰੇਟਰਾਂ ਨੂੰ ਭਰ ਸਕਦਾ ਹੈ ਜਾਂ ਨਹੀਂ—ਅਤੇ ਕਿ ਸਰਵਰ ਸਕੇਲ 'ਤੇ ਚਲਾਉਂਦੇ ਸਮੇਂ ਸੁਖਦ ਜਾਂ ਦਰਦਨਾਕ ਹੋਵੇਗਾ।

DDR5 ਕਿੱਥੇ ਅਹਿਮ ਹੈ

DDR5 ਪ੍ਰਮੁੱਖ ਤੌਰ 'ਤੇ CPU-ਜੁੜੀ ਮੈਮੋਰੀ ਹੈ। ਇਹ "ਟ੍ਰੇਨਿੰਗ/ਇੰਫਰੰਸ ਦੇ ਆਲੇ-ਦੁਆਲੇ" ਕੰਮ ਨੂੰ ਸੰਭਾਲਦੀ ਹੈ: ਡੇਟਾ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ, ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ, ਫੀਚਰ ਇੰਜੀਨਰੀਅਰਿੰਗ, caching, ETL pipeline, shard metadata, ਅਤੇ ਕੰਟਰੋਲ ਪਲੇਨ (schedulers, storage clients, monitoring agents)। ਜੇ DDR5 ਘੱਟ ਹੈ, CPUs ਮੈਮੋਰੀ ਦੀ ਉਡੀਕ ਕਰਨਗੇ ਜਾਂ ਡਿਸਕ ਤੇ paging ਕਰਨਗੇ, ਅਤੇ ਮਹਿੰਗੇ GPUs ਕਦਮਾਂ ਦਰਮਿਆਨ ਆਈਡਲ ਰਹਿਣਗੇ।

DDR5 ਸਮਰੱਥਾ ਬਨਾਮ ਐਕਸੈਲਰੇਟਰ ਲੋੜਾਂ ਦਾ ਸੰਤੁਲਨ

ਇੱਕ ਪ੍ਰਯੋਗਿਕ ਤਰੀਕਾ DDR5 ਨੂੰ ਤੁਹਾਡਾ ਸਟੇਜਿੰਗ ਅਤੇ ਆਰਕਿਸਟ੍ਰੇਸ਼ਨ ਬਜੱਟ ਸਮਝਣਾ ਹੈ। ਜੇ ਤੁਹਾਡਾ ਵਰਕਲੋਡ ਤੇਜ਼ ਸਟੋਰੇਜ ਤੋਂ ਸਿੱਧਾ GPUs ਤਕ ਸੁੱਚੇ ਬੈਚ ਪ੍ਰਵਾਹਿਤ ਕਰਦਾ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਘੱਟ ਪਰ ਤੇਜ਼ DIMMs ਨੂੰ ਤਰਜੀਹ ਦੇ ਸਕਦੇ ਹੋ। ਜੇ ਤੁਸੀਂ ਭਾਰੀ preprocessing, ਹੋਸਟ-ਸਾਈਡ caching, ਜਾਂ ਹਰ ਨੋਡ 'ਤੇ ਕਈ ਸੇਵਾਵਾਂ ਚਲਾਉਂਦੇ ਹੋ, ਤਾਂ ਸਮਰੱਥਾ ਹੱਦ ਬਣ ਜਾਂਦੀ ਹੈ।

ਇਹ ਸੰਤੁਲਨ accelerator ਮੈਮੋਰੀ 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦਾ ਹੈ: ਜੇ ਤੁਹਾਡੇ ਮਾਡਲ HBM ਸੀਮਾਵਾਂ ਦੇ ਨੇੜੇ ਹਨ, ਤਾਂ ਤੁਸੀਂ ਉਹ ਤਕਨੀਕਾਂ ਵਰਤੋਂਗੇ ਜੋ CPU ਮੈਮੋਰੀ ਤੇ ਦਬਾਅ ਵਧਾਉਂਦੀਆਂ ਹਨ।

ਡੀੰਸ DIMM ਕੰਫਿਗਸ ਨਾਲ ਪਾਵਰ ਅਤੇ ਥਰਮਲ

ਹਰ ਸਲੱਟ ਭਰਨ ਦੇ ਨਾਲ ਕੇਵਲ ਸਮਰੱਥਾ ਨਹੀਂ ਵੱਧਦੀ: ਇਹ ਪਾਵਰ ਖਪਤ, ਗਰਮੀ, ਅਤੇ ਏਅਰਫ਼ਲੋ ਲੋੜਾਂ ਨੂੰ ਵੀ ਵਧਾਉਂਦਾ ਹੈ। ਉੱਚ-ਕੈਪੇਸਿਟੀ RDIMMs ਗਰਮ ਦੌੜ ਸਕਦੇ ਹਨ, ਅਤੇ ਕੁਝ ਕੁਲਿੰਗ ਘਟਾਵ੍ਹਾਂ CPU throttling ਨੂੰ ਟ੍ਰিগਰ ਕਰ ਸਕਦੇ ਹਨ—ਜਿਸ ਨਾਲ end-to-end throughput ਘਟ ਸਕਦੀ ਹੈ ਭਾਵੇਂ GPUs ਪੇਪਰ 'ਤੇ ਠੀਕ ਲਗ ਰਹੇ ਹੋਣ।

ਅਪਗਰੇਡ ਯੋਜਨਾ: ਖੁਦ ਨੂੰ ਫੰਸ ਨਾ ਕਰੋ

ਖਰੀਦਣ ਤੋਂ ਪਹਿਲਾਂ, ਪੁਸ਼ਟੀ ਕਰੋ:

Slot headroom (ਖਾਲੀ ਚੈਨਲ ਰੱਖਣ ਨਾਲ ਭਵਿੱਖੀ ਵੀਸਤਾਰ ਤੇ ਸਹਾਇਤਾ ਮਿਲਦੀ ਹੈ)
ਪਲੇਟਫਾਰਮ ਲਈ ਮੰਨੀ ਗਈ ਗਤੀਆਂ (ਜਿਆਦਾ DIMMs ਪ੍ਰਤੀ ਚੈਨਲ ਵੱਧ DIMM ਗਿਣਤੀ ਨਾਲ DDR5 ਗਤੀਆਂ ਨੂੰ ਘਟਾ ਸਕਦੀ ਹੈ)
BIOS/firmware validation ਤੁਹਾਡੇ ਨਿਜੀ DIMM ਕਿਸਮ ਅਤੇ ਸਮਰੱਥਾ ਲਈ

DDR5 ਨੂੰ ਇੱਕ ਵੱਖਰਾ ਬਜੱਟ ਲTreat ਕਰੋ: ਇਹ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਸਿਰਲੇਖ ਨਹੀਂ ਬਣਦਾ, ਪਰ ਅਸਲ ਉਪਯੋਗਿਤਾ ਅਤੇ ਓਪਰੇਟਿੰਗ ਲਾਗਤ ਅਕਸਰ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ।

ਪਾਵਰ, ਥਰਮਲ, ਅਤੇ ਸਥਾਈ ਥਰਪੂਟ

Make a TCO calculator

ਇੱਕ ਛੋਟੇ ਅੰਦਰੂਨੀ ਕੈਲਕੂਲੇਟਰ ਨਾਲ ਟੋਕਨ/ਡਾਲਰ ਮਾਡਲ ਬਣਾਓ ਜੋ ਇੱਕ ਚੈਟ ਪ੍ਰਾਂਪਟ ਤੋਂ ਬਣਾਇਆ ਗਿਆ ਹੋਵੇ।

ਐਪ ਬਣਾਓ

ਏਆਈ ਸਰਵਰ ਪ੍ਰਦਰਸ਼ਨ ਸਿਰਫ਼ ਪੀਕ ਸਪੈਕਸ ਬਾਰੇ ਨਹੀਂ—ਇਹ ਇਸ ਗੱਲ ਬਾਰੇ ਹੈ ਕਿ ਸਿਸਟਮ ਉਹ ਨੰਬਰ ਕਿੰਨੀ ਦੇਰ ਤੱਕ ਰੱਖ ਸਕਦਾ ਹੈ ਬਿਨਾਂ ਥਰਟਲ ਹੋਏ। ਮੈਮੋਰੀ ਪਾਵਰ (GPU 'ਤੇ HBM ਅਤੇ ਹੋਸਟ 'ਚ DDR5)ਸਿੱਧਾ ਹੀਟ ਵਿੱਚ ਬਦਲ ਜਾਂਦੀ ਹੈ, ਅਤੇ ਗਰਮੀ ਰੈਕ ਡੈਨਸਟੀ, ਫੈਨ ਸਪੀਡਾਂ, ਅਤੇ ਆਖ਼ਿਰਕਾਰ ਤੁਹਾਡੇ ਕੁਲਿੰਗ ਬਿੱਲ ਲਈ ਸੀਮਾ ਬਥਾਉਂਦੀ ਹੈ।

ਮੈਮੋਰੀ ਪਾਵਰ ਕਿਵੇਂ ਰੈਕ ਅਰਥਸ਼ਾਸਤਰ ਬਦਲਦਾ ਹੈ

ਮੈਮੋਰੀ ਦੁਆਰਾ ਖਾਏ ਗਏ ਹਰ ਵਾਟ ਨੂੰ ਤੁਹਾਡੇ ਡੇਟਾ ਸੈਂਟਰ ਨੂੰ ਹਟਾਉਣਾ ਪੈਂਦਾ ਹੈ। 8 GPUs ਪ੍ਰਤੀ ਸਰਵਰ ਅਤੇ ਦਹਾਂ ਸਰਵਰ ਪ੍ਰਤੀ ਰੈਕ ਦੇ ਗੁਣਾ ਕਰਨ 'ਤੇ, ਤੁਸੀਂ ਅਸਲ ਵਿੱਚ ਫੈਸਿਲਿਟੀ ਸੀਮਾਵਾਂ ਤੇ ਜਲਦੀ ਪਹੁੰਚ ਸਕਦੇ ਹੋ। ਜਦੋਂ ਇਹ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਤੁਹਾਨੂੰ ਕਰਨਾ ਪੈ ਸਕਦਾ ਹੈ:

GPU ਪਾਵਰ ਲਿਮਿਟ ਘਟਾਉਣਾ ਤਾਂ ਜੋ ਥਰਮਲ ਜਾਂ ਪਾਵਰ ਐਨਵੈਲਪ ਅੰਦਰ ਰਹਿ ਸਕੋ
ਉ.same throughput ਲਈ ਹੋਰ ਰੈਕਾਂ 'ਤੇ ਸਰਵਰ ਫੈਲਾਉਣ (ਵਧੇ ਹੋਏ ਸਵਿੱਚ,ਕੇਬਲਿੰਗ, ਫਲੋਰ ਸਪੇਸ)
ਕੁਲਿੰਗ ਸਮਰੱਥਾ ਵਧਾਉਣਾ ਜਾਂ ਬਹੁਤ ਉੱਚ-ਫੇਲ ਵਾਲੀ ਫੈਨ ਪ੍ਰੋਫਾਈਲ ਸਵੀਕਾਰ ਕਰਨਾ

ਗਰਮੀ ਸਥਾਈ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਘਟਾਉਂਦੀ ਹੈ (ਭਾਵੇਂ ਬੈਂਚਮਾਰਕ ਚੰਗੇ ਲੱਗਣ)

ਗਰਮ ਹੋ ਰਹੇ ਕੰਪੋਨੇਟ ਸੇਵਾ ਬੰਦ ਕਰਨ ਲਈ throttle ਕਰ ਸਕਦੇ ਹਨ—ਇਹ ਘੜੀ ਦਰਾਂ ਨੂੰ ਘਟਾ ਦਿੰਦਾ ਹੈ ਤਾਂ ਜੋ ਹਾਰਡਵੇਅਰ ਦੀ ਰੱਖਿਆ ਹੋ ਸਕੇ। ਨਤੀਜਾ ਇਹ ਹੈ ਕਿ ਇੱਕ ਸਿਸਟਮ ਛੋਟੀ ਟੈਸਟਾਂ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਲੱਗ ਸਕਦਾ ਹੈ ਪਰ ਲੰਬੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਜਾਂ ਉਚ-ਥਰਪੂਟ ਇੰਫਰੰਸ ਦੌਰਾਨ ਢੀਲਾ ਹੋ ਜਾਂਦਾ ਹੈ। ਇਹੀ ਥਾਂ ਹੈ ਜਿੱਥੇ "ਸਥਾਈ ਥਰਪੂਟ" ਪ੍ਰਸਿੱਧ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਜ਼ਿਆਦਾ ਮਹੱਤਵ ਰੱਖਦਾ ਹੈ।

ਵਿਹਾਰਕ ਨਬਜ਼ ਜੋ ਤੁਸੀਂ ਹਕੀਕਤ ਵਿੱਚ ਕਰ ਸਕਦੇ ਹੋ

ਤੁਹਾਨੂੰ exotic ਤਕਨਾਲੋਜੀ ਦੀ ਲੋੜ ਨਹੀਂ; ਤੁਹਾਨੂੰ ਅਨੁਸ਼ਾਸਨ ਚਾਹੀਦਾ ਹੈ:

Airflow: ਸਾਹਮਣੇ ਤੋਂ ਪਿੱਛੇ ਤੱਕ ਸਾਫ਼ ਰਾਹ ਰੱਖੋ; ਇੰਟੇਕ ਨੂੰ ਬੰਦ ਕਰਨ ਵਾਲੀਆਂ ਕੇਬਲ ਬੰਡਲਾਂ ਤੋਂ ਬਚੋ
Heatsinks ਅਤੇ ਸੰਪਰਕ: ਬਿਲਡ ਦੌਰਾਨ ਉਚਿਤ ਮਾਊਂਟਿੰਗ ਦਬਾਅ ਅਤੇ thermal pad ਦੀ ਹਾਲਤ ਦੀ ਜਾਂਚ ਕਰੋ
Power caps: GPU caps ਸੈਟ ਕਰੋ ਤਾਂ ਜੋ inefficient last-percent ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਪਿੱਛੇ ਨਾ ਭੱਜੋ
Monitoring: GPU/HBM ਤਾਪਮਾਨ, ਫੈਨ ਡਿੲੂਟੀ ਸਾਈਕਲ, ਅਤੇ ਮੈਮੋਰੀ error ਦਰਾਂ 'ਤੇ ਅਲਰਟਸ ਰੱਖੋ

ਤੁਸੀਂ ਕੀ ਮਾਪੋ (ਤਾਕਿ ਤੁਸੀਂ ਵਿਕਲਪਾਂ ਦੀ ਤੁਲਨਾ ਕਰ ਸਕੋ)

ਸਿਰਫ਼ ਪੀਕ 'ਤੇ ਨਹੀਂ, ਪਰ ਓਪਰੇਸ਼ਨਲ ਮੈਟਰਿਕਸ 'ਤੇ ਧਿਆਨ ਦਿਓ:

ਵੱਟਸ ਪ੍ਰਤੀ ਸਰਵਰ ਰੋਜ਼ਾਨਾ / ਪ੍ਰਤੀ ਜੌਬ (ਜਾਂ ਪ੍ਰਤੀ ਟੋਕਨ / ਪ੍ਰਤੀ ਟ੍ਰੇਨਿੰਗ ਸਟੈਪ)
ਥਰੋਟਲਿੰਗ ਫ੍ਰਿਕਵੈਂਸੀ (ਕਿੰਨੀ ਵਾਰ clocks ਲੋਡ ਹੇਠ ਘਟਦੇ ਹਨ) ਅਤੇ ਓਹਨਾ ਛੇਤੀ ਕਿੰਨੀ ਦੇਰ ਲਈ ਰਹਿੰਦੇ ਹਨ
ਮਲਟੀ-ਘੰਟਿਆਂ ਦੌਰਾਨ ਪ੍ਰਦਰਸ਼ਨ ਸਥਿਰਤਾ, ਨਾ ਕਿ 5-ਮਿੰਟ ਬੈਂਚਮਾਰਕ

ਥਰਮਲ ਉਹ ਜਗ੍ਹਾ ਹੈ ਜਿੱਥੇ ਮੈਮੋਰੀ, ਪੈਕੇਜਿੰਗ, ਅਤੇ ਸਿਸਟਮ ਡਿਜ਼ਾਇਨ ਮਿਲਦੇ ਹਨ—ਅਤੇ ਜਿੱਥੇ ਛੁਪੀ ਲਾਗਤਾਂ ਪਹਿਲਾਂ ਨਜ਼ਰ ਆਉਂਦੀਆਂ ਹਨ।

ਅਰਥਸ਼ਾਸਤਰ: ਕੰਪੋਨੈਂਟ ਕੀਮਤ ਤੋਂ ਲੈ ਕੇ ਕਲਸਟਰ TCO ਤੱਕ

ਮੈਮੋਰੀ ਚੋਣਾਂ ਇੱਕ ਕੋਟ ਸ਼ੀਟ 'ਤੇ ਸਿੱਧੀਆਂ ਲੱਗਦੀਆਂ ਹਨ ("$/GB"), ਪਰ ਏਆਈ ਸਰਵਰ ਆਮ ਸਰਵਰਾਂ ਵਰਗੇ ਨਹੀਂ ਚਲਦੇ। ਜੋ ਮਿਆਰੀ ਵਸਤੂ ਹੈ ਉਹ ਇਹ ਹੈ ਕਿ ਤੁਹਾਡੇ ਐਕਸੈਲਰੇਟਰ ਕਿੰਨੀ ਤੇਜ਼ੀ ਨਾਲ ਵਾਟ ਅਤੇ ਸਮਾਂ ਨੂੰ ਉਪਯੋਗੀ tokens, embeddings, ਜਾਂ ਟ੍ਰੇਨ ਕੀਤੇ ਚੈਕਪੌਇੰਟਾਂ ਵਿੱਚ ਬਦਲ ਸਕਦੇ ਹਨ।

ਚਿੱਪ ਤੋਂ ਬਾਹਰ ਲਾਗਤ ਕੀ ਚਲਾਉਂਦੀ ਹੈ

HBM ਲਈ ਖਾਸ ਤੌਰ 'ਤੇ, ਲਾਗਤ ਦੇ ਇੱਕ ਵੱਡੇ ਹਿੱਸੇ ਸਾਫਟਵੇਅਰ ਸਿਲਿਕਨ ਤੋਂ ਬਾਹਰ ਹੁੰਦਾ ਹੈ। ਆਧੁਨਿਕ ਪੈਕੇਜਿੰਗ (ਸਟੈਕਿੰਗ ਡਾਈਜ਼, ਬਾਂਡਿੰਗ, ਇੰਟਰਪੋਸਰ/ਸਬਸਟ੍ਰੇਟ), yield (ਕਿੰਨੇ stacks ਪਾਸ ਹੁੰਦੇ ਹਨ), ਟੈਸਟ ਸਮਾਂ, ਅਤੇ ਇੰਟੈਗਰੇਸ਼ਨ ਕੋਸ਼ਿਸ਼ ਸਭ ਮਿਲ ਕੇ ਲਾਗਤ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਇੱਕ ਸਪਲਾਇਰ ਜਿਸਦੀ ਪੈਕੇਜਿੰਗ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਮਜ਼ਬੂਤ ਹੋਵੇ—ਜਿਹੜੀ ਮਾਮੂਲ ਤੌਰ 'ਤੇ SK hynix ਲਈ ਹਵਾਲਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ—ਉਹ ਦਿੱਤੀ ਗਈ ਲਾਗਤ ਅਤੇ ਉਪਲਬਧਤਾ 'ਤੇ ਵੱਡਾ ਪ੍ਰਭਾਵ ਪਾ ਸਕਦਾ ਹੈ।

"$/GB ਸਸਤਾ" ਕਦੇ-ਕਦੇ accelerator ROI ਲਈ ਬੁਰਾ ਹੋ ਸਕਦਾ ਹੈ

ਜੇ ਮੈਮੋਰੀ bandwidth ਸੀਮਿਤ ਹੈ, ਤਾੰ ਐਕਸੈਲਰੇਟਰ ਆਪਣੀ ਭੁਗਤਾਨ ਕੀਤੀ ਹੋਈ ਸਮੇਂ ਦਾ ਹਿੱਸਾ ਉਡੀਕ ਕਰ ਰਿਹਾ ਹੁੰਦਾ ਹੈ। ਇੱਕ ਸਸਤੀ ਮੈਮੋਰੀ ਕਨਫਿਗਰੇਸ਼ਨ ਜੋ throughput ਘਟਾਉਂਦੀ ਹੈ, ਉਹ ਚੁੱਪਚਾਪ ਤੁਹਾਡੀ ਪ੍ਰਭਾਵਿਤ ਲਾਗਤ ਪ੍ਰਤੀ ਟ੍ਰੇਨਿੰਗ ਸਟੈਪ ਜਾਂ ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਟੋਕਨ ਨੂੰ ਵਧਾ ਸਕਦੀ ਹੈ।

ਪ੍ਰਯੋਗਿਕ ਤਰੀਕਾ:

ਲਾਗਤ ਪ੍ਰਤੀ ਇਕਾਈ ਕੰਮ = (ਸਰਵਰ ਘੰਟਾ ਲਾਗਤ) ÷ (ਉਪਯੋਗੀ ਆਊਟਪੁੱਟ ਪ੍ਰਤੀ ਘੰਟਾ)

ਜੇ ਤੇਜ਼ ਮੈਮੋਰੀ ਆਉਟਪੁੱਟ ਪ੍ਰਤੀ ਘੰਟਾ ਨੂੰ 15% ਵਧਾਂਦੀ ਹੈ ਤੇ ਸਰਵਰ ਲਾਗਤ 5% ਵਧਦੀ ਹੈ, ਤਾਂ ਇਕਾਈ ਅਰਥ-ਸ਼ਾਸਤਰ ਸੁਧਰੇਗੀ—ਚਾਹੇ BOM ਦੀ ਲਾਈਨ ਆਈਟਮ ਵੱਧ ਮਹਿੰਗੀ ਹੋਵੇ।

TCO ਫਰੇਮਿੰਗ: CAPEX + energy + space + downtime risk

ਕਲਸਟਰ TCO ਆਮ ਤੌਰ 'ਤੇ ਇਨ੍ਹਾਂ ਚੀਜ਼ਾਂ ਨਾਲ ਵੱਡੀ ਤਰ੍ਹਾਂ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦੀ ਹੈ:

Capex: ਐਕਸੈਲਰੇਟਰ, ਮੈਮੋਰੀ, ਨੈੱਟਵਰਕਿੰਗ, ਅਤੇ ਇੰਟੈਗਰੇਸ਼ਨ
Energy + cooling: ਉੱਚ ਉਪਯੋਗਿਤਾ ਅਕਸਰ ਹੇਠ-ਉਪਯੋਗਤ ਹਾਰਡਵੇਅਰ ਨਾਲੋਂ ਵੱਧ ਲਾਭਕਾਰੀ ਹੁੰਦੀ ਹੈ
Floor space: ਇੱਕੋ throughput ਲਈ ਘੱਟ racks ਲੈਣਾ ਲਗਾਤਾਰ ਖਰਚ ਘਟਾਉਂਦਾ ਹੈ
Downtime ਅਤੇ deployment risk: qualification ਦੇ ਦੇਰੀ, ਅਸਥਿਰ ਗਲਤੀਆਂ, ਜਾਂ ਸਪਲਾਈ ਗੈਪ ਬਚਤ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਮਿਟਾ ਸਕਦੇ ਹਨ

ਤੇਜ਼ ਮੈਮੋਰੀ ਲਈ ਕਾਰੋਬਾਰੀ ਕੇਸ ਬਣਾਉਣਾ

ਚਰਚਾ ਨੂੰ throughput ਅਤੇ time-to-results 'ਚ ਲਟਕਾਓ, ਨਾ ਕਿ ਕੇਵਲ ਕੰਪੋਨੈਂਟ ਕੀਮਤ 'ਤੇ। ਆਪਣੀ A/B ਅਨੁਮਾਨ ਲੈਵੋ: ਮਾਪਿਆ ਹੋਇਆ tokens/sec (ਜਾਂ steps/sec), ਪ੍ਰੋਜੈਕਟ ਕੀਤਾ ਮਹੀਨਾਵਾਰ ਆਉਟਪੁੱਟ, ਅਤੇ implied cost ਪ੍ਰਤੀ ਇਕਾਈ ਕੰਮ। ਇਹ ਫਾਇਨੈਂਸ ਅਤੇ ਲੀਡਰਸ਼ਿਪ ਲਈ ਮਹਿਮਾਨੀ ਫੈਸਲਾ ਪੜ੍ਹਨ ਯੋਗ ਬਣਾਂਦਾ ਹੈ।

ਸਪਲਾਈ, ਕੁਆਲੀਫਿਕੇਸ਼ਨ, ਅਤੇ ਡਿਪਲੋਇਮੈਂਟ ਖਤਰਾ

ਏਆਈ ਸਰਵਰ ਬਿਲਡ ਯੋਜਨਾਵਾਂ ਅਕਸਰ ਇੱਕ ਸਰਲ ਕਾਰਨ ਨਾਲ ਫੇਲ ਹੋ ਜਾਂਦੀਆਂ ਹਨ: ਮੈਮੋਰੀ "ਇੱਕ ਭਾਗ" ਨਹੀਂ ਹੁੰਦੀ। HBM ਅਤੇ DDR5 ਦੋਹਾਂ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਕੜੇ-ਜੁੜੇ ਨਿਰਮਾਣ ਕਦਮ ਸ਼ਾਮਿਲ ਹਨ (ਡਾਈਜ਼, ਸਟੈਕਿੰਗ, ਟੈਸਟ, ਪੈਕੇਜਿੰਗ, ਮੋਡੀਊਲ ਅਸੈਂਬਲੀ), ਅਤੇ ਕਿਸੇ ਵੀ ਕਦਮ ਵਿੱਚ ਦੇਰੀ ਪੂਰੇ ਸਿਸਟਮ ਨੂੰ ਰੋਕ ਸਕਦੀ ਹੈ। HBM ਵਿਚ ਇਹ ਚੇਨ ਹੋਰ ਵੀ ਨਿਗੜੀ ਹੋ ਜਾਂਦੀ ਹੈ ਕਿਉਂਕਿ yield ਅਤੇ ਟੈਸਟ ਸਮਾਂ ਸਟੈਕਡ ਡਾਈਜ਼ 'ਚ ਗੁਣਾ ਹੋ ਜਾਂਦੇ ਹਨ, ਅਤੇ ਅੰਤਿਮ ਪੈਕੇਜ ਨੂੰ ਸਕੜੀ ਬਿਜਲੀ ਅਤੇ ਥਰਮਲ ਸੀਮਾਵਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨਾ ਲਾਜ਼ਮੀ ਹੁੰਦਾ ਹੈ।

ਸਪਲਾਈ ਸੀਮਾਵਾਂ ਕੀ ਲਈ ਹੁੰਦੀਆਂ ਹਨ

HBM ਉਪਲਬਧਤਾ ਕੇਵਲ ਵੇਫਰ ਸਮਰੱਥਾ ਨਾਲ ਸੀਮਤ ਨਹੀਂ; ਆਧੁਨਿਕ ਪੈਕੇਜਿੰਗ throughput ਅਤੇ qualification gates ਵੀ ਸੀਮਤ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਮੰਗ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ, lead times ਖਿੱਚ ਜਾਂਦੇ ਹਨ ਕਿਉਂਕਿ ਸਮਰੱਥਾ ਵਧਾਉਣਾ ਇਕ ਨਵੀਂ ਅਸੈਂਬਲੀ ਲਾਈਨ ਚਾਲੂ ਕਰਨ ਵਰਗਾ ਨਹੀਂ—ਨਵੇਂ ਟੂਲ, ਨਵੇਂ ਪ੍ਰਕਿਰਿਆਵਾਂ, ਅਤੇ ਕੁਆਲਟੀ ਰੈਂਪ ਸਮਾਂ ਲੈਂਦੇ ਹਨ।

ਖਤਰਾ ਘਟਾਉਣ (ਬਿਨਾਂ ਡਿਪਲੋਇਮੈਂਟ ਨੂੰ ਸਲੋ ਕੀਤੇ)

ਜਿੱਥੇ ਸੰਭਵ ਹੋ, multi-source ਯੋਜਨਾ ਬਣਾਓ (DDR5 ਲਈ ਆਮ ਤੌਰ ਤੇ ਆਸਾਨ) ਅਤੇ validated alternates ਤਿਆਰ ਰੱਖੋ। "Validated" ਦਾ ਮਤਲਬ ਹੈ ਤੁਹਾਡੇ ਟਾਰਗਟ ਪਾਵਰ ਲਿਮਿਟ, ਤਾਪਮਾਨ ਅਤੇ ਵਰਕਲੋਡ ਮਿਕਸ 'ਤੇ ਟੈਸਟ ਕੀਤੇ ਹੋਏ—ਕੇਵਲ ਬੂਟ ਟੈਸਟ ਨਹੀਂ।

ਇੱਕ ਪ੍ਰਯੋਗਿਕ ਰਵੱਈਆ:

ਇੱਕ baseline configuration ਲਾਕ ਕਰੋ, ਫਿਰ ਹਰ ਮਹੱਤਵਪੂਰਨ ਭਾਗ ਲਈ ਇੱਕ alternative qualify ਕਰੋ (HBM class, DDR5 DIMM vendor/part number, firmware/BIOS version)
ਰੈਕ ਵਿੱਚ memory ਕਿਸਮਾਂ ਮਿਲਾਣ ਤੋਂ ਬਚਣ ਲਈ ਇੱਕ ਛੋਟਾ spare buffer ਰੱਖੋ

procurement ਚੈੱਕਲਿਸਟ

ਕਾਲਗੇ ਕੁਆਰਟਰਾਂ ਵਿੱਚ ਅਨੁਮਾਨ ਲਗਾਓ, ਹਫਤਿਆਂ ਵਿੱਚ ਨਹੀਂ। ਸਪਲਾਇਰ commitments ਪੁਸ਼ਟੀ ਕਰੋ, ramp phases ਲਈ ਬਫਰ ਜੋੜੋ, ਅਤੇ ਖਰੀਦ ਸਮਾਂ ਨੂੰ ਸਰਵਰ lifecycle ਮਾਈਲਸਟੋਨਜ਼ ਨਾਲ ਸੰਗਠਿਤ ਕਰੋ (pilot → limited rollout → scale)। ਦਸਤਾਵੇਜ਼ ਕਰੋ ਕਿ ਕਿਹੜੀਆਂ ਤਬਦੀਲੀਆਂ re-qualification trigger ਕਰਦੀਆਂ ਹਨ (DIMM swap, speed bin change, ਵੱਖਰਾ GPU SKU)।

ਕੀ ਤੋਂ ਬਚਣਾ ਚਾਹੀਦਾ ਹੈ

ਉਹਨਾਂ ਕਨਫਿਗਰੇਸ਼ਨਾਂ 'ਤੇ ਜ਼ਿਆਦਾ ਦਾਅਵਿਆਂ ਨਾ ਕਰੋ ਜੋ ਤੁਹਾਡੇ ਖਾਸ ਪਲੇਟਫਾਰਮ 'ਤੇ ਪੂਰੀ ਤਰ੍ਹਾਂ qualified ਨਹੀਂ ਹਨ। ਇੱਕ "ਨਜ਼ਦੀਕੀ ਮੇਲ" ਔਖੀਆਂ-ਡਿਬੱਗ ਕਰਨ ਵਾਲੀਆਂ ਅਸਥਿਰਤਾਵਾਂ, ਘੱਟ ਸਥਾਈ throughput, ਅਤੇ ਅਣਚਾਹੇ ਰੀਵਰਕ ਖਰਚ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ—ਜਦ ਤੁਹਾਨੂੰ ਸਕੇਲ ਕਰਨਾ ਹੁੰਦਾ ਹੈ।

ਮੈਮੋਰੀ ਚੋਣਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਕਾਰਗੁਜਾਰੀ ਰਾਹ

Design before you generate

ਪਹਿਲਾਂ Planning Mode ਵਿੱਚ ਐਪ ਦਾ ਖਾਕਾ ਬਣਾਓ, ਫਿਰ React ਅਤੇ Go ਪ੍ਰੋਜੈਕਟ ਜਨਰੇਟ ਕਰੋ।

ਤਿਆਰੀ ਕਰੋ

ਵਧੇਰੇ HBM ਸਮਰੱਥਾ/ਬੈਂਡਵਿਡਥ, ਵਧੇਰੇ DDR5, ਜਾਂ ਵੱਖਰਾ ਸਰਵਰ ਕਨਫਿਗ ਚੁਣਨਾ ਸਭ ਤੋਂ ਆਸਾਨ ਤਦ ਹੋਦਾ ਹੈ ਜਦ ਤੁਸੀਂ ਇਸਨੂੰ ਇੱਕ ਨਿਯੰਤਰਿਤ ਪ੍ਰਯੋਗ ਵਾਂਗ ਦੇਖਦੇ ਹੋ: ਵਰਕਲੋਡ ਨਿਰਧਾਰਤ ਕਰੋ, ਪਲੇਟਫਾਰਮ ਲਾਕ ਕਰੋ, ਅਤੇ ਸਥਾਈ ਥਰਪੂਟ ਮਾਪੋ (ਪੀਕ ਸਪੈੱਕ ਨਹੀਂ)।

ਵਿਕਰੇਤਾਵਾਂ ਅਤੇ ਇੰਟੀਗ੍ਰੇਟਰਾਂ ਨੂੰ ਪੁੱਛਣ ਲਈ ਸਵਾਲ

ਸ਼ੁਰੂ ਕਰੋ ਇਹ ਪੁਸ਼ਟੀ ਕਰਕੇ ਕਿ ਕੀ ਵਾਸਤਵ ਵਿੱਚ ਸਪੋਰਟ ਹੈ ਅਤੇ ਸ਼ਿਪ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ—ਕਈ "ਕਾਗਜ਼" ਕਨਫਿਗਰੇਸ਼ਨ ਸਕੇਲ 'ਤੇ ਕੁਆਲੀਫਾਈ ਕਰਨ ਵਿੱਚ ਆਸਾਨ ਨਹੀਂ ਹੁੰਦੀਆਂ।

quote ਕਿਸ GPU SKU ਅਤੇ HBM ਜਨਰੇਸ਼ਨ/ਸਾਈਜ਼ 'ਤੇ ਆਧਾਰਿਤ ਹੈ (ਅਤੇ ਕੀ ਵਿਕਲਪ ਬਿਨਾ baseboard ਬਦਲੇ ਉਪਲਬਧ ਹਨ)?
ਪ੍ਰਤੀ CPU ਕਿਹੜੀ DDR5 ਸਮਰੱਥਾ ਅਤੇ ਤੇਜ਼ੀ ਸਪੋਰਟ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਅਤੇ ਕੀ DIMM ਗਿਣਤੀ ਨਾਲ ਇਹ ਬਦਲਦੀ ਹੈ?
ਕੋਈ ਪਲੇਟਫਾਰਮ firmware/BIOS ਜਾਂ validated memory QVL ਸੂਚੀ ਸਮੱਸਿਆਵਾਂ ਹਨ?
ਪੈਕੇਜਿੰਗ/ਥਰਮਲ ਹੱਲ (ਹੀਟਸਿੰਕ, ਕੋਲਡ ਪਲੇਟ) ਕਿਹੜਾ ਵਰਤਿਆ ਗਿਆ, ਅਤੇ AI ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਸਥਾਈ ਪਾਵਰ ਲਿਮਿਟ ਦੀ ਕੀ ਉਮੀਦ ਹੈ?

ਬੈਂਚਮਾਰਕਿੰਗ ਸੁਝਾਅ: ਇਕ-ਜੇਹੇ ਲੋੜੀਆਂ ਦੀ ਤੁਲਨਾ ਕਰੋ

ਆਪਣੇ ਅਸਲ ਮਾਡਲ ਅਤੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰੋ ਜੇ ਸੰਭਵ ਹੋਵੇ; synthetic bandwidth ਟੈਸਟ ਸਹਾਇਕ ਹਨ ਪਰ ਟ੍ਰੇਨਿੰਗ ਸਮਾਂ ਦਾ ਪੂਰਾ ਅੰਦਾਜ਼ਾ ਨਹੀਂ ਦਿੰਦੀਆਂ।

ਵੈਰੀਐਬਲ ਨੂੰ ਕਾਂਸਟੈਂਟ ਰੱਖੋ: ਇੱਕੋ GPU ਗਿਣਤੀ, ਇੱਕੋ ਸੌਫਟਵੇਅਰ ਸਟੈਕ, ਇੱਕੋ ਬੈਚ ਆਕਾਰ, ਇੱਕੋ precision mode
end-to-end ਮੈਟਰਿਕਸ ਰਿਪੋਰਟ ਕਰੋ: tokens/sec, images/sec, time-to-target-loss, ਅਤੇ ਪ੍ਰਤੀ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਲਾਗਤ
throttling ਵੇਖਣ ਲਈ ਕਾਫੀ ਲੰਬਾ ਰਨ ਕਰੋ (30–120 ਮਿੰਟ), ਨਾ ਕਿ ਕੇਵਲ ਛੋਟੀ ਦੌੜ

ਪਾਇਲਟ ਦੌਰਾਨ ਟੈਲੀਮੇਟਰੀ ਜੋ ਇਕੱਠਾ ਕਰੋ

ਇਕ ਪਾਇਲਟ ਤਦ ਹੀ ਲਾਇਕੀ ਹੁੰਦਾ ਹੈ ਜਦ ਤੁਸੀਂ ਸਮਝਾ ਸਕੋ ਕਿ ਇੱਕ ਨੋਡ ਤੇਜ਼ ਜਾਂ ਵਧੇਰੇ ਸਥਿਰ ਕਿਉਂ ਹੈ।

GPU utilization, HBM/DRAM bandwidth counters (ਜੇ ਉਪਲਬਧ), memory error rates (correctable/uncorrectable), ਤਾਪਮਾਨ ਅਤੇ ਪਾਵਰ ਸਮੇਂ-ਸਮੇਂ ਤੇ, ਅਤੇ ਕੋਈ ਵੀ clock throttling ਇਵੈਂਟ ਇਕੱਠੇ ਕਰੋ। ਕੰਮ-ਸਤਹ ਪੱਧਰੀ retries ਅਤੇ checkpoint frequency ਵੀ ਰਿਕਾਰਡ ਕਰੋ—ਮੈਮੋਰੀ ਅਸਥਿਰਤਾ ਅਕਸਰ "ਰਹੱਸਮੀ" ਰੀਸਟਾਰਟਾਂ ਵਜੋਂ ਨਜ਼ਰ ਆਉਂਦੀ ਹੈ।

ਜੇ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਅੰਦਰੂਨੀ ਟੂਲ ਨਹੀਂ ਹੈ ਜੋ ਇਹ ਪਾਇਲਟ ਸਧਾਰਨ ਕਰੇ, ਤਾਂ platforms like Koder.ai ਟੀਮਾਂ ਨੂੰ ਹਲਕੀ-ਫੁਣੀ ਅੰਦਰੂਨੀ ਐਪ (ਡੈਸ਼ਬੋਰਡ, ਰਨਬੁਕਸ, configuration checklists, ਜਾਂ "ਦੋ ਨੋਡਾਂ ਦੀ ਤੁਲਨਾ" ਪਾਇਲਟ ਰਿਪੋਰਟ) ਤੇਜ਼ੀ ਨਾਲ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ ਜਦ ਤੁਸੀਂ ਪ੍ਰੋਡਕਸ਼ਨ ਕਰਨ ਲਈ ਤਿਆਰ ਹੋ ਤਾਂ ਸਰੋਤ ਕੋਡ ਨਿਰਯਾਤ ਕਰਨ ਦਿੰਦੇ ਹਨ। ਇਹ repeated qualification cycles ਦੇ ਆਲੇ-ਦੁਆਲੇ friction ਘਟਾਉਣ ਦਾ ਇੱਕ ਵਰਤੋਂਯੋਗ ਤਰੀਕਾ ਹੈ।

ਤੇਜ਼ HBM, ਨੈੱਟਵਰਕ ਜਾਂ ਸٹੋਰੇਜ ਨੂੰ ਕਦੋਂ ਪ੍ਰਾਇਰਟੀ ਦੇਣੀ ਚਾਹੀਦੀ ਹੈ

ਜਦੋਂ ਤੁਹਾਡੇ GPUs underutilized ਹਨ ਅਤੇ ਪ੍ਰੋਫਾਈਲਿੰਗ ਦਿਖਾਂਦੀ ਹੈ ਕਿ memory stalls ਹਨ ਜਾਂ ਅਕਸਰ activation recomputation ਹੁੰਦੀ ਹੈ, ਤਾਂ ਜ਼ਿਆਦਾ/ਤੇਜ਼ HBM ਨੂੰ ਤਰਜੀਹ ਦਿਓ। ਜਦ ਸਕੇਲਿੰਗ ਦੌਰਾਨ efficiency ਤੇਜ਼ੀ ਨਾਲ ਘਟਦੀ ਹੈ (ਜਿਵੇਂ all-reduce ਸਮਾਂ ਹावी ਹੋ ਜਾਂਦਾ), ਤਾਂ ਨੈੱਟਵਰਕ ਨੂੰ ਤਰਜੀਹ ਦਿਓ। ਜੇ dataloading GPUs ਨੂੰ ਭਰਣ ਵਿੱਚ ਨਾਕਾਬਿਲ ਹੈ ਜਾਂ checkpointing bottleneck ਹੈ, ਤਾਂ ਸਟੋਰੇਜ ਨੂੰ ਤਰਜੀਹ ਦਿਓ।

ਜੇ ਤੁਹਾਨੂੰ ਇੱਕ ਫੈਸਲਾ ਫਰੇਮਵਰਕ चाहिए, ਤਾਂ /blog/ai-server-tco-basics ਵੇਖੋ।

ਮੁੱਖ ਨਤੀਜੇ ਅਤੇ ਇੱਕ ਵਰਤੋਂਯੋਗ ਅਗਲਾ-ਕਦਮ ਚੈੱਕਲਿਸਟ

ਏਆਈ ਸਰਵਰ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਲਾਗਤ ਅਕਸਰ "ਕਿਹੜਾ GPU" ਨਾਲੋਂ ਘੱਟ ਆਪਣੇ-ਆਪ ਵਿੱਚ ਨਿਰਧਾਰਤ ਹੁੰਦੇ ਹਨ—ਇਸ ਨਾਲ ਅਨੁਸ਼ਚਿਤ ਹੁੰਦਾ ਹੈ ਕਿ ਮੈਮੋਰੀ ਸਬਸਿਸਟਮ ਉਹ GPU ਨੂੰ ਲਗਾਤਾਰ ਬਿਜੀ ਰੱਖ ਸਕੇ—ਘੰਟੇ-ਘੰਟੇ, ਅਸਲ ਥਰਮਲ ਅਤੇ ਪਾਵਰ ਸੀਮਾਵਾਂ ਹੇਠਾਂ।

ਕਿੱਥੇ ਮੈਮੋਰੀ ਅਤੇ ਪੈਕੇਜਿੰਗ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਪ੍ਰਭਾਵ ਪਾਉਂਦੇ ਹਨ

HBM ਮੁੱਖ ਰੂਪ ਤੋਂ bandwidth-per-watt ਅਤੇ time-to-train/serve 'ਤੇ ਪ੍ਰਭਾਵ ਪਾਂਦਾ ਹੈ, ਖਾਸ ਤੌਰ 'ਤੇ bandwidth- hungry workloads ਲਈ। ਆਧੁਨਿਕ ਪੈਕੇਜਿੰਗ ਚੁਪਕੇ-ਚੁਪਕੇ enabling ਕਰਦੀ ਹੈ: ਇਹ achievable bandwidth, yields, ਥਰਮਲ, ਅਤੇ ਆਖ਼ਰਕਾਰ ਤੁਸੀਂ ਕਿੰਨੇ ਐਕਸੈਲਰੇਟਰ ਸਮੇਂ 'ਤੇ ਤੈਅ ਅਤੇ sustained throughput 'ਤੇ ਰੱਖ ਸਕਦੇ ਹੋ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀ ਹੈ।

DDR5 ਅਜੇ ਵੀ ਅਹਿਮ ਹੈ ਕਿਉਂਕਿ ਇਹ host-side ਛੱਤ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਡੇਟਾ ਤਿਆਰੀ, CPU ਸਟੇਜ, caching, ਅਤੇ multi-tenant ਵਰਤੀ। DDR5 ਨੂੰ ਅਕਸਰ ਘੱਟ ਅੰਕਿਤ ਕਰ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਫਿਰ GPU ਨੂੰ ਦੋਸ਼ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਜਦ ਅਸਲ ਸਮੱਸਿਆ upstream ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ।

ਰਿਫ੍ਰੇਸ਼ ਸਾਈਕਲ ਲਈ ਅਗਲਾ-ਕਦਮ ਚੈੱਕਲਿਸਟ

ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਆਪਣੇ ਵਰਕਲੋਡ ਦੀ ਪ੍ਰੋਫਾਈਲ ਕਰੋ: ਨਿਰਧਾਰਤ ਕਰੋ ਕਿ ਤੁਸੀਂ bandwidth-limited, capacity-limited, ਜਾਂ compute-limited ਹੋ।
ਨਤੀਜੇ ਨੂੰ ਮੈਮੋਰੀ ਲੋੜਾਂ ਵਿੱਚ ਤਬਦੀਲ ਕਰੋ: ਟਾਰਗਟ bandwidth, ਪ੍ਰਤੀ ਐਕਸੈਲਰੇਟਰ ਘੱਟੋ-ਘੱਟ ਪ੍ਰਭਾਵੀ HBM ਸਮਰੱਥਾ, ਅਤੇ ਪ੍ਰਤੀ ਨੋਡ DDR5 ਸਮਰੱਥਾ ਨਿਰਧਾਰਤ ਕਰੋ।
ਸਥਾਈ ਓਪਰੇਸ਼ਨ ਲਈ ਯੋਜਨਾ ਬਣਾਓ: peak ਬੈਂਚਮਾਰਕ ਨਹੀਂ, steady-state ਪਾਵਰ ਅਤੇ ਥਰਮਲ 'ਤੇ ਵਿਸ਼ਵਾਸ ਕਰੋ।
ਸਪਲਾਈ ਅਤੇ ਇੰਟੀਗਰੇਸ਼ਨ ਖਤਰਾ qualify ਕਰੋ: lead times, vendor qualification, firmware/BIOS readiness, ਅਤੇ spare strategy।
ਕਲਸਟਰ ਅਰਥਸ਼ਾਸਤਰ ਮਾਡਲ ਕਰੋ: energy, utilization, ਉਮੀਦ ਕੀਤੀ throughput, ਅਤੇ downtime—ਕੇਵਲ component price ਨਹੀਂ।

ਸਮਾਂ ਨਾਲ ਟਰੈਕ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਮੈਟਰਿਕਸ

ਟ੍ਰੈਕ ਕਰੋ effective throughput per watt, ਆਸਲ ਉਪਯੋਗਿਤਾ, memory-related stall ਮੈਟਰਿਕਸ, ਅਤੇ ਪ੍ਰਤੀ-ਜੌਬ ਲਾਗਤ ਜਦ ਮਾਡਲ ਬਦਲਦੇ ਹਨ (context length, batch size, mixture-of-experts) ਅਤੇ ਜਿਵੇਂ ਨਵੇਂ HBM ਜਨਰੇਸ਼ਨ ਅਤੇ ਪੈਕੇਜਿੰਗ ਦ੍ਰਿਸ਼ਟਕੋਣ ਕੀਮਤ/ਪਰਫਾਰਮੈਂਸ ਨੂੰ ਬਦਲਦੇ ਹਨ।

ਅੰਦਰੂਨੀ ਸਰੋਤ

ਬਜਟ ਯੋਜਨਾ ਅਤੇ ਪੈਕੇਜਿੰਗ ਵਿਕਲਪਾਂ ਲਈ, ਸ਼ੁਰੂ ਕਰੋ /pricing.

ਗਹਿਰਾਈ ਵਾਲੀਆਂ ਵਿਆਖਿਆਵਾਂ ਅਤੇ ਰਿਫ੍ਰੇਸ਼ ਮਾਰਗਦਰਸ਼ਨ ਲਈ, ਬ੍ਰਾਊਜ਼ ਕਰੋ /blog.

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

Why can memory be the limiting factor even when you have powerful GPUs?

ਕਈ ਏਆਈ ਵਰਕਲੋਡਾਂ ਵਿੱਚ, GPUs ਵਜ਼ਨ, ਐਕਟੀਵੇਸ਼ਨ ਆਦਿ ਦੀ ਆਮਦ ਦੀ ਉਡੀਕ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਮੈਮੋਰੀ ਸਿਸਟਮ ਡੇਟਾ ਤੇਜ਼ੀ ਨਾਲ ਨਹੀਂ ਪਹੁੰਚਾ ਸਕਦੀ, ਤਾਂ GPU ਦੇ ਕੰਪਿਊਟ ਯੂਨਿਟ ਆਈਡਲ ਰਹਿੰਦੇ ਹਨ ਅਤੇ ਤੁਹਾਡਾ ਦਿਲਚਸਪੀ ਪ੍ਰਤੀ ਡਾਲਰ ਪ੍ਰਦਰਸ਼ਨ ਘਟ ਜਾਂਦਾ ਹੈ—ਇੱਥੇ ਤੱਕ ਕਿ ਤੁਸੀਂ ਉੱਚ-ਲੈਵਲ ਐਕਸੈਲਰੇਟਰ ਖਰੀਦਿਆ ਹੋਵੇ।

ਇੱਕ ਵਾਜਿਬ ਨਿਸ਼ਾਨ ਹੈ: GPU ਦੀਆਂ ਉੱਚ ਪਾਵਰ ਰੀਡਿੰਗਾਂ ਦੇ ਬਾਵਜੂਦ ਘੱਟ ਹਾਸਿਲ ਕੀਤੀ ਗਈ ਉਪਯੋਗਿਤਾ, ਜਾਂ ਮੈਮੋਰੀ-ਸਟਾਲ ਕਾਊਂਟਰਾਂ ਨਾਲ ਸਾਥ-ਸਾਥ ਟੋਕਨ/ਸੈਕੇਂਡ ਵਿੱਚ ਕੋਈ ਸੁਧਾਰ ਨਾ ਹੋਣਾ ਭਾਵੇਂ ਤੁਸੀਂ ਹੋਰ ਕੰਪਿਊਟ ਜੋੜੋ।

What’s the simplest way to understand the AI server memory stack?

ਇਸਨੂੰ ਇਕ ਪਾਈਪਲਾਈਨ ਵਾਂਗ ਸੋਚੋ:

HBM (on-package GPU memory): ਸਭ ਤੋਂ ਵੱਧ bandwidth, GPU ਤੱਕ ਸਭ ਤੋਂ ਘੱਟ ਲੇਟੈਂਸੀ, ਸੀਮਤ ਸਮਰੱਥਾ।
DDR5 (CPU/system memory): ਕਾਫੀ ਵੱਡੀ ਸਮਰੱਥਾ, ਹਰ ਡਿਵਾਈਸ ਤੇ ਘੱਟ bandwidth, ਸਟੇਜਿੰਗ/ਪ੍ਰੀ-ਪ੍ਰੋਸੈੱਸਿੰਗ ਅਤੇ ਹੋਸਟ-ਸਾਈਡ ਕੈਸ਼ਿੰਗ ਲਈ।
NVMe/storage: GB ਦੇ ਮੁਤਾਬਕ ਸਭ ਤੋਂ ਸਸਤਾ ਪਰ ਲੇਟੈਂਸੀ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ; ਡਾਟਾਸੈੱਟ, ਚੇਕਪੌਇੰਟ ਅਤੇ ਸਪਿਲਓਵਰ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ।

ਜਦੋਂ ਕੰਪਿਊਟ ਚੱਲ ਰਹੀ ਹੈ ਅਤੇ ਡੇਟਾ ਨੂੰ ਬਾਰ-ਬਾਰ ਸਟੈਕ 'ਤੇੋਂ ਹੇਠਾਂ ਭੇਜਣਾ ਪੈ ਜਾਂਦਾ ਹੈ (HBM → DDR5 → NVMe), ਤਾਂ ਇਹ ਪ੍ਰਦਰਸ਼ਨ ਸਮੱਸਿਆਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ।

How is HBM different from DDR5, in practical terms?

HBM ਕਈ DRAM ਡਾਈਜ਼ ਨੂੰ ਖੜ੍ਹਾ ਕਰਕੇ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇਹ GPU ਦੇ ਬਹੁਤ ਨੇੜੇ advanced packaging ਰਾਹੀਂ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ। ਇਸ "ਚੌੜੀ-ਅਤੇ-ਨਜ਼ਦੀਕੀ" ਡਿਜ਼ਾਇਨ ਨਾਲ ਬੇਇੰਤਹਾ bandwidth ਮਿਲਦਾ ਹੈ ਬਿਨਾਂ ਬਹੁਤ ਊੱਚੀ ਘੜੀ ਦਰਾਂ 'ਤੇ ਨਿਰਭਰ ਹੋਏ।

ਦੂਜੇ ਪਾਸੇ, DDR5 DIMMs ਮਦਰਬੋਰਡ 'ਤੇ ਦੂਰ ਹਨ ਅਤੇ ਪਤਲੇ ਚੈਨਲਾਂ ਤੇ ਤੇਜ਼ signaling ਦਰਾਂ ਵਰਤਦੇ ਹਨ—ਆਮ ਸਰਵਰ ਵਰਤੇ ਗਏ ਕੰਮਾਂ ਲਈ ਵਧੀਆ, ਪਰ GPU ਦੇ ਨਜ਼ਦੀਕੀ HBM bandwidth ਦੇ ਬਰਾਬਰ ਨਹੀਂ।

When should I prioritize HBM capacity versus HBM bandwidth?

ਇਹ ਸਾਰਣੀ ਆਸਾਨ ਨਿਯਮ ਵਰਤੋ:

ਜਦੋਂ ਤੁਸੀਂ ਛੋਟੀ ਬੈਚ ਆਕਾਰ, ਵੱਧ ਸ਼ਾਰਡਿੰਗ/ਆਫਲੋਡ, ਘੱਟ context ਲੰਬਾਈ ਜਾਂ ਆਉਟ-ਆਫ-ਮੇਮੋਰੀ ਸੀਮਾਵਾਂ ਦੀ ਸਮੱਸਿਆ ਦੇਖ ਰਹੇ ਹੋ — ਤਾਂ ਵਧੀ HBM ਸਮਰੱਥਾ ਚੁਣੋ।
ਜਦੋਂ ਪ੍ਰੋਫਾਈਲਿੰਗ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ਜੌਬ ਮੈਮੋਰੀ-ਬਾਊਂਡ ਹੈ (ਉੱਚ ਮੈਮੋਰੀ ਸਟਾਲ/ਉੱਚ ਪ੍ਰਾਪਤ bandwidth ਪਰ ਘੱਟ ਕੁੰਪਿਊਟ ਉਪਯੋਗਿਤਾ), ਤਾਂ ਜਿਆਦਾ HBM bandwidth ਲਾਭਦਾਇਕ ਹੁੰਦਾ ਹੈ।

ਜੇ ਤੁਸੀਂ ਪਹਿਲਾਂ ਹੀ compute-bound ਹੋ, ਤਾਂ ਵਧੇਰੇ bandwidth ਤੋਂ ਘੱਟ ਲਾਭ ਮਿਲਦੇ ਹਨ; ਇਸ ਨਾਲ ਤੁਸੀਂ kernel ਅਪਟਿਮਾਈਜ਼ੇਸ਼ਨ, ਬੈਚਿੰਗ, ਜਾਂ ਤੇਜ਼ GPU ਜਨਰੇਸ਼ਨ ਦੀ ਓਰ ਵੇਖੋ।

Why does packaging matter so much for HBM performance and cost?

ਪੈਕੇਜਿੰਗ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੀ ਹੈ ਕਿ HBM ਆਪਣੀ ਥਿਔਰਟਿਕਲ bandwidth ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਅਤੇ ਵਚਨਬੱਧ ਨਿਰਮਾਣ ਵਿੱਚ ਪਹੁੰਚਾ ਸਕੇ। TSVs, ਮਾਈਕ੍ਰੋ-ਬੰਪਸ, ਅਤੇ ਇੰਟਰਪੋਜਰ/ਸਬਸਟ੍ਰੇਟ ਵਰਗੀਆਂ ਚੀਜ਼ਾਂ ਪ੍ਰਭਾਵ ਪਾਂਦੀਆਂ ਹਨ:

ਸਿਗਨਲ ਗੁਣਵੱਤਾ (ਕੀ ਤੁਸੀਂ ਨਿਸ਼ਚਿਤ ਸਪੀਡ-ਗਰੇਡ 'ਤੇ ਦੌੜ ਸਕਦੇ ਹੋ?)
ਥਰਮਲ (ਕੀ ਸਿਸਟਮ ਲੰਮੇ ਲੋਡ ਤੇ ਥ੍ਰੋਟਲਿੰਗ ਕਰੇਗਾ?)
yield (ਅੰਤਿਮ ਪੈਕੇਜ ਇਕਾਈ ਕਿੰਨੀ ਮਹਿੰਗੀ/ਮੁਹੱਈਆ ਹੈ)

ਖਰੀਦਦਾਰਾਂ ਲਈ, ਪੈਕੇਜਿੰਗ ਦੀ ਮੈਚਿਊਰਿਟੀ ਦਾ ਅਰਥ ਹੈ ਹੋਰ ਠੋਸ ਅਤੇ ਲੰਬੀ-ਅਵਧੀਕ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਸਕੇਲਿੰਗ ਦੌਰਾਨ ਘੱਟ ਅਨੁਮਾਨਿਤ ਸਮੱਸਿਆਵਾਂ।

What role does DDR5 play in AI servers if models mostly run on GPUs?

ਪ੍ਰਯੋਗਕਰਨ ਲਈ DDR5 ਨੂੰ ਇੱਕ ਸਟੇਜਿੰਗ ਅਤੇ ਆਰਕਿਸਟ੍ਰੇਸ਼ਨ ਬਜੱਟ ਵਜੋਂ ਸੋਚੋ। ਜੇ ਤੁਹਾਡੇ ਵਰਕਲੋਡ ਤੇਜ਼ ਸਟੋਰੇਜ ਤੋਂ ਸਿੱਧਾ GPUs ਨੂੰ ਕਲੀਨ ਬੈਚ ਸਟ੍ਰੀਮ ਕਰਦੇ ਹਨ, ਤਾਂ ਤੁਸੀਂ ਘੱਟ ਪਰ ਡਿੱਗ ਰੈਟ DIMMs ਨੂੰ ਤਰਜੀਹ ਦੇ ਸਕਦੇ ਹੋ। ਪਰ ਜੇ ਤੁਸੀਂ ਭਾਰੀ preprocessing, ਹੋਸਟ-ਸਾਈਡ ਕੈਸ਼ਿੰਗ, ਜਾਂ ਇੱਕ ਨੋਡ 'ਤੇ ਕਈ ਸੇਵਾਵਾਂ ਚਲਾ ਰਹੇ ਹੋ, ਤਾਂ ਸਮਰੱਥਾ ਮੁੱਦਾ ਬਣ ਜਾਂਦੀ ਹੈ।

ਇਹ ਸੰਤੁਲਨ accelerator memory 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦਾ ਹੈ: ਜੇ ਤੁਹਾਡੇ ਮਾਡਲ HBM ਸੀਮਾਵਾਂ ਦੇ ਨੇੜੇ ਹਨ, ਤਾਂ ਤੁਸੀਂ checkpointing, offload, ਜਾਂ ਵੱਡੇ ਬੈਚ ਕਿਊਜ਼ ਵਰਗੀ ਤਕਨੀਕਾਂ ਵਰਤੋਂਗੇ ਜੋ CPU ਮੈਮੋਰੀ 'ਤੇ ਦਬਾਅ ਵਧਾਉਂਦੀਆਂ ਹਨ।

How do power and thermals reduce real-world AI throughput?

ਹਰ ਵਾਟ ਜੋ ਮੈਮੋਰੀ ਖਾਂਦੀ ਹੈ, ਉਹ ਤੁਹਾਡੇ ਡੇਟਾ ਸੈਂਟਰ ਨੂੰ ਹਟਾਉਣ ਲਈ ਹੀਟ ਬਣ ਜਾਂਦੀ ਹੈ। 8 GPUs ਪ੍ਰਤੀ ਸਰਵਰ ਅਤੇ ਕਈ ਸਰਵਰ ਪ੍ਰਤੀ ਰੈਕ ਨੂੰ ਗੁਣਾ ਕਰਨ ਤੇ, ਤੁਸੀਂ ਤੇਜ਼ੀ ਨਾਲ ਫੈਸਿਲਿਟੀ ਸੀਮਾਵਾਂ ਤੇ ਪਹੁੰਚ ਸਕਦੇ ਹੋ। ਇਸ ਲਈ ਤੁਹਾਨੂੰ ਕਈ ਕਾਰਵਾਈਆਂ ਕਰਨੀਆਂ ਪੈ ਸਕਦੀਆਂ ਹਨ:

GPU ਪਾਵਰ ਲਿਮਿਟ ਘਟਾਉਣੇ ਤਾਂ ਕਿ ਥਰਮਲ/ਪਾਵਰ ਐਨਵੈਲਪ ਵਿੱਚ ਰਹਿਣਾ ਜਾਵੇ
ਸਰਵਰਾਂ ਨੂੰ ਹੋਰ ਰੈਕਾਂ 'ਚ ਵੰਡਣਾ (ਵਧੇ ਹੋਏ ਸਵਿੱਚ, ਕੈਬਲਿੰਗ, ਫਲੋਰ ਸਪੇਸ)
ਕੁਲਿੰਗ ਸਮਰੱਥਾ ਵਧਾਉਣੀ ਜਾਂ ਤੇਜ਼ ਅਤੇ ਉੱਚ-ਫੇਲ ਦੀ ਫੈਨ ਪ੍ਰੋਫਾਈਲ ਸਵੀਕਾਰ ਕਰਨੀ

ਇਸ ਲਈ "ਸਥਾਈ ਥਰਪੂਟ" ਛੋਟੀ-ਅਵਧੀ ਵਾਲੇ ਬੈਂਚਮਾਰਕ ਤੋਂ ਜ਼ਿਆਦਾ ਮਹੱਤਵਪੂਰਨ ਹੈ।

What drives cost beyond the chip

HBM ਲਈ ਖਾਸ ਤੌਰ 'ਤੇ ਲਾਗਤ ਸਿਰਫ਼ ਸਿਲਿਕਨ ਨਹੀਂ ਹੋਦੀ। ਆਧੁਨਿਕ ਪੈਕੇਜਿੰਗ (die stacking, bonding, interposers/substrates), yield, ਟੈਸਟ ਸਮਾਂ, ਅਤੇ ਇੰਟეგਰੇਸ਼ਨ ਕੋਸ਼ਿਸ਼ ਨੂੰ ਮਿਲਾ ਕੇ ਲਾਗਤ ਬਣਦੀ ਹੈ। ਕੋਈ ਸਪਲਾਇਰ ਜਿਸਦੀ ਪੈਕੇਜਿੰਗ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਮਜ਼ਬੂਤ ਹੋਵੇ—ਅਕਸਰ SK hynix ਦੀਆਂ ਤਾਕਤਾਂ ਵਜੋਂ ਸੂਚਕ—ਵਹੀਂ ਹਕੀਕਤੀ ਲਾਹਾ ਅਤੇ ਉਪਲਬਧਤਾ 'ਤੇ ਪ੍ਰਭਾਵ ਪਾ ਸਕਦੀ ਹੈ।

ਇਸ ਦਾ ਅਰਥ ਹੈ ਕਿ ਇੱਕ "ਸਸਤਾ $/GB" ਵਿਕਲਪ accelerator ROI ਲਈ ਨੁਕਸਾਨਦਾਇਕ ਹੋ ਸਕਦਾ ਹੈ ਜੇ ਉਹ throughput ਘਟਾ ਦੇਵੇ।

How do I judge whether “more expensive memory” is worth it for TCO?

ਇੱਕ ਆਮ ਨਿਯਮ ਵਰਤੋ:

Unit-economics:

ਲਾਗਤ ਪ੍ਰਤੀ ਇਕਾਈ ਕੰਮ = (ਸਰਵਰ ਘੰਟਾ ਲਾਗਤ) ÷ (ਉਪਯੋਗੀ ਆਉਟਪੁੱਟ ਪ੍ਰਤੀ ਘੰਟਾ)

ਜੇ ਤੇਜ਼ ਮੈਮੋਰੀ ਆਉਟਪੁੱਟ ਪ੍ਰਤੀ ਘੰਟਾ ਨੂੰ 15% ਵਧਾਉਂਦੀ ਹੈ ਅਤੇ ਸਰਵਰ ਲਾਗਤ 5% ਵਧਦੀ ਹੈ, ਤਾਂ ਇੱਕਾਈ ਅਰਥਸ਼ਾਸਤਰ ਸੁਧਰਦਾ ਹੈ—ਅਤੇ BOM ਬਿੰਦੂ ਉੱਚਾ ਹੋਣ ਦੇ ਬਾਵਜੂਦ ਕੁੱਲ ਤੌਰ 'ਤੇ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦਾ ਹੈ।

Supply, Qualification, and Deployment Risk

HBM ਦੀ ਉਪਲਬਧਤਾ ਕੇਵਲ ਵੇਫਰ ਸਮਰੱਥਾ ਨਾਲ ਨਹੀਂ ਬੰਨੀ; ਆਧੁਨਿਕ ਪੈਕੇਜਿੰਗ throughput ਅਤੇ ਕਵਾਲੀਫિકੇਸ਼ਨ ਗੇਟਸ ਵੀ ਸੀਮਤ ਕਰਦੇ ਹਨ। ਮੰਗ ਵਧਣ 'ਤੇ ਲੀਡ ਟਾਈਮ ਵਧ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਨਵੀਆਂ ਲਾਈਨਾਂ ਖੋਲ੍ਹਣ ਲਈ ਨਵੇਂ ਟੂਲ, ਪ੍ਰਕਿਰਿਆਵਾਂ ਅਤੇ ਕੁਆਲਟੀ ਰੈਂਪ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਖਤਰਨਾਕਤਾ ਘਟਾਉਣ ਲਈ:

ਜਿੱਥੇ ਯਥਾਰਥ ਹੋ ਸਕੇ, ਮਲਟੀ-ਸਰੋਤ ਯੋਜਨਾ ਬਣਾਓ (DDR5 ਲਈ ਆਮ ਤੌਰ 'ਤੇ ਆਸਾਨ) ਅਤੇ ਇੱਕ-ਵਿਕਲਪ ਪੈਰ ਤਿਆਰ ਰੱਖੋ ਜੋ ਤੁਹਾਡੇ ਨਿਰਧਾਰਤ ਪਾਵਰ/ਤਾਪਮਾਨ/ਵਰਕਲੋਡ ਮਿਕਸ ਤੇ ਟੈਸਟ ਹੋਇਆ ਹੋਵੇ।
ਇੱਕ ਬੇਸਲਾਈਨ ਕਨਫਿਗ ਰੱਖੋ ਤੇ ਫਿਰ ਪ੍ਰਤੀ ਆਲਟਰਨੇਟ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ (HBM ਕਲਾਸ, DDR5 DIMM ਵਿਕਰੇਤਾ/ਪਾਰਟ ਨੰਬਰ, firmware/BIOS ਵਰਜ਼ਨ)।
ਰੈਕ ਵਿੱਚ ਮਿਕਸਿੰਗ ਤੋਂ ਬਚਣ ਲਈ ਛੋਟੇ ਸਪੇਅਰ ਬਫਰ ਰੱਖੋ।

How to Evaluate Memory Choices for Your AI Servers

ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਨਿਯੰਤਰਿਤ ਪ੍ਰਯੋਗ ਵਾਂਗ ਚੋਣ ਕਰੋ: ਵਰਕਲੋਡ ਨਿਰਧਾਰਤ ਕਰੋ, ਪਲੇਟਫਾਰਮ ਲਾਕ ਕਰੋ, ਅਤੇ ਸਥਾਈ ਥਰਪੂਟ ਮਾਪੋ (ਪੀਕ ਨਹੀਂ)।

ਵਿਕਰਤਾ ਅਤੇ ਇੰਟੀਗਰੇਟਰਾਂ ਤੋਂ ਪੁੱਛਣ ਲਈ ਮੁੱਢਲੇ ਸਵਾਲ:

ਸਿਟੇਡ GPU SKU ਅਤੇ HBM ਜਨਰੇਸ਼ਨ/ਸਾਈਜ਼ ਕਿਹੜੇ ਹਨ (ਤੇ ਕੀ ਬਿਨਾ ਬੇਸਬੋਰਡ ਬਦਲੇ ਵਿਕਲਪ ਹਨ)?
ਪ੍ਰਤੀ CPU ਸੁਪੋਰਟ ਕੀ DDR5 ਸਮਰੱਥਾ ਅਤੇ ਗਤੀ ਹੈ, ਅਤੇ ਕੀ DIMM ਗਿਣਤੀ ਨਾਲ ਇਹ ਬਦਲਦੀ ਹੈ?
ਬਾਇਓਐਸ/ਫਰਮਵੇਅਰ ਜਾਂ validated memory QVL ਸੂਚੀਆਂ ਤੋਂ ਕੋਈ ਬੰਧਨ ਹਨ?
ਪੈਕੇਜਿੰਗ/ਥਰਮਲ ਹੱਲ ਕੀ ਹੈ (ਹੀਟਸਿੰਕ, ਕੋਲਡ ਪਲੇਟ), ਤੇ AI ਟ੍ਰੇਨਿੰਗ ਰਾਏਟ ਤੇ ਸਥਾਈ ਪਾਵਰ ਲਿਮਿਟ ਕੀ ਉਮੀਦ ਕੀਤੀ ਜਾਏਗੀ?

ਬੈਂਚਮਾਰਕਿੰਗ ਸੁਝਾਵ: ਆਪਣੇ ਅਸਲ ਮਾਡਲ ਅਤੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰੋ; synthetic bandwidth ਟੈਸਟ ਸਹਾਇਕ ਹਨ ਪਰ ਟ੍ਰੇਨਿੰਗ ਸਮਾਂ ਦੀ ਪੂਰੀ ਭਵਿੱਖਬਾਣੀ ਨਹੀਂ ਕਰਦੇ।

What telemetry should I collect during a pilot to evaluate memory bottlenecks?

ਪਾਇਲਟ ਦੌਰਾਨ ਟੈਲੀਮੇਟਰੀ ਜੋ ਇਕੱਠੀ ਕਰੋ ਉਹ ਉਤਰ ਦੇਣ ਵਾਲੇ ਮੈਟਰਿਕਸ ਅਤੇ "ਕਿਉਂ" ਮੈਟਰਿਕਸ ਦੋਹਾਂ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ:

ਆਉਟਕਮ: step time, tokens/sec, latency, time-to-target-loss
HBM: ਪ੍ਰਾਪਤ bandwidth ਬਨਾਮ ਪੀਕ, ਮੈਮੋਰੀ ਸਟਾਲ ਸਾਈਕਲ
ਕੰਪਿਊਟ: SM/compute utilization

When to prioritize HBM upgrades vs network or storage

ਜਦੋਂ GPUs ਅਪਪਯੋਗ ਨਹੀਂ ਹੋ ਰਹੇ ਅਤੇ ਪ੍ਰੋਫਾਈਲਿੰਗ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ਮੈਮੋਰੀ ਸਟਾਲ ਜਾਂ activation recomputation ਬਹੁਤ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਬਹੁਤ ਵਧੇਰੇ HBM (ਜ਼ਿਆਦਾ/ਤੇਜ਼) ਨੂੰ ਤਰਜੀਹ ਦਿਓ।

ਨੈੱਟਵਰਕ ਨੂੰ ਤਰਜੀਹ ਦਿਓ ਜੇ ਸਕੇਲਿੰਗ ਦੇ ਬਾਅਦ efficiency ਗਿਰ ਜਾਂਦੀ ਹੈ (ਉਦਾ: all-reduce ਸਮਾਂ ਬਹੁਤ ਵੱਧ ਹੋ ਜਾਣਾ)।

ਸਟੋਰੇਜ ਨੂੰ ਤਰਜੀਹ ਦਿਓ ਜੇ ਡੇਟਾ-ਲੋਡਿੰਗ GPUs ਨੂੰ ਫੀਡ ਨਹੀਂ ਕਰ ਰਹੀ ਜਾਂ ਚੇਕਪੌਇੰਟ ਬੋਤਲ-ਨੈਕ ਬਣ ਰਹੇ ਹਨ।

ਜੇ ਤੁਹਾਨੂੰ ਫੈਸਲਾ ਬਣਾਣ ਲਈ ਢਾਂਚਾ ਚਾਹੀਦਾ ਹੈ, ਤਬ /blog/ai-server-tco-basics ਦੇਖੋ।

Key Takeaways and a Practical Next-Step Checklist

AI ਸਰਵਰ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਲਾਗਤ ਅਕਸਰ ਇਸ ਗੱਲ ਨਾਲ ਨਿਰਧਾਰਤ ਹੁੰਦੇ ਹਨ ਕਿ ਕੀ ਮੈਮੋਰੀ ਸਬਸਿਸਟਮ GPU ਨੂੰ ਲਗਾਤਾਰ ਬਿਜੀ ਰੱਖ ਸਕਦਾ ਹੈ—ਘੰਟੇ ਘੰਟੇ, ਅਸਲ ਥਰਮਲ ਅਤੇ ਪਾਵਰ ਸੀਮਾਵਾਂ ਹੇਠਾਂ।

ਮੁੱਖ ਨੁਕਤੇ:

HBM bandwidth-per-watt ਅਤੇ time-to-train/serve 'ਤੇ ਸਭ ਤੋਂ ਵੱਧ ਪ੍ਰਭਾਵ ਪਾਉਂਦਾ ਹੈ, ਖਾਸ ਤੌਰ ਤੇ ਉਹਨਾਂ ਵਰਕਲੋਡਾਂ ਲਈ ਜੋ ਬੈਂਡਵਿਡਥ ਖਾਂਦੇ ਹਨ।
ਆਧੁਨਿਕ ਪੈਕੇਜਿੰਗ ਹਕੀਕਤ 'ਚ ਇਹ ਸਭ ਕੁਝ ਯੋਗ ਕਰਦਾ ਹੈ: ਪ੍ਰਾਪਤ bandwidth, yields, ਥਰਮਲ ਅਤੇ ਆਖ਼ਰਕਾਰ ਤੁਸੀਂ ਸਮੇਂ 'ਤੇ ਕਿੰਨੇ ਐਕਸੈਲਰੇਟਰ ਤੈਅ ਕਰ ਸਕਦੇ ਹੋ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ sustained throughput 'ਤੇ ਰੱਖ ਸਕਦੇ ਹੋ।
DDR5 ਉਹ host-side ਛੱਤ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਜੋ ਡਾਟਾ ਪ੍ਰੀਪੈਂ, CPU ਸਟੇਜ, ਕੈਸ਼ਿੰਗ ਅਤੇ ਮਲਟੀ-ਟੇਨੈਂਸੀ ਹਲ ਚਲਾਉਂਦਾ ਹੈ।

ਅਗਲਾ ਕਦਮ ਚੈੱਕਲਿਸਟ: