Gelişmiş Responsive Navigasyon Menüsü

HPC Kümelerinde NVIDIA NVLink ve NVSwitch: Model Paralelliği ve Bellek Paylaşımı | GTM Teknoloji

Teknik Derinlik · HPC & AI Altyapısı

HPC Kümelerinde
NVIDIA NVLink
ve NVSwitch

Model paralelliği, bellek paylaşımı ve H200 NVL/HGX mimarilerinde mühendislerin bilmesi gereken kritik pratik notlar.

GTM Teknoloji Teknik Ekibi

· Mart 2025 · 12 dk okuma

Büyük dil modellerini (LLM) ve yüksek performanslı bilişim (HPC) iş yüklerini çalıştıran sistemlerin en kritik darboğazı artık işlemci hızı değil, GPU'lar arası veri taşıma bant genişliği ve bellek kapasitesidir.

PCIe tabanlı geleneksel sunucularda GPU'lar arasındaki veri transferi CPU üzerinden geçmek zorundadır; bu hem gecikme yaratır hem de bant genişliğini ciddi ölçüde kısıtlar. NVIDIA'nın NVLink ve NVSwitch teknolojileri bu kısıtı tamamen ortadan kaldırmak için tasarlanmıştır. Günümüzde HGX H200 ve H200 NVL gibi platformlarda bu iki teknoloji bir arada çalışarak yüzlerce GB/s veri hızında doğrudan GPU-to-GPU iletişimi mümkün kılmaktadır.

Bu yazıda NVLink ve NVSwitch'in temel işleyişini, model paralelliği ile bellek paylaşımında nasıl kullanıldığını ve Supermicro platformlarında dikkat edilmesi gereken pratik mimarı notları ele alıyoruz.

01 · Temel Teknoloji

NVLink Nedir ve PCIe'dan Farkı Ne?

NVLink, NVIDIA'nın GPU'ları birbirine doğrudan bağlamak için geliştirdiği yüksek bant genişlikli, düşük gecikmeli seri iletişim arabirimidir. İlk kez 2016'da Pascal mimarisiyle gelen bu teknoloji, her nesilde köklü iyileştirmeler geçirmiş; H100/H200 ailesinde NVLink 4.0 ile zirveye ulaşmıştır.

⚡ Temel Fark

PCIe, CPU memory controller üzerinden geçen paylaşımlı bir yol kullanır; bant genişliği tüm aygıtlar arasında bölüşülür. NVLink ise GPU'lar arasında CPU'yu tamamen devre dışı bırakan, her bağlantı çifti için ayrılmış nokta-noktası bir tünel açar.

Nesil Karşılaştırması ve Bant Genişliği

PCIe 5.0 x16

128 GB/s

NVLink 4.0
(H100/H200 çift yön)

900 GB/s

NVLink 5.0
(Blackwell GB200)

1,800 GB/s

NVSwitch 3.0
(8x GPU toplam)

3,600 GB/s toplam

H100 ve H200 GPU'larında her GPU üzerinde 18 adet NVLink 4.0 bağlantısı bulunmaktadır. Bu linklerin her biri 50 GB/s (çift yön) bant genişliği sunar; toplamda tek bir GPU başına 900 GB/s çift yönlü bant genişliğine ulaşılır. Bu değer, en hızlı PCIe bağlantısının yaklaşık 7 katıdır.

02 · Anahtarlama Katmanı

NVSwitch: GPU'lar Arası Tam Örgü Topolojisi

NVSwitch, birden fazla GPU'yu all-to-all tam örgü (full mesh) topolojisinde birbirine bağlayan özel bir yonga setidir. HGX H200'de 4 adet NVSwitch 3.0 yongası bulunur; bu yongalar 8 GPU'nun tamamını birbirine eşit bant genişliğiyle bağlar. Herhangi bir GPU, diğer herhangi bir GPU'ya aynı hız ve gecikmeyle veri gönderebilir.

HGX H200 — NVSwitch Full Mesh Topolojisi

H200
141 GB HBM3e

NVSwitch 3.0900 GB/s per port

H200
141 GB HBM3e

Toplam sistem bant genişliği: 3,6 TB/s · Toplam HBM kapasitesi: 1,128 GB

NVSwitch 3.0 Teknik Özellikleri

Özellik	NVSwitch 2.0 (A100)	NVSwitch 3.0 (H100/H200)
NVLink Portu	36 port	64 port
Toplam Bant Genişliği	600 GB/s	3,6 TB/s (8 GPU)
SHARP Desteği	Hayır	Var
Multicast	Sınırlı	Tam destek
Hata Düzeltme	ECC	ECC + Link Error Recovery
Gecikme	~1 μs	<1 μs

🔬 SHARP Nedir?

SHARP (Scalable Hierarchical Aggregation and Reduction Protocol), toplama işlemlerini (sum, max, min vb.) NVSwitch yongası üzerinde doğrudan gerçekleştirir. Bu sayede AllReduce gibi kolektif iletişim primitiflerinde ağ trafiği %50'ye kadar azalabilir. Özellikle dağıtık eğitimde gradient agregasyonunu hızlandırır.

03 · Yazılım Katmanı

Model Paralelliği ve Bellek Paylaşım Senaryoları

Büyük modeller (GPT-4 sınıfı ve üzeri) tek bir GPU'nun belleğine sığmaz. Çözüm, modeli birden fazla GPU'ya dağıtmaktır. Bu dağıtımın nasıl yapıldığı ise NVLink/NVSwitch topolojisinden maksimum yararlanmak için kritik önem taşır.

⊞

Tensor Parallelism (TP)

Tek bir katmanın ağırlık matrisleri GPU'lara bölünür. Her forward pass'ta GPU'lar arası yoğun AllReduce gerektirir. En yüksek NVLink bant genişliği tüketimi.

⊟

Pipeline Parallelism (PP)

Model katmanları sıralı gruplar halinde farklı GPU'lara atanır. GPU'lar arası iletişim yalnızca aktivasyon tensörleridir; bant genişliği tüketimi daha düşüktür.

⊠

Sequence Parallelism

Girdi sekansı farklı GPU'lara bölünür; özellikle uzun context penceresi olan LLM inference iş yüklerinde kullanılır. NVLink gecikme hassasiyeti yüksektir.

⊡

Expert Parallelism (MoE)

Mixture-of-Experts modellerde farklı uzman ağlar farklı GPU'larda çalışır. Token yönlendirme (token routing) all-to-all iletişim gerektirir; NVSwitch bu senaryonun kalbindedir.

Bellek Paylaşımı: Unified Memory ve Peer Access

NVLink üzerinden CUDA Peer Access etkinleştirildiğinde, bir GPU doğrudan diğer GPU'nun HBM belleğine adresleyebilir. Bu sayede yazılım katmanından bakıldığında 8 GPU'nun toplam belleği tek bir büyük bellek uzayı gibi kullanılabilir.

Senaryo	Model Boyutu (yaklaşık)	Önerilen Yapı	NVLink Yoğunluğu
Tek GPU Inference	< 70B (BF16)	1x H200 (141 GB)	Yok
2-GPU TP	70B – 140B	2x H200 NVLink	Orta
4-GPU TP	140B – 340B	4x H200 (HGX)	Yüksek
8-GPU Full TP+PP	340B – 1T+	HGX H200 (8x GPU)	Kritik
Multi-Node Cluster	1T+ (GPT-4 sınıfı)	HGX H200 × N + InfiniBand NDR	Kritik

✅ Pratik Kural

Tensor Parallelism dereceleri (tp=2, 4, 8) NVLink bant genişliğini doğrudan etkiler. TP=8 yapılandırması, her forward pass'ta tüm NVSwitch topolojisini tam kapasiteyle kullanır. Bu nedenle TP derecesi ile NVLink bant genişliği arasındaki ilişki, inference latency'yi doğrudan belirleyen en kritik faktördür.

04 · Platform Seçimi

H200 NVL ve HGX H200: Mimari Farklar ve Pratik Notlar

NVIDIA, H200 ekosisteminde iki ana platform sunar: H200 NVL ve HGX H200. Her ikisi de NVLink kullanır ancak topoloji ve ölçek bakımından önemli farklılıklar taşır.

Özellik	H200 NVL (2-GPU)	HGX H200 (8-GPU)
GPU Sayısı	2 GPU (tek modül)	8 GPU (baseboard)
HBM Kapasitesi	2 × 141 GB = 282 GB	8 × 141 GB = 1,128 GB
NVLink Versiyonu	NVLink 4.0	NVLink 4.0
NVSwitch	Yok (direkt link)	4× NVSwitch 3.0
Toplam Çift-Yön BW	450 GB/s	3,6 TB/s
TDP	2 × 600W = 1,200W	8 × 700W = 5,600W
Soğutma	Hava (bazı konfigürasyonlar)	Sıvı soğutma önerilen
İdeal Kullanım	70B-140B inference, fine-tuning	340B+ eğitim, büyük LLM inference

Supermicro Platform Notları

Supermicro'nun HGX H200 destekli platformları (SYS-821GE-TNHR, SYS-951GE-TNRT vb.) NVSwitch 3.0 ile tam entegrasyon sunmaktadır. Bu platformlarda dikkat edilmesi gereken birkaç kritik mimari karar bulunur:

⚠️ Kritik: PCIe ile NVLink Aynı Anda

HGX platformlarda GPU'ların host CPU ile bağlantısı PCIe üzerinden yapılır. Ancak GPU-to-GPU tüm iletişim NVSwitch üzerinden geçer. Bu mimari, veri hazırlama (data loading) pipeline'ının PCIe bant genişliğini doyurmamasını gerektirir; aksi hâlde NVLink bant genişliğinden elde edilen kazanım boşa gider.

🌡️ Termal Yönetim

HGX H200 baseboard 5,600W toplam TDP değeriyle hava soğutmasının sınırlarını zorlayabilir. Supermicro'nun sıvı soğutmalı SYS-821GE-TNHR gibi sistemleri bu iş yükü için daha güvenilir termal marj sunar. NVSwitch yongaları da ısınma açısından izlenmelidir; nvidia-smi ve DCGM üzerinden sıcaklık monitörü kritik operasyonel gerekliliktir.

⚙️ NUMA Topoloji Optimizasyonu

Çift soketli HGX sistemlerde (2x CPU), GPU'ların CPU NUMA node'larına eşleşmesi PCIe transfer etkinliğini doğrudan etkiler. GPU 0-3 genellikle CPU 0'a, GPU 4-7 ise CPU 1'e bağlıdır. nvidia-smi topo --matrix komutu ile topolojiyi doğrulayın ve veri işleme süreçlerinizi NUMA-aware şekilde pinleyin.

05 · Operasyonel Kılavuz

Günlük Operasyonda Dikkat Edilmesi Gerekenler

İzleme ve Teşhis Araçları

Araç	Kullanım Amacı	Kritik Metrik
`nvidia-smi nvlink -s`	NVLink bağlantı durumu	TX/RX throughput, hata sayısı
`nvidia-smi topo -m`	Topoloji matrisi	NV1–NV18 bağlantı tipi
DCGM (Data Center GPU Manager)	Küme geneli izleme	NVLink hata oranı, termal, güç
`ncu` (Nsight Compute)	Kernel seviyesi profil	NVLink bant genişliği kullanımı

Sık Karşılaşılan Sorunlar ve Çözümleri

NVLink Replay Hataları: Kablo bağlantısı sorunları veya GPU fiziksel hasarından kaynaklanır. DCGM üzerinden periyodik hata sayımı yapılmalı; replay oranı eşiği aşıyorsa yedek GPU ile değişim planlanmalıdır.

Dengesiz Bant Genişliği: Bazı iş yükleri belirli GPU çiftleri arasında yoğunlaşabilir. NVSwitch 3.0'ın multicast özelliği doğru yapılandırılmadığında hotspot oluşabilir. nccl-tests ile all-reduce benchmark yaparak dengesizlik tespiti yapın.

Peer Access Etkin Değil: CUDA Peer Access varsayılan olarak her ortamda etkin gelmeyebilir. nvidia-smi topo çıktısında GPU çiftleri arasında NV* yerine SYS görünüyorsa PCIe üzerinden gidiyorsunuz demektir.

🔑 Temel Tasarım İlkesi

NVLink ve NVSwitch altyapısı ne kadar güçlü olursa olsun, yazılım katmanının (PyTorch, NCCL, vLLM, TensorRT-LLM) bu topolojiyi doğru kullanacak şekilde yapılandırılması şarttır. Donanım bant genişliğini tam olarak kullanabilmek için NCCL_P2P_LEVEL=NVL, tensor parallelism gruplarının NVLink topolojisine hizalanması ve NUMA pinning gibi yazılım-donanım eşgüdümü kritik performans belirleyicisidir.

06 · Değerlendirme

Özet: Hangi Platform, Hangi iş Yükü?

İş Yükü Profili	Önerilen Platform	NVLink Rolü	Öncelikli Kısıt
70B LLM Inference	H200 NVL (2-GPU)	Bellek havuzlama	Token/sn latency
340B+ LLM Inference	HGX H200 (8-GPU)	Tensor Parallelism	NVLink BW, TTFT
LLM Fine-tuning	HGX H200	AllReduce (gradient)	Batch throughput
HPC / CFD / FEA	HGX H200	Halo exchange	Problem boyutu/GPU
MoE Model Eğitimi	HGX H200 multi-node	All-to-All routing	NVSwitch + IB BW

NVLink ve NVSwitch, modern AI altyapısının vazgeçilmez bileşenleridir. PCIe'ın yarım asırlık mirasını aşarak GPU'lar arası iletişimi tamamen yeniden tanımlayan bu teknoloji, yalnızca bant genişliği artışıyla değil; bellek havuzlama, SHARP tabanlı kolektif optimizasyon ve hata toleransı kapasitesiyle de üretim ortamlarında gerçek bir fark yaratır.

Supermicro HGX H200 platformları bu teknolojiyi veri merkezi ölçeğinde güvenilir biçimde sunarken, GTM Teknoloji olarak doğru platform seçiminden operasyonel yapılandırmaya kadar tüm süreçte teknik destek sunuyoruz.

HGX H200 Altyapınızı Planlayın

NVLink topolojisi, platform seçimi ve kapasite planlaması için teknik ekibimizle görüşün.

Teknik Danışmanlık Talep Edin

Bu yazıdaki teknik veriler NVIDIA H200 SXM5 ve HGX H200 resmi dokümantasyonuna dayanmaktadır. Bant genişliği değerleri çift yönlü (bidirectional) maksimum teorik değerlerdir; gerçek iş yükü performansı yapılandırma, yazılım yığını ve iş yükü profiline göre değişiklik gösterebilir.