HPC Kümelerinde
NVIDIA NVLink
ve NVSwitch
Model paralelliği, bellek paylaşımı ve H200 NVL/HGX mimarilerinde mühendislerin bilmesi gereken kritik pratik notlar.
Büyük dil modellerini (LLM) ve yüksek performanslı bilişim (HPC) iş yüklerini çalıştıran sistemlerin en kritik darboğazı artık işlemci hızı değil, GPU'lar arası veri taşıma bant genişliği ve bellek kapasitesidir.
PCIe tabanlı geleneksel sunucularda GPU'lar arasındaki veri transferi CPU üzerinden geçmek zorundadır; bu hem gecikme yaratır hem de bant genişliğini ciddi ölçüde kısıtlar. NVIDIA'nın NVLink ve NVSwitch teknolojileri bu kısıtı tamamen ortadan kaldırmak için tasarlanmıştır. Günümüzde HGX H200 ve H200 NVL gibi platformlarda bu iki teknoloji bir arada çalışarak yüzlerce GB/s veri hızında doğrudan GPU-to-GPU iletişimi mümkün kılmaktadır.
Bu yazıda NVLink ve NVSwitch'in temel işleyişini, model paralelliği ile bellek paylaşımında nasıl kullanıldığını ve Supermicro platformlarında dikkat edilmesi gereken pratik mimarı notları ele alıyoruz.
NVLink Nedir ve PCIe'dan Farkı Ne?
NVLink, NVIDIA'nın GPU'ları birbirine doğrudan bağlamak için geliştirdiği yüksek bant genişlikli, düşük gecikmeli seri iletişim arabirimidir. İlk kez 2016'da Pascal mimarisiyle gelen bu teknoloji, her nesilde köklü iyileştirmeler geçirmiş; H100/H200 ailesinde NVLink 4.0 ile zirveye ulaşmıştır.
PCIe, CPU memory controller üzerinden geçen paylaşımlı bir yol kullanır; bant genişliği tüm aygıtlar arasında bölüşülür. NVLink ise GPU'lar arasında CPU'yu tamamen devre dışı bırakan, her bağlantı çifti için ayrılmış nokta-noktası bir tünel açar.
Nesil Karşılaştırması ve Bant Genişliği
H100 ve H200 GPU'larında her GPU üzerinde 18 adet NVLink 4.0 bağlantısı bulunmaktadır. Bu linklerin her biri 50 GB/s (çift yön) bant genişliği sunar; toplamda tek bir GPU başına 900 GB/s çift yönlü bant genişliğine ulaşılır. Bu değer, en hızlı PCIe bağlantısının yaklaşık 7 katıdır.
NVSwitch: GPU'lar Arası Tam Örgü Topolojisi
NVSwitch, birden fazla GPU'yu all-to-all tam örgü (full mesh) topolojisinde birbirine bağlayan özel bir yonga setidir. HGX H200'de 4 adet NVSwitch 3.0 yongası bulunur; bu yongalar 8 GPU'nun tamamını birbirine eşit bant genişliğiyle bağlar. Herhangi bir GPU, diğer herhangi bir GPU'ya aynı hız ve gecikmeyle veri gönderebilir.
141 GB HBM3e
141 GB HBM3e
141 GB HBM3e
141 GB HBM3e
141 GB HBM3e
141 GB HBM3e
141 GB HBM3e
141 GB HBM3e
Toplam sistem bant genişliği: 3,6 TB/s · Toplam HBM kapasitesi: 1,128 GB
NVSwitch 3.0 Teknik Özellikleri
| Özellik | NVSwitch 2.0 (A100) | NVSwitch 3.0 (H100/H200) |
|---|---|---|
| NVLink Portu | 36 port | 64 port |
| Toplam Bant Genişliği | 600 GB/s | 3,6 TB/s (8 GPU) |
| SHARP Desteği | Hayır | Var |
| Multicast | Sınırlı | Tam destek |
| Hata Düzeltme | ECC | ECC + Link Error Recovery |
| Gecikme | ~1 μs | <1 μs |
SHARP (Scalable Hierarchical Aggregation and Reduction Protocol), toplama işlemlerini (sum, max, min vb.) NVSwitch yongası üzerinde doğrudan gerçekleştirir. Bu sayede AllReduce gibi kolektif iletişim primitiflerinde ağ trafiği %50'ye kadar azalabilir. Özellikle dağıtık eğitimde gradient agregasyonunu hızlandırır.
Model Paralelliği ve Bellek Paylaşım Senaryoları
Büyük modeller (GPT-4 sınıfı ve üzeri) tek bir GPU'nun belleğine sığmaz. Çözüm, modeli birden fazla GPU'ya dağıtmaktır. Bu dağıtımın nasıl yapıldığı ise NVLink/NVSwitch topolojisinden maksimum yararlanmak için kritik önem taşır.
Tensor Parallelism (TP)
Tek bir katmanın ağırlık matrisleri GPU'lara bölünür. Her forward pass'ta GPU'lar arası yoğun AllReduce gerektirir. En yüksek NVLink bant genişliği tüketimi.
Pipeline Parallelism (PP)
Model katmanları sıralı gruplar halinde farklı GPU'lara atanır. GPU'lar arası iletişim yalnızca aktivasyon tensörleridir; bant genişliği tüketimi daha düşüktür.
Sequence Parallelism
Girdi sekansı farklı GPU'lara bölünür; özellikle uzun context penceresi olan LLM inference iş yüklerinde kullanılır. NVLink gecikme hassasiyeti yüksektir.
Expert Parallelism (MoE)
Mixture-of-Experts modellerde farklı uzman ağlar farklı GPU'larda çalışır. Token yönlendirme (token routing) all-to-all iletişim gerektirir; NVSwitch bu senaryonun kalbindedir.
Bellek Paylaşımı: Unified Memory ve Peer Access
NVLink üzerinden CUDA Peer Access etkinleştirildiğinde, bir GPU doğrudan diğer GPU'nun HBM belleğine adresleyebilir. Bu sayede yazılım katmanından bakıldığında 8 GPU'nun toplam belleği tek bir büyük bellek uzayı gibi kullanılabilir.
| Senaryo | Model Boyutu (yaklaşık) | Önerilen Yapı | NVLink Yoğunluğu |
|---|---|---|---|
| Tek GPU Inference | < 70B (BF16) | 1x H200 (141 GB) | Yok |
| 2-GPU TP | 70B – 140B | 2x H200 NVLink | Orta |
| 4-GPU TP | 140B – 340B | 4x H200 (HGX) | Yüksek |
| 8-GPU Full TP+PP | 340B – 1T+ | HGX H200 (8x GPU) | Kritik |
| Multi-Node Cluster | 1T+ (GPT-4 sınıfı) | HGX H200 × N + InfiniBand NDR | Kritik |
Tensor Parallelism dereceleri (tp=2, 4, 8) NVLink bant genişliğini doğrudan etkiler.
TP=8 yapılandırması, her forward pass'ta tüm NVSwitch topolojisini tam kapasiteyle kullanır.
Bu nedenle TP derecesi ile NVLink bant genişliği arasındaki ilişki, inference latency'yi
doğrudan belirleyen en kritik faktördür.
H200 NVL ve HGX H200: Mimari Farklar ve Pratik Notlar
NVIDIA, H200 ekosisteminde iki ana platform sunar: H200 NVL ve HGX H200. Her ikisi de NVLink kullanır ancak topoloji ve ölçek bakımından önemli farklılıklar taşır.
| Özellik | H200 NVL (2-GPU) | HGX H200 (8-GPU) |
|---|---|---|
| GPU Sayısı | 2 GPU (tek modül) | 8 GPU (baseboard) |
| HBM Kapasitesi | 2 × 141 GB = 282 GB | 8 × 141 GB = 1,128 GB |
| NVLink Versiyonu | NVLink 4.0 | NVLink 4.0 |
| NVSwitch | Yok (direkt link) | 4× NVSwitch 3.0 |
| Toplam Çift-Yön BW | 450 GB/s | 3,6 TB/s |
| TDP | 2 × 600W = 1,200W | 8 × 700W = 5,600W |
| Soğutma | Hava (bazı konfigürasyonlar) | Sıvı soğutma önerilen |
| İdeal Kullanım | 70B-140B inference, fine-tuning | 340B+ eğitim, büyük LLM inference |
Supermicro Platform Notları
Supermicro'nun HGX H200 destekli platformları (SYS-821GE-TNHR, SYS-951GE-TNRT vb.) NVSwitch 3.0 ile tam entegrasyon sunmaktadır. Bu platformlarda dikkat edilmesi gereken birkaç kritik mimari karar bulunur:
HGX platformlarda GPU'ların host CPU ile bağlantısı PCIe üzerinden yapılır. Ancak GPU-to-GPU tüm iletişim NVSwitch üzerinden geçer. Bu mimari, veri hazırlama (data loading) pipeline'ının PCIe bant genişliğini doyurmamasını gerektirir; aksi hâlde NVLink bant genişliğinden elde edilen kazanım boşa gider.
HGX H200 baseboard 5,600W toplam TDP değeriyle hava soğutmasının sınırlarını zorlayabilir.
Supermicro'nun sıvı soğutmalı SYS-821GE-TNHR gibi sistemleri bu iş yükü için
daha güvenilir termal marj sunar. NVSwitch yongaları da ısınma açısından izlenmelidir;
nvidia-smi ve DCGM üzerinden sıcaklık monitörü kritik operasyonel gerekliliktir.
Çift soketli HGX sistemlerde (2x CPU), GPU'ların CPU NUMA node'larına eşleşmesi
PCIe transfer etkinliğini doğrudan etkiler. GPU 0-3 genellikle CPU 0'a, GPU 4-7 ise
CPU 1'e bağlıdır. nvidia-smi topo --matrix komutu ile topolojiyi doğrulayın
ve veri işleme süreçlerinizi NUMA-aware şekilde pinleyin.
Günlük Operasyonda Dikkat Edilmesi Gerekenler
İzleme ve Teşhis Araçları
| Araç | Kullanım Amacı | Kritik Metrik |
|---|---|---|
nvidia-smi nvlink -s |
NVLink bağlantı durumu | TX/RX throughput, hata sayısı |
nvidia-smi topo -m |
Topoloji matrisi | NV1–NV18 bağlantı tipi |
| DCGM (Data Center GPU Manager) | Küme geneli izleme | NVLink hata oranı, termal, güç |
ncu (Nsight Compute) |
Kernel seviyesi profil | NVLink bant genişliği kullanımı |
Sık Karşılaşılan Sorunlar ve Çözümleri
NVLink Replay Hataları: Kablo bağlantısı sorunları veya GPU fiziksel hasarından kaynaklanır. DCGM üzerinden periyodik hata sayımı yapılmalı; replay oranı eşiği aşıyorsa yedek GPU ile değişim planlanmalıdır.
Dengesiz Bant Genişliği: Bazı iş yükleri belirli GPU çiftleri arasında
yoğunlaşabilir. NVSwitch 3.0'ın multicast özelliği doğru yapılandırılmadığında
hotspot oluşabilir. nccl-tests ile all-reduce benchmark yaparak dengesizlik tespiti yapın.
Peer Access Etkin Değil: CUDA Peer Access varsayılan olarak her ortamda
etkin gelmeyebilir. nvidia-smi topo çıktısında GPU çiftleri arasında
NV* yerine SYS görünüyorsa PCIe üzerinden gidiyorsunuz demektir.
🔑 Temel Tasarım İlkesi
NVLink ve NVSwitch altyapısı ne kadar güçlü olursa olsun, yazılım katmanının
(PyTorch, NCCL, vLLM, TensorRT-LLM) bu topolojiyi doğru kullanacak şekilde
yapılandırılması şarttır. Donanım bant genişliğini tam olarak kullanabilmek için
NCCL_P2P_LEVEL=NVL, tensor parallelism gruplarının NVLink topolojisine
hizalanması ve NUMA pinning gibi yazılım-donanım eşgüdümü kritik performans belirleyicisidir.
Özet: Hangi Platform, Hangi iş Yükü?
| İş Yükü Profili | Önerilen Platform | NVLink Rolü | Öncelikli Kısıt |
|---|---|---|---|
| 70B LLM Inference | H200 NVL (2-GPU) | Bellek havuzlama | Token/sn latency |
| 340B+ LLM Inference | HGX H200 (8-GPU) | Tensor Parallelism | NVLink BW, TTFT |
| LLM Fine-tuning | HGX H200 | AllReduce (gradient) | Batch throughput |
| HPC / CFD / FEA | HGX H200 | Halo exchange | Problem boyutu/GPU |
| MoE Model Eğitimi | HGX H200 multi-node | All-to-All routing | NVSwitch + IB BW |
NVLink ve NVSwitch, modern AI altyapısının vazgeçilmez bileşenleridir. PCIe'ın yarım asırlık mirasını aşarak GPU'lar arası iletişimi tamamen yeniden tanımlayan bu teknoloji, yalnızca bant genişliği artışıyla değil; bellek havuzlama, SHARP tabanlı kolektif optimizasyon ve hata toleransı kapasitesiyle de üretim ortamlarında gerçek bir fark yaratır.
Supermicro HGX H200 platformları bu teknolojiyi veri merkezi ölçeğinde güvenilir biçimde sunarken, GTM Teknoloji olarak doğru platform seçiminden operasyonel yapılandırmaya kadar tüm süreçte teknik destek sunuyoruz.
HGX H200 Altyapınızı Planlayın
NVLink topolojisi, platform seçimi ve kapasite planlaması için teknik ekibimizle görüşün.
Teknik Danışmanlık Talep EdinBu yazıdaki teknik veriler NVIDIA H200 SXM5 ve HGX H200 resmi dokümantasyonuna dayanmaktadır. Bant genişliği değerleri çift yönlü (bidirectional) maksimum teorik değerlerdir; gerçek iş yükü performansı yapılandırma, yazılım yığını ve iş yükü profiline göre değişiklik gösterebilir.