Blackwell: Nvidia yeni nesil yapay zeka hızlandırıcılarını tanıtıyor

Draqon

Aktif Üye
Reklamcılık



Nvidia'nın San José, Kaliforniya'daki şirket içi ticaret fuarı GTC 2024, yıllardan beri ilk kez şahsen gerçekleşti ve şaşırtıcı olmayan bir şekilde tamamen yapay zeka ile ilgiliydi. Nvidia, hızlandırıcı çipleriyle şu anda veri merkezleri pazarına hakim durumda ve yapay zeka patlamasının ardından birbiri ardına finansal rekor sonuçlar üretiyor.

Nvidia patronu Huang bunun böyle kalmasını istiyor. Yeni tanıtılan Blackwell hızlandırıcı mimarisi, B100'den DGX GB200 SuperPOD'a kadar yıl içinde pazara sunulması planlanan çeşitli ürünler biçiminde merkezi bir rol oynuyor. Kağıt üzerinde Blackwell GPU'lar, AMD'nin yepyeni MI300 hızlandırıcılarıyla karşılaştırıldığında bazı veri formatlarında iki kat daha fazla verim elde ediyor.

Yeni Blackwell mimarisi ve 4 bitlik kayan nokta gibi daha da azaltılmış veri formatlarının yanı sıra yeni işlevlerle odak noktası öncelikle enerji verimliliği ve bireysel yongalar arasındaki veri alışverişidir. Bu nedenle NVLink anahtarı ve ağ teknolojisi de yükseltildi.







Nvidia patronu Huang, Blackwell (solda) ve Hopper'ı (sağda) kameraya doğru tutuyor.


(Resim: c't)



Nvidia geleneksel olarak fiyatları isimlendirmez ve ortaklarına atıfta bulunur, ancak AI heyecanı azalmadan devam ettiği sürece çiplerin neredeyse fiyattan bağımsız olarak satılması muhtemeldir. Her durumda, Nvidia zaten müşteri olarak Amazon Web Services, Google Cloud ve Oracle Cloud'u kazandı ancak bulut sunucularının ne zaman rezerve edilebileceğini tam olarak belirtmiyor. Bu arada eski H100 ürünleri de üretim hattından çıkmaya devam ediyor.

Blackwell çift çip


Nvidia, Blackwell ile yeni bir çığır açıyor ancak bazı açılardan kendisine sadık kalıyor. Blackwell “GPU” iki ayrı çipten oluşur. Nvidia, ikisinin işlevsel olarak aynı olup olmadığı sorumuzu yanıtlamak istemedi ancak her ikisinin de pozlama seçeneklerinin sınırına ulaştığını belirtti. Bu, her birinin yaklaşık 800 mm² boyutunda olması gerektiği ve dolayısıyla tek başına önceki H100 (814 mm²) ve A100 (826 mm²) kadar yer kaplaması gerektiği anlamına gelir. Genellikle farklı çiplerin birleştirilmesi anlamına geldiği anlaşıldığından chiplet kelimesinden bahsedilmedi.

Nvidia, Blackwell çiplerini TSMC'de “4NP” adı verilen ve üreticinin genel terminolojisine uymayan bir süreçte ürettiriyor. Nvidia, bunun N4P'nin bir türevi olup olmadığı veya sürecin hangi özelliklere sahip olduğu konusunda yanıt vermedi; ancak bunun, her zamanki gibi birkaç parametrenin müşteri gereksinimlerine göre ayarlandığı N4P olduğunu varsayıyoruz.

Nvidia'nın yalnızca Blackwell GPU olarak adlandırdığı her iki çip de birbirine saniyede 10 TByte (her yönde 5 TBytes/s) hızında hızlı bir arayüz aracılığıyla bağlanıyor. Nvidia'ya göre bu, performans açısından tek bir GPU gibi davranmaları için yeterli. Karşılaştırma için: Nvidia'nın üst düzey GeForce RTX 4090 grafik kartlarında veri bağlantı örneği olarak seviye 2 önbellek ile saniyede yaklaşık 5 TByte ölçtük, AMD'nin MI300 hızlandırıcı yongaları birbirine 1,5 TByte/s'ye kadar bağlanıyor.

192 GB HBM3e bellek


Bellek söz konusu olduğunda Nvidia elinden geleni yapıyor ve sekiz adet 24 GB hızlı HBM3e bellek yığınıyla başlıyor. Toplamda 192 GB'a kadar ve 8 TB/s aktarım hızı bir araya geliyor. Bellek boyutu açısından şirket, AMD'nin MI300X'iyle aynı seviyede ancak B100'ün aktarım hızı yaklaşık yüzde 50 daha yüksek; yükseltme de gerekliydi çünkü Nvidia'nın H100 nesli, özellikle bellek boyutu söz konusu olduğunda geride kalıyordu. Sekiz yığınla, teorik olarak daha sonra 36 GB'lık yığına geçme ve kapasiteyi 288 GB'a çıkarma seçeneğiniz de vardır.

Sunumda iç yapıya dair sadece birkaç detay vardı. Nvidia yalnızca Tensor çekirdekleri için performans verilerini verdi ancak geleneksel gölgelendirici hesaplayıcıları ve diğer birimler hakkında sessiz kaldı.

Tablodaki sunum için verim değerlerini seyrek olarak kullandık; yoğun nüfuslu matrislerde teraflop rakamları yarıya iner.

Veri merkezleri ve yapay zeka için hızlandırıcılar

Soyadı​

GB200​

AMD MI300X​

H100​

A100​

mimari​

1x Grace + 2x Blackwell​

CDNA3​

Hazneler​

Ada​

Transistörler​

2x 104 milyar / 4NP / ~800 mm²​

153 milyar / N5 + N6'dan oluşan çeşitli yongalar​

80 milyar / 4N / 814 mm²​

54,2 milyar / N7 / 826 mm²​

biçim​

Eklenti kartı (1U raf başına 2 adet) / SXM​

SXM5​

SXM5​

SXM4​

Yıl​

2024​

2023​

2022​

2020​

TDP​

1200 watt​

750 watt​

700 watt​

400/500 watt​

Depolamak​

192 GB HBM3e​

192 GB HBM3​

80 GB HBM3​

80 GB HBM2E​

Transfer oranı​

8 TBayt/sn​

5,3 TBayt/sn​

3,35 TBayt/sn​

2,04 TBayt/sn​

GPU-GPU bağlantısı​

NVLink 5. Nesil, 1,8 TBayt/sn​

896 GB/sn​

NVLink 4. Nesil, 900 GB/sn​

NVLink 3. Nesil, 600 GB/sn​

GPU aracılığıyla bilgi işlem gücü Tensör çekirdeği (TFLOPS, seyrek)​

FP64 (teraflop)​

45​

163​

67​

19.5​

FP32 (teraflop)​

k.Bilgi​

163​

k. Şartname​

k. Şartname​

TF32 (teraflop)​

2500​

1307​

989​

312​

BF16 (teraflop)​

5000​

2615​

1979​

624​

FP8 (teraflop)​

10000​

5230​

3958​

k. Şartname (INT8: 1248 TOPS)​

FP4 (teraflop)​

20000​

k.Bilgi​

k. Şartname​

k. Şartname​

GPU başına bilgi işlem gücü gölgelendirici çekirdeği (teraflop)​

FP64 (teraflop)​

k.Bilgi​

81.7​

33.5​

9.7​

FP32 (teraflop)​

k.Bilgi​

163.4​

66.9​

19.5​

BF16 (teraflop)​

k.Bilgi​

k.Bilgi​

133.8​

39​

FP16 (teraflop)​

k.Bilgi​

k.Bilgi​

133.8​

78​
FP4 ve FP6


Blackwell'de yeni olan, diğer şeylerin yanı sıra, çipin Transformer motorunda bir Nvidia çalışanının işbirliğiyle hazırlanan bir araştırma makalesinin bulunduğu 4 bitlik kayan nokta formatı (FP4) desteğidir. Bu, Büyük Dil Modellerinin (LLM) yapay zeka çıkarımına yönelik ağırlıkların ve aktivasyonların yalnızca 4 bit ile kaydedilmesi gerektiği anlamına gelir. Yazarlar şunu iddia ediyor: “Metodumuz, LLaMA-13B modelindeki hem ağırlıkları hem de aktivasyonları ilk kez yalnızca 4 bit olarak ölçebilir ve sağduyulu sıfır atış muhakeme görevlerinde ortalama 63,1 puan elde edebilir, bu da yalnızca 5,8 puandır. tam hassasiyetli modelden daha düşük ve önceki teknoloji durumunu 12,7 puanla önemli ölçüde aşıyor.” Bu nedenle FP4, sonucun doğruluğunda yalnızca nispeten küçük kayıplarla önemli ölçüde daha az veriyi işleyebilir; bu, yalnızca işlem hızını iki katına çıkarmakla kalmaz, aynı zamanda olası model boyutunu da iki katına çıkarır.







Blackwell resmin sağında ve ortasında görünüyor: GB200 kartı ve Blackwell çift çipi


(Resim: c't)



Güncelleme: Açılış konuşması sırasında Nvidia CEO'su Huang, FP6'nın da bir seçenek olduğunu açıkladı. Bu format, FP8'e kıyasla ek bilgi işlem verimi sağlamaz ancak bellek, önbellek ve kayıt alanından ve dolayısıyla enerjiden tasarruf sağlar.

Nvidia, 1,8 trilyon parametreli bir GPT modeliyle (İngilizce: “1,8T Params”), Uzmanlar Karışımı adı verilen, yani ayarlanmış hesaplama ve veri doğruluğuna sahip GB200 ile H100'den 30 kat daha hızlı olmayı istiyor. tabanlı bir sistemdir ve 25 kat daha verimli çalışır. Nvidia, performansı tek bir GPU'ya düşürdüğünü iddia ediyor, ancak gerçekte 8 HGX100 ve 400G Infiniband ara bağlantısına sahip bir sistemi 18 GB200 süper çiplerle (NVL36) karşılaştırıyor.

Ancak yerleşik FP8 veri formatıyla bile Blackwell kağıt üzerinde AMD'nin MI300X'inden neredeyse iki kat, önceki H100'den ise 2,5 kat daha hızlı.



Haberin Sonu