NVIDIA GB300 z dużą przewagą w testach Agentic AI. Blackwell Ultra wyprzedza Hopper
NVIDIA opublikowała pierwsze wyniki platformy GB300 NVL72 w benchmarku AA-AgentPerf, który sprawdza wydajność systemów obsługujących agentowe obciążenia AI. Według przedstawionych danych układy Blackwell Ultra zapewniają znaczącą przewagę nad generacją Hopper, szczególnie pod względem liczby równocześnie działających agentów w przeliczeniu na zużycie energii.
Nowy benchmark dla agentowych zastosowań AI
AA-AgentPerf to test opracowany przez Artificial Analysis. Jego celem jest pomiar liczby aktywnych agentów, jaką może obsłużyć infrastruktura inferencyjna w warunkach zbliżonych do rzeczywistych wdrożeń.
Benchmark obejmuje między innymi wieloetapowe sesje kodowania, przeplatanie rozumowania z wywołaniami narzędzi oraz zmienne długości kontekstu. Uwzględnia także długotrwałe obciążenie współbieżne, ponowne wykorzystanie pamięci podręcznej KV, dekodowanie spekulacyjne i działanie mechanizmów planowania zadań.
Najważniejsze elementy AA-AgentPerf
- Rzeczywiste trajektorie agentowe: testy obejmują wieloturowe sesje, a nie jednorodne, syntetyczne zapytania.
- Stałe obciążenie współbieżne: symulowani agenci utrzymują ciągłe żądania w toku.
- Poziomy SLO oparte na rynku: progi wydajności są wyznaczane na podstawie danych z benchmarków API serverless.
- Ciągła aktualizacja: wyniki mają być odświeżane wraz z pojawianiem się nowych platform, oprogramowania i modeli.
- Konfiguracje produkcyjne: modele są testowane z realistycznymi optymalizacjami i topologiami wdrożeń.
Trzy kluczowe wskaźniki wydajności
AA-AgentPerf koncentruje się na metrykach istotnych dla współczesnych wdrożeń AI. Oceniany jest czas do wygenerowania pierwszego tokena, szybkość generowania odpowiedzi oraz łączna przepustowość systemu przy wielu jednoczesnych agentach.
- Time to First Token: opóźnienie od wysłania żądania do otrzymania pierwszego tokena odpowiedzi.
- Output Speed: liczba tokenów wyjściowych na sekundę po pojawieniu się pierwszego tokena.
- System Output Throughput: łączna liczba tokenów wyjściowych na sekundę dla wszystkich aktywnych agentów.
GB300 NVL72 kontra HGX H200
NVIDIA przetestowała platformę GB300 NVL72 z modelem DeepSeek V4 Pro. Producent wskazuje, że jest to typ modelu frontier wykorzystywanego obecnie w agentowych zastosowaniach AI.
W pierwszej rundzie wyników GB300 uzyskał 20-krotną przewagę w przeliczeniu na megawat względem starszej platformy HGX H200. Według danych NVIDIA system GB300 NVL72 może obsłużyć 61,4 tys. jednoczesnych agentów na megawat, podczas gdy H200 osiąga 2,6 tys.
- Jednocześni agenci na megawat: NVIDIA GB300 NVL72 — 61,4 tys.; NVIDIA H200 — 2,6 tys.
- Jednocześni agenci na GPU: NVIDIA GB300 NVL72 — 57,5; NVIDIA H200 — 1,4.
NVIDIA podkreśla, że wyniki pokazują zdolność GB300 NVL72 i architektury Blackwell do obsługi dużych agentowych obciążeń programistycznych przy wysokim wykorzystaniu GPU w wielu równoległych sesjach.
Rubin na horyzoncie
Firma wskazuje również na nadchodzącą architekturę Rubin, która ma dalej zwiększyć osiągi. Według podanych informacji Rubin ma oferować 50 PFLOPs mocy obliczeniowej w formacie NVFP4, a w połączeniu z procesorem Vera ma poprawić wydajność wywołań narzędzi przez modele LLM oraz efektywność całego procesu.