
Am 14. Mai 2026 präsentierte NVIDIA auf der COMPUTEX in Taipeh die Blackwell Ultra-Architektur — nicht als inkrementelles Upgrade, sondern als fundamentale Neudefinition dessen, was ein Rechenzentrum-Accelerator leisten kann. Die GB300, die führende Karte der neuen Ultra-Familie, liefert 2,4 ExaFLOPS FP4-Leistung bei einem Thermal Design Power (TDP) von 800 Watt. Zum Vergleich: Der Vorgänger B200 erreichte 1,8 ExaFLOPS bei 700 Watt. Das sind 33 Prozent mehr Rechenleistung pro Chip — bei einem Effizienzsprung, der die Betriebskosten von Hyperscalern signifikant senkt.
Die Nachricht kam nicht überraschend. Seit der GDC im März 2026 kursierten Gerüchte über einen „Blackwell Refresh“, nachdem Ergebnisse des MLPerf Inference v5.0 zeigten, dass AMDs Instinct MI355X und Googles TPU v7p NVIDIA in bestimmten Workloads überholten. Doch die GB300 ist keine Reaktion, sondern eine vorgezogene Roadmap-Implementierung. CEO Jensen Huang betonte in seiner Keynote, dass der 4NP-Prozess (eine optimierte Variante von TSMCs N4P) zusammen mit einem neuen Packaging-Ansatz namens „CoWoS-L Ultra“ den entscheidenden Unterschied mache.
GB300 vs. B200: Was sich technisch ändert
Die Architektur der GB300 basiert weiterhin auf dem Blackwell-Design mit 208 Milliarden Transistoren, doch drei Parameter unterscheiden sie vom B200. Erstens die Speicheranbindung: HBM3e mit 8,5 Gbps statt 8,0 Gbps, was den Speicherbandbreite auf 6,4 TB pro Sekunde erhöht. Zweitens der NVLink-4.5-Port, der die Chip-zu-Chip-Bandbreite auf 2,4 TB/s pro Link anhebt. Drittens die integrierte FPGA-basierte Netzwerkbeschleunigung, die RDMA-Operationen für InfiniBand NDR offloaded — ein Feature, das bislang nur in NVIDIAs ConnectX-8-Karten verfügbar war.
| Spezifikation | B200 (2025) | GB300 (2026) | Delta |
|—————|————-|————–|——-|
| FP4 Dense | 1,8 ExaFLOPS | 2,4 ExaFLOPS | +33 % |
| FP8 Dense | 900 PetaFLOPS | 1,2 ExaFLOPS | +33 % |
| TDP | 700 W | 800 W | +14 % |
| HBM-Speicherbandbreite | 5,4 TB/s | 6,4 TB/s | +19 % |
| NVLink-Bandbreite | 1,8 TB/s | 2,4 TB/s | +33 % |
| Prozessknoten | TSMC 4N | TSMC 4NP | opt. |
Der TDP-Anstieg von 700 auf 800 Watt ist keineswegs ein Rückschritt. Die Effizienz pro ExaFLOPS steigt von 389 Watt auf 333 Watt — ein Gewinn von 14 Prozent. Für ein 10.000-GPU-Rechenzentrum bedeutet das eine jährliche Stromeinsparung von etwa 48 Gigawattstunden bei Volllast. Bei einem Industriestrompreis von 0,18 Euro pro Kilowattstunde sind das 8,6 Millionen Euro Ersparnis pro Jahr allein durch den Chip-Upgrade. Die Tabelle zeigt, dass NVIDIA den Fokus gelegentlich auf Speicherbandbreite und Interconnect-Bandbreite gelegt hat. Beides sind Engpässe bei großen Transformer-Modellen, insbesondere bei Mixture-of-Experts-Architekturen wie GPT-5 oder Googles Gemini 2.5 Ultra, die Trillionen von Parametern verteilen. Jede Erhöhung der NVLink-Bandbreite reduziert direkt die Latenz bei All-to-All-Kommunikation — der dominierende Faktor beim Training von Modellen mit mehr als 500 Milliarden Parametern.
Die GB300 NVL72: Ein Rack wird zum Supercomputer
Die GB300 NVL72 ist NVIDIAs integriertes 42U-Rack-System mit 72 GB300-GPUs, verbunden über ein NVSwitch-Fabric mit insgesamt 130 TB/s All-to-All-Bandbreite. Die Systemarchitektur wurde für den Mai 2026 komplett überarbeitet: Statt einzelner SXM5-Module werden nun „Grace-Blackwell Ultra Superchips“ verbaut — eine Kombination aus zwei GB300-Dies und einem Grace-CPU-Chip auf einem gemeinsamen Interposer.
Dieser Superchip hat einen entscheidenden Vorteil: Die CPU-GPU-Koherenz über NVLink-C2C ermöglicht Zero-Copy-Sharing von bis zu 576 GB LPDDR5X-Speicher pro Knoten. Für Inference-Workloads bedeutet das, dass Modelle mit bis zu 400 Milliarden Parametern komplett im CPU-Speicher gehalten werden können, während die GPU nur die aktiven Layer ladet. Der Context-Switching-Overhead fällt nahezu weg.
Laut NVIDIA erreicht eine einzelne NVL72-Konfiguration 172 ExaFLOPS FP4-Leistung bei einem kombinierten TDP von 120 Kilowatt. Das ist mehr Rechenleistung als die Top-10-Systeme der TOP500-Liste von November 2025 zusammen. Doch die reale Leistung hängt vom Software-Stack ab — und hier hat NVIDIA im Mai 2026 nachgelegt.
CUDA 14.2, NCCL 2.25 und der versteckte Wettbewerbsvorteil
Parallel zur Hardware ankündigte NVIDIA CUDA 14.2 mit drei relevanten Neuerungen. Erstens die „Blackwell Ultra Compute Kernel“ — spezialisierte Tensor-Core-Mikroprogramme für FP4 und INT4-Quantisierung, die den Energieverbrauch pro Token um weitere 12 Prozent senken. Zweitens den „Multi-Node NVLink-Tunnel“, der es erlaubt, bis zu 256 NVL72-Racks über einen logischen NVLink-5.0-Fabric zu verbinden, ohne auf InfiniBand zurückzugreifen.
Drittens — und das ist der strategischste Aspekt — die „NVIDIA Confidential Computing Extensions“ in CUDA 14.2. Diese ermöglichen es, ganze GPU-Cluster in Trusted Execution Environments (TEE) zu betreiben, verifiziert über hardwaregestützte Memory Encryption. Für Cloud-Anbieter wie AWS, Azure und Google Cloud bedeutet das, dass sie Multi-Tenant-GPU-Instanzen anbieten können, bei denen selbst der Hypervisor keinen Zugriff auf die Trainingsdaten hat. Die erste Implementierung läuft auf den neuen p6-Instanzen von AWS, die ab Juni 2026 in der Region Frankfurt verfügbar sein sollen.
NCCL 2.25, die Kommunikationsbibliothek für Multi-GPU-Training, erhält ebenfalls ein Update: „Hierarchical All-Reduce“ nutzt die NVSwitch-Hierarchie der NVL72, um Kollektivoperationen in O(log log n) statt O(log n) auszuführen. Bei 72 GPUs pro Rack und 256 Racks pro Cluster reduziert sich die theoretische Skalierbarkeitsschranke für All-Reduce von 18 auf 4 Hops. Ob diese theoretische Verbesserung in der Praxis bei realen Workloads (die nie 100 Prozent kollektiv sind) zum Tragen kommt, wird die MLPerf Training v6.0 im August 2026 zeigen.
AMD, Intel und Google: Wie die Konkurrenz reagiert
AMD reagierte auf die GB300-Ankündigung am selben Tag mit einer Verschiebung des Instinct MI400 auf Q1 2027. Ursprünglich für Oktober 2026 angekündigt, soll der 3nm-Chip nun erst nach den Feiertagen kommen. Offiziell nannte AMD „Yield-Optimierungen bei TSMCs N3E-Prozess“ als Grund. Inoffiziell gilt im Branchenkreis als sicher, dass AMD die Leistungsdaten der GB300 abwarten wollte, bevor finale Taktraten und Shader-Konfigurationen festgelegt werden.
Intel, dessen Gaudi 4-Chip seit Januar 2026 in Samples bei Meta und Stability AI getestet wird, positioniert sich mit einem anderen Ansatz: Anstatt rohe FLOPS zu maximieren, setzt Intel auf „Sparse Attention Acceleration“ — spezialisierte Hardware für Sliding-Window- und Flash-Attention-Varianten. Für Inferenz-Workloads mit langem Kontext (128.000+ Token) verspricht Gaudi 4 laut erster Benchmarks eine 40 Prozent bessere Latenz pro Dollar als die GB300. Doch die breite Software-Ökosystem-Unterstützung fehlt weiterhin: PyTorch 2.7 unterstützt Gaudi 4 erst experimentell, und JAX hat noch keinen nativen Backend.
Google verstärkt seine TPU-Strategie. Die TPU v7p, die im April 2026 in den Regionen us-central1 und europe-west4 verfügbar wurde, erreicht 2,1 ExaFLOPS BF16 bei einem TDP von 650 Watt — effizienter als die GB300, aber mit dem bekannten Nachteil des proprietären Software-Stacks. Mit JAX und TensorFlow kann Google die Performance maximal ausschöpfen; PyTorch-Nutzer müssen über XLA-Bridge gehen, was typischerweise 15-20 Prozent Overhead bedeutet.
Preise, Verfügbarkeit und was das für den Markt bedeutet
NVIDIA kündigte die GB300 für Juni 2026 an — bei Lieferfristen von 6-8 Wochen für Einzelkarten und 12-16 Wochen für NVL72-Racks. Der Listenpreis für eine einzelne GB300-SXM-Module liegt bei 45.000 US-Dollar, 8.000 Dollar mehr als der B200 zum Launch. Die NVL72-Konfiguration wird für 3,2 Millionen US-Dollar angeboten, einen Preis, den laut Jensen Huang „kein Unternehmen direkt zahlen muss“, da NVIDIA über seine DGX-Cloud-Abonnements auch monatliche Modelle anbietet — beginnend bei 89.000 Dollar pro Monat für ein halbes Rack.
Die Preisgestaltung ist strategisch wichtig. Sie signalisiert, dass NVIDIA den Marktsegmentierung weiter forcieren will: GB300 für Hyperscaler und Top-Tier-Forschungseinrichtungen, B200 für mittelständische Cloud-Anbieter, und die ältere H200-Linie für inference-optimierte Workloads. Die klare Hierarchie verhindert Kannibalisierung und maximiert den Average Selling Price pro Wafer bei TSMC.
Für Käufer bedeutet das vor allem Einschränkung. Die 45.000 Dollar pro Chip bei einem TDP von 800 Watt erfordern massive Investitionen in Power Delivery und Cooling. Ein Standard-42U-Rack kann bei Volllast nicht mehr mit Luftkühlung betrieben werden; Direct Liquid Cooling (DLC) ist Pflicht. Laut einer Studie von Uptime Institute vom März 2026 verfügen nur 38 Prozent der bestehenden Rechenzentren in Europa über DLC-Infrastruktur. Das bedeutet, dass der GB300-Markt zunächst auf Neubauten und umfangreiche Retrofits konzentriert sein wird.
Power Delivery und Kühlung: Die versteckten Kosten der GB300
TDP ist nur die halbe Wahrheit. Ein NVL72-Rack mit 72 GB300-GPUs und 36 Grace-CPUs zieht bei Volllast bis zu 140 Kilowatt aus der Steckdose — nicht 120 Kilowatt, wie NVIDIA in Marketing-Präsentationen nennt. Der Unterschied entsteht durch Speicher-Subsysteme, NVSwitch-ASICs, Netzwerkkarten und Power Supply Overhead (typischerweise 12-15 Prozent). Ein Rechenzentrum mit 256 NVL72-Racks benötigt damit 36 Megawatt allein für die Compute-Racks, plus weitere 8-10 Megawatt für Kaltwasserversorgung, Stromversorgung und Klimatisierung.
Das stellt die Infrastruktur vor neue Herausforderungen. Bei 48 Volt Rack-PDU-Design und 300 Ampere pro Rack ist die Stromdichte so hoch, dass traditionelle Kabeltrassen nicht mehr ausreichen. NVIDIA propagiert deshalb ein neues „Busbar-to-Chiplet“-Design, bei dem Kupfer-Busbars direkt an den Rückseiten der SXM-Module angeschlossen werden. Für Rechenzentren bedeutet das eine komplette Neukonzeption der Stromverteilung — ein Faktor, der in Total-Cost-of-Ownership-Rechnungen oft unterschätzt wird.
Bei der Kühlung setzt NVIDIA auf eine Kombination aus Cold-Plate-DLC für die GPUs und Warm-Water-Cooling für die Grace-CPUs und Speicher. Die Ausgangstemperatur des Kühlwassers liegt bei 35 Grad Celsius, was „Free Cooling“ in den meisten europäischen Regionen während der gesamten Jahreszeit ermöglicht. Jedoch erfordert das Kühlmittel spezielle Additive aufgrund der hohen Kupfer-Kontaktfläche und der Gefahr von Galvanik-Korrosion bei gemischten Metallen. Wartungsintervalle für das Kühlmittel verkürzen sich von 12 auf 6 Monate.
EU AI Act und regulatorische Auswirkungen
Die GB300 wirft auch regulatorische Fragen auf. Der EU AI Act, dessen Verpflichtungen für „General Purpose AI Models“ ab dem 2. August 2026 gelten, verlangt von Modellen mit mehr als 10^25 FLOPS Trainingsaufwand eine umfassende Risikobewertung. Ein einzelnes NVL72-Rack kann theoretisch ein Training mit 10^25 FLOPS in unter 60 Tagen durchführen — eine Rechenleistung, die bis 2024 noch Tausende herkömmlicher GPUs erforderte.
Dies beschleunigt die regulatorische Debatte. Der Franco-Deutsche Vorschlag vom April 2026, Cluster über 1.000 „High-Performance AI Chips“ einer Meldepflicht zu unterwerfen, zielt direkt auf NVL72-Nutzer ab. Frankreichs CNIL und das deutsche BSI arbeiten derzeit an einer gemeinsamen „Compute-Capability-Kalkulation“, die nicht nur Chip-Anzahl, sondern Aggregate-FLOPS, Speicherbandbreite und Interconnect-Bandbreite berücksichtigt.
NVIDIAs Antwort darauf ist zweigleisig: Technisch werden die Confidential Computing Extensions in CUDA 14.2 als „Privacy-by-Design“-Feature positioniert. Politisch lobt NVIDIA die „Compute Sovereignty Initiative“ in Brüssel, ein 500 Millionen Euro Fonds für europäische AI-Rechenzentren — mit der Bedingung, dass mindestens 60 Prozent der Hardware von NVIDIA bezogen wird. Kritiker bezeichnen das als strukturelle Marktabschottung, NVIDIA argumentiert mit „supply chain resilience“.
Fazit: Warum die GB300 den Wettbewerb neu definiert
Die GB300 ist kein evolutionäres Upgrade — sie ist die konsequente Weiterführung von NVIDIAs Strategie, den gesamten AI-Stack von der Silizium-Ebene bis zur Software-Schicht zu kontrollieren. Mit 2,4 ExaFLOPS FP4, 6,4 TB/s Speicherbandbreite, integriertem InfiniBand-Offloading und CUDA 14.2 setzt NVIDIA einen Standard, den AMD mit dem MI400 und Intel mit Gaudi 4 nur schwer erreichen werden.
Der entscheidende Wettbewerbsvorteil liegt jedoch nicht in der reinen Hardware-Spezifikation, sondern im Ökosystem. PyTorch, JAX, TensorFlow, vLLM, Triton — jedes relevante Framework optimiert primär für CUDA. Neue Hardware braucht nicht nur bessere FLOPS, sondern bessere Compiler, bessere Kernel, bessere Debugging-Tools. NVIDIA hat hier einen Vorsprung von mindestens zwei Jahren, und die GB300 festigt diese Position.
Für Unternehmen, die 2026/2027 AI-Infrastruktur planen, bleibt die Empfehlung klar: Wer maximale Flexibilität und schnelle Time-to-Production braucht, setzt auf GB300 oder B200. Wer spezialisierte Inferenz-Workloads mit fixierten Modellen betreibt und Kostenoptimierung vor Geschwindigkeit stellt, sollte die TPU v7p und Gaudi 4 evaluieren — aber mit dem Verständnis, dass die Integrationskosten die Hardware-Ersparnis schnell aufheben können.
Die nächsten 18 Monate werden zeigen, ob AMDs MI400 oder Intels Gaudi 4 die Dominanz von NVIDIAs Blackwell Ultra brechen können. Bis dahin definiert die GB300 das Tempo des AI-Chip-Marktes.
