Navigation

Alphabet & NVIDIA: De TPU-GPU-oorlog: Een uitleg en meer

Alphabet & NVIDIA: De TPU-GPU-oorlog: Een uitleg en meer
pro
SCE Trader

De concurrentiestrijd tussen AI-accelerators verschuift snel van brute rekenkracht naar de vraag hoe laag de numerieke precisie kan worden ingesteld zonder dat grote taalmodellen instabiel worden.

  • NVIDIA richt Blackwell volledig in op MXFP4 en MXFP6, wat geheugenverkeer sterk reduceert en tokens per watt maximaliseert.
  • Microscaling is krachtig maar numeriek kwetsbaar, en vereist complexe uitzonderingspaden voor submodules die hogere precisie nodig hebben.
  • Google’s Ironwood ontwijkt 4-bitformaten bewust en vertrouwt op een massief FP8-platform met uitzonderlijk veel HBM3E.
  • Voor agent-workflows in 2026 wegen p99- en p999-betrouwbaarheid zwaarder dan theoretische efficiëntiewinsten, wat Google’s strategie logisch maakt.
  • De mogelijke overstap van Meta naar TPU’s laat zien dat custom accelerators snel terrein winnen, ondanks de blijvende dominantie van merchant GPUs.

NVIDIA’s Blackwell-architectuur zet sterk in op 4- en 6-bit microscalingformaten, terwijl Google met TPU v7 Ironwood juist kiest voor een robuuste FP8-strategie. Dit gaat veel verder dan techniek; het gaat om twee totaal verschillende visies op schaalbaarheid, betrouwbaarheid en total cost of ownership voor de AI-infrastructuur van 2026.

De kloof tussen beide strategieën raakt de kern van operationele realiteit. Waar NVIDIA gelooft dat bitreductie de belangrijkste hefboom wordt om tokens per watt te maximaliseren, gaat Google ervan uit dat langdurige agent-workflows juist baat hebben bij uniforme precisie en een foutarme FP8-pijplijn.

Daardoor ontstaat een structurele technologische splitsing die niet simpelweg voortkomt uit ontwerpkeuzes, maar uit twee totaal verschillende wereldbeelden.

NVIDIA’s microscaling-strategie

MXFP4 en MXFP6 zijn block-floating-pointformaten waarin groepen waarden één FP8-schaal delen, terwijl individuele elementen slechts 4 of 6 bits mantisse hebben. Hierdoor halveert het datavolume ten opzichte van FP8, wat direct leidt tot lagere HBM-druk en een hogere tokens-per-watt-efficiëntie.

NVIDIA heeft dit principe diep geïntegreerd in Blackwell: tensor cores ondersteunen MXFP4, MXFP6 en NVFP4 direct, en de hele softwarestack – van CUDA tot Triton – is herschreven om block-scaled matmuls te genereren in plaats van traditionele FP16-kernen. In interne trainingsresultaten blijft NVFP4 verrassend dicht bij BF16, terwijl de rekenprestaties fors hoger liggen. Dit maakt 4-bit-paden aantrekkelijk, maar alleen wanneer ze volledig stabiel blijven.

Kwetsbaarheid is het sleutelwoord. Microscaling vereist nauwkeurige schaalselectie, zorgvuldig ontworpen rounding, outlier-mechanismen en uitzonderingspaden voor kritieke onderdelen zoals attention-logits, layernorm-statistieken en KV-caches. De winst is aanzienlijk, maar de benodigde engineering eveneens.

Google’s Ironwood-benadering

Disclaimer Aan de door ons opgestelde informatie kan op geen enkele wijze rechten worden ontleend. Alle door ons verstrekte informatie en analyses zijn geheel vrijblijvend. Alle consequenties van het op welke wijze dan ook toepassen van de informatie blijven volledig voor uw eigen rekening.

Wij aanvaarden geen aansprakelijkheid voor de mogelijke gevolgen of schade die zouden kunnen voortvloeien uit het gebruik van de door ons gepubliceerde informatie. U bent zelf eindverantwoordelijk voor de beslissingen die u neemt met betrekking tot uw beleggingen.