💡 AI ontwikkeling: Kosten zijn een groot probleem - Uitleg en de oplossing

SCE Trader

7 sep. 2025 - 10:08

De torenhoge kosten van kunstmatige intelligentie vormen vandaag de dag een grote uitdaging voor zelfs de meest toonaangevende technologiebedrijven.

Wil je alle artikelen kunnen lezen en elke podcast beluisteren? Neem dan een abonnement en krijg toegang tot alle artikelen en de database met duizenden berichten.

In dit artikel geven we een uitleg, en aan het einde is er een bibliotheek toegevoegd met AI-begrippen die we hierin gebruiken.

Dit document dient daarnaast als kapstok om later terug te komen op een aantal aandelen die met hun softwareoplossingen kunnen bijdragen aan meer efficiëntie. We gaan nu verder met de uiteenzetting van de situatie.

Laten we beginnen

Organisaties zoals OpenAI, Meta Platforms, Amazon, Alphabet en bijvoorbeeld Microsoft worden geconfronteerd met een kostenstructuur die niet langer marginaal is, maar bepalend voor hun strategische vrijheid.

Een concreet voorbeeld is OpenAI (niet beursgenoteerd), dat naar verwachting tot en met 2029 een cumulatieve uitgave van maar liefst 115 miljard dollar zal realiseren. De jaarlijkse burn rate begint in 2025 rond de 8 miljard dollar, maar loopt in de jaren daarna sterk op, tot naar schatting 45 miljard dollar in 2028.

Dat betekent dat de kostenstroom van dit ene bedrijf op zichzelf al vergelijkbaar is met de jaarbudgetten van complete sectoren.

Deze kosten zijn niet willekeurig of tijdelijk, maar hangen direct samen met de aard van het productieproces van AI. Elke extra verbetering in de prestaties van een model vereist doorgaans meer data, meer tokens, meer berekeningen en daarmee meer rekenkracht en energie dan de vorige stap.

Daarbovenop komt een fysieke en financiële context die de situatie nog complexer maakt. Volgens recente analyses, waaronder rapporten van The Information, zal de totale kapitaaluitgave (Capex) voor datacenters tegen 2028 stijgen tot ongeveer 2,9 biljoen dollar.

Dit bedrag is zo groot dat het niet alleen de techsector raakt, maar ook macro-economische gevolgen heeft. De financiering van deze uitgaven wordt steeds moeilijker.

De weighted average cost of capital (WACC) is toegenomen door de hogere rentestanden en de verschuiving van klassieke bankenfinanciering naar private credit (zie dit artikel van begin augustus). Dat betekent dat geld alleen beschikbaar komt tegen strengere voorwaarden.

In dat verlengde hebben we begin september ook aandacht besteed aan het feit dat de bouw van AI-infrastructuur steeds meer lijkt op een landrush (zie artikel).

De energievoorziening wordt beperkt door netcongestie, door een gebrek aan voldoende goedkope bronnen en door vertragingen in de uitrol en verzwaring van infrastructuur.

Daardoor is het idee om simpelweg meer GPU’s in te kopen niet langer een haalbare strategie. Het leidt tot hogere kosten en langere doorlooptijden, maar lost het onderliggende probleem niet op.

Kernpunten

De kosten van AI stijgen exponentieel en beperken de strategische vrijheid van grote techbedrijven.
OpenAI verwacht tot 2029 een cumulatieve uitgave van 115 miljard dollar, met een burn rate die oploopt tot 45 miljard in 2028.
Wereldwijde Capex voor datacenters stijgt naar 2,9 biljoen dollar in 2028.
Financiering wordt duurder door stijgende WACC en afhankelijkheid van private credit.
Energie is een beperkende factor door netcongestie en infrastructuur-problemen.

Softwaregedreven efficiëntie

De uitweg ligt in softwaregedreven efficiëntie. In plaats van brute rekenkracht toe te voegen, moet het werk slimmer worden ingericht. Dat gebeurt door technieken die de afhankelijkheid van dure en energie-intensieve hardware verminderen en het rendement op bestaande infrastructuur vergroten.

Een eerste pijler is agressieve data-curatie. Daarbij wordt systematisch gekeken welke gegevens wel en niet bijdragen aan de kwaliteit van een model. Overbodige of irrelevante tokens worden verwijderd, waardoor de dataset compacter en doelgerichter wordt.

Het gevolg is dat minder rekenkracht nodig is om tot dezelfde of zelfs betere resultaten te komen. Door deze opschoning wordt het model niet alleen sneller getraind, maar ook robuuster en beter toepasbaar in de praktijk.

Een tweede techniek is curriculum learning, waarbij een model niet willekeurig wordt blootgesteld aan data, maar stap voor stap de meest waardevolle voorbeelden krijgt aangeboden in een logische volgorde.

Dit bootst het menselijke leerproces na, waarin eenvoudige patronen eerst worden herkend voordat complexere structuren volgen.

Het voordeel is dat de training sneller convergeert en dat minder herhalingen nodig zijn om hetzelfde niveau van nauwkeurigheid te bereiken. Daarmee dalen zowel de kosten als het energieverbruik.

Daarnaast zijn er innovaties als sparsity en lage-bit training. Sparsity betekent dat een model niet langer al zijn parameters tegelijk hoeft te gebruiken. Alleen de relevante onderdelen worden geactiveerd, waardoor de benodigde berekeningen sterk worden teruggebracht.

Lage-bit training gaat nog een stap verder door berekeningen uit te voeren met lagere numerieke precisie, bijvoorbeeld 8-bit in plaats van 16- of 32-bit.

Hoewel dit op papier een versimpeling lijkt, tonen experimenten aan dat de kwaliteit van de uitkomsten behouden blijft, terwijl de rekentijd en energieconsumptie aanzienlijk dalen.

Op het gebied van efficiëntie, zoals sparsity en lage-bit training, ontwikkelen chipfabrikanten ondersteunende oplossingen. NVIDIA en AMD bieden softwarebibliotheken, zoals TensorRT en ROCm, die deze technieken direct mogelijk maken. Hierdoor kunnen bedrijven hun bestaande GPU-capaciteit efficiënter benutten en wordt de noodzaak om steeds duurdere hardware toe te voegen tijdelijk verkleind.

Toch bieden chipfabrikanten slechts een deel van de oplossing: de structurele kostenstijging van kunstmatige intelligentie kan er niet volledig mee worden opgevangen.

Tot slot spelen geautomatiseerde workflows een cruciale rol. In veel organisaties liggen de kosten niet alleen bij de berekeningen zelf, maar ook bij de coördinatie eromheen: data moet worden verzameld, taken moeten worden verdeeld en resultaten moeten worden verwerkt.

Door deze stappen te automatiseren verdwijnen wachttijden en wordt de kans op menselijke fouten geminimaliseerd. Hierdoor kunnen projecten sneller worden afgerond en komt er ruimte vrij voor hoogwaardiger werk.

Samenvattend kan gesteld worden dat efficiëntie de explosief stijgende kosten van kunstmatige intelligentie afremmen, maar het vormt geen definitieve oplossing. Zonder structurele doorbraken in zowel hardware als software blijft de kostendruk een blijvende uitdaging.

Kernpunten

Data-curatie verwijdert irrelevante tokens en vermindert de rekencapaciteit.
Curriculum learning versnelt training door een gestructureerde opbouw van voorbeelden.
Sparsity en lage-bit training leveren forse besparingen zonder kwaliteitsverlies.
NVIDIA en AMD ondersteunen efficiëntie met softwarebibliotheken, maar dit is niet voldoende.
Geautomatiseerde workflows verlagen fouten en wachttijden, en verhogen productiviteit.
Efficiëntie verzacht de druk, maar lost de structurele kostenexplosie niet volledig op.

Algemene oplossing: softwaregedreven efficiëntie

De kern van kostenbeheersing in de ontwikkeling van AI ligt in het verschuiven van brute-force hardware scaling naar intelligente software-optimalisatie.

Waar men tot nu toe vooral en simpelweg meer GPU’s en grotere datacenters toevoegt om de capaciteit te vergroten, wordt nu duidelijk dat deze aanpak niet houdbaar is. Het leidt vooral tot schuld die uiteindelijk weer moet worden terugbetaald, zonder dat er sprake is van een structurele oplossing.

Nieuwe schulden: Volgens schattingen van insiders zal de wereldwijde AI-capex in de periode 2025 tot en met 2028 ongeveer één biljoen dollar aan nieuwe schulden vereisen. Daarbij speelt private credit een doorslaggevende rol, wat de druk op efficiëntie verder vergroot, zoals we eerder al aangaven in een artikel.

De meest relevante softwarematige technieken die hieruit voortkomen zijn de volgende.

Agressieve data-curatie en curriculum learning
Door datasets systematisch te ontdoen van herhalingen, ruis en irrelevante voorbeelden, wordt de informatie per token gemaximaliseerd. Google toonde al aan dat fine-tuning datasets die oorspronkelijk honderdduizend voorbeelden nodig hadden, konden worden teruggebracht naar enkele honderden, zonder kwaliteitsverlies. Dit levert in de praktijk efficiëntieverbeteringen op van een factor tien tot tienduizend.

Sparsity en scheduling
Grote modellen bestaan uit talloze parameters, maar het is niet altijd noodzakelijk om ze allemaal tegelijk te activeren. Met sparsity en slimme routering worden alleen de relevante parameters en lagen ingezet voor een specifieke taak. Dit verlaagt het rekenwerk aanzienlijk.

Compute-path optimalisaties
Zelfs wanneer berekeningen noodzakelijk zijn, kunnen ze efficiënter. Technieken zoals lage-bit training, FlashAttention en paged KV-caches zorgen ervoor dat berekeningen minder zwaar zijn, dat dubbele handelingen worden vermeden en dat intermediate resultaten tijdelijk worden hergebruikt. Hierdoor dalen de quadratic attention costs en wordt inference efficiënter uitgevoerd.

Geautomatiseerde workflows
Zelfs bij een perfecte rekenfase kan een project duur blijven als mensen handmatig data moeten verzamelen, logs moeten doorploegen of toegang moeten regelen. Met robotic process automation en monitoringtools wordt dit proces voorspelbaar, reproduceerbaar en foutloos gemaakt. Hierdoor verdwijnen wachttijden en worden dure GPU’s pas ingeschakeld als alles gereed is.

Dit betekent dat het gecombineerde effect van deze technieken de kosten per token, per kilowattuur en per seconde latency aanzienlijk laten dalen. Daarmee verbeteren de marges en de return on investment, iets wat cruciaal is in een wereld waarin zowel financieringskosten als energieprijzen hoog blijven.

Kernpunten

Hardware-scaling alleen is niet langer houdbaar; software-optimalisatie is noodzakelijk.
Data-curatie kan datasets tot 10.000 keer kleiner maken zonder kwaliteitsverlies.
Sparsity en scheduling activeren alleen relevante parameters en reduceren rekenkracht.
Compute-path optimalisaties verlagen kosten per bewerking en verkorten runtijden.
Geautomatiseerde workflows elimineren menselijke wachttijden en fouten.
Resultaat: lagere kosten, hogere efficiëntie en duurzamere schaalbaarheid.

Conclusie

De kostenstructuur van kunstmatige intelligentie ontwikkelt zich razendsnel tot één van de grootste strategische uitdagingen voor de technologiesector. Met oplopende burn rates, toenemende kapitaalbehoefte en een groeiende druk op energie-infrastructuur is het duidelijk dat hardware scaling zijn limiet heeft bereikt.

De toekomst van AI hangt af van softwaregedreven efficiëntie: slimmer omgaan met data, rekenpaden en processen.

Voor beleggers betekent dit dat de kansen niet uitsluitend liggen bij hardwareproducenten of datacenterbouwers, maar vooral bij partijen die verspilling uit het systeem weten te halen en schaalbaarheid betaalbaar maken.

In een omgeving waarin kapitaal duurder wordt en energie schaars blijft, zal het succes van kunstmatige intelligentie uiteindelijk mede worden bepaald door de mate waarin software de kosten kan beheersen en het rendement kan verhogen.

Dat is dan ook een factor waar wij in onze keuzes bij het kopen van aandelen ook rekening mee gaan houden om nieuwe namen toe te voegen. We gaan actief op zoek naar aandelen die dus hierbij aansluiten.

Niet elk aandeel dat we selecteren zal meteen enorm stijgen, ze kunnen zelfs tussendoor forse correcties doormaken. Maar wij denken wel dat de aandelen die we kiezen de kans hebben om in waarde te verdubbelen of aanzienlijk te stijgen. Op die keuzes komen we later in losse artikelen voor onze leden terug.

Bibliotheek met uitleg termen

In deze bibliotheek worden bepaalde begrippen uit de wereld van kunstmatige intelligentie uitgelegd. Eerst krijg je de technische betekenis, daarna een voorbeeld zodat ook lezers zonder technische kennis het direct kunnen begrijpen.

Netcongestie
Technisch: Het elektriciteitsnet kan niet genoeg stroom tegelijk transporteren om aan alle vraag te voldoen. Nieuwe datacenters kunnen vaak niet worden aangesloten door gebrek aan capaciteit.
Voorbeeld: Het is spitsuur en te veel auto’s willen tegelijk dezelfde weg op. Alles loopt vast.

GPU (Graphics Processing Unit)
Technisch: Een chip die is gespecialiseerd in parallelle berekeningen. In plaats van één berekening per keer, kan een GPU duizenden tegelijk doen, ideaal voor AI-training.
Voorbeeld: Een kok die niet één pannenkoek per keer bakt, maar honderd kleine pannetjes tegelijk gebruikt.

Tokens
Technisch: Teksteenheden die AI gebruikt om tekst te begrijpen en te voorspellen. Een token kan een woord of een deel van een woord zijn. Hoe meer tokens, hoe zwaarder de training.
Voorbeeld: Het woord “goedemorgen” wordt voor AI opgesplitst in twee stukjes: “goede” en “morgen”. Dat zijn twee tokens.

Data-curatie
Technisch: Het proces waarbij datasets worden opgeschoond: duplicaten en irrelevante informatie worden verwijderd om training sneller en efficiënter te maken.
Voorbeeld: Je leert voor een examen. In plaats van een hele stapel boeken te lezen, markeer je alleen de belangrijkste hoofdstukken.

Curriculum learning
Technisch: AI-modellen leren in een gestructureerde volgorde: eerst eenvoudige voorbeelden, daarna steeds complexere. Hierdoor convergeren modellen sneller.
Voorbeeld: Een kind leert eerst tellen tot tien, daarna vermenigvuldigen en pas veel later wiskunde.

Sparsity
Technisch: Een model schakelt alleen de parameters (onderdelen) in die relevant zijn voor de taak, in plaats van het hele model.
Voorbeeld: In een ziekenhuis werk je niet met alle dokters tegelijk, maar roep je alleen de specialist erbij die je nodig hebt.

Scheduling (slimme routering)
Technisch: Taken binnen een model of datacenter worden slim verdeeld om energie en tijd te besparen.
Voorbeeld: Een verkeersregelaar die bepaalt wie er groen licht krijgt, zodat er geen opstoppingen ontstaan.

Lage-bit training
Technisch: Training waarbij berekeningen worden uitgevoerd met minder precisie (bijvoorbeeld 8-bit i.p.v. 32-bit), wat veel energie en geheugen bespaart.
Voorbeeld: Bij koken meet je suiker niet tot op de milligram af. Je schept gewoon 120 gram, niet 123,456 gram. Goed genoeg.

FlashAttention
Technisch: Een optimalisatie die het geheugenverbruik verlaagt bij de “attention”-mechanismen in AI-modellen, waardoor berekeningen sneller en goedkoper worden.
Voorbeeld: Een student die een samenvatting maakt en niet steeds het hele boek doorleest.

Paged KV-caches
Technisch: Slim opslaan en hergebruiken van tussentijdse resultaten zodat berekeningen niet steeds opnieuw hoeven.
Voorbeeld: Je kookt een grote pan soep en bewaart porties in de vriezer. Je hoeft niet elke keer opnieuw te beginnen.

Compute-path optimalisatie
Technisch: Technieken die rekenroutes efficiënter maken, zoals kortere algoritmische paden of hergebruik van tussenresultaten.
Voorbeeld: Naar de supermarkt ga je niet om via een omweg, maar via de kortste route.

TensorRT (NVIDIA) en ROCm (AMD)
Technisch: Softwarebibliotheken die AI-modellen optimaliseren zodat ze beter en sneller draaien op de hardware van die fabrikanten.
Voorbeeld: Een navigatie-app die je de snelste route geeft zodat je niet verdwaalt en brandstof bespaart.

Robotic Process Automation (RPA)
Technisch: Software die routinematige taken (zoals facturen verwerken of data invoeren) automatisch uitvoert zonder menselijke tussenkomst.
Voorbeeld: Een robot die elke avond de vaatwasser voor je uitruimt, altijd op dezelfde manier en zonder fouten.

Geautomatiseerde workflows
Technisch: Alle stappen van een proces (data verzamelen, verdelen, analyseren) worden automatisch aan elkaar gekoppeld en uitgevoerd.
Voorbeeld: Je wilt een taart bakken. Alles staat al klaar: de ingrediënten, de oven en de recepten. Je hoeft alleen maar te beginnen.

Wil je alle artikelen kunnen lezen en elke podcast beluisteren? Neem dan een abonnement en krijg toegang tot alle artikelen en de database met duizenden berichten.

Tags:

Disclaimer Aan de door ons opgestelde informatie kan op geen enkele wijze rechten worden ontleend. Alle door ons verstrekte informatie en analyses zijn geheel vrijblijvend. Alle consequenties van het op welke wijze dan ook toepassen van de informatie blijven volledig voor uw eigen rekening.

Wij aanvaarden geen aansprakelijkheid voor de mogelijke gevolgen of schade die zouden kunnen voortvloeien uit het gebruik van de door ons gepubliceerde informatie. U bent zelf eindverantwoordelijk voor de beslissingen die u neemt met betrekking tot uw beleggingen.