EDMONTON, CANADA – 28 JANUARI: Een vrouw houdt een mobiele telefoon voor een computerscherm waarop het DeepSeek-logo te zien is, op 28 januari 2025 in Edmonton, Canada. (Foto door Artur Widak/NurPhoto via Getty Images)
NurPhoto via Getty Images
DeepSeek V4, de langverwachte update van DeepSeek, verschijnt op een fel competitief moment, waarop OpenAI's GPT 5.5 en Anthropic's Opus 4.7 kort na elkaar zijn gelanceerd. De race tussen AI-modellen bereikt kennelijk een nieuw niveau. Als fervent voorstander van open-sourcetools imponeer DeepSeek ontwikkelaars met zijn kostenefficiëntie in plaats van pure schaal.
De preview-release omvat twee Mixture-of-Experts-modellen met een contextvenster van één miljoen tokens: DeepSeek-V4-Pro, met 1,6 biljoen totale parameters en 49 miljard geactiveerde parameters, en DeepSeek-V4-Flash, met 284 miljard totale parameters en 13 miljard geactiveerde parameters.
Langcontext-agents, codeerassistenten, onderzoekstools en zakelijke copilots stuiten allemaal op hetzelfde knelpunt: elk nieuw gegenereerd token moet mogelijk verwijzen naar een groeiende geschiedenis van documenten, code, tool-aanroepen en tussentijdse redenering. DeepSeeks technisch rapport toont aan dat zijn V4-modellen dit probleem aanpakken via architecturale compressie, in plaats van gebruikers simpelweg te vragen meer te betalen voor rekenkracht.
De kernvernieuwing: geheugen comprimeren zonder redenering te verliezen
De belangrijkste architecturale wijziging van DeepSeek V4 is een hybride aandachtsontwerp dat Compressed Sparse Attention (CSA) combineert met Heavily Compressed Attention (HCA). Dit betekent dat het model niet elk vorig token op dezelfde kostbare manier opslaat en doorzoekt. CSA comprimeert groepen sleutel-waarde-items en selecteert vervolgens de meest relevante gecomprimeerde blokken. HCA comprimeert nog agressiever, waardoor dichte aandacht mogelijk is over een veel kortere geheugenstroom.
Dit is van belang omdat aandacht een van de belangrijkste kostendrijvers is bij langcontext-AI. Naarmate de contextlengte toeneemt, wordt conventionele aandacht steeds duurder, zowel qua rekenkracht als geheugen. Het hybride aandachtsontwerp van DeepSeek behandelt lange context als een technisch probleem van geheugenhiërarchie. Sommige informatie vereist fijnmazige lokale aandacht. Sommige kan worden gecomprimeerd. Door deze modi te combineren, maakt V4 van een contextvenster van een miljoen tokens een meer praktische mogelijkheid. Eerder dit jaar publiceerden DeepSeek-onderzoekers een paper waarin Engram werd voorgesteld, een conditionele geheugenmodule die de redeneerefficiëntie verbetert door statische kennisopvraging structureel te scheiden van dynamische berekening.
Waarom dit meer AI-innovatie kan stimuleren
Lagere inferentiekosten veranderen wie er kan experimenteren. Wanneer langcontext-redenering goedkoper wordt, kunnen meer ontwikkelaars agents bouwen die volledige repositories lezen, lange juridische dossiers analyseren, financiële documenten van meerdere bestanden vergelijken, of langdurige tool-gebruikssessies uitvoeren. Dit vergroot de ontwerpruimte voorbij chatbotprompts.
Voor startups verlaagt DeepSeek V4 de kosten voor het uitproberen van ambitieuze toepassingen. Voor ondernemingen maakt het grootschalige contextworkflows realistischer. Voor open-source-ontwikkelaars biedt het een technisch recept: combineer MoE-sparsiteit, langcontext-compressie, inferentie met lage precisie, aangepaste kernels en post-training voor agentische taken.
De hardwareboodschap: AI-modellen vertellen chips nu wat ze moeten worden
DeepSeek V4 is ook opmerkelijk omdat het technisch rapport expliciete suggesties doet voor hardwareontwerp. Het team stelt dat toekomstige hardware moet worden geoptimaliseerd voor de verhouding tussen berekening en communicatie, in plaats van bandbreedte blindelings te vergroten.
Reuters meldde ook dat DeepSeek V4 is aangepast om te draaien op Huawei's Ascend-chips, en dat Huawei zei dat zijn op Ascend 950 gebaseerde supernodeclusters de V4-serie volledig ondersteunen. Dit maakt V4 onderdeel van een groter hardwareverhaal. De AI-race verschuift van modelgewichten naar full-stack co-design, waarbij modellen, kernels, geheugensystemen, interconnects en chips samen evolueren.
Goedkopere intelligentie vergroot de markt
De belangrijkste consequentie van DeepSeek V4 is mogelijk economisch. Wanneer de kosten van langcontext-redenering dalen, worden AI-toepassingen die vroeger te duur leken aannemelijker. Agents voor volledige codebases, onderzoeksassistenten met lange horizon, documentintensieve juridische workflows, financiële due-diligence-tools, systemen voor het beoordelen van wetenschappelijke literatuur en zakelijke kennisagents profiteren allemaal van goedkoper geheugen en goedkopere inferentie.
Dit betekent dat DeepSeek V4 de AI-race herformuleert. Als DeepSeek sterke open modellen kan leveren met lagere geheugen- en rekenvereisten, zullen gesloten-source-leiders meer druk ondervinden om premiumprijs te rechtvaardigen. Open-source-concurrenten zullen onder druk staan om de efficiëntietechnieken van V4 te evenaren.
Bron: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/








