Er gaan geruchten dat DeepSeek V4 ChatGPT en Claude overtreft bij long-context codering, gericht op elitecodeeringstaken. Insiders beweren dat het AI-landschap van Silicon Valley zich zorgen moet maken als interne tests wijzen op de verwachte prestaties na de uitrol medio februari.
De in China gevestigde AI-startup DeepSeek is naar verluidt van plan om DeepSeek V4, zijn nieuwste grote taalmodel, op 17 februari uit te brengen. Bronnen beweren dat het model een schaduw zal werpen over bestaande grote taalmodellen, zoals OpenAI's ChatGPT en Anthropic's Claude, bij het verwerken van long-context code prompts en taken.
Ontwikkelaars tonen grote verwachting voor de DeepSeek V4-release
Het Chinese bedrijf heeft op het moment van schrijven geen informatie publiekelijk bekendgemaakt over de aanstaande release of de geruchten bevestigd. Ontwikkelaars op verschillende sociale netwerken hebben grote verwachting getoond voor de release. Yuchen Jin, een AI-ontwikkelaar en medeoprichter van Hyperbolic Labs, schreef op X dat "DeepSeek V4 naar verluidt binnenkort verschijnt, met sterkere codering dan Claude en GPT."
Subreddit r/DeepSeek liep ook op, waarbij een gebruiker uitlegde dat hun obsessie met DeepSeek's aanstaande V4-model niet normaal was. De gebruiker zei dat ze regelmatig "nieuws, mogelijke geruchten controleren, en ik ga zelfs de Docs op de DS-website lezen om te zoeken naar wijzigingen of tekenen die op een update wijzen."
DeepSeek's eerdere releases hebben een aanzienlijke impact gehad op de wereldmarkten. De Chinese AI-startup bracht zijn R1-redeneermodel uit in januari 2025, wat leidde tot een uitverkoop van een biljoen dollar. De release evenaarde OpenAI's 01-model op wiskunde- en redeneerbenchmarks, ondanks dat het aanzienlijk minder kostte dan wat de Amerikaanse AI-startup aan zijn 01-model besteedde.
Het Chinese bedrijf heeft naar verluidt slechts $6 miljoen besteed aan de modelrelease. Wereldwijde concurrenten besteden ondertussen bijna 70 keer meer voor dezelfde output. Zijn V3-model behaalde ook een score van 90,2% op de MATH-500-benchmark, vergeleken met Claude's 78,3%. DeepSeek's recentere V3-upgrade (V3.2 Speciale) verbeterde zijn productiviteit verder.
Het verkoopargument van zijn V4-model is geëvolueerd van de nadruk van de V3 op puur redeneren, formele bewijzen en logische wiskunde. De nieuwe release wordt verwacht een hybride model te zijn dat zowel redeneer- als niet-redeneertaken combineert. Het model is gericht op het veroveren van de ontwikkelaarsmarkt door een bestaande kloof te vullen die hoge nauwkeurigheid en long-context codegeneratie vereist.
Claude Opus 4.5 claimt momenteel dominantie in de SWE-benchmark, met een nauwkeurigheid van 80,9%. De V4 moet dit verslaan om Claude Opus 4.5 te verslaan. Op basis van eerdere successen kan het aankomende model deze drempel overtreffen en dominantie in de benchmark claimen.
DeepSeek pionierswerk met mHC voor het trainen van LLM's
DeepSeek's succes heeft velen achtergelaten in diep professioneel ongeloof. Hoe kon zo'n klein bedrijf dergelijke mijlpalen bereiken? Het geheim zou diep geworteld kunnen zijn in zijn onderzoekspaper gepubliceerd op 1 januari. Het bedrijf identificeerde een nieuwe trainingsmethode waarmee ontwikkelaars gemakkelijk grote taalmodellen kunnen schalen. Liang Wenfeng, oprichter en CEO van DeepSeek, schreef in het onderzoek dat het bedrijf Manifold-Constrained Hyper-Connections (mHC) gebruikt om zijn AI-modellen te trainen.
De directeur stelde voor om mHC te gebruiken om de problemen aan te pakken die ontwikkelaars tegenkomen bij het trainen van grote taalmodellen. Volgens Wenfeng is mHC een upgrade van Hyper-Connections (HC), een framework dat andere AI-ontwikkelaars gebruiken om hun grote taalmodellen te trainen. Hij legde uit dat HC en andere traditionele AI-architecturen alle data door een enkel, smal kanaal dwingen. Tegelijkertijd verbredt mHC dat pad naar meerdere kanalen, wat de overdracht van data en informatie vergemakkelijkt zonder trainingsinstorting te veroorzaken.
Lian Jye Su, hoofdanalist bij Omdia, prees CEO Wenfeng voor het publiceren van hun onderzoek. Su benadrukte dat DeepSeek's beslissing om zijn trainingsmethoden te publiceren hernieuwd vertrouwen in de Chinese AI-sector dicteert. DeepSeek heeft gedomineerd in de ontwikkelingslanden. Microsoft publiceerde donderdag een rapport waaruit blijkt dat DeepSeek 89% van China's AI-markt beheerst en aan momentum wint in ontwikkelingslanden.
Wilt u uw project onder de aandacht brengen van de topexperts in crypto? Laat het zien in ons volgende brancherapport, waar data impact ontmoet.
Bron: https://www.cryptopolitan.com/deepseek-v4-chatgpt-and-claude/








