DeepSeek V4 surpasserait ChatGPT et Claude dans le codage à contexte long, ciblant des tâches de codage de niveau élite. Des initiés affirment que le paysage de l'IA de la Silicon Valley devrait s'inquiéter si les tests internes laissent présager ses performances attendues après le déploiement mi-février.
La startup d'IA chinoise DeepSeek prévoit de publier DeepSeek V4, son dernier grand modèle de langage, le 17 février. Des personnes proches du dossier affirment que le modèle est prêt à éclipser les grands modèles de langage existants, tels que ChatGPT d'OpenAI et Claude d'Anthropic, lors du traitement de prompts et de tâches de code à contexte long.
Les développeurs expriment une profonde anticipation pour la sortie de DeepSeek V4
L'entreprise chinoise n'a pas divulgué publiquement d'informations sur la sortie imminente ni confirmé les rumeurs au moment de la rédaction. Les développeurs sur différents réseaux sociaux ont exprimé une profonde anticipation pour la sortie. Yuchen Jin, développeur d'IA et co-fondateur de Hyperbolic Labs, a écrit sur X que "DeepSeek V4 devrait sortir bientôt, avec un codage plus puissant que Claude et GPT."
Le subreddit r/DeepSeek s'est également animé, un utilisateur expliquant que son obsession pour le modèle imminent V4 de DeepSeek n'était pas normale. L'utilisateur a déclaré qu'il "vérifie fréquemment les actualités, les rumeurs possibles, et je vais même lire les documents sur le site web DS pour rechercher tout changement ou signe indiquant une mise à jour."
Les versions précédentes de DeepSeek ont eu un impact significatif sur les marchés mondiaux. La startup d'IA chinoise a publié son modèle de raisonnement R1 en janvier 2025, entraînant une vente massive de mille milliards de dollars. La sortie a égalé le modèle 01 d'OpenAI sur les benchmarks de mathématiques et de raisonnement, malgré un coût nettement inférieur à ce que la startup d'IA américaine a dépensé pour son modèle 01.
L'entreprise chinoise n'aurait dépensé que 6 millions de dollars pour la sortie du modèle. Pendant ce temps, les concurrents mondiaux dépensent près de 70 fois plus pour le même résultat. Son modèle V3 a également obtenu un score de 90,2 % sur le benchmark MATH-500, contre 78,3 % pour Claude. La mise à jour plus récente V3 de DeepSeek (V3.2 Speciale) a encore amélioré sa productivité.
L'argument de vente de son modèle V4 a évolué par rapport à l'accent mis par V3 sur le raisonnement pur, les preuves formelles et les mathématiques logiques. La nouvelle version devrait être un modèle hybride combinant des tâches de raisonnement et non-raisonnement. Le modèle vise à conquérir le marché des développeurs en comblant une lacune existante qui exige une haute précision et une génération de code à contexte long.
Claude Opus 4.5 revendique actuellement la domination dans le benchmark SWE, atteignant une précision de 80,9 %. Le V4 doit battre cela pour renverser Claude Opus 4.5. Sur la base des succès précédents, le modèle à venir pourrait dépasser ce seuil et revendiquer la domination dans le benchmark.
DeepSeek pionnier du mHC pour la formation des LLM
Le succès de DeepSeek a laissé beaucoup de personnes dans une profonde incrédulité professionnelle. Comment une si petite entreprise pourrait-elle réaliser de telles avancées ? Le secret pourrait être profondément ancré dans son article de recherche publié le 1er janvier. L'entreprise a identifié une nouvelle méthode de formation qui permet aux développeurs de facilement faire évoluer les grands modèles de langage. Liang Wenfeng, fondateur et PDG de DeepSeek, a écrit dans la recherche que l'entreprise utilise les Hyper-Connections contraintes par variétés (mHC) pour former ses modèles d'IA.
Le dirigeant a proposé d'utiliser mHC pour résoudre les problèmes rencontrés lorsque les développeurs forment de grands modèles de langage. Selon Wenfeng, mHC est une amélioration des Hyper-Connections (HC), un cadre que d'autres développeurs d'IA utilisent pour former leurs grands modèles de langage. Il a expliqué que HC et d'autres architectures d'IA traditionnelles forcent toutes les données à passer par un seul canal étroit. En même temps, mHC élargit ce passage en plusieurs canaux, facilitant le transfert de données et d'informations sans provoquer d'effondrement de la formation.
Lian Jye Su, analyste en chef chez Omdia, a félicité le PDG Wenfeng pour la publication de leurs recherches. Su a souligné que la décision de DeepSeek de publier ses méthodes de formation dicte une confiance renouvelée dans le secteur chinois de l'IA. DeepSeek a dominé le monde en développement. Microsoft a publié un rapport jeudi, montrant que DeepSeek détient 89 % du marché chinois de l'IA et gagne en dynamique dans les pays en développement.
Vous voulez que votre projet soit devant les esprits les plus brillants de la crypto ? Mettez-le en vedette dans notre prochain rapport de l'industrie, où les données rencontrent l'impact.
Source : https://www.cryptopolitan.com/deepseek-v4-chatgpt-and-claude/



