Robotic

DeepSeek lance DSpark, le turbo de l’inférence IA

DeepSeek a récemment lancé DSpark, un système de décodage spéculatif sous licence MIT, qui vise à améliorer la rapidité des modèles de langage tout en préservant la cohérence des réponses. En utilisant une méthode de génération « semi auto regressive », DSpark permet de deviner plusieurs étapes à l’avance, rendant le processus plus efficace. Les tests en production montrent que DSpark a amélioré le débit agrégé de 51 % pour le modèle DeepSeekV4Flash, atteignant un objectif de 80 tokens par seconde par utilisateur, et de 52 % pour le DeepSeekV4Pro, à 35 tokens par seconde par utilisateur. Le gain de vitesse pour les utilisateurs individuels varie entre 60 % et 85 % pour V4Flash et entre 57 % et 78 % pour V4Pro, par rapport à l’ancien système MTP1. DSpark est applicable à d’autres modèles de poids ouverts, permettant aux utilisateurs de l’adapter à des modèles comme Qwen et Gemma. DeepSpec, le code de base associé, offre des étapes pour la préparation des données, l’entraînement et l’évaluation des modèles de décodage spéculatif, bien que son utilisation nécessite une infrastructure AI avancée. Avec DSpark, la Chine rentre aussi dans la bataille sur la consommation des Tokens, et donc le coût de l’inférence pour les clients. OpenAI avait initié cette nouvelle approche de l’IA en proposant un prix bas du token.