La start-up chinoise en intelligence artificielle DeepSeek a introduit des capacités multimodales à son principal chatbot, lui permettant désormais de traiter des images et des vidéos en plus du texte. Cette avancée la place au même niveau que ses concurrents qui proposent déjà des fonctions similaires. La fonctionnalité est actuellement disponible pour certains utilisateurs sélectionnés dans le cadre d’un test bêta, suite au lancement du nouveau modèle phare de DeepSeek, le V4, et à des réductions de prix significatives. L’annonce de cette amélioration a été faite par Chen Xiaokang, chef de l’équipe multimodale, qui a souligné l’ajout d’un mode de reconnaissance d’images à l’interface de discussion. Cette mise à jour est perçue comme essentielle pour dépasser les interactions textuelles de base et évoluer vers des applications plus complexes. Bien que DeepSeek ait obtenu une reconnaissance internationale en janvier 2025 pour les capacités de raisonnement et l’efficacité économique de son modèle, l’entreprise avait été critiquée pour l’absence d’une offre multimodale.

