Comment le nouveau modèle d'IA de DeepSeek utilise-t-il la perception visuelle pour compresser le texte ?

DeepSeek a lancé un modèle d’IA multimodal révolutionnaire conçu pour traiter efficacement des documents volumineux et complexes en réduisant considérablement le nombre de tokens nécessaires. Cette innovation utilise la perception visuelle comme moyen de compression, permettant au modèle de gérer de grandes quantités de texte sans augmenter les coûts informatiques correspondants. Le modèle open-source, DeepSeek-OCR, désormais disponible sur des plateformes telles que Hugging Face et GitHub, est issu de recherches sur l’utilisation d’encodeurs visuels pour la compression de texte dans les grands modèles de langage. DeepSeek affirme que cette approche peut réduire l’utilisation de tokens de sept à vingt fois, répondant ainsi aux défis du traitement de contextes textuels étendus dans les modèles d’IA. Ce développement s’inscrit dans l’engagement continu de DeepSeek à améliorer l’efficacité de l’IA et à réduire les coûts, en s’appuyant sur leurs précédents modèles open-source V3 et R1. Le modèle DeepSeek-OCR se compose de deux éléments principaux : le DeepEncoder et le décodeur DeepSeek3B-MoE-A570M.

Comment le nouveau modèle d’IA de DeepSeek utilise-t-il la perception visuelle pour compresser le texte ?

Marie Martin

Leave a Comment Cancel Reply

Quelles sont les principales tendances technologiques à surveiller dans le forage ?

Comment DeepSeek a-t-il surpassé ses concurrents en IA dans le défi du marché crypto ?

Marie Martin

Related posts

Comment les caméras de l’iPhone vont-elles s’améliorer ?

Quelles améliorations le Samsung Galaxy Z Fold 8 Ultra offre-t-il sans prendre de poids ?

Comment Earthmover révolutionne-t-il la gestion des données en sciences de la Terre avec un financement d’amorçage de 7,2 millions de dollars ?

Leave a Comment Cancel Reply