Naver Cloud a lancé “Omnimodal HyperCLOVA X”, un modèle d’IA révolutionnaire conçu pour dépasser les limitations des modèles linguistiques de grande taille (LLM) existants en intégrant des capacités sensorielles. Contrairement aux LLM traditionnels qui se reposent uniquement sur la compréhension textuelle, Omnimodal HyperCLOVA X peut traiter et comprendre divers types de données, y compris l’audio, les images et la vidéo, renforçant ainsi son applicabilité dans des scénarios réels. Ce nouveau modèle vise à accélérer le développement d’agents d’IA utilisables dans la vie quotidienne et les environnements industriels.
Naver Cloud a dévoilé deux modèles open-source : le “HyperCLOVA X Seed 8B Omni”, le premier modèle développé localement avec une structure omnimodale native, et le “HyperCLOVA X Seed 32B Sync”, qui combine des capacités visuelles, audio et d’utilisation d’outils. Ces modèles devraient réduire les coûts de développement et d’exploitation en comprenant directement des entrées complexes telles que des graphiques et des tableaux, courants dans les environnements industriels.
Le modèle 32B Sync a démontré des performances impressionnantes, obtenant des scores élevés dans les principales matières du Test de Capacité Scolaire Collégiale, avec des scores parfaits en anglais et en histoire coréenne, en résolvant des problèmes directement à partir de photographies sans entrée textuelle. Cela souligne son efficacité en termes de coûts et sa compétitivité par rapport à des modèles plus grands.
Naver Cloud souligne que l’expansion des capacités sensorielles de l’IA tout en améliorant ses compétences en raisonnement améliore considérablement ses capacités de résolution de problèmes, marquant une avancée vers une IA qui est non seulement grande, mais aussi pratiquement utile.

