Naver Cloud a dévoilé son projet révolutionnaire “Omnimodal HyperCLOVA X” lors de l’événement inaugural du projet “Independent AI Foundation Model” du ministère de la Science et des Technologies de l’Information et de la Communication, à Séoul. Nakho Sung, responsable de la technologie IA à grande échelle chez Naver Cloud, a souligné les limites des modèles de langage actuels, qui, bien qu’excellents pour comprendre le texte, manquent de capacités sensorielles pour résoudre des problèmes complexes du monde réel.
Omnimodal HyperCLOVA X vise à surmonter ces limitations en intégrant la compréhension et la génération de données audio, visuelles et vidéo. Deux modèles open-source ont été dévoilés : “HyperCLOVA X Seed 8B Omni”, qui adopte une structure omnimodale native, et “HyperCLOVA X Seed 32B Sync”, qui combine la compréhension visuelle, la conversation vocale et l’utilisation d’outils avec l’IA inférentielle. Ces modèles promettent de réduire les coûts de développement et d’opération tout en améliorant la capacité à résoudre des problèmes complexes.
Le modèle 32B Sync a démontré des performances de haut niveau dans des domaines tels que la connaissance générale en langue coréenne, la compréhension visuelle et l’utilisation d’outils. Il a également obtenu des résultats exceptionnels aux tests d’entrée à l’université, avec des scores parfaits en anglais et en histoire coréenne. Naver Cloud ambitionne de développer des agents IA pratiques et accessibles, capables de s’adapter aux environnements industriels et quotidiens, tout en étant plus rentables que les modèles existants.

