أطلقت شركة DeepSeek نموذج ذكاء اصطناعي متعدد الوسائط يعدّ ابتكارًا ثوريًا في معالجة الوثائق الكبيرة والمعقدة بكفاءة عالية من خلال تقليل عدد الرموز المطلوبة بشكل كبير. يستفيد هذا الابتكار من الإدراك البصري كوسيلة للضغط، مما يسمح للنموذج بمعالجة كميات هائلة من النصوص دون زيادة مقابلة في التكاليف الحسابية. النموذج مفتوح المصدر، DeepSeek-OCR، متاح الآن على منصات مثل Hugging Face وGitHub، وقد نتج عن أبحاث حول استخدام مشفرات الرؤية لضغط النصوص في نماذج اللغة الكبيرة. تدعي DeepSeek أن هذا النهج يمكن أن يقلل من استخدام الرموز بمقدار يتراوح بين سبع إلى عشرين مرة، مما يواجه تحديات معالجة السياقات النصية الواسعة في نماذج الذكاء الاصطناعي. يتماشى هذا التطور مع التزام DeepSeek المستمر بتحسين كفاءة الذكاء الاصطناعي وتقليل التكاليف، مستندًا إلى نماذجهم مفتوحة المصدر السابقة V3 وR1. يتميز نموذج DeepSeek-OCR بمكونين رئيسيين: المشفر العميق DeepEncoder وفك التشفير DeepSeek3B-MoE-A570M.

