أطلقت ميتا أول نماذجها المفتوحة المصدر القادر على معالجة كل من الصور والنصوص Llama 3.2 ، وذلك بعد شهرين فقط من إطلاق نموذج الذكاء الاصطناعي. ويسمح النموذج الجديد Llama 3.2 للمطورين بإنشاء تطبيقات ذكاء اصطناعي متقدمة، مثل تطبيقات الواقع المعزز التي توفر فهما في الوقت الفعلي للفيديو، أو محركات البحث المرئية التي تفرز الصور بناء على المحتوى، أو ميزة تحليل المستندات التي تلخص أجزاء طويلة من النص لك.
ويتضمن Llama 3.2 نموذجين للرؤية مكونين من 11 مليار معلمة و 90 مليار معلمة، بالإضافة إلى نموذجين نصيين مكونين من مليار معلمة و 3 مليارات معلمة تناسب الأجهزة المحمولة والأجهزة الطرفية. وقال مارك زوكربيرج الرئيس التنفيذي لشركة ميتا: “هذا هو أول نماذجنا المتعددة الوسائط والمفتوحة المصدر. يسمح هذا النموذج بتشغيل الكثير من التطبيقات التي تتطلب فهما بصريا”.
ويبلغ طول سياق Llama 3.2 ما يصل إلى 128000 رمز مميز، مما يعني أنه يمكن للمستخدمين إدخال الكثير من النصوص. ويدعم نموذجا الرؤية من Llama 3.2 حالات استخدام الصور، ويتمتعان بالقدرة على فهم المخططات والرسوم البيانية، وصور التعليقات التوضيحية، وتحديد الكائنات من أوصاف اللغة الطبيعية.
وقالت ميتا: إن Llama 3.2 ينافس Claude 3 Haiku من أنثروبيك و GPT4o-mini من OpenAI ، في التعرف على الصور ومهام الفهم البصري الأخرى. وفي الوقت نفسه، يتفوق على Gemma و Phi 3.5-mini في مجالات، مثل متابعة التعليمات والتلخيص واستخدام الأدوات وإعادة الكتابة الفورية.