تیم تحقیقاتی هوش مصنوعی بنیادی (FAIR) در متا، پنج پروژه جدید را معرفی کرده است که گام بزرگی در راستای هدف نهایی این شرکت یعنی ساخت هوش مصنوعی پیشرفته (Advanced Machine Intelligence) محسوب میشود—ماشینهایی که بتوانند اطلاعات حسی را درک، پردازش و مانند انسان در لحظه تصمیمگیری کنند.این پروژهها نشان میدهند که هوش مصنوعی متا در سال ۲۰۲۵ به چه سطحی از درک و تعامل طبیعی خواهد رسید.
🧠 ۱. Perception Encoder: تقویت بینایی ماشین با دقتی بیسابقه
Perception Encoder هستهی اصلی هوش مصنوعی متا در این پروژههاست و بهعنوان موتور بینایی چندمنظوره هوش مصنوعی طراحی شده است. این انکودر میتواند تصاویر و ویدیوها را با دقت بالا تحلیل کرده، جزئیاتی ظریف را تشخیص دهد و حتی در شرایط دشوار مانند حملات تقلبی نیز عملکردی قوی داشته باشد.
💡 نکات برجسته:
-
تشخیص مفاهیم پیچیده تصویری مانند ماهی تخت در بستر دریا یا پرنده ریز در پسزمینه
-
عملکرد فراتر از تمام مدلهای متنباز و اختصاصی در وظایف طبقهبندی و بازیابی صفر-شات
-
توانایی درک فضایی و حرکت دوربین در سناریوهای بصری
-
بهبود چشمگیر عملکرد در پاسخگویی تصویری (VQA)، کپشننویسی و تحلیل اسناد تصویری
🖼️ ۲. Perception Language Model (PLM): مدل متنباز ترکیبی زبان و بینایی
PLM مدلی ترکیبی است که برای درک بصری-زبانی طراحی شده و با استفاده از دادههای سنتتیک و دیتاستهای متنباز آموزش دیده است.
🔍 ویژگیهای کلیدی:
-
بدون استفاده از مدلهای اختصاصی خارجی
-
انتشار سه نسخه با ۱، ۳ و ۸ میلیارد پارامتر
-
بزرگترین دیتاست ویدیویی انسانیسازیشده شامل ۲.۵ میلیون نمونه
-
انتشار بنچمارک جدید PLM-VideoBench برای ارزیابی دقیقتر فعالیتهای بصری-زمانی و استدلالمحور
🤖 ۳. Meta Locate 3D: افزایش هوشیاری فضایی در رباتها
Locate 3D مدلی برای تشخیص اشیاء در فضای سهبعدی بر پایه دستورات زبانی متکی بر هوش مصنوعی متا است. هدف آن، توانمندسازی رباتها برای فهم بهتر محیط و همکاری طبیعیتر با انسانهاست.
✅ تواناییها:
-
دریافت فرمان مانند «گلدان کنار میز تلویزیون» و تشخیص دقیق موقعیت جسم
-
استفاده از دادههای RGB-D و مدل پیشآموزشیافته 3D-JEPA
-
ارائه جعبههای مرزی و ماسکهای دقیق برای اشیاء
-
انتشار بزرگترین دیتاست ترکیبی زبان–محیط ۳بعدی (۱۳۰ هزار دستور زبانی در ۱۳۴۶ صحنه)
💬 ۴. Dynamic Byte Latent Transformer: زبانپردازی در سطح بایت، مقاوم و کارآمد Meta AI
مدل Byte-Level Transformer با ۸ میلیارد پارامتر، راهی نو در پردازش زبان باز کرده است. برخلاف مدلهای سنتی که بر مبنای توکن عمل میکنند، این مدل متن را در سطح بایت (byte-level) پردازش میکند که باعث مقاومت بالاتر در برابر خطا، کلمات ساختگی یا حملات هوشمند میشود.
📊 مزایا:
-
عملکرد بهتر نسبت به مدلهای مبتنی بر توکن در سناریوهای تغییر یافته
-
برتری +۷ امتیازی در «HellaSwag» و +۵۵ در بنچمارک CUTE
-
بهینهسازی در مصرف منابع و افزایش دقت در پردازش زبانی
🤝 ۵. Collaborative Reasoner: عاملهای اجتماعی-هوشمند برای همکاری با انسان
Collaborative Reasoner برای توسعه عاملهای هوش مصنوعی طراحی شده که میتوانند مانند انسانها در گفتگو و همکاری عملکرد مؤثری داشته باشند.
🎯 ویژگیها:
-
آزمونهای چندمرحلهای هدفمند برای تحلیل استدلال مشارکتی
-
بررسی مهارتهایی مانند مخالفت سازنده، اقناع و یافتن راهحل مشترک
-
استفاده از تکنیک خود-همکاری (Self-Collaboration) برای بهبود استدلال
-
بهبود عملکرد تا ۲۹.۴٪ در وظایف ریاضی، علمی و اجتماعی نسبت به روشهای سنتی
همچنین متا یک موتور پردازش سریع بهنام Matrix معرفی کرده که امکان تولید گسترده دادههای مصنوعی برای آموزش عاملها را فراهم میکند.
🧩 جمعبندی: آیندهای با هوش مصنوعی انسانمانند Meta AI
این پنج پروژه از سوی تیم FAIR متا، نمایانگر تمرکز عمیق شرکت Meta AI بر ساخت هوش مصنوعی با توانایی درک، تحلیل، و تعامل طبیعی با جهان پیرامون است.
از مدلهای بصری گرفته تا زبانپردازی مقاوم و عاملهای اجتماعی، متا گام بزرگی به سمت هوش مصنوعی واقعی برداشته است.
برای اطلاعات بیشتر و مطالعه پروژههای بیشتر متا در زمینه هوش مصنوعی، میتوانید به سایت Meta AI مراجعه کنید.
همزمان با این پیشرفتها، شرکتهایی مانند بایدو نیز در رقابت هوش مصنوعی عقب نماندهاند. بایدو اخیراً از مدلهای جدید خود با نامهای ERNIE 4.5 و ERNIE X1 رونمایی کرده که نشاندهنده شتاب جهانی در توسعه هوش مصنوعی است.
🔗 بیشتر درباره مدلهای ERNIE 4.5 و ERNIE X1 بخوانید.