DeepSeek-R1-Zero بدون استفاده از تنظیم دقیق تحت نظارت (SFT) و تنها از طریق یادگیری تقویتی (RL) در مقیاس بزرگ آموزش دیده است. به گفتهی DeepSeek، این رویکرد منجر به ظهور طبیعی “رفتارهای استدلالی قدرتمند و جالب” مانند خود-تأیید، بازتاب (Reflection) و تولید زنجیرههای استدلالی گسترده (CoT) شده است.
محققان DeepSeek توضیح دادهاند که:
“[DeepSeek-R1-Zero] اولین پژوهش متنباز است که تأیید میکند قابلیتهای استدلالی مدلهای زبانی بزرگ (LLM) میتوانند صرفاً از طریق یادگیری تقویتی (RL) توسعه یابند، بدون نیاز به تنظیم دقیق تحت نظارت (SFT)”
این دستاورد نهتنها نوآوریهای زیربنایی این مدل را برجسته میکند، بلکه راه را برای پیشرفتهای مبتنی بر RL در زمینهی هوش مصنوعی استدلالی هموار میسازد.
با این حال، DeepSeek-R1-Zero با محدودیتهایی نیز همراه است. از جمله “تکرار بیپایان، خوانایی ضعیف و ترکیب زبانها” که میتوانند در کاربردهای دنیای واقعی چالشهایی ایجاد کنند. برای رفع این نواقص، DeepSeek مدل پرچمدار خود یعنی DeepSeek-R1 را توسعه داده است.
معرفی DeepSeek-R1
مدل DeepSeek-R1 بر پایه نسخهی قبلی خود ساخته شده است، اما یک مرحله دادههای اولیه (Cold-Start Data) را پیش از آموزش RL دریافت میکند. این مرحلهی پیشآموزشی اضافی قابلیتهای استدلالی مدل را تقویت کرده و بسیاری از محدودیتهای DeepSeek-R1-Zero را برطرف میکند.
نکته قابل توجه این است که DeepSeek-R1 عملکردی در سطح مدل o1 از OpenAI در ریاضیات، کدنویسی و وظایف استدلالی عمومی ارائه میدهد و جایگاه خود را به عنوان یک رقیب قدرتمند تثبیت کرده است.
DeepSeek تصمیم گرفته که هر دو مدل DeepSeek-R1-Zero و DeepSeek-R1 را بهصورت متنباز منتشر کند و همچنین شش مدل تقطیرشده (Distilled) کوچکتر را نیز در دسترس قرار داده است.
در میان این مدلها، DeepSeek-R1-Distill-Qwen-32B عملکرد فوقالعادهای از خود نشان داده و حتی مدل o1-mini از OpenAI را در چندین معیار پشت سر گذاشته است.
مقایسهی عملکرد مدلهای DeepSeek با رقبا:
- MATH-500 (Pass@1): مدل DeepSeek-R1 به دقت ۹۷.۳٪ دست یافت که بهتر از OpenAI (۹۶.۴٪) و سایر رقبا بود.
- LiveCodeBench (Pass@1-COT): نسخهی تقطیرشدهی DeepSeek-R1-Distill-Qwen-32B با ۵۷.۲٪ بهترین عملکرد را در بین مدلهای کوچکتر داشت.
- AIME 2024 (Pass@1): مدل DeepSeek-R1 دقت ۷۹.۸٪ را ثبت کرد و استاندارد جدیدی را در حل مسائل ریاضی به نمایش گذاشت.
یک فرآیند آموزشی نوین برای توسعه مدلهای استدلالی
DeepSeek اطلاعاتی دربارهی فرآیند آموزشی خود برای توسعهی مدلهای استدلالی منتشر کرده است. این فرآیند ترکیبی از تنظیم دقیق تحت نظارت (SFT) و یادگیری تقویتی (RL) را شامل میشود.
بر اساس توضیحات DeepSeek، این فرآیند شامل دو مرحله SFT برای ایجاد پایههای اولیهی استدلالی و غیراستدلالی و دو مرحله RL برای کشف الگوهای پیشرفتهی استدلال و تطبیق این قابلیتها با ترجیحات انسانی است.
“ما معتقدیم که این فرآیند آموزشی به صنعت هوش مصنوعی کمک خواهد کرد و مدلهای بهتری ایجاد خواهد کرد،“
DeepSeek با اشاره به اینکه این رویکرد میتواند الهامبخش پیشرفتهای آینده در این حوزه باشد.
یکی از دستاوردهای برجسته این روش قابلیت DeepSeek-R1-Zero در اجرای الگوهای استدلالی پیچیده بدون نیاز به دستورالعملهای انسانی پیشین است—اتفاقی که برای اولین بار در حوزهی پژوهشهای متنباز رخ داده است.
اهمیت فرآیند تقطیر (Distillation)
محققان DeepSeek همچنین بر اهمیت فرآیند تقطیر تأکید کردهاند—روشی که در آن تواناییهای استدلالی از مدلهای بزرگتر به مدلهای کوچکتر و کارآمدتر منتقل میشود. این استراتژی باعث شده که حتی مدلهای کوچکتر نیز عملکرد بهتری داشته باشند.
مدلهای تقطیرشدهی DeepSeek-R1 در اندازههای ۱.۵B، ۷B و ۱۴B عملکرد خوبی در کاربردهای تخصصی داشتهاند. در برخی موارد، مدلهای تقطیرشدهی کوچکتر از مدلهای بزرگتر آموزشدیده با RL بهتر عمل کردهاند.
برای محققان، مدلهای تقطیرشده در محدودهای از ۱.۵ میلیارد تا ۷۰ میلیارد پارامتر در دسترس هستند و از معماریهای Qwen2.5 و Llama3 پشتیبانی میکنند. این انعطافپذیری، امکان استفادهی متنوعی را در طیف وسیعی از وظایف، از کدنویسی گرفته تا پردازش زبان طبیعی، فراهم میکند.
مجوز متنباز و استفادهی تجاری
DeepSeek مجوز MIT را برای مخزن و وزنهای مدلهای خود اتخاذ کرده است. این بدان معناست که استفادهی تجاری و تغییرات سفارشی (Downstream Modifications) مجاز است.
با این حال، کاربران مدلهای تقطیرشدهی خاص باید اطمینان حاصل کنند که از مجوزهای اصلی مدلهای پایه مانند Apache 2.0 و مجوزهای Llama3 پیروی میکنند.