جزئیات وبلاگ

Deepseek R1

رونمایی DeepSeek از مدل‌های جدید استدلالی R1 و R1-Zero

DeepSeek-R1-Zero بدون استفاده از تنظیم دقیق تحت نظارت (SFT) و تنها از طریق یادگیری تقویتی (RL) در مقیاس بزرگ آموزش دیده است. به گفته‌ی DeepSeek، این رویکرد منجر به ظهور طبیعی “رفتارهای استدلالی قدرتمند و جالب” مانند خود-تأیید، بازتاب (Reflection) و تولید زنجیره‌های استدلالی گسترده (CoT) شده است.

محققان DeepSeek توضیح داده‌اند که:

[DeepSeek-R1-Zero] اولین پژوهش متن‌باز است که تأیید می‌کند قابلیت‌های استدلالی مدل‌های زبانی بزرگ (LLM) می‌توانند صرفاً از طریق یادگیری تقویتی (RL) توسعه یابند، بدون نیاز به تنظیم دقیق تحت نظارت (SFT)”

این دستاورد نه‌تنها نوآوری‌های زیربنایی این مدل را برجسته می‌کند، بلکه راه را برای پیشرفت‌های مبتنی بر RL در زمینه‌ی هوش مصنوعی استدلالی هموار می‌سازد.

با این حال، DeepSeek-R1-Zero با محدودیت‌هایی نیز همراه است. از جمله “تکرار بی‌پایان، خوانایی ضعیف و ترکیب زبان‌ها” که می‌توانند در کاربردهای دنیای واقعی چالش‌هایی ایجاد کنند. برای رفع این نواقص، DeepSeek مدل پرچمدار خود یعنی DeepSeek-R1 را توسعه داده است.


معرفی DeepSeek-R1

مدل DeepSeek-R1 بر پایه نسخه‌ی قبلی خود ساخته شده است، اما یک مرحله داده‌های اولیه (Cold-Start Data) را پیش از آموزش RL دریافت می‌کند. این مرحله‌ی پیش‌آموزشی اضافی قابلیت‌های استدلالی مدل را تقویت کرده و بسیاری از محدودیت‌های DeepSeek-R1-Zero را برطرف می‌کند.

نکته قابل توجه این است که DeepSeek-R1 عملکردی در سطح مدل o1 از OpenAI در ریاضیات، کدنویسی و وظایف استدلالی عمومی ارائه می‌دهد و جایگاه خود را به عنوان یک رقیب قدرتمند تثبیت کرده است.

DeepSeek تصمیم گرفته که هر دو مدل DeepSeek-R1-Zero و DeepSeek-R1 را به‌صورت متن‌باز منتشر کند و همچنین شش مدل تقطیرشده (Distilled) کوچک‌تر را نیز در دسترس قرار داده است.

در میان این مدل‌ها، DeepSeek-R1-Distill-Qwen-32B عملکرد فوق‌العاده‌ای از خود نشان داده و حتی مدل o1-mini از OpenAI را در چندین معیار پشت سر گذاشته است.

مقایسه‌ی عملکرد مدل‌های DeepSeek با رقبا:

  • MATH-500 (Pass@1): مدل DeepSeek-R1 به دقت ۹۷.۳٪ دست یافت که بهتر از OpenAI (۹۶.۴٪) و سایر رقبا بود.
  • LiveCodeBench (Pass@1-COT): نسخه‌ی تقطیرشده‌ی DeepSeek-R1-Distill-Qwen-32B با ۵۷.۲٪ بهترین عملکرد را در بین مدل‌های کوچک‌تر داشت.
  • AIME 2024 (Pass@1): مدل DeepSeek-R1 دقت ۷۹.۸٪ را ثبت کرد و استاندارد جدیدی را در حل مسائل ریاضی به نمایش گذاشت.

یک فرآیند آموزشی نوین برای توسعه مدل‌های استدلالی

DeepSeek اطلاعاتی درباره‌ی فرآیند آموزشی خود برای توسعه‌ی مدل‌های استدلالی منتشر کرده است. این فرآیند ترکیبی از تنظیم دقیق تحت نظارت (SFT) و یادگیری تقویتی (RL) را شامل می‌شود.

بر اساس توضیحات DeepSeek، این فرآیند شامل دو مرحله SFT برای ایجاد پایه‌های اولیه‌ی استدلالی و غیراستدلالی و دو مرحله RL برای کشف الگوهای پیشرفته‌ی استدلال و تطبیق این قابلیت‌ها با ترجیحات انسانی است.

ما معتقدیم که این فرآیند آموزشی به صنعت هوش مصنوعی کمک خواهد کرد و مدل‌های بهتری ایجاد خواهد کرد،
DeepSeek با اشاره به اینکه این رویکرد می‌تواند الهام‌بخش پیشرفت‌های آینده در این حوزه باشد.

یکی از دستاوردهای برجسته این روش قابلیت DeepSeek-R1-Zero در اجرای الگوهای استدلالی پیچیده بدون نیاز به دستورالعمل‌های انسانی پیشین است—اتفاقی که برای اولین بار در حوزه‌ی پژوهش‌های متن‌باز رخ داده است.


اهمیت فرآیند تقطیر (Distillation)

محققان DeepSeek همچنین بر اهمیت فرآیند تقطیر تأکید کرده‌اند—روشی که در آن توانایی‌های استدلالی از مدل‌های بزرگ‌تر به مدل‌های کوچک‌تر و کارآمدتر منتقل می‌شود. این استراتژی باعث شده که حتی مدل‌های کوچک‌تر نیز عملکرد بهتری داشته باشند.

مدل‌های تقطیرشده‌ی DeepSeek-R1 در اندازه‌های ۱.۵B، ۷B و ۱۴B عملکرد خوبی در کاربردهای تخصصی داشته‌اند. در برخی موارد، مدل‌های تقطیرشده‌ی کوچک‌تر از مدل‌های بزرگ‌تر آموزش‌دیده با RL بهتر عمل کرده‌اند.

برای محققان، مدل‌های تقطیرشده در محدوده‌ای از ۱.۵ میلیارد تا ۷۰ میلیارد پارامتر در دسترس هستند و از معماری‌های Qwen2.5 و Llama3 پشتیبانی می‌کنند. این انعطاف‌پذیری، امکان استفاده‌ی متنوعی را در طیف وسیعی از وظایف، از کدنویسی گرفته تا پردازش زبان طبیعی، فراهم می‌کند.


مجوز متن‌باز و استفاده‌ی تجاری

DeepSeek مجوز MIT را برای مخزن و وزن‌های مدل‌های خود اتخاذ کرده است. این بدان معناست که استفاده‌ی تجاری و تغییرات سفارشی (Downstream Modifications) مجاز است.

با این حال، کاربران مدل‌های تقطیرشده‌ی خاص باید اطمینان حاصل کنند که از مجوزهای اصلی مدل‌های پایه مانند Apache 2.0 و مجوزهای Llama3 پیروی می‌کنند.

ایجاد کامنت

سبد خرید
زمینه‌های نمایش داده شده را انتخاب نمایید. بقیه مخفی خواهند شد. برای تنظیم مجدد ترتیب، بکشید و رها کنید.
  • تصویر
  • شناسۀ محصول
  • امتیاز
  • قيمت
  • موجودی
  • دسترسی
  • افزودن به سبد خرید
  • توضیح
  • محتوا
  • وزن
  • اندازه
  • اطلاعات اضافی
برای مخفی‌کردن نوار مقایسه، بیرون را کلیک نمایید
مقایسه