یادگیری تقویتی

Deepseek R1

رونمایی DeepSeek از مدل‌های جدید استدلالی R1 و R1-Zero

DeepSeek-R1-Zero بدون استفاده از تنظیم دقیق تحت نظارت (SFT) و تنها از طریق یادگیری تقویتی (RL) در مقیاس بزرگ آموزش دیده است. به گفته‌ی DeepSeek، این رویکرد منجر به ظهور طبیعی “رفتارهای استدلالی قدرتمند و جالب” مانند خود-تأیید، بازتاب (Reflection) و تولید زنجیره‌های استدلالی گسترده (CoT) شده است. محققان DeepSeek توضیح داده‌اند که: “[DeepSeek-R1-Zero] اولین […]
ادامه مطلب
سبد خرید
زمینه‌های نمایش داده شده را انتخاب نمایید. بقیه مخفی خواهند شد. برای تنظیم مجدد ترتیب، بکشید و رها کنید.
  • تصویر
  • شناسۀ محصول
  • امتیاز
  • قيمت
  • موجودی
  • دسترسی
  • افزودن به سبد خرید
  • توضیح
  • محتوا
  • وزن
  • اندازه
  • اطلاعات اضافی
برای مخفی‌کردن نوار مقایسه، بیرون را کلیک نمایید
مقایسه