یادگیری تقویتی Archives

11 اسفند 1403
توسط nargesth
اخبار هوش مصنوعی, هوش مصنوعی

رونمایی DeepSeek از مدل‌های جدید استدلالی R1 و R1-Zero

DeepSeek-R1-Zero بدون استفاده از تنظیم دقیق تحت نظارت (SFT) و تنها از طریق یادگیری تقویتی (RL) در مقیاس بزرگ آموزش دیده است. به گفته‌ی DeepSeek، این رویکرد منجر به ظهور طبیعی “رفتارهای استدلالی قدرتمند و جالب” مانند خود-تأیید، بازتاب (Reflection) و تولید زنجیره‌های استدلالی گسترده (CoT) شده است. محققان DeepSeek توضیح داده‌اند که: “[DeepSeek-R1-Zero] اولین […]

ادامه مطلب