رونمایی DeepSeek از مدلهای جدید استدلالی R1 و R1-Zero
DeepSeek-R1-Zero بدون استفاده از تنظیم دقیق تحت نظارت (SFT) و تنها از طریق یادگیری تقویتی (RL) در مقیاس بزرگ آموزش دیده است. به گفتهی DeepSeek، این رویکرد منجر به ظهور طبیعی “رفتارهای استدلالی قدرتمند و جالب” مانند خود-تأیید، بازتاب (Reflection) و تولید زنجیرههای استدلالی گسترده (CoT) شده است. محققان DeepSeek توضیح دادهاند که: “[DeepSeek-R1-Zero] اولین […]