9月17日,梁文鋒團(tuán)隊(duì)在《自然》雜志發(fā)表論文,介紹開源AI模型DeepSeek-R1采用的大規(guī)模推理模型訓(xùn)練方法。研究表明,通過純強(qiáng)化學(xué)習(xí)訓(xùn)練大規(guī)模推理模型,可有效提升大語言模型推理能力并降低人類輸入需求。該模型在數(shù)學(xué)、編程競(jìng)賽及STEM領(lǐng)域研究生水平任務(wù)中表現(xiàn)優(yōu)異,如數(shù)學(xué)基準(zhǔn)測(cè)試得分達(dá)77.9%(DeepSeek-R1-Zero)和79.8%(DeepSeek-R1)。模型以解決問題獲獎(jiǎng)勵(lì)機(jī)制強(qiáng)化學(xué)習(xí),減少訓(xùn)練成本與復(fù)雜性。團(tuán)隊(duì)稱未來將聚焦優(yōu)化獎(jiǎng)勵(lì)過程以提高推理可靠性。
(科技日?qǐng)?bào)記者 張夢(mèng)然 岳靚)