在測(cè)試數(shù)學(xué)能力的 AIME24 評(píng)測(cè)集上,以及評(píng)估代碼能力的 LiveCodeBench 中,千問 QwQ-32B 表現(xiàn)與DeepSeek-R1相當(dāng),遠(yuǎn)勝于 o1-mini 及相同尺寸的R1 蒸餾模型;在由Meta首席科學(xué)家楊立昆領(lǐng)銜的“最難LLMs評(píng)測(cè)榜” LiveBench、谷歌等提出的指令遵循能力IFEval評(píng)測(cè)集、由加州大學(xué)伯克利分校等提出的評(píng)估準(zhǔn)確調(diào)用函數(shù)或工具方面的BFCL測(cè)試中,千問 QwQ-32B 的得分均超越了 DeepSeek- R1。
大規(guī)模強(qiáng)化學(xué)習(xí)
我們?cè)诶鋯?dòng)的基礎(chǔ)上開展了大規(guī)模強(qiáng)化學(xué)習(xí)。在初始階段,特別針對(duì)數(shù)學(xué)和編程任務(wù)進(jìn)行了 RL 訓(xùn)練。與依賴傳統(tǒng)的獎(jiǎng)勵(lì)模型(reward model)不同,我們通過校驗(yàn)生成答案的正確性來為數(shù)學(xué)問題提供反饋,并通過代碼執(zhí)行服務(wù)器評(píng)估生成的代碼是否成功通過測(cè)試用例來提供代碼的反饋。
我們發(fā)現(xiàn)在 RL 擴(kuò)展過程中,隨著訓(xùn)練輪次的推進(jìn),這兩個(gè)領(lǐng)域中的性能均表現(xiàn)出持續(xù)的提升。
在第一階段的 RL 過后,我們?cè)黾恿肆硪粋€(gè)針對(duì)通用能力的 RL。此階段使用通用獎(jiǎng)勵(lì)模型和一些基于規(guī)則的驗(yàn)證器進(jìn)行訓(xùn)練。我們發(fā)現(xiàn),通過少量步驟的通用 RL,可以提升其他通用能力,同時(shí)在數(shù)學(xué)和編程任務(wù)上的性能沒有顯著下降。
通過API使用QwQ-32B
以下我們展示了一段簡(jiǎn)短的示例代碼,說明如何通過 API 使用 QwQ-32B。
未來
這是Qwen在大規(guī)模強(qiáng)化學(xué)習(xí)(RL)以增強(qiáng)推理能力方面的第一步。通過這一旅程,我們不僅見證了擴(kuò)展RL的巨大潛力,還認(rèn)識(shí)到預(yù)訓(xùn)練語言模型中尚未開發(fā)的可能性。
在致力于開發(fā)下一代Qwen的過程中,我們相信將更強(qiáng)大的基礎(chǔ)模型與依托規(guī)?;?jì)算資源的RL相結(jié)合,將會(huì)使我們更接近實(shí)現(xiàn)人工通用智能(AGI)。此外,我們正在積極探索將智能體與RL集成,以實(shí)現(xiàn)長(zhǎng)時(shí)推理,目標(biāo)是通過推理時(shí)間擴(kuò)展來釋放更高的智能,敬請(qǐng)期待。
歡迎體驗(yàn)
目前,QwQ-32B 已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B) 和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B) 開源,并采用了 Apache 2.0 開源協(xié)議。
也歡迎大家通過 Qwen Chat
(https://chat.qwen.ai/?models=Qwen2.5-Plus)直接進(jìn)行體驗(yàn)!
【來源:通義千問Qwen】