www欧美,亚洲卡1卡2乱码新区仙踪

在測(cè)試數(shù)學(xué)能力的 AIME24 評(píng)測(cè)集上，以及評(píng)估代碼能力的 LiveCodeBench 中，千問 QwQ-32B 表現(xiàn)與DeepSeek-R1相當(dāng)，遠(yuǎn)勝于 o1-mini 及相同尺寸的R1 蒸餾模型；在由Meta首席科學(xué)家楊立昆領(lǐng)銜的“最難LLMs評(píng)測(cè)榜” LiveBench、谷歌等提出的指令遵循能力IFEval評(píng)測(cè)集、由加州大學(xué)伯克利分校等提出的評(píng)估準(zhǔn)確調(diào)用函數(shù)或工具方面的BFCL測(cè)試中，千問 QwQ-32B 的得分均超越了 DeepSeek- R1。

大規(guī)模強(qiáng)化學(xué)習(xí)

我們?cè)诶鋯?dòng)的基礎(chǔ)上開展了大規(guī)模強(qiáng)化學(xué)習(xí)。在初始階段，特別針對(duì)數(shù)學(xué)和編程任務(wù)進(jìn)行了 RL 訓(xùn)練。與依賴傳統(tǒng)的獎(jiǎng)勵(lì)模型（reward model）不同，我們通過校驗(yàn)生成答案的正確性來為數(shù)學(xué)問題提供反饋，并通過代碼執(zhí)行服務(wù)器評(píng)估生成的代碼是否成功通過測(cè)試用例來提供代碼的反饋。

我們發(fā)現(xiàn)在 RL 擴(kuò)展過程中，隨著訓(xùn)練輪次的推進(jìn)，這兩個(gè)領(lǐng)域中的性能均表現(xiàn)出持續(xù)的提升。

在第一階段的 RL 過后，我們?cè)黾恿肆硪粋€(gè)針對(duì)通用能力的 RL。此階段使用通用獎(jiǎng)勵(lì)模型和一些基于規(guī)則的驗(yàn)證器進(jìn)行訓(xùn)練。我們發(fā)現(xiàn)，通過少量步驟的通用 RL，可以提升其他通用能力，同時(shí)在數(shù)學(xué)和編程任務(wù)上的性能沒有顯著下降。

通過API使用QwQ-32B

以下我們展示了一段簡(jiǎn)短的示例代碼，說明如何通過 API 使用 QwQ-32B。

未來

這是Qwen在大規(guī)模強(qiáng)化學(xué)習(xí)（RL）以增強(qiáng)推理能力方面的第一步。通過這一旅程，我們不僅見證了擴(kuò)展RL的巨大潛力，還認(rèn)識(shí)到預(yù)訓(xùn)練語言模型中尚未開發(fā)的可能性。

在致力于開發(fā)下一代Qwen的過程中，我們相信將更強(qiáng)大的基礎(chǔ)模型與依托規(guī)?；?jì)算資源的RL相結(jié)合，將會(huì)使我們更接近實(shí)現(xiàn)人工通用智能（AGI）。此外，我們正在積極探索將智能體與RL集成，以實(shí)現(xiàn)長(zhǎng)時(shí)推理，目標(biāo)是通過推理時(shí)間擴(kuò)展來釋放更高的智能，敬請(qǐng)期待。

歡迎體驗(yàn)

目前，QwQ-32B 已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B) 和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B) 開源，并采用了 Apache 2.0 開源協(xié)議。

也歡迎大家通過 Qwen Chat

(https://chat.qwen.ai/?models=Qwen2.5-Plus）直接進(jìn)行體驗(yàn)！

【來源：通義千問Qwen】

分享到

通義千問Qwen

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽