
螞蟻與清華開源強化學習框架AReaL-boba,數學推理能力達SOTA水平
3月31日,螞蟻集團與清華大學聯合推出開源強化學習訓練框架AReaL-boba,研發(fā)團隊采用該框架訓練出數學推理能力達到業(yè)內領先水平(State-of-the-Art,SOTA)的7B推理模型,并以極低成本實現了32B推理大模型的高效復現。...
3月31日,螞蟻集團與清華大學聯合推出開源強化學習訓練框架AReaL-boba,研發(fā)團隊采用該框架訓練出數學推理能力達到業(yè)內領先水平(State-of-the-Art,SOTA)的7B推理模型,并以極低成本實現了32B推理大模型的高效復現。...