侵權投訴

ExGRPO


  • ExGRPO 框架:經驗驅動學習,引領推理新范式

    當人工智能模型仍以“刷題+打分”為主流訓練模式時,一支來自上海人工智能實驗室、澳門大學、南京大學與香港中文大學的研究團隊提出:訓練不僅是做題,更要復盤、溫習、內化。 他們近期發(fā)布了題為《ExGRPO:

    ExGRPO 2025-11-14

粵公網安備 44030502002758號