Tags
化学
DeepSeek
强化学习
英伟达
人工智能
发布时间
Jun 5, 2025
摘要
IT之家 6 月 5 日消息科技媒体 marktechpost 昨日6 月 4 日发布博文报道称英伟达推出 ProRL 强化学习方法并开发出全球最佳的 1.5B 参数推理模型 NemotronResearchReasoningQwen1.5B 背景简介 推理模型是一种专门的人工智能系统通过详细的长链推理Chain of ThoughtCoT过程生成最终答案 强化学习Reinforcement LearningRL在训练中扮演非常重要的角色DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习RLVR方法推广了 GRPOMirror Descent 和 RLOO 等算法 然而研究者仍在
来源
IT之家