Tags
DeepSeek
化学
360
AI训练
强化学习
发布时间
Jun 4, 2025
摘要
在大模型的训练中强化学习算法一直是提升模型性能的关键然而其面临着计算资源要求高训练速度慢等问题让普通企业机构望而却步面对行业共性难题近日在360数字安全集团冰刃实验室主导下打造出轻量化高性能的AI训练方案RLLoRA在保持模型泛化能力的前提下体积仅为原始全参数模型的15实现强化学习训练技术引领性突破目前360安全大模型已深度融合RLLoRA技术相关核心代码也已正式对外开放下载使用 大模型强化学习训练困境更高性能更高门槛 当DeepSeekR1凭借卓越的推理与泛化能力惊艳全球其背后的核心引擎强化学习算法GRPOGeneralized Reinforcement Learning Policy O
来源
雷锋网