登录

首页 > 今日新闻 > 快手Klear团队：梯度保留协调熵，解决强化学习中的熵不稳定问题

快手Klear团队：梯度保留协调熵，解决强化学习中的熵不稳定问题

发布时间：2025-10-28 17:20:46

Klear 语言大模型团队完成，核心作者苏振鹏，潘雷宇，吕民轩，胡文凭，张富峥，周国睿等。快手 Klear 语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向，积累务实的探索 AGI 的能力边界，并不断推进 AI 领域新技术和新产品的发展。此前，该团队已开源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型，其中 Klear-Reasoner-8B 在数学和代码的基准测试上达到了同参数级别模型的 SOTA 效果。

近年来，随着 OpenAI O1、Deepseek R1、KIMI K2 等大模型不断展示出复杂推理与思维链能力，强化学习已成为推动语言模型智能跃升的关键技术环节。相比传统的监督微调，RL 通过奖励信号直接优化模型行为，使模型能够在训练中自我探索、自我修正。

然而，这一阶段的训练并非稳态过程。业界在大规模 RLVR 实践中普遍发现，模型熵的失衡，即探索与利用的不协调，是导致模型训练不稳定、性能难以提升的核心原因。针对这一长期瓶颈，快手 Klear 团队提出了一种新的强化学习算法 CE-GPPO（Coordinating Entropy via Gradient-Preserving Policy Optimization），该方法以「熵」为核心视角，重新审视 RL 中梯度裁剪机制的本质影响，并对应地提出了梯度保留策略，在保证训练稳定的前提下，纳入裁剪区间外的梯度使模型能够在训练过程中达到探索与收敛的平衡。

快手Klear团队：梯度保留协调熵，解决强化学习中的熵不稳定问题

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“观经济用户上传并发布"，本平台仅提供信息存储服务。

下一篇:大模型在具身推理上「翻车」了？4496 道题全面揭示短板

上一篇:Keeta上线阿布扎比！美团国际化业务稳步拓展

今日新闻更多>>

黑客挖出苹果隐藏硬件！你的MacBook里有加速计/陀螺仪刚刚，宇树发布马年首个重磅机器人新品，小身板扛起200斤大汉这个春节，AI 不聊天了，开始替我买单刚刚，Seedream 5.0上线！字节又一新模型他在戈壁滩上，为全球算力退烧马斯克“点火”，重估中国光伏？｜行业风向标 2026，巨头大战AI教育穹彻智能完成A轮数亿元融资

房产家居更多>>

敦泰电子：引领车用显示触控技术发展，助力智能座舱时代当汽车“卷”向天空：小鹏汇天、峰飞、广汽等携eVTOL首次亮相上海车展 | 车展新势力国补倒计时！轩逸家族年末大促，幸福座驾触手可及！家用MPV选TA，长超5.2m，油耗5.27L，纯电能跑200km，比传祺M8省解放/陕汽/徐工斩千辆大单东风/宇通订单火爆重卡市场12月谁称霸宇通/中车斩千辆大单海格/金龙频现超百辆订单客车市场12月爆了？新能源车分体式大灯设计，投射出了行业变革的阴影车企“冲量战”打响，车是现在买还是等年后？

汽车频道更多>>

年检又有“新规定”？交警：6到15年内的车主注意，车友们知道吗 smart易寒：三个核心关键词既是品牌基石又启示未来走向 2025年春运拉开大幕高德地图同步启动“温暖回家路”春运出行服务以变革应对变革！2025年的吉利将变成什么样？捷豹XEL官降至18.98万，和前驱奥迪A4L相比值得选吗？魏牌全新蓝山荣获“五星＋” 坐实智能驾驶学霸无“名”亦出挑，坦克400 Hi4-T以“战损”之躯成功穿越道顿公路高锐和袁小华掌舵的广汽本田，是怎么变得越来越“不值钱”的

读书乐趣更多>>

国内车企开始不宣传智能驾驶：比谁的车更安全银河星耀8加推基础驾驶辅助版型预售价13.38万元起！ 12月MPV销量排行榜！五菱征程跃升第一，别克GL8位居第七福田汽车：瞅准新能源“大蛋糕”，能否独占鳌头？文能胜出武亦不输奥迪A7L力压宝马5系有法宝 70 万用户成为 “忠实粉丝团”，传祺的魅力远超想象 10.99万就能买新能源中型SUV？两种动力，奇瑞全新SUV将上市新势力1月第2周销量榜：小鹏理想争第一，蔚来意外跌出前十

电子产品更多>>

9月开启旗舰大战！高通骁龙8 Elite 2/联发科天玑9500提前发：硬刚苹果尊界S800内饰官图，完全就是超豪华的“老钱风” 新能源真的省钱吗？听我一句劝，1年开不到10000km，燃油车更划算上海车展观察：智驾进入“冷静期”，安全重回第一性零跑用盈利换信任，“小理想”的春天来了唐L尺寸空间够大有高阶智驾动力与无人机平台增添用车乐趣续航达成率超95%，埃安RT让你没有续航焦虑，出行又有面儿 3000万辆！中国首个！上汽通用五菱迎来新里程碑

财经播报更多>>

不学抖音学INS，OpenAI想站着把钱挣了华为WATCH 5评测：首款鸿蒙AI+麒麟+5G智能手表 2025必入之选自动落锁这么好的功能，却让部分车主头疼不已，买车时要注意福特够“野”！新F-150猛禽、烈马复古特别版首秀销量增长被指含水分，长安福特前景真有那么不堪？ 2024以高增长收官，2025喜迎开门红，一汽奔腾“火力全开”！从内卷中抽离，2024捷豹路虎用实力证明“精神链接”更可贵岚图李博晓：首发LFC新技术，做最适合东北用的电动车！

Copyright 2014-2025 观经济版权所有京ICP备20151973号-1