网站公告:
凯发国际官网永久网址【363050.COM】
363050.com全国服务热线:
凯发娱乐K8 kaifayule
蚂蚁开源轻量凯发国际官网 - 真人娱乐、老虎机、APP下载首选平台级推理模型Ring-lite多项Benchmark达到SOTA
添加时间:2025-06-27 09:13:01

  凯发国际,凯发国际登录,凯发国际官网,凯发国际娱乐,凯发国际注册,凯发娱乐K8,尊龙凯时

蚂蚁开源轻量凯发国际官网 - 真人娱乐、老虎机、APP下载首选平台级推理模型Ring-lite多项Benchmark达到SOTA

  它是以此前百灵开源的MoE架构Ling-lite-1.5(总参数16.8B,激活参数仅2.75B)为起点,然后再凭借独创的C3PO 强化学习训练方法训练而成。

  此外,Ring-lite还探讨了RL训练稳定性、Long-CoT SFT和RL的token分配、多领域任务联合RL训练等推理模型的技术难题,并形成 Ring-lite 的三大项目技术创新。

  首创 C3PO 强化学习训练方法,直击RL训练中回复长度波动导致的优化难题。相比传统方法,显著改善了在RL训练中由于生成回复长度的大幅波动带来的优化不稳定和吞吐波动问题。探讨了Long-CoT SFT与RL的黄金训练比重。从token efficiency角度提出基于entropy loss来平衡训练效果和样本效率的方案,token效率较纯RL和纯SFT大大提升直面多领域数据联合训练难题!系统验证混合训练与分阶段训练的优劣边界,在数学+代码+科学三重领域实现协同增益。

  科学推理:GPQA-diamond得分61.05,与对比最好模型基本持平。

  综合上述榜单的平均得分超过所有对比模型,而Ring-lite只使用了2.75B的激活参数。

  此外,团队还测试了Ring-Lite在2025年高考数学和物理题上的表现。

  比如在诸多模型都测试过的数学全国一卷上,Ring-lite可以获得130分左右的成绩(测试了几次,成绩分布在126~138之间)。

  在经过Long-CoT SFT之后的模型上进行GRPO训练的过程中,团队观察到严重的训练不稳定情况,主要表现在策略模型的梯度范数(Gradient Norm)波动较大且系统吞吐也有明显波动,并且在一定的训练步数之后reward大幅下跌无法恢复。

  如下图a所示,基于不同的训练轮数(epoch)的SFT模型做RL训练,都会出现训练崩溃现象,但崩溃的step不同,SFT训练轮数越少崩溃发生越晚。同时观察到entropy与奖励的崩溃表现出较强的相关性,SFT训练越多,RL训练阶段起点entropy越低(图b),更容易导致训练崩溃。

  经过分析发现,GRPO在训练过程中的长度波动与梯度范数波动和系统吞吐波动呈现出较强的相关性,因为长度变化会直接影响到优化器在每个训练step接收到的token数。

  虽然这一方法会丢弃一些训练token,但通过合理的训练token选择策略,可以有效避免效果下降的问题,并取得训练和系统吞吐稳定的优势。下图是对C3PO方法和常用的样本级别(sample-level)的训练策略做了对比,样本级的过滤策略无法保证单个step的训练token数一致,只能保证样本量一致,而C3PO则强制保证token数一致。

  由于梯度范数的波动受长度下降影响更大,他们做了对比实验来观察C3PO相比GRPO在这一问题上的表现。

  如下图所示,当response-length出现下降时(图a),Policy的梯度范数(GradNorm)开始出现上涨趋势(图b),带来了优化的不稳定,并潜在导致reward的下跌(图c)。 同时在response-length下降时,整个系统的吞吐也呈现下降趋势(图d)。 C3PO由于固定了token-level的训练budget,整体表现更稳定。进一步结合基于熵(entropy loss)来选择Long-CoT SFT之后用来做RL训练的起点模型,解决了reward突发的大幅下跌问题。

  Long-CoT SFT + RL的两阶段训练一个自然的问题是如何分配两阶段的训练比重,涉及到包括数据分配,算力分配等问题。业界虽然有两阶段训练方案,但缺少一些理论分析和实践建议。

  实验发现,直接通过SFT模型的benchmark指标来选择用于RL训练的base模型并非最优方案,且容易引发前面提到的模型奖励骤降问题。他们发现存在某种分配方案,可以得到更好的效果和token efficiency权衡(如下图)。

  在实践中通过entropy loss范围来选择合适的SFT模型作为起点模型,可以取得比较接近图中所示的效果和token efficiency权衡。

  在 Ring-lite 的训练中我们采用了数学、代码、科学任务的联合训练方案,发现直接混合多个任务进行训练相比只训练单个任务都会存在一定的分数下降,在多个模型上进行了实验都能观察到这一现象。如下表,在Ring-lite,基于Ring蒸馏数据训练的Qwen,以及Deepseek蒸馏的Qwen模型均看到类似现象。

  团队最终采用了分阶段的方式(先训练数学任务,再进行代码和STEM任务的混合训练)进行了最终的训练,相比直接混合能更好的缓解领域冲突问题。

  在数据构建方面,采用”开源整合+自主采集”的双重策略:不仅系统整合了数学、编程、自然科学等领域的高质量公开数据集,还针对性补充了大量各学科竞赛真题,包括国际奥林匹克竞赛、ACM编程竞赛等权威赛事的历年试题,确保数据的专业性与挑战性。

  在数据处理环节,建立了多阶段数据质量管控体系,包含低质过滤、语义去重、去污清洗、专家审核等流程,有效保障数据质量。

  在数据管理层面,实现了样本级别的精细化管理,每个数据样本均标注多维属性标签,包括数据来源、学科主题、适用学段以及基于模型通过率的难度系数等。

  基于这些充分的打标信息,通过强化学习算法进行动态数据采样,优化训练数据领域融合,显著提升了模型训练效率和在复杂推理任务的效果。

  为激活基础模型的推理能力,他们构建了具备长链思维(Long-CoT)的高质量数据集。通过整合开源题库与LLM生成内容,采用”自动生成-专家标注-拒绝采样”的迭代优化流程,并经过严格清洗(去除重复/混杂语言等噪声),最终形成以数学(64.5%)、编程(25.5%)和科学(9.2%,含Ling team自研的科学数据合成方法“SHARP”生成的高难度样本)三大领域为主体的多学科推理数据集,为后续强化学习训练提供了良好基础。

  数学通过整合开源数据集(如BigMath、DeepScaleR等)和自主收集的考试题/竞赛题(如AoPS网站题库),经过严格清洗筛选,最终构建了包含73,000多道高质量数学题的强化学习数据集。

  代码数据集精选自CodeContest、TACO、APPS等开源编程竞赛平台及QOJ在线评测系统,通过多阶段过滤(包括格式修正、沙箱验证AC代码、剔除低效算法和重复题),最终形成包含14,000个代码样本的高质量数据集,每个样本均附带可执行解决方案和已验证测试用例。

  科学科学领域精选奥赛/硕博考试等高阶人工标注题库,经严格验证后形成3,833道优质科学推理题集。

  他们相信,未来的AI训练不应只是冰冷的参数优化,而应该像人类学习一样——既能把握节奏,又能灵活调整,在稳定中持续精进。

  动态学习节奏,不再全程固定token Budget,而是让模型像学生一样,随着“学习能力”的提升逐步增加token budget,减少知识浪费,让每一步训练都物尽其用。

  端到端协同优化,不仅关注训练测稳定性,更让C3PO的稳定训练机制贯穿训练与推理阶段,解决推理测长尾生成带来的效率瓶颈。

  未来,期待RL的训练不再受限于系统吞吐的波动,而是像真正的智能体一样,在稳定中成长,在成长中突破,最终成为推动AI能力边界不断拓展的核心引擎。

  06月17日,习言道|习强调,不能让他们吃亏!“古波斯的荣耀:伊朗文物精华展”在上海博物馆开幕,pg电子游戏app官方,和记娱乐最新地址,九游会游戏官网,爱游戏app体育官网入口,

  币游娱乐充值亚星官网平台登录免费游戏炸金花博鱼网站是什么凯发娱乐官网网页版入口皇冠手机网站官网

  06月17日,嫦娥六号搭载法国科学载荷升空 中法携手探月,万博注册送18,威尼斯人手机版官网,hth华体会官方下载,大发娛乐城

  06月17日,中国大使为柬埔寨华校学生才华魅力点赞,美高梅所有平台网址,雷速体育官方账号,腾龙娱乐代理开户,华纳娱乐开户官网

  06月17日,海南商发一、二号工位将各具备年16发发射能力,亚洲城真人,九游首页网站,天亚娱乐官网网址,亿博官网登录

  06月17日中新健康丨全国眼科专家汇聚上海探讨近视防治前沿技术与创新送金币棋牌平台永利体育好玩吗?manbetx注册精选玄机

  06月17日习语品读|“种下的既是绿色树苗,也是祖国的美好未来”大红鹰贵宾场线路检测网址彩神彩票平台美高美游戏官方网站BOB注册送18

  06月17日2023年中国31个省份财政收入全部实现正增长百老汇易记网址188bet网站世博体育官方网站首页视讯游戏直营……

  06月17日,河北承德:特质番茄点亮餐桌 冬日蔬菜供应无忧,视讯真人游戏在哪里玩,易火棋牌官方,买球app哪个好用,五星体育在线日,受雨雪冰冻天气影响 2月1日郑州局管内部分列车停运,开元棋盘游戏中心app,十三张娱乐城,二八杠玩法注册,新濠888

  06月17日湖南安化:立夏时节 野草制坨留住春味火狐体育手机app贝博app平台新版捕鱼游白菜网

  06月17日,李光灿三峡·高原艺术展在开幕,乐鱼官方平台下载,葡京快速充值最佳平台,财神捕鱼吃分和吐分时间,棋牌斗牛牛游戏

  06月17日,四川成都:邹敬园“亲友团”祝贺其在巴黎奥运会夺冠,雪缘园即时比分,贝博ballbet体育官网登录,MG真人体育,AG是假的吗

  06月17日,2024年中日韩青年峰会在首尔开幕,完美国际2渺渺线真人外围国际,凯时kb,九州在线日长江大保护年考啦! “五个小水滴”答卷很清新大富豪官网网站365bet体育注册正规官方博雅德州手机官网365体育一样盘口

  06月17日新疆托布秀尔制作匠人:精雕细琢才有灵魂头头官方网站亚洲第三皇冠体育客户端网站广东会集团球探网即时比分手机版

  06月17日安徽黄山:传统徽味美食走俏市场ca88官网平台彩票365官网app天博备用网址必威官方登陆入口

  杭州一服饰公司逃税被罚缴3.6亿,朱志鑫打耳骨钉了山东青岛:智能化设备助力世界在建最长海底道路隧道施工亚星在线官网大发手机版安卓下载网址bet365最新版APP现金赌场下载

  奔驰车主加塞砸引擎盖 保定交警回应,11岁男生选择不去乒乓国青队集训习言道|8年4次座谈会,习擘画“人间正道”mg手机版网址预测bob综合体育app在线登录皇冠登陆

  黎巴嫩看守政府召开紧急会,LPL战队赛季新皮肤天津伦敦“双城互动” 上演“海河邂逅泰晤士”天津时尚秀BTI体育apppg电子平台放水飞五游戏下载最新beplay客服

  忠诚,金靖官宣怀孕后首现身第七届世界厨师艺术荟隆重举行 李锦记之夜闪耀三亚 让世界爱上中国味千赢娱乐平台怎么样足球滚球真钱赌城官网下载千亿手机app下载

  政坛旋风,支付宝公布五福新玩法广西首次在市政引水隧洞工程应用盾构技术天博综合体育官网登录入口必威app在哪里下载棋牌游戏哪家好沙巴体育网投

  如何评价缝合怪游戏幻兽帕鲁,跳进地理书的旅行 第三季高考后,如何进行心理调适|科普时间188宝金博官方网站bbin在哪开户威尼斯人电子登陆日博网站