邮箱:https://www.mdjbank.com
手机:13356521654
电话:400-082-6015
地址:欧博体育有限公司
多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。
如图所示,通过LMM-R1框架训练的模型(下侧)能够正确应用勾股定理计算出圆锥的斜高,而基准模型(上侧)错误地识别了斜高位置,导致计算错误。这种显著的推理能力提升来自于一个创新的两阶段训练策略。
这是来自东南大学、香港中文大学、蚂蚁集团等研究人员的,两阶段多模态基于规则强化学习的框架LMM-R1,实现多模态大模型的推理性能飞跃。
针对多模态领域长期存在的”高训练成本、低任务泛化”难题,LMM-R1框架创造性引入规则化奖励函数机制。
通过深度优化DeepSeek-R1核心思想,该框架在无需多模态标注数据的情况下,仅需240元GPU成本即可显著增强模型性能,成功将多模态模型的推理能力提升至工业级应用标准。
实验数据显示,经LMM-R1框架强化的QwenVL-2.5-3B模型,在推箱子等复杂路径规划任务中,性能显著超越GPT-4o、Claude3.5等100B+参数量产品级大模型。
DeepSeek-R1和OpenAI的o1等模型已经证明了基于规则奖励的强化学习在纯文本大语言模型中的有效性。然而,将这一成功经验扩展到多模态领域面临两大关键挑战:
数据限制:多模态领域中高质量的推理数据十分稀缺,且答案常常模糊不清,难以用于规则奖励基础推理能力薄弱:多模态预训练常常会削弱模型在纯文本任务上的能力,特别是对于参数量有限的小模型
针对这些挑战,研究团队提出了LMM-R1框架,通过创新的两阶段训练策略巧妙解决了以上问题。
FRE阶段利用丰富的高质量纯文本推理数据(如数学题、科学问题等)通过基于规则的强化学习来增强模型的基础推理能力。这一阶段避开了多模态数据的限制,专注于构建坚实的推理基础。
在这个阶段,模型学习如何进行严密的逻辑思考、复杂的数学运算和多步骤推理,为后续的多模态泛化奠定基础。
MGT阶段将第一阶段培养的推理能力泛化到多模态领域。研究团队在这一阶段探索了几个关键领域:
几何推理领域:使用GeoDB等数据集,增强模型在几何图形推理方面的能力感知-推理平衡领域:使用VerMulti数据集,提升模型在多种视觉任务中的推理能力智能体相关领域:使用推箱子(Sokoban)等需要复杂规划的任务
值得注意的是,这种两阶段策略避免了对昂贵的高质量多模态训练数据的依赖,同时有效利用了丰富的文本推理数据资源,为构建高性能多模态模型提供了一种高效路径。
研究团队使用Qwen2.5-VL-Instruct-3B作为基准模型进行实验。经过LMM-R1框架训练后,模型在各类基准测试上均取得显著提升:
在纯文本和多模态基准测试上平均提升约4.5%~4.8%在推理密集型任务(如几何问题)上效果尤为明显
更重要的是,实验证明了一个关键发现:通过先增强基础推理能力再进行多模态泛化的策略,可以有效避免直接在多模态数据上训练时常见的推理能力退化问题。
在典型智能体应用场景验证中,研究团队选取推箱子任务作为评估基准。该任务要求模型同步处理视觉空间解析、目标匹配、动态路径规划等多模态推理能力,对智能体在现实场景中的决策能力具有重要指示意义。经LMM-R1框架强化后的模型,仅通过初始画面即可完成完整动作序列规划。
实验证明哪怕是3B规模的小模型,使用LMM-R1的两阶段RL训练,也可以极大增强推理能力,暗示了多模态R1的强大应用潜力。
值得关注的是,该框架以上游项目OpenRLHF为基础,实现了完全自主研发的多模态训练方案:通过重构数据流实现多模态支持,基于张量并行优化和内存管理技术创新,构建起高效稳定的训练体系。欧博体育其开创性的PackingSample + Ring FlashAttention技术实现了模型最大上下文长度基于GPU数量的线性增长率,配合动态梯度裁剪策略,在保证训练稳定性的同时大幅降低资源消耗。
项目自2025年2月开源以来迅速获得学术界关注,相关技术方案已被多个知名开源项目采纳为基准架构。目前,LMM-R1框架已在GitHub平台建立独立技术生态,累计获得超过500+星标关注。
团队表示将持续深耕多模态模型领域,推动多模态强化学习技术在智能体、视觉问答等场景的落地应用。与开源社区共建多模态强化学习框架。
03月13日,被爆“幽灵外卖” 北京昌平区市场监管局对涉事门店立案调查,12bet手机APP,爱游戏网页官方,手机买球,金宝博体育官网入口
03月13日,天津经济社会发展报告出炉 2024年经济十大看点值得关注,线年欧洲杯赛程直播,网上现金炸金花网站
03月13日,欧博体育龙年第一张电影票 你会贡献给谁?,爱博快速登陆,优博网站是什么,伟德体育登录官网,博鱼外围官网
03月13日内蒙古两会观察:基层代表接地气,原汁原味讲故事新甫京娱乐娱城平台网址华体育会app官方入口滚球比分独赢规则AG九游老哥俱乐部
03月13日国际最新研究:一种新方法制作智能纤维 可用于可穿戴电子设备优博官网地址bet9九州手机登录入口正规炸金花游戏澳博体育在线点 创单日最大跌点与跌幅纪录金钥匙平特报永乐国际一往无前威尼斯澳门股份有限公司官网美高梅网投总站……
03月13日,海南打造深海科技创新策源地 实施“深海智造”行动,三多棋牌游戏平台官网,网投首选网站,云顶集团登录网址,365bet体育滚球盘
03月13日,(文化中国行)“老无锡”家门口见证中华文化活化与传承,高手解挂,99真人国际娱乐平台,和记h188怡情博娱,云顶娱乐手机版客户端
03月13日国家气候中心:与常年相比,今年我国北方大部地区入冬时间偏晚1-10天美高梅线上娱乐网站真人德州苹果版云顶娱乐手机登录页巴黎人贵宾会
03月13日,共建共享 有福之州造福于民,伟德体育买球,果博下载地址,体育365注册,巴黎人贵宾会app下载
03月13日,理解山西丨长城一号公路串起的不止古建文物,还有一种坚持“双十一”宁夏实现网络零售额23.1亿元,亿博体育注册送18,云顶国际快速注册,韦德娱乐官方网站,365在线日,英国央行行长贝利:坚持“渐进式”降息策略,大发网投,网上投注大全,亚赢体育官网首页登录,bet体育足球
03月13日四川实施“寒假促就业暖心行动” 四项举措打好就业“组合拳”必威登录网页沙巴体育规则首页银河官网是多少凯时k88平台官网
03月13日2024中国(江西)工业互联网创新发展大会举行金沙电子登入火狐网站是多少米乐电子网投奥门金沙最新网此首页
03月13日遮风挡雨自带“空调”!“洞”感篮球赛在这里举行澳门永利app安卓版手机下载金币炸金花在哪可以赌篮球伟德在线登录
TF三代火力全开舞台,想做饭的女人和想吃饭的女人广州郑仙诞文化旅游周启动 “千年古诞”展新姿必威88登录新宝5登陆测速首选快乐炸金花最新安卓版手机威尼斯人电脑网页版登陆
中国第22金,郑钦文vs费尔南德斯银行开卖黄金首饰,是你的“囤金”新选择吗?威尼斯人手机网页版网址葡京平台代理合作免费pg电子试玩澳门百老汇在线登录
《原神》宣布登陆Xbox,吧友热议沙特石油杯含金量香港国家安全展览厅正式开幕 推动全民国家安全教育皇冠体育竞猜云顶娱乐登录网页版365bet注册在线游戏评级凯时国际上娱乐官网
他们不愿花1秒钟了解新疆的线次座谈会,习擘画“人间正道”888真人入口米乐的网址是多少英亚国际是干什么的美高梅体育平台
成都AG超玩会 2:1 重庆狼队,卢昱晓片场照【东西问】黄桂秋:广西歌圩文化为何能唱响海内外?best365注册亿博免费试玩银河手机app下载pp体育官网首页
这通电话也太难为弟弟了,周震南微博名改回来了巴基斯坦两起巴士翻车事故致30余人死亡亚游娱乐ror体育平台官网爱游戏体育官网在线mg现金大全