近日,蚂蚁集团Ling团队发表技术成果论文,推出百灵轻量版与百灵增强版两款MoE大语言模型。该团队设定“不使用高级GPU”的目标,通过创新训练策略,降低训练成本,实现与顶尖模型相当的性能。如该技术成果得到验证及推广,将助力国产大模型降低对英伟达芯片的依赖。此外,蚂蚁集团还在AI医疗产业布局,加码具身智能人形机器人领域。
目前,蚂蚁集团Ling团队的技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》已发表在预印版Arxiv平台上。
论文显示,蚂蚁集团推出了两款不同规模的MoE大语言模型百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.5亿),Plus基座模型参数规模高达2900亿(激活参数288亿),两者性能均达到行业领先水平。
据技术成果论文,虽然DeepSeek、阿里通义千问、MiniMax等系列的MoE大模型在特定任务中展现出卓越性能,但是MoE模型的训练通常依赖高性能计算资源(如英伟达H100/H800等先进GPU),高昂成本制约了在资源受限环境中的普及应用。同时,近年来英伟达高性能芯片持续短缺,相比之下,低性能加速器供应更充足且单机成本更低。这种差异凸显了构建跨异构计算单元与分布式集群无缝切换技术框架的必要性。
因此,Ling团队设定的目标是“不使用高级GPU”来扩展模型,并通过提出创新性的训练策略,旨在突破资源与预算限制实现高效大语言模型训练,从而推动AI技术向普惠化方向发展。
据技术论文,Ling团队在五种不同的硬件配置上对9万亿个token进行Ling-Plus的预训练,其中使用高性能硬件配置训练1万亿token的预训练成本约为635万元人民币,但利用蚂蚁的优化方法后,使用低规格硬件的训练成本将降至508万元左右,节省了近20%,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。
此前,DeepSeek通过一系列算法创新及工程优化,使用性能较低的英伟达H800训练出了性能与顶尖模型相当的V3与R1,为大模型的训练开辟了新的道路,让更多的企业和研究机构看到了降低成本、提高效率的可能性。如果蚂蚁集团的技术成果得到验证及推广,意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案,以进一步降低对英伟达芯片的依赖。
蚂蚁集团正加码AI医疗产业布局,3月21日,其对外公布了在医疗机构、医生、用户三端最新AI产品体系升级。其中,面向医疗机构,蚂蚁联合华为医疗卫生军团、阿里云等推出“蚂蚁医疗大模型一体机”全栈式解决方案;面向好大夫在线万注册医生,发布AI医生助手系列工具;同时,服务用户的健康应用“AI健康管家”也推出智能思考、健康自测等十余项新功能。
今年2月,某招聘平台信息显示,蚂蚁集团开放招聘具身智能人形机器人系统和应用等岗位,年薪高达百万元。而早在去年12月,蚂蚁集团就注册成立了上海蚂蚁灵波科技有限公司,聚焦具身智能技术和产品研发。
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。
如需转载请与《每日经济新闻》报社联系。未经《每日经济新闻》报社授权,严禁转载或镜像,违者必究。
特别提醒:如果我们使用了您的图片,请作者与本站联系索取稿酬。如您不希望作品出现在本站,可联系我们要求撤下您的作品。
辽宁方大集团旗下北方重工5.5米滚切式切头剪顺利完成厂内试车 填补国内空白
突发!美国宣布摧毁胡塞武装总部,成功打击其关键领导层!加沙政府新领导人被以军炸死,上任仅5天!哈马斯高官夫妇
停播180多天后,三只羊迎转机!合肥通报:罚没、赔付近1亿元,具备恢复经营条件!公司再次致歉,合作品牌压减80%
美乌利雅得会谈结束,乌称不与俄代表会面;合肥:三只羊公司具备恢复经营条件;酱油检出镉?当地:抽检23批次均符合国标;寒潮将大举来袭 每经早参
中国地震台网正式测定:03月24日12时38分在西藏林芝市米林市(北纬29.15度,东经93.74度)发生4.1级地震
从“拼桌”到“拼机遇”,上海南京西路工位9.9元起租,共享时代下还能“拼”什么?