文章详情

近日,蚂蚁集团的 Ling 团队在预印版 Arxiv 平台上发布了题为《每一个 FLOP 都至关重要:无需高级 GPU
2025-04-26 14:07:36
文章详情介绍
近日,蚂蚁集团的 Ling 团队在预印版 Arxiv 平台上发布了题为《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》的技术论文,介绍了他们研发的两款新型大语言模型:百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。这两款模型在设计上采用了多项创新,能够在低性能硬件上高效训练,显著降低了成本。
百灵轻量版的参数规模为168亿,其中激活参数为27.5亿。而增强版的基座模型则拥有高达2900亿的参数,激活参数为288亿。这两款模型的性能均达到行业领先水平,尤其是增强版,其3000亿参数的 MoE 模型在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。
图源备注:图片由AI生成,图片授权服务商Midjourney
通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环境中的应用。为此,蚂蚁集团 Ling 团队提出了一个全新的目标 ——“不使用高级 GPU” 扩展模型,突破了资源和预算的限制。他们的创新训练策略包括动态参数分配、混合精度调度、以及升级的训练异常处理机制,这些策略有效地缩短了中断响应时间,并且优化了模型评估流程,压缩了验证周期超过50%。
在实验中,Ling 团队对9万亿个 token 进行了 Ling-Plus 的预训练。结果显示,使用高性能硬件配置训练1万亿 token 的成本约为635万元人民币,而采用蚂蚁的优化方法后,低规格硬件训练成本降至508万元左右,节省了近20%。同时,性能与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。
这一技术成果若能得到广泛应用,将为国产大模型提供更加经济高效的解决方案,减少对英伟达芯片的依赖,为未来的人工智能发展开辟新道路。
最新星火攻略
更多- AI最新动态:美团推出内部大型模型LongCat;vivo设立独立机器人实验室;腾讯正式发布混元T1版本
- 研究揭示,人工智能工具的应用加大了管理层与普通员工之间的矛盾与冲突
- 王兴:美团内部大模型LongCat已开发完成,并投入数十亿元购置GPU资源以支持人工智能发展
- 在QQ农场中选择哪些作物能够更快升级,提升游戏体验的方法与建议
- 手机行业领军者纷纷布局机器人领域,vivo 机器人实验室正式成立,开启技术创新新篇章
- 怪物猎人P3:探索古代鱼的奇妙世界与猎捕技巧
- 研究发现:ChatGPT 的使用频率增加与个体孤独感上升之间的潜在联系
- 德克萨斯州Alpha学校成功采用AI辅导系统,学生学业成绩迅速提升至全国前2%的水平
- 探索天书奇谈私服的神秘世界,揭开奇幻与冒险的无尽篇章
- 腾讯首次涉足具身智能领域:领投智元机器人最新一轮融资项目
- OpenAI 和 Meta 正在与印度信实集团进行深入讨论,探索 AI 领域的潜在合作机会
- 43999洛克王国:踏上奇幻世界的冒险旅程,开启你的精彩探索之路
- Capco 联手 OpenAI,共同推动金融服务领域的人工智能创新与变革
- Zoho创始人与OpenAI首席执行官发出警告:AI技术可能将大幅压缩程序员的工作岗位
- Browser Use 完成1700万美元融资,致力于开发 AI 代理技术以提升网页浏览体验
最新星火智能
更多- 分析和解决iOS版王者荣耀频繁闪退的问题及其相关原因探讨
- 小米重磅推出!MIJIA 智能音频眼镜 2 闪亮登场,轻巧录音功能加持,更可远程控制你的爱车
- LOL惩戒之箭韦鲁斯技能详解与玩法策略分析,全面解析他的强势与弱势
- 稚晖君智元机器人公司融资额度提升至超8045万元人民币
- 颠覆想象的新一代AI图像生成模型Reve Image正式发布,引领艺术创作的新风潮
- 开源实时物体识别模型RF-DETR:高效识别画面中的物体,支持商业化应用
- 奇迹世界2弓手技能加点攻略解析及策略推荐,助你提升战斗力
- AbletonMCP :利用Ableton的MCP功能助力Claude的音乐创作之旅,实现更具创意的音符与旋律
- “瀚海智语”大模型正式发布,将推动中国海洋领域的智能化发展与创新应用
- 李开复重新整合01.AI:拥抱 Deepseek 开放模型,对抗 OpenAI 的商业模式
- Fin-R1:依托Qwen2.5-7B强化学习技术打造的金融大模型,以7B参数超越行业领导者
- 侠盗飞车手秘籍大全详解,助你在游戏中畅游无阻
- 阿里通义实验室的LHM技术实现单幅图像的高速3D人体重建及动态效果制作
- 腾讯正式推出混元 - T1 版,推理能力显著增强,开启智能新时代
- AMD推出全新GAIA开源项目 助力提升本地大语言模型的运行效率与性能