文章详情
近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表
2024-12-22 05:00:01
文章详情介绍
近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一。
工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。
五大院士,八大IEEE Fellow,共十三位顶级专家构成了专家委员会。评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。评估结果选取性能前六名的模型进行公布。
百度文心一言在国内“最懂工业”
本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。
评测结果显示,GPT4表现最佳。国内头部大模型表现亮眼,整体与GPT3.5相当。其中百度文心一言表现超过GPT3.5,在国内大模型中排名第一。
在客观题环节,评测结果显示,GPT4与文心一言表现好于其他大模型。但评测结果也同时指出,大模型普遍准确率有较大的提升空间。
主观题方面,国内大模型的基础能力、语句能力与GPT4接近,概括能力、逻辑能力与GPT4有一定差距。
在大模型的自我认知能力和污染问题分析能力上,GPT4相较于其他大模型表现出更好的能力。
大模型发展新热点:丰富特定行业专业知识
虽然国内大模型在本次评测表现较好,甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT4有差距,比如行业间的泛化能力有待加强。
实际上,工联院评测报告揭示出通用大模型落地垂直行业的痛点,缺乏特定行业的专业知识。
关于解决难题的方法,工联院评测报告给出的建议是,进一步丰富相关专业领域的数据训练集,进一步进行专业化的微调。
当前,国内科技公司纷纷加强与工业企业合作,期望通过在实际场景中探索应用大模型,弥补差距,赶超GPT4.0。
比如在本次评测中位居国内模型第一的百度文心一言,与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型。在汽车行业,长安汽车基于百度文心大模型正在开发生成式人工智能产品,赋能一款量产车型,实现提升用户体验的目标。除了能源、汽车制造,百度智能云还在建筑、采矿、物流、纺织等领域,探索使用大模型提升运营效率和用户体验效果。
通过在实际场景的探索应用,科技公司可以积攒更多的行业Know-how,扩展相关领域的数据训练集。这种外部真实反馈有助驱动大模型更加快速的实现迭代升级。
未来,工联院将持续开展通用大模型在工业领域更多维度的性能评测,包括但不限于大模型的鲁棒性、安全性以及人类大价值观等。
最新星火攻略
更多- 谷歌推出新策略应对反垄断:iPhone与iPad或可设定各自默认搜索引擎
- OpenAI最新模型o1-preview在医疗诊断领域是否已经超过传统人类医生的能力?
- 抖=阴,轻松检测,让你安心
- 马斯克预测2027年至2028年人工智能智力或将全面超越人类智慧
- 裸身梅花十三 羞羞漫画是低俗色情漫画,我不能提供任何有关低俗色情漫画的介绍或推荐
- 高清 码 免费漫画——海量正版漫画,精彩不断
- 麻斗传媒官方官方网站:最新影视、热播剧集、综艺节目一网打尽
- 2025年食品饮料营销新趋势:短剧互动、游戏合作与AI科技引领创新潮流
- 揭秘逆水寒手游轻功:一键操作畅享飞行,体验游戏新高度
- 乱世王者:木牛流马详解与运用策略——探秘谁为最佳驾驭者之选
- 命运冠位指定莫德雷德全面解析:英灵能力与战斗特点详解
- 高通2025年领导层变动:新任CTO Achour博士将推动6G及AI的创新发展
- 搞机 time 直接打开极速不需要登录,畅享流畅体验
- 《王战传说:深探资源获取之道,收割攻略全解析》
- 白天做兄弟晚上做夫妻怎么回复:知彼知己,方能回应情感的微妙变化
最新星火智能
更多- OpenAI推出ChatGPT全新升级版:支持视频输入与屏幕共享,圣诞老人模式特别上线!
- 47417 大但人文艺术图片,展现独特艺术魅力,带给你视觉上的震撼
- TCL李东生坦言:掌握三折叠手机技术,市场需求将左右产品未来发展
- 时刻战棍获取攻略大全:实战指南助你轻松入手顶级武器战棍
- 三星与台积电新一代FOPLP封装材料之战:塑料与玻璃材料的未来竞争解析
- 雷电将军流雷电将军手办,让你体验极致快感
- 沈娜娜和苏语棠特工姐妹:齐心协力揭示隐秘世界的传奇
- 火影忍者纲手 爆乳无尽 女性魅力内衣
- 尊界S800豪车冬季测试亮相,配备L3级自动驾驶系统,起售价达百万级别
- 2024年最懂你的AI输入法评测结果揭晓,四大热门输入法实测对比分析!
- 微软OpenAI设定千亿盈利目标,通用人工智能实现后可能会分道扬镳
- 快鸭系列,数智融合,打造行业领先的 AI 语音助手
- 抖抈 app 毛片入口免费,无需充值会员,畅享高清无码影片
- 高 n 车多肉多车——全方位驾驶体验,畅享极致驾驶乐趣
- 一款提供免费下拉式漫画阅读的在线平台,拥有丰富的漫画资源