文章详情

近日,Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2,旨在测量人工智能(AI)模型的通用智能水平
2025-04-26 17:05:46
文章详情介绍
近日,Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2,旨在测量人工智能(AI)模型的通用智能水平。该基金会由著名 AI 研究者 François Chollet 共同创立。根据基金会的博客,这项新测试对大多数领先的 AI 模型提出了严峻挑战。
根据 Arc Prize 排行榜,诸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2测试中的得分仅在1% 到1.3% 之间,而更为强大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大约在1%。ARC-AGI 测试包含了一系列拼图问题,要求 AI 从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题旨在迫使 AI 适应未曾见过的新问题。
为了建立人类基准,Arc Prize 基金会邀请了超过400人参与 ARC-AGI-2测试。这些人群的平均得分为60%,远远超过任何 AI 模型的得分。Chollet 在社交媒体上表示,ARC-AGI-2比前一个版本 ARC-AGI-1更能有效地测量 AI 模型的实际智能。新的测试旨在评估 AI 系统是否能高效地获取超出其训练数据的新技能。
与 ARC-AGI-1相比,ARC-AGI-2的设计改进了多个方面,尤其是引入了 “效率” 这一新指标,并要求模型在没有依赖记忆的情况下即时解释模式。正如 Arc Prize 基金会的共同创始人 Greg Kamradt 所言,智力不仅仅体现在解决问题的能力上,效率同样是一个关键因素。
值得注意的是,OpenAI 的 o3模型在 ARC-AGI-1中以75.7% 的得分无人能敌,直到2024年才被超越。然而,o3在 ARC-AGI-2中的得分却仅为4%,在每个任务上的计算成本高达200美元。ARC-AGI-2的发布正值技术界对新的 AI 进展衡量标准的呼声日益高涨。Hugging Face 的联合创始人 Thomas Wolf 曾表示,AI 行业缺乏足够的测试来衡量被称为人工通用智能的关键特征,包括创造力。
与此同时,Arc Prize 基金会还宣布了2025年的 Arc Prize 竞赛,挑战开发者在 ARC-AGI-2测试中达到85% 的准确率,而每个任务的花费仅为0.42美元。
划重点:
🌟 ARC-AGI-2是 Arc Prize 基金会新推出的测试,旨在衡量 AI 的通用智能水平。
📉 目前顶尖 AI 模型在该测试中的得分普遍较低,远不及人类的平均水平。
🏆 Arc Prize 基金会还将举办挑战赛,鼓励开发者以低成本提高 AI 在新测试中的表现。
最新星火攻略
更多- QQ飞车游戏内喇叭刷屏辅助工具的作用与潜在风险评估分析
- 阿里发布创新多模态模型 Qwen2.5-VL-32B:兼顾视觉信息处理与数学推理能力的最新突破
- Google AI Studio 现已开放,用户可以通过 ai.dev 域名直接进行访问和使用
- OpenAI 改进语音助手功能,使对话更加自然流畅并显著降低打断频率
- 3366小游戏植物大战僵尸2 3366小游戏:深入解析植物大战僵尸2的游戏机制与策略
- 国产AI芯片迅速崛起!最新消息透露蚂蚁集团训练成本下降20%,已接近英伟达水平
- 阿里新推出的TaoAvatar虚拟人项目:全身AR虚拟人物拥有表情与动作,能够在增强现实场景中流畅对话
- 韩国人工智能芯片创业公司FuriosaAI拒绝Meta提出的8亿美元收购报价,选择独立发展
- 中国AI新星DeepSeek-V3强势来袭:以20令牌每秒的速度,能否掀起AI行业的新革命?
- 震撼来袭!DeepSeek-V3-0324版本正式上线,便捷免费商用,普通消费者电脑轻松运行!
- 探索英雄联盟中的露 Lulu:作为辅助之光的战斗与魅力
- DeepSeek-V3-0324 稳步推出:技术界热议的低调优化与全面升级
- 知乎直答全新版本上线:显著降低AI幻觉,实现回答可直接追溯至答主的便利新体验
- 谷歌Gemini Live推出全新功能:实现屏幕共享与实时视频互动,提升交流体验!
- 高尔夫已不再是精英的游戏,Golfoy 创始人借助 AI 技术重塑高尔夫体验与参与方式
最新星火智能
更多- 剑网3天策职业加点详解与攻略,助你轻松掌握天策角色养成及技能搭配
- 苹果手表即将添加人工智能功能与摄像头,开启全新用户体验之旅
- 口袋妖怪与信长之野望的跨世冒险:奇幻融合之旅的探索与体验
- LiblibAI与阿里通义大模型深度合作,推出全新10秒AI视频生成技术,赋能创作新可能
- 告别为短视频转文案付费的烦恼,豆包网页版让你轻松一键搞定抖音视频转文案!
- 视觉语言AI再迎重大进展!伯克利推出TULIP模型,性能显著超越当前所有技术水平
- 与岳乱lun合欢第1集:深度剖析剧情发展与角色塑造之美
- 英国政府官员呼吁民众支持人工智能版权改革,抵制不应成为选择
- 首个针对海洋行业的专业人工智能模型“瀚海智语”正式发布,为智慧海洋时代的发展注入强大动力
- 微软发布 GeoMap-Bench,推动地质图解析智能化进程,提升地质数据理解能力
- 19岁高清免费观看国语版新闻:新一代视听盛宴,掀起观影热潮的背后故事
- 周杰伦的音乐旅程:探寻副本歌词中的奇幻冒险与情感交织
- 百度秒哒正式全线发布 宣称为国内首个对话式应用开发平台的引领者
- 蚂蚁集团推出两款前沿 MoE 大模型,显著降低训练成本并提升效率
- AI最新动态:美团推出内部大型模型LongCat;vivo设立独立机器人实验室;腾讯正式发布混元T1版本