当前位置: 首页 >
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 人气:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-25为什么是9月3日阅兵而不是10月1日国庆阅兵?
- 2025-06-25obsidian用一两年后会有多大?全文搜索还快吗?
- 2025-06-25请问HDFS、TFS、GFS等分布式文件系统,哪个更适合用来做***存储?
- 2025-06-25为什么Rust的热度超过Zig?
- 2025-06-25你从别人的旧硬盘里发现了什么有趣的东西?
- 2025-06-25比亚迪大规模降价,是出了什么问题吗?
- 2025-06-25为什么小男孩小时候要比小女孩难养好多?
- 2025-06-25FastApi性能是否真的接近Go?
- 2025-06-25女生腰细是怎样的体验?
- 2025-06-25想学编程,该不该买MacBook?
- 2025-06-25雷军为什么不愿意用性价比打法进军NAS?
- 2025-06-25对方酒驾,我们提出私了要了3.5W,会被认为敲诈勒索吗?
- 2025-06-25现代艺术只考虑意义、不考虑美感吗?
- 2025-06-25如果意外挖出 10 吨黄金,有那些将它们洗白、正常使用的方法?
- 2025-06-25印度是真的烂还是咱们在信息茧房里面?
- 2025-06-25五常的一票否决权,是否存在bug?
推荐产品
-
字节大量使用新语言,包括go,rust等,为什么阿里一直都抱着j***a不松手?
几年前有个小趋势,把J***a项目用Go重写,理由是省机器。 -
能够自己一个人创业的全栈web码农fullstack developer要会哪些技术?
1. 能用reactjs 写一个前端,部署在vercel 2 -
穿瑜伽裤爬山的女生会不会害羞?
上个月去爬太室山,前面就有个瑜伽裤女生,一个人,本来我按我的 -
民以食为天,不同朝代的古人都在吃什么?
别的朝代我了解不多。 就简单聊聊 商代的人都在吃到些什么吧。
最新资讯




