内地首个AI高考评测 数学全不及格

  发布时间:2024-07-01 18:45:21   作者:玩站小弟   我要评论
深圳同城约会男女交友网-深圳同城交友网-深圳嫩茶海选。

  图:AI得分情况。内

  【大公报讯】据第一财经报道:高考这一高难度综合性测试,地首目前普遍被研究者用于考察大模型的个AI高格智能水平。在前不久高考结束后,考评上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试,测数并于19日发布了首个大模型高考全卷评测结果。学全

  语数外三科加起来的不及满分为420分,此次高考测试结果显示,内阿里通义千问2-72B得303分排名第一,地首OpenAI的个AI高格GPT-4o得296分排名第二,上海人工智能实验室的考评书生.浦语2.0排名第三,三个大模型的测数得分率均超过70%,但大模型的学全数学都不及格,最高分也只有75分。不及在数学试卷上,内阅卷老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。可以看出,在数学方面大模型还有很大的提升空间。

  数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华表示,“现在很多大模型的应用场景是客服、聊天等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”

  • Tag:

相关文章

  • 上海知青抛丈夫和女儿回城,走前解开衣扣:让我们为过去画上句号

    1978年,上海知青李亚茹,抛下丈夫和女儿果断回城。临走前晚上,李亚茹边哭边解开衣扣对丈夫说:“今晚,让我们为过去画一个句号吧!”1975年,17岁的李亚茹离开上海,来到了黑龙江的五七农场插队。严寒的
    2024-07-01
  • 人民日报:专家集体辟谣,大家别再相信了!

    人民日报:专家集体辟谣,大家别再相信了!我们常常会通过各种途径,看到大量养生保健信息。下面这90条辟谣,基本涵盖了最火热的那些「大忽悠」。给各位朋友们都看看吧!!1. 香蕉、柿子、橘子、番茄、牛奶、豆
    2024-07-01
  • 恶性案件频发 谁来化解老百姓心中的戾气

    2024年5月7日11时37分许,镇雄县城南医院发生一起持刀行凶案件,造成2人死亡21人受伤。经查,犯罪嫌疑人系镇雄县泼机镇一男性村民。又是一起恶性事件,又是原因匪夷所思,这在近几年似乎并不鲜见。20
    2024-07-01
  • 绝了,姆巴佩还没加盟!皇马内讧爆发!两大巨星不服,安帅放狠话

    关注皇马的球迷都知道,作为足坛顶级豪门球队,皇马队内一直都不缺少巨星球员。他们这个赛季也是引入了天才球员贝林厄姆。在加盟球队之后,这位天才迅速的打出来了顶级水准。让大家都在期待他成为一下一个金球奖得主
    2024-07-01
  • 在成人体验馆消费,算是嫖娼吗

    如今随着生活节奏越来越快,几年来全国不少地方都冒出了成人体验馆,并且呈快速增长的趋势。成人体验馆利用硅胶娃娃提供服务,收取费用,解决单身人士的生理需求,也深受这类人群的喜爱,来成人体验馆消费的人有打工
    2024-07-01
  • 澳门站16人名单反转!朱婷提2大强硬要求,蔡斌15字摊牌争议决定

    最近中国女排已经结束了世联赛第一周的征战,接下来会继续在中国澳门开始比赛,争夺本次奥运会的门票。随着这一次的澳门站比赛即将到来,中国女排公布了16人名单,这一份名单对比于之前外界的猜测发生了比较大的变
    2024-07-01

最新评论