中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?

该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力:

基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力。

专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

该机构利用 SuperCLUE 测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出,GPT-4 一骑绝尘,已经非常接近人类的能力。国产大模型中讯飞科技研发的星火认知大模型总排名第三,国内排名第一。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

以下为该机构公布的各个子项目的具体得分。排行榜会定期更新,并于CLUEbenchmarks 官方网站网站进行公示。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。

(0)
节点财经的头像节点财经
新城控股4月合同销售额同比降20.67%;阅文集团管理层调整
上一篇 2023年 5月 10日 11:10
视觉中国实控人柴继军减持203万股;淘宝天猫集团架构调整完成
下一篇 2023年 5月 11日 10:44

相关推荐

  • 万能的咖啡,会成为来伊份的解药吗?

    文|伯虎财经 灵灵 来伊份做咖啡,并非一时兴起,更像是深思熟虑之后做出的坚定选择。 “零食第一股”为何决定跨界卖咖啡?咖啡能成为来伊份的解药吗? 01 坚定选择咖啡 近日,来伊份官宣旗下的“来伊份咖啡”升级为“来咖Laicup coffee”,主推产品为新鲜现磨咖啡。 据官方规划,初期,“来咖”主要在来伊份门店以店中店的形式开设,未来会逐步发展成为独立门店。…

    上市公司 2023年 8月 24日
  • 热搜之后看招行:那条被突出的护城河,还牢吗?

    文 / 董轩  来源 / 节点财经 微博热搜榜上,银行向来是稀客,但也不是没有。 3月底,因为董事长缪建民在业绩发布会上的一句话,招商银行被送上热搜。 梳理事情缘由,原本是有媒体问及“过去大家提到招商银行的护城河,可能会想到零售、服务、负债成本等,当下进入低利率时代,招商银行的护城河是什么?” 缪建民回复称,招商银行真正的护城河是把“以客户为中心”…

    2026年 4月 14日
  • 吉利汽车「钞水平发挥」的两个关键点

    文 / 天玑 在价格战的背景下,吉利汽车在2023年拿出了一份“钞水平发挥”的成绩。全年营收1792亿元,同比增长21%,创下历史新高;利润同比大增51%。 吉利汽车为什么能“钞水平发挥”?这是一个值得研究的问题。 01 硬刚价格战 在吉利汽车(简称吉利)2023年的业绩中,“汽车销售及相关服务”部分是最大的功臣,其规模为1496.2亿元,占据总营收的83.…

    2024年 3月 23日
  • 纯度行业最高!海尔智家再生料堪比原生

    从海尔智家再循环互联工厂的案例中,不难发现,关系ESG课题,行业先行者已做出全局性的示范,而该种商业价值观和使命感,也将在ESG越来越受重视的今天和未来,为海尔智家打开新的增长窗口。

    2023年 11月 22日
  • 5月下旬发布,百度造手机已进入最后冲刺阶段

    作者:四海 节点财经从工信部网站获悉,一款名为“小度青禾”的手机已经入网,型号为XD-SEE00-2301,支持4G,不支持5G。其外观与主流的安卓机相差不大,正面采用水滴打孔直屏,后置方形影像模组,内部两颗镜头纵向排列。这款手机由上海小度技术有限公司推出,上海小度的背后则是百度,百度方面已确认将进入手机市场。 据小度内部人士透露,这款手机将整合小度 AI …

    2023年 5月 12日