中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?

该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力:

基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力。

专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

该机构利用 SuperCLUE 测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出,GPT-4 一骑绝尘,已经非常接近人类的能力。国产大模型中讯飞科技研发的星火认知大模型总排名第三,国内排名第一。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

以下为该机构公布的各个子项目的具体得分。排行榜会定期更新,并于CLUEbenchmarks 官方网站网站进行公示。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。

(0)
上一篇 2023年 5月 10日 11:10
下一篇 2023年 5月 11日 10:44

相关推荐

  • 海信视像一季报,有喜也有忧

    作者:四海   继“中国第一,世界第二”的广告语引发争议后,海信视像近日又出现在了大众的视线中,这次它的出场方式也很“高调”。   4月28日,海信视像披露了一季度业绩,营收为114.83亿元,同比增长12.75%,净利润为6.21亿元,同比增长107.9%。对比2022年同期的表现,海信视像今年拿到了一个好成绩,公司的收入增长由负转正,…

    上市公司 2023年 5月 8日
  • 温商首富李革为何不“装”了?

    文|雷达财经 肖洒 编辑|深海 温商首富李革卷入了风波之中。 最近3个交易日,李革一手创立的CXO(医药外包)龙头药明生物股价重挫近三成。 股价大跌的直接导火索是,该公司日前主动下调了2023年营收预期,公司增长(包括新冠疫情高基数)将达不到最初目标;同时由于生物技术融资放缓,整个行业预计未来两年可能出现个位数增长。 按理,药明生物下调业绩指引,是个十分正常…

    上市公司 2023年 12月 10日
  • 声网结束高增长,且亏损扩大

    营收与客户增长放缓之际,声网的亏损在加大。

    2023年 3月 1日
  • 成长的烦恼:当播客遇上小红书

    文|陆玖商业评论 在平台内容的稀缺性和工具性逐步加强的当下,小红书的流量价值仍然存在。在此前提之下,如果小红书的平台规则与对接效率,能对外部制作人更加友好,或许小红书想要的“具有平台调性”的播客主播,将会在这片流量沃土破土而出。 很少有互联网平台,现在还处于攻势。 小红书一直很另类。别人防守,我却扩张。 早在一年前,DAU(日活用户数)刚冲上1亿的小红书,就…

  • 徐新:我最后悔的,就是张一鸣找我,我没信他

    也是一个机会的来临:懂的人就活下来了,不懂的人就out了。它是外行颠覆内行的机会。

    2023年 10月 11日