中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?

该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力:

基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力。

专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

该机构利用 SuperCLUE 测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出,GPT-4 一骑绝尘,已经非常接近人类的能力。国产大模型中讯飞科技研发的星火认知大模型总排名第三,国内排名第一。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

以下为该机构公布的各个子项目的具体得分。排行榜会定期更新,并于CLUEbenchmarks 官方网站网站进行公示。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。

(0)
节点财经的头像节点财经
新城控股4月合同销售额同比降20.67%;阅文集团管理层调整
上一篇 2023年 5月 10日 11:10
视觉中国实控人柴继军减持203万股;淘宝天猫集团架构调整完成
下一篇 2023年 5月 11日 10:44

相关推荐

  • 规范行业、刺激消费,抖音电商首创史上最严质检体系

    8月27日,“抖音电商开放日·质检专场”活动在广州华林国际举行。活动上,抖音电商首次对外介绍了质检仓配一体化中心(QIC)的运作流程,并发布了服务升级计划。这一行业首创的“先鉴定后发货”模式,被认为推动了玉石行业的透明化和规范化发展。它让玉石行业提质扩容的同时,也为市场释放了更多消费潜力,贡献了经济增量。 作为我国历史悠久的玉石交易核心区,广州华林国际见证了…

    2025年 8月 29日
  • 为什么长城汽车魏牌需要结束「单飞」?

    文 / 杨雪健  来源 / 节点财经  魏牌新能源“新手”保护期,已经可以结束了。 单月7873辆,同比增长超57%,2026年1月魏牌取得开门红,不但延续着2025年高速发展的势能,放在整个长城汽车1月销量表现中,魏牌也是哈弗、皮卡、欧拉和坦克五大品牌中增幅最大的单一品牌。 就在1月销量数据发布前,长城汽车多动力平台“归元”平…

    2026年 2月 2日
  • 年薪百万请军师,茶饮能否解海底捞之渴?

    文 / 迈奇 一石激起千层浪。 在海底捞日前发布的半年报里,一则人事任命让整个餐饮界为之震动:海底捞将委任霸王茶姬创始人张俊杰为独立非执行董事,任期三年,年薪120万,即日起生效。 之所以叫独立“非执行”董事,意味着张俊杰将在不参与海底捞实际经营层面的前提下,为海底捞提意见。据节点财经研究,在海底捞过往几次董事会成员调整中,变动更频繁的其实是执行董事,比如原…

    2024年 9月 1日
  • 路特斯科技发布未经审计的2024年第一季度业绩公告

    纽约 – 2024年5月29日 – 全球领先的高端豪华电动车制造商路特斯科技有限公司 (“路特斯科技”或“公司”) (纳斯达克股票代码:LOT ),发布了截至2024年3月31日的未经审计的业绩公告。 得益于研发服务和配件高毛利业务的增长以及轻资产模式,公司在2024年第一季度实现了1.73亿美元的营业收入,同比增长811%,毛利率达到18%。公司…

    2024年 5月 29日
  • 高晓松和周亚辉吵起来了:AI音乐是灵魂独白还是技术合奏?

    文 / 道哥  来源 / 节点AI  谁能想到知名音乐人高晓松和Mureka V8音乐大模型、昆仑万维创始人周亚辉“吵起来了”! 事情是这样的。在Mureka V8音乐大模型发布会上两位高能输出者展开了一场艺术与技术的激辩,现场笑声不断,给这场大模型发布会增添了许多“艺术”浓度。其实,这场关于AI音乐的讨论已经超越了技术参数的比较,升华为…

    2026年 1月 29日