中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?

该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力:

基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力。

专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

该机构利用 SuperCLUE 测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出,GPT-4 一骑绝尘,已经非常接近人类的能力。国产大模型中讯飞科技研发的星火认知大模型总排名第三,国内排名第一。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

以下为该机构公布的各个子项目的具体得分。排行榜会定期更新,并于CLUEbenchmarks 官方网站网站进行公示。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。

(0)
上一篇 2023年 5月 10日 11:10
下一篇 2023年 5月 11日 10:44

相关推荐

  • 姗姗来迟的领克08,能扛起增长的大旗吗?

    文|伯虎财经 番茄 这段时间,沉寂已久的手机圈难得的热闹起来。  华为不按常规出牌,新手机不开发布会直接上架开卖,不光对手没想到,消费者们也没想到,一时间神州大地一机难求。9月初手机上架后,在9月12日的发布会上,华为卖起了和赛力斯联合打造的AITO问界品牌的新车。  和华为相反的是,蔚来在今天科技日上正式公布了自己的手机NIO Phone。至此,蔚来成为了…

    2023年 9月 22日
  • 对话本杰明·韦格:中国企业成功出海,需要哪些要素?

    访谈 / 节点财经  嘉宾 / 本杰明·韦格-普罗瑟  出海,已经成为中国企业近几年的关键词。 谈及原因,中国市场产能外溢带来的激烈竞争格局,以及海外市场庞大用户群带来的吸引力,都在簇拥着中国企业驶向海外。 但出海的路上,遍布暗礁。 最近,智思咨询的首席执行官兼联合创始人本杰明·韦格-普罗瑟 (Benjamin Wegg-Pro…

    2024年 12月 6日
  • 晶澳科技一季度利润翻三倍,股价为何萎靡不振?

    到2023年年底,全球有一半的光伏产业链产能将被闲置。而根据价格由供需决定的市场规律,供需失衡必然会带来降价,今年4月份,国内市场光伏组件招标价格已经跌至1.53元/W,市场认为这一价格已经很难赚到钱了。

    2023年 4月 28日
  • 药品集采,尾声只是开始

    诸如药品集采这样的行政介入,本身就是其职能的一部分。这是中国经济的特色之一,也必将是条值得深入探索和延续的路径。

    2023年 3月 23日
  • 成本3至5元,半年开店1700多家,中式汉堡是门好生意吗?

    文|Tech星球 翟元元 今年8月,“塔斯汀”在北京西站附近开出第一家门店时,很多一线城市消费者才第一次知道这个成立11年之久的中式汉堡品牌。中式汉堡概念也因此再一次得到广泛普及。 中式汉堡,顾名思义就是相对于舶来品肯德基、麦当劳而言的中国本土汉堡。然而,不同于肯德基、麦当劳等西式汉堡,中式汉堡目前产品并不统一。市面上主打中式汉堡概念的品牌大致可以分为两类,…

    上市公司 2023年 9月 10日