中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?

该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力:

基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力。

专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

该机构利用 SuperCLUE 测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出,GPT-4 一骑绝尘,已经非常接近人类的能力。国产大模型中讯飞科技研发的星火认知大模型总排名第三,国内排名第一。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

以下为该机构公布的各个子项目的具体得分。排行榜会定期更新,并于CLUEbenchmarks 官方网站网站进行公示。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。

(0)
上一篇 2023年 5月 10日 11:10
下一篇 2023年 5月 11日 10:44

相关推荐

  • 「杯」剧人生:哈尔斯的代工转型之路

    文 / 八真  论搞钱,A股向来赢面不大,但论搞笑,A股从来没输过。 前段时间,美国总统大选,沾了两个候选人(特朗普和哈里斯)名字谐音的光,川大智普(002253.SZ)和哈尔斯(002615.SZ)狠狠刷了一波存在感,二者的股价随着特朗普和哈里斯胜选概率的变化跌宕起伏。 其中,主营杯壶业务的后者,原本只是一支寂寂无名的小盘股,在资金的“无厘头”炒…

    2024年 12月 5日
  • 证监会9问巴奴火锅,IPO还有戏吗?

    文 / 三生 来源 / 节点财经 就在高举“产品主义”大旗的巴奴毛肚火锅冲刺港交所的关键时刻,迎面遭遇到了监管部门泼来的一盆冷水。 近日,证监会公布了对巴奴国际控股有限公司(下称巴奴火锅)境外上市备案的补充材料要求,涉及三大类9个问题,包括未认定创始人配偶为共同实控人的合理性、上市前突击分红7000万元的考量,以及外包员工社保缴纳等合规隐患。 当初,“月薪5…

    2025年 8月 22日
  • 百度智能云的内功,藏在中国产业升级里

    “云智一体3.0”更强调从行业核心场景切入,通过打造行业标杆应用,带动和沉淀AI PaaS层和AI IaaS层的能力,打造高性价比的异构算力和高效的AI开发运行能力。

    2022年 11月 10日
  • 国际奥委会主席巴赫:阿里AI技术将巴黎奥运转播带到新高度

    7月26日,巴黎奥运会开幕在即,国际奥委会主席巴赫在国际转播中心举行的活动中表示,2024巴黎奥运会展现了奥运转播的未来,广泛应用的阿里AI技术正在将巴黎奥运转播带到新的高度。 (国际奥委会主席巴赫) 在巴黎奥运会上,云计算将替代卫星成为奥运赛事直播的主要方式。超过三分之二奥运直播信号将通过阿里云支撑的奥运转播云,从巴黎传输到全球200多个国家和地区,走向数…

    2024年 7月 26日
  • WPS 365全新发布 开启企业一站式AI办公

    4月9日,金山办公生产力大会在京举行,现场发布了面向组织和企业的办公新质生产力平台WPS 365,其包含升级的WPS Office、最新发布的WPS AI企业版和WPS协作。WPS 365打通了文档、AI、协作三大能力,让各组件间无缝切换,用户使用一个工具就能调用各类主流大模型,一个界面就能边写边沟通边开会,一个产品就能高效完成所有工作。 金山办公CEO章庆…

    2024年 4月 9日