中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?

该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力:

基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力。

专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

该机构利用 SuperCLUE 测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出,GPT-4 一骑绝尘,已经非常接近人类的能力。国产大模型中讯飞科技研发的星火认知大模型总排名第三,国内排名第一。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

以下为该机构公布的各个子项目的具体得分。排行榜会定期更新,并于CLUEbenchmarks 官方网站网站进行公示。

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。

(0)
上一篇 2023年 5月 10日 11:10
下一篇 2023年 5月 11日 10:44

相关推荐

  • 阿里杀入硬件!硬刚Meta与OpenAI

    文 / 梁添  来源 / 节点财经  继字节跳动和Google尝试以手机为载体,用智能体串联App生态之后,阿里也上桌了。 据公开信息,阿里旗下个人AI助手“千问”正全面进军AI硬件领域。其在2026年规划的硬件产品包括AI眼镜、AI耳机和AI指环,并计划面向全球市场发售。 如果说此前春节期间,千问通过“一句话下单”促成2亿订单只是前菜,…

    2026年 2月 27日
  • 28年来最大规模关店,宜家中国究竟怎么了?

    文 / 零度  来源 / 节点财经  2026年1月7日,瑞典家居巨头宜家(IKEA)宣布,将于2月2日起停止运营上海宝山、广州番禺、天津中北等7家线下大型商场。 这并非宜家入华28年来的第一次闭店,但却是规模最大、跨度最广的一次集中收缩。曾经,那个标志性的“蓝盒子”是中产阶级的审美启蒙地。如今,在消费转型与地产下行的双重夹击下,宜家正经…

    2026年 1月 12日
  • TikTok控股Tokopedia:印尼重启直播带货

    文 |  霞光社 郭照川 编辑 | 刘景丰 12月11日消息,TikTok与印尼GoTo集团已达成电商战略合作伙伴关系,并宣布TikTok电商将于今年“双十二”(即今天)重返印尼。 距离今年10月4日TikTok Shop在印尼正式下线仅仅不到两个半月的时间,TikTok电商业务就已力挽狂澜,重新“杀”回印尼市场。 早在TikTok Shop刚刚在印尼被封后…

    2023年 12月 15日
  • 百度搜索和文心智能体平台宣布将全面接入DeepSeek及文心大模型深度搜索功能

    2月16日晚,百度搜索和文心智能体平台宣布将全面接入DeepSeek和文心大模型最新的深度搜索功能。搜索用户可免费使用DeepSeek和文心大模型深度搜索功能,文心智能体平台的开发者也将能随时调用DeepSeek模型创建并调优智能体。 据悉,文心大模型深度搜索功能于2月13日上线,具备更强大的思考规划和工具调用能力,可为用户提供专家级内容回复,并处理多场景任…

    上市公司 2025年 2月 16日
  • 江苏银行,城商行新「一哥」的新「烦恼」

    文 / 七公 “脚踢”北京银行,“拳打”宁波银行,凭借着最高1700亿元的总市值,江苏银行(600919.SH)在晋升为新的城商行“一哥”后,仍然保持着向上攀爬的姿态。 2024年前三季度,该行实现营收623.03亿元,同比增长6.18%;实现归母净利润282.35亿元,同比增长10.06%。 其中,Q3营收206.78亿元,较上年同期提升4.25%;归母净…

    2024年 11月 5日