环球今热点:中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一 文心一言垫底 环球精选

快科技5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。

中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。


(资料图片)

它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?

根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到GPT 3.5平齐的水准。

在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过GPT-4。

而百度文心一言在总榜单中排名最后一名,得分32.61分。

据了解,SuperCLUE评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.

基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

总榜单

基础能力榜单

中文特性榜单

责任编辑:

标签:

x 广告
百科大全 我想学做早点可以在哪里学啊

可以学做早点的地方如下:1、早点培训中心,地址在安徽省合肥市瑶海区长江东路953号附近。2、无为早点培训中心,地址在山东省枣庄市滕州市

知识 德国和瑞士远吗

瑞士和德国是邻国,德国位于欧洲西部,东邻波兰、捷克,南接奥地利、瑞士,西接荷兰、比利时、卢森堡、法国,北与丹麦相连并邻北海和波罗的

重磅!2022年自然指数年度榜单揭晓 中国位居第二

6月16日,2022自然指数年度榜单(NatureIndex2022annualtables)揭晓,展示了不同国家和科研机构在自然科学领域的高质量科研产出情况。其中,

最新!科学家开发出半透明载玻片控制光流的能力

据最新一期《自然·光子学》杂志报道,澳大利亚国立大学(ANU)物理学家开发出一种微小的半透明载玻片,通过操纵光在纳米尺度上的传播方向,

重磅!内蒙古自治区部署“十四五”期间节能减排十大重点工程

节能减排是党中央、国务院作出的重大决策部署。近年来,自治区党委、政府高度重视节能减排各项工作,将其作为推动内蒙古自治区经济社会全面

时政现场评丨跟随总书记的脚步 在三晋大地上踏雪迎春

<script src="http: tv people com cn img player v js">< script><script>showPlayer({id:" pvservice xml 202

第一观察·瞬间 | 两度踏雪 一路为民

春节前夕,习近平总书记赴山西考察调研,看望慰问基层干部群众。总书记走进两个村——霍州市师庄乡冯南垣村、汾西

100的背后是什么?

<script src="http: tv people com cn img player v js">< script><script>showPlayer({id:" pvservice xml 202

在北京的非洲体育人:准备好为北京冬奥会喝彩

<script src="http: tv people com cn img player v js">< script><script>showPlayer({id:" pvservice xml 202

国网绍兴供电公司:打造新型有源配电网 保障山区用电可靠

1月25日,国网绍兴供电公司通过配电自动化主站平台远程控制位于绍兴南部山区线路末端发电机成功启动,成功以小成

x 广告

Copyright ©  2015-2022 世界城市网版权所有  备案号:琼ICP备2022009675号-1   联系邮箱:435 227 67@qq.com