懂代码、会数学、重逻辑，讯飞星火被MIT科技评论评为“最聪明的理科生”

首页 > 财经 > > 内容页

懂代码、会数学、重逻辑，讯飞星火被MIT科技评论评为“最聪明的理科生”

发表于: 2023-08-18 07:18:44 来源：永州新闻网

国内“千模大战”下，谁是最聪明的大模型？《麻省理工科技评论》中国最新发布的大模型评测报告给出了答案。

(资料图片)

报告显示，在8个一级大类的600道题目的测试和盲评中，讯飞星火认知大模型V2.0在6个大类中得分率排名第一，在此次评测中表现突出，以 81.5 分（百分制计）的成绩在本次评测中登顶，荣获“最聪明”的国产大模型称号。

图：大模型评测综合得分率

图：4个大模型各项能力雷达图

《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力，力图评出“最聪明”的国产大模型。选取了“讯飞星火”、“百度文心一言”、“商汤商量”、“阿里通义千问”作为中文大模型平台的代表，展开系统、科学的评测。

本次评测使用的测试集包含600道题目，覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类，126 个二级分类，290 个三级标签，并针对问题的丰富性和多样性做了优化。

在题目类型上，为了兼顾定量、定性的评价与测试，设置了“单选”、“多选”、“填空”、“简答”4个题型，分别有 145 道、138 道、136 道和 181 道。大模型评测体系使用盲评方式，客观评估国产大模型的聪明程度。

作为“最聪明”的大模型的基础能力，语言专项评测包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等 61 个二级分类，题型则以简答为主。结果显示，讯飞星火 85.73%的得分率排名第一，明显高于平均值。

图：语言专项评测得分率

数学专项评测，是“最聪明”大模型必不可少的评测维度。本次评测包含代数、几何、解方程、复杂数学、统计学等 9 个二级分类，以选择题为主。

其中，讯飞星火以77.75% 的得分率名列第一，远高于平均得分率 56%，其他平台得分率基本相当。报告称，在大模型普遍“数学不好”的情况下，讯飞星火这一成绩颇为难得，其在数学专项上的领先同样体现在二级分类的评分结果上，在 77.8%的二级分类中得分率第一，远超其他平台，初步判断其擅长几何与情景应用。

图：数学专项评测得分率

作为体现大模型“聪明程度”不可或缺的“硬核”部分，理科综合评测包含表格问答、化学、生物、物理、医学 5 个二级分类，题型上以单选和简答为主。

评测结果中，讯飞星火 78.50% 的得分率排名第一。另外，讯飞星火在理科综合大类下 80% 的二级分类评测中得分率为第一，化学与生物较为突出。

图：理科综合评测得分率

逻辑思维也是“最聪明”大模型的重要体现，本次逻辑思维评测在逻辑推理、思维链等方面设计了较多的题目，包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等 19 个二级分类，题型上相对平均，其中填空题最多，多选题最少。

在逻辑思维题目中，讯飞星火 81.25%的得分率名列第一，明显高于 72.6% 的平均值。此外，讯飞星火在逻辑思维 63.2% 的二级分类问题上得分率第一。逻辑思维对于大模型真正理解物理世界相当重要。

图：逻辑思维评测得分率

编程能力是大模型比较高阶的能力，本次的编程能力评测包含 ASCII、ASCII码识别、Python、代码、代码修正、计算机 6 个二级分类，其中 Python 主要以简答形式评估大模型的代码生成能力和正确率，其他则以客观题的形式考察。

结果显示，讯飞星火 80% 的得分率明显高于 71%的平均值，其他平台得分率基本相当。值得一提的是，在许多人关心的生成代码的简答题单项上，讯飞星火的得分率高达 82%，远高于其他平台，表现颇为亮眼。

图：编程能力评测综合得分率

作为比较难的评测维度，综合知识对大模型的“聪明”程度要求也很高，涉及的题目较杂，包含百科问答、常识、科学知识、事实问答、工作技巧、谜语等 13 个二级分类，题型以多选为主。

在综合知识评测上，讯飞星火 80.61% 的得分率排名第一，在 84.6% 的二级分类上得分率第一，初步显示出在百科问答和历史人文上的“过人之处”。

图：综合知识评测得分率

报告指出，在本轮大模型评测中，讯飞星火以 81.5 分的成绩拔得头筹，成为“最聪明”的国产大模型。

讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这 6 个一级大类中得分率排名第一，在此次评测中表现十分全面，尤其是在代码生成、数学能力、理科与逻辑等方面优势明显，是本次“最聪明的理科生”。

值得一提的是，从题型角度来看，主观简答题中讯飞星火凭借 83.98% 的得分率位居第一；而在客观题上，讯飞星火以 75.7% 的得分率排名第一，在主客观体型中均有良好表现。

此外，就在8月12日，新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中，讯飞星火V1.5以总分1013分位列本次国产主流大模型测评榜首位，在四大评测维度中的智商指数和工具提效指数两个维度获得第一，《报告》认为讯飞星火“在工作提效方面优势明显”。

在刚刚过去的8月15日，讯飞星火认知大模型V2.0如期发布，进一步突破代码能力和多模态能力。技术获得重大突破的同时，搭载讯飞星火V2.0核心能力的应用和产品也越来越丰富：既有辅助程序员高效工作的智能编码助手iFlyCode1.0、能够进行视频创作的讯飞智作2.0、能够便捷搭建轻应用的教育数字基座应用开发助手，还有帮助教师设计教学活动、一键生成课件的星火教师助手、面向英语学习者口语练习的星火语伴2.0，讯飞AI学习机也升级AI 1对1智能编程助手和AI 1对1创意绘画伙伴。此外，科大讯飞还和华为联合发布星火一体机，让每一家企业都有机会构建专属大模型。

标签：

电报解读|中国科学家实现从二氧化碳到糖的精准全合成代糖产业空间广阔

2023-08-18查看详情

中期协：我国期货市场半年累计成交量创历史新高

2023-08-18查看详情

经过多年努力野生动物“活化石”普氏野马种群逐步恢复

2023-08-18查看详情

懂代码、会数学、重逻辑，讯飞星火被MIT科技评论评为“最聪明的理科生”

懂代码、会数学、重逻辑，讯飞星火被MIT科技评论评为“最聪明的理科生”

全球新物种阳际峰景天首现江西！

车评头条：外观低调但质感有惊喜 试驾江淮瑞风S4

国际电信联盟：中国固定宽带费用负担全球第二低

三星s23ultra优缺点

国内特色旅游火爆 人流如织有力拉动暑期消费

电报解读|中国科学家实现从二氧化碳到糖的精准全合成 代糖产业空间广阔

外媒:东风27命中5000公里外目标 基本信息讲解

中期协：我国期货市场半年累计成交量创历史新高

个人雇佣合同范本图片（个人雇佣合同范本）

11股遭高管减持 套现2.12亿元

经过多年努力 野生动物“活化石”普氏野马种群逐步恢复

仁爱礁对峙暂且放下，中国对菲律宾进行援助，体现友好邻邦的姿态

专家学者云集中国数字经济大会 论全球数字经济发展

张家界导游词合集

排查隐患保安全，在用特种设备高温下按期“体检”

钟山区卫健系统庆“8·19中国医师节”暨首届职工运动会开幕

10%液体聚合氯化铝商品报价动态（2023-08-17）

让湘商回湘更吃香 | 何惠风：用好“五字诀”，做到“五个度”，奏响湘商回归“奋进曲”

涡阳十家企业入选 省级“专精特新”榜单

中国体彩七位数走势图彩经网_中国体彩七位数

年内第二次“降息”来了

4年长约＋1000万欧年薪！意甲mvp转投尤文，背叛国米，张康阳被坑

近30年至少被盗6次，大英博物馆真的能保护好文物吗？

纯电续航125KM，百公里馈电油耗7.8L，方程豹豹5终于亮相！

上海：到2025年算力总规模较“十三五”期末翻两番

韩国渔民集会抗议：“大海不是投放日本核污染水的垃圾桶！”

京东集团二季度收入2879亿元

浙江推进城乡充电基础设施建设促进新能源汽车下乡

“创‘变’新生 花样好戏”2023第三届深圳龙岗喜剧节隆重开幕

注意！今日局部大到暴雨！

今天午后至前半夜北京大部有雷雨 局地伴有短时强降雨或冰雹

海南自贸港RCEP企业法律服务站成立

海峡股份：8月15日融券卖出4700股，融资融券余额2.38亿元

做深做细政策解读 聚焦聚力攻坚克难 东阳市举行金泽巷区块旧城改造政策专题培训会

昊志机电涨20.01% 机构净买入6716万元

天津工业生物所实现从二氧化碳到糖的精准全合成 今年“最甜”研究成果发布

针对工伤保险基金疑点数据 京口开展核查“回头看”工作

打暑假工买的手机被盗，怀化铁警迅速跨省追回

情趣盎然揭示6岁男孩生日的终极礼物选择

百惠：IPO上市是什么意思？IPO上市有什么特点？

模拟授课 即兴科普……南京消防讲师大比武展现硬实力

怎么识别苹果20w充电器是原装的

名记：哈登要让76人在训练营中过得非常不舒服

想偷手机竟偷回一个“POS机”？警方3小时找到他

妙鸭相机将并入新成立的全资控股公司神力视界

新疆阜康农旅融合新场景：美了乡村、乐了游客、富了村民

阿根廷经济部长马萨下周将在华盛顿与国际货币基金组织官员会面。

dnf十字斩刀者（关于dnf十字斩刀者的基本详情介绍）

不被爱者的抗争

湖南高铁职院获湖南省“互联网+”大赛1金5铜

佛山疾控：新冠变异株EG.5在佛山流行毒株中逐渐占据优势

药易购涨10.68%

微信收款限制怎能解封_微信收款限制怎么解除

立信数据2023年上半年净利-12.08万 亏损减少97.69%

山灵音响官宣CD80 / CA80 “时光机”CD机，8月18日开售

偶遇井柏然陪刘雯逛街 跟女友身后紧张到抠手

谈恋爱好几年同居了，我买的房子。房产证当时写了双方名字。现在分手了

流量超出扣费怎么补救（超出流量追回话费教程）

卫宁健康：公司软件产品线中包括临床决策支持系统CDSS 目前已有超过500家的医疗机构用户

台式电脑主机由什么组成（主机由什么组成）

本周日将出伏，江苏还要热多久？

从垃圾围城到全量焚烧，变“邻避”设施为“东方莫奈花园”

臻镭科技(688270.SH)：1502.41万股限售股8月28日解禁

夫妻性爱义务还是权利

开槽平板

小米MIX Fold 3折叠屏手机发布：10点预购

车评头条：梅赛德斯奔驰EQA是该品牌的基本电动车型

腾讯第二季度净利润261.71亿元 同比增长41%

现役TOP150评选：詹库杜字约领衔晋级前20名 杰伦布朗唐斯无缘

长鸿高科：对外投资设立合资公司

北京密云区举办第十七届“和谐杯”乒乓球比赛

谈谈感想

贵州电网公司首台积木式移动储能投用

视觉中国再被打脸！被索赔8万元作者：没误会，不接受

宝宝DHA什么时间吃效果最佳？选澳乐乳儿童DHA抓住进补黄金期

深圳零一学院国际暑期学校2023结营仪式圆满举行

他毅然跳入长江，最新后续来了......

金字火腿定增结果：募资10.5亿元 实控人任贵龙、诺德基金等获配

车评头条：外观低调但质感有惊喜试驾江淮瑞风S4

国内特色旅游火爆人流如织有力拉动暑期消费

电报解读|中国科学家实现从二氧化碳到糖的精准全合成代糖产业空间广阔

外媒:东风27命中5000公里外目标基本信息讲解

11股遭高管减持套现2.12亿元

经过多年努力野生动物“活化石”普氏野马种群逐步恢复

专家学者云集中国数字经济大会论全球数字经济发展

涡阳十家企业入选省级“专精特新”榜单

“创‘变’新生花样好戏”2023第三届深圳龙岗喜剧节隆重开幕

今天午后至前半夜北京大部有雷雨局地伴有短时强降雨或冰雹

做深做细政策解读聚焦聚力攻坚克难东阳市举行金泽巷区块旧城改造政策专题培训会

天津工业生物所实现从二氧化碳到糖的精准全合成今年“最甜”研究成果发布

针对工伤保险基金疑点数据京口开展核查“回头看”工作

模拟授课即兴科普……南京消防讲师大比武展现硬实力

立信数据2023年上半年净利-12.08万亏损减少97.69%

偶遇井柏然陪刘雯逛街跟女友身后紧张到抠手

腾讯第二季度净利润261.71亿元同比增长41%

现役TOP150评选：詹库杜字约领衔晋级前20名杰伦布朗唐斯无缘

金字火腿定增结果：募资10.5亿元实控人任贵龙、诺德基金等获配

巧克力市场需求未来巧克力行业发展趋势变化分析

电动汽车充电更方便河南出台行动方案

孩子上网共同护航（解码·关注暑期生活）

伏直公路开启“美颜”模式绿植多了游客多了环境美了

官宣鲁酒代表云门实至名归

手机分享电脑wifi热点电脑wifi热点

山东省青岛市即墨区精细化推进老旧小区改造

新疆电网今年1-7月售电量破千亿千瓦时创历史新高

粗心舅舅去陪女友将俩孩子锁车内近3小时离车自动关窗功能背锅

郴州市嘉禾县：像保护眼睛一样保护“母亲河”

风筝小学生作文

爱护青山绿水绿色生产生活方式成为行动自觉

云赛智联：云赛智联是一家以云服务和大数据、行业解决方案及智能化产品为核心业务的信息技术服务企业

花生油加在汽车里可以吗花生油能加车里吗

建设法治矿井创造合规价值

汉阳：审管联动出新招一码通行解难题