清华大学发布大模型性能报告:GPT-4第一,文心一言更懂中文

2023-08-10 11:22:10 | 来源:IT之家


【资料图】

IT之家 8 月 10 日消息,近日,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》(下文简称“报告”),报告显示总得分率 GPT-4 第一,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。

据了解,报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新。

在生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率 76.98%,仅次于 GPT-4,领先于包括 ChatGPT 在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以 92% 的得分率排名榜首。

IT之家注意到,在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率 78.18%,与 GPT-4 并列排名第一。

上一篇 下一篇

相关新闻

清华大学发布大模型性能报告:GPT-4第一,文心一言更懂中文

博德之门3维康妮亚的行走堡垒怎么获取 维康妮亚的行走堡垒获取方法

邮储银行多措并举助力夏粮颗粒归仓

北京海淀天才少年“吓呆”李雪琴:教育的本质就是“拼爹”?

老字号越来越“潮”了

【莎头】右半边阳光6

智通ADR统计 | 8月10日

奥运冠军王濛被带走调查?工作室最新回应

欧洲主要股指普遍收涨

鲁弗兰的地下迷宫主线攻略,鲁弗兰地下迷宫攻略指南

刺激,第90分钟绝杀,4-3国米爆发,逆转劲旅,豪取2连胜

四年级成长手册我对自己说(成长手册我对自己说)

1-2,大连人重回降级区,林良铭进球+曼巴红牌停赛 谢晖送沧州上岸

刘亦菲新剧未播先火,4位男主都是男神级别,霍建华凭借此剧复出

鸿智科技8月9日龙虎榜数据

最新新闻

清华大学发布大模型性能报告:GPT-4第一,文心一言更懂中文

博德之门3维康妮亚的行走堡垒怎么获取 维康妮亚的行走堡垒获取方法

邮储银行多措并举助力夏粮颗粒归仓

北京海淀天才少年“吓呆”李雪琴:教育的本质就是“拼爹”?

老字号越来越“潮”了

【莎头】右半边阳光6

智通ADR统计 | 8月10日

奥运冠军王濛被带走调查?工作室最新回应

欧洲主要股指普遍收涨

鲁弗兰的地下迷宫主线攻略,鲁弗兰地下迷宫攻略指南

刺激,第90分钟绝杀,4-3国米爆发,逆转劲旅,豪取2连胜

四年级成长手册我对自己说(成长手册我对自己说)

1-2,大连人重回降级区,林良铭进球+曼巴红牌停赛 谢晖送沧州上岸

刘亦菲新剧未播先火,4位男主都是男神级别,霍建华凭借此剧复出

鸿智科技8月9日龙虎榜数据

8月9日上海期货市场锌锭报价

创科实业(00669.HK)中期股东应占溢利减少17.7%至4.76亿美元 中期息约12.23美仙

王濛工作室发声回应“被带走”传闻:濛主一直生活在阳光下

中国驻日本大使馆就日本政要涉台言论答记者问

世界看大运|你的姓氏是我学会的第一个中国字!中国巴西羽毛球选手的感人友谊缘起一双“旧鞋”

时隔四年半!万科27.4亿元竞得北京通州一宗住宅用地

红墙庄严,花草馨香!北京皇城根遗址公园“美颜”升级

内蒙古养老金补发金额计算公式是什么 2023年内蒙古职工退休工资怎么计算的(全文)

通讯:传递希望和幸福——中国援巴新医疗队提升当地新生儿救治能力

行走河南·读懂中国丨一千多年前 “程门立雪”的故事就发生在河南这家书院

最新!河北等16个受灾地区已获得保险赔付4.32亿元

接连2起溺水事故,检察官:全面排查黑点,督促投放救生设施

看见多彩西咸!西咸新区文旅宣传推介会走进延安

第7届南博会品牌合作签约及授牌仪式在昆明举行

应重视牧草在节粮增效中的重要作用