智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能(智谱 ai)

来源：网络　浏览：29次　时间：2023-12-12

12月12日消息:近日，智谱AI发布了高质量、低成本的评分模型CritiqueLLM，用于评估文本生成模型的性能。

传统的评价指标如 BLEU 和 ROUGE 主要基于 n-gram 重合度来计算评分，缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖，只有顶级的大模型才能取得令人满意的效果。

为了解决这些问题，CritiqueLLM 提出了一种可解释、可扩展的文本质量评价模型。它能够针对各种任务生成高质量的评分和评价解释。在含参考文本的场景下，CritiqueLLM 将大模型生成文本和参考文本进行对比，并给出了评分。

微信截图_20231212141926.png

在8类常见的任务中，CritiqueLLM 的评价分数与人工评分的相关系数显著超过了其他模型，尤其是在无参考文本设定下，CritiqueLLM 在3个任务上超过了 GPT-4，达到了最优的评价性能。

CritiqueLLM 的方法包括四个主要步骤:用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练 CritiqueLLM 模型。通过这些步骤，可以得到适用于含参考文本和无参考文本设定的两种 CritiqueLLM 模型，用于评估文本生成模型的性能。

论文链接:https://arxiv.org/abs/2311.18702

Github 链接:https://github.com/thu-coai/CritiqueLLM

推荐站点

77分类目录
77分类目录(www.77dir.com)中国优质分类目录平台,为您提供免费分类目录提交,网站目录提交入口,中文网址目录收录,网址大全,网站大全,网站外链推广,软文发布等服务,为您分享优质正规的中文网站！
www.77dir.com
YY分类目录
YY分类目录全人工编辑的开放式网站分类目录，收录国内外、各行业优秀网站，旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。
www.yydir.com
名人百科网
名人百科网(mrenbaike.net)--为大家提供各行各业的名人资料、资讯、图片等,致力于打造国内专业的名人百科平台！
www.mrenbaike.net
菜鸟教程
菜鸟教程提供了基础编程技术教程。菜鸟教程的 Slogan 为：学的不仅是技术，更是梦想！记住：再牛逼的梦想也抵不住傻逼似的坚持！本站域名为 runoob.com, runoob 为 Running Noob 的缩写，意为：奔跑吧！菜鸟。本站包括了HTML、CSS、Javascript、PHP、C、Python等各种基础编程教程。同时本站中也提供了大量的在线实例，通过实例，您可以更好地学习如何建站。本站致力于推广各种编程语言技.
www.runoob.com
中国社会公益网
陕西省社会公益基金会是经陕西省民政厅批准的公募基金会，下设秘书处、公益项目部、筹款募捐部、宣传策划部、社会活动部、专项基金部、资金管理部、公关联络部、青年志愿者工作委员会、青年志愿者爱心乐团等部门机构
www.cpf.net.cn
CNMO科技新媒体
CNMO=Connect More,致力于通过内容成为人与科技、人与产品、人与品牌、人与服务对接的桥梁,让产业、产品的价值与服务得到专业且有趣的解读和适配,引领用户畅享科技带来的美好生活!
www.cnmo.com
国外主机测评
国外主机测评，国外VPS、云服务器，国外服务器，国外主机的相关优惠信息、商家背景、网络带宽、线路走法、售前和售后技术支持等，是目前最好的一家国外主机评测平台。
www.zhujiceping.com
赵容部落
赵容部落，一个收集国内，国外便宜主机，VPS，云服务器，独立服务器优惠促销信息，提供VPS新手教程，VPS评测，VPS代购代付服务的博客。
www.zrblog.net
老左博客
老左博客，致力于美国VPS，美国主机评测、推荐；分享便宜VPS，美国主机优惠码，Godaddy优惠码，NameCheap等域名优惠码的IT博客，博主老左(LaoZuo.ORG)。
www.laozuo.org

智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能(智谱 ai)

推荐文章

推荐站点