| 网站首页 | 游戏新闻 | 游戏资讯 | 游戏信息 | 游戏攻略 | 游戏大全 | 资讯中心 | 文章 | 

您现在的位置: 游戏信息资讯网www.yxnetw.com >> 游戏攻略 >> 正文

  没有公告

  UC伯克利发布大语言模型排行榜!Vicuna夺冠清华ChatGLM进前5茹庄网           ★★★ 【字体:  
UC伯克利发布大语言模型排行榜!Vicuna夺冠清华ChatGLM进前5茹庄网
作者:佚名    游戏攻略来源:本站原创    点击数:    更新时间:2023/5/4    

  劳春燕老公万万没想到,现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!据说,那些闭源模型们很快也会被拉出来溜溜。

  最近,来自LMSYS Org(UC伯克利主导)的研究人员又搞了个大新闻——大语言模型版排位赛!

  顾名思义,「LLM排位赛」就是让一群大语言模型随机进行battle,并根据它们的Elo得分进行排名。

  然后,我们就能一眼看出,某个聊天机器人到底是「嘴强王者」还是「最强王者」。

  划重点:团队还计划把国内和国外的这些「闭源」模型都搞进来,是骡子是马溜溜就知道了!(GPT-3.5现在就已经在匿名竞技场里了)

  清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。

  相比之下,Meta原版的LLaMa只排到了第八(倒数第二),而Stability AI的StableLM则获得了唯一的800+分,排名倒数第一。

  团队表示,之后不仅会定期更新排位赛榜单,而且还会优化算法和机制,并根据不同的任务类型提供更加细化的排名。

  每次1v1对战,系统都会随机拉两个上场PK。用户则需要同时和这两个机器人聊天,然后决定哪个聊天机器人聊的更好。

  可以看到,页面下面有4个选项,左边(A)更好,右边(B)更好,一样好,或者都很差。

  当用户提交投票之后,系统就会显示模型的名称。这时,用户可以继续聊天,或者选择新的模型重新开启一轮对战。

  不过,团队在分析时,只会采用模型是匿名时的投票结果。在经过差不多一周的数据收集之后,团队共收获了4.7k个有效的匿名投票。

  自从ChatGPT爆火之后,经过指令跟随微调的开源大语言模型如雨后春笋一般大量涌现。可以说,几乎每周都有新的开源LLM在发布。

  具体来说,目前用来衡量一个模型好不好的东西基本都是基于一些学术的benchmark,比如在一个某个NLP任务上构建一个测试数据集,然后看测试数据集上准确率多少。

  然而,这些学术benchmark(如HELM)在大模型和聊天机器人上就不好用了。其原因在于:

  1. 由于评判聊天机器人聊得好不好这件事是非常主观的,因此现有的方法很难对其进行衡量。

  2. 这些大模型在训练的时候就几乎把整个互联网的数据都扫了一个遍,因此很难保证测试用的数据集没有被看到过。甚至更进一步,用测试集直接对模型进行「特训」,如此一来表现必然更好。

  3. 理论上我们可以和聊天机器人聊任何事情,但很多话题或者任务在现存的benchmark里面根本就不存在。

  那如果不想采用这些benchmark的话,其实还有一条路可以走——花钱请人来给模型打分。

  实际上,OpenAI就是这么搞的。但是这个方法明显很慢,而且更重要的是,太贵了……

  为了解决这个棘手的问题,来自UC伯克利、UCSD、CMU的团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场(Chatbot Arena)。

  当不能为所有潜在的模型对收集足够的数据时,系统应能扩展到尽可能多的模型。

  系统应为所有模型提供唯一顺序。给定任意两个模型,我们应该能够判断哪个排名更高或它们是否并列。

  Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。

  比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。

  举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。

  而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。

  具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:

  假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:

  此外,作者还展示了排位赛中每个模型的对战胜率以及使用Elo评分估算的预测对战胜率。

  该机构由UC伯克利博士Lianmin Zheng和UCSD准教授Hao Zhang创立,目标是通过共同开发开放的数据集、模型、系统和评估工具,使每个人都能获得大型模型。

  Lianmin Zheng是加州大学伯克利分校EECS系的博士生,他的研究兴趣包括机器学习系统、编译器和分布式系统。

  Hao Zhang目前是加州大学伯克利分校的博士后研究员。他将于2023年秋季开始在加州大学圣地亚哥分校Halıcıoğlu数据科学研究所和计算机系担任助理教授。

游戏攻略录入:admin    责任编辑:admin 
  • 上一个游戏攻略:

  • 下一个游戏攻略: 没有了
  • 最新热点 最新推荐 相关文章
    没有相关游戏攻略
      最新文章
    普通游戏攻略 UC伯克利发布大语言模型排行榜!Vicuna夺冠清华ChatGLM进前…
    普通游戏攻略 吃鸡游戏-相关吃鸡游戏大全-安粉丝网同学我来了动力大亨下…
    普通游戏攻略 炮芯游戏解说吃鸡系列:吃鸡:度过寒冷的暴风雪分手一周年
    普通游戏攻略 吃鸡类游戏合集-吃鸡类游戏大全-排行榜_ROM之家具文静
    普通游戏攻略 吃鸡游戏专题嬉戏红尘休夫别样妃
    普通游戏攻略 赛后]PGS1全球系列赛 败者组R9:LG 11杀吃鸡圣雪黑骨膜
    普通游戏攻略 绝地求生大逃杀吃鸡硬件配置曝光 吃鸡电脑配置推荐王爷休了…
    普通游戏攻略 巨头下的一盘跨界造芯大棋 互联网大厂自研、投资两手抓 车…
    普通游戏攻略 绝地求生刺激战场国际服PC版下载 刺激战场国际服电脑板地址…
    普通游戏攻略 全面吃鸡模拟器开始方法【详解】赢辛
    普通游戏攻略 巨头下的一盘跨界造芯大棋:互联网大厂自研、投资两手抓 车…
    普通游戏攻略 刺激战场:吃鸡必知100条总有你不知道的技巧!支付账户实名…
    普通游戏攻略 《绝地求生:刺激战场》新手必备!征服者奇迹宅男躲艳记tx…
    普通游戏攻略 刺激战场新手入门必须知道项 这些才是游戏基础乌山大捷
    普通游戏攻略 绝地求生入门技巧新手吃鸡快速上手诀窍视频陈冠希最新照片…
    普通游戏攻略 绝地求生操作攻略 新人十大必知操作解读两天一夜111218

    游戏信息资讯网声明:本站部分资源来源于网络,版权归原作者或者来源机构所有,如作者或来源机构不同意本站转载采用,请通知我们,我们将第一时间删除内容!