世博体育(中国)官方网站环球眷注的测试集羞辱问题-世博app官方入口(全站)官方网站登录入口

栏目分类: 供应; 求购; 公司; 产品; 展会; 新闻; 人才; 会员商务室

热点资讯: 世博体育(中国)官方网站非凡符合展现女性的温暖魔力-世博app官方入口(...; 欧洲杯体育手脚前锋界不朽的基调-世博app官方入口(全站)官方网站登录入...; 世博体育app下载飞狮毛巾以最祥和的神情管待你的回来-世博app官方入口...; 世博体育(中国)官方网站关于可爱甜好意思甜好意思作风的姐妹来说-世博ap...; 世博体育app下载可能就莫得富饶的力气和抗争力-世博app官方入口(全站...

新闻

你的位置：世博app官方入口(全站)官方网站登录入口 > 新闻 > 世博体育(中国)官方网站环球眷注的测试集羞辱问题-世博app官方入口(全站)官方网站登录入口

世博体育(中国)官方网站环球眷注的测试集羞辱问题-世博app官方入口(全站)官方网站登录入口

发布日期：2024-07-06 05:52 点击次数：177

泉源：机器之心Pro

机器之心报谈

机器之心剪辑部

Jason Wei 是念念维链建议者，并和 Yi Tay、Jeff Dean 等东谈主合著了对于大模子知道才智的论文。当今他正在 OpenAI 进行职责。

在 CV 领域，考虑者一直把李飞飞等东谈主创建的 ImageNet 奉为模子鄙人游视觉任务中才智的试金石。

在大模子期间，咱们该怎样评估 LLM 性能？现阶段，考虑者照旧建议了诸如 MMLU、GSM8K 等一些评估基准，不休有 LLM 在其上刷新得分。

但这些评估基准真的完好吗？念念维链建议者 Jason Wei 在一篇博客中进行了长远的考虑。

Jason Wei 领先列举了几种奏效的评估基准，然后回归了评估基准失败的常包涵因，共七条，包括样本数目少、评估基准太复杂等等。

进一步的，Jason Wei 以为有些评估器具定名形貌并不完好，比如 HumanEval 诚然叫作念东谈主类评估，履行上并没灵验到东谈主类进行评估，仅仅因为问题是由东谈主类创建的。

Jason Wei 暗意淌若想让我方创建的评估器具得到泛泛使用，一定要匡助考虑者使用它，从而得到推论。此外，文中还提到了一些针对特定领域的小众评估器具，Jason Wei 以为这些评估可能不会引起领域除外的任何干注。环球眷注的测试集羞辱问题，Jason Wei 也给出了一些科罚决策。

接下来，咱们望望 Jason Wei 原博客内容：

奏效评估的界说是什么？我想说，淌若一个评估基准被用在冲突性论文中，并在社区中得到信任，那么它彰着便是奏效的。

以下是已往五年中一些奏效的评估基准：

GLUE/SuperGLUE：LLM 之前基本上统共 NLP 论文（BERT、T5 等）齐使用。MMLU：确切统共 LLM 论文齐使用，亦然 DeepMind 和 Google 最可爱的评估基准。GSM8K：引发了 LLM 的推理才智，并被用于每一篇对于念念维链（chain-of-thought）的论文中。MATH：大多数 LLM 论文会使用。HumanEval：是 LLM 编码的经典评估基准。

奏效的评估频频会有一篇大论文宣称使用该评估基准取得了一些冲突。举例，GLUE 由 BERT 推论，MMLU 由 Gopher、Chinchilla 和 Flan-PaLM 推论。念念维链辅导（chain-of-thought prompting）宣称在 GSM8K 上取得了冲突。Minerva 的超凡才智在 MATH 上得到体现。Codex 等模子使用了 HumanEval。

更长远地说，在评估基准上得到好分数必须意味着一些繁难且易于连气儿的事情，举例杀青特等东谈主类的发扬、科罚小学水平的数常识题。

而大多数不奏效的评估基准齐至少犯了如下七个子虚之一：

1、淌若评估莫得弥漫的样本，那么对于考虑东谈主员来说，它会很嘈杂（noisy），而且 UI 会很糟糕。举例，有东谈主可能在模子老师经过中运行评估，并发现它在各个查验点之间波动很大。这使得评估对于考虑东谈主员来说绝顶灾祸，因此他们不会可爱使用该评估基准。评估基准最佳有至少 1000 个样本供您评估；淌若是多项聘用评估，可能需要更多。举例尽管 GPQA 是一个很好的评估基准，但它凭证 prompt 而波动的事实使其难以使用。

2、评估基准应该是高质地的。淌若评估基准中有好多子虚，东谈主们就不会敬佩它，举例 Natural Questions（NQ）基准。

3、淌若你的评估基准太复杂，东谈主们会很难连气儿它，况兼会很少使用它。我以为 HELM 的第一个版块是一项稠密的奋勉，但它有太多的蓄意和子集。领有单一数字蓄意至关繁难 —— 我想不出任何伟大的评估基准是莫得单一数字蓄意的。

4、淌若评估需要太多职责来运行，即使其他一切齐很好，它也不会有很大的眩惑力。BIG-Bench 是我最可爱的评估基准之一，但运行起来绝顶灾祸。有对数概率评估和生成评估，这需要不同的基础措施。子集太多，而且有些子集的样本太多，是以评估花了很长本领。我敬佩这便是为什么 BIG-Bench 莫得获取太多关注，尽管它提供了好多上风。

5、淌若评估不是针对一项特真义的任务，东谈主工智能考虑东谈主员不会深度关注它。举例，在 BIG-Bench Hard 中，有保举电影等任务。这些任务具有挑战性，况兼跟着模子大小的变化性能有所变化，但在这些任务上作念得好并弗成对模子的智能进程作念出内容性的论断。奏效的评估经常会估计对智能至关繁难的事物，举例言语连气儿、熟练问题或数学。

6、评估的评分应该绝顶正确。淌若有东谈主以为模子评分不正确或者不招供该评分，那么他们不错立即取消使用该评估基准。花本领来尽量减少默契引起的子虚，或者尽可能获取最佳的自动评分器 prompt 是值得的。

7、为了使评估经得起本领的熟练，性能弗成太快饱和。举例，GLUE/SuperGLUE 饱和得太快，很难炫夸出稠密的增益，东谈主们就不再使用它们。

对于评估器具，还有不完善的方位

看起来好多优秀的评估器具齐有些糟糕的名字。比如 GSM8K 其实并不需要加上 8K，而 HumanEval 诚然叫作念东谈主类评估，履行上并没灵验到东谈主类进行评估（之是以叫 HumanEval 是因为问题是由东谈主类创建的）。MATH 这个名字太平淡了，是以东谈主们开动称之为「Hendrycks-math」，这应该算是一个机灵的定名形貌，以创建者的名字来定名。

淌若你想让你的评估器具得到泛泛使用，你领先要作念的是匡助东谈主们使用它。举例，当我制定了一个评估器具时，我经常会匡助他东谈主在模子上运行它。淌若他们的模子在这个评估上发扬精良，那么东谈主们经常会可爱它并进一步的推论它。HELM 就绝顶擅长为其他东谈主评估模子并公布成果。

此外，淌若你能为东谈主们使用你的评估器具创造激励机制也很有匡助。对职工来说，最佳的激励之一便是他们带领所意思的东西。因此，获取实验室或公司里面带领的复旧对你的评估器具可能会有所匡助，他们会条目下面职工运行它。当我在谷歌创建 MGSM 时，我聘用与 Dipanjan Das（Google Deepmind 的考虑左右）相助完成，尽管咱们不在归拢个团队。我与他相助纯正是因为他是个真义的东谈主（并不是为了推论这个评估器具），但我以为 Dipanjan 很可爱这个器具，况兼在他的团队中获取了一些东谈主的复旧使用。

但是，LLMs 的出现，对评估器具建议了更高的条目。LLMs 具有大界限多任务处理才智并能生成长复兴。当今还莫得一个单一的评估器具好像充分评估 LLMs。刻卑劣行的评估器具仍然使用绝顶浅陋的评分形貌（要么是多项聘用，要么是查验数字，或者奉行单位测试），即便这些方法也存在问题。淌若咱们能围绕一个单一的辅导，比如零样本念念维链（zero-shot chain-of-thought），那会很好。我知谈由于好多原因这不是一个完好的科罚决策，但我以为为了让环球结伴圭臬，这是合理的。

一个新的推能源是东谈主类对模子进行配对评估，比如 LMSYS，但这种评估形貌是一把双刃剑。它们之是以苍劲，是因为你不错通过一组浅陋的辅导得到一个单一的数字蓄意来估计一个言语模子的强横，况兼不错通过多半的样蓝本平均掉样本级别的噪声。不外，成对评估的危机之处在于你并不十足细则你在测量什么 —— 举例，相对于正确性，立场等这类身分的权重影响有多大。

对模子生成内容（model-generated）的评估也变得有些流行。诚然我倾向于对模子生成的评估相比抉剔，但淌若作念得好，它们不错用于快速实验和不雅察性能的大幅进步，这是有可能的。但是创建一个经得起本领熟练的伟大的评估需要绝顶防备，我不想在合成评估中冒任何风险。

一个可想而知的不雅点是，评估的主题决定了有若干东谈主会眷注这个评估。你不错创建一个绝顶高质地的特定领域评估（举例，法律、医疗等），在这些情况下，最繁难的是凭证该领域大师所意思的内容来定制评估。

我也曾制作过一个组织病理学图像基准，竟然如斯，它在医学图像分析领域除外确切莫得引起任何干注，只获取了 40 次援用。话虽如斯，一朝更多东谈看法志到其繁难性，你创建的特定领域评估也有可能获取更多关注。

评估中一个日益繁难的问题是测试集羞辱。创建了一个好的评估之后，评估的示例频频会传播到互联网的各个方位，如 arxiv 论文、ChatGPT 示例或 reddit。科罚这个问题的一个方法是对测试集进行「荫藏」，但这种方法引起了好多不对。斯坦福大学素养 Chris Manning 建议了一个很好的建议，即对公开测试集、专有测试集齐进行评估，并监控模子在这两个测试集上是否有大的偏差。这种方法均衡了在公开测试集上测试的低摩擦性和巧妙测试集的高信得过度。

我驻扎到的终末一件事是，你眷注的评估很猛进程上标明了你的身份。一个充满博士的考虑室可能会对言语模子在数学、编码和物理上的推理才智感兴味。相背，我看到像 LMSYS 这么的面向用户的评估被来自软件或产物配景的工程师视为黄金圭臬。诚然我两者齐眷注，但我个东谈主更倾向于智能，因为我敬佩智能是 AI 与东谈主类交互的压根驱能源。

社区应该更多地投资于评估，尽管这可能很灾祸，经常不会像建模职责那样得到好多报酬。但归根结底，好的评估器具是 AI 考虑东谈主员对模子的客不雅评价蓄意，况兼是对该领域产生紧要影响的一种形貌。

参考相接：https://x.com/_jasonwei/status/1794093872651387004世博体育(中国)官方网站

上一篇：世博体育售后做事：好意思的的售后做事体系完善-世博app官方入口(全站)官方网站登录入口

下一篇：世博体育app下载其雄伟的抗蠕变性能和高屈服强度-世博app官方入口(全站)官方网站登录入口