首页 科研人员多维度测验GPT

科研人员多维度测验GPT

近来,国外闻名论文预印本网站arXiv宣布了一篇名为《丈量大规模多使命下的言语了解》(MeasuringMassiveMultitaskLanguageUnderstanding)的核算机论文,榜首作…

近来,国外闻名论文预印本网站 arXiv 宣布了一篇名为《丈量大规模多使命下的言语了解》(Measuring Massive Multitask Language Understanding)的核算机论文,榜首作者,加州大学伯克利分校博士生 Dan Hendrycks 等运用一套新的办法对包括 GPT-3 在内的多个模型进行了系统的言语了解测验。

惋惜的是,测验成果显现,纵然 GPT-3 具有前所未有的 1750 亿个机器学习参数,前后耗资 1200 万美元,但它依旧在要害的节点缺少实质性的改动。

57 项使命多维度测验

论文中的测验办法包括 57 项使命,内容涵盖了根底数学、美国前史、核算机科学、法令等等多个维度。

模型有必要对国际有广泛的了解和解决问题的才干才干在测验中体现杰出。这个新颖测验集的方针是弥合模型在练习中输入的真实常识与经过自然言语处理所得到纸面常识之间的距离。

惯例的言语模型一般从 Wikipedia、Reddit,电子书和其他 Web 来历的很多数据会集“学习”。近期呈现的一些模型企图经过更很多的练习数据来点亮本身的言语技能,但到现在为止,几乎没有依据标明这与模型的常识推理才干之间存在正相关性。

研讨人员宣称他们的测验是不同的,因为它的规范要求 AI 有必要更像一名真实的人类。

为此,他们从研讨生和本科生中收集了 15908 个问题,包括本科的课程、考试、牛津大学出版社出版物、研讨生考试、美国医学答应考试、其他专业考试等等。使命的难度从初级到高档不等,他们以为这样的抽样足以辨认模型的盲点。

图 | 研讨人员测验会集的问题示例

研讨人员写道,“咱们衡量了实际国际中对文本的了解程度”,并指出每个主题至少包括 100 个测验用例。“因为模型已经在互联网上进行了预练习,因而咱们也能够测验模型从大型语料库中提取有用常识的才干。”

除了 GPT-3,研讨人员也对 Google 的 T5 和艾伦人工智能研讨所的 UnifiedQA 问答模型进行了基准测验。

成果标明,直到最近几个月才呈现了真实有意义的前进,包括 130 亿个参数的模型可完成 25% 的精度,而 1750 亿个参数的 GPT-3 可到达 43.9% 的精度。可是,即使如此,GPT-3 在任何单个学科上都算不上是一名“好学生”。

它在测验集上体现是不平衡的,其最佳科目的准确性挨近 70%,而其他几个科目的体现则挨近“随机”。

研讨人员解说说:“整体而言,GPT-3 在对人类建模的方面体现很差,并在法令和品德情形使命上体现欠安,履行数学核算也很困难。许多其他理工科问题的答复也十分具有‘死记硬背’的特色…… 咱们估测,或许的原因是比较成系统的常识,GPT-3 更简单习得“一问一答”式的常识。”

此外,研讨成果标明,现存的模型仍具有改善空间,但尚不清楚以现在的技能水平能否达到。

当模型巨细再添加 10 倍,数据添加大约 5 倍,成果或许会不一样。但客观上或许难以做到,即使你有足够的资金,用于练习的数据却或许成为要害瓶颈。

为 AI 设定“三观”

值得注意的是,论文榜首作者此前还宣布了一篇名为《让 AI 与人类遍及价值观保持一致》的预印本论文。该论文侧重论述了他们所构建的品德数据集

该数据集涵盖了正义、福祉、职责、美德、常识和品德观念等一系列人类社会的价值观念,借此,模型能够完成对各种文本场景的品德判别。

这是一种有必要在某种程度上完成物理国际与纸面常识的衔接才干具有的才干,它能够协助科研人员提早过滤掉不必要的“脏数据”,以便终究完成规范化的深度学习。

跟着技能的前进,AI 的才干越来越强,使用规模也随之扩展,其对民众日常日子的 “侵略” 也呈现出显着的加快趋势。

怎么让 AI 能从根本上了解输入常识,而且一起具有正确的价值取向,已经成为一个火烧眉毛的问题。

本文来自网络,不代表本站立场。转载请注明出处: https://www.almost-heroes.com/news/20220807/2179.html
上一篇
下一篇

发表评论