Hi!请登陆

OpenAI 的 GPT-4 在专业基准测试中表现出“人类水平的表现”

2023-3-15 777 3/15

多模态人工智能模型可以处理图像和文本,通过考试。

OpenAI 的 GPT-4 在专业基准测试中表现出“人类水平的表现”

周二,OpenAI宣布了 GPT-4,这是一种大型多模态模型,可以接受文本和图像输入,同时返回文本输出,据 OpenAI 称,“在各种专业和学术基准上表现出人类水平的表现”。同样在周二,微软宣布Bing Chat一直在 GPT-4 上运行。

如果它的表现如所声称的那样,GPT-4 可能代表着人工智能新时代的开启。OpenAI 在其公告中写道:“它通过了模拟律师考试,得分在应试者的前 10% 左右。” “相比之下,GPT-3.5 的得分在倒数 10% 左右。”

OpenAI 计划通过 ChatGPT 及其商业 API 发布 GPT-4 的文本功能,但首先需要等待。GPT-4 目前可供 ChatGPT Plus 的订阅者使用。此外,该公司正在与单一合作伙伴 Be My Eyes 一起测试 GPT-4 的图像输入能力,Be My Eyes是一款即将推出的智能手机应用程序,可以识别场景并对其进行描述。

除了介绍网站,OpenAI 还发布了描述 GPT-4 功能的技术论文和详细描述其局限性的系统模型卡。

OpenAI 的 GPT-4 在专业基准测试中表现出“人类水平的表现”
 GPT-4 从 2023 年 3 月 14 日开始向 ChatGPT Plus 客户介绍的屏幕截图。
本杰·爱德华兹 / Ars Technica

GPT 代表“生成式预训练变压器”,GPT-4 是一系列基础语言模型的一部分,可追溯到 2018 年的原始 GPT。继原始版本发布后,OpenAI 于 2019 年发布了 GPT-2,并于 2019 年发布了GPT - 3。 2020 年。2022 年,进一步改进称为GPT-3.5。11月,OpenAI 发布了ChatGPT,当时它是基于 GPT-3.5 的微调对话模型。

GPT 系列中的 AI 模型已经过训练,可以使用主要从互联网上提取的大量文本来预测一系列标记中的下一个标记(单词的一个片段)。在训练期间,神经网络会建立一个统计模型来表示单词和概念之间的关系。随着时间的推移,OpenAI 增加了每个 GPT 模型的大小和复杂性,与人类在同一场景中完成文本的方式相比,这导致模型之间的性能总体上更好,尽管它因任务而异。

就任务而言,GPT-4 的表现值得注意。与它的前辈一样,它可以遵循自然语言的复杂指令并生成技术或创意作品,但它可以更深入地做到这一点:它支持生成和处理多达 32,768 个标记(约 25,000 个文本单词),这允许更多比以前的模型更长的内容创建或文档分析。

在分析 GPT-4 的能力时,OpenAI 让模型参加了Uniform Bar Exam法学院入学考试 (LSAT)研究生入学考试(GRE) Quantitative和各种 AP 科目考试。在许多任务上,它的得分都达到了人类水平。这意味着,如果 GPT-4 是一个仅根据应试能力来评判的人,它可能会进入法学院——也可能进入许多大学。

至于它的多模态能力(仍然仅限于研究预览),GPT-4 可以分析多幅图像的内容并理解它们,例如理解多图像序列的笑话或从图表中提取信息。微软和谷歌最近都在尝试类似的多模式功能。微软特别认为,要实现 AI 研究人员所说的“通用人工智能”或在人类水平上执行一般任务的 AI,必须采用多模态方法。

Scale AI 的员工提示工程师 Riley Goodside 在检查 GPT-4 的多模式功能时在推文中提到了“AGI”,OpenAI 员工 Andrej Karpathy 对 GPT - 4 能够解决他在 2012 年提出的关于 AI 视觉模型理解的测试表示惊讶为什么图像很有趣。

OpenAI表示,其目标是开发可以在任何智力任务中取代人类的 AGI,尽管 GPT-4 尚不存在。在 GPT-4 宣布后不久,OpenAI 首席执行官山姆奥特曼发推文说,“它仍然存在缺陷,仍然有限,而且在第一次使用时看起来仍然比你花更多时间后更令人印象深刻。”

的确如此:GPT-4 远非完美。它仍然反映出其训练数据集中的偏见、产生幻觉(编造听起来似是而非的谎言),并可能产生错误信息或有害建议。

微软精神错乱的王牌

OpenAI 的 GPT-4 在专业基准测试中表现出“人类水平的表现”

微软同时发布 GPT-4 意味着 OpenAI 至少从 2022 年 11 月开始就一直使用 GPT-4,当时微软首次在印度测试 Bing Chat 。

微软在一篇博文中写道:“我们很高兴确认新的 Bing 正在 GPT-4 上运行,为搜索定制。” “如果你在过去六周内的任何时间使用过新的 Bing 预览版,你就已经提前了解了 OpenAI 最新模型的强大功能。随着 OpenAI 对 GPT-4 及更高版本进行更新,Bing 受益于这些改进是为了确保我们的用户拥有最全面的副驾驶功能。”

Bing Chat 时间线与 Ars Technica 去年秋天听到的一个匿名提示相吻合,OpenAI 已经在内部准备好 GPT-4,但在可以实施更好的防护栏之前不愿发布它。虽然 Bing Chat 对齐的性质值得商榷,但 GPT-4 的护栏现在以更多对齐培训的形式出现。OpenAI 使用一种称为人类反馈强化学习 ( RLHF ) 的技术,利用 GPT-4 结果中的人类反馈来训练神经网络拒绝讨论 OpenAI 认为敏感或可能有害的话题。

OpenAI 在其网站上写道:“我们花了 6 个月的时间,利用我们的对抗性测试程序和 ChatGPT 的经验教训,反复调整 GPT-4,从而在真实性、可操纵性、并拒绝走出护栏。”

相关推荐