Hi!请登陆

ChatGPT vs Google Bard:哪个更好?我们对它们进行了测试。

2023-4-7 371 4/7

我们比较了七个类别中的两个顶级 AI 语言模型,以选出获胜者。

ChatGPT vs Google Bard:哪个更好?我们对它们进行了测试。
人工智能生成的两个机器人在竞技场中战斗的图像。

在当今的生成式 AI 聊天机器人世界中,我们见证了 OpenAI 的ChatGPT在 11 月推出的突然崛起,紧随其后的是2 月推出的Bing Chat和3 月推出的谷歌Bard 。我们决定让这些聊天机器人完成一系列任务,以确定哪一个在 AI 聊天机器人领域占据主导地位。由于 Bing Chat 使用与最新 ChatGPT 模型类似的GPT-4技术,我们选择专注于 AI 聊天机器人技术的两大巨头:OpenAI 和 Google。

我们在七个关键类别中测试了 ChatGPT 和 Bard:爸爸笑话、争论对话、数学应用题、总结、事实检索、创意写作和编码。对于每个测试,我们将完全相同的指令(称为“提示”)输入 ChatGPT(使用 GPT-4)和 Google Bard。我们使用了第一个结果,没有挑选樱桃。

值得注意的是,基于早期GPT-3.5模型的 ChatGPT 版本也可用,但我们没有在测试中使用它。由于我们仅使用 GPT-4,因此在本文中我们将 ChatGPT 称为“ChatGPT-4”以减少混淆。

显然,这不是一项科学研究,而是为了对聊天机器人的功能进行有趣的比较。由于随机因素,不同会话的输出可能不同,使用不同提示的进一步评估将产生不同的结果。此外,随着谷歌和 OpenAI 不断升级,这些模型的功能将随着时间的推移而迅速变化。但就目前而言,这就是 2023 年 4 月上旬的情况。

爸爸笑话

为了让我们的斗智斗勇热身,我们请 ChatGPT 和 Bard 写了一些笑话。由于喜剧的巅峰之作可以在爸爸的笑话中找到,我们想知道这两个聊天机器人是否可以创作一些独特的笑话。

提示:写 5 个原创的爸爸笑话

在巴德的五个爸爸笑话中,我们使用谷歌搜索在互联网上逐字逐句地找到了其中三个。其中一个示例(“葡萄”示例)半借用了Mitch Hedberg 的一条推文笑话,但它被我们不愿尝试解释的令人遗憾的文字游戏破坏了。令人惊讶的是,有一个看似原创的笑话(关于蜗牛)我们在其他任何地方都找不到,但它没有任何意义。

与此同时,ChatGPT-4 的五个爸爸笑话 100% 非原创,完全取自其他来源,但准确无误。由于爸爸的笑话可以说应该比聪明更值得呻吟,所以巴德似乎在这里击败了 ChatGPT-4。巴德还尝试创造原创笑话(按照我们的指示),尽管有些笑话以一种令人尴尬的方式可怕地失败了(就像爸爸一样),甚至可以说是无意中把脚放在嘴里(也可以说是爸爸-喜欢)。

获胜者:巴德

参数对话框

测试现代 AI 聊天机器人的一种方法是让它扮演人们讨论某个主题的角色。在这种情况下,我们向 Bard 和 ChatGPT-4 提供了我们这个时代最关键的主题之一:PowerPC 与 Intel。

提示:写一个 PowerPC 处理器的粉丝和一个 Intel 处理器的粉丝之间的 5 行辩论,大约在 2000 年

首先,我们将考虑巴德的回应。它生成的五行对话不是特别深刻,除了泛泛的侮辱之外,没有提到任何特定于 PowerPC 或英特尔芯片的技术细节。此外,对话以“英特尔迷”同意不同意而结束,这在引发百万次口水战的主题中似乎非常不现实。

相比之下,ChatGPT-4 的回应提到了 Apple Macintosh 计算机中使用的 PowerPC 芯片,抛出诸如“英特尔的 x86 架构”和 PowerPC 的“基于 RISC 的架构”之类​​的术语。它甚至提到了 Pentium III,这是 2000 年的一个现实细节。总的来说,这个论点比巴德的输出要详细得多,也许最准确地说,谈话没有得出结论——暗示着这场永无止境的战斗是可能仍在互联网的某些区域肆虐。

获胜者:ChatGPT-4

一道数学题

啊,是的,数学。传统上,它不是ChatGPT 等大型语言模型 (LLM) 的强项。因此,我们没有向每个机器人抛出一系列复杂的方程式和算术,而是给每个机器人一个老式的小学式应用题。

提示:如果 Microsoft Windows 11 在 3.5" 软盘上发货,需要多少张软盘?

为了解决这个问题,每个 AI 模型都需要知道 Microsoft Windows 11 安装的数据大小和 3.5 英寸软盘的数据容量。他们还必须假设提问者最可能想要的是哪种密度的软盘。然后他们需要做一些基本的数学运算以将这些概念组合在一起。

在我们的评估中,Bard 正确地陈述了这三个关键点(足够接近——Windows 11 的安装大小的估计通常在20-30GB左右)但在数学系严重失败,暗示它需要“15.11”软盘,然后说它是“只是一个理论数字”,最后承认需要 15 张以上的软盘。它仍然没有尝试计算正确的值。

相比之下,ChatGPT-4 包含一些与 Windows 11 安装大小相关的细微差别(正确引用最小64GB并将其与现实世界的基本安装大小进行比较),正确解释软盘容量,然后进行一些正确的乘法和除法以得出14,222 个磁盘。人们可能会质疑 1 GB 是1,024 兆字节还是 1,000兆字节,但数学是合理的。它还正确地提到实际数字可能会因其他因素而异。

获胜者:ChatGPT-4

总结

人工智能语言模型以其总结复杂信息并将文本归结为关键元素的能力而闻名。为了评估每个语言模型总结文本的能力,我们复制并粘贴了 Ars Technica 最近一篇关于 AI 生成的演员Will Smith 吃意大利面的传真的文章中的三段,并以我们的提示请求为前缀。

提示:用一段总结:[三段文章正文]

这是一个接近的。Bard 和 ChatGPT-4 都获取了信息并将其精简为重要的细节。然而,Bard 的版本感觉更像是一个真正的摘要,将信息综合成新的措辞,而 ChatGPT-4 的版本读起来更像是一个串联,切掉句子并留下碎片。它非常接近,但我们不得不说 Bard 在这次测试中击败了 ChatGPT-4。

赢家:谷歌吟游诗人

事实检索

目前,众所周知,大型语言模型会犯错误(研究人员通常称之为“幻觉”),这使得它们成为不可靠的事实参考,除非有外部信息来源的补充。有趣的是,Bard 可以在线查找信息,而 ChatGPT-4 目前还不能(尽管该功能即将通过插件提供)。

为了测试这种能力,我们要求 Bard 和 ChatGPT-4 表达关于一个困难而微妙的主题的历史知识。

提示:谁发明了视频游戏?

谁发明了电子游戏这个问题很难回答,因为这取决于你如何定义“电子游戏”这个术语,而这个定义因历史学家而异。有些人认为早期的电脑游戏是视频游戏,有些人认为应该始终涉及电视机,等等。没有单一的普遍认可的答案。

我们认为 Bard 在网络上查找内容的能力会为其带来优势,但在这种情况下,这可能会适得其反,因为它选择了谷歌顶级流行风格的答案,称 Ralph Baer 为“视频游戏之父。 “ 它关于 Baer 的所有事实都是正确的,尽管它可能应该用过去时写最后一句话,因为 Baer于 2014 年去世。但 Bard 没有提到任何其他“第一款视频游戏”的早期竞争者,例如Tennis For二太空大战!,所以它的答案可能具有误导性和不完整。

ChatGPT-4 给出了更透彻、更细致的回答,代表了许多早期视频游戏历史学家当前的感受,称“视频游戏的发明不能归功于一个人”,并随着时间的推移呈现出“一系列创新” . 它唯一的错误是它调用了Spacewar!“第一款数字电脑游戏”,当时它还不是。人们可以扩展答案以包括更多利基边缘案例,但 ChatGPT-4 很好地概述了重要的早期先驱。

获胜者:ChatGPT-4

创意写作

Bullcrap,正如他们所说,充满了大型语言模型。如此之多,以至于在奇思妙想的话题上肆无忌惮的创造力应该是他们的强项。我们通过要求 Bard 和 ChatGPT-4 写一个简短的异想天开的故事来对此进行测试。

提示:写一个关于亚伯拉罕林肯发明篮球的两段创意故事。

巴德在这个测试中的输出在几个方面都不尽人意。首先,它是 10 段而不是两段——而且是短小的、断断续续的段落。此外,它还分享了一些在提示上下文中没有多大意义的细节。例如,为什么亚伯拉罕林肯的白宫在伊利诺斯州斯普林菲尔德?为什么他需要“几十个桃花篮”?否则,这是一个有趣但简单的故事。

ChatGPT-4 的故事也发生在伊利诺伊州,但更准确地说,没有提及那段时期的总统​​任期或白宫。但后来又说“南北双方球员”抛开分歧一起打篮球,暗示这是在篮球发明后不久发生的。

总的来说,我们必须在这里给 ChatGPT-4 一个优势,因为它的输出确实分为两个段落——尽管它似乎通过让每个段落都很长来绕过这个限制。尽管如此,我们还是很喜欢巴德版本故事中的创意细节。

获胜者:ChatGPT-4

编码

如果这一代的大型语言模型有一个“杀手级应用”,那可能就是它们作为编程助手的用途。OpenAI 在其Codex模型上的早期工作使GitHub 的 CoPilot成为可能,而 ChatGPT 本身作为简单程序的相当称职的程序员和调试器而闻名。所以看看 Google Bard 是如何叠加的应该很有趣。

提示:编写一个 python 脚本,上面写着“Hello World”,然后无休止地创建一个随机重复的字符串。

 

哎呀!看起来 Google Bard 根本不会写代码。谷歌目前正在压制该功能,但该公司表示编码即将推出。目前,巴德拒绝了我们的提示,他说:“看起来你需要我帮助编码,但我还没有受过这方面的培训。”

与此同时,ChatGPT-4 不仅直接进入代码,而且还在带有“复制代码”按钮的精美代码框中对其进行格式化,该按钮可将代码复制到系统剪贴板中,以便轻松粘贴到 IDE 或文本编辑器中。但它有效吗?我们将代码粘贴到 rand_string.py 文件中,并在 Windows 10 下的控制台中运行它,它完全按照编写的方式工作,没有任何变化。

获胜者:ChatGPT-4

获胜者:ChatGPT-4。但这还没有结束。

总的来说,ChatGPT-4 赢得了我们七次试验中的五次。(那是使用 GPT-4 的 ChatGPT,以防你跳过这里看到最后。)但这不是完整的故事。还有其他因素需要考虑,例如速度、上下文长度、成本和未来升级。

至于速度,ChatGPT-4 目前是慢吞吞的,用了 52 秒来写关于林肯和篮球的故事,而 Bard 只用了 6 秒。值得注意的是,OpenAI 以 GPT-3.5 的形式提供了比 GPT-4 快得多的 AI 模型。该模型用了 12 秒的时间用林肯提示符写了一个故事,但可以说它在深度、创造性任务方面的能力较差。

每个语言模型都有它可以一次处理的最大数量的标记(单词的片段)。这有时被称为“上下文窗口”,但它几乎就像短期记忆。在会话聊天机器人的情况下,上下文窗口包含到现在为止的整个对话历史记录。当它填满时,它要么达到硬性限制,要么继续前进,但会抹去它对讨论的早期部分的“记忆”。ChatGPT-4 保留了一个滚动内存,可以擦除早期的上下文,据报道有大约 4,000 个令牌的限制。据报道,Bard将其总产量限制在 1,000 个左右,当超过这个限制时,它就会失去之前讨论的“记忆”。

最后,还有成本。ChatGPT(不带 GPT-4)目前可通过ChatGPT 网站免费使用,视供应情况而定,但具有优先访问权和每月 20 美元的 GPT-4 访问权。精通编程的用户可以通过 API以更便宜的价格访问早期的 ChatGPT-3.5 模型,但在撰写本文时,GPT-4 API 仍处于有限测试中。同时,Google Bard 作为部分 Google 用户有限试用的一部分是免费的。目前,谷歌没有计划在(如果)它变得更广泛可用时对 Bard 访问收费。

最后,正如我们之前提到的,这两种型号都在不断升级。例如,Bard 刚刚在周五收到更新,使其更擅长数学,并且很可能很快就能编写代码。OpenAI 还继续完善其 GPT-4 模型。谷歌目前正在阻止其最强大的语言模型(可能是出于计算成本的原因),因此我们可以看到来自谷歌的更强大的竞争者指日可待。生成人工智能业务仍处于早期阶段。

相关推荐