Hi!请登陆

“大事”——Dolly 是一款免费、开源、ChatGPT 风格的 AI 模型

2023-4-20 689 4/20

Dolly 2.0 可能会引发新一波类似于 ChatGPT 的完全开源 LLM。

“大事”——Dolly 是一款免费、开源、ChatGPT 风格的 AI 模型

周三,Databricks 发布了 Dolly 2.0,据报道这是第一个用于商业用途的开源指令遵循大型语言模型 (LLM),它已经在人类生成的数据集上进行了微调。它可以作为自制 ChatGPT 竞争对手的一个引人注目的起点。

Databricks 是一家美国企业软件公司,由Apache Spark的创建者于 2013 年创立。它们提供了一个基于 Web 的平台,用于使用 Spark 进行大数据和机器学习。根据 Dolly 发布博客文章,通过发布 Dolly,Databricks 希望允许组织创建和定制 LLM,“无需支付 API 访问费用或与第三方共享数据” 。

Dolly 2.0 是其新的 120 亿参数模型,它基于EleutherAI 的 pythia模型系列,并专门针对从 Databricks 员工众包的训练数据(称为“databricks-dolly-15k”)进行微调。这种校准使它的能力更符合 OpenAI 的 ChatGPT,与未经微调的原始 LLM 相比,它更擅长作为聊天机器人回答问题和参与对话。

3 月份发布的 Dolly 1.0 由于训练数据而面临商业用途的限制,其中包含 ChatGPT 的输出(感谢Alpaca)并且受 OpenAI 的服务条款约束。为了解决这个问题,Databricks 的团队试图创建一个允许商业使用的新数据集。

为此,Databricks 在 2023 年 3 月至 2023 年 4 月期间从其 5,000 多名员工中众包了 13,000 次指令遵循行为演示。为了激励参与,他们举办了一场比赛,并概述了数据生成的七项具体任务,包括开放式问答、封闭式问答,从维基百科中提取和总结信息,集思广益,分类和创意写作。

生成的数据集连同 Dolly 的模型权重和训练代码已根据Creative Commons许可完全开源发布,使任何人都可以出于任何目的使用、修改或扩展数据集,包括商业应用程序。

相比之下,OpenAI 的ChatGPT是一种专有模型,要求用户为 API 访问付费并遵守特定的服务条款,这可能会限制企业和组织的灵活性和定制选项。Meta 的LLaMA是一个部分开源的模型(权重受限),在其权重在 BitTorrent 上泄露后最近催生了一波衍生品,不允许商业使用。

在 Mastodon 上,AI 研究人员 Simon WillisonDolly 2.0 “非常重要”。Willison 经常试验开源语言模型,包括 Dolly。“Dolly 2.0 最令人兴奋的事情之一是微调指令集,它由 5,000 名 Databricks 员工手工构建,并在 CC 许可下发布,”Willison 在 Mastodon 嘟嘟声中写道。

如果对 Meta 仅部分开放的 LLaMA 模型的热烈反应有任何迹象,那么 Dolly 2.0 可能会引发新一波开源语言模型浪潮,这些模型不会受到专有限制或商业使用限制的阻碍。虽然关于 Dolly 的实际性能的消息仍然未知,但进一步的改进可能允许在本地消费级机器上运行相当强大的 LLM。

“即使 Dolly 2 不好,我希望我们很快就会看到大量使用该训练数据的新项目,”Willison 告诉 Ars。“其中一些可能会产生真正有用的东西。”

目前在Hugging Face上可以找到Dolly权重,在GitHub上可以找到databricks-dolly-15k数据集。

相关推荐