Dolly 2.0 可能会引发新一波类似于 ChatGPT 的完全开源 LLM。

周三,Databricks 发布了 Dolly 2.0,据报道这是第一个用于商业用途的开源指令遵循大型语言模型 (LLM),它已经在人类生成的数据集上进行了微调。它可以作为自制 ChatGPT 竞争对手的一个引人注目的起点。
Databricks 是一家美国企业软件公司,由Apache Spark的创建者于 2013 年创立。它们提供了一个基于 Web 的平台,用于使用 Spark 进行大数据和机器学习。根据 Dolly 发布博客文章,通过发布 Dolly,Databricks 希望允许组织创建和定制 LLM,“无需支付 API 访问费用或与第三方共享数据” 。
Dolly 2.0 是其新的 120 亿参数模型,它基于EleutherAI 的 pythia模型系列,并专门针对从 Databricks 员工众包的训练数据(称为“databricks-dolly-15k”)进行微调。这种校准使它的能力更符合 OpenAI 的 ChatGPT,与未经微调的原始 LLM 相比,它更擅长作为聊天机器人回答问题和参与对话。
3 月份发布的 Dolly 1.0 由于训练数据而面临商业用途的限制,其中包含 ChatGPT 的输出(感谢Alpaca)并且受 OpenAI 的服务条款约束。为了解决这个问题,Databricks 的团队试图创建一个允许商业使用的新数据集。
为此,Databricks 在 2023 年 3 月至 2023 年 4 月期间从其 5,000 多名员工中众包了 13,000 次指令遵循行为演示。为了激励参与,他们举办了一场比赛,并概述了数据生成的七项具体任务,包括开放式问答、封闭式问答,从维基百科中提取和总结信息,集思广益,分类和创意写作。
生成的数据集连同 Dolly 的模型权重和训练代码已根据Creative Commons许可完全开源发布,使任何人都可以出于任何目的使用、修改或扩展数据集,包括商业应用程序。
相比之下,OpenAI 的ChatGPT是一种专有模型,要求用户为 API 访问付费并遵守特定的服务条款,这可能会限制企业和组织的灵活性和定制选项。Meta 的LLaMA是一个部分开源的模型(权重受限),在其权重在 BitTorrent 上泄露后最近催生了一波衍生品,不允许商业使用。
在 Mastodon 上,AI 研究人员 Simon Willison称Dolly 2.0 “非常重要”。Willison 经常试验开源语言模型,包括 Dolly。“Dolly 2.0 最令人兴奋的事情之一是微调指令集,它由 5,000 名 Databricks 员工手工构建,并在 CC 许可下发布,”Willison 在 Mastodon 嘟嘟声中写道。
如果对 Meta 仅部分开放的 LLaMA 模型的热烈反应有任何迹象,那么 Dolly 2.0 可能会引发新一波开源语言模型浪潮,这些模型不会受到专有限制或商业使用限制的阻碍。虽然关于 Dolly 的实际性能的消息仍然未知,但进一步的改进可能允许在本地消费级机器上运行相当强大的 LLM。
“即使 Dolly 2 不好,我希望我们很快就会看到大量使用该训练数据的新项目,”Willison 告诉 Ars。“其中一些可能会产生真正有用的东西。”
目前在Hugging Face上可以找到Dolly权重,在GitHub上可以找到databricks-dolly-15k数据集。
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:https://www.ozabc.com/hot/535610.html