GPT-3.5 (text-davinci-003)、ChatGPT、Claude 和 Bing Chat 等指令跟随模型变得越来越强大。许多用户现在定期与这些模型交互,甚至将它们用于工作。然而,尽管它们得到广泛部署,指令遵循模型仍然存在许多缺陷:它们会产生虚假信息、传播社会刻板印象并产生有毒语言。
为了在解决这些紧迫问题方面取得最大进展,学术界的参与很重要。不幸的是,在学术界对指令遵循模型进行研究一直很困难,因为没有开源模型在功能上接近闭源模型,例如 OpenAI 的 text-davinci-003。
我们正在发布我们关于指令跟随语言模型的发现,该模型被称为Alpaca ,它是从 Meta 的LLaMA 7B 模型中微调而来的。我们使用 text-davinci-003在以自我指导方式生成的 52K 指令跟随演示上训练羊驼模型。Alpaca 表现出许多类似于 OpenAI 的 text-davinci-003 的行为,但也出奇地小且易于复制/便宜。
我们正在发布我们的训练配方和数据,并打算在未来发布模型权重。我们还举办了一个互动演示,让研究界更好地了解羊驼的行为。交互可以暴露意想不到的能力和失败,这将指导我们未来对这些模型的评估。我们还鼓励用户在我们的网络演示中报告任何相关行为,以便我们更好地理解和减轻这些行为。由于任何版本都有风险,我们稍后将在本博文中讨论我们对这个公开版本的思考过程。
我们强调 Alpaca仅用于学术研究,禁止任何商业用途。这个决定有3个因素:第一,Alpaca基于LLaMA,有非商业许可,所以我们必然继承这个决定。其次,指令数据基于 OpenAI 的 text-davinci-003,其使用条款禁止开发与 OpenAI 竞争的模型。最后,我们没有设计足够的安全措施,所以 Alpaca 还没有准备好部署到一般用途。
官网地址:https://crfm.stanford.edu/2023/03/13/alpaca.html
模型入口:https://crfm.stanford.edu/alpaca
github地址:https://github.com/tatsu-lab/stanford_alpaca