斯坦福大学开源轻量指令遵循模型Alpaca 7B

有鉴于当前缺乏学术用的指令遵循(Instruction-Following)模型资源,因此斯坦福大学基础模型研究中心,开发出Alpaca 7B模型并开放给学术目的使用。Alpaca是以Meta的LLaMA 7B模型作为基础,并使用OpenAI text-davinci-003模型所生成的5,2000个指令遵循演示范例微调而成,其具有与text-davinci-003非常类似的行为,特性是成本低易于复制。

目前不少应用集成GPT-3.5、ChatGPT、Claude和Bing Chat等指令遵循模型,以加入人工智能功能,不过这些模型在提供强大的功能之外,也带来了许多风险,研究人员提到,指令遵循模型仍然存在许多缺陷,包括产生虚假资讯、有毒文本,并且传播社会刻板印象,虽然这些问题急需解决,但目前学术界因为没有行为接近闭源模型的开源模型,因此学术界难以参与研究。

要以学术预算训练高品质的指令遵循模型,面临两大问题,第一是需要强大的预训练语言模型,第二则是高品质的指令遵循训练资料。Meta最近发布的预训练语言模型LLaMA解决了第一个问题,而第二个问题则可应用现有语言模型,自动生成指令资料来解决。

Alpaca便是使用LLaMA模型,再以52,000个指令遵循演示范例进行微调而成。研究人员先以175个人工编写的指令输出对开始,并要求text-davinci-003以这175个种子指令集当作上下文,产生更多的指令,最后生成5,2000个指令遵循演示范例,OpenAI API使用总成本不到500美元。

准备好52,000个指令遵循演示范例之后,研究人员使用Hugging Face训练框架微调LLaMA模型,微调过程在云计算平台使用8个A100 80GB GPU,微调LLaMA 7B模型需要3个小时,成本约为100美元。

总共花费不到600美元训练的Alpaca模型,在电子邮件写作、社交媒体和生产力工具任务,和text-davinci-003进行盲测,研究人员发现两个模型的性能非常相近,而且因为模型尺寸小,指令遵循资料集也不算大,因此Alpaca模型的表现相当让人惊艳。

Alpaca模型也存在语言模型常见的问题,会生成包括幻觉、有毒和刻板印象内容,且可用于产生以假乱真的误导资讯。Alpaca模型是一个相对轻量的模型,能够作为研究这些缺陷的基础,基础模型研究中心现在发布Alpaca模型网页展示、微调用指示集、微调模型的参数,之后研究人员也还会发布模型权重和训练程序代码。

发布上述资产让学术界能够对语言模型进行科学研究,以找出解决当前语言模型缺陷的办法,不过这也使得恶意人士,能够更方便地创建有害模型,但研究人员认为发布Alpaca模型利大于弊。为了避免Alpaca模型网页展示被滥用,他们使用了OpenAI内容审核API过滤内容,另外还对模型输出加上浮水印,以方便侦测输出是否来自Alpaca 7B模型。

Alpaca仅能用于学术研究,禁止任何商业用途,因为LLaMA使用非商业授权,Alpaca以LLaMA为基础,因此也继承了非商业用途的要求,另外由于指令资料来自于OpenAI的text-davinci-003模型,其使用条款禁止用于开发和OpenAI竞争的模型,再来是Alpaca还没有足够的安全措施,因此无法部署在一般用途上。