OpenAI改进GPT-3使其更能听懂人类指示,并减少输出有毒内容

人工智能研究组织OpenAI今年1月底宣布,更换语言服务API背后所使用的模型,从过去所搭配的GPT-3,改成默认使用InstructGPT,根据研究证明,在遵循英文指示的处理上,InstructGPT的表现更好,而且生成更少的有毒(Toxic)内容,这也是OpenAI第一次将多年来的比对(Alignment)研究,用于产品之上,其概念是通过由人类示范的小型资料集,训练模型减少有害的输出。

过去,OpenAI API是以GPT-3语言模型为基础,借由人工文本提示,来执行自然语言任务,但GPT-3模型可能产生不真实、有毒,甚至有害情绪的输出,官方解释,这是因为GPT-3的目标,是利用大型互联网的文本资料集,来预测下一个单词,而不是安全地执行用户想要的语言任务,也就是说,该模型的目标与用户的预期并不一致。

因此OpenAI为了要改进模型,使其更安全,并且提供用户更有用的输出,研究人员使用了来自人类反馈的增强学习技术(Reinforcement Learning from Human Feedback,RLHF),根据用户向API提交的提示,由OpenAI的标记员向模型提供示范行为,并对模型的输出进行排名,借此来微调GPT-3。

经过改进的GPT-3模型称为InstructGPT,可以更好地遵循人类指示,有毒内容输出也大幅降低。InstructGPT仅具有13亿个参数,比起1,750亿个参数的GPT-3模型小上许多,但研究人员提到,他们使用NLP性能评估方法来衡量InstructGPT的能力,发现InstructGPT并没有输给GPT-3,整体来说,标记员更认可InstructGPT的输出结果。

InstructGPT已经以Beta测试的形式,在API上提供超过1年的服务,而现在官方使用InstructGPT作为默认模型,他们认为,在妥善调校的语言模型训练循环中有人类一起参与,是改善安全性的强大方法,因此他们会继续采行这样的改进模式。

通过让标记员选择,来评估InstructGPT和GPT-3模型遵循用户指令的表现来进行实验,结果显示,InstructGPT模型的输出明显较受青睐,而且在利用公开的资料集,来评估模型的安全性之后,OpenAI也发现InstructGPT产生的模仿错误更少,毒性也更小,而且经过人工评估,InstructGPT编造事实的状况相对较少出现,也就是产生幻觉的频率更低,更适合用于生成输出。

但OpenAI也提醒,尽管InstructGPT已经比GPT-3模型安全不少,但在部分情况仍会产出有毒具偏见的输出,甚至是编造事实,在没有明确提示的情况下,产生性和暴力内容,但研究人员提到,机器学习系统的安全性,不只关乎底层的模型行为,也取决于模型部署的方式,因此OpenAI会继续审查使用API的应用程序,并且提供内容过滤器以侦测不安全的输出,同时监控API被滥用的情况。

由于InstructGPT是以英文说明接受训练,所以输出的内容,更偏向英文用户的文化价值观,OpenAI现在正在进行研究以了解标记员偏好间的差异和分歧,根据更具体的人群价值观来调整模型。他们认为,要让模型的输出符合特定人群的价值观有其困难度,但仍会负起责任,以具包容的流程来做出这些决定。