OpenAI改进GPT-3使其更能听懂人类指示，并减少输出有毒内容

人工智能研究组织OpenAI今年1月底宣布，更换语言服务API背后所使用的模型，从过去所搭配的GPT-3，改成默认使用InstructGPT，根据研究证明，在遵循英文指示的处理上，InstructGPT的表现更好，而且生成更少的有毒（Toxic）内容，这也是OpenAI第一次将多年来的比对（Alignment）研究，用于产品之上，其概念是通过由人类示范的小型资料集，训练模型减少有害的输出。

过去，OpenAI API是以GPT-3语言模型为基础，借由人工文本提示，来执行自然语言任务，但GPT-3模型可能产生不真实、有毒，甚至有害情绪的输出，官方解释，这是因为GPT-3的目标，是利用大型互联网的文本资料集，来预测下一个单词，而不是安全地执行用户想要的语言任务，也就是说，该模型的目标与用户的预期并不一致。

因此OpenAI为了要改进模型，使其更安全，并且提供用户更有用的输出，研究人员使用了来自人类反馈的增强学习技术（Reinforcement Learning from Human Feedback，RLHF），根据用户向API提交的提示，由OpenAI的标记员向模型提供示范行为，并对模型的输出进行排名，借此来微调GPT-3。

经过改进的GPT-3模型称为InstructGPT，可以更好地遵循人类指示，有毒内容输出也大幅降低。InstructGPT仅具有13亿个参数，比起1,750亿个参数的GPT-3模型小上许多，但研究人员提到，他们使用NLP性能评估方法来衡量InstructGPT的能力，发现InstructGPT并没有输给GPT-3，整体来说，标记员更认可InstructGPT的输出结果。

InstructGPT已经以Beta测试的形式，在API上提供超过1年的服务，而现在官方使用InstructGPT作为默认模型，他们认为，在妥善调校的语言模型训练循环中有人类一起参与，是改善安全性的强大方法，因此他们会继续采行这样的改进模式。

通过让标记员选择，来评估InstructGPT和GPT-3模型遵循用户指令的表现来进行实验，结果显示，InstructGPT模型的输出明显较受青睐，而且在利用公开的资料集，来评估模型的安全性之后，OpenAI也发现InstructGPT产生的模仿错误更少，毒性也更小，而且经过人工评估，InstructGPT编造事实的状况相对较少出现，也就是产生幻觉的频率更低，更适合用于生成输出。

但OpenAI也提醒，尽管InstructGPT已经比GPT-3模型安全不少，但在部分情况仍会产出有毒具偏见的输出，甚至是编造事实，在没有明确提示的情况下，产生性和暴力内容，但研究人员提到，机器学习系统的安全性，不只关乎底层的模型行为，也取决于模型部署的方式，因此OpenAI会继续审查使用API的应用程序，并且提供内容过滤器以侦测不安全的输出，同时监控API被滥用的情况。

由于InstructGPT是以英文说明接受训练，所以输出的内容，更偏向英文用户的文化价值观，OpenAI现在正在进行研究以了解标记员偏好间的差异和分歧，根据更具体的人群价值观来调整模型。他们认为，要让模型的输出符合特定人群的价值观有其困难度，但仍会负起责任，以具包容的流程来做出这些决定。