OpenAI开发能追问并拒绝不当要求的对话语言模型ChatGPT

OpenAI发布对话优化语言模型ChatGPT，该模型能够以对话的方式与用户进行互动，对话的格式让ChatGPT可以回答后续问题、承认错误、质疑不正确的前提以及拒绝不适当的要求。ChatGPT目前为研究预览阶段，供用户免费试用。

ChatGPT能以对话的方式帮助用户解决各种问题，像是开发人员可以贴一段存在bug的程序代码，并且要求ChatGPT提供调试方法，ChatGPT会利用对话与开发者互动询问更多资讯，以提供具体有效的解法。当然用户也可以跟ChatGPT讨论有关费马小定理，或是要求ChatGPT编写一段跟邻居自我介绍的文本，而ChatGPT会拒绝回答用户，诸如侵入他人房子的方法等提问。

ChatGPT从GPT-3.5的模型微调而成，研究人员运用与之前训练语言服务模型InstructGPT相同的方法，以人类反馈增强学习（RLHF）训练该模型，但在资料收集配置上略作调整。ChatGPT仍存在一些限制，像是ChatGPT有时会写出看似合理，但是不正确或荒谬的答案，研究人员解释，主要原因有三个，除了在增强训练时缺乏事实来源之外，训练模型因为过度谨慎，可能会拒绝回答可以正确回答的问题，又或是在监督训练时被误导。

ChatGPT对输入的措辞调整非常敏感，当用户在查询问题时，可以尝试调整措辞或以相同提示多试几次，当模型表示不知道答案，可能用户只要稍微改写句子，模型就能够正确回答。

研究人员还提到，有时候ChatGPT的解释会过度冗长或是不停重复部分词语，像是一直重申他是由OpenAI训练的语言模型，而原因来自训练资料的偏差，因为人工智能训练者喜欢更全面且更长的回答，再加上常见的模型过度优化问题，让ChatGPT出现重复语句的问题。在理想的情况，当用户提出模棱两可的查询时，模型会提出问题试图澄清查询，但当前模型通常倾向猜测用户的意图。

另外，虽然OpenAI尽量让ChatGPT能够拒绝不当请求，但是ChatGPT有时候仍会回应有害指令或是出现偏见行为，研究人员以Moderation API来警告或阻挡特定类型的不安全内容，但是预期会有部分遗漏，他们会收集用户反馈，并且改进该系统。