Google前阵子发布AI相机Clips,最近则在AI研究博客公开用Google Clips自动捕捉重要瞬间和短片的实验方法,找来摄影专家手动为训练数据集的视频片段评分,让AI模型学习如何识别出有趣的拍摄场景。
Google研究团队过去一直在研究如何用深度学习方法,让计算机视觉算法识别拍摄照片的元素,像是人、微笑、宠物、日落、知名的景点等,Google Clips的设计围绕着3个重要的原则。
首先,所有的计算都必须在移动设备上完成,这样一来,除了可以延长相机电池的寿命之外,还能够减少延迟性,在移动设备上执行计算也意味着,所有的拍摄片段都只会存在设备上,并不会外流,同时可以保护用户隐私,用户能够自行选择是否要存储和分享。
第二个原则是团队希望相机可以拍摄短片,而不是只有单张的照片,因为动作更能够保留当时的回忆,且拍摄短片比起照片,更容易捕捉到重要的时刻。
最后一个原则是要聚焦于捕捉人和宠物的镜头,而不是一些抽象场景的艺术照片,也就是说,Google的研究团队不会尝试着教导Clips如何调整构图、色彩平衡、光线等,而是让Clips自动聚焦于包含人和宠物有趣交互的场景。
而Google研究团队是如何训练Clips捕捉重要的拍摄时刻和场景?如同许多机器学习的训练过程,要先从训练数据集开始,首先Google研究团队创建了包含数千个视频的数据集,且该数据有多种不同的场景、性别、年龄和种族,接着,研究团队找来专业的摄影师和视频的剪辑专家,手动挑选出短片中最好的片段,这些挑选过的片段能够让算法仿真。
不过,要训练算法学习主观的判断是非常有挑战性的,需要有合适的量化指标让算法了解内容的品质,像是从完美到最糟的。为了解决这个问题,研究团队收集了第二个数据集,为了要为整段视频创造出连续的品质分数,团队将视频分成多个片段,随机挑选两个片段,让摄影专家选出较好的片段。
研究团队不让专家直接对视频评分,而是通过成对的对比方法,因为二选一的方式,比直接给给一个品质评分,更为直观、简单,专家用成对对比方式的挑选结果也较为一致,能够让研究团队计算视频品质分数,Google从超过1,000支视频中,收集了超过5千万对的片段,来让人类专家评分。
完成数据集后,就进入训练模型的阶段,要训练神经网络模型评估相机拍摄每张照片的品质,首先先假设系统了解场景内的主角,像是人、狗、树等,如果假设正确,就能利用识别照片内容来预测品质分数。
为了能够识别训练数据集中照片的物体,研究团队利用Google照片和图片搜索服务背后的机器学习技术,该技术可识别超过27,000种不同的物体、概念和动作的标签,由专家挑选出大约数百种需要的标签,来设计识别模型。
为了让识别模型可以在设备上预测任何照片的品质,Google研究团队训练了计算机视觉模型MobileNet照片内容模型(Image Content Model),来模仿以服务器预测的模型,该压缩的模型可以从照片中识别出最多有趣的元素,将不相关的内容排除。
最后一个步骤即是从输入照片的内容,预测品质分数,除了用训练数据集来确保预测的准确度之外,研究团队还为已知的有趣场景调整品质分数的权重,像是重复出现的脸部、微笑和宠物、拥抱、亲吻和跳舞等。
有了预测有趣场景的模型后,相机就能根据预测结果,即时决定要捕捉哪些画面,大多数的机器学习模式都是用来辨认照片中的物体,但是,Google Clips要辨认的目标更为模糊且主观,因此需要结合客观和意义的内容,来让专家创建主观的AI预测模型,此外,Clips的运行模式并非全自动,而是需要与人类一同合作,为了拍摄到更好的结果,需要由人确保相机镜头聚焦于有趣的场景。