Google在跨平台人工智能工作管线框架MediaPipe,推出采用最新技术的身体姿势关注功能BlazePose,能够在手机上即时精确地定位身体姿势关键点,可广泛用于运动应用程序上,侦测健身或是瑜伽等姿势。
Google提到,测量视频中人物的姿势,对于瑜伽、舞蹈和健身等应用程序,是非常重要的能力,但要关注这些运动的姿势有其困难度,像是瑜伽就有数百种体位法,动作自由度皆不同,而且经常有屏蔽的情况发生,也就是身体或其他物体挡住摄影机拍摄四肢。
现在用于关注姿势的标准模型是以COCO拓朴结构作为基础,但主要还是必须依赖台式机强大的运算能力,而Google现在发布的人体姿势传感方法BlazePose,是利用机器学习推测人体33个2D特征点,在单个影格标记人体姿势,除了比COCO拓朴结构更精确之外,BlazePose可以利用移动设备的CPU进行即时推测,运用GPU甚至可以达到超即时性能,除了姿势之外,还能同时关注脸部表情和手部姿势。
COCO拓扑可标记出躯干、四肢和脸部17个特征点,但是这些点最多仅能定位出脚踝和手腕,缺乏手和脚的大小和朝向等信息,因此使得在健身或是舞蹈等应用程序功能受到限制,Google提到,能够提供越多特征点,运动应用程序也就能够提供更多关键功能,而BlazePose可以提供33个人体特征点的拓朴,比COCO拓朴还要多了16个,BlazePose是COCO、BlazeFace和BlazePalm拓朴的超集合,因此开发者能够从运用表情、手部和身体姿势,决定一致的身体语义。
要能够即时完成包含姿势侦测和关注模型的工作管线运算,每个组件执行的速度必须非常快,每影格只有几毫秒的处理时间。且为了要关注瑜伽大关节角度的动作,Google采用了特殊的维特鲁威人方法,通过连接臀部和肩膀的中点,算出人物的中心、旋转和尺寸,可以关注非常复杂的瑜伽姿势。
Google展示了BlazePose的应用场景,包括深蹲以及伏地挺身,该应用可以自动统计用户资料,验证技术和训练品质。目前Google发布了可在Android、iOS和Python上执行的MediaPipe BlazePose,而Google之后也会在即将发布的新版机器学习开发组件ML Kit中,提供姿势侦测API,供更广泛的移动设备开发社群使用。