研究人员以强化学习破解reCaptcha v3

三名研究人员Ismail Akrout、Amal Feriani及Mohamed Akrout近日发布一研究论文,指出他们已成功利用强化学习(Reinforcement Learning,RL)破解了Google用来区分是人还是机器人的reCAPTCHA v3。

reCAPTCHA是个可自动化识别机器与人类的图灵测试系统,第一个版本(reCAPTCHA v1)是借由要求用户输入扭曲的文本进行识别,但已被研究人员以基于机器学习技术的系统所破解,由机器人曚混过关的比例可高达98%;reCAPTCHA v2则是进一步加入图片与声音的识别,也被基于深度学习(Deep Learning,DL)的unCAPTCHA所破解。

这次研究人员则采用了强化学习技术来击败reCAPTCHA v3。reCAPTCHA v3利用一个0到10分的评分系统,来判断网站的访客是人还是机器人,愈趋近于0分就愈像机器人,愈靠近10分就愈可能是人类。

研究人员通过强化学习公式来破解reCAPTCHA v3:首先提出一个看似合理的问题形式,作为可被先进RL算法解决的马可夫决策过程(Markov Decision Process,MDP),之后导入一个新环境与reCAPTCHA v3进行交互,再借由分析RL代理人所学到或失败的教训,来破解reCAPTCHA v3。

实验显示该RL代理人通过reCAPTCHA v3测试的比例高达97.4%,而这也是第一个利用强化学习来击败reCAPTCHA v3的研究。

研究人员还发现,当使用连接Google帐号的浏览器来执行reCAPTCHA v3测试时,所得的分数会高于未连接Google帐号的浏览器,再加上reCAPTCHA v3侦测了用户在网页上的行为,有侵犯用户隐私之嫌。

根据Built With的统计,现阶段全球约有66万个网站使用reCAPTCHA v3,若计算所有的版本,已有450万个网站使用reCAPTCHA,在最受欢迎的前1万个网站中,就有25%使用reCAPTCHA。