“从300mm的芯片片上,找出约6纳米的瑕疵,就像是从台湾南到北394公里长的距离中,找出一只蚂蚁,这就是我们要处理的问题,而且还要在相当短的时间内找出来。”台积电智能应用集成处副处长沈文冰,一句话点出芯片厂的超级挑战。
这正是台积智能制造为何必须高度自动化的原因,就像台积经常处理的瑕疵检测问题,不只是人眼看不到,甚至有时只是几颗原子之间的差异而已,得通过非常精密的设备才能测量。
2011年,AI技术开始进入芯片制造,这是台积智能化元年,2013年更开始大力发展机器学习平台,在台积待了十多年的沈文冰,在2015年时加入了台积大数据分析团队,专心投入AI,也一路见证了台积从大数据,智能制造到全面智能化的发展历程。
在台积,大数据和AI处理的资料量级都是海量资料,光在2021年生产了破千万片的12寸芯片,都靠全自动产线生产。每个厂区多达数千台设备,天天都会产生庞大资料量。不只量大、类型多样,资料增长速度也飞快,从芯片制造开始导入AI的那一年,也就是2011年为基数,至今资料量增长超过数百倍,而且持续暴增中。为了监测生产过程的状态,生产设备设置大量传感器,每秒资料量相当惊人,为了分析庞大流媒体数据,台积在边缘运算部署了很多AI应用。像芯片片瑕疵检测问题,会先用光学高速扫描百万张图片,找出上千个怀疑可能出问题的区域,再用高倍电子显微镜放大来比对,整个过程还要在很短时间内完成,得靠AI协助才做得到。
精密制造中有很多要解决未知的挑战,需要借重可学习的AI,不断用资料训练模型来改善。例如瑕疵图片识别课题的新挑战是,要找出过去没看过,但可能会发生问题的瑕疵。
不只生产过程,AI在制造前也能扮演关键
AI对台积的价值不只是在制造过程的辅助,甚至是在制造之前就能扮演重要角色。
沈文冰指出,芯片生产周期长达3到6个月,不能等到生产过程中发现问题,再回头修正,要在设计资料进来之初,快速检验,找出可能出错的地方,事先调整。可是,“很多芯片设计都是全新、没有看过的设计,如何判断与调整,得靠能不断创造、学习的AI。”
甚至,不只是在设计资料提供之初,就想办法找出日后可能发生问题的设计,台积电进一步还想要解决的挑战是,能不能用运用AI事前分析设计资料,从生产角度告诉芯片设计者,有哪些可以避开的芯片不良设计,来让芯片性能更好,这不只对台积有帮助,也能有利于芯片设计者的双赢做法。
台积电智能应用集成处副处长沈文冰表示:“台积将AI框架运维化,运维AI从开发环境开始,在开发的前段就要引导用户,将后续运维所需要的模块一起构建完成。”图片来源/台湾集成电路制造股份有限公司
台积AI的3大类挑战
综观几年台积AI的发展,沈文冰表示,台积全面智能化的挑战,包括了资料处理与智识萃取、Scaling (AI服务平台化、产品化,来扩大应用规模和广度) 和AI应用的全球运维与安全。
资料是AI永远的课题,但是对台积电而言,真正的挑战不是大数据,而是小资料(Small Data),甚至是没有资料的课题。以瑕疵检测来说,台积电良率非常高,虽然可以从产线设备可以搜集到海量资料,但是绝大部分的资料都是正常运行的资料,也就是对AI训练来说的好资料,但训练模型需要找出造成瑕疵问题的不良资料,比例少于万分之几。要如何找出可用的资料,也是台积AI的重要课题之一。
小资料课题还有另一种场景,因为台积电的资料产生速度非常快,甚至最后能保留的资料受限于存储空间的大小。等到要进行分析时,常常会发现,产线可以产生需要的资料,但因为存储空间不足,这些资料没有存储下来。如何解决这样的问题,就得思考如何对原始资料进行资料处理和智识萃取,这也是台积AI现在的重要课题,目前台积电也采用了一些做法,例如资料压缩,资料事前过滤、特征抽取、创建特征数据库等手法来应对。
第二大类挑战是扩张(Scaling)课题,也就是如何解决AI应用广度和规模越来越大的挑战。台积不断扩张,不只厂区或设备的扩张,AI应用规模和范围也不断扩大,越来越多来自用户的分析需求,怎么解决?
台积的做法是将AI服务平台化和产品化,来降低终端用户的AI使用门槛,让特定使用场景的AI需求,可以由用户自助式进行。例如创建一套工作流程,让不是那么熟谙AI技术的用户,也能通过互动式的引导,从资料抓取,到机器学习模型的训练步骤,一步一步完成,来完成他的分析需求。甚至,台积也开始利用生成式模型,来帮助用户创造出自己需要的模型,类似像是用AI来产生AI的概念。这些都是台积为了扩大AI应用规模的对策。
除了资料和扩张问题之外,还有一类更务实的AI挑战,就是AI应用的全球运维和安全课题,也就是Operational AI的挑战。很多AI模型在实验室环境中可以正常运行,但部署到正式上线的环境后,却出现了不少问题,知名国际调查机构曾经做过统计,高达8成的AI项目,无法完成原本设置的业务目标。
从整体角度来看,“做出ML模型,只是ML运维蓝图中的小部分,资料问题,模型飘移,安全问题都是Operational AI要处理的课题。”沈文冰强调。从整套ML运维蓝图来看,数据科学家训练出模型,只是完成了其中的关键核心,但是,这些模型进入正式上线环境后,资料如何持续搜集,如何验证资料,确保资料品质,如何持续进行特征抽取,后续如何持续重新训练,如何发布和部署成AI服务,如何监控服务运行的状态,遇到模型飘移时,如何不靠数据科学家也能处理等等,这些都是实际ML运维时都要处理的范围。
所以,沈文冰表示:“台积将AI框架运维化,运维AI从开发环境开始,在开发的前段就要引导用户,将后续运维所需要的模块一起构建完成。”
台积运用开源技术,自行打了一套内部AI开发平台,提供很多即插即用的组件,可以弹性地将算法嵌入到这个平台中,要求最后输出的产品要以Docker容器兼容方式来封装。这个平台也将台积自己开发的组件服务化,变成内部数据科学家可用的AI共享服务。
机器学习模型用Docker容器封装还带来另一个好处,台积可以集中在台湾训练模型后,再发布到全球各地的数据中心内部环境中部署。
“AI是需要保护的资产,所以台积选择自己构建需要的平台,在自己内部的环境中执行。”沈文冰强调。
训练AI模型时,也是一种程序代码撰写过程,所以,台积AI开发流程,也比照软件开发流程,引进了现代化IT的CI/CD流程,甚至多了一个阶段称为持续训练(Continious Training,简称CT),在这个CI/CD/CT流程中,每一段都会加上传统软件开发的安全,再加上AI模型的安全考量。例如除了程序代码弱点扫描,也会扫描AI模型弱点,
台积还会研究各种模型攻击手法和攻击场景来预先防范,像是要避免AI模型的机密遭窃,或是防范模型遭攻击而偏移了原有设计目的等高端AI议题。
从小资料,扩张需求到AI运维的挑战,台积这几年现代化IT成果,让台积AI能够更上一层楼,挑战更困难的课题,这正是台积IT转型的重要影响。
相关报道