硬盘厂商Seagate近日首度公开自家高达15 PB资料湖(Data Lake)平台架构,成了这家40年老字号资料存储制造商,用来克服工厂转型带来资料爆量挑战的关键。目前在Seagate全球7座智能工厂中,每天都增加50TB的资料,都已集中到该平台用于分析,来协助工厂加速发展大数据、深度学习与AI应用。甚至Seagate不只是自用,未来更要将这套分析平台通过云计算服务提供给企业来运用。
Seagate首席信息官Ravi Naik就表示:“PB级资料湖平台的推出,不只是Seagate发展智能制造多年累计重要成果,更是这家公司未来要从传统存储硬件制造商,转型智能制造服务供应商所跨出关键一步。”
为何一座硬盘工厂会有这么多资料?关键就在于,HDD硬盘生生产机制程十分复杂,单是硬盘中的资料存储盘片(recording media),就需经过9道制程工序,从玻璃及铝片装盒、清洗,到表面涂层、润滑、抛光以及多盘片写入及封装,每个制程中更包含5~6道加工步骤,每个步骤都不能容忍半点误差,皆需达到纳米精度,更要通过上百项测试,包括温度、功率、震动、噪音等,才能前往下一个工站。
HDD硬盘生生产机制程十分复杂,单是硬盘中的资料存储盘片(recording media),就需经过9道制程工序,从玻璃及铝片装盒、清洗,到表面涂层、润滑、抛光以及多盘片写入及封装,每个制程中更包含5~6道加工步骤
这还只是存储盘片生产,不包括其它硬盘组件,如磁头、马达、主控芯片等,都需要经过上百、甚至上千道繁琐的制程环节,最后再将这些零件统一送到组装工厂进行组装及测试,才完成最终成品。
过去Seagate一年就要生产约上亿颗硬盘,横跨不同尺寸的存储媒体,随着产品规模不断增长,工厂产线跟着演进,存储容量更从早期数GB、上百GB到现在数十TB,对于制造挑战也越大。
尤其,硬盘生产过程中需要高度自动化和精密测量,确保制程品质,例如芯片制程需要2,500个步骤,其中4成都是用在制程检测程序,来确保生产品质。当生产硬盘数增加,存储容量增加更快,先进纳米制程比例提高,光靠旧有生产模式,以及人工测量及检测方式,已经无法应对,需要转换为智能制造生产模式,转向不只自动化,更要智能化。
所以,Seagate从5年前决定转型,一边发展IT现代化,IT基础架构开始拥抱容器、云计算架构,AP应用也导入微服务,来加速转型智能工厂,另一方面,也从工厂改造着手,来打造智能制造产线,希望能够集成更精准智能控制、智能化测量来优化生产品质,以及提升作业效率。
Seagate发展智能制造很重要的关键技术是AI,但是AI应用的发展高度依赖大量的数据,为了取得更多数据,Seagate从2017年开始部署大量传感器到工厂中,单是一间工厂里就部署了超过4千个IoT传感器,来取得生产过程中所有关键数据,不仅如此,Seagate在每座工厂中都导入不同大小的联网机器人,来处理不同自动化生产任务,7座工厂合计就有超过3.5万台机器人,这群机器人执行任务过程中,也会即时上传相关数据,用于数据分析。
为了分析产线大量资料,Seagate导入Hadoop大数据分析平台,希望通过数据分析找出提高生产效率更好的做法,后来更进一步使用这些生产数据,来训练AI或机器学习模型,逐步发展工厂AI应用。
Seagate从2019年开始在工厂导入AI,初期先运用到预防性机台设备维护、故障分析等,来降低设备故障造成产线停摆的风险,后来扩大运用到生产环境,包括各制程的瑕疵检测等,都开始结合AI计算机视觉、机器学习来提高不良品的检出率,也通过AI优化品管作业。
Seagate两年前还打造机器学习边缘运算平台Edge RX (内部项目名称为Project Athena),并部署到工厂生产线上,来提供就近AI推论执行能力,来帮工厂更快出揪出制程的异常环节。这套平台是由容器集群管理平台Kubernetes和容器化微服务组成的集群运算系统,不仅能执行模型推论,也能直接在系统上进行AI模型训练,还能借助云计算快速扩展计算资源来加快边缘AI学习。
像是在硬盘磁头制程中的AI图片瑕疵检测,就是直接跑在这套边缘AI推论平台上,能做到每秒执行37次的推论,一天就能检测超过300万张图片照片,相较于传统需约200名作业员才能够完成相同作业,不只作业更快速,也能降低人工检测错误率。
人才更是扩大转型成果的战力,2018年开始,Seagate大举展开内部AI、数据科学人才的培育,提高员工对AI 、机器学习等关键技术的掌握度。2年内就培训了超过1,200人。
经过这些年发展,Seagate转型也取得不少成果,包括在产品良率优化,以及生产效率方面都获得不少改善,智能工厂也从原本1座,增加为7座。这两年,Seagate开始将过去在内场景转型成功经验,转变为对外部客户提供的智慧制造服务,像是应对工厂数据存储需求而发展出来的对象存储云计算服务Lyve Cloud,以及后来针对工厂边缘AI应用打造的机器学习边缘运算平台EdgeRX ,都是Seagate转型和发展智能制造的重要成果,进而转化为外部企业提供的产品或解决方案。
Seagate最新更进一步公开数据分析使用的PB级资料湖平台架构,这套资料湖平台,正是Seagate为了应对工厂转型带来爆量资料的挑战而打造的全新开放资料湖分析平台。
Seagate从2017年展开智能工厂转型计划后,资料量暴增,在此之前,这家公司10年合计资料量仅0.35PB,但到2017年展开转型之后,资料快速增加,单座工厂一年资料量就达到1.8 PB,到2022年时,更翻倍增长达到3.6 PB,这些资料有机台传感器数据、训练资料、推论资料、图片文件与视频,以及生产过程数据等等。若以7间工厂每天添加50TB的资料量来计算,一整年资料量就有约18 PB,也成了Seagate所要面对的考验。
为了解决这个难题,Seagate后来自建一个PB级资料湖分析平台,也就是Lyve Cloud Analytics,除了提供大型横向扩展的架构,来应对大量资料增长,这个人信息料湖打造的分析平台,也成了Seagate所有分析资料的主要来源。
Seagate最新更进一步公开数据分析使用的PB级资料湖平台架构,这套资料湖平台,正是Seagate为了应对工厂转型带来爆量资料的挑战而打造的全新开放资料湖分析平台。摄影/余至浩
在这个分析平台中,由平台及服务层组成,在平台层上,除了资料存储是采用Seagate自己的Lyve Cloud服务,也集成其他开源方案,像是使用Kuberetes容器管理工具,用于运算与资源调度,也采用Prometheus的监控服务,以及导入狱控资料可视化工具Grafana,用于加强安全与数据治理。
在平台之上还有服务层,Seagate集成DataOps运维、MLOps运维两大服务,其中DataOps运维服务,就是将Seagate内部的数据运维做法,集成到这个分析平台上来运用,包含资料服务、资料处理及资料提取。Seagate还把自家ML或AI团队这些年发展的MLOps实践经验,带来这个分析平台中,来简化ML模型开发到运维的生命周期管理。
在Lyve Cloud Analytics服务层中,还有一个已经预先建好的分析加速器,可以运用到三种资料分析类型,包括IoT传感器数据、图片分析、表格资料分析等。另外该平台上也有提供各种资料可视化分析工具,方便用户理解和快速运用。
Ravi Naik也表示,这套PB级资料湖分析平台是一个完整堆栈产品,涵盖资料存储、运算、DataOps与MLOps服务功能,未来不只高科技制造行业能用,更能运用在其他行业,包括医疗保健、零售、能源、媒体及娱乐产业等。
但是,Seagate目前还没提到这套平台何时推出上线,只说明未来企业能使用Lyve Cloud取得PB级资料湖分析与处理服务。但是Lyve Cloud目前只在美国、欧洲及亚洲部分国家推出,台湾尚未推出。