企业抢AI落地先机,却碰上标注师的选择困难症!怎么找才有效?

找工程师标?大材小用

AI项目起跑之初,有些公司一下子找不到人,会让工程师先帮忙标注,但不到一个月,工程师大概就会想离职,光跑模型都来不及了,怎么有空标?

而且工程师一身武艺,也不会只想做标注而已。再不久,老板也会跳脚,因为工程师很贵,用来做标注非常浪费。

众包平台或自行开发?必须三思后行

海外有些公司会利用Amazon Mturk等众包平台,这类平台的标注师来自不同国家,多为家庭主妇、学生兼职,标注师彼此认知判断不同且缺乏品管,品质较容易有落差。

此外,如何确保数据安全会是一大隐忧。若水有客户曾经用过这类的平台,最后因为熟悉平台接口耗了不少时间,而且还需要自行开发用来描点的标注工具组件而作罢,在台湾的大企业基本上不太会考虑这个选项。

也许你会想开发自己的标注平台,但从投资报酬的观点来看,不一定划算。除非标注的类型、数量从头到尾都不会改变,否则从零到一构建平台,持续开发标注工具,以及后续的平台维护及优化,一样需要投入人力和时间。

找工读生标?劳心劳力

请少数几位工读生自行标注,在项目开发初期确实是个好方法。有个创业公司圈客户,一开始也是用in house工读生标注了一阵子,但在与若水合作半年后,就不再请工读生标注。为什么?

这位创业公司的副总对我大吐苦水:原来,标注的工作毕竟重复性高,工读生常常做了一阵子就嚷嚷着要请假或是不做,公司在核心业务之外,为了管标注工读生又要加请一个主管,同时PM或工程师还要自己花很多时间检查工读生做的标注,另外还有办公室空间的问题,整个算下来人事费用偏高,根本不划算;有时碰上AI新产品开发阶段,或是突然项目变多,临时根本找不到好手支持。

或许对你而言,多花点钱请工读生标注,为了自己掌控进度一切还能忍受。但在若水的经验观察中,

这样长期下来可能会让你错过AI项目开发中最宝贵的资源:时间

选对AI数据外包服务商,优势在哪?

在监督式机器学习的领域,大量且优质的数据是AI应用成功的关键之一。当喂进模型的资料数据标注的不够精确,机器学习模型(Machine Learning Model)的学习效果就会受到影响,也就是人们常说的“Garbage in,Garbage out”,换言之,在此之前的投资都浪费掉了。

在若水有一套品质检测反馈制度,来确保客户交付的数据如期如质完成,进而带动机器学习模型的品质和成效。

每位标注师都接受过各种标注图形的训练、认证,参与项目前再针对该项目的标注特征考试,以确保标注时有精确的认知和下标动作,还有QA、QC人员分批进行品质抽测。

对许多客户来说,他们最重视若水在标注时给的原则反馈,机器学习模型需要数据训练,但需要喂什么样“特征”的数据,往往不太好定义。

之前,有位日本客户本想让公司内部的工程师和工读生去标注桥上的铁锈,一试才发现太过耗时、且无法全面检测标注品质,转而找上若水帮忙。

因为有协助过建筑业的经验,同仁们马上想到要请教建筑专家,才掌握到铁锈的物理特色,不会把桥上的光影、污渍或颜色较深的青苔,标注成铁锈,让机器误学。

加上铁锈形状太不规则,业界往往都是用“Polygon多边形描边标注”的方式来处理,若水AI数据处理顾问审慎评估后,决定以“Pixel-wise逐像素标注”进行数据标注,因为可以让机器学习所需的Training Data品质更优质、精准,进而达到AI应用快速推进。

究竟数据标注该怎么解?端看企业开发AI的速度和数量。有一个数据可以参考:我们内部算过,比起找工读生要花的招募、薪酬(含劳医保)、主管薪资、场地、设备构建等条件来估算,找到一个经验丰富、品质管理系统稳定的外包标注团队,至少可以节省20%的成本。

最后,如果你正在思考外包数据标注服务,不妨参考以下4个原则:

  1. 是否能协助精准定义标注原则?
  2. 是否有品质和品管的内控流程?
  3. 是否有及时与客户反馈的机制?
  4. 是否有可靠、稳定的安全系统?

如何处理学习数据,优化机器学习模型并截取正确的特征,让团队可以快速的产出AI,其实不是单一的执行层面议题,而是一种全面性的策略。以标注数据为例,在思考上光是“有人标就好”还不够,企业应该思考的是:

如何在完成省时、省力、省成本下,同时借由精准标注,推动AI落地。