焦点> 今日国内> 正文

通过框选、做记号、标注图片,训练机器更好地学习 人工智能背后的“人工”:我给AI当老师

安徽工人日报 2020-07-24 04:18 大字

阅读提示

数据是人工智能技术的基石,市场上对数据的大量需求也催生出数据标注员这个新工种,也为农民工们带来了新的就业机会。作为人工智能背后的第一道工序,标注员们需要更多的耐心、细心,让机器能更好地学习,为人类服务。

25岁的王森(化名)坐在电脑前,给屏幕上的一幅街景勾画上线框,框选出图片中的公路、车辆、行人等,分别打上标签。在他身边的同事们和他一样点击着鼠标、敲打着键盘,标注着一幅又一幅类别不同的图片……

如今,人工智能越来越在各个领域大显身手,渗透到人们的生活中,尤其在疫情期间,无论是帮助医护人员远程问诊、测温送药的智能机器人,还是在群防群控、寻找密切接触者方面都发挥了重要作用。而数据标注员“王森”们,则是人工智能背后的“人工”,他们又是如何生产着大量可供计算机深度学习的训练数据,从而推动人工智能深度学习的呢?

把200根栏杆框选并标注出来

数据标注指通过贴标签、做记号、标颜色、划重点的方式,标注出数据的不同点、相似点或类别,为机器提供训练和学习资料的过程。例如,在人工智能技术应用中,给人脸的图像数据划出“眉毛”“鼻子”等同区域,机器通过数据标注物体的一些特征,才能认识和学习这个物体。

老家在山东淄博的王森“转行”时间并不长。今年3月,受疫情影响,他所在的医药胶囊工厂一直无法复工,经朋友介绍,他来到玛达科技公司做数据标注工作。

正式入职后,王森经过7天的培训,系统学习了操作规则、标注内容、标注工具等知识,算是“入门”了。

“我的任务是一天标注25张图,如今我能完成30张,多出来的工作量算是业绩。”王森告诉记者,他负责标注汽车类别,图片上有公路、高架桥、车辆、行人等元素,他需要将折线内容框选出来,分好图层,打上标签,等技术提高后,就可以标注更复杂的图片。

“要成为一名优秀的标注员,最重要的是细心且有耐心。”王森说,刚入职时,他曾被一张天桥图片难住了,标注完上交给质检员,却一遍遍被退回。原来他只对天桥上的栏杆做了一个整体标注,但要求需要把近200根栏杆一根根地框选并标注出来。

“把栏杆一根根标注出来,AI系统识别精准度会更高,大大降低了错误率。” 王森介绍,如果标注不清晰或是有错误,AI系统是无法识别的,这也是要求标注员一定要细心细心再细心的原因。

这个工作很有意义

在不少人看来,数据标注就是一个劳动密集型产业。但从工厂出来“转行”成功的王森却不这样认为:“工作环境好了,而且有上升空间,可以朝着目标一点一点努力成长。”

在成为标注员之前,王森当过餐厅服务员、工地后勤人员、美团外卖骑手,也在工厂做过流水线工人。在一医药胶囊工厂车间当流水线生产员时,他负责机器设备运行记录、胶囊生产记录、补充与更换生产原料等,常常要上夜班。“不仅影响生活,身体也吃不消。”王森表示,数据标注员的工作时间比较规律,工作环境也更舒适。

“月收入到手大概4000元,完成固定任务后多劳多得。”在王森看来,与过去不同的是,如今的他能看到自己的上升空间,也有了努力的目标:成为质检员、组长、项目经理……

和王森一样出生于1987年的赵菁(化名)也是一名标注员,初中毕业后,学会操作缝纫机的她进了服装厂。流水线分工明确,她负责给牛仔裤锁边、上拉链,一直重复着几个动作。

“流水线工作内容比较枯燥,容易被取代。”赵菁说,工作半年多来,她已从最初不知道标注员是什么,到如今能在日常生活中随处看到自己工作的痕迹。网购时打开拍一拍就能搜索相应商品、购物时刷脸支付、无人驾驶汽车的探索……这些人工智能的背后,都离不开标注员将原始数据变为标签化数据,提供给AI学习。

“这个工作很有意义,目前我要做的是提升技术,挑战更高难度,未来如果有机会还能试着竞聘质检员或组长。”赵菁笑着说。

新职业带来新的就业机会

今年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录,其中数据标注员为主要工种之一。7月3日,中国信通院发布《中国数字经济发展白皮书(2020年)》,报告显示,当前数据标注行业需求极大、入场门槛低,整个市场大大小小共上千家企业和作坊,却依然无法满足产业需求。作为新技术需求发展的新业务形态,数据标注岗位对原有就业没有替代效应,而入职门槛相对较低、需求数量众多,则带动了大量农村和小城镇的就业机会。据了解,目前数据标注岗位主要集中在人力成本低的地区,如山西、河南、河北、内蒙古等地,形成了若干数据标注村,而数据标注具有多层次分级的特点,则能有效解决大中专毕业生、过剩产能职工、农村剩余劳动力等特殊群体的就业问题。

“数据标注体现的是人与机器协同。”玛达科技公司CEO任树亮告诉记者,这相当于人在训练机器,帮助机器提升深度学习,进而能够取代一些简单重复性的工作。如今能被建模量化的数据只占真实世界中的极少一部分,而整个社会存量的标注数据较少,并且超过 46%的数据标注订单得不到满足,市场长期处于供不应求的状态。现有的数据标注业务主要集中在计算机视觉、自然语言理解、安防、自动驾驶等领域,未来,随着数字经济赋能更多垂直行业,新需求将不断出现。

“目前,人工智能发展还处于初期阶段,随着人工智能在不同行业应用越来越广泛深入,对数据标注员的专业素质、技能要求也会有所提升。”任树亮说。

新闻推荐

加强公共卫生体系建设国务院办公厅印发《深化医药卫生体制改革2020年下半年重点工作任务》

【新华社北京7月23日电】国务院办公厅日前印发《深化医药卫生体制改革2020年下半年重点工作任务》(以下简称《任务》)。《...

 
相关推荐