人工智能“搬砖工”
一间二十几平米的房间内,几名年轻的标注员正在进行数据标注济南市章丘区香港街附近的财富大厦内一个二十几平米的房间里,七八个年轻人坐在电脑前,不断敲打点击着键盘与鼠标。他们是数据标注员,他们建筑的“大厦”叫人工智能。人工智能是当今最前沿的技术之一,英文简称AI。出乎意料的是,人工智能光彩炫目的另一端,是大量年轻人组成的“新型流水线”,从事着繁琐、机械、枯燥的数据标注工作——他们戏称自己为人工智能的“搬砖工”。实习生王远孙倩记者陈晨摄
人工智能是当今时代最前沿的科学技术之一,英文简称AI。
在大众的眼中,人工智能高深莫测:有时它化身驾驶能手,在路况复杂的城市中自动巡航;有时它变为围棋圣手,接连战胜人类的强者;有时它又成了警界神探,在明星的演唱会上,于万千歌迷中,一眼识出逃犯……但人们可能想不到的是,人工智能光彩炫目的另一端,是大量年轻人组成的“新型流水线”,从事着繁琐、机械、枯燥、重复的数据标注工作——他们戏称自己为人工智能的“搬砖工”。文/图实习生王远孙倩记者陈晨
数据是“喂”出来的
位于济南市章丘区香港街附近的财富大厦外围正在整修,一排排的脚手架耸立四周,建筑工人们来回忙碌着。在大厦内一个二十几平米的房间里,七八个年轻人坐在电脑前,不断敲打点击着键盘与鼠标,也在扮演着与外面建筑工人类似的角色。他们是数据标注员,他们建筑的“大厦”叫人工智能。
这是财富大厦内的一家数据标注公司。今年23岁的山西人马俊(化名),是这家公司的创办人之一。“和人一样,人工智能并不是一开始就什么都知道。”马俊说,“人工智能是需要人来教的。”
马俊随手指着面前的茶几举例说,就像这个茶几,和教小孩子一样,机器要认识茶几,需要不断有人教给它,让它知道这个叫做茶几。马俊说,人工智能比小孩子要难教多了。“小孩子可能只需要几个例子,就明白了什么是茶几,以后见到茶几就会认识。机器如果想认识茶几,需要成千上万张带有各种样式茶几的图片数据,都需要人工进行标注,打上茶几的标签。”此后再经过各种数据处理、算法加工,让人工智能机器经过深度学习后,最终才能认识茶几,“并且,人工智能还需要反复学习,如果出现新型的茶几,而不加以标注,当下的人工智能可能还是不认识。”
数据越多,机器越智能,马俊说,“AI是大量的数据‘喂’出来的”,给AI加工数据“食物”的人,就是数据标注员,“他们也可以说是人工智能的启蒙老师。”
背后的人工作业
目前,马俊和他的团队正在做一个语音标注的项目。“很简单,就是有很多视频和音频,标注员听着语音,然后把听到的转成文字。”马俊说,目前很多移动软件带有语音转文字的功能,这也是人工智能的一种,“前期工作就是语音标注。”
马俊介绍,数据标注领域包括标注图片、文本信息、语音、视频等,其中图片是目前需求量最大的一块。
在离马俊所在公司200多公里外的济宁市任城区,有多家主做图片类数据标注的小型公司,其中一家正在做无人驾驶汽车的道路数据标注,刘洋(化名)是这家公司的负责人。
“除了建筑楼房不需要标注,正常开车在路上看到的东西,都要标注出来。”刘洋说,包括十字路口、高架桥、隧道、栏杆、垃圾桶,还有行人、车辆、红绿灯、指示标志、禁止标志等都要标注出来,“我们行内人管这种图片标注叫画框,就是把图片上的物体用鼠标拉一个方框。”
据刘洋介绍,他们标注的图片都是科技巨头公司派出数据采集车,在城市里不断拍摄得来的,“图片场景类似于地图搜索里的全景地图。”“济宁城区做无人驾驶图片标注的还有两三家。”刘洋说,他还有一个朋友在做人脸识别的标注,“那是一种描点标注,需要在眉毛、眼睛、鼻子、耳朵、嘴巴等关键点描上标记点。”
流水线重复“搬砖”
据了解,数据标注员并不需要了解人工智能算法等高深的知识,很多数据标注公司的招聘公告中只是要求“高中以上学历,熟悉电脑基本操作”即可。“除了那些特别专业的,像医药、外语等等,数据标注行业总体门槛不高。”刘洋说。
“说白了,我们就是数据‘搬砖工’。”刘洋也承认,数据标注是个非常枯燥而又考验人耐力的工作,并且相比较AI所代表的高科技,标注并没有多少技术含量,更像在工厂流水线重复作业,“每天坐在电脑前,频繁地点击鼠标在电脑屏幕上拉框,每个人每天平均画3000-4000个框。”据了解,目前从事数据标注行业的,以职业学校毕业的年轻人居多。马俊表示,“我们公司都是20岁出头的年轻人,一般经过几天的培训,很快就能上手。”
小胡今年21岁,毕业于章丘一家职业中专学校,来马俊的公司上班不足两个月。“现在每天的工作就是打开电脑,戴上耳机,听着视频里的语音,用键盘把字打出来。”小胡说,自己一个月工资2000多元,这个工资在他的同学中处于中游水平。马俊表示,他们员工的工资平均在3000元左右。
小胡的同事小朝点开了一个游戏场景的视频,听到视频里说:“就点个双击,晚上给你们发教材。”这句话是什么意思,小朝并不明白,“我听到什么,就打出字来标注上。”小朝说,“只要视频里是普通话,能听清的,都要标注出来,如果是方言,即使能听懂,也不用标注。”据马俊猜测,他们目前做的项目可能是为短视频智能分类服务的。
过渡性的行业?
马俊说,年初公司刚成立时的老员工,目前就剩下一个了。“这个行业从业人员的流动性很大,很多人受不了工作的枯燥,就离职了。”刘洋说,“对于我们这样的小城市,3000多元的工资不少了。”他表示,业务熟练了以后,员工平均工资在3500元以上。
刘洋是位95后,今年22岁,从一所专科学校毕业后,一直从事销售工作。后来,他在一家数据标注公司工作了一段时间,今年七月份创办了一家数据标注公司,名义上是一家大型标注公司的子公司。“我基本上没投入什么本钱,房子是自己的,只是买了一些电脑和桌椅。”刘洋介绍说,几万块钱的启动资金,就可以在一个地级市成立一家数据标注的“工作室”,业内人士称之为“小作坊”。“我们目前这个项目很稳定,每个月都会收款。”具体数额刘洋并不想透露。
据刘洋介绍,人工智能兴起后,数据标注成为独立的行业。开始只在大城市有,都是人工智能的工程师们在做,随着人工智能对数据需求呈现指数级增长,数据标注变成了劳动密集型行业,更偏向地价、人力更便宜的中小城市。目前的数据标注工作主要是集中在河北、河南、山东、山西、贵州等劳动力密集的地区。“一家国内科技巨头的数据基地在山西,我们的上游公司也在山西。”刘洋说。
一家曾在章丘开办的数据标注公司,目前已把业务转移到了烟台,其公司相关负责人表示,“搬迁主要考虑烟台这边各方面成本更低。”“数据标注公司也没有集中性,不管在哪个城市,只要想做就能做。”刘洋说,随着人工智能的发展,也许以后的数据标注门槛会越来越高,机器学习能力越来越强,代替了人工,“但未来5到10年的生存期是没有问题的。”
新闻推荐
12月10日,住房和城乡建设部网站公示了第五批中国传统村落名录,全国共2646个村落进入公示,济南市柳埠街道石匣村、章丘区...
章丘新闻,讲述家乡的故事。有观点、有态度,接地气的实时新闻,传播章丘市正能量。看家乡事,品故乡情。家的声音,天涯咫尺。