智东西(公众号:zhidxcom)
编 | 年年

导语:人工智能技术的发展促进了中国数据标注行业的繁荣,中国逐渐成为世界数据标注的中心。路透社深入中国河南平顶山,探访人工智能发展催生出的中国数据标注产业。

智东西7月1日消息,中国的数据标注行业随着人工智能技术的发展呈现出一派繁荣的景象,许多年轻人投身其中。

数据标注行业的发展也带动了中国农村和小城镇的就业,在这个过程中中国逐渐成为了世界数据标注的中心。

路透社深入探访中国河南省郏县,通过探访千机、倍赛等数据标注公司为中国乡镇带来的新变化。

一、中国数据标注行业的崛起与繁荣

平顶山,中国河南省中部的一个小城,夹杂着鸡鸣狗吠,村民们聚集到一条土路旁用自己的面部照片交换着壶、盆、水杯等物品。

在队伍的最前方,一位妇女正站在一个用塑料软带绑在三脚架上的相机前。她拿了一张切掉了眼睛和鼻子的头部照片放在自己的脸上,并慢慢地左右旋转。

起底河南乡镇AI数据标注产业:全村参与,用面部数据换日用品

▲2019年3月20日,中国河南省郏县,村民们排队等待参加千机科技的面部数据收集,这些数据将被用于人工智能和机器学习(路透社/Cate cadell)

村民们拿着数字号牌等着轮到自己,他们中的一些人已经是第三、第四次做这份工作了。

这个项目正在收集用来训练人工智能软件的人脸数据,通过训练能够使人工智能软件分辨人类真实面部表情和照片。

起底河南乡镇AI数据标注产业:全村参与,用面部数据换日用品

▲2019年3月20日,中国河南省郏县,千机数据有限公司CEO刘洋锋拍摄于公司(路透社/Irene Wang)

据千机数据有限公司CEO刘洋锋说,公司最大的项目有数万人参加,基本都是附近地区的村民。该公司在平顶山附近的城市开展项目,为中国最大的几个科技公司收集并标注数据。

刘洋锋拒绝透露他的客户,但他说公司正在创建更多数据集以服务更多AI算法公司,这个项目也在服务于中国的人工智能发展。

用于训练人工智能算法的数据需求的激增正在催生一个新的全球性产业,这个产业收集照片和视频等信息并进行标注以告诉机器他们所看到的内容。

这些数据标注公司包括像亚马逊MTurk这样的众包平台,其模式是通过付给参与者微薄的报酬来让他们完成简单的任务,还包括印度的Wipro公司和中国的千机数据。

美国AI研究机构Cognilytica预计,截止2018年,全球数据标注相关产业的产值将增长66%达到5亿美元,2023年产值更将翻一番。但是,一些业内人士也表示,由于大部分工作尚未披露,具体产值尚难以准确估算。

起底河南乡镇AI数据标注产业:全村参与,用面部数据换日用品

▲2019年3月20日,中国河南省郏县千机数据公司,员工在计算机屏幕上标记不同的数据,用于开发人工智能(AI)和机器学习技术(路透社/Irene Wang)

二、中国的人工智能方兴未艾

随着新兴人工智能技术产生的巨大需求,中国已经成为数据标注中心,这要归功于中国政府将人工智能技术视为下一个经济增长点。

许多公司在人工智能尤其是机器学习领域投入了大量资金,这是面部识别技术和基于数据模式的其他系统的核心。这些公司既包括阿里巴巴、腾讯、百度等科技巨头还包括一些后起之秀例如AI技术公司商汤科技和语音识别公司科大讯飞。

巨额投入带来的是中国AI产品和服务的激增,从人脸识别支付到自动监控甚至是AI合成主播。尽管有一些关于隐私方面的担忧,但中国的消费者仍是以一种新奇的和未来主义的眼光来看待这些产品和服务。

不够成熟的隐私立法和廉价的劳动力则成为了中国争夺世界AI领导者的竞争优势,河南的村民们很高兴能在镜头前通过做几个动作换来茶杯或者用几个小时换一个炉锅。

三、中国数据标注:机遇与挑战

总部位于北京的倍赛数据是中国领先的数据标注平台,其业务横跨河北、山东、山西等省份,拥有庞大的海内外客户群体。

在最近一次访问其北京办事处时,一些工作人员正在标记着昏昏欲睡的人的照片,这些照片将被一个自动驾驶项目用于识别正在路上驾驶的司机是否处于疲倦状态。其他人则在为19世纪英国的西方血统文件进行标注,标注出出生和死亡证明上的日期,姓名和性别等字段。

据倍赛数据首席执行官杜霖透露,在中国雇佣熟练的数据标注员比西方要廉价许多。普林斯顿大学的一个自动驾驶项目最初放在了亚马逊的MTurk众包平台,但是当任务逐渐复杂的时候人们开始犯错,最终倍赛数据帮助纠正了这些错误结果。他还补充道,在这个项目中一个熟练的倍赛数据的标注员能够完成三个MTurk标注员的任务。

“渐渐的他们就会发现雇佣我们进行数据标注会花费更少的费用,这样他们从项目一开始就会雇佣我们进行所有的数据标注工作,”杜霖说到。

普林斯顿大学拒绝对此做出评论。

对于数据标注从业者来说,加入中国数据产业的原因很简单。这项工作虽然很乏味,但对于那些希望回到中国小城镇和乡村的年轻人来说还是要优于其他工作的。

千机数据的数据标注员通过在人物照片、监控录像和街道图像上标记数据点,每天可以挣得100元人民币(14.50美元)。

据员工说,这项工作通常很简单,尽管一些海外内容为他们的工作提出了挑战。

起底河南乡镇AI数据标注产业:全村参与,用面部数据换日用品

▲2019年3月20日,中国河南省郏县千机数据公司,29岁的数据标注员贾亚辉正在电脑屏幕上为交通工具标注,这些数据将被用于人工智能和机器学习(路透社/Irene Wang)

“有一次我们认为我们正在对装有洗衣机的欧式炊具进行分类,”千机的标注员贾亚辉说。 “后来我们被告知它实际上是两个独立的东西,一个炉子和一个洗碗机。”

数据标注工作促进了农村地区人们的就业也为他们带来了技术红利,但当人工智能发展到一定程度能够取代数据标注员所从事的工作时,这项红利无疑是短暂的。

“我们认为这个产业在未来3-5年还会存在,这可能不是一个长期的职业,但对于现在的我们来说只能想到未来3-5年的计划,”千机数据CEO刘洋锋说。

结语:数据标注,人工智能的踏脚石

数据标注产业为中国小城镇和农村提供了大量就业机会,也为社会底层人民带来了技术红利,中国的数据标注行业正飞速发展并充满着雄心壮志,中国也逐渐成为世界数据标注的中心。

但数据标注注定只是一个暂时性的产业,一旦人工智能技术发展到足以代替人工实现自动精准识别的时候,数据标注行业也就成了明日黄花。

文章来源:路透社