AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

智东西(公众号:zhidxcom)
作者 | 杨畅
编辑 | 心缘

智东西8月13日报道,今天,人工智能基础数据服务公司北京海天瑞声科技股份有限公司(以下简称“海天瑞声”,股票代码:688787)以发行价36.94元/股正式登陆科创板。

海天瑞声开票涨势喜人。今日开盘价为171.66元,其股价较发行价涨幅为364.70%,随后开始回落。截至收盘时间,海天瑞声最新股价为139.48元,总市值为59.70亿元。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声股价走势

海天瑞声成立于2005年,通过执行数据集结构设计、原料数据采集、数据加工、质检四项训练数据生产工作环节,来向大型科技公司、人工智能企业及科研机构等提供用于其人工智能算法模型开发、训练所需的专业数据集。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声业务、数据和财务流程图

海天瑞声所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个人工智能领域,服务于人机交互、智能驾驶、智慧城市等多种应用场景。

其中智能语音为海天瑞声优势领域,服务/产品线已覆盖160余个主要语种及方言。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声训练数据集应用场景

报告期内,海天瑞声营收呈增长趋势营收有小幅波动,其2020年营收为2.33亿元。

本次IPO,海天瑞声计划募资7.66亿元,发行不超过1070万股,将分别用于自主研发数据产品扩建项目、一体化数据处理技术支撑平台升级项目、研发中心升级建设项目和补充流动资金四个方面。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声募资方向与使用安排

一、2020年营收超2亿,净利润逐年增长

从整体营收来看,海天瑞声存在小幅波动,2018-2020年各期营收分别为1.93亿元、2.38亿元、2.33亿元。

净利润方面,海天瑞声逐年增长,2018年、2019年和2020年净利润分别为6713万元、8159万元和8208万元。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声2018年-2020年营收及净利润变化

海天瑞声主要产品、服务均以训练数据集为核心。成品训练数据集主要由数据文档(包括数据文件和标注文件)、说明文档、技术文档三部分构成,并以软件形式向客户交付。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲以智能语音训练数据集为例,海天瑞声成品训练数据集结构

当前海天瑞声提供的训练数据主要是可满足多种场景应用需求的通用型训练数据,该公司也在探索提供覆盖更多垂直领域特征的训练数据。

按业务类型分类,海天瑞声的主营业务可分为训练数据定制服务、训练数据产品及训练数据相关的应用服务三大板块,均以海天瑞声生产的专业训练数据集为核心。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声2018年-2020年各业务类型营收占比

训练数据定制服务具体包括海天瑞声自己组织采集原料数据和客户提供原料数据两种情况,是海天瑞声占比最高的业务板块,2018-2020年均超50%,不过有逐年下降趋势。

而训练数据产品是海天瑞声根据市场需求,以及对算法技术应用前景、发展趋势的评估预判,开发出的训练数据集,开发完成后以授权方式供用户使用。这一业务领域占营收比例有上升趋势,2020年达45.48%。

训练数据相关应用服务占海天瑞声营收比例较小,包括定制开发算法模型,训练客户算法模型,开发算法模型应用落地所需用户界面、软件及系统集成等三类具体内容工作,不是海天瑞声主要的营收来源。

按产品应用领域来看,海天瑞声营收主要集中在智能语音领域,计算机视觉和自然语言领域占营收比例较小,2018年到2020年没有大幅度的增长。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声2018年-2020年各应用领域营收占比

报告期内,海天瑞声主营业务收入大部分来源于境内,2018年到2020年境内收入分别为1.33亿元、1.20亿元和1.50亿元。

海天瑞声也有一定规模的境外收入,其中以美国、韩国、日本等地区为主,并且主要来源于原有客户,而非新增客户。

其中2019年境外收入占比相对较高,主要原因是海天瑞声海外业务拓展力度加强,以及外语种业务需求相对较强,同时也存在个别大型跨国企业客户将其采购主体变更为境外主体的原因。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声2018年-2020年各地区营收情况

海天瑞声同行业可比公司、竞争对手主要包括澳大利亚企业Appen Limited、慧听科技以及标贝科技。

其中2020年Appen Limited营收为5.9938亿澳元(约合28.52亿元人民币),大约是海天瑞声的12倍(2.33亿元人民币)。

从市场地位上来看,Appen Limited成立于1996年,经营历史较长,规模、体量较大、语种/方言覆盖能力较高,相比海天瑞声更具优势。但在中国国内市场上,海天瑞声处于领先地位,降低了国内相关客户对国外同类训练数据的依赖。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声同行业可比公司、竞争对手情况

而在毛利率方面,海天瑞声2018年、2019年和2020年综合毛利率分别为64.77%、70.25%和67.70%。

海天瑞声毛利率在报告期内均高于同行业竞争对手Appen Limited。

Appen Limited收入平均超80%来源于文本相关度标注业务,而海天瑞声该业务毛利率水平仅为20%-30%,报告期内很少从事该类业务。并且人工成本方面,Appen Limited要高于海天瑞声。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声和同行业竞争对手Appen Limited的毛利率情况

二、客户超500家,包括微软阿里腾讯等多家科技巨头

海天瑞声客户累计数量已超500家,包括多家大型科技公司、人工智能企业及科研机构。

根据招股书,海天瑞声的主要客户包括微软、阿里巴巴、腾讯、三星、字节跳动、亚马逊、百度7家大型科技企业。报告期内微软、阿里巴巴、腾讯、三星一直为海天瑞声的前五大客户。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声2018年-2020年前五大客户

海天瑞声在生产训练数据过程中需要大量劳务人员提供原料数据采集、标注服务。该公司通过对接数据服务供应商的方式解决劳务服务需求,数据服务供应商主要为人力资源服务公司。

因此2018年-2020年前五大供应商主要为人力资源服务公司,其采购的内容是训练数据生产过程中的、非核心技术环节的原料数据采集、标注服务,同时海天瑞声部分支出为租赁办公用房。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声2018年-2020年前五大供应商

三、基础研发支出平均占报告期营业收入的8.36%

2018年、2019年及2020年海天瑞声研发费用分别为2734.53万元、4169.61万元及4349.75万元,呈逐年上升趋势。报告期内,该公司累计研发投入达到1.13亿元,累计研发投入占收入比重为16.96%。

海天瑞声的研发投入主要由训练数据产品开发相关支出、基础研发支出两部分构成,其中训练数据产品开发相关支出主要为开发训练数据产品对应的数据服务费及部分职工薪酬等(该部分支出未计入营业成本)。

仅从基础研发支出(主要为海天瑞声研究开发训练数据开发生产所需的算法、技术以及工具、平台等的支出)来看,2018年-2020年,海天瑞声基础研发投入也是上升趋势,分别为1469.94万元、1951.79万元和2127.07万元,累计5548.80万元,平均占报告期营业收入的8.36%。

根据招股书,海天瑞声已取得26项专利授权(其中发明专利24项、实用新型专利1项、外观设计专利1项),134项计算机软件著作权,另有2项专利正在申请之中。但有部分专利存在被无效的情况。

截至2020年12月31日,海天瑞声现有研发人员44名,占公司员工总数的比例为29.14%;技术人员59名,占比39.07%。

其中核心技术人员6名,占比3.97%,分别为唐涤飞(董事、总经理)、李科(董事、副总经理)、黄宇凯(董事、副总经理、技术总监)、郝玉峰(副总经理、技术总监、首席科学家)、曹琼(计算机视觉业务部总监)及邵志明(高级研发工程师)。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声核心技术人员基本情况及对公司研发的具体贡献

海天瑞声已掌握12项核心技术,通过算法与数据处理技术并用,可以满足AI算法在不同应用场景下的训练数据需求,可对大规模数据进行高效的加工或质检。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声各层次核心技术示意图

海天瑞声自主开发了一体化数据处理平台,融入项目流程管理、质量把控、数据安全管理,嵌入生产所需的各类工具、软件模块。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声一体化数据处理平台

截至2020年12月31日,海天瑞声拥有760余个自有知识产权的训练数据产品;截至招股书签署日,已积累下超过100个语种/方言的发音词典,累计词条数超过1000万条。

四、中国移动持股超10%,创始人贺琳为实际控制人

截至招股书签署日,海天瑞声创始人兼现任董事长贺琳直接持有海天瑞声866.97万股(占发行前总股本的27.01%),并通过控制北京中瑞安投资中心间接控制海天瑞声495.41万股(占发行前总股本的15.43%),合计占海天瑞声42.44%股份,为海天瑞声控股股东、实际控制人。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声股权结构图

根据招股书,海天瑞声一共有14名股东,其中2名为自然人股东,2名为员工持股平台,10名为其他机构股东。

其中持股比例超过5%的有7名,分别是贺琳、中瑞安(员工持股平台)、中国移动控股的中移投资、唐涤飞、清德投资、上海丰琬和中瑞立(员工持股平台)。

AI训练数据服务商海天瑞声上市!开盘涨超360%,微软阿里腾讯为大客户

▲海天瑞声股东名单

结语:训练数据是刚需,海天瑞声已实现进口替代

人工智能产品落地过程中需要用到大量的训练数据,不同阶段和不同场景下对数据的需求也存在差异,有些时候需要定制化的训练数据集。

随着越来越多人工智能应用场景的出现,对于数据的需求也不断增长,训练数据服务市场前景较为广阔。根据艾瑞咨询《2020年中国AI基础数据服务行业研究报告》,2019年中国基础数据服务行业的市场规模达到30.9亿元,预计2025年将突破100亿元。

从2019年主动撤回上市申请,到2020年其IPO再重新获受理,再到今年成功上市。海天瑞声科创板上市可以说存在一些波折,其中多次被问询的就是其核心技术和竞争力方面。

从招股书中披露的信息来看,海天瑞声在其优势领域智能语音方面发展较好,目前实现了进口替代。