7月6日下午,搜狐科技主办的《中国创新公司100》沙龙第二期成功举办。清华大学人工智能研究院听觉智能研究中心主任郑方教授、声智科技联合创始人&首席知识官常乐、科大讯飞AI研究院副院长陈志刚,共同探讨了智能语音技术的发展趋势,并分享了对智能语音商业化的思考。
《中国创新公司100》是搜狐科技今年重磅打造的一档栏目,主要聚焦5G、AI、芯片、制造、出行、零售、社交等领域内的技术创新和商业模式创新,对相关行业以及优质创新公司进行深度价值挖掘。
目前,处于第三波浪潮的AI正在迎来加速发展,AI技术不断突破,进入应用规模爆发的临界点。智能语音作为人工智能领域发展最为成熟的技术之一,在最近几年迎来快速应用,搜狐科技此前已针对该领域推出人工智能行业首个榜单。后续,还将围绕计算机视觉、机器人等领域推出系列榜单和深度报道。
在本期沙龙上,郑方教授认为,要重视语音技术,也要重视对市场需求的分析。而单一技术已经很难解决市场问题,融合发展是大势所趋,但不能为了融合而融合。他还呼吁,技术和市场要形成良好互动,智能语音行业要避免恶性竞争。
常乐表示,智能语音赛道在经过大浪淘沙之后,将呈现几何倍数的发展态势。在智能语音未来应用前景上,2B领域会走得比C端更加超前,也有更广阔的市场空间,而好的市场应用前景也可以引导和倒逼新一轮的技术创新。
陈志刚在分享中提到,目前智能语音技术在算法和数据上亟需突破,联合建模是最好的方式。在激烈的市场竞争当中,企业要选择合适的赛道,做出差异化,同时要具备核心技术的产品创新思维模式。
▲清华大学人工智能研究院听觉智能研究中心主任郑方教授(左)、声智科技联合创始人&首席知识官常乐(右)现场参与沙龙
数据和算法需突破,不能为融合而融合
目前不少观点认为,人工智能处于深水区,按照Gartner技术曲线来看,也就是所谓的泡沫幻灭期。郑方认为,目前语音相对已经成熟的领域存在同质化比较严重的问题,技术上是方法同质化,这也导致了市场的恶性竞争。
“我们有时候过多跟踪别人的技术,而疏于做深度分析,比如现在流行的深度学习用的是别人已经成熟的方法,很少针对问题的需求找出合适自身的手段来解决。”他解释到。
从技术发展的要素来看,数据、算力、算法是人工智能快速发展离不开的三个基本要素。陈志刚认为,目前智能语音在数据和算法上还需要突破。数据在很多场景下面会受到各种各样的限制,特殊场景下使用频度不高,一些专业场景下数据本身就比较稀缺。
在算法方面,陈志刚提到,目前还有一些难啃的骨头,比如前端的声学降噪算法、前端声学信号处理算法、麦克风阵列算法等,这些算法的突破都是解决当前比较困难的语音问题的必由之路。
目前,很多观点都认为,单一技术已经无法支撑人工智能企业在市场竞争中取胜,多模态融合发展已经成为趋势。
郑方表示,需要重视技术,但不能过于依赖技术。“技术的发展离不开市场的土壤,市场需要的是解决问题的能力和方案,而用单一技术解决有很大的难度,这也是一些AI公司面临困境的重要原因。”
同时他强调,市场真正需要的是解决这些问题的综合方案,应该利用它的特点找到一些不同的技术来融合,这个融合应该是解决问题的融合,是面向服务对象、面向用户的融合,不能为融合而融合。
常乐认为,语音、图像、大数据等技术可以有效融合,但前提是为了解决市场需求和用户需求。“对我们做技术的人来说,绝对不是说要通过研发技术实现自嗨,而是希望技术可以切实解决所有用户真实的痛点需求。”
不过,目前在智能语音发展过程中,还有很多问题需要解决。常乐表示,理论方面还需要很多突破,如对耳蜗的研究还不够深入;技术和市场应用创新也都是瓶颈,但二者是相辅相成螺旋上升的过程,好的市场应用前景可以引导和倒逼新一轮的技术创新。
陈志刚则分享了技术融合的策略。他认为,在语音基础上面,自然语言理解、视觉、知识的构建、推理技术,以及跨模态信号的联合建模和感知、认知融合的策略,不是一昧简单的技术组合。
他表示,在这个过程中,要清楚了解每个技术的水平,看到哪些技术在某个层面有融合的价值,选择合适的应用场景,对这个场景进行深入分析之后再定义问题,联合建模的方式也许是最好的场景解决方案。
语音赛道将大浪淘沙,应避免恶性竞争
人工智能作为一种技术或工具,只有真正落地到实际场景才能发挥自身的价值,而这也离不开技术产品化、产品市场化的过程。在这个过程中,很多智能语音企业不断尝试转型,比如通过做AI芯片、操作系统等往上游延伸,或者直接通过做智能硬件的方式向下游渗透等。
对此,郑方表示,企业一定要做自己擅长的,根据一些战略需求或市场需求,做主动转型是必须的,而有些企业转型是在资本的压力下做出的被动转型,是不可取的。
陈志刚认为,这是一定程度上必然的趋势,可以促进产业之间加速发展,特别是在当前国际形势下面,加大自主研发投入,避免被卡脖子。
常乐则表示,现在智能语音赛道已经进入到泡沫期,经过大浪淘沙之后,将呈现几何倍数发展的态势,留下市场需要的新技术、新应用。“在这样大的市场环境下,企业去做不同领域的探索是一件非常好的事情,即使可能面临瓶颈,但背后蕴含着巨大的机遇。”
在商业模式方面,人工智能领域目前基本形成卖技术、卖产品、卖服务、卖解决方案的四大路线。郑方认为,商业模式的好坏取决于三个因素,一是市场需求,能否抓住痛点和痒点;二是技术的成熟度和领先性;三是行业的竞争程度。
陈志刚表示,适合公司发展的就是好的模式,每个公司在不同发展阶段会有一个适合自己的商业模式或者组合。他提到,目前来看,国内很多优质的AI产品或者解决方案或者技术提供商更容易打动客户,真正懂行业懂用户的企业,能够研发出来一些技术或者产品。
在具体的落地路径上,常乐认为,企业在落地C端时,不应该关心用户到底有没有感知到这个技术多么领先,而是更应聚焦在产品本身能带来什么样的价值。她还表示,2 B市场孕育着2C看不到的价值,智能语音会在2B领域走得会比C端更超前,也会有更大的市场应用空间。
▲科大讯飞AI研究院副院长陈志刚通过线上参与沙龙
陈志刚认为,目前智能语音还未能在医疗、工业等行业规模应用的原因在于这些领域在数据积累、行业基础,包括信息化水平等相对滞后;另一方面技术也许还没有达到非常好用的状态,这需要一个迭代优化的过程,这个过程根据每个行业的应用特点,从几个月到几年都有可能。
三位嘉宾最后还分享了对智能语音行业竞争的看法,这其中互联网科技巨头是不可忽视的存在。郑方表示,巨头在资金、人才,以及数据、算法、算力上都有很多优势,但并不是意味着小企业就没有发展空间,把方向投对,把力量用对,就能够在竞争中处于有利地位。他还呼吁,智能语音在中国现阶段还是一个相对小众的行业,要想做好做大,需要从一开始就避免恶性竞争。
常乐认为,智能语音市场处于刚刚兴起,正朝着繁荣的阶段发展,未来市场空间的容量足够大,可以容下很多企业,包括头部大企业,也包括小而美的创业型公司,但创业型公司要能在这个赛道当中找到准确的定位。
陈志刚表示,在激烈的市场竞争下,企业要选择合适的赛道,同时要具备核心技术的产品创新思维模式。对于已经比较成熟的赛道,企业要么选择加入科技巨头生态,要么是做自己的核心技术以及产品创新,但相对来难度较高,需要有一定的颠覆性和开创性,同时要有一定的技术壁垒。