[智东西· 硬创先锋,专注于全球智能行业创业公司报道。针对海外智能行业创业公司,我们将推出系列报道,本期主角是Reflekt,一家提供增强现实工业解决方案的AR平台。]
智东西(公众号:zhidxcom)
文|十四
导语:
语音识别,是未来人机交互的关键,这似乎已成为一种共识。去年,美国加州山景城成立了一家智能语音识别、搜索初创公司——DeepGram。目前已经拿下了孵化公司Y Combinator(YC)和Zillionize的种子轮投资。这两家孵化器的眼光有多毒辣,就不赘述了。看看业界的这个说法就知道了:在硅谷,有两种孵化器,一种叫YC,一种叫其他。
DeepGram聚焦在一个前景巨大的产业
DeepGram被形容为音频版的谷歌,因为它提供基于网页的智能语音检索API,能分辨口误、口音、俗语等问题,为用户提供需要的信息。DeepGram的搜索范畴包括通话、会议、播客、视频短片、演讲等。
这样的工作,之所以被重视,主要还是智能语音庞大的前景。
YC指出,美国每年有几十亿小时的音源通信,这花费了逾10亿美元。而其中,只有不到四分之一的产品涵盖了分析、搜索的功能。
此外,智能语音还可用于智能家居信息交互的入口,这可是个预计到2019年规模达1500亿美元+的市场。它还在车载系统、可穿戴设备领域颇有前景。
DeepGram干了两件事!
老实说,依靠大量存储的音频源来建立语音搜索是一件太愚蠢和困难的工作。DeepGram的出现,有两个很重要的基础:人工智能建模(自动分析语音流并进行归类)和模糊搜索(fuzzy search),它们奠定了智能语音的可行性,于是DeepGram只要做两件事:
1、 建立音频数据库:云存储技术的出现大大降低了音频数据库的成本,几乎所有的智能硬件初创公司都会对此加以利用。
2、 基于GPU的算法:DeepGram采用了关键词搜索和模糊搜索项结合的方式,将准确度提高到90%以上,并利用深度学习技术来分析语音的复杂性。
两个人的团队
领英显示,这家公司的员工规模不超过10个人。事实上,主要只有CEO Scott Stephenson和CTO Noah Shutty两人。
相当有趣的是,Scott Stephenson还是个研究暗物质的物理学家。这或许从某种程度上意味着,语音识别的技术壁垒并没有我们想象的那么高,未必非得脱胎于高校、科研机构等。
据悉,这俩人现在已经推出了DeepGram的免费试用插件,用户注册后,每个月能进行40小时的智能语音搜索。不过,鉴于DeepGram的准确度依然有待提高,Stephenson和Shutty还在想办法改进它的功能性。
项目仍处在很早期
据公开资料,YC孵化器在种子轮给这个团队投资了12万美元,看得出,还处在非常早期的阶段,DeepGram除了提供API也还没有独立可用的产品,如果上面DeppGram在做的两件事能够把基础搭好,则能证明这个“音频版谷歌”的可行性。