这家AI公司要做音频版”谷歌” 让搜声音像搜网页一样简单

［智东西· 硬创先锋，专注于全球智能行业创业公司报道。针对海外智能行业创业公司，我们将推出系列报道，本期主角是Reflekt，一家提供增强现实工业解决方案的AR平台。］

智东西（公众号：zhidxcom）

文｜十四

导语：

语音识别，是未来人机交互的关键，这似乎已成为一种共识。去年，美国加州山景城成立了一家智能语音识别、搜索初创公司——DeepGram。目前已经拿下了孵化公司Y Combinator（YC）和Zillionize的种子轮投资。这两家孵化器的眼光有多毒辣，就不赘述了。看看业界的这个说法就知道了：在硅谷，有两种孵化器，一种叫YC，一种叫其他。

DeepGram聚焦在一个前景巨大的产业

DeepGram被形容为音频版的谷歌，因为它提供基于网页的智能语音检索API，能分辨口误、口音、俗语等问题，为用户提供需要的信息。DeepGram的搜索范畴包括通话、会议、播客、视频短片、演讲等。

这样的工作，之所以被重视，主要还是智能语音庞大的前景。

YC指出，美国每年有几十亿小时的音源通信，这花费了逾10亿美元。而其中，只有不到四分之一的产品涵盖了分析、搜索的功能。

此外，智能语音还可用于智能家居信息交互的入口，这可是个预计到2019年规模达1500亿美元+的市场。它还在车载系统、可穿戴设备领域颇有前景。

DeepGram干了两件事！

老实说，依靠大量存储的音频源来建立语音搜索是一件太愚蠢和困难的工作。DeepGram的出现，有两个很重要的基础：人工智能建模（自动分析语音流并进行归类）和模糊搜索（fuzzy search），它们奠定了智能语音的可行性，于是DeepGram只要做两件事：

1、建立音频数据库：云存储技术的出现大大降低了音频数据库的成本，几乎所有的智能硬件初创公司都会对此加以利用。

2、基于GPU的算法：DeepGram采用了关键词搜索和模糊搜索项结合的方式，将准确度提高到90%以上，并利用深度学习技术来分析语音的复杂性。

两个人的团队

领英显示，这家公司的员工规模不超过10个人。事实上，主要只有CEO Scott Stephenson和CTO Noah Shutty两人。

相当有趣的是，Scott Stephenson还是个研究暗物质的物理学家。这或许从某种程度上意味着，语音识别的技术壁垒并没有我们想象的那么高，未必非得脱胎于高校、科研机构等。

据悉，这俩人现在已经推出了DeepGram的免费试用插件，用户注册后，每个月能进行40小时的智能语音搜索。不过，鉴于DeepGram的准确度依然有待提高，Stephenson和Shutty还在想办法改进它的功能性。

项目仍处在很早期

据公开资料，YC孵化器在种子轮给这个团队投资了12万美元，看得出，还处在非常早期的阶段，DeepGram除了提供API也还没有独立可用的产品，如果上面DeppGram在做的两件事能够把基础搭好，则能证明这个“音频版谷歌”的可行性。

DeepGram聚焦在一个前景巨大的产业

DeepGram干了两件事！

两个人的团队

项目仍处在很早期

相关推荐