智东西(公众号:zhidxcom)
文 | 心缘

智东西11月13日消息,今天,全球芯片及电子系统设计自动化(EDA)软件巨头Cadence首次在国内发布Tensilica系列的两款新品: Tensilica DNA 100处理器IP和Tensilica HiFi 5音频/语音数字信号处理器IP。此前,DNA 100于9月19日在德国发布,HiFi 5 DSP于10月31日在美国发布。

其中,Tensilica DNA 100是Cadence首款深度神经网络加速器AI处理器IP,将于今年12月向部分客户提供,预计明年第一季度全面上市。Tensilica HiFi 5 DSP是Cadence首款为高性能远场处理和AI语音识别处理量身优化的IP核,在基于神经网络的语音识别算法上提供高达4倍的改进。

Cadence公司IP事业部Tensilica资深产品总监Lazaar Louis、Cadence公司IP事业部Tensilica技术营销总监Yipeng Liu来到中国,与Cadence公司亚太区IP业务总监陈会馨一同介绍了两款新品。

Cadence国内展示两款AI芯片IP,瞄准自动驾驶/安防/AI语音

一、首款深度神经网络加速器AI处理器IP

Tensilica DNA 100处理器是Cadence首款深度神经网络加速器(DNA)AI处理器IP,具有灵活可扩展的特点,能够满足小到0.5大至数百TeraMAC(TMAC)的各种需求的扩展,为终端侧(on-device)AI提供高性能与高能效。

以汽车动力等应用为例,汽车拥有大量传感器,包括雷达、摄像头、激光雷达和超声波等,对推理性能需求越来越高。标准DSP主要用于做信号处理,而数据相关任务将被移交给神经网络加速器,比如DNA 100就负责处理感知和决策制定任务。

Cadence表示,较其他采用相似阵列尺寸大小的乘法累加运算(MAC)解决方案,DNA 100处理器性能提升达4.7倍,在功率方面每瓦特性能提升高达2.3倍。

Cadence国内展示两款AI芯片IP,瞄准自动驾驶/安防/AI语音

神经网络(NN)的特征在于权重和激活的固有稀疏度,加载和乘以零会造成其他处理器中不必要的MAC消耗。

DNA 100处理器的专用硬件计算引擎移除了上述两项任务,只计算非零激活和权重,利用稀疏度提高能效并降低计算量。

神经网络再训练有助于增加网络中的稀疏度,并通过DNA 100处理器的稀疏计算引擎实现更高的性能。

DNA 100处理器能够利用更小的阵列实现最大吞吐量。例如,在4K MAC配置环境下,ResNet 50推理性能预计能实现高达每秒2550帧(fps)和3.4TMAC/W(在16nm工艺),而竞争对手只能达到每秒538帧。

Cadence国内展示两款AI芯片IP,瞄准自动驾驶/安防/AI语音

DNA 100处理器非常适用于自动驾驶汽车、ADAS、安防监控、机器人、无人机、AR/VR、智能手机、智能家居和物联网领域的设备端NN推理应用。

此外,DNA 100处理器还配备了完整的AI软件平台,兼容最新版本的Tensilica神经网络编译器,支持Caffe、TensorFlow等多种AI框架,Cadence最近还宣布它将支持Facebook的跨硬件平台机器学习编译器Glow。

Tensilica神经网络编译器利用一套全面优化的NN库函数,将任何NN映射为可执行和高度优化的高性能代码。因此,DNA 100处理器具有支持分类、对象检测、分割、重复和回归等多种不同网络类型的软件生态系统。

DNA 100处理器还支持Android神经​​网络(ANN)API,用于Android设备中的设备AI推理。

Cadence国内展示两款AI芯片IP,瞄准自动驾驶/安防/AI语音

DNA 100处理器在所有NN层运行,包括卷积、完全连接、LSTM、LRN和池化。单个DNA 100处理器可以轻松地从0.5扩展到12个有效TMAC,并可以通过堆叠多个DNA 100处理器以实现数百TMAC,可用于最计算密集型设备端的NN应用。

为了以防DNA 100处理器内部硬件引擎当前不支持的新NN层,DNA 100处理器还集成了Tensilica DSP,同时使用Tensilica指令扩展(TIE)指令提供Tensilica Xtensa核心的可扩展性和可编程性。

由于DNA 100处理器拥有独立的直接存储器访问(DMA),因此无需新增控制器即可运行其他控制代码。

DNA 100处理器将于2018年12月面向部分客户提供,预计2019年第一季度将全面上市。

二、首款为高性能远场处理和AI语音处理而优化的IP核

Tensilica HiFi 5音频/语音数字信号处理器(DSP)IP是 Cadence Tensilica HiFi DSP系列的新品,也是Cadence首款为高性能远场处理和AI语音识别处理量身优化的IP核,该产品主攻市场有智能家居、汽车车载、蓝牙耳机等。

与HiFi 4 DSP相比,这款HiFi 5 DSP为音频处理提供了2倍的计算能力,为NN处理提升了4倍的计算能力。

Cadence国内展示两款AI芯片IP,瞄准自动驾驶/安防/AI语音

Tensilica HiFi DSP系列是全球最广泛使用的音频/声音/语音处理器,截至目前在全球有超过125家生态合作伙伴,Tensilica HiFi DSP每年出货量超过10亿。

Cadence国内展示两款AI芯片IP,瞄准自动驾驶/安防/AI语音

HiFi 5 DSP的关键特性包括:

1、采用5个超长指令字(VLIW) 插槽架构,支持每循环发布2个128-bit负载。

2、对比HiFi 4 DSP,预处理和后处理的MAC性能提高2倍,包括支持每周期8个32×32-bit MACs或16个16×16-bit MACs,可选每周期8个单精度浮点MACs。

3、对比HiFi 4 DSP,NN处理MAC性能提高4倍,包括每周期32个16×8或16×4 MACs、可选每周期16个半精度浮点MACs。

4、全新HiFi NN库为NN处理(尤其是语音任务)提供了一组专门优化的库函数。这些库函数可以轻松集成到主流机器学习框架中集成。

5、完全兼容HiFi产品线拥有的超过300个HiFi优化的音频语音编解码器以及语音增强软件包。

此外,Cadence还会提供Tensilica HiFi DSP NN库等一系列软件。

Cadence国内展示两款AI芯片IP,瞄准自动驾驶/安防/AI语音

随着语音助手的普及,语音控制用户界面对智能产品制造商们愈发重要,他们需要更先进的DSP算法以消除噪音并隔离扬声器的声音干扰。此外,因为对延迟、隐私问题的担忧,基于神经网络的语音识别算法更多是在本地而非云端来执行任务。

为了应对在能耗敏感型设备上搭载NN远场处理和语音识别算法带来的计算挑战,Ambiq Micro成为Cadence HiFi 5 DSP的第一家被授权方。

结语:边缘计算升温带动行业智能

在AI的浪潮之下,边缘设备的AI处理器应用快速增长,但更低的延迟、更好的隐私、更快的处理速度、更自然的语音UI交互等各种越来越高的需求正在增加设备上的处理工作负荷。

针对智能产品滋生的痛点,Cadence正在以其独特的优势深入AI市场,为围绕着视觉和语音处理的边缘AI推理和应用提供更多底层的助力,在AI行业中扮演越来越重要的角色。