阅片机器人性能增8倍,帮电网系统大省钱,从两个案例看英特尔加速AI推理细节

智东西(公众号: zhidxcom)
文 | 心缘

智东西7月13日消息,英特尔AIDC开发者大会于本周四在深圳举行,在上午场中,英特尔展示围绕硬件、软件和生态活动的AI产品阵列。(英特尔AIDC秀肌肉:展示AI软硬件+生态全景图

下午场更加侧重于实操演示和案例分享,两家英特尔人工智能构建者计划的成员健培科技和赛特斯分别分享了他们在医疗影像分析、电网和交通领域和英特尔之间的合作细节。

健培科技从事医疗影像分析,在基层医疗和体检等方面有很多部署。赛特斯是软件定义通信解决方案供应商,目前主要把AI应用在国网防触电以及海事监测等方面。

期间,智东西同少数媒体对健培科技董事长程国华、赛特斯信息科技方案架构师蔡旭阳进行深入交流,具体了解英特尔软硬件产品如何帮他们实现AI推理性能的提升,并透露了下一步合作的优化方向。

一、健培阅片机器人:准确率比肩放射科医生

据健培科技董事长程国华介绍,医学影像贯穿整个诊疗过程,占据中国80%的医疗数据均为影像数据。对于多数医院来说,影像数据存储成本大、负担重,计算难题迫切需要解决。

作为国内智慧医疗解决方案的先行者,健培早早提出一种“1个加速器+1个网络+1个啄医生”的方案,并提供金融级四级安全防护。

阅片机器人性能增8倍,帮电网系统大省钱,从两个案例看英特尔加速AI推理细节

由于AI推理在医疗成像方面的应用十分复杂,需克服数据多样化、深度分析、复杂标记等问题,而且需支持3D甚至4D深度神经网络架构,高度依赖平台内存。

健培科技打造的“啄医生”阅片机器人,采用高级AI算法和深度学习技术进行构建,能对医学影像疾病进行定性、定量的智能诊断,可应用到临床决策系统中,缩短放射科医生完成诊断的时间。

早在2016年,这款阅片机器人就在国际首次医疗影像机器人与放射科医生的“人机大战”中,就取得了1:1的战绩,而且效率远高于人工。

据悉,健培科技已有超过200家医院客户使用其阅片机器人,每家客户平均每天可诊断80个病历,每天提供的肺结核筛查超过2万例。

身为智慧医疗的老兵,程国华也谈到他对医疗行业对算力需求的变化。过去医疗平台更多依赖于云端,现在基层医疗机构需求越来越大,低成本、可快速部署的边缘计算成为一种趋势。

二、英特尔助力图像分析性能提升8

在与英特尔合作前,健培也在其他平台中做个测试,但或多或少经历各种不适配的问题。

例如,此前阅片机器人准备上央视节目时,健培原本设计了16块GPU方案,但要买到这么多GPU至少需要2个月,而央视节目的排期已经临近,这使得健培必须寻找另一种解决方案。

在尝试应用的过程中,健培陆续发现其他方案存在各种吃力的情况,他们往往不得不放弃一些其他性能,来满足对速度的需求。而英特尔处理器384GB的超高内存,完全能满足他们对高通量、3D计算的要求。

阅片机器人性能增8倍,帮电网系统大省钱,从两个案例看英特尔加速AI推理细节

为了用更好的支撑医学影像大数据,加速支持AI的成像分析和诊断,健培科技将阅片机器人迁移至英特尔可扩展处理器。

考虑到医疗数据对安全性的高要求,英特尔直接将服务器集成到健培的测试环境,完全不通过云端,严格保证数据的私密性。

硬件方面,“啄医生”阅片机器人采用英特尔至强金牌6140处理器。

软件方面,啄医生借助英特尔优化版TensorFlow以及英特尔MKL-DNN加速库,大幅提高诊断效率和准确性,与硬件搭配使用。

英特尔对TensorFlow做了5000多项优化,当前这一代指令集支持AVX512,而最新一代Cascade Lake的指令集名称变作AVX512-VNNI,指令集进一步扩充,增加了可变式神经网络指令集。

现在用一个可变的VNNI,只需一条命令就能执行以往3条命令才能执行的任务,从最底层带来运算速度的提升。

如图,经双方合作,医学数字成像和通信(DICOM)图像分析性能提升8倍,医疗分割分析领域性能提升6倍。

这得益于英特尔针对算法做的优化。

起初,英特尔与健培基于语义分割模型UNet做配置优化,它的准确度得到一定提升,但当他们试图用一些不同的方法,比如增加内存、改变框架的参数时,增幅并不明显。

第二次试验时,他们转变思路,选择以卷积神经网络(Faster R-CNN)作为突破口,英特尔的优化版TensorFlow完全支持Faster R-CNN,优化结果明显提升,准确度达90%。

今年,英特尔与健培新一轮合作的升级首先体现在硬件层面,去年的合作时采用的是第一代至强可扩展处理器黄金版6140,今年的将更上一层楼,使用第二代至强可扩展处理器铂金版8260,,用以打造新一代啄医生阅片机器人。

另外,程国华透露,希望与英特尔展开更多软件层面的合作,比如考虑引入OpenVINO工具包。

三、赛特斯智能电网与交通系统:成熟应用已落地

OpenVINO工具包带来的AI推理提升,在赛特斯科技的AI应用中得到了具体的展示。赛特斯和英特尔的合作的AI应用具体在电网和交通领域,并已有成熟应用落地。

在电网领域,湖畔钓鱼者触电事件频发,而警示牌往往起不到作用。据介绍,根据有关资料的统计,每年因为钓鱼触电引发事故有100多起,约占总触电事故的1/3。

据赛特斯信息科技方案架构师蔡旭阳介绍,为了减少此类事件发生,赛特斯打造电网钓鱼监控系统。这一系统自今年4月份在某市级部署至今,已处理280多起事件,迄今未发生过触电事件。

在交通领域,船舶流量趋于饱和,为了减轻海事值班人员工作量,有效提升船舶统计的准确性,赛特斯与某国家海事局共同研发了海事智能船舶统计系统。

该系统主要实现三类功能,一是分江面上下行自动统计过往船舶数量,二是船舶行为规范性统计,三是危化品船舶全航程跟踪检测。另外,系统还提供检测视频质量的运维功能,能实现在无需人工干预的情况下全天候运行。

阅片机器人性能增8倍,帮电网系统大省钱,从两个案例看英特尔加速AI推理细节

这两个系统的基本构成和处理流程相似,都是由前端智能摄像头、中心分析平台、桌面及移动显示端和声光报警设备组成。

首先在边缘设备端做图像预处理,然后用深度学习算法进行目标检测,在检测到目标后,将图像通过网络下发到中心分析平台,平台借助深度学习算法对目标进行细致检测、跟踪和轨迹分析,判断是否人或船是否存在违规行为。

四、基于英特尔OpenVINO的三大优化

英特尔对赛特斯智能系统的优化主要体现在三个方面:智能摄像头、云边协同和算法优化。

经过优化的系统,其计算速度、目标识别准确度均较此前方法有大幅提升。深度学习目标检测的计算速度较通用版本提升了26.1倍。

阅片机器人性能增8倍,帮电网系统大省钱,从两个案例看英特尔加速AI推理细节

另据透露,英特尔与赛特斯计划下一步将着重找选择更合适的的拓扑网络,前提是在英特尔优化版Caffe上支持,同时OpenVINO引入INT8技术,在保证不丢失精度的情况下提升整体性能。

1、硬件优化:智能摄像头

赛特斯的系统经过了三次迭代。

第一代方案采用非智能摄像头,这种方案的设备成本很低,但这意味着所有视频数据都要送到中心分析平台去处理,对网络传输要求非常高,同时会消耗大量平台计算力,对中心服务器压力非常大。

第二代方案改用带有GPU的前端智能摄像头,这一方案将速度大大提升,但同时也造成成本大幅上涨,一个摄像头的成本就超过了8000元。

在第三代方案中,赛特斯的系统采用英特尔架构前端智能摄像头,并借助英特尔OpenVINO工具包进行优化,有效节省了摄像头的采购成本,一个摄像头的成本仅为两三千元。

同时使用智能算法分布式部署的方案,降低对网络传输依赖,减轻了中心分析平台的计算压力。

以前一个服务器只能检测8路视频,现在一个服务器可以检测20甚至30路视频。100路视频原先需要部署二三十个中心服务器,现在只需部署5个中心服务器,一个中心服务器的价格约在5-6万元,节省10个中心服务器就省了约50-60万元。这样以来,很多服务器硬件的采购成本得以节省。

新方案在检测速度上也有提升,第二代GPU方案的处理速度为每秒9帧,而第三代方案将速度提升为每秒12帧,将比第二代方案采用GPU的检测速度提升1.4倍。

阅片机器人性能增8倍,帮电网系统大省钱,从两个案例看英特尔加速AI推理细节

2、部署方案优化:云边协同

过去,赛特斯将硬件加速资源都集中部署在中心分析平台的服务器,而现在采用边缘智能设备+中心服务器的“云边协同”方式。

云边协同受限于边缘计算本身,通常面临边缘设备算力有限、速度慢的问题,以及边缘设备硬件平台与软件系统不统一的问题。

英特尔OpenVINO恰恰可以有效解决异构难题。OpenVINO仅需一次开发就能进行所有英特尔架构平台的部署,可以使用英特尔的CPU、GPU、VPU、FPGA等各种硬件加速的加速资源,针对不同硬件端,提供不同加载,增加整个深度学习模型的泛用性。

同时,OpenVINO为深度学习算法推理性能也带来提升,并且执行过程中支持异构处理和异步执行,能减少由于系统资源等待占用的时间。

3、算法优化:性能提升

英特尔OpenVINO使用经优化后的OpenCV和OpenVX,同时提供很多应用示例,能够有效缩短开发时间。

这些库都支持异构的执行,编写一次后即可通过异构的接口支撑跑在其他的硬件平台上。

蔡旭阳表示,经英特尔OpenVINO优化后的算法,比以往在GPU上算法的精度也有所提升。

结语:边缘计算成新风口

从健培和赛特斯的案例中,我们看到英特尔通过人工智能创建者项目,为企业和开发者提供软硬件技术支持,帮助他们快速实现产品落地,并带来性能和速度的倍增。

与此同时,我们也可以看到边缘计算正成为英特尔AI战略中极为重要的一步棋。

随着边缘侧设备数量猛增,对网络通信、时延、数据安全和云端成本都造成了更大的压力,一种产品打天下已经不现实了,更多需求正在转移至边缘侧,需要更多轻量级、低功耗、便于移动的硬件产品。这是英特尔等老牌芯片公司都在面临的挑战。

在这样的背景下,英特尔也从以至强处理器为主打,转为提供端到端的全栈式AI解决方案,不仅推出新型类脑芯片、FPGA等更为多样化的硬件产品阵列,同时辅以适配的软件平台进行协同优化,从而应对越来越复杂多变的深度应用场景,帮助企业以更大程度满足性能需求、同时更节约经济成本的方式,实现智能化升级。