智东西(公众号:zhidxcom
文 | 心缘

智东西10月17日消息,今日,清华大学微电子所魏少军、刘雷波团队获计算机体系结构顶级会议MICRO最佳论文提名。该团队提出新型并发控制算法,能将事务内存系统性能提升至英特尔处理器内置TSX指令集的8倍以上。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

这是亚洲高校及科研机构在MICRO 52年历史上第二次获得最佳论文提名,论文的第一作者是李兆石博士,通讯作者是刘雷波教授。

智东西第一时间联系采访了刘雷波教授,他告诉智东西,在主流的英特尔至强系列处理器中,TSX (Transactional Synchronization Extension, 事务同步扩展)指令集就是基于本文在研究的事务内存模型的。本文的研究成果可以解决现有英特尔处理器中TSX指令级的实现中,为了确保高并发场景下事务同步的正确性带来的性能代价过大的问题。

他表示,本研究提出的算法对硬件平台无限制,也可以以专用逻辑设计的方法,集成到现有的处理器设计中。

除这篇论文外,另有五篇论文获最佳论文提名。最终,《Simba:基于多芯片模块架构的扩展深度学习推理(Simba:Scaling Deep-Learning Inference with Multi-Chip-Module-Based Architecture)》和《STT:对投机访问数据的全面保护(Speculative Taint Tracking (STT): A Comprehensive Protection for Speculatively Accessed Data)》获得最佳论文。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

一、解决现有事务内存的性能和访问撤销痛点

国际微架构大会MICRO(International Symposium on Microarchitecture),是计算机体系结构领域的重要会议,与ISCA、HPCA、ASPLOS并列计算机体系结构四大顶级会议,论文录取率通常在21%左右。

神经网络加速器、专用加速器结构、DRAM、持久性内存、GPU加速器、近内存加速器等,都在MICRO上被首次提出。

第52届国际微架构会议MICRO在美国俄亥俄州哥伦布市举办。会议期间,清华大学魏少军教授、刘雷波教授团队在会上做了题为《应用于事务内存的乐观并发控制算法的FPGA加速(FPGA-Accelerated Optimistic Concurrency Control for Transactional Memory)》的报告。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

▲清华大学李兆石博士在MICRO 2019上作报告

刘海波教授还通俗地介绍了该算法和应用意义,事务内存模型将多笔内存的读写请求打包成一个事务。事务内存系统将各个事务独立地(Isolation)、整体地(Atomicity)进行处理。因为事务内存为并行程序开发提供了一种高层次的同步方法,所以它被广泛用于帮助程序员表达并行性、设计并发数据结构、确保非挥发内存(non-volatile memory)的数据持久性(Durability)等应用下。

事务内存(TM)被认为是解决现有多任务并行时线程间同步问题的一种有前景的替代方法,在编程社区和体系结构社区中都吸引了广泛的关注,而现有同步操作常常是释放应用程序并行性的最大绊脚石。

清华团队发现现有事务内存系统在高并发场景下,由于判断算法的简化和不精确,引起许多不必要的访问撤销,导致性能受限。

为了解决上述缺陷,该研究团队利用数学的序关系理论分析了常见的事务内存一致性模型,然后为了解决上述固有缺陷,降低访问撤销率及性能开销,研究团队设计了立足于并行编程使用的事务内存方法(ROCoCoTM),并利用可重构架构的空间计算特性加速该算法。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

▲该研究提出的新型并发控制算法在可重构架构上的实现

如图所示,事务之间的读写依赖关系在可重构架构上的Manager模块以矩阵的形式在空间上平铺开来,以此更高效地检索并更新事务间读写依赖关系。之后在CPU-FPGA异构可重构系统上实现了基于该算法的高性能的事务内存系统的原型系统。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

与综合基准测试中的2PL和TOCC算法相比,ROCoCo算法最多可将访问撤销率降低56.2%和20.2%。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

整个系统在英特尔的HARP2平台上实现,并使用STAMP测试集进行事务内存系统性能评估。

实验显示,该算法相比英特尔处理器内置的TSX(Transactional Synchronization Extension,事务同步扩展)指令集获得了8.05倍的性能提升。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

鉴于商用CPU-FPGA平台的部署快速普及,ROCoCoTM算法有望软件程序员铺平了道路,使他们可以借助高级事务抽象来利用异构计算资源。

该研究分析一致性模型的方法不仅限于事务内存系统,还可推广到分布式系统、多处理器缓存一致性等问题的研究中。

二、十余年可重构计算研发,AI芯片和CPU均已出炉

这一论文的合著作者汇集了魏少军、刘雷波、尹首一、邓仰东等多位清华学术大牛。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

过去10余年,清华大学魏少军、刘雷波、尹首一团队长期聚焦可重构芯片及其在芯片、硬件安全、密码技术等关键技术研究,从“十一五”到“十三五”连续获得国家自然科学基金项目、863计划重点项目和其他国家重大专项项目的支持,在可重构芯片领域取得了多项重大技术突破。

清华大学微电子所所长、中国半导体行业协会、IC设计分会理事长魏少军教授是国内集成电路产业的领军人物,曾主导编写了《人工智能芯片技术白皮书(2018)》,从定义、脉络、标准以及发展趋势等方面对AI芯片进行了深入而专业的研究报告,填补了国内空白。

魏少军教授曾多次作为全球AI芯片创新峰会(GTIC)演讲嘉宾,详细解读清华大学微电子所研究的可重构神经网络计算架构。(清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

清华大学微纳电子系Thinker团队自2016年以来基于可重构计算架构设计了数款Thinker系列低功耗终端AI芯片(Thinker I,Thinker II,Thinker S),受到学术界和工业界的广泛关注。清华大学微电子所副所长、CAD技术研究室主任尹首一任Thinker芯片团队带头人。

去年7月成立的AI芯片创企清微智能,即是从Thinker团队脱胎而出,尹首一任清微智能首席科学家,清华大学博士、Thinker芯片主架构师欧阳鹏任清微智能CTO。

过去4个月间,清微智能先后推出其首款可重构超低功耗语音人工智能(AI)芯片TX210和首款多模态智能计算芯片TX510。(清华创新架构芯片量产!全球首款可重构超低功耗语音AI芯片)(全球首款多模态智能计算芯片来了!基于清华可重构架构,同时支持视觉和语音处理)。

亚洲高校52年来唯二!清华团队入选芯片顶会MICRO最佳论文提名,新算法性能超英特尔8倍

此前在2016年1月,清华大学和英特尔宣布联合研发“融合清华可重构计算技术和英特尔X86架构的新型通用CPU”津逮CPU,即是结合清华可重构计算技术与x86架构。

去年年底,澜起科技完成第一台津逮服务器平台产品的开发,于今年上半年进行市场推广,已具备批量供货能力。联想长城等数家服务器OEM厂商已采纳津逮CPU及其系统解决方案,研发出了系列高性能且具有安全监控功能的服务器机型。