让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

智东西(公众号:zhidxcom)
文 | 心缘

随着云计算、AI、物联网等新兴技术的普及,越来越多的企业通过海量数据分析改进运营能力和服务质量,最终提升自身竞争力。

面对爆发式增长的数据,更大、更快、更经济且具有数据持久性的存储日益成为数据中心的刚需。

传统的数据存储层次结构已经维持了许多年,而随着数据爆发式增长,动态随机存取存储器(DRAM)和固态盘(SSD)在成本和速度上的固有差距,都变得越来越令企业头疼。

DRAM一断电就会丢数据,容量小、扩展成本高;固态盘容量大、便宜但访问速度慢。两者间的传输带来巨大的延迟带宽损失,数据中心亟待能填补短板的创新技术。

在这一背景下,集二者之所长的黑科技——持久内存应运而生。

昔日DRAM霸主英特尔,正是首批将这一黑科技推向市场的主力军。凭借媲美存储器的高吞吐量与耐用性,以及接近内存的低延迟和超快速度,英特尔傲腾数据中心级持久内存(傲腾DC持久内存)正成为谷歌云、BAT、思科、戴尔、联想等国内外各大数据中心经济高效的存储“新宠”。

一、存储在英特尔中的战略地位

作为英特尔的六大支柱之一,内存和存储自英特尔诞生起就扮演着至关重要的角色。

尽管英特尔因CPU而闻名,但它刚创立时最早推出的产品是1.024bit的动态RAM 1103。

终结磁芯存储器时代的同样是英特尔。当今市面上最常见的系统内存DRAM尽管是由IBM研究人员于1966年发明,但四年后,首先实现量产并将DRAM每bit存储降到1美分的是英特尔。

四十余年过去后,英特尔又携全新存储品类归来,欲以革命性的新技术,将统治数据中心多年的传统数据存储层级结构重新定义。

让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

▲英特尔的六大技术支柱之内存&存储

内存原分三级,CPU/GPU中的缓存最快,其次是直接被CPU访问的内存DRAM,最慢的是存储。三级间的速度差可达百倍至千倍,会严重牵制大数据存储和访问。

对此,英特尔在原有三级结构中加入几级新的存储技术。缓存和DRAM间插入封装内存,DRAM与存储之间则新增三级,包括傲腾DC持久内存、傲腾固态盘(3D XPoint)和QLC 3D NAND固态盘。

新增层级后,每一层的速度差仅有10倍,存储结构变得更为平滑,填补了原有层级间的空白,在数据中心存储领域形成合力。

其中,傲腾DC持久内存将更多工作负载迁移到离CPU更近的地方保存,能提供比DRAM快16倍的低延迟和高10倍的容量,在内存带宽不是关键瓶颈的应用中,对实现真正的大内存高性能数据中心存储至关重要。

英特尔副总裁兼英特尔至强产品与数据中心营销总经理Lisa Spelman认为,傲腾DC持久内存将改变从云、数据库、高性能计算,到内存分析和内容分发网络等关键数据工作负载。

二、突破存储瓶颈的两种工作模式

大容量、高并发性、经济性是衡量存储性能的关键指标,同样也是英特尔傲腾DC持久内存主攻的三座高山。

傲腾DC持久内存介乎内存和固态盘之间,同样兼具两者的优势,提供128GB、256GB和512GB三种容量,容量上优于上限为128GB的DRAM,单位容量价格也比DRAM更低。

让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

采用傲腾DC持久内存部分替代DRAM内存,能最大程度降低从新系统内存获取数据的高延迟,加快数据中心内存数据库的读取速度。

傲腾DC持久内存可无缝插入DDR4内存插槽,并根据数据中心的不同需求,提供两种工作模式。

1App Direct模式:持久性、更耐用

App Direct模式的一大特点即是持久性。基于其一致的缓存,这一模式下的傲腾DC持久内存能提供更大容量、更高耐用性和更高带宽,可灵活适应不同的内存工作负载。

傲腾DC持久内存可直接与软件、应用通信,从而降低堆栈复杂性。其子集Storage over App Direct可使用传统存储API,能像固态盘一样运行并启动操作系统。

应用和操作系统可以指示哪类数据读写适用于哪类内存。比如,需要低延迟、不需要数据持久性的数据存储操作可以放在DRAM执行,而需要大容量、持久性的数据存储操作则放在傲腾DC持久内存上执行。

2、内存模式:易失性、经济实惠

内存模式下的傲腾DC持久内存近似于一个大容量DRAM内存池,和DRAM一样具有易失性。

当从内存请求数据时,内存控制器会先检查DRAM高速缓存,如果数据不在DRAM中,则从傲腾DC持久存储读取数据的延时稍长。以这样的方式,可无缝为传统应用提供低成本的大容量内存。

虚拟化数据库部署和大数据分析应用程序是内存模式的理想选择。有利于虚拟化内存数据库,内容交付网络和分析等功能。随着内容容量增加,无需重写软件即可有效提升虚拟机、容器和应用的密度。

除了以上两种模式外,傲腾DC持久内存也可在双重模式下运行,通过预配置,让部分傲腾DC持久内存处于内存模式,其余部分处于App Direct模式,充分利用高性能存储。

另外,为满足当今数据中心的安全需求,它支持AES-256硬件加密技术。在内存模式下,加密密钥在断电时被删除,下次引导时再重新生成。

基于不同工作模式,傲腾DC持久内存既可以作为高性能存储池,也可以选择应用托管内存,能为云和虚拟化用户提供更大容量和更大内存池。

三、解构痛点一:数据恢复耗费时间

数据库是最易受系统内存限制的应用之一,如果访问的数据不在内存里,需花费更多时间和功耗来搬运数据。

在对性能要求极高的环境中,内存数据库通常把全部数据访问控制都放在内存中进行,以保证足够高的读写速度。

DRAM的数据易失性是数据库存储的常见问题,一旦系统断电重启,数据恢复往往要花费几分钟到几小时。

比如NoSQL关键值数据库Aerospike企业版的索引通常就存储在DRAM中,系统一重启DRAM索引就会被擦除,重建过程可能要花数小时。

这种情况下,傲腾DC持久内存App Direct模式的大容量和持久性就凸显出价值。

据英特尔数据中心内存和存储营销总监Kristie Mann介绍,傲腾DC持久内存可以为数据中心提供高达3倍(36TB)的系统内存容量,系统重启从几分钟缩至几秒,每个节点虚拟机增加36%,而广泛使用的开源分布式通用集群计算框架Apache Spark性能提升可高达8倍。

经过长期研发和调整,英特尔傲腾DC持久内存通过显著增加可用协同内存的容量,将更多“热数据”存储在离CPU更近的位置,可将I/O密集型查询速度提升8倍,能提供更长的系统运行时间,并加快重启后的恢复速度。

改将索引存储在傲腾DC持久内存的Aerospike企业版4.5,可在每个节点存储更多数据存储更多数据,降低横向扩展需求。另据Aerospike联合创始人兼CEO Brian Bulkowski评价说,对索引使用持久层时,无需重建主索引就能完全重启Aerospike。

让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

▲Aerospike企业版4.5重启时间

最终系统重启时间比纯使用DRAM的冷启动缩短135倍,由数小时缩至数秒。这意味着数据库可以进行更频繁的软件和安全更新,同时无需担心中断。

四、解构痛点二:数据搬运影响延时

时间就是金钱,随着各企业数据分析对实时性的需求愈发迫切,数据中心急需快速且高效地访问并存储数据。

对于搜索、电信、工业、金融等存在密集数据集访问的业务来说,数据处理量巨大,考虑到经济实惠的内存容量有限,无法将大量数据都存储在更靠近CPU的地方,导致查询耗时长。

而能节省数据搬运就意味着在更短时间处理更多数据,对于提升服务质量和降低成本将大有裨益。

为了向用户提供更个性化的搜索结果,百度正在其高级内存数据库Feed-Cube中部署英特尔傲腾DC持久内存,搭配英特尔第二代至强可扩展处理器,以确保数据库的高并发性、大容量和高性能,并降低总拥有成本(TCO)。

百度采用傲腾DC持久内存和DRAM,面向2000万并发访问,可将平均访问时间提高约24%,同时CPU利用率仅上升7%,并将服务器DRAM使用降低一半以上,大大节省了Feed-Cube的PB级存储容量成本。

百度推荐技术架构部主任架构师汪瑫表示,经由这一方案,“百度能够节省成本效率,扩展内存容量,并始终能够帮助我们的信息流服务发展。”

让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

▲英特尔在2019年百度云智能峰会上宣布百度正为其信息流服务搭建内存数据库,以充分利用傲腾DC持久内存

电信、工业分析等业务的数据查询速度同样面临内存限制带来的I/O瓶颈。

使用傲腾DC持久内存App Direct模式,中国规模最大的业务支持系统(BSS)提供商之一亚信在内存中能存更多数据,减少对磁盘的频繁访问,将延迟缩至不到原来的1/3;工业大数据平台宝信xInsight则借助傲腾DC持久内存将每秒并行运行的任务数提升39%。

让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

▲亚信Telco BSS业务支持系统查询相应时间

为金融服务行业构建的时序数据库KDB+,用于处理全球前21家银行中20家所使用的历史数据,这意味着DRAM难以容纳的庞大数据集,而横向扩展会导致硬件占用空间增大。这时,傲腾DC持久内存的更高内存容量就起到关键作用,将查询速度加快3.7倍。

五、解构痛点三:支持更多虚拟机实例

内存模式下的傲腾DC持久内存则将使虚拟化、私有云、混合云的硬件利用率明显著提高。

傲腾DC持久内存将云和数据库中的关键数据工作负载转化为内存分析和内容分发网络(CDN),使得每台服务器能支持更多服务器实例,提高服务可扩展性,并降低TCO。

可实例化虚拟机的数量同样受内存和I/O限制,使用英特尔Optane DC持久内存,能以更高的密度添加系统内存,在同一硬件上运行3倍多的虚拟机,或者运行4倍多的数据库容器虚拟机。

华为发布的FusionSphere即存在上述限制,但不存在CPU限制,通过使用更高容量的傲腾DC持久内存,其支持的虚拟机实例数增长43%,硬件利用率更高。

让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

▲华为FusionSphere虚拟机实例数

除了华为外,谷歌、百度、腾讯等云计算服务提供商都已启用傲腾DC持久内存,以向其虚拟机提供比仅配置DRAM更高的存储容量。

这种支持更多任务并行运行的能力同样惠及生物识别方案。

生物识别公司海鑫科金为外交事务和公共安全提供指纹验证云服务,要进行多实例处理,需将数据库拆分成多个数据集,借助更多指纹数据集存储到内存中,能并行运行更多任务,从而将每秒处理指纹数提升26%。

让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

▲海鑫科金每秒处理指纹数

应对成千上万地理分布式传感器数据,电力公司南瑞集团处理的处理方案是以串行方式压缩各数据表,再解压缩,这对性能有一定限制。

傲腾DC持久内存可以降低南瑞用电量分析的内存表压缩比,让大量数据保持在未压缩状态,缓解压缩和解压缩过程造成的时间和性能压力。

让谷歌、BAT都头疼的事!英特尔如何迎刃而解?

▲南瑞集团用电量分析系统每秒查询率(TPS)

六、前景:降低应用门槛,探索创新型应用

在提供傲腾DC持久内存服务方面,英特尔长期以来的王牌——生态再度发挥关键作用。

为了实现傲腾DC持久内存有效快速的部署,英特尔与ISV、OSV、虚拟化、OEM提供商等生态合作伙伴通力合作,针对当前数据中心基础架构设计优化工作流程,精选方案都经过英特尔架构的性能验证。

英特尔还与许多公司合作设计相应软件接口,创建统一的编程模型,提供管理路径、存储路径和内存映射路径,并提供能简化编程的开发工具包,进一步降低用户操作门槛。

结语:数据中心存储面临革新

随着大数据爆发,存储和处理器间的距离已成影响性能提升的关键瓶颈,内存和存储结构的游戏规则正在被改变,持久内存日渐成为数据中心存储领域的新秀。

正如Redis联合创始人兼CEO Yiftach Shoolman所言:“我们相信下一代服务器架构将是所有持久性内存,这将改变整个数据库市场。”

率先入局的英特尔傲腾DC持久内存,以其高容量、高耐性、低成本和数据持久性,可作为部分替代DRAM内存的高效经济选择,还能改变企业运行任务关键型高性能应用程序或运行虚拟化IT的方式。

除了英特尔,发布或计划发布持久内存的厂商还包括三星、东芝美国存储器、SK海力士。随着持久内存在数据中心日益普及,更多大中小企业将加快获取洞察力和竞争力的速度。