作为AGI时代重要的基础设施,智算集群能够为大模型的海量数据处理、复杂算法执行提供强大的算力支持。
众所周知,在大模型的训练或推理过程中,通常需要同时执行多个任务与算法。为了加快大模型计算效率,开发者会结合大模型的特点,制定多种并行计算优化策略,比如数据并行、模型并行、张量并行、流水线并行,甚至混合并行等。不过,这些并行计算策略在加快大模型计算效率的同时,也给智算集群带来进一步的挑战,比如不同计算节点间的通信延迟、数据一致性问题等。
为解决上述问题,为是科技推出基于自研容损RDMA技术打造的算力网卡,能够在现有网络环境下,通过只更换网卡,即可完成RDMA端到端对TCP协议的替换。同时在有损网络环境下,使RDMA的传输速率保持在几乎满载的状态。通过算力网卡,能够更有效地管理智算集群不同计算节点间的通信,确保数据的快速同步和一致性。
7月8日19:30,「智猩猩DPU与智能网卡技术公开课」第10期将开讲,由为是科技创始人兼CEO刘运渠主讲,主题为《算力网卡技术与未来DPU架构》。
此次公开课,刘运渠首先会从分布式CPU集群与异构集群两个维度,分享计算集群的技术演进,之后他将着重介绍为是科技基于容损RDMA打造的算力网卡技术创新与验证实践,以及目前DPU面临的挑战和未来架构演变方向。最后,刘运渠将对计算集群中的并行计算特点、挑战和发展趋势发表自己的独特见解。
公开课内容
主题:算力网卡技术与未来DPU架构
提纲:
1、分布式CPU集群与异构集群
2、算力网卡技术与验证
3、DPU挑战与架构演变
4、绝望猜想与深入并行计算
主讲人
刘运渠,为是科技创始人兼CEO,本科毕业于华中科技大学,并在美国康奈尔大学获得硕士学位。曾为华为高级工程师,并在1998年创办的华为中研测试业务部担任副总经理。2000年,加入北电网络担任芯片验证高级工程师,2005年成为加拿大BTI公司亚太区业务总监。在加期间联合发起基于超图的光交叉连接的研究,随后在硅谷探讨网络新架构与DPU并主导了高性能软件定义RDMA、容损RDMA、非对称网络及200ns超低时延RDMA等前沿项目的研究与开发。2007年创办Viscore Canada,专注高性能光器件研究。2019年担任江苏省产业研究院项目经理,2020年在苏州创办江苏为是科技有限公司,专注于算力网卡和DPU研究及商业化。主要学术成果《Reliable multicast using RDMA over a passive optical cross-connect fabric enhanced with WDM》刊登在2019年的APSIPA杂志上。
课程信息
直播时间:7月8日19:30
直播地点:智猩猩直播间