腾讯与DeepSeek勾搭背后:一场中国确立者开源的奏效
界面新闻记者 | 陆柯言
险些在马化腾与梁文锋同框引起柔顺的同期,DeepSeek与腾讯偷偷进行了一次工夫勾搭。用腾讯工程师的话来说,这次勾搭的后果,特地于竣事了AI落地“终末一公里”的冲破。
近日,DeepSeek工程师在Github首页显露了这次勾搭细节。这名工程师示意,腾讯团队的代码孝顺,让DeepEP竣事了“”huge speedup般的性能进步。这一次进步,也径直影响到每一位使用DeepSeek的用户。
为此,界面新闻独家采访了腾讯混元大模子背后的星脉网罗团队,复原了这次勾搭背后的故事。
这次工夫交流最早要回首到本年2月。其时,DeepSeek晓示开源五个中枢代码库,以全透明的神志公开其奈何用1/5的硬件资源竣事传统万卡集群着力的中枢工夫,使得更多确立者偶然以低老本复现高性能AI锻真金不怕火决策,成为中国大模子开源生态的一个里程碑。
其中一个被开源的代码库名为DeepEP。这是一个有利为MoE模子锻真金不怕火和推理打造的通讯库,旨在处置不容MoE架构可膨胀性的要津瓶颈,重心是优化通讯、减少延伸和提高GPU资源诳骗率。
MoE架构以其对模子锻真金不怕火及推理老本的极大优化才略而著称,恰是为GPT-4、DeepSeek等超大参数模子而生。24年头,腾讯自研的混元大模子,也在国内领先选择了MoE架构。以前MoE架构的大模子锻真金不怕火都需要依赖老本振作的英伟达NCCL通讯库,而DeepEP的出现则让它们开脱了这种依赖。
但DeepEP并不是全能的,它有“荣华病”:在老本较高的InfiniBand(IB)专用网罗中游刃有余,却难以适配更普适的RoCE(基于以太网)。而中国互联网厂商选择的大多都是RoCE网罗,因此多数企业在部署DeepEP时都发现了网罗性能欠安的问题。
网罗性能欠安带来的影响是权贵的。腾讯星脉网罗团队首席架构师夏寅贲博士讲明谈,大模子的锻真金不怕火和推理需要大都GPU,背后是极高的老本。网罗施展欠安会导致锻真金不怕火或推理经由中通讯时候过长,特地于GPU在恭候通讯,浪费了腾贵的GPU资源,同期也形成了用户在屏幕前的永劫候恭候。
每家互联网厂商都在部署DeepEP,为什么开始处置问题的是腾讯?夏寅贲博士以为,一个病笃的前提是,收获于QQ、微信、游戏、腾讯云等高并发业务的需求,腾讯在以前十几年间竣事了网罗通讯软硬件的全面自研,也积存了丰富的实战训诲。
2022年,腾讯发现针对AI场景的网罗需求与传统的数据中心业务存在极大各别,因此开动假想针对AI大模子的专用网罗,即星脉网罗,旨在为腾讯混元大模子搭建高性能网罗底座。
腾讯开动入辖下手处置DeepEP在RoCE网罗性能欠安的问题。基于新一代自研TRMT(Tencent Remote Memory Transport)通讯库,腾讯星脉网罗团队王人集在RoCEv2网罗契约栈与双端口网卡架构的盘问训诲,对DeepEP进行了优化和增强:
一方面,诳骗流量预计划工夫来最大化双端口网卡的带宽诳骗率,股票操作另一方面,使GPU绕过CPU的终端,由GPU直控RDMA(费事径直内存拜访)通讯来摒除终端面支拨,将通讯时延诽谤至硬件极限。最终,竣事了DeepEP在RoCEv2网罗性能进步100%、IB网罗性能进步30%。
“在锻真金不怕火场景中,性能进步10%意味着老本不错下落10%,而在推理任务当中,除了老本下落,用户恭候的时候也不错减少10%。也等于说,以前问DeepSeek一个问题,以前要十秒钟才调获取谜底,当今平均不错下落到九秒。固然,咱们还会赓续奋勉裁减这个时候。”腾讯星脉网罗团队通讯库架构师黄晓洁示意。
AI网罗按照传输契约的不同可分为两类:IB网罗和RoCE网罗。其中IB网罗专为高性能假想和AI锻真金不怕火而生,以低延伸著称。但由于英伟达险些驾驭了IB网罗的中枢硬件,生态阻塞且老本较高。有计划到供应“卡脖子”风险,腾讯星脉网罗一开动就采用了基于以太网的RoCE网罗部署,并自研了稳健新式AI业务需求的通讯库TCCL,并进一步演进到新一代TRMT通讯库。
腾讯星脉网罗团队通讯库架构师陈明卓提到,腾讯与DeepSeek团队一直存在轮廓的工夫一样,其中也包括对改日工夫的演进。总的来说,AI网罗最中枢的诉求是无尽诽谤通讯占比,也等于诽谤GPU恭候通讯的时候。
以前向理通讯问题的一直是CPU,但效率太慢。腾讯的中枢处置想路是,把多个GPU组合成一个超等GPU,使得它们相互之间相互拜访数据的才略变得更强,冉冉替代CPU参与的场景。这亦然国产GPU算力相对较低的配景下,进步AI网罗性能的一种主流处置决策。
刻下,上述工夫后果都照旧全面开源至DeepEP社区,并应用于腾讯混元大模子等项筹画锻真金不怕火推理,这一后果也获取了来自国内其他头部互联网厂商的交流和漠视。
腾讯是DeepSeek开源的受益者。马化腾曾在一季度的腾讯功绩会上说起DeepSeek对腾讯的影响:“咱们绝顶信赖市集上出现了一家确凿开源、且相等目田的一款产物,况兼中国工程师在老本和效率方面的上风也相等显明。腾讯经过了正式想考,不仅是云业务接入了DeepSeek,元宝也采用了积极拥抱。”
同期,腾讯亦然各人开源社区的主要孝顺者之一。事实上,不论是普世价值上的工夫民主化,照旧增强产业信任度,对任何一家AI工夫编削的参与者来说,开源都是极为病笃的一环,亦然团聚确立者生态的策略采用。