IT之家 4 月 24 日消息,今天上午,DeepSeek-V4 模型預覽版正式上線并同步開源。

華為官方隨后宣布,通過雙方芯模技術緊密協(xié)同,實現(xiàn)昇騰超節(jié)點全系列產(chǎn)品支持 DeepSeek V4 系列模型。
官方表示,昇騰 950 通過融合 kernel 和多流并行技術降低 Attention 計算和訪存開銷,大幅提升推理性能,結(jié)合多種量化算法,實現(xiàn)了高吞吐、低時延的 DeepSeek V4 模型推理部署。昇騰 A3 超節(jié)點系列產(chǎn)品也全面適配,同時為便于用戶快速微調(diào),提供了基于昇騰 A3 超節(jié)點的訓練參考實現(xiàn)。
IT之家獲悉,基于 DeepSeek V4-Pro 模型,在 8K 輸入場景,昇騰 950 超節(jié)點可實現(xiàn) TPOT 約 20ms 時單卡 Decode 吞吐 4700TPS。DeepSeek V4-Flash 模型,8K 長序列輸入場景下可實現(xiàn) TPOT 約 10ms 時單卡 Decode 吞吐 1600TPS(上述 Benchmark 數(shù)據(jù)均基于 Offine 推理模式采集,不包含 Serving 調(diào)度和框架負載均衡影響)。
基于昇騰 A3 64 卡超節(jié)點結(jié)合大 EP 模式部署,DeepSeek V4-Flash 模型,8K/1K 輸入輸出場景,基于 vLLM 推理引擎可實現(xiàn) 2000+TPS 的單卡 Decode 吞吐,單卡吞吐持續(xù)提升。官方表示,針對 DeepSeek V4-Pro 模型,昇騰 A3 同步支持推理部署,性能持續(xù)優(yōu)化中。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。