您當前的位置 :創(chuàng)業(yè) >
聯(lián)想將單臺服務器運行大模型性能推向新高
2025-03-18 13:38:38   來源:中國經(jīng)濟網(wǎng)  分享 分享到搜狐微博 分享到網(wǎng)易微博

近日,聯(lián)想宣布旗下首款AMD AI大模型訓練服務器聯(lián)想問天WA7785a G3在單機部署671B(滿血版) DeepSeek大模型時,可實現(xiàn)極限吞吐量6708token/s,將單臺服務器運行大模型的性能推向了新高。

據(jù)悉,依托聯(lián)想萬全異構(gòu)智算平臺,聯(lián)想通過訪存優(yōu)化、顯存優(yōu)化、PCIe 5.0全互聯(lián)架構(gòu)創(chuàng)新以及精選SGLang框架中性能最優(yōu)算子等諸多創(chuàng)新方式,對大模型從預訓練、后訓練到推理的全流程進行持續(xù)優(yōu)化,在單臺部署DeepSeek 671B大模型的聯(lián)想問天WA7785a G3上實測最高吞吐量達6708 token/s。

在模擬問題對話場景(上下文序列長度128/1K)時,最高可支持并發(fā)數(shù)158,TPOT 93毫秒, TTFT 2.01秒;而在模擬代碼生成(上下文序列長度512/4K )時,并發(fā)數(shù)可達140,TPOT 100毫秒, TTFT 5.53秒。意味著單臺聯(lián)想問天WA7785a G3可以支撐1500人規(guī)模企業(yè)的正常使用,是繼聯(lián)想問天WA7780 G3服務器單機部署滿血版DeepSeek大模型總吞吐量突破2500 token/s之后,單機部署該大模型推理性能的又一次突破。

此次突破是聯(lián)想中國基礎設施業(yè)務群、聯(lián)想研究院ICI實驗室和AMD聯(lián)合設計、協(xié)同調(diào)優(yōu)、共同實現(xiàn)的。此結(jié)果也并非最終結(jié)果,聯(lián)想與AMD還在持續(xù)嘗試深度調(diào)優(yōu)新方法,實現(xiàn)更高調(diào)優(yōu)突破。

關(guān)鍵詞:


[責任編輯:ruirui]





關(guān)于我們| 客服中心| 廣告服務| 建站服務| 聯(lián)系我們
 

中國焦點信息網(wǎng) 版權(quán)所有 滬ICP備2022005074號-20,未經(jīng)授權(quán),請勿轉(zhuǎn)載或建立鏡像,違者依法必究。