一区欧美二区日韩在线|国产在线高清无码不卡|亚洲国产午夜精品理论片|欧美一区二区三高清视频|日韩AV无码久久一区二区|午夜视频一区二区三区四区|久久久精品中文字幕麻豆发布|亚洲va国产日韩欧美精品91

語種
中文簡體 中文繁體 English
營業(yè)廳
網上營業(yè)廳 掌上營業(yè)廳
返回頂部
天翼云息壤大規(guī)模專家并行推理集群上線,開啟推理新紀元!
2025-07-17 云公司
分享:
   

近日,天翼云上線全球運營商首個商用昇騰大規(guī)模專家并行(大EP)推理集群,結合息壤MaaS支持提供萬億級Tokens日調用,支撐用戶國產化智算應用全面用云。自2025年初以來,DeepSeek大模型憑借其超高訓練性價比、高推理性能掀起了全民AI熱潮,人工智能全面邁入大規(guī)模應用階段,推理應用在各行業(yè)全面加速落地,Tokens處理需求量與日俱增,這對推理系統(tǒng)的性能提出了更高的要求。為應對這一挑戰(zhàn),大規(guī)模專家并行推理技術與PD分離技術應運而生,為大模型推理應用的加速規(guī)模應用提供了強大的技術支撐。

大規(guī)??绻?jié)點專家并行技術(簡稱大EP) 是一種針對大規(guī)模深度學習MoE模型(如DeepSeek)的高效推理技術,可對推理路由專家進行大規(guī)模EP并行、對MLA和共享專家進行DP并行,并進行雙流并行通信掩蓋,同時降低模型權重占用的NPU內存,提升KV Cache緩存空間,增加整個集群的吞吐。PD分離技術是指將推理過程中的Prefill計算和Decode計算分開。Prefill和Decode兩者計算類型不同:Prefill為計算密集型,時延主要由算力決定;Decode為訪存帶寬密集型,時延主要由訪存帶寬決定。PD混合部署時,兩者互相干擾:Prefill時,Decode等待;Decode時,Prefill時延增加,P/D時延不穩(wěn)定,資源需求更大。PD分離部署時,Prefill階段和Decode階段分別部署于不同的物理節(jié)點,兩者并行計算以實現硬件平均吞吐效率的有效提升。

PD混合部署示意圖

PD分離部署示意圖

天翼云攜手昇騰圍繞大EP與PD分離技術進行深度創(chuàng)新,將DeepSeek 671B滿血版大模型按專家維度切分到不同的NPU上,使得單卡權重占用內存比例大幅降低,權重加載耗時大幅減少,且可用于KV數據計算的內存顯著增加,實現高并發(fā)、高吞吐、低時延的推理性能。在大EP方案實施過程中,雙方聯(lián)合解決多專家的協(xié)同調度、跨節(jié)點通信擁塞等難題,實現推理API服務調用三級負載均衡:

· API server層實現流式與非流式請求分離;

· 在P/D節(jié)點實現推理請求實例級負載均衡調度;

· 專家級負載均衡實時動態(tài)調整冗余專家來分擔負荷,有效避免計算資源浪費,結合專家親和部署,降低通信量30%。

天翼云昇騰大EP推理集群在輸入1K、輸出1K場景與輸入2K、輸出2K場景下單卡平均端到端吞吐均提升3.8倍左右;在輸入5K、輸出2K場景下,單卡平均端到端吞吐提升5倍以上,滿足長文檔等剛性需求;相比于傳統(tǒng)DeepSeek雙機部署方式,支持3倍以上的用戶并發(fā)量,更好服務于客戶智能化轉型。

天翼云MaaS提供大模型服務的開發(fā)者平臺,提供功能豐富、安全以及高性價比的模型調用服務,同時提供數據集、精調、評測等端到端能力,以及RAG、聯(lián)網搜索等插件服務,全方位保障模型服務的開發(fā)與落地。

天翼云始終堅持以科技創(chuàng)新為根本,堅定不移走自主可控之路,持續(xù)夯實國產云底座,與時俱進,開拓創(chuàng)新滿足各行業(yè)多元化業(yè)務場景需求。在新時代AI發(fā)展浪潮中,引領先進技術的前進方向,不斷優(yōu)化性能,突破創(chuàng)新,為AI智算發(fā)展貢獻強勁動力,服務于千行百業(yè),共創(chuàng)未來。

掃一掃在手機打開當前頁
西林县| 安福县| 阿勒泰市| 来宾市| 榆林市| 泌阳县| 遂溪县| 八宿县| 镶黄旗| 涿州市| 习水县| 延安市| 武鸣县| 宝兴县| 五寨县| 千阳县| 梅州市| 蒙阴县| 桃江县| 如东县| 瓦房店市| 抚顺县| 来凤县| 巴林左旗| 密云县| 普陀区| 镇赉县| 黄骅市| 北安市| 奉新县| 新巴尔虎右旗| 黔西县| 铁岭县| 卢氏县| 大足县| 郸城县| 潼关县| 松江区| 临海市| 清流县| 新巴尔虎左旗|