在江蘇昆山舉行的光合組織 2025 人工智能創(chuàng)新大會(huì)(HAIC2025)上,中科曙光今日發(fā)布并展出了大規(guī)模智能計(jì)算系統(tǒng) —— scaleX 萬卡超集群,這也是國產(chǎn)萬卡級(jí) AI 集群系統(tǒng)首次以真機(jī)形式亮相。

中科曙光高級(jí)副總裁李斌介紹,scaleX 萬卡超集群是曙光發(fā)揮大型計(jì)算機(jī)系統(tǒng)研制經(jīng)驗(yàn)優(yōu)勢,面向萬億參數(shù)大模型、科學(xué)智能等復(fù)雜任務(wù)場景打造的大規(guī)模智能算力基礎(chǔ)設(shè)施方案。面對(duì)人工智能基礎(chǔ)設(shè)施對(duì)性能、效率、可靠性、可擴(kuò)展性等方面的極致需求,scaleX 萬卡超集群在超節(jié)點(diǎn)架構(gòu)、高速互連網(wǎng)絡(luò)、存儲(chǔ)性能優(yōu)化、系統(tǒng)管理調(diào)度等方面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新突破,部分技術(shù)與能力已超越海外同類產(chǎn)品研發(fā)路線圖的 2027 年 NVL576 里程節(jié)點(diǎn)。
附 scaleX 萬卡超集群的核心技術(shù)優(yōu)勢如下:
-
• 優(yōu)勢 1:全球首創(chuàng)單機(jī)柜級(jí) 640 卡超節(jié)點(diǎn)。scaleX 萬卡超集群由 16 個(gè)曙光 scaleX640 超節(jié)點(diǎn)通過 scaleFabric 高速網(wǎng)絡(luò)互連而成,可實(shí)現(xiàn) 10240 塊 AI 加速卡部署,總算力規(guī)模超 5EFlops。作為世界首個(gè)單機(jī)柜級(jí) 640 卡超節(jié)點(diǎn),scaleX640 采用超高密度刀片、浸沒相變液冷等技術(shù),將單機(jī)柜算力密度提升 20 倍,PUE 值低至 1.04。
-
• 優(yōu)勢 2:自主研發(fā)原生 RDMA 高速網(wǎng)絡(luò)。曙光 scaleFabric 網(wǎng)絡(luò),基于國內(nèi)首款 400G 類 InfiniBand 的原生 RDMA 網(wǎng)卡與交換芯片,可實(shí)現(xiàn) 400Gb/s 超高帶寬、低于 1 微秒端側(cè)通信延遲,超節(jié)點(diǎn)間的通信性能達(dá)到業(yè)內(nèi)領(lǐng)先水平,充分釋放萬卡超集群算力,并可將超集群規(guī)模輕松擴(kuò)展至 10 萬卡以上,相比傳統(tǒng) IB 網(wǎng)絡(luò)提升 2.33 倍,同時(shí)網(wǎng)絡(luò)總體成本降低 30%。
-
• 優(yōu)勢 3:存、算、傳緊耦合深度優(yōu)化。通過“超級(jí)隧道”、AI 數(shù)據(jù)加速等設(shè)計(jì),實(shí)現(xiàn)從芯片級(jí)、系統(tǒng)級(jí)到應(yīng)用級(jí)的三級(jí)數(shù)據(jù)傳輸協(xié)同優(yōu)化,使存力平臺(tái)高效應(yīng)對(duì)大模型訓(xùn)練時(shí)萬卡并發(fā)讀寫帶寬極致需求挑戰(zhàn),提升高通量 AI 推理時(shí)的響應(yīng)速度與結(jié)果精準(zhǔn)度,并可將 AI 加速卡資源利用率提高 55%。
-
• 優(yōu)勢 4:超集群數(shù)字孿生與智能調(diào)度。通過物理集群數(shù)字孿生,實(shí)現(xiàn)故障定位、修復(fù)等全流程可視化智能管理;智能化運(yùn)維平臺(tái)可支撐集群長期可用性達(dá) 99.99%;智能調(diào)度引擎可管理萬級(jí)節(jié)點(diǎn)、服務(wù)十萬級(jí)用戶,支持每秒萬級(jí)作業(yè)調(diào)度。
scaleX 萬卡超集群可支持多品牌加速卡以及主流計(jì)算生態(tài),并實(shí)現(xiàn) 400+ 主流大模型、世界模型等適配優(yōu)化。在實(shí)際應(yīng)用中,該超集群可覆蓋大模型訓(xùn)練、金融風(fēng)控、地質(zhì)能源勘探及科學(xué)智能等多元場景。 |