當前AI超大模型的參數(shù)已達千億甚至萬億級別,組網(wǎng)規(guī)模的大幅增長,導(dǎo)致網(wǎng)絡(luò)管理更加復(fù)雜,擁塞控制、負載均衡的難度增加等問題,為智算中心發(fā)展帶來嚴峻挑戰(zhàn)。
在AI大模型訓(xùn)練場景下,機內(nèi)與機外的集合通信操作產(chǎn)生大量通信數(shù)據(jù)。服務(wù)器內(nèi)GPU要求支持高速互聯(lián)協(xié)議,機間GPU的高速互聯(lián)對網(wǎng)絡(luò)的單端口帶寬、節(jié)點間的可用鏈路數(shù)量,及網(wǎng)絡(luò)總帶寬提出了更高需求。
AI大模型訓(xùn)練中集群規(guī)模更大,進一步增大配置的復(fù)雜度,如何實現(xiàn)多臺并行部署配置、自動選擇擁塞控制機制相關(guān)參數(shù),以及根據(jù)網(wǎng)卡類型與業(yè)務(wù)類型選擇相關(guān)配置等自動化部署,是智算中心發(fā)展面臨的又一大挑戰(zhàn)。
智算中心的建設(shè)往往側(cè)重于前期投資,忽視運營模式的可持續(xù)性。高效的維保服務(wù)也是對智算中心可持續(xù)運行的保障,智算中的運營與維保是目前亟待解決的問題。