該集群采用騰訊云星星海自研服務器,國內首發(fā)搭載英偉達最新代次H800 GPU,服務器之間采用業(yè)界最高的3.2T超高互聯(lián)帶寬,為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延遲的集群算力。
當下,大模型訓練如火如荼,且參數(shù)量級已進入萬億時代,單體服務器算力有限,隨著算力需求的增長,因此需要將大量服務器通過高性能網(wǎng)絡相連,打造大規(guī)模算力集群。
集群的算力要求,意味著用于采購硬件的資金投入是指數(shù)級增長,這給不少企業(yè)帶來了巨大的現(xiàn)金流壓力。自己采購GPU,面臨著成本和供應鏈問題,且峰谷問題較為明顯。
例如,本地的物理CPU/GPU資源配比是固定綁定在一起的,擴展性比較差。有時CPU跑滿、GPU空閑(或相反)。造成效率低下和資源浪費。在云上,這些資源可以池化隨取隨用,按需按量取用。
面對業(yè)務架構多樣、用量無法準確預估、模型及環(huán)境部署難度大等問題,騰訊認為,云上算力能幫助企業(yè)完成隨機突發(fā)的算力需求。
目前大熱的人工智能大模型,其訓練需要海量數(shù)據(jù)和強大的算力來支撐訓練和推理過程,其中數(shù)據(jù)主要由服務器和光模塊存儲、運輸,算力支撐則依賴各類芯片。
算力需求陡增,業(yè)界普遍認為,高性能芯片的短缺是限制國內大模型行業(yè)發(fā)展的重要因素。
但在騰訊看來,用上了先進芯片并不代表就擁有了先進算力,原因在于高性能計算存在“木桶效應”,一旦計算、存儲、網(wǎng)絡任一環(huán)節(jié)出現(xiàn)瓶頸,就會導致運算速度嚴重下降。
以算力對網(wǎng)絡的要求為例:目前,GPU并行是大模型訓練的必備技術,不同于傳統(tǒng)并行以加快計算速度為目的,大模型的并行計算往往還要考慮怎樣將龐大的參數(shù)有機地分布到多張GPU卡中,并保持不同GPU卡之間有效的通信,整體配合完成大模型的訓練部署。
即使是目前業(yè)界已有的GPU分布式訓練方案,也嚴重受制于服務器之間的通信、拓撲、模型并行、流水并行等底層問題。如果只有分布式訓練框架,甚至都無法正常啟動訓練過程。這也是為什么當時GPT-3已經(jīng)發(fā)布一年,卻只有少數(shù)企業(yè)可以復現(xiàn)GPT-3。
換句話而言,先進算力的背后,是先進芯片、先進網(wǎng)絡、先進存儲等一系列的支撐,缺一不可。
騰訊新一代HCC集群搭載了英偉達最新代的H800芯片,這是H800在國內首發(fā)。不過,騰訊暫未透露采購了多少H800。
H800是英偉達新代次處理器,基于Hopper架構,對跑深度推薦系統(tǒng)、大型AI語言模型、基因組學、復雜數(shù)字孿生等任務的效率提升顯著。
網(wǎng)絡層面,騰訊自研的星脈網(wǎng)絡,為新一代集群帶來了3.2T的超高通信帶寬。實測結果顯示,搭載同樣的GPU卡,3.2T星脈網(wǎng)絡相較前代網(wǎng)絡,能讓集群整體算力提升20%,使得超大算力集群仍然能保持優(yōu)秀的通信開銷比和吞吐性能。并提供單集群高達十萬卡級別的組網(wǎng)規(guī)模,支持更大規(guī)模的大模型訓練及推理。
存儲層面,騰訊云自研的文件存儲、對象存儲架構,具備TB級吞吐能力和千萬級IOPS,充分滿足大模型訓練的大數(shù)據(jù)量存儲要求。
在自研芯片方面,騰訊已經(jīng)量產(chǎn)了用于AI推理加速的紫霄芯片,并已在語音轉寫、OCR等業(yè)務場景使用,用于視頻轉碼的滄海芯片,已經(jīng)在云游戲、直點播等場景中規(guī)模落地。