NVIDIA于近日宣布與微軟展開一項為期多年的合作,雙方將共同打造全球最強大的AI超級計算機。

NVIDIA于近日宣布與微軟展開一項為期多年的合作,雙方將共同打造全球最強大的AI超級計算機。微軟Azure的先進超級計算基礎設施,結合NVIDIA GPU、網絡和全棧式AI軟件為此超級計算機賦能,以幫助企業訓練、部署和擴展包括大型、先進模型在內的AI。

Azure的云端AI超級計算機包括強大、可擴展ND與NC系列虛擬機,其專為AI分布式訓練和推理而優化,是首個采用NVIDIA先進AI堆棧的公有云,并添加了數以萬計的NVIDIA A100和H100 GPU、NVIDIA Quantum-2 400Gb/s InfiniBand網絡和NVIDIA AI Enterprise軟件套件在平臺上。
在此次合作中,NVIDIA將使用Azure的可擴展虛擬機實例來研究并進一步加快生成式AI的發展。生成式AI是正在迅速興起的AI領域,其中像Megatron Turing NLG 530B這樣的基礎模型是無監督、自學習算法的基準,這些算法被用來創造新的文本、代碼、數字圖像、視頻或音頻。
兩家公司還將合作優化微軟的DeepSpeed深度學習優化軟件。NVIDIA的全棧式AI工作流和軟件開發工具包皆專為Azure進行了優化,并將提供給Azure企業客戶。
NVIDIA企業計算副總裁Manuvir Das表示:“AI技術正在加速發展,行業的采用速度也在同時加快。基礎模型上的突破引發了研究浪潮、培育了新的初創企業并啟動了新的企業應用程序。我們將與微軟一同為研究者和企業提供最先進的AI基礎設施和軟件,使他們能夠充分利用AI的變革性力量。”
微軟云與AI事業部執行副總裁Scott Guthrie表示:“AI正在掀起整個企業和工業計算的下一輪自動化浪潮,幫助企業機構在變幻莫測的經濟環境中得以事半功倍。我們與NVIDIA合作,打造全球可擴展性最強的超級計算機平臺,為微軟Azure上的每家企業提供最先進的AI功能。”
通過Azure上的NVIDIA計算與Quantum-2 InfiniBand實現可擴展峰值性能
微軟Azure的AI優化虛擬機實例采用了NVIDIA最先進的數據中心GPU,并且是首個搭載NVIDIA Quantum-2 400Gb/s InfiniBand網絡的公有云實例。客戶可以在單個集群中部署數千GPU來訓練最具規模的大型語言模型,大規模地構建最復雜的推薦系統以及實現生成式AI。
目前的Azure實例采用了NVIDIA Quantum 200Gb/s InfiniBand網絡和NVIDIA A100 GPU。未來的實例將集成NVIDIA Quantum-2 400Gb/s InfiniBand網絡和NVIDIA H100 GPU。結合Azure先進的計算云基礎設施、網絡和存儲,這些通過AI優化的產品將為任何規模的AI訓練和深度學習推理工作負載提供可擴展的峰值性能。
加速AI的開發和部署
另外,該平臺將支持廣泛的AI應用和服務,包括微軟DeepSpeed和NVIDIA AI Enterprise軟件套件。
微軟DeepSpeed將使用NVIDIA H100 Transformer引擎來加速基于Transformer的模型,這些模型可用于大型語言模型、生成式AI和編寫計算機代碼等應用。該技術將8位浮點精度能力應用于DeepSpeed,大大加快了Transformer的AI計算速度,使其吞吐量達到16位運算的兩倍。
被全球企業廣泛采用的NVIDIA AI平臺軟件NVIDIA AI Enterprise已通過認證并支持搭載NVIDIA A100 GPU的微軟Azure實例。未來的軟件版本將增加對搭載NVIDIA H100 GPU的Azure實例的支持。
NVIDIA AI Enterprise包括用于語音AI的NVIDIA Riva以及NVIDIA Morpheus網絡安全應用框架,可簡化從數據處理和AI模型訓練到仿真和大規模部署等AI工作流中的每一步。







