(資料圖片僅供參考)
9月5日,在百度云智大會上,百度智能云聯合度小滿推出《智算中心網絡架構白皮書》。白皮書由百度智能云和度小滿負責高性能網絡落地的一線專家撰寫,內容覆蓋了高性能網絡建設的各個方面,包括不同規模集群的架構選擇、云平臺上的可視化運維工具建設、多租戶的運營方案設計等,為同業提供全流程指導,讓復雜的高性能網絡建設變得簡單。
大模型需要大算力,如何建設高性能網絡是其中最為關鍵的一步。度小滿今年5月正式開源了國內首個千億參數金融大模型——“軒轅”。在金融場景中的任務評測中,軒轅全面超越了市場上的主流開源大模型,贏得了150次回答中63.33%的勝率。隨著大模型的迅猛發展,模型對于底層算力的需求呈指數性增長,智能算力規模的持續擴大帶來的是GPU算力部署規模日益膨脹,對于高性能網絡的要求也日益增多。
隨著度小滿模型參數規模超過千億,為滿足不斷增加的算力需求、度小滿私有云模式的智算中心也在不斷升級,低時延、大帶寬、穩定性運行、可運維性高的大規模智算網絡正是智算中心搭建的重要基石。在建設私有云模式的智算中心的過程中,度小滿聯合百度智能云,構建了一套私有云智算網絡,在支撐萬卡GPU規模的同時,相較于業內常見的Dragonfly、Tours網絡拓撲,網絡帶寬更充足,節點間跳步數更穩定性,網絡延時指標縮短到3微秒以內,具備端到端的可觀測性能力與故障自愈能力,無阻塞、低時延、高可靠的網絡設計有效支撐了上層智算應用的快速迭代和發展,為“軒轅”大模型的訓練提供了穩定的網絡保障。
目前,度小滿智算網絡中心已建設成為國內金融行業首批私有云模式下的萬卡規模智算中心,為“軒轅”大模型的訓練提供了穩定的網絡保障。
推廣
關鍵詞: