【摘要】“東數(shù)西算”工程通過構(gòu)建數(shù)據(jù)中心、云計算和大數(shù)據(jù)一體化的超級算力網(wǎng)絡體系,實現(xiàn)東部算力需求和西部能源供給的聯(lián)動調(diào)配,為數(shù)字化轉(zhuǎn)型和社會民生提供保障和服務。以國家超算為樞紐節(jié)點開展國家高性能算力網(wǎng)絡建設具有得天獨厚的條件,在全國一體化算力網(wǎng)絡布局中起連接、統(tǒng)籌的作用。“東數(shù)西算”加快了高性能算力中心實現(xiàn)云網(wǎng)協(xié)同,提升算力服務的品質(zhì)和使用效率,是實現(xiàn)國家數(shù)字經(jīng)濟發(fā)展和碳中和目標的重要舉措。
【關(guān)鍵詞】“東數(shù)西算” 算力網(wǎng)絡 高性能計算 基礎設施建設 【中圖分類號】F49 【文獻標識碼】A
“東數(shù)西算”是世紀工程,算力網(wǎng)絡是國家新型基礎設施的骨架
隨著我國現(xiàn)代化工業(yè)的飛速發(fā)展,互聯(lián)網(wǎng)、制造業(yè)、服務業(yè)等行業(yè)日益增多的數(shù)據(jù)無時無刻不在考驗著國家信息化基礎設施的承受能力以及調(diào)度能力。“東數(shù)西算”是在全國范圍內(nèi)實現(xiàn)算力和應用資源按需調(diào)度的基礎設施工程,是以算力中心、數(shù)據(jù)中心、高速網(wǎng)絡為基礎設施,由云計算、大數(shù)據(jù)以及智能計算為核心技術(shù)構(gòu)建的一體化新型算力網(wǎng)絡體系。我國東部地區(qū)數(shù)據(jù)產(chǎn)生量大、數(shù)據(jù)密集、算力資源緊張,西部地區(qū)地域廣袤,擁有比東部地區(qū)更豐富的可再生資源,充分利用西部地區(qū)的計算資源來高效執(zhí)行東部地區(qū)有巨大計算需求的數(shù)據(jù),能夠在全國層面更高效地支撐以降低全社會能耗為目標的計算方式,更穩(wěn)定地解決算力增長需求,實現(xiàn)綠色可持續(xù)發(fā)展。
新基建已經(jīng)被證明是繁榮數(shù)字經(jīng)濟的基石,毫無疑問像城際高速鐵路和城際軌道交通、新能源汽車充電樁、人工智能和工業(yè)互聯(lián)網(wǎng)等領(lǐng)域的新基建絕大部分將在東部經(jīng)濟發(fā)達省份和地區(qū)進行,而隨著新基建的推進與其規(guī)模性效益的發(fā)揮,海量的數(shù)據(jù)將密集地產(chǎn)生在我國中東部地區(qū),極大促進中東部地區(qū)算力需求的增長。從這個意義上說,“東數(shù)西算”將是我國推進新基建的有效保障,是基礎設施的重要組成部分,其意義遠不止于數(shù)據(jù)中心和算力中心的建設,而在于能夠?qū)F(xiàn)有的和將來的數(shù)據(jù)中心與算力中心在區(qū)域內(nèi)與全國范圍內(nèi)連接成網(wǎng),建設成為國家新基建工程的骨架,更高效地聯(lián)通全局計算存儲與網(wǎng)絡資源,更合理地引導數(shù)據(jù)和應用的布局,以更綠色的能耗開銷實現(xiàn)全國算力的規(guī)?;c高可擴展性。
“東數(shù)西算”將是我國建立在能源優(yōu)化布局上的世紀新型基礎設施,是在全國范圍內(nèi)按區(qū)域建設數(shù)據(jù)中心樞紐、實現(xiàn)數(shù)據(jù)遷移和算力平衡化的高速互聯(lián)網(wǎng)絡,主體上主要包括算力樞紐與算力網(wǎng)絡的建設,除了帶動我國數(shù)據(jù)產(chǎn)業(yè)的投資優(yōu)化,還將在更大程度上實現(xiàn)數(shù)據(jù)產(chǎn)業(yè)的優(yōu)化布局。
隨著“東數(shù)西算”以及多層次數(shù)據(jù)中心布局的逐步推進,國家高性能算力網(wǎng)絡將成為支撐東部數(shù)據(jù)到西部運算的重要基礎設施,其組成將包括高速數(shù)據(jù)中心直連網(wǎng)、云網(wǎng)一體化、高性能邊緣接入網(wǎng)以及數(shù)據(jù)中心內(nèi)部高速網(wǎng)絡等,需要加速實現(xiàn)多云間、云和數(shù)據(jù)中心間以及云和網(wǎng)絡間的資源聯(lián)動,真正實現(xiàn)云網(wǎng)融合。重點是建設區(qū)域數(shù)據(jù)中心間的按需彈性網(wǎng)絡,優(yōu)化網(wǎng)絡結(jié)構(gòu),實現(xiàn)數(shù)據(jù)中心間的帶寬資源可按時/按需調(diào)整,減少數(shù)據(jù)繞轉(zhuǎn)時延。數(shù)據(jù)中心端到端單向網(wǎng)絡時延原則上能控制在10毫秒范圍內(nèi),是保證網(wǎng)絡實時性、實現(xiàn)全面云接入、提升跨區(qū)域算力調(diào)度水平的基本保障。
高性能算力網(wǎng)絡從字面上理解是算力資源信息的分發(fā)網(wǎng)絡,是算力資源提供方與算力消費方之間的高速互聯(lián)平臺。本質(zhì)上要求高帶寬、低延時,支持帶寬的彈性分配,可通過高速數(shù)據(jù)傳輸、共享與任務分發(fā)的手段來實現(xiàn)算力資源的合理調(diào)度,進而降低能耗。這種以算為中心、網(wǎng)為根基,將“網(wǎng)、云、數(shù)、智、安、邊、端、鏈”等深度融合并提供一體化服務的方式,將實現(xiàn)從以網(wǎng)絡為核心的信息交換到以算力為核心的信息數(shù)據(jù)處理的轉(zhuǎn)變。
國家高性能算力網(wǎng)絡的定位可以從國家層面和地域?qū)用鎯蓚€不同的角度來分析。從國家層面來看,是以八個核心算力樞紐節(jié)點為核心,建設算力樞紐的數(shù)據(jù)中心內(nèi)網(wǎng)絡、數(shù)據(jù)中心間網(wǎng)絡以及跨地域的算力樞紐間網(wǎng)絡。八個節(jié)點的布局建設,定位不同,發(fā)揮的作用也有所不同。貴州、內(nèi)蒙古、甘肅、寧夏這四個節(jié)點要打造面向全國的非實時性算力保障基地,定位于不斷提升算力服務品質(zhì)和利用效率,充分發(fā)揮其資源優(yōu)勢,夯實網(wǎng)絡等基礎保障,積極承接全國范圍的后臺加工、離線分析、存儲備份等非實時算力需求。京津冀、長三角、粵港澳大灣區(qū)、成渝四個節(jié)點要服務于重大區(qū)域發(fā)展戰(zhàn)略實施需要,定位于進一步統(tǒng)籌好城市內(nèi)部和周邊區(qū)域的數(shù)據(jù)中心布局,實現(xiàn)大規(guī)模算力部署與土地、用能、水、電等資源的協(xié)調(diào)可持續(xù),優(yōu)化數(shù)據(jù)中心供給結(jié)構(gòu),擴展算力增長空間。
在省市區(qū)域?qū)用妫梢試页阒行?、地方超算中心和大型算力中心為核心,先行建設超算中心與各規(guī)模以上數(shù)據(jù)中心間的星型網(wǎng)絡,面向大型AI模型訓練、反恐/應急等時間上算力需求不均衡的應用以及高分影像數(shù)據(jù)處理、超大型機械/流體仿真等數(shù)據(jù)密集型與計算密集型應用等,建設按需分配與彈性調(diào)整的算力網(wǎng)絡基礎設施,通過算網(wǎng)一體的云網(wǎng)融合架構(gòu),實現(xiàn)基于骨干、城域的網(wǎng)絡資源層、算力路由層,建立多中心間的一體化算力平臺和算力服務層,進而實現(xiàn)數(shù)據(jù)密集型與計算密集型應用在算力網(wǎng)絡環(huán)境下的適配和部署,滿足傳統(tǒng)高性能計算應用的彈性需求和擴展性需求。
國家超算中心是國家高性能算力網(wǎng)絡建設的樞紐節(jié)點
一般來說,國家高性能算力網(wǎng)絡是由運力和算力兩個基本要素組成。運力以網(wǎng)絡為基礎實現(xiàn)算力樞紐、數(shù)據(jù)中心與邊緣節(jié)點之間的互聯(lián)互通,主要提供數(shù)據(jù)交換和算力路由服務,綜合考慮任務類型、算力需求和成本等因素,將用戶任務和數(shù)據(jù)調(diào)度部署在效益相對較高的算力樞紐節(jié)點中。算力因其硬件和應用服務類型的差異可分為通用算力、智能算力和超算算力。通用算力是由傳統(tǒng)CPU芯片構(gòu)成的集群服務器算力,可以支持對算力速度和類型要求較低的分布式計算應用。智能算力由多數(shù)量、多類型的智能加速器硬件構(gòu)成,AI智能芯片為人工智能應用訓練和推理過程提供服務。超算算力以大規(guī)模和超大規(guī)模計算節(jié)點和高速互聯(lián)的網(wǎng)絡構(gòu)成,節(jié)點往往配置有異構(gòu)或眾核的高性能處理器,是支持高精度浮點計算能力的高性能集群系統(tǒng)。
現(xiàn)階段的算力中心建設大致包含高性能超算集群、高性能網(wǎng)絡和存儲的硬件系統(tǒng)以及高性能計算支撐軟件系統(tǒng)等,其中軟件系統(tǒng)主要包含三類:一是高性能計算服務化與調(diào)度系統(tǒng),提供多基礎設施的整合和資源編排能力。能夠?qū)崿F(xiàn)高性能計算、輔助算力資源池、AI算力資源池的統(tǒng)一管理,提供資源標準化、資源申請、資源調(diào)度、資源變更、資源釋放等功能,提升資源交付的效率。二是超算系統(tǒng)運行綜合管理系統(tǒng),對環(huán)境提供監(jiān)控管理、對資源進行統(tǒng)一納管、提供智能運營/運維服務、提供可視化管理。三是機房與動環(huán)運行管理系統(tǒng),對各個獨立分布的動力設備、機房環(huán)境以及機房安保監(jiān)控對象提供實時的可視化管理。
國家高性能算力網(wǎng)絡將成為高性能計算應用的基礎設施,在科學計算領(lǐng)域,可用于氣候模擬天氣預報、揭示地球地質(zhì)演化進程、自然災害預測、大工程模擬建模試驗等;在應用生產(chǎn)領(lǐng)域,可用于地質(zhì)勘測、生物醫(yī)療健康等。隨著更強大、更高計算能力的超級計算機的出現(xiàn),可以模擬規(guī)模越來越大的微觀系統(tǒng)、時間越來越長的微觀過程以及細節(jié)越來越精細的微觀現(xiàn)象,從而極大增強人類對自然的認知能力。時至今日,高性能計算在基礎科學研究、工業(yè)工程、公益事業(yè)、國防安全等各個領(lǐng)域的廣泛應用,解決了大批重大、關(guān)鍵、挑戰(zhàn)性的重要科學和工程問題,對于支撐科技創(chuàng)新、推動經(jīng)濟發(fā)展具有重要作用。
2021年5月,國家發(fā)展改革委等多部門聯(lián)合印發(fā)的《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》中給出的算力網(wǎng)絡國家樞紐節(jié)點布局總體思路是:第一,圍繞國家重大區(qū)域發(fā)展戰(zhàn)略,根據(jù)能源結(jié)構(gòu)、氣候環(huán)境等布局,建設全國一體化算力網(wǎng)絡國家樞紐節(jié)點,發(fā)展數(shù)據(jù)中心集群;第二,在國家樞紐節(jié)點之間進一步打通網(wǎng)絡傳輸通道,提升跨區(qū)域算力調(diào)度水平。在全國一體化大數(shù)據(jù)中心體系總體布局中,設計規(guī)劃了8個國家算力樞紐節(jié)點和10個國家數(shù)據(jù)中心集群。其中離散的國家數(shù)據(jù)中心集群提供主要的算力支持,國家算力樞紐在全國一體化算力網(wǎng)絡布局中起連接、統(tǒng)籌的作用。算力樞紐是使離散的數(shù)據(jù)中心集群相互聯(lián)系的中心環(huán)節(jié),是全國一體化算力網(wǎng)絡建設的關(guān)鍵,在“東數(shù)西算”工程中起到合理統(tǒng)籌、布局數(shù)據(jù)的作用。
我國目前已經(jīng)建立了天津、濟南、長沙、深圳、廣州、無錫、鄭州、昆山、西安、成都等10家國家超級計算中心,近5年內(nèi)總算力將超過10EB,是我國科學工程計算、行業(yè)計算與社會計算的主要算力設施,是國家戰(zhàn)略科技基礎設施與數(shù)字經(jīng)濟發(fā)展制高點。將國家超算中心作為建設國家高性能算力網(wǎng)絡的樞紐節(jié)點,無論是在基礎設施條件還是服務能力上都具備得天獨厚的優(yōu)勢。
以超算中心為樞紐的高性能算力網(wǎng)絡需要實現(xiàn)三個方面的主要功能:高性能計算服務架構(gòu)、多中心間算力融合與調(diào)度、多中心算力互連網(wǎng)絡基礎設施建設。第一,基于國家超算中心建設高性能計算服務架構(gòu)?;趪页阒行模ㄔO超算云平臺,整合超算云資源池,構(gòu)建針對高性能計算應用的云原生體系結(jié)構(gòu),完成高性能計算應用的云化改造和服務化封裝,實現(xiàn)高性能計算應用的按需彈性計算,完善計費策略與服務。第二,基于國家超算中心實現(xiàn)多中心間算力融合與調(diào)度?;趪页阒行模ㄔO超算互聯(lián)網(wǎng)服務平臺,在高性能算力網(wǎng)絡中扮演算力路由的角色,實現(xiàn)多中心高性能資源協(xié)同調(diào)度及資源優(yōu)化布局。以國家超算中心為樞紐,建立數(shù)據(jù)互聯(lián)與高效處理機制,實現(xiàn)多中心之間、中心內(nèi)部的級聯(lián)架構(gòu)下資源跨域分配和自動化部署。面向超算互聯(lián)網(wǎng)構(gòu)建低代價分布式計算框架,以支持數(shù)據(jù)處理、人工智能訓練與高性能計算的不同算子在數(shù)據(jù)中心間形成跨域工作流。第三,基于國家超算中心實現(xiàn)多中心算力互連網(wǎng)絡基礎設施。使用IPv4和IPv6網(wǎng)絡環(huán)境下的超算中心互聯(lián)方法、路由策略和治理體系,建立超算中心間大帶寬、低延時、高可靠互聯(lián)網(wǎng)絡。
因此,國家超算中心將會是國家高性能算力網(wǎng)絡建設的樞紐,需加大利用超算算力統(tǒng)籌、優(yōu)化多中心分布式計算體系結(jié)構(gòu)的研究和建設。在多數(shù)據(jù)中心的級聯(lián)架構(gòu)下,不同算力下的通信速率、I/O速率大不相同,速率慢會成為多中心計算的瓶頸,基于超算中心的多中心分布式計算架構(gòu)設計,可以克服“東數(shù)西算”級聯(lián)架構(gòu)的多層通信問題,降低多層通信延遲帶來的影響,通過合理的高性能算力網(wǎng)絡縱向結(jié)構(gòu),找到平衡計算、I/O和通信的最佳點,進一步提升高性能算力網(wǎng)絡的性能。
國家高性能算力網(wǎng)絡將極大促進傳統(tǒng)行業(yè)的升級轉(zhuǎn)型
建設國家高性能算力網(wǎng)絡會直接刺激芯片等上游產(chǎn)業(yè)的變革。數(shù)據(jù)中心是國家高性能算力網(wǎng)絡的重要組成部分,計算、存儲、網(wǎng)絡傳輸是數(shù)據(jù)中心的三個核心功能。數(shù)據(jù)中心提升算力的主要方向是種類和數(shù)量更多的計算單元。作為核心的計算單元,在建設國家高性能算力網(wǎng)絡的過程中,會直接拉動服務器芯片和GPU等異構(gòu)算力芯片的巨大需求。同時,建設高性能算力網(wǎng)絡也會拉動各種功能特化型芯片的研發(fā)和應用,如面向AI模型訓練的AI芯片,直接面向大數(shù)據(jù)處理平臺的DPU芯片,網(wǎng)絡傳輸芯片、存儲芯片、數(shù)據(jù)采集芯片等,這將極大促進我國芯片行業(yè)多元化發(fā)展。
支持跨數(shù)據(jù)中心節(jié)點的資源管理和任務調(diào)度是國家高性能算力網(wǎng)絡一個不可或缺的部分,其對操作系統(tǒng)提出了更高的要求。操作系統(tǒng)在計算環(huán)境多變、需求多樣、場景復雜等環(huán)境下需要對硬件資源、數(shù)據(jù)資源、系統(tǒng)平臺及應用軟件進行靈活的軟件定義,以支持感知互聯(lián)、計算認知、動態(tài)適配和反饋控制等跨數(shù)據(jù)中心節(jié)點的應用特點。具體來說,操作系統(tǒng)需要支持跨數(shù)據(jù)中心的節(jié)點資源管理與任務調(diào)度,支撐系統(tǒng)操作與管理環(huán)境、并行開發(fā)環(huán)境和應用支持環(huán)境三大部分的軟件框架與設計能力,主要包括節(jié)點操作系統(tǒng)、資源管理系統(tǒng)、并行文件系統(tǒng)和高速通信庫,負責管理硬件資源,進行基礎的任務調(diào)度、資源分配、通信傳輸以及文件數(shù)據(jù)存儲等。
云計算在本質(zhì)上是依托計算機網(wǎng)絡建立起來的,將集中或者相對集中的計算與資源以服務化的方式滿足客戶使用需求的基礎設施與商業(yè)模式。云計算在實現(xiàn)上對算力網(wǎng)絡有著天然的依賴,算力網(wǎng)絡能夠在更大的區(qū)域內(nèi)讓最終客戶享受更好的云計算服務。隨著近幾年云計算規(guī)模不斷擴大和在各行各業(yè)內(nèi)的應用,工業(yè)云的發(fā)展在很大程度上帶動了傳統(tǒng)企業(yè)的轉(zhuǎn)型升級。工業(yè)云向企業(yè)提供云設計、云制造、云協(xié)同、云資源、云服務、云存儲等服務,可落實于工業(yè)軟件設計、工業(yè)數(shù)據(jù)管理、3D打印、工業(yè)仿真分析等工程領(lǐng)域。工業(yè)云帶動的工業(yè)互聯(lián)網(wǎng)已成為工業(yè)企業(yè)發(fā)展的一個新方向,在過去的實踐中,工業(yè)云的發(fā)展大大降低了傳統(tǒng)制造業(yè)邁入信息化的門檻。此外,國家高性能算力網(wǎng)絡還將會打破工業(yè)云之間通信與服務的壁壘,形成更高層次的“云”。算力網(wǎng)絡的服務對象不再局限于某一個特定的領(lǐng)域,這將有利于各式企業(yè)以較低的運營成本進行數(shù)字化轉(zhuǎn)型和智能化升級,提高我國工業(yè)企業(yè)整體的競爭實力。
此外,國家高性能算力網(wǎng)絡將會對我國傳統(tǒng)產(chǎn)業(yè)由“信息化”邁入“智能化”起到極大的推動作用。隨著AI在各行業(yè)領(lǐng)域的不斷深化,AI應用的場景不斷豐富,AI訓練和推理的計算量正在呈指數(shù)級增長。超算中心/數(shù)據(jù)中心的單一算力集群無論是計算資源、軟件資源的多樣性還是團隊支撐都越來越無法滿足復雜場景中超大規(guī)模參數(shù)訓練和人工智能應用的需要。隨著國家“東數(shù)西算”工程拉開帷幕,算力經(jīng)濟時代已經(jīng)到來。隨著新基建的推進,我國國家超算中心、各省市的超算中心、人工智能算力中心都在陸續(xù)建設中,這些多地域分布的算力中心節(jié)點構(gòu)成了典型的多域高性能計算環(huán)境。隨著國家和各省市智能計算算力網(wǎng)的構(gòu)建,面向疫情防控、應急反應等國家重大戰(zhàn)略需求,如何提供中心間的算力協(xié)同和按需調(diào)度方案,解決“算力孤島”問題,提升國家在算力基礎設施上的投資收益,成為當前亟待突破的瓶頸。
目前高性能計算與人工智能融合計算系統(tǒng)的主要功能,集中在減少機器學習任務在分布式環(huán)境下參數(shù)同步的通信量、提高系統(tǒng)對大規(guī)模深度學習的適應性等方面,但在分布異構(gòu)集群尤其是跨域集群環(huán)境下提供細粒度智能計算任務調(diào)度、高效的混合精度計算支持,提高面向超大規(guī)模機器學習訓練任務的性能、高性能異構(gòu)環(huán)境下的穩(wěn)定性上還存在明顯不足。亟需立足國家超級計算中心樞紐節(jié)點,依托國家高性能算力網(wǎng)絡,在多超算中心互聯(lián)的超算系統(tǒng)上開展高效能、大規(guī)模的深度學習/機器學習的并行編程和性能優(yōu)化。這不僅需要高效的資源管理、任務調(diào)度、CPU/GPU融合等異構(gòu)協(xié)同計算環(huán)境,也需要該環(huán)境支撐下的超大規(guī)模深度學習并行編程模型、超大批量并行訓練的機器學習在收斂性和擴展性上的性能優(yōu)化,需要在超算計算節(jié)點內(nèi)、超算節(jié)點間和多域異構(gòu)超算間等不同層面分別解決性能模型基礎理論、自動并行訓練關(guān)鍵技術(shù)、異構(gòu)智能計算資源管理機制以及大批量神經(jīng)網(wǎng)絡訓練優(yōu)化等關(guān)鍵問題。
“東數(shù)西算”是我國的世紀工程,是建設國家新型基礎設施必不可少的骨架。我國城市發(fā)展不平衡決定了中東部地區(qū)將是應用和數(shù)據(jù)的主要產(chǎn)生地,國家高性能算力網(wǎng)絡作為支撐東部數(shù)據(jù)到西部運算的重要基礎設施,將在我國“東數(shù)西算”工程推進與實施過程中起到舉足輕重的作用。運力與算力是構(gòu)成國家高性能算力網(wǎng)絡的基本要素,國家高性能算力網(wǎng)絡將成為我國大規(guī)模高性能計算應用的基礎設施,是解決我國關(guān)系到國計民生的重要科學和工程問題的關(guān)鍵設施,對于支撐科技創(chuàng)新、推動經(jīng)濟發(fā)展具有重要作用。
我國正在建設和運營的10家國家超算中心是我國戰(zhàn)略科技基礎設施與數(shù)字經(jīng)濟發(fā)展的制高點,以國家超算為樞紐節(jié)點開展國家高性能算力網(wǎng)絡建設具有得天獨厚的條件,在此基礎上打造集計算服務、交叉研究和產(chǎn)業(yè)創(chuàng)新“三位一體”的國家重大科技基礎設施和區(qū)域通用公共計算服務平臺,將極大地促進傳統(tǒng)行業(yè)的轉(zhuǎn)型升級,夯實新基建。
(作者為教育部青年長江學者,湖南大學信息科學與工程學院教授、博導)
責編/銀冰瑤 美編/楊玲玲
聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個人轉(zhuǎn)載請回復本微信號獲得授權(quán),轉(zhuǎn)載時務必標明來源及作者,否則追究法律責任。