中國(guó)電子云:構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施


中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2024-08-20





  2024年政府工作報(bào)告提出,適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施,加快形成全國(guó)一體化算力體系。隨著“人工智能+”政策的全面推進(jìn),我國(guó)迎來了智能化高質(zhì)量發(fā)展的嶄新時(shí)代,承載智能應(yīng)用的先進(jìn)算力將成為新質(zhì)生產(chǎn)力的重要引擎。


  在中國(guó)電子首席科學(xué)家、中國(guó)電子云總工程師朱國(guó)平看來,新質(zhì)算力基礎(chǔ)設(shè)施就是在云原生疊加AI原生的設(shè)計(jì)理念下,將算力、數(shù)據(jù)、先進(jìn)存儲(chǔ)和安全進(jìn)行深度融合,用于高效承載數(shù)據(jù)和人工智能的新型基礎(chǔ)設(shè)施,同時(shí)提供基于AI安全的可信數(shù)據(jù)空間,以及以數(shù)據(jù)驅(qū)動(dòng)的AI原生應(yīng)用的開發(fā)范式。


  聚焦政企和關(guān)鍵行業(yè)發(fā)展新質(zhì)生產(chǎn)力的要求,中國(guó)電子正在打造智算芯片、智算操作系統(tǒng)、智算服務(wù)器和一體化算力平臺(tái),建設(shè)服務(wù)金融、政務(wù)和央企等關(guān)鍵基礎(chǔ)行業(yè)的新質(zhì)算力基礎(chǔ)設(shè)施。


  云原生+AI原生 構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施核心能力


  “云原生+AI原生”是新質(zhì)算力基礎(chǔ)設(shè)施的要義所在,也是中國(guó)電子云(中國(guó)電子旗下唯一云計(jì)算品牌)構(gòu)建技術(shù)體系的核心。


  其中,云原生是中國(guó)電子云的起點(diǎn)。曾經(jīng),云計(jì)算有兩條主要的技術(shù)路線,一類是基于OpenStack進(jìn)行優(yōu)化和改造,一類是基于容器化、微服務(wù)、DevOps等技術(shù)的云原生。在中國(guó)電子云成立的2020年,云原生已經(jīng)被產(chǎn)業(yè)公認(rèn)為最佳技術(shù)路線。因此,中國(guó)電子云從一出生就選擇了更加先進(jìn)的云計(jì)算技術(shù),形成了所謂的“后發(fā)優(yōu)勢(shì)”。CECSTACK正是基于云原生技術(shù)自研的國(guó)產(chǎn)化企業(yè)級(jí)云平臺(tái),亦是中國(guó)電子構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施的載體。


  在研發(fā)過程中,中國(guó)電子云發(fā)現(xiàn),不同領(lǐng)域用戶早期云平臺(tái)的底層標(biāo)準(zhǔn)不統(tǒng)一,在業(yè)務(wù)遷移上云的過程中需要兼容不同的芯片、服務(wù)器和操作系統(tǒng),且上層還要支撐各種創(chuàng)新應(yīng)用的落地。鑒于用戶實(shí)際部署的難題和云計(jì)算產(chǎn)業(yè)的最新趨勢(shì),CECSTACK在研發(fā)之初就堅(jiān)定基于云原生技術(shù),實(shí)現(xiàn)“一云多芯”的能力,不僅自研了分布式云原生云操作系統(tǒng),還在一個(gè)資源池內(nèi)部支持多種異構(gòu)的CPU,從而有效屏蔽硬件差異,助力應(yīng)用無感知快速上云。


  而AI原生,則是在系統(tǒng)設(shè)計(jì)階段就充分考慮如何支持AI負(fù)載的訓(xùn)練和計(jì)算需求,將AI所需的服務(wù)和優(yōu)化內(nèi)置到系統(tǒng)中,客戶可以直接基于CECSTACK訓(xùn)練AI模型或運(yùn)行AI應(yīng)用,無須再進(jìn)行基礎(chǔ)設(shè)施的改造或投入。


  比如在計(jì)算架構(gòu)上,CECSTACK采用了與云平臺(tái)“一云多芯”一脈相承的“一云多智芯”架構(gòu),與國(guó)內(nèi)外幾乎所有主流的人工智能加速芯片進(jìn)行了適配和聯(lián)調(diào)。在網(wǎng)絡(luò)上,CECSTACK支持InfiniBand、RoCE等AI數(shù)據(jù)中心常用的網(wǎng)絡(luò)解決方案。在存儲(chǔ)方面,CECSTACK以分布式存儲(chǔ)系統(tǒng)適應(yīng)AI負(fù)載不斷增長(zhǎng)的數(shù)據(jù)量和復(fù)雜性,并融合了閃存技術(shù)和混合閃存技術(shù),推出了針對(duì)人工智能訓(xùn)練場(chǎng)景的全閃存儲(chǔ),以及針對(duì)人工智能推理和歸檔場(chǎng)景的混閃存儲(chǔ)。


  從“想到”到“做到” 打磨技術(shù)創(chuàng)新和工程實(shí)現(xiàn)能力


  雖然“云原生”“一云多智芯”“AI原生”這些概念在命名上非常簡(jiǎn)潔,但“想到”和“做到”之間隔著大量的設(shè)計(jì)、適配和調(diào)優(yōu)工作,考驗(yàn)著中國(guó)電子云團(tuán)隊(duì)的技術(shù)創(chuàng)新和工程實(shí)現(xiàn)能力。


  記者在采訪中了解到,在構(gòu)建并融合云原生與AI原生的過程中,中國(guó)電子云團(tuán)隊(duì)有三條經(jīng)驗(yàn)。


  一是基于嚴(yán)謹(jǐn)?shù)臏y(cè)試持續(xù)優(yōu)化系統(tǒng)。比如在建設(shè)北京亦莊人工智能公共算力平臺(tái)的過程中,中國(guó)電子云圍繞提升模型訓(xùn)練效率的目標(biāo),對(duì)全路徑的數(shù)據(jù)進(jìn)行測(cè)試,檢驗(yàn)?zāi)膫€(gè)位置的數(shù)據(jù)耗時(shí)最長(zhǎng),有針對(duì)性地進(jìn)行優(yōu)化。


  二是提升對(duì)客戶需求的分析和響應(yīng)能力。中國(guó)電子云團(tuán)隊(duì)注意到,大模型訓(xùn)練往往耗時(shí)幾個(gè)月,必須提升網(wǎng)絡(luò)面對(duì)中斷或意外事件的健壯性。因此,中國(guó)電子云構(gòu)建了快速生成checkpoint(保存檢查點(diǎn))的能力,即便模型訓(xùn)練中斷,也能夠基于checkpoint接續(xù)訓(xùn)練。


  三是構(gòu)建全流程改造能力。由于CECSTACK的算力、存儲(chǔ)、數(shù)據(jù)系統(tǒng)均為自研,因此不需要第三方提供接口來進(jìn)行數(shù)據(jù)采集,也無須委托第三方進(jìn)行優(yōu)化,在調(diào)優(yōu)和迭代上更加高效可控。


  目前,中國(guó)電子云累計(jì)建設(shè)超過3300P先進(jìn)智算算力,包括北京亦莊人工智能公共算力平臺(tái)的3000P算力、石家莊人工智能計(jì)算中心的100P算力、位于武漢的中國(guó)電子云可信智算中心的100P算力,以及中國(guó)電子信創(chuàng)云基地的100P算力。中國(guó)電子云不僅為以上智算中心或智算平臺(tái)提供一體化的算力平臺(tái),也嘗試參與運(yùn)營(yíng),與當(dāng)?shù)卣黄鹄砬迦绾胃咝Ч┙o和利用算力等關(guān)鍵課題。


  “在亦莊3000P算力的建設(shè)過程中,我們?cè)诖笠?guī)模的基礎(chǔ)設(shè)施上對(duì)產(chǎn)品進(jìn)行了驗(yàn)證、打磨和優(yōu)化??蛻籼岢龅囊蟊容^高,促使我們不斷迭代和更新產(chǎn)品。這是建設(shè)過程中的最佳實(shí)踐,對(duì)團(tuán)隊(duì)的能力提升是巨大的?!敝靽?guó)平告訴記者。


  高效、安全雙輪驅(qū)動(dòng) 打造穩(wěn)定可靠的新質(zhì)數(shù)字底座


  培育和發(fā)展新質(zhì)生產(chǎn)力,需要處理好發(fā)展與安全的關(guān)系。習(xí)近平總書記強(qiáng)調(diào),要圍繞發(fā)展新質(zhì)生產(chǎn)力布局產(chǎn)業(yè)鏈,提升產(chǎn)業(yè)鏈供應(yīng)鏈韌性和安全水平,保證產(chǎn)業(yè)體系自主可控、安全可靠。


  中國(guó)電子云在創(chuàng)立之初,就兼顧了高效和安全的內(nèi)在要求。其母公司中國(guó)電子作為網(wǎng)信產(chǎn)業(yè)國(guó)家隊(duì),不僅攻克了計(jì)算機(jī)CPU和操作系統(tǒng)關(guān)鍵核心技術(shù),也形成了“系統(tǒng)優(yōu)化、行業(yè)定制”的發(fā)展模式。首先,中國(guó)電子云基于中國(guó)電子完備的自主計(jì)算產(chǎn)業(yè)體系,以安全為先,包括技術(shù)安全、架構(gòu)安全和長(zhǎng)期安全服務(wù)。其次,中國(guó)電子云采用了“公有云服務(wù)+專屬公有云產(chǎn)品”的運(yùn)營(yíng)模式,兼顧了公有云的高效便捷和私有云的安全可控。最后,中國(guó)電子云硬件上支持x86架構(gòu)、異構(gòu)計(jì)算架構(gòu),軟件上與合作伙伴廣泛適配并擁抱開源。


  基于差異化的能力,在已經(jīng)成為紅海市場(chǎng)的云計(jì)算領(lǐng)域,中國(guó)電子云捕捉到了三個(gè)市場(chǎng)機(jī)遇。一是面向政企和關(guān)鍵行業(yè)提供數(shù)字基礎(chǔ)設(shè)施,此類客戶普遍對(duì)數(shù)據(jù)安全有著極高的要求,無法將業(yè)務(wù)部署在公有云,存在大量專屬云的市場(chǎng)機(jī)會(huì)。二是抓住信創(chuàng)改造和升級(jí)帶來的市場(chǎng)機(jī)會(huì)。三是人工智能高速發(fā)展帶來的智算中心系列產(chǎn)品的機(jī)會(huì)。“因此我們的產(chǎn)品策略有兩個(gè),一是以信創(chuàng)為根本,二是‘a(chǎn)ll in AI’?!敝靽?guó)平表示。


  憑借高安全、高性能、高彈性的數(shù)字底座,中國(guó)電子云受到中央企業(yè)和關(guān)鍵行業(yè)用戶的青睞,成功承建了一批央企云平臺(tái)和行業(yè)公共服務(wù)基礎(chǔ)設(shè)施。


  在關(guān)鍵行業(yè)領(lǐng)域,基于CECSTACK建設(shè)打造的南方電網(wǎng)調(diào)度云異地災(zāi)備平臺(tái),按照“兩地三中心+按需建設(shè)省級(jí)分中心”模式,構(gòu)建一體化全棧云平臺(tái),有力支撐了新型電力系統(tǒng)建設(shè),保障人民群眾用電安全。中國(guó)電子云與華電電科院、國(guó)電南自華盾公司合作開發(fā)的國(guó)內(nèi)首個(gè)行業(yè)級(jí)自主可控燃機(jī)智慧運(yùn)維云平臺(tái)“中國(guó)華電燃機(jī)智慧云”采用“1+N”的云邊協(xié)同架構(gòu),通過使用燃機(jī)智慧運(yùn)維云平臺(tái),僅運(yùn)行優(yōu)化一個(gè)模塊,電廠一年就可以節(jié)省50萬到100萬元。


  在信創(chuàng)改造領(lǐng)域,中國(guó)電子云與金電云在金融信創(chuàng)領(lǐng)域密切合作,建設(shè)了銀行電子憑證互聯(lián)互通平臺(tái),以解決銀行電子憑證領(lǐng)域存在的機(jī)構(gòu)多頭連接、接口重復(fù)開發(fā)、系統(tǒng)重復(fù)建設(shè)等痛點(diǎn)難點(diǎn)。雙方按照金融云等級(jí)標(biāo)準(zhǔn),科學(xué)布局“多地多中心”,構(gòu)建綠色先進(jìn)高效的算力體系和一云多芯云平臺(tái),為全國(guó)范圍內(nèi)的中小型金融機(jī)構(gòu)提供涵蓋IaaS、PaaS、SaaS的專業(yè)化云服務(wù)。截至2023年11月,該互聯(lián)互通平臺(tái)累計(jì)完成業(yè)務(wù)轉(zhuǎn)接總量超276萬筆。


  AI+未來 緊抓計(jì)算產(chǎn)業(yè)最大變量


  人工智能被視為發(fā)展新質(zhì)生產(chǎn)力的主要陣地。發(fā)展人工智能,已經(jīng)成為央企和關(guān)鍵行業(yè)轉(zhuǎn)型升級(jí)、提升核心競(jìng)爭(zhēng)力的要求。接下來,中國(guó)電子云將以CECSTACK為抓手,以構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施為目標(biāo),持續(xù)提升和完善智算交付能力。


  “AI會(huì)無處不在,這是計(jì)算產(chǎn)業(yè)最大的變化,也是民眾生活的最大變量。新質(zhì)算力基礎(chǔ)設(shè)施要同時(shí)滿足人工智能發(fā)展和數(shù)據(jù)要素流通。目前,我們已經(jīng)具備了賦能AI和數(shù)據(jù)要素的能力,會(huì)將為客戶提供一體化的AI服務(wù)作為接下來的努力方向?!敝靽?guó)平表示。


  不過,采訪中記者了解到,在推動(dòng)新質(zhì)算力基礎(chǔ)設(shè)施的過程中,中國(guó)電子云也面臨一些產(chǎn)業(yè)共性的難點(diǎn)。一是算力的獲取。一方面,美國(guó)對(duì)英偉達(dá)向中國(guó)出口產(chǎn)品的限制,導(dǎo)致高端算力芯片的獲取更加困難;另一方面,國(guó)產(chǎn)算力芯片的性能還有待提升。二是基礎(chǔ)設(shè)施需要進(jìn)一步完善,尤其是算力基礎(chǔ)設(shè)施的大規(guī)?;ヂ?lián)和測(cè)試,還缺乏成規(guī)模的實(shí)際部署案例。三是AI軟件工具鏈不夠成熟,相比英偉達(dá)CUDA等國(guó)際領(lǐng)先企業(yè)的生態(tài)布局,國(guó)內(nèi)需要加強(qiáng)軟件和應(yīng)用生態(tài)培育。


  “發(fā)展新質(zhì)生產(chǎn)力需強(qiáng)化企業(yè)科技創(chuàng)新主體地位?!眹@企業(yè)如何踐行新質(zhì)生產(chǎn)力,以及全社會(huì)如何更好地支持企業(yè)發(fā)展新質(zhì)生產(chǎn)力,朱國(guó)平提了三個(gè)建議,一是企業(yè)踐行新質(zhì)生產(chǎn)力不能脫離自身的實(shí)際情況,要結(jié)合業(yè)務(wù)實(shí)踐,通過AI等新技術(shù)的賦能,優(yōu)先將原有業(yè)務(wù)做得更好。二是要建設(shè)高質(zhì)量的數(shù)據(jù)集,人工智能大模型的開發(fā)和訓(xùn)練需要高質(zhì)量語料庫(kù)和基礎(chǔ)科學(xué)數(shù)據(jù)集,各行各業(yè)要運(yùn)用AI等新興技術(shù)的能力,也需要高質(zhì)量動(dòng)態(tài)數(shù)據(jù)集的支持,這需要有關(guān)部門及整個(gè)產(chǎn)業(yè)鏈的共同努力。三是建設(shè)更加包容的創(chuàng)新環(huán)境,創(chuàng)新是逐步積累、逐步改進(jìn)的過程,包容的環(huán)境能夠鼓勵(lì)企業(yè)人才勇于創(chuàng)新,更好地激發(fā)企業(yè)的創(chuàng)新活力。(記者 張心怡 連曉東)


  轉(zhuǎn)自:中國(guó)電子報(bào)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高 上半年汽車工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

?

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964