中國計(jì)算機(jī),第一是"天河一號",第三位是星云。
"天河一號"計(jì)算機(jī)與2010年8月在天津市超計(jì)算中心開始安裝,9月到10月兩個(gè)月時(shí)間就完成全世界的調(diào)試于性能測試。從2010年11月開始,系統(tǒng)就開始試運(yùn)行,接待國內(nèi)的用戶。下面是"天河一號"的主要配置,"天河一號"含有14366顆英特爾處理器,互連網(wǎng)絡(luò)是國防科大自主研制互連網(wǎng)絡(luò),存儲(chǔ)網(wǎng)絡(luò)是2個(gè)TB,有218個(gè)計(jì)算服務(wù)機(jī)柜,還有6 個(gè)通信機(jī)柜。
"天河一號"一個(gè)特色就是采用了我們國家自主首創(chuàng)CPU與GPU體系結(jié)構(gòu),實(shí)際上源于我們2005年開始的一些運(yùn)行研究工作,到2007年我們國防大學(xué)的研究就把相關(guān)的理論結(jié)果與實(shí)踐結(jié)果相結(jié)合,09年研制了天河1,這個(gè)計(jì)算機(jī)是排名全球第五位,當(dāng)時(shí)我們主要進(jìn)行了體系結(jié)構(gòu),解決一個(gè)什么問題呢?CPU和 GPU協(xié)作計(jì)算的時(shí)候效率問題。
因?yàn)楫?dāng)時(shí)CPU和GPU在解決問題的時(shí)候效率并不高,單CPU和單 GPU合起來也就20%計(jì)算效率,顯然不滿足要求。經(jīng)過我們科研人員努力,從20%提高到70%的工作效率,因此從"天河一號"徹底驗(yàn)證了,從體系結(jié)構(gòu)上驗(yàn)證了這條路是可行。2010年我們用了一年時(shí)間,對天河一進(jìn)行升級,也就是現(xiàn)在天河一 A系統(tǒng)。整個(gè)系統(tǒng)里面計(jì)算組也是我們設(shè)計(jì)研究,還有互聯(lián)網(wǎng)絡(luò),也有我們自己定制的軟件站,里面包括計(jì)算處理系統(tǒng),服務(wù)處理系統(tǒng),基礎(chǔ)診斷系統(tǒng)等等,當(dāng)然也是我們這個(gè)會(huì)的主題存儲(chǔ)。
計(jì)算處理系統(tǒng)包括7168個(gè)計(jì)算機(jī),每一個(gè)計(jì)算節(jié)定有2-6核CPU和1個(gè)GPU,GPU采用是英維達(dá),就保持主處理器和GPU之間有足夠的帶寬。右邊兩張圖,右邊是處理器的主板,4個(gè)CPU,下面是GPU的主板,靠在CPU主板上面,這樣一個(gè)CPU主板和GPU主板合起來就是兩個(gè)計(jì)算節(jié)點(diǎn)。右面主板含有 4個(gè)CPU,這4個(gè)CPU聯(lián)成兩個(gè)節(jié)點(diǎn),符合節(jié)點(diǎn)主要是用于登錄,強(qiáng)調(diào)團(tuán)隊(duì)的計(jì)算能力,包括網(wǎng)絡(luò),數(shù)據(jù)庫等一些應(yīng)用。
互聯(lián)通信系統(tǒng)也是國防科技大學(xué)自主研制,達(dá)到10GBDS,是現(xiàn)在主流通信網(wǎng)絡(luò)2倍的速度。雙向帶寬有116個(gè)GPS,采用2級網(wǎng)絡(luò),第一級網(wǎng)絡(luò)把16個(gè)節(jié)點(diǎn)通過交換板互聯(lián),第二是全系統(tǒng)通過11個(gè)384個(gè)互聯(lián),每個(gè)機(jī)柜里面包含兩個(gè)交換機(jī)。研制了2款芯片,一個(gè)是網(wǎng)絡(luò)結(jié)合芯片,MSC,主要是實(shí)現(xiàn)這個(gè)節(jié)點(diǎn)與高效能網(wǎng)絡(luò)連接。
另外一個(gè)網(wǎng)絡(luò)芯片實(shí)現(xiàn)14個(gè)互聯(lián)端口互聯(lián),吞吐量達(dá)到2.56TB。這是在集散機(jī)16口的交換板,實(shí)際上主要有兩個(gè)接口,上面接口插在背板上面,這個(gè)靠右邊的電源,這個(gè)靠左邊一排是信號。比如在機(jī)柜,機(jī)框里面看不到,下面有16個(gè)口子就連接到交換機(jī),這是機(jī)柜計(jì)算機(jī)里和交換機(jī)之間的接口。
這兩個(gè)是交換機(jī)里面的兩種不同的刀片,第一個(gè)是葉交換刀片,這是另外一個(gè)刀片,大家可以看到我就不多說了。我們的交換機(jī)采用自主研制的協(xié)議,吞吐量達(dá)到 61.44TBTS,是交換機(jī)的2.37倍。那么,這個(gè)左邊是交換機(jī)一個(gè)正面和反面,右實(shí)際上是一個(gè)交換機(jī)柜,每個(gè)里面有2個(gè)交換機(jī)。
輸入輸出系統(tǒng)總?cè)萘坑?PG,我們通過自主高速互連網(wǎng)絡(luò)連接起來,這些存儲(chǔ)系統(tǒng)和計(jì)算節(jié)點(diǎn)都是通過自主研制的網(wǎng)絡(luò)連接起來。網(wǎng)絡(luò)這邊基于Lustre用來提供穩(wěn)定性和性能。還有一個(gè)是監(jiān)控診斷系統(tǒng),實(shí)現(xiàn)全系統(tǒng)的檢測和控制功能,主要功能有實(shí)時(shí)系統(tǒng)的狀態(tài)檢測,故障定位,還有一個(gè)反饋的冷卻環(huán)境,自動(dòng)根據(jù)主板和 CPU溫度來進(jìn)行控制。另外還提供遠(yuǎn)程的監(jiān)控和管理,我們像機(jī)房直接在用戶端就可以控制啟動(dòng),進(jìn)行故障控制。
基礎(chǔ)架構(gòu)系統(tǒng),我們采用雙重對面刀片式系統(tǒng),溫度高,維護(hù)方便。每個(gè)機(jī)柜含128個(gè)計(jì)算節(jié)電,4個(gè)網(wǎng)絡(luò)交換半,4個(gè)監(jiān)控診斷板。接下來介紹"天河一號"軟件系統(tǒng),包括操作系統(tǒng),編寫系統(tǒng),并行程序設(shè)計(jì)和可視化環(huán)境。是基于Linux開發(fā),主要改造有計(jì)算節(jié)點(diǎn)采用一個(gè)定制內(nèi)核,提供一個(gè)虛擬運(yùn)行環(huán)境,通過這個(gè)虛擬運(yùn)行環(huán)境用戶之間的數(shù)據(jù)就實(shí)現(xiàn)一個(gè)安全過濾,面向多個(gè)用戶,然后用戶也可以定制自己的計(jì)算環(huán)境,在這里面也可以進(jìn)行系列的資源角度,我們資源角度也可以達(dá)到CPU的核。
另外研制一套大規(guī)模資源管理系統(tǒng),對整個(gè)作業(yè)管理系統(tǒng),作業(yè)調(diào)度就有一套系統(tǒng)來管理。另外操作系統(tǒng)還有節(jié)能控制功能,編譯系統(tǒng),對我們來講超計(jì)算機(jī)比較好,保證一些傳統(tǒng)計(jì)算機(jī)用戶把他的程序很平滑過渡起來。超級計(jì)算機(jī)包括C.C++,另外我們把針對異構(gòu)計(jì)算放進(jìn)去提供用戶使用。還有我們?yōu)榱私鉀Q大家不習(xí)慣的問題,我們研制了異構(gòu)并行的編程框架,主要思想是這樣的,現(xiàn)在大家并行這個(gè)CPU的應(yīng)用,更多是來一個(gè)應(yīng)用就把這個(gè)運(yùn)營進(jìn)行改變,但這樣會(huì)帶來一個(gè)什么缺點(diǎn)呢?這個(gè)應(yīng)用不但在開發(fā)過程中是變化的,反復(fù)要改。
還有一個(gè)問題運(yùn)用的代碼,用戶他不愿意給你這個(gè)開發(fā)人員,牽扯到知識產(chǎn)權(quán)問題,或者是牽扯到保密的問題,這樣你會(huì)拿不到那個(gè)原代碼。這個(gè)過程是很長,對于一些上層用戶未必對你體系結(jié)構(gòu)能夠很好的掌握,未必去習(xí)慣這個(gè)技術(shù)編程。因此我們開發(fā)這個(gè)編譯編程代碼,主要思想使使用CPU,GPU協(xié)同計(jì)算能力,隱藏,或者說半隱藏這個(gè)CPU編程。
主旨思想就是在節(jié)點(diǎn)之間并行并購,我們主要交給計(jì)算機(jī)專家來做,計(jì)算專家他懂體系結(jié)構(gòu),懂編譯,懂操作系統(tǒng)。另外,編譯程序設(shè)計(jì)環(huán)境,我們采用統(tǒng)一的基礎(chǔ),包括性能的調(diào)優(yōu)和調(diào)試,也提供遠(yuǎn)程開發(fā)。
科學(xué)計(jì)算可視化系統(tǒng),接下來給大家介紹一下"天河一號"現(xiàn)在使用階段一些典型應(yīng)用。一顆GPU相當(dāng)于7顆CPU的應(yīng)用,也是 CPU,GPU性能計(jì)算。這個(gè)里面主要是解決了單節(jié)點(diǎn)異構(gòu),節(jié)點(diǎn)之間這層變形不動(dòng),但是這層變形可靠性可以保證下來。
還有一個(gè)是應(yīng)用情況,運(yùn)行效率達(dá)到87%,這是產(chǎn)業(yè)測試集中的地方,正常狀態(tài)下的情況。這個(gè)軟件是中國石油集團(tuán),在我們系統(tǒng)里面最多達(dá)到8586個(gè)核,這個(gè)物質(zhì)處理原來是要1個(gè)月時(shí)間,現(xiàn)在是要1天時(shí)間。那天我們在開玩笑,整個(gè)這個(gè)系統(tǒng),整個(gè)這個(gè)計(jì)算速度大幅減少,原來認(rèn)為他們把3T數(shù)據(jù)從自己單位跑到這個(gè)中心,他自己原來沒有考慮,他自己開過車把這個(gè)數(shù)據(jù)送過來,路上的時(shí)間就一天的時(shí)間。
這三幅圖35公里,大約1000平方的處理結(jié)果,包括深度平移,深度切片等等,這個(gè)處理軟件就相當(dāng)于給地殼做了一個(gè)CT一樣,這個(gè)數(shù)據(jù)處理的結(jié)果實(shí)際上我們就可以看到我們腳底下這個(gè)地層的情況,就會(huì)為尋找石油帶來極大的方便。這點(diǎn)有了這種高性能計(jì)算,帶來社會(huì)經(jīng)濟(jì)效益非常好的著力點(diǎn)?,F(xiàn)在是缺油,到國外找石油,國外就會(huì)招標(biāo),招標(biāo)的時(shí)候給你數(shù)據(jù),如果說你能夠盡快把這個(gè)數(shù)據(jù)處理起來,我心里就有底,國外在談判的時(shí)候我在競標(biāo)的時(shí)候就有底氣了,到底多少錢可以把這個(gè)油田拿下來。
另外一個(gè)應(yīng)用是藥物研究,這個(gè)軟件是上海藥物所研究的軟件,現(xiàn)在的計(jì)算情況正在算,目前是1萬元用了300多個(gè)核,這些概念確實(shí)不是太懂。但至少我們反映了一個(gè)用戶的情況,我們覺得有這么大規(guī)模的系統(tǒng),對他們的研究工作有非常大的幫助,并且他們原來不敢想做的事情,現(xiàn)在敢想了。像原來他的系統(tǒng)就是幾百個(gè)核,幾千個(gè)核,現(xiàn)在他就考慮要修改他的程序,把"天河一號"上面幾萬個(gè)核給用起來。這是"天河一號"上面正在使用的計(jì)算機(jī)應(yīng)用單位和即將和朝陽中心使用計(jì)算機(jī)的應(yīng)用單位,謝謝大家。