階數(shù)靈活的低直徑大規(guī)模互連網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及路由方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域中的互連網(wǎng)絡(luò),具體涉及一種用于大規(guī)?;ミB網(wǎng)絡(luò)的階數(shù)靈 活的低直徑拓?fù)浣Y(jié)構(gòu)及其路由方法。
【背景技術(shù)】
[0002] 當(dāng)下,大規(guī)模計(jì)算系統(tǒng)的規(guī)模已經(jīng)超過幾萬個(gè)節(jié)點(diǎn),如我國(guó)的天河2號(hào)超級(jí)計(jì)算機(jī) 系統(tǒng)和IBM的藍(lán)色基因 (Blue Gene/Q)系統(tǒng)。這些大規(guī)模計(jì)算系統(tǒng)對(duì)系統(tǒng)的整體性能、構(gòu)造 成本以及功耗都有嚴(yán)格的要求和需求。互連網(wǎng)絡(luò)是大規(guī)模計(jì)算系統(tǒng)的重要組成部分,而且 在完成整個(gè)系統(tǒng)的設(shè)計(jì)目標(biāo)中占有重要地位。端到端的網(wǎng)絡(luò)延遲、網(wǎng)絡(luò)帶寬以及成本和功 耗開銷都是用來評(píng)估互連網(wǎng)絡(luò)的重要指標(biāo)。設(shè)計(jì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)構(gòu)造大規(guī)模計(jì)算系統(tǒng)的互 連網(wǎng)絡(luò)非常重要。
[0003] 為滿足更多不同應(yīng)用和規(guī)模的大規(guī)模計(jì)算系統(tǒng),網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)需要考慮以下 三個(gè)指標(biāo):
[0004] 1.成本開銷和能耗開銷性價(jià)比。對(duì)于E(Exascale= IO18 =百億億(IO2X IO8X IO8) Flops)級(jí)高性能計(jì)算(High Performance Computing,HPC)系統(tǒng),系統(tǒng)平臺(tái)成本要求在200M 美元以下和功耗開銷要在20MW以下。在整個(gè)E級(jí)HPC系統(tǒng)構(gòu)造中,構(gòu)造互連網(wǎng)絡(luò)的成本開銷 和功耗開銷能占到整個(gè)系統(tǒng)的33%和50%。所以,一個(gè)成本開銷和能耗開銷性價(jià)比高的拓 撲結(jié)構(gòu)對(duì)E級(jí)HPC系統(tǒng)必不可少。
[0005] 2.端到端延遲。端到端的延遲主要決定于網(wǎng)絡(luò)直徑和實(shí)際系統(tǒng)的物理部署。一個(gè) 好的拓?fù)浣Y(jié)構(gòu)不僅要求網(wǎng)絡(luò)直徑低還要求便于部署,因此,更低的端到端延遲也是優(yōu)化網(wǎng) 絡(luò)性能的重要指標(biāo)。
[0006] 3.拓?fù)浣Y(jié)構(gòu)的靈活性。高性能計(jì)算系統(tǒng)因?yàn)閼?yīng)用需求不同,從幾百到幾萬個(gè)節(jié)點(diǎn) 的規(guī)模需求也不一樣。所以,拓?fù)浣Y(jié)構(gòu)的靈活性也是拓?fù)湓O(shè)計(jì)中的重要指標(biāo),需要拓?fù)浣Y(jié)構(gòu) 的靈活性可以在有限的路由器工藝下支持不同的網(wǎng)絡(luò)規(guī)模。
[0007] 但是,在有限功耗、面積約束下,滿足不斷增長(zhǎng)的互連帶寬及性能需求,實(shí)現(xiàn)大規(guī) 模、高密度、高性能的系統(tǒng)互連網(wǎng)絡(luò),完成上述目標(biāo)存在一些挑戰(zhàn)。端到端的延遲主要決定 于網(wǎng)絡(luò)直徑和實(shí)際系統(tǒng)的物理部署。所以,一些拓?fù)浣Y(jié)構(gòu)已經(jīng)被提出來解決低網(wǎng)絡(luò)直徑的 拓?fù)浣Y(jié)構(gòu),如:Dragonfly、HyperX、Skywalk和Slim Fly等,可是這些拓?fù)浣Y(jié)構(gòu)在現(xiàn)有的路由 器工藝條件下難以實(shí)現(xiàn)E級(jí)計(jì)算系統(tǒng)。目前,構(gòu)造低直徑拓?fù)浣Y(jié)構(gòu)的都是基于高階路由器, 但是,由于芯片的物理資源和功耗開銷限制路由芯片階數(shù)的增長(zhǎng),這些低直徑拓?fù)浣Y(jié)構(gòu)難 以任意擴(kuò)展規(guī)模。在電信號(hào)互連的路由芯片中,SerDes的面積、Crossbar的復(fù)雜性以及芯片 邊界帶寬的限制使得芯片在保證每個(gè)端口帶寬的同時(shí)階數(shù)增長(zhǎng)困難。而且,階數(shù)的增長(zhǎng)會(huì) 導(dǎo)致路由芯片更大的功耗負(fù)擔(dān)。例如,一個(gè)單向SerDes鏈路傳輸一個(gè)數(shù)據(jù)位(bit)的數(shù)據(jù)需 要消耗20pJ,那么Intel最新提出來的Omni-path架構(gòu)需要在SerDes上消耗160W。因此,目前 有研究提出使用娃光子學(xué)來解決芯片帶寬、電能耗等問題。Altera和Avago已經(jīng)生產(chǎn)出一款 應(yīng)用了嵌入式并行光模塊MicroPOD的FPGA芯片。盡管相關(guān)光信號(hào)技術(shù)日漸成熟,但是因?yàn)?光模塊聚合的限制使得每個(gè)路由芯片仍然不能引出更多的端口。隨著E級(jí)計(jì)算時(shí)代的到來, 路由器階數(shù)的問題越來越重要。另外一個(gè)挑戰(zhàn)則是如何折中設(shè)計(jì)互連網(wǎng)絡(luò)。為了控制系統(tǒng) 的復(fù)雜性,數(shù)據(jù)中心提出使用機(jī)柜規(guī)模的計(jì)算系統(tǒng)代替?zhèn)鹘y(tǒng)的模塊系統(tǒng),機(jī)柜規(guī)模的計(jì)算 系統(tǒng)可以提供高帶寬,針對(duì)機(jī)柜級(jí)的應(yīng)用提出靈活有效的路由機(jī)制和擁塞控制。這樣的系 統(tǒng)同樣適用于高性能計(jì)算系統(tǒng)的一些固定應(yīng)用。但是,如何折中機(jī)柜間和機(jī)柜內(nèi)部的帶寬 來實(shí)現(xiàn)整個(gè)系統(tǒng)的最優(yōu)性能仍是一個(gè)開放性課題。
[0008]自從Flattened ButterfIy結(jié)構(gòu)的提出,使用高階路由器搭建互連網(wǎng)絡(luò)系統(tǒng)是主 要手段。很多高階拓?fù)湟蚕嗬^提出,如Fat tree結(jié)構(gòu)、Dragonf Iy結(jié)構(gòu)、HyperX結(jié)構(gòu)、Skywalk 結(jié)構(gòu)、SI i m FI y結(jié)構(gòu)等。高階拓?fù)浣Y(jié)構(gòu)相比低階拓?fù)浣Y(jié)構(gòu)能夠獲得更小的網(wǎng)絡(luò)直徑,比如 Torus和Mesh。然而,目前這些高階拓?fù)浣Y(jié)構(gòu)采用當(dāng)前工藝的路由器不能夠支持E級(jí)HPC系 統(tǒng)。Fat tree結(jié)構(gòu)是最經(jīng)典的高階拓?fù)浣Y(jié)構(gòu)之一,可以通過添加層數(shù)來增加規(guī)模且不使用 更高階的路由器,但Fat tree拓?fù)浣Y(jié)構(gòu)難以擴(kuò)展,且在物理實(shí)現(xiàn)時(shí),布線密度和布線不規(guī)整 是其非常大的缺點(diǎn)。Dragonf Iy結(jié)構(gòu)不僅網(wǎng)絡(luò)直徑低而且結(jié)合了電線通信和光纜通信的優(yōu) 勢(shì)減少成本開銷,但是,一旦路由器階數(shù)確定,其所能搭建的最大規(guī)模一定。HyperX結(jié)構(gòu)是 一個(gè)可以靈活配置的拓?fù)浣Y(jié)構(gòu),但是每一維結(jié)構(gòu)上都是全互連導(dǎo)致擴(kuò)展性受限。Skywalk結(jié) 構(gòu)雖然可以支持任意規(guī)模并且限制鏈路的長(zhǎng)度,但是路由策略等因素都是不可控制的。 Slim Fly是直徑為2能近似支持最大規(guī)模的結(jié)構(gòu),但是受限于固定的路徑和網(wǎng)絡(luò)規(guī)模。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的一個(gè)目的在于針對(duì)基于已有互連網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)無法克服現(xiàn)有路由器工 藝的缺點(diǎn)與不足,無法支持E級(jí)HPC系統(tǒng),提供一種階數(shù)靈活的低直徑大規(guī)模互連網(wǎng)絡(luò)拓?fù)?結(jié)構(gòu)。
[0010] 本發(fā)明另一個(gè)目的是在所設(shè)計(jì)的拓?fù)浣Y(jié)構(gòu)上提供一種路由方法。
[0011]為了達(dá)到第一個(gè)目的,本發(fā)明采用以下技術(shù)方案實(shí)現(xiàn):階數(shù)靈活的低直徑大規(guī)模 互連網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),整個(gè)拓?fù)浞殖蓛蓪咏Y(jié)構(gòu),由a個(gè)路由節(jié)點(diǎn)全互連組成一個(gè)大的超級(jí)路由 節(jié)點(diǎn)作為第一層結(jié)構(gòu),超級(jí)路由節(jié)點(diǎn)中的a個(gè)路由節(jié)點(diǎn)分別記為第0路由節(jié)點(diǎn)、第1路由節(jié) 點(diǎn)、…、第t路由節(jié)點(diǎn)、…、第a-Ι路由節(jié)點(diǎn),0 < t ^ a_l,a、t均為整數(shù)。第二層結(jié)構(gòu)則是以第一 層結(jié)構(gòu)為基礎(chǔ),將每個(gè)超級(jí)路由節(jié)點(diǎn)按Galaxy圖的方式連接其它超級(jí)路由節(jié)點(diǎn),其中所述 的連接是由第一層結(jié)構(gòu)中a個(gè)路由節(jié)點(diǎn)各引出的h條鏈路提供,h為整數(shù)。Galaxy圖是一個(gè)可 以靈活配置的圖,根據(jù)實(shí)際系統(tǒng)的配置需求,調(diào)整Galaxy圖的參數(shù)配置,從而構(gòu)建整個(gè)網(wǎng)絡(luò) 拓?fù)洹?br>[0012]本發(fā)明Galaxy圖由參數(shù)n、q決定,n、q均為整數(shù)。
[0013] Galaxy圖中有η個(gè)簇(cluster),記為第0簇、第1簇,…,第k簇,…,第η-I簇, n-1,k為整數(shù)。每個(gè)簇內(nèi)有q個(gè)節(jié)點(diǎn)且滿足f = _似+ ,其中δ e {-1,〇,I},^為整數(shù),q個(gè)節(jié)點(diǎn) 分別記為第〇節(jié)點(diǎn)、第1節(jié)點(diǎn)、…、第i節(jié)點(diǎn)、…、第q-Ι節(jié)點(diǎn)。〇 < i ^ q_l,i為整數(shù)。每個(gè)節(jié)點(diǎn)引 出(q-S)/2條鏈路連接同一簇的其它(q_S)/2個(gè)節(jié)點(diǎn),并引出η-I條鏈路分別連接其它η-I個(gè) 簇中的節(jié)點(diǎn)。
[0014] 每個(gè)節(jié)點(diǎn)用二維坐標(biāo)表示,第k簇內(nèi)的第i節(jié)點(diǎn)的二維坐標(biāo)記為(aioau…曰^… ai(n-i),k),第一維的η元組ai〇air"ais"_ai(n-i)表示的是當(dāng)前超級(jí)路由節(jié)點(diǎn)分別與其他η-I個(gè) 簇有連接關(guān)系的超級(jí)路由節(jié)點(diǎn)的編號(hào),i表示該節(jié)點(diǎn)為第k簇內(nèi)的第i節(jié)點(diǎn),其中als表示第k 簇的第i節(jié)點(diǎn)(ai〇air"ais'"ai(n-I),k)連接第s簇的節(jié)點(diǎn)(aj〇ajr"ajk'"aj( n-i),s),其中ajk = ais,0 < ais < q-1,0 < j < q-1,aik=i,0 < s < n-1,s、j均為整數(shù)。第二維的k表示該節(jié)點(diǎn)位于 第k簇內(nèi)。
[0015] Galaxy圖中第k簇跟第s簇兩個(gè)節(jié)點(diǎn)之間相連的條件如下:
[0016] (1)若k〈s,那么:
[001 7]當(dāng)且僅^Elis-Eljs E X,(aiOElil· · .Elis· · ·Eli(n-1),k)與(EljOEljl· · .Eljs· · ·Elj (η-1),k)相連 〇 [0018]當(dāng)且僅當(dāng)aik-ajk^X',(ai〇aii...aik...ai(n-1),s)與(aj〇aji...ajk...aj(n-i),s^l^^。
[001 9]當(dāng)且僅^Elis - Eljk,(EliOElil· · .Elis· · ·Eli(n-1),k)與(EljOEljl· · · ·Elj (n-1),S )相連。
[0020] (2)若 k = s,那么:
[0021 ]當(dāng)且僅^Elis-Eljs E X,(aiOElil· · .Elis· · ·Eli(n-1),k)與(EljOEljl· · .Eljs^ · ·Elj (η-1),k)相連。
[0022] (3)若 k>s,那么:
[0023] 當(dāng)且僅當(dāng)ais-ajs^X',(ai〇aii...ais...ai(n-1),k)與(aj〇aji...aj s...aj(n-i),k^l^^。
[0024] 當(dāng)且僅當(dāng)aik-ajk^X,(ai〇aii."aik."ai(n-1),s)與(aj〇aji."ajk."aj(n-1),s)相連。
[0025] 當(dāng)且僅 ^Elis - Eljk,( EliOElil · · .Elis ^ · · Eli (η-1),k )與(EljOEljl · · .Eljk· · · Elj (η-1),S )相連。
[0026] 其中,X和f定義如下,ξ為有限域Fq的生成元:
[0031] 需要說明的是,在求集合X和X'時(shí)候,都需要對(duì)集合中的元素作模q運(yùn)算得出的值 才是集合的內(nèi)容;Galaxy圖中第k簇跟第s簇兩個(gè)節(jié)點(diǎn)之間相連條件判斷時(shí),表達(dá)式ai s_ajs 等是否屬于集合X或f,也是對(duì)als_a#作模q運(yùn)算再判斷是否屬于集合X或X',但為了表達(dá)的 簡(jiǎn)潔性,相關(guān)數(shù)學(xué)論文中沒有特別說明要作模q運(yùn)算[Maciej Besta等,Slim Fly:A Cost Effective Low-Diameter Network Topology"(一種成本有效的低直徑網(wǎng)絡(luò)拓?fù)銼lim Fly), International Conference for High Performance Computing,Networking, Storage and Analysis2014(SC2014),第二章節(jié)第二部分]。因此,本發(fā)明中在求集合X和 V、以及判斷Galaxy圖中第k簇跟第s簇兩個(gè)節(jié)點(diǎn)之間是否相連時(shí),沒有特別說明要作模q操 作。
[0032] 實(shí)際結(jié)構(gòu)中,每個(gè)路由節(jié)點(diǎn)由三維坐標(biāo)(aioau. · .aik. · .ai(n-i),k,t