一、概述
隨著企業(yè)數(shù)據(jù)中心建設(shè)的深化進(jìn)行,企業(yè)業(yè)務(wù)數(shù)據(jù)集中密度越來越高,服務(wù)器存儲(chǔ)數(shù)量不斷增長(zhǎng),網(wǎng)絡(luò)架構(gòu)不斷擴(kuò)展,空間布局、系統(tǒng)布線、電力能耗壓力不斷增加。作為數(shù)據(jù)中心業(yè)務(wù)承載的大動(dòng)脈,基礎(chǔ)網(wǎng)絡(luò)架構(gòu)層面則直接面臨著持續(xù)的嚴(yán)格挑戰(zhàn)。網(wǎng)絡(luò)基礎(chǔ)技術(shù)的快速發(fā)展為數(shù)據(jù)中心變革提供了強(qiáng)大支撐動(dòng)力,基礎(chǔ)網(wǎng)絡(luò)演進(jìn)加快。
二、數(shù)據(jù)中心基礎(chǔ)網(wǎng)絡(luò)的挑戰(zhàn)與驅(qū)動(dòng)力
1、高密服務(wù)器、存儲(chǔ)數(shù)據(jù)中心
數(shù)據(jù)中心的物理服務(wù)器、存儲(chǔ)系統(tǒng)數(shù)量快速增長(zhǎng),使得數(shù)據(jù)中心規(guī)模不斷擴(kuò)大。企業(yè)數(shù)據(jù)集中、業(yè)務(wù)整合的過程,表現(xiàn)為高密應(yīng)用系統(tǒng)的集中。同時(shí),服務(wù)器與存儲(chǔ)等IT設(shè)備計(jì)算處理能力遵循摩爾定律的增長(zhǎng),也使得數(shù)據(jù)中心的業(yè)務(wù)處理能力持續(xù)增強(qiáng)。
目前1Gbps~8Gbps級(jí)別的服務(wù)器、存儲(chǔ)系統(tǒng)網(wǎng)絡(luò)接口成為主流,從而使得基礎(chǔ)網(wǎng)絡(luò)系統(tǒng)的千兆接入、萬兆互聯(lián)成為數(shù)據(jù)中心建設(shè)的基本標(biāo)準(zhǔn)。
新一代計(jì)算設(shè)備已經(jīng)開始提供萬兆接口,多核服務(wù)器已具備萬兆吞吐能力,多萬兆網(wǎng)絡(luò)接口的服務(wù)器、存儲(chǔ)系統(tǒng)開始在企業(yè)數(shù)據(jù)中心進(jìn)行部署,計(jì)算能力迅速提升的同時(shí)也讓面向網(wǎng)絡(luò)的接入帶寬需求過渡到萬兆環(huán)境。
計(jì)算虛擬化的技術(shù)革新,使單一高計(jì)算能力物理服務(wù)器虛擬化成多個(gè)邏輯計(jì)算單元,極大提高了系統(tǒng)的計(jì)算效能以及對(duì)存儲(chǔ)訪問的高速吞吐。而由于等同于將此前的多個(gè)服務(wù)器應(yīng)用系統(tǒng)疊加在一個(gè)網(wǎng)絡(luò)接口下,網(wǎng)絡(luò)流量急速提升,因此對(duì)數(shù)據(jù)中心基礎(chǔ)網(wǎng)絡(luò)提出了相當(dāng)于傳統(tǒng)環(huán)境下數(shù)倍乃至數(shù)十倍的性能要求。
同時(shí),在高密應(yīng)用集中環(huán)境下,基礎(chǔ)網(wǎng)絡(luò)的可靠性要求更為苛刻。局部網(wǎng)絡(luò)產(chǎn)生的故障,對(duì)數(shù)據(jù)中心提供服務(wù)能力的影響比傳統(tǒng)環(huán)境要更為嚴(yán)重。傳統(tǒng)數(shù)據(jù)中心的局部故障可能只對(duì)單一應(yīng)用造成短時(shí)影響,而新的數(shù)據(jù)中心環(huán)境下,則是大量應(yīng)用密集,故障影響范圍擴(kuò)大化。因此,對(duì)于網(wǎng)絡(luò)變化的快速收斂、更強(qiáng)的故障自愈能力也成為下一代數(shù)據(jù)中心平臺(tái)的重要研究課題。
2、數(shù)據(jù)中心多個(gè)獨(dú)立網(wǎng)絡(luò)
數(shù)據(jù)中心發(fā)展建設(shè)過程中,出于不同的應(yīng)用連接要求,逐步出現(xiàn)了多個(gè)獨(dú)立網(wǎng)絡(luò)系統(tǒng),如圖1所示。
¨ 以太網(wǎng)交換網(wǎng)絡(luò):用于連接承載終端客戶與業(yè)務(wù)服務(wù)器系統(tǒng)的數(shù)據(jù)訪問,強(qiáng)調(diào)高速、可靠、安全、遠(yuǎn)端互聯(lián)性、開放性,是當(dāng)前標(biāo)準(zhǔn)化最普遍的基礎(chǔ)網(wǎng)絡(luò)形態(tài)。
¨ 服務(wù)器高速互聯(lián)網(wǎng)絡(luò):多用于服務(wù)器高速集群互聯(lián),在大多數(shù)條件下使用以太網(wǎng)進(jìn)行承載;但在某些特殊要求應(yīng)用環(huán)境下,使用Infiniband(簡(jiǎn)稱IB)網(wǎng)絡(luò)進(jìn)行集群互聯(lián)。IB的特點(diǎn)主要是時(shí)延小,不丟包。IB的低時(shí)延在于轉(zhuǎn)發(fā)機(jī)制為cut-through模式(傳統(tǒng)以太網(wǎng)交換機(jī)為store-forwarding模式),可達(dá)200納秒。同時(shí)IB通過credit機(jī)制進(jìn)行端到端流控,使得網(wǎng)絡(luò)突發(fā)大流量得到平緩,數(shù)據(jù)保持在服務(wù)器接口而避免流量丟失。
¨ 存儲(chǔ)訪問網(wǎng)絡(luò):用于承載服務(wù)器上層應(yīng)用系統(tǒng)對(duì)后端存儲(chǔ)的數(shù)據(jù)操作,存儲(chǔ)網(wǎng)絡(luò)主要用于傳送SCSI指令,核心要求是高帶寬、不丟包。目前常見的存儲(chǔ)網(wǎng)絡(luò)有FC交換機(jī)構(gòu)建的FC-SAN和以太網(wǎng)交換機(jī)構(gòu)建的IP-SAN。
多套網(wǎng)絡(luò)的數(shù)據(jù)中心(圖1),不僅增加了投資成本,同時(shí)由于技術(shù)差異大,需要不同的專業(yè)人員進(jìn)行操作,給數(shù)據(jù)中心的運(yùn)行管理帶來很多不便及較高的培訓(xùn)成本。隨著數(shù)據(jù)中心規(guī)模不斷增大,龐大的異構(gòu)網(wǎng)絡(luò)也成為影響數(shù)據(jù)中心TCO的一個(gè)重要環(huán)節(jié)。
圖1 數(shù)據(jù)中心異構(gòu)網(wǎng)絡(luò)
3、數(shù)據(jù)中心流量突發(fā)
數(shù)據(jù)中心基礎(chǔ)網(wǎng)絡(luò)高性能的特點(diǎn)已經(jīng)為建設(shè)者不容置疑,全線速、高帶寬是設(shè)備選型的核心因素。但是,隨著數(shù)據(jù)中心應(yīng)用的迅猛增長(zhǎng),網(wǎng)絡(luò)承載的業(yè)務(wù)流也不斷增長(zhǎng)。
圖2 網(wǎng)絡(luò)流量突發(fā)性
根據(jù)網(wǎng)絡(luò)觀測(cè)(圖2),以1毫秒為間隔采集到的流量峰值是平均流量的2~3倍。因此在高密應(yīng)用環(huán)境下的數(shù)據(jù)中心網(wǎng)絡(luò)中,特別是萬兆互聯(lián)環(huán)境下,業(yè)務(wù)流量突發(fā)異常顯著,而這樣的突發(fā)數(shù)據(jù)流需要網(wǎng)絡(luò)交換系統(tǒng)進(jìn)行緩存和排隊(duì)調(diào)度。通常的網(wǎng)絡(luò)設(shè)計(jì)雖然是千兆服務(wù)器接入、萬兆網(wǎng)絡(luò)骨干,但在網(wǎng)絡(luò)的骨干層面基本存在一定的帶寬收斂設(shè)計(jì),如出現(xiàn)多個(gè)萬兆端口向較少萬兆端口突發(fā)數(shù)據(jù),則存在嚴(yán)重的突發(fā)擁塞瓶頸。
當(dāng)交換系統(tǒng)對(duì)流量突發(fā)的緩存調(diào)度能力有限時(shí),必然導(dǎo)致在集中業(yè)務(wù)訪問引起的流量突發(fā)情況下的大量丟包,引起傳輸層的窗口滑動(dòng)、重傳和流量環(huán)境進(jìn)一步惡化,降低服務(wù)響應(yīng)能力。
傳統(tǒng)的交換方式最多只能進(jìn)行8種流的區(qū)分和調(diào)度,業(yè)務(wù)能力有限,難以滿足當(dāng)前數(shù)據(jù)中心高密應(yīng)用需求,特別是浪涌突發(fā)環(huán)境下,粗粒度調(diào)度能力、低容量網(wǎng)絡(luò)緩存無法解決眾多關(guān)鍵應(yīng)用的高吞吐量突發(fā)訪問業(yè)務(wù)要求。
三、數(shù)據(jù)中心基礎(chǔ)架構(gòu)的新發(fā)展
1、100G時(shí)代來臨
以太網(wǎng)技術(shù)發(fā)展是以10倍速方式躍階的,如圖3所示。當(dāng)前的千兆接入、萬兆骨干已經(jīng)是普遍構(gòu)建的網(wǎng)絡(luò)架構(gòu)。隨著成本的持續(xù)下降,萬兆技術(shù)也開始從網(wǎng)絡(luò)的核心,推進(jìn)到網(wǎng)絡(luò)邊緣,推進(jìn)到服務(wù)器、存儲(chǔ)設(shè)備上。
圖3 以太網(wǎng)的快速發(fā)展
研究下一代以太網(wǎng)標(biāo)準(zhǔn)的HSSG技術(shù)工作組已經(jīng)結(jié)束爭(zhēng)論,制定一個(gè)包含40Gbps和100Gbps速度的單一標(biāo)準(zhǔn)——IEEE802.3ba,并將在2010年確定。40Gbps主要面向服務(wù)器,100Gbps則面向網(wǎng)絡(luò)匯聚和骨干。每種速度將提供一組物理接口:40Gbps將有1米交換機(jī)背板鏈路、10米銅纜鏈路和100米多模光纖鏈路標(biāo)準(zhǔn);100Gbps將有10米銅纜鏈路、100米多模光纖鏈路和10千米、40公里單模光纖鏈路標(biāo)準(zhǔn)。
基于面向40G/100G下一代超高帶寬的發(fā)展理念,H3C推出的下一代數(shù)據(jù)中心級(jí)業(yè)務(wù)調(diào)度統(tǒng)一交換平臺(tái)S12500在架構(gòu)設(shè)計(jì)上考慮了對(duì)40G/100G的兼容,當(dāng)前槽位帶寬單向180G,已經(jīng)具備了40G接口和100G接口的支持能力,后續(xù)可以通過后端交換矩陣升級(jí)到360G槽位帶寬,提供高密度40G和100G接口。在802.3ba標(biāo)準(zhǔn)發(fā)布后,能夠通過技術(shù)平滑升級(jí)過渡到超高速網(wǎng)絡(luò)環(huán)境,并保持對(duì)傳統(tǒng)千兆、萬兆的兼容性。
2、數(shù)據(jù)中心的網(wǎng)絡(luò)浪涌容載能力與業(yè)務(wù)調(diào)度
為解決數(shù)據(jù)中心高密應(yīng)用調(diào)度、流量浪涌式突發(fā)緩沖等關(guān)鍵的性能問題,必然在交換平臺(tái)的基礎(chǔ)架構(gòu)設(shè)計(jì)上進(jìn)行技術(shù)革新。
首先是在交換平臺(tái)上提供硬件化的流量管理能力。大容量緩存匹配密集的硬件調(diào)度隊(duì)列,將調(diào)度能力擴(kuò)展到上萬個(gè)隊(duì)列,一旦使上層應(yīng)用數(shù)據(jù)流進(jìn)入相應(yīng)的硬件隊(duì)列,則可實(shí)現(xiàn)大范圍(遠(yuǎn)超過8個(gè)隊(duì)列)的數(shù)據(jù)中心級(jí)業(yè)務(wù)調(diào)度能力,如圖4所示。
圖4 大緩存與整體業(yè)務(wù)調(diào)度
另一個(gè)技術(shù)變革是改變傳統(tǒng)交換系統(tǒng)的出端口緩存方式,而采用分布式ingress緩存架構(gòu)。傳統(tǒng)出端口緩存方式,整個(gè)系統(tǒng)的業(yè)務(wù)突發(fā)容載能力僅由出端口可分配的緩存大小決定,因此容量是固定的。流量達(dá)到一定的突發(fā)界限,即瞬時(shí)突發(fā)數(shù)據(jù)量超過了出端口緩存大小,整個(gè)系統(tǒng)便開始出現(xiàn)丟包。
分布式緩存技術(shù)則采用了區(qū)別于傳統(tǒng)方式的架構(gòu),如圖5所示。正常轉(zhuǎn)發(fā)過程中,出端口是以萬兆線速對(duì)外轉(zhuǎn)發(fā)數(shù)據(jù)的,當(dāng)出現(xiàn)多個(gè)萬兆到一個(gè)萬兆的突發(fā)流量即將超萬兆擁塞時(shí),ingress端口緩存根據(jù)credit限額開始將突發(fā)流量緩存到本地并停止超過出端口速率部分的數(shù)據(jù)發(fā)送,同時(shí)出口仍然以萬兆線速發(fā)送瞬時(shí)的突發(fā)流量。當(dāng)出端口解除準(zhǔn)擁塞狀態(tài)后, ingress緩存將保留的數(shù)據(jù)進(jìn)行正常轉(zhuǎn)發(fā)。
整個(gè)分布式緩存機(jī)制由硬件進(jìn)行分布式精確調(diào)度,無需軟件參與,因而工作在系統(tǒng)時(shí)鐘級(jí)別。而每個(gè)ingress緩存大小均要求在萬兆全線速條件下達(dá)到200毫秒的突發(fā)流量緩存能力,因此,在流量突發(fā)將引起瞬時(shí)擁塞時(shí),N個(gè)端口向一個(gè)端口轉(zhuǎn)發(fā)的緩存能力是N*200毫秒,與傳統(tǒng)出端口緩存固定能力相比有本質(zhì)的提升。而且,經(jīng)測(cè)試觀測(cè),緩存能力的實(shí)際表現(xiàn)與根據(jù)端口緩存大小的理論計(jì)算是符合的。
圖5 分布式緩存架構(gòu)
3、數(shù)據(jù)中心級(jí)HA進(jìn)入毫秒計(jì)時(shí)
高可用是數(shù)據(jù)中心基礎(chǔ)網(wǎng)絡(luò)的永恒話題,據(jù)有關(guān)機(jī)構(gòu)調(diào)查,可用性是各行業(yè)數(shù)據(jù)中心各項(xiàng)業(yè)務(wù)指標(biāo)排在首位的關(guān)注項(xiàng)。
對(duì)于當(dāng)前數(shù)據(jù)中心密集應(yīng)用環(huán)境,核心基礎(chǔ)網(wǎng)絡(luò)平臺(tái)的應(yīng)對(duì)故障快速恢復(fù)能力已經(jīng)不是秒級(jí)指標(biāo)能夠滿足的,快速收斂目標(biāo)已經(jīng)設(shè)定在毫秒級(jí)。因此,毫秒級(jí)恢復(fù)能力成為數(shù)據(jù)中心的故障恢復(fù)指標(biāo)。
H3C數(shù)據(jù)中心交換平臺(tái)S12500可提供的已測(cè)試部分指標(biāo)數(shù)據(jù)為:
雙引擎主備倒換切換時(shí)間 0丟包
單電源模塊更換 0丟包
OSPF GR 0丟包
BFD for VRRP <50毫秒
路由學(xué)習(xí)能力 20000條/秒
4、數(shù)據(jù)中心統(tǒng)一交換架構(gòu)
隨著以太網(wǎng)技術(shù)的進(jìn)一步發(fā)展,新的技術(shù)標(biāo)準(zhǔn)不斷推動(dòng)基礎(chǔ)平臺(tái)架構(gòu)的變化與融合。
萬兆交換系統(tǒng)的時(shí)延已經(jīng)降到微妙級(jí)別,而且當(dāng)前已經(jīng)有技術(shù)使得以太網(wǎng)芯片在cut-through方式下達(dá)到200~300納秒級(jí)別,逼近Infiniband的低時(shí)延水平。對(duì)于計(jì)算型應(yīng)用而言,采用以太網(wǎng)互聯(lián)的微秒級(jí)時(shí)延已經(jīng)能夠滿足大量的計(jì)算需求。近幾年高性能計(jì)算TOP500排名中超過50%的計(jì)算網(wǎng)絡(luò)互聯(lián)采用了千兆以太網(wǎng)。隨著萬兆、40G/100G技術(shù)的深入發(fā)展和終端萬兆接口技術(shù)成熟,以太網(wǎng)將成為服務(wù)器互聯(lián)計(jì)算承載的主流平臺(tái)。
無丟包以太網(wǎng)技術(shù)標(biāo)準(zhǔn)族(802.3Qau、802.1Qbb、802.1Qaz、Data Center Bridging Exchange Protocol)和相關(guān)技術(shù)即將發(fā)布,并在此基礎(chǔ)上進(jìn)一步支持FCoE,使得以太交換網(wǎng)絡(luò)能夠承載FC存儲(chǔ)數(shù)據(jù)流。
數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展趨勢(shì)是融合的統(tǒng)一交換架構(gòu),在一個(gè)交換平臺(tái)上有效支撐業(yè)務(wù)的前端訪問、服務(wù)器高速互聯(lián)、存儲(chǔ)訪問。
對(duì)于H3C數(shù)據(jù)中心方案而言,統(tǒng)一架構(gòu)的網(wǎng)絡(luò)平臺(tái)與業(yè)內(nèi)技術(shù)發(fā)展是同步的,遵循圖6所示的幾個(gè)階段。
圖6 H3C統(tǒng)一交換架構(gòu)發(fā)展路線
與其他解決方案提供商不同,H3C基于IP-SAN的萬兆成熟解決方案的廣泛應(yīng)用,使得H3C數(shù)據(jù)中心統(tǒng)一交換架構(gòu)早于FCoE實(shí)現(xiàn)存儲(chǔ)的融合。
四、結(jié)束語
數(shù)據(jù)中心系統(tǒng)架構(gòu)的發(fā)展和密集的業(yè)務(wù)需求,要求數(shù)據(jù)中心交換網(wǎng)絡(luò)成為高性能、融合業(yè)務(wù)統(tǒng)一交換的基礎(chǔ)平臺(tái)。S12500作為H3C下一代數(shù)據(jù)中心核心平臺(tái),將不斷熔煉新的技術(shù)與標(biāo)準(zhǔn),提供持續(xù)的可兼容、可擴(kuò)展能力,滿足數(shù)據(jù)中心的發(fā)展要求。