一、概述
隨著企業(yè)數(shù)據(jù)中心建設的深化進行,企業(yè)業(yè)務數(shù)據(jù)集中密度越來越高,服務器存儲數(shù)量不斷增長,網(wǎng)絡架構不斷擴展,空間布局、系統(tǒng)布線、電力能耗壓力不斷增加。作為數(shù)據(jù)中心業(yè)務承載的大動脈,基礎網(wǎng)絡架構層面則直接面臨著持續(xù)的嚴格挑戰(zhàn)。網(wǎng)絡基礎技術的快速發(fā)展為數(shù)據(jù)中心變革提供了強大支撐動力,基礎網(wǎng)絡演進加快。
二、數(shù)據(jù)中心基礎網(wǎng)絡的挑戰(zhàn)與驅動力
1、高密服務器、存儲數(shù)據(jù)中心
數(shù)據(jù)中心的物理服務器、存儲系統(tǒng)數(shù)量快速增長,使得數(shù)據(jù)中心規(guī)模不斷擴大。企業(yè)數(shù)據(jù)集中、業(yè)務整合的過程,表現(xiàn)為高密應用系統(tǒng)的集中。同時,服務器與存儲等IT設備計算處理能力遵循摩爾定律的增長,也使得數(shù)據(jù)中心的業(yè)務處理能力持續(xù)增強。
目前1Gbps~8Gbps級別的服務器、存儲系統(tǒng)網(wǎng)絡接口成為主流,從而使得基礎網(wǎng)絡系統(tǒng)的千兆接入、萬兆互聯(lián)成為數(shù)據(jù)中心建設的基本標準。
新一代計算設備已經(jīng)開始提供萬兆接口,多核服務器已具備萬兆吞吐能力,多萬兆網(wǎng)絡接口的服務器、存儲系統(tǒng)開始在企業(yè)數(shù)據(jù)中心進行部署,計算能力迅速提升的同時也讓面向網(wǎng)絡的接入帶寬需求過渡到萬兆環(huán)境。
計算虛擬化的技術革新,使單一高計算能力物理服務器虛擬化成多個邏輯計算單元,極大提高了系統(tǒng)的計算效能以及對存儲訪問的高速吞吐。而由于等同于將此前的多個服務器應用系統(tǒng)疊加在一個網(wǎng)絡接口下,網(wǎng)絡流量急速提升,因此對數(shù)據(jù)中心基礎網(wǎng)絡提出了相當于傳統(tǒng)環(huán)境下數(shù)倍乃至數(shù)十倍的性能要求。
同時,在高密應用集中環(huán)境下,基礎網(wǎng)絡的可靠性要求更為苛刻。局部網(wǎng)絡產生的故障,對數(shù)據(jù)中心提供服務能力的影響比傳統(tǒng)環(huán)境要更為嚴重。傳統(tǒng)數(shù)據(jù)中心的局部故障可能只對單一應用造成短時影響,而新的數(shù)據(jù)中心環(huán)境下,則是大量應用密集,故障影響范圍擴大化。因此,對于網(wǎng)絡變化的快速收斂、更強的故障自愈能力也成為下一代數(shù)據(jù)中心平臺的重要研究課題。
2、數(shù)據(jù)中心多個獨立網(wǎng)絡
數(shù)據(jù)中心發(fā)展建設過程中,出于不同的應用連接要求,逐步出現(xiàn)了多個獨立網(wǎng)絡系統(tǒng),如圖1所示。
¨ 以太網(wǎng)交換網(wǎng)絡:用于連接承載終端客戶與業(yè)務服務器系統(tǒng)的數(shù)據(jù)訪問,強調高速、可靠、安全、遠端互聯(lián)性、開放性,是當前標準化最普遍的基礎網(wǎng)絡形態(tài)。
¨ 服務器高速互聯(lián)網(wǎng)絡:多用于服務器高速集群互聯(lián),在大多數(shù)條件下使用以太網(wǎng)進行承載;但在某些特殊要求應用環(huán)境下,使用Infiniband(簡稱IB)網(wǎng)絡進行集群互聯(lián)。IB的特點主要是時延小,不丟包。IB的低時延在于轉發(fā)機制為cut-through模式(傳統(tǒng)以太網(wǎng)交換機為store-forwarding模式),可達200納秒。同時IB通過credit機制進行端到端流控,使得網(wǎng)絡突發(fā)大流量得到平緩,數(shù)據(jù)保持在服務器接口而避免流量丟失。
¨ 存儲訪問網(wǎng)絡:用于承載服務器上層應用系統(tǒng)對后端存儲的數(shù)據(jù)操作,存儲網(wǎng)絡主要用于傳送SCSI指令,核心要求是高帶寬、不丟包。目前常見的存儲網(wǎng)絡有FC交換機構建的FC-SAN和以太網(wǎng)交換機構建的IP-SAN。
多套網(wǎng)絡的數(shù)據(jù)中心(圖1),不僅增加了投資成本,同時由于技術差異大,需要不同的專業(yè)人員進行操作,給數(shù)據(jù)中心的運行管理帶來很多不便及較高的培訓成本。隨著數(shù)據(jù)中心規(guī)模不斷增大,龐大的異構網(wǎng)絡也成為影響數(shù)據(jù)中心TCO的一個重要環(huán)節(jié)。
圖1 數(shù)據(jù)中心異構網(wǎng)絡
3、數(shù)據(jù)中心流量突發(fā)
數(shù)據(jù)中心基礎網(wǎng)絡高性能的特點已經(jīng)為建設者不容置疑,全線速、高帶寬是設備選型的核心因素。但是,隨著數(shù)據(jù)中心應用的迅猛增長,網(wǎng)絡承載的業(yè)務流也不斷增長。
圖2 網(wǎng)絡流量突發(fā)性
根據(jù)網(wǎng)絡觀測(圖2),以1毫秒為間隔采集到的流量峰值是平均流量的2~3倍。因此在高密應用環(huán)境下的數(shù)據(jù)中心網(wǎng)絡中,特別是萬兆互聯(lián)環(huán)境下,業(yè)務流量突發(fā)異常顯著,而這樣的突發(fā)數(shù)據(jù)流需要網(wǎng)絡交換系統(tǒng)進行緩存和排隊調度。通常的網(wǎng)絡設計雖然是千兆服務器接入、萬兆網(wǎng)絡骨干,但在網(wǎng)絡的骨干層面基本存在一定的帶寬收斂設計,如出現(xiàn)多個萬兆端口向較少萬兆端口突發(fā)數(shù)據(jù),則存在嚴重的突發(fā)擁塞瓶頸。
當交換系統(tǒng)對流量突發(fā)的緩存調度能力有限時,必然導致在集中業(yè)務訪問引起的流量突發(fā)情況下的大量丟包,引起傳輸層的窗口滑動、重傳和流量環(huán)境進一步惡化,降低服務響應能力。
傳統(tǒng)的交換方式最多只能進行8種流的區(qū)分和調度,業(yè)務能力有限,難以滿足當前數(shù)據(jù)中心高密應用需求,特別是浪涌突發(fā)環(huán)境下,粗粒度調度能力、低容量網(wǎng)絡緩存無法解決眾多關鍵應用的高吞吐量突發(fā)訪問業(yè)務要求。
三、數(shù)據(jù)中心基礎架構的新發(fā)展
1、100G時代來臨
以太網(wǎng)技術發(fā)展是以10倍速方式躍階的,如圖3所示。當前的千兆接入、萬兆骨干已經(jīng)是普遍構建的網(wǎng)絡架構。隨著成本的持續(xù)下降,萬兆技術也開始從網(wǎng)絡的核心,推進到網(wǎng)絡邊緣,推進到服務器、存儲設備上。
圖3 以太網(wǎng)的快速發(fā)展
研究下一代以太網(wǎng)標準的HSSG技術工作組已經(jīng)結束爭論,制定一個包含40Gbps和100Gbps速度的單一標準——IEEE802.3ba,并將在2010年確定。40Gbps主要面向服務器,100Gbps則面向網(wǎng)絡匯聚和骨干。每種速度將提供一組物理接口:40Gbps將有1米交換機背板鏈路、10米銅纜鏈路和100米多模光纖鏈路標準;100Gbps將有10米銅纜鏈路、100米多模光纖鏈路和10千米、40公里單模光纖鏈路標準。
基于面向40G/100G下一代超高帶寬的發(fā)展理念,H3C推出的下一代數(shù)據(jù)中心級業(yè)務調度統(tǒng)一交換平臺S12500在架構設計上考慮了對40G/100G的兼容,當前槽位帶寬單向180G,已經(jīng)具備了40G接口和100G接口的支持能力,后續(xù)可以通過后端交換矩陣升級到360G槽位帶寬,提供高密度40G和100G接口。在802.3ba標準發(fā)布后,能夠通過技術平滑升級過渡到超高速網(wǎng)絡環(huán)境,并保持對傳統(tǒng)千兆、萬兆的兼容性。
2、數(shù)據(jù)中心的網(wǎng)絡浪涌容載能力與業(yè)務調度
為解決數(shù)據(jù)中心高密應用調度、流量浪涌式突發(fā)緩沖等關鍵的性能問題,必然在交換平臺的基礎架構設計上進行技術革新。
首先是在交換平臺上提供硬件化的流量管理能力。大容量緩存匹配密集的硬件調度隊列,將調度能力擴展到上萬個隊列,一旦使上層應用數(shù)據(jù)流進入相應的硬件隊列,則可實現(xiàn)大范圍(遠超過8個隊列)的數(shù)據(jù)中心級業(yè)務調度能力,如圖4所示。
圖4 大緩存與整體業(yè)務調度
另一個技術變革是改變傳統(tǒng)交換系統(tǒng)的出端口緩存方式,而采用分布式ingress緩存架構。傳統(tǒng)出端口緩存方式,整個系統(tǒng)的業(yè)務突發(fā)容載能力僅由出端口可分配的緩存大小決定,因此容量是固定的。流量達到一定的突發(fā)界限,即瞬時突發(fā)數(shù)據(jù)量超過了出端口緩存大小,整個系統(tǒng)便開始出現(xiàn)丟包。
分布式緩存技術則采用了區(qū)別于傳統(tǒng)方式的架構,如圖5所示。正常轉發(fā)過程中,出端口是以萬兆線速對外轉發(fā)數(shù)據(jù)的,當出現(xiàn)多個萬兆到一個萬兆的突發(fā)流量即將超萬兆擁塞時,ingress端口緩存根據(jù)credit限額開始將突發(fā)流量緩存到本地并停止超過出端口速率部分的數(shù)據(jù)發(fā)送,同時出口仍然以萬兆線速發(fā)送瞬時的突發(fā)流量。當出端口解除準擁塞狀態(tài)后, ingress緩存將保留的數(shù)據(jù)進行正常轉發(fā)。
整個分布式緩存機制由硬件進行分布式精確調度,無需軟件參與,因而工作在系統(tǒng)時鐘級別。而每個ingress緩存大小均要求在萬兆全線速條件下達到200毫秒的突發(fā)流量緩存能力,因此,在流量突發(fā)將引起瞬時擁塞時,N個端口向一個端口轉發(fā)的緩存能力是N*200毫秒,與傳統(tǒng)出端口緩存固定能力相比有本質的提升。而且,經(jīng)測試觀測,緩存能力的實際表現(xiàn)與根據(jù)端口緩存大小的理論計算是符合的。
圖5 分布式緩存架構
3、數(shù)據(jù)中心級HA進入毫秒計時
高可用是數(shù)據(jù)中心基礎網(wǎng)絡的永恒話題,據(jù)有關機構調查,可用性是各行業(yè)數(shù)據(jù)中心各項業(yè)務指標排在首位的關注項。
對于當前數(shù)據(jù)中心密集應用環(huán)境,核心基礎網(wǎng)絡平臺的應對故障快速恢復能力已經(jīng)不是秒級指標能夠滿足的,快速收斂目標已經(jīng)設定在毫秒級。因此,毫秒級恢復能力成為數(shù)據(jù)中心的故障恢復指標。
H3C數(shù)據(jù)中心交換平臺S12500可提供的已測試部分指標數(shù)據(jù)為:
雙引擎主備倒換切換時間 0丟包
單電源模塊更換 0丟包
OSPF GR 0丟包
BFD for VRRP <50毫秒
路由學習能力 20000條/秒
4、數(shù)據(jù)中心統(tǒng)一交換架構
隨著以太網(wǎng)技術的進一步發(fā)展,新的技術標準不斷推動基礎平臺架構的變化與融合。
萬兆交換系統(tǒng)的時延已經(jīng)降到微妙級別,而且當前已經(jīng)有技術使得以太網(wǎng)芯片在cut-through方式下達到200~300納秒級別,逼近Infiniband的低時延水平。對于計算型應用而言,采用以太網(wǎng)互聯(lián)的微秒級時延已經(jīng)能夠滿足大量的計算需求。近幾年高性能計算TOP500排名中超過50%的計算網(wǎng)絡互聯(lián)采用了千兆以太網(wǎng)。隨著萬兆、40G/100G技術的深入發(fā)展和終端萬兆接口技術成熟,以太網(wǎng)將成為服務器互聯(lián)計算承載的主流平臺。
無丟包以太網(wǎng)技術標準族(802.3Qau、802.1Qbb、802.1Qaz、Data Center Bridging Exchange Protocol)和相關技術即將發(fā)布,并在此基礎上進一步支持FCoE,使得以太交換網(wǎng)絡能夠承載FC存儲數(shù)據(jù)流。
數(shù)據(jù)中心網(wǎng)絡發(fā)展趨勢是融合的統(tǒng)一交換架構,在一個交換平臺上有效支撐業(yè)務的前端訪問、服務器高速互聯(lián)、存儲訪問。
對于H3C數(shù)據(jù)中心方案而言,統(tǒng)一架構的網(wǎng)絡平臺與業(yè)內技術發(fā)展是同步的,遵循圖6所示的幾個階段。
圖6 H3C統(tǒng)一交換架構發(fā)展路線
與其他解決方案提供商不同,H3C基于IP-SAN的萬兆成熟解決方案的廣泛應用,使得H3C數(shù)據(jù)中心統(tǒng)一交換架構早于FCoE實現(xiàn)存儲的融合。
四、結束語
數(shù)據(jù)中心系統(tǒng)架構的發(fā)展和密集的業(yè)務需求,要求數(shù)據(jù)中心交換網(wǎng)絡成為高性能、融合業(yè)務統(tǒng)一交換的基礎平臺。S12500作為H3C下一代數(shù)據(jù)中心核心平臺,將不斷熔煉新的技術與標準,提供持續(xù)的可兼容、可擴展能力,滿足數(shù)據(jù)中心的發(fā)展要求。