超大數據中心架構,光電互聯接口數量及類型淺談(上)

光纖在線編輯部  2019-01-21 10:48:54  文章來源:自我撰寫  版權所有,未經書面許可嚴禁轉載.

導讀:

光纖在線特邀編輯:肖明
1/21/2019,最近和幾個業內朋友聊天時,發現很多人對于數據中心使用什么底層網絡架構,如何演進,會需要什么類型的光電接口,什么數量級,怎么計算需求等等問題存在很多疑惑。心血來潮想結合過往的經驗,寫點東西,權當拋磚引玉,僅供大家參考和討論,個中偏頗之處還請大家指正。

    首先要提到的是摩爾定律(Moore’s law),其在數據中心的演進中表現的非常明顯。幾乎每2年數據中心的交換帶寬在價格不變的情況下翻倍,從而滿足快速增長的超級應用對于帶寬的需求,尤其是視頻類的應用。比如字節跳動(今日頭條的母公司)旗下在北美的小視頻App,Tik Tok,流量指數級暴漲讓其數據中心服務商阿里云在北美不斷忙于升級,當然也是“痛并快樂著”。

    這里以谷歌的數據中心拓撲架構為例,(以后有機會再一起探討Facebook,Microsoft等的數據中心架構)。谷歌數據中心在過去十來年已經演進了好幾代,主要是基于Clos網絡拓撲架構,從一開始的Firehose,逐漸演化到Watchtower,Saturn,到近些年不少場合被提到的Jupiter。交換設備接口速率也從1GbE演進到了40GbE/100GbE,400GbE也正在小量應用中。圖1給出了谷歌數據中心拓撲架構的演變示意,表1則給出了每個世代的架構參數。更具體的內容可以參考知乎上的文章【1】。

圖1:谷歌數據中心拓撲架構的演變示意
 
表1:谷歌數據中心每個世代的架構參數

    Clos網絡架構最早是由Charles Clos于1952年設計出的,用多級的小型交換機陣列構建一個“無阻塞”的網絡,有這么幾個特點:
 主要為三級交換架構
 每一級的每個單元都與下一級的設備互聯
 支持遞歸,帶寬可無限擴展,對任意一臺服務器,能使用網卡的最高帶寬與數據中心任意一臺服務器通信
 向后兼容,兼容現有的以太網及應用
 到指定的目的地,路由選擇在第一級是可以有多個路徑,但后續交換單元之間只存在唯一一條路由
    Clos網絡架構比較簡單,不少白盒機廠商用Broadcom的交換芯片就可以生產出性能不錯的高端交換機。現在越來越多的數據中心在使用Clos網絡拓撲架構。
    傳統數據中心中南北向(關于網絡中南北東西的解釋可以參考【2】)的流量較大,但隨著分布式計算需求的興起,東西向的流量快速加大,一方面分布式計算導致服務器之間的訪問需求大幅增加;另一方面,應用也變得越來越復雜,比如物聯網中的某個用戶發起請求,中心服務器可能需要從眾多邊緣數據中心或者服務器抽取一些數據,處理后再返回到用戶,如此東西向的流量就變得越來越大,甚至大過南北向流量。這也就是為什么最近幾年數據中心之間的互聯需求增長幅度要快于數據中心內部互聯,見表2,Cisco global cloud index 2016-2021,

表2:Cisco global cloud index 2016-2021

    Jupiter是基于一個40Gbps的數據中心網絡,其架構有這個幾個特點:
1. Centauri TOR(Top of Rack)交換機每一個基礎單元是一個4U的機箱,每一個含有640G(16x40G)的交換芯片,共計4x16x40G的交換容量。如果按3:1南北向分配,則可以配置為48x40G容量南向到服務器,16x40G北向到fabric network,或者以10Gbps為基礎速率,192x10G南向和64x10G北向。當然,也可以做1:1分配,南北向各32x40G,如圖2。

圖2:Centauri TOR(Top of Rack)交換機配置

2. 中間區塊(Middle Blocks)由4個Centauri交換機組成,其交換容量為4x4x(16x40G),但每個中間區塊都由2級(two-stage)Clos交換機組成,每一級可以配置為64x40G北向到Spine交換機,64x40G或者256x10G南向連接32個TOR交換機。
3. 每個匯聚區塊(Aggregation Blocks)由8個中間區塊構成,其交換容量為8x(64x40G)即512x40G北向到Spine交換機,南向8x(256x10G)即2048x10G到TOR交換機。
4. Spine交換機由2-stage Clos交換機組成,即2x(64x40G)與匯聚區塊互聯。
 
   這樣對于一個Jupiter數據中心,其架構為256個Spine交換機,南向與64個匯聚區塊互聯,每個匯聚區塊南向與32個TOR交換機互聯,也就意味著總共需要2048(=64x32)個TOR機柜;每臺機柜可以有最多48臺服務器,滿配也就是說98304臺服務器;每臺服務器可配置2個高速網卡,即一個Jupiter數據中心會需要196,608個10G高速網卡。

圖3 Jupiter數據中心架構

    從以上的架構來看,想必大家已經可以自己算出來光電接口的數量了。這是以最大基礎速率40Gbps的Google Jupiter數據中心舉的例子,當然如果最大基礎速率是100Gbps或者400Gbps,同時服務器網卡最小速率為25Gbps或者50Gbps,大家可以依此方式做相應的推演。
    
    當然,數據中心未來的演進還是有不少挑戰的。比如電交換的速率逐漸會遇到瓶頸,以Broadcom的Switching ASIC為例,從早先2011年發布的640G交換容量的Trident,到2014年發布的1.2T Trident 2,2015年發布的3.2T Tomahawk,到2017年末發布2018年3季度量產的基于16nm CMOS工藝的12.8T Tomahawk 3,技術路線圖發展還是很快的,但后面的25.6T及以上交換芯片的推出時間存在很多不確定性,主要是因為芯片的BGA封裝PIN腳密度,IO數量快速提升難度很大。

圖4:引入硅光技術的刀片服務器

    如上圖4,因為硅光技術的引入,一臺刀片服務器的尺寸可以大幅削減60%以上,同時,速率大幅提升以及功耗的大幅下降是顯然易見的好處。這也就直接驅動主流的芯片公司甚至具體設備商們,最近幾年大量投入在硅光技術(Silicon Photonics,SiP),以及2.5D/3D的芯片封裝技術等。關于硅光技術,以后再找機會做專題討論。

圖5:硅光內部

    另外,也有幾個問題會限制數據中心的發展速度,比如IEEE在PCIe總線接口標準的演進太慢,目前主流仍然是PCIe 3.0,每個lane的速率僅為8Gbps,不少業內專家也在呼吁直接跳過PCIe 4.0去發布PICe 5.0,每個Lane的速率達到32Gbps,這樣光電速率可以匹配。其它問題,比如SERDES演進(25G-50G),數據中心制冷(傳統風冷到液冷),Serverless等等,也都是不小的話題。
    
    總的來說,未來的數據中心架構是朝著“模塊化、扁平化、易擴展”這幾個方向在發展,超大型云服務商們也越來越重視數據中心網絡架構的演進和優化,物聯網,5G一定會催生出超級應用,從而推進數據中心的快速發展。希望有機會與業內人士多多探討這方面的話題。下篇將更多探討光電互聯接口在數據中心的應用。

參考文章:
1 Google過去十年發展數據中心網絡的經驗 陳宇飛 https://zhuanlan.zhihu.com/p/29945202
2 網絡的東西南北:拋棄SDN,迎接網絡虛擬化? https://www.csdn.net/article/2014-01-23/2818233-SDN-Network-Virtualization
3 “Jupiter Raising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network”
4 “Cisco global cloud index 2016-2021 white paper”
5 “Facebook’s Data center Network Architecture”
6 肖明,2016年,“Future Data Center and High Speed Optics Interconnection”
光纖在線

光纖在線公眾號

更多猛料!歡迎掃描左方二維碼關注光纖在線官方微信

熱門搜索

熱門新聞

最新簡歷

  • 吳** 深圳 生產線領班/線長技術員/產線操作員技術員/產線操作員
  • 陳** 廣東 副總經理/副總裁生產經理/主管營運經理/主管
  • 劉** 深圳 項目經理/主管研發/開發工程師市場/營銷經理/主管
  • 劉** 武漢 總工程師/副總工程師技術/工藝設計經理/主管銷售經理/銷售主管
  • 張** 嘉興 技術員/產線操作員技術支持工程師

展會速遞

微信掃描二維碼
使用“掃一掃”即可將網頁分享至朋友圈。
海底总动员动图
重庆庆时时彩技巧 河北时时软件手机版下载 重庆时彩时彩结果 怎样判断时时彩开单双 足球14场胜负彩开奖结果 赌龙虎最好的方法 电子游戏怎么玩才能赢 王中王3肖6码免费公开 网上打三公有什么技巧 波音公司官网娱乐 时时彩免费软件 上海时时票开奖结果 北京pk10基本走势图 pk10五码二期必中技巧 双色球复式投注方法 看牌抢庄牛牛棋牌游戏