日本A∨码与亚洲|乱伦无码免费无码区操|婷婷最爱五月综合69久久|久久日韩大片国家a级黄|欧美成人无码A片免费|亚洲性图一区二区三区|黄片欧美日韩一区三区|男女网站在线观看免费91|亚洲AV无码之国产精品|日本久久成人免费视频

支撐AI的高性能數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)如何設(shè)計(jì)?

2018/4/19 11:18:29 來(lái)源:通信世界網(wǎng) 作者: 分類:滾動(dòng)新聞

近日,工信部印發(fā)《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動(dòng)計(jì)劃(2018-2020年)》,意在加快人工智能從戰(zhàn)略到落地,推動(dòng)人工智能和實(shí)體經(jīng)濟(jì)深度融合。在新工業(yè)革命的背景下,大數(shù)據(jù)、計(jì)算力、算法等快速迭代,正驅(qū)動(dòng)人工智能進(jìn)入新階段。2017年Q3,全球AI公司融資金額突破77億美元,是2012年的70余倍。可能會(huì)有人說(shuō)這是“泡沫”,而我更愿意相信這是人工智????發(fā)展的必然結(jié)果。

在AI技術(shù)的應(yīng)用過程中,各個(gè)企業(yè)都在尋找能夠更好支撐高性能計(jì)算的基礎(chǔ)網(wǎng)絡(luò)解決方案。在《數(shù)據(jù)中心基礎(chǔ)網(wǎng)絡(luò)架構(gòu)最佳實(shí)踐及未來(lái)發(fā)展趨勢(shì)》這篇文章中,我分享了如何設(shè)計(jì)一個(gè)穩(wěn)定可靠的數(shù)據(jù)中心網(wǎng)絡(luò),下面我們?cè)賮?lái)探討支撐AI應(yīng)用的高性能無(wú)損網(wǎng)絡(luò)應(yīng)該如何設(shè)計(jì)。

前面提到大數(shù)據(jù)、計(jì)算力、算法等快速迭代,正驅(qū)動(dòng)人工智能進(jìn)入新階段,而這些技術(shù)的實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的低時(shí)延、無(wú)丟包、高性能這三個(gè)方面提出更高要求。




▲ AI應(yīng)用的技術(shù)體系及對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)的要求


高性能和無(wú)丟包比較好理解,就是指網(wǎng)絡(luò)帶寬性能的提升以及網(wǎng)絡(luò)中不存在擁塞導(dǎo)致的丟包。產(chǎn)生時(shí)延的環(huán)節(jié)較多,要實(shí)現(xiàn)端到端的低時(shí)延,需要多角度分析:




其中,光電傳輸時(shí)延和數(shù)據(jù)串行時(shí)延相對(duì)較小,且很難通過架構(gòu)設(shè)計(jì)來(lái)優(yōu)化,我們應(yīng)重點(diǎn)關(guān)注主機(jī)處理時(shí)延和設(shè)備轉(zhuǎn)發(fā)時(shí)延。在各大企業(yè)積極尋求的高性能計(jì)


算方案中,基于以太網(wǎng)的RDMA(Remote Direct Memory Access)憑借其高性能和低成本優(yōu)勢(shì)逐漸取代InfiniBand而成為主流技術(shù)。RoCEv2(RDMA over


Converged Ethernet)技術(shù)基于UDP協(xié)議,對(duì)于建設(shè)支撐AI應(yīng)用的高性能無(wú)損以太網(wǎng)絡(luò)變得尤為重要。


結(jié)合設(shè)備轉(zhuǎn)發(fā)層面的時(shí)延優(yōu)化手段,高性能無(wú)損網(wǎng)絡(luò)的實(shí)現(xiàn)取決于兩個(gè)要素:


無(wú)帶寬收斂(1:1)的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)


基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)功能的優(yōu)先隊(duì)列管理和擁塞管理

綜上,AI集群高性能計(jì)算和網(wǎng)絡(luò)方案實(shí)踐思路如下圖所示:



▲ AI集群高性能方案關(guān)鍵技術(shù)組合


在這里,我以25G網(wǎng)絡(luò)為例,結(jié)合業(yè)界主流產(chǎn)品形態(tài),分享AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)和實(shí)現(xiàn)思路。

主要設(shè)計(jì)理念:

讓   核心設(shè)備全線速高性能轉(zhuǎn)發(fā),核心之間不互聯(lián),采用Fabric架構(gòu),隔離核心故障,最大程度降低核心故障的影響;

讓   三層路由組網(wǎng),通過ECMP提高冗余度,降低故障風(fēng)險(xiǎn);

讓   TOR上下行收斂比嚴(yán)格實(shí)現(xiàn)1:1,通過提高核心設(shè)備接口密度擴(kuò)展單集群服務(wù)器規(guī)模;

讓   應(yīng)用PFC+ECN功能,實(shí)現(xiàn)低延時(shí)無(wú)損網(wǎng)絡(luò)。

網(wǎng)絡(luò)架構(gòu)設(shè)計(jì):

1.中小型(集群規(guī)模1000臺(tái))




▲  架構(gòu)設(shè)計(jì)

架構(gòu)特性:

每臺(tái)TOR采用8*100GE上聯(lián)8臺(tái)32口100G BOX交換機(jī),OSPF/BGP組網(wǎng)

適用集群規(guī)模1000臺(tái)

每臺(tái)TOR下聯(lián)32臺(tái)Servers,IDC內(nèi)收斂比1:1 ,集群帶寬25Tbps

2.中型(集群規(guī)模2000臺(tái))




▲  架構(gòu)設(shè)計(jì)


架構(gòu)特性:

每臺(tái)TOR采用8*100GE上聯(lián)8臺(tái)64口100G BOX,OSPF/BGP組網(wǎng)

適用集群規(guī)模2000臺(tái)

每臺(tái)TOR下聯(lián)32臺(tái)Servers,IDC內(nèi)收斂比1:1 ,集群帶寬50Tbps

3.大型(集群規(guī)模2000-18000臺(tái))




▲  架構(gòu)設(shè)計(jì)

架構(gòu)特性:

每臺(tái)TOR采用8*100GE上聯(lián)4~8臺(tái)核心(機(jī)框式),BGP組網(wǎng)

適用集群規(guī)模2000~18000臺(tái)

每臺(tái)TOR下聯(lián)32臺(tái)Servers,IDC內(nèi)收斂比1:1 ,集群帶寬50~450Tbps

4.超大型(集群規(guī)模20000+臺(tái))




▲  架構(gòu)設(shè)計(jì)

架構(gòu)特性:

單POD集群規(guī)模1000~2000臺(tái),數(shù)據(jù)中心集群規(guī)模20000+,BGP組網(wǎng)

POD內(nèi)收斂比1:1,單POD集群帶寬25Tbps,總集群帶寬500Tbps+

POD內(nèi)收斂比和上行帶寬根據(jù)集群帶寬需求靈活配置,適用與非AI應(yīng)用混合部署

在數(shù)據(jù)中心網(wǎng)絡(luò)中,PFC和ECN功能將部署在Leaf和Spine設(shè)備上。PFC作用于設(shè)備互聯(lián)端口,通過反壓影響上游端口隊(duì)列的發(fā)送速率,而ECN是作用在設(shè)備轉(zhuǎn)發(fā)過程,最終影響的是數(shù)據(jù)流的發(fā)送方,通過降低某條數(shù)據(jù)流發(fā)送速率規(guī)避數(shù)據(jù)丟包。

q8.png

PFC 機(jī)制將以太鏈路上的流量區(qū)分為不同的等級(jí),基于每條流量單獨(dú)發(fā)送“不許可證”。相對(duì)于PAUSE幀而言,PFC可以將鏈路虛擬出8條不同等級(jí)的虛擬通道,當(dāng)某條通道出現(xiàn)擁塞后不會(huì)影響其它通道。

RoCEv2 定義了 RoCEv2 Congestion Management ( RCM ),其中擁塞管理用的特性ECN(RFC 3168)是在交換機(jī)出口(egress port)發(fā)起的擁塞控制機(jī)制。當(dāng)交換機(jī)的出口buffer達(dá)到設(shè)定的閾值時(shí),交換機(jī)會(huì)改變數(shù)據(jù)包頭中的ECN位來(lái)給數(shù)據(jù)打上ECN標(biāo)簽,當(dāng)帶ECN標(biāo)簽的數(shù)據(jù)到達(dá)接收端以后,接收端會(huì)生成CNP(Congestion Notification Packet)并將它發(fā)送給發(fā)送端。CNP包含了導(dǎo)致?lián)砣膄low或QP的信????,當(dāng)發(fā)送端收到CNP后,會(huì)采取措施降低發(fā)送速度。

由于PFC作用于整個(gè)隊(duì)列,而ECN只針對(duì)產(chǎn)生擁塞的具體會(huì)話,在設(shè)置PFC和ECN相關(guān)水線時(shí),應(yīng)做到先觸發(fā)ECN后再觸發(fā)PFC。

從外賣訂單和叫車訂單的智能調(diào)度,到電商平臺(tái)的智能推薦,再到人臉識(shí)別支付以及即將實(shí)現(xiàn)的全自動(dòng)無(wú)人駕駛汽車量產(chǎn),AI技術(shù)的應(yīng)用已在方方面面影響著人們的生活和工作,讓大家的生活越來(lái)越便捷、時(shí)間利用越來(lái)越合理。但是,這都離不開基礎(chǔ)設(shè)施的支撐。銳捷網(wǎng)絡(luò)將憑借在數(shù)據(jù)通信領(lǐng)域近20年的技術(shù)積累和行業(yè)經(jīng)驗(yàn),創(chuàng)新出更好的產(chǎn)品和解決方案,助力AI技術(shù)的蓬勃發(fā)展。

相關(guān)資訊

  • 國(guó)內(nèi)物聯(lián)網(wǎng)產(chǎn)業(yè)規(guī)模逼近萬(wàn)億元 面臨市場(chǎng)碎片化難題

    萬(wàn)物互聯(lián)”時(shí)代正漸行漸近。2017年以來(lái)NB-IoT(窄帶物聯(lián)網(wǎng))在國(guó)內(nèi)迎來(lái)規(guī)模化商用,各大電信運(yùn)營(yíng)商、網(wǎng)絡(luò)設(shè)備商等紛紛加快產(chǎn)業(yè)布局步伐,有望帶動(dòng)國(guó)內(nèi)物聯(lián)網(wǎng)產(chǎn)業(yè)騰飛。專家表示,萬(wàn)物互聯(lián)時(shí)代正在到來(lái),但物聯(lián)網(wǎng)發(fā)展往往面臨技術(shù)和應(yīng)用碎片化現(xiàn)象,克服這一困難需要凝聚產(chǎn)業(yè)各…

    2018/1/2 10:31:33
  • 2018中國(guó)互聯(lián)網(wǎng)續(xù)寫華章

    剛剛過去的2017年,中國(guó)互聯(lián)網(wǎng)追風(fēng)踏浪,勇立潮頭,捷報(bào)頻傳。高鐵、支付寶、共享單車、網(wǎng)購(gòu)成為外國(guó)人眼中的中國(guó)“新四大發(fā)明”,人工智能異軍突起,物聯(lián)網(wǎng)、大數(shù)據(jù)、虛擬現(xiàn)實(shí)技術(shù)與實(shí)體經(jīng)濟(jì)進(jìn)一步融合。新興產(chǎn)業(yè)蓬勃發(fā)展,傳統(tǒng)行業(yè)迎來(lái)變革之機(jī)。海外網(wǎng)邀請(qǐng)幾位專家對(duì)這一系…

    2018/1/2 9:49:22
  • 曙光南京云計(jì)算中心入選工信部首批國(guó)家綠色數(shù)據(jù)中心

    近日,工信部、國(guó)家機(jī)關(guān)事務(wù)管理局、國(guó)家能源局聯(lián)合發(fā)布了《國(guó)家綠色數(shù)據(jù)中心名單(第一批)》公示,由中科曙光(603019)建設(shè)運(yùn)營(yíng)的南京云計(jì)算中心成功入圍,這是行業(yè)對(duì)曙光多年從事數(shù)據(jù)中心節(jié)能環(huán)保建設(shè)成績(jī)的認(rèn)可。

    2017/12/29 10:11:39
  • 西湖:阿里云計(jì)算公司總部項(xiàng)目開工

    12月26日上午,由阿里巴巴集團(tuán)投資的阿里云計(jì)算公司總部項(xiàng)目開工活動(dòng),在西湖區(qū)云谷項(xiàng)目施工現(xiàn)場(chǎng)隆重舉行。

    2017/12/27 11:52:22

共有訪客發(fā)表了評(píng)論 網(wǎng)友評(píng)論

驗(yàn)證碼: 看不清楚?