如今,在超大型數(shù)據(jù)中心運營商(如亞馬遜公司)認(rèn)為市場無法提供或自己建設(shè)數(shù)據(jù)中心成本更低的時候,就會考慮采用自己的基礎(chǔ)設(shè)施技術(shù)進(jìn)行建設(shè)。
亞馬遜公司內(nèi)部應(yīng)用的一項技術(shù)成為了規(guī)避該公司的一位頂級基礎(chǔ)設(shè)施工程師所描述的開關(guān)電器供應(yīng)商產(chǎn)品設(shè)計方式的優(yōu)先事項。
電氣開關(guān)柜
正是這個問題可能導(dǎo)致去年夏天的美國達(dá)美航空公司數(shù)據(jù)中心停機,最終導(dǎo)致達(dá)美航空公司1.5億美元的損失。此外,2013年美國橄欖球聯(lián)盟的年度冠軍賽“超級碗”的停電事故也讓人深思。亞馬遜網(wǎng)絡(luò)服務(wù)副總裁兼杰出工程師JohnHamilton在其職業(yè)生涯中管理的數(shù)據(jù)中心遇到了這種失敗。
他在個人博客的一篇文章中寫道:“我曾在更大的數(shù)據(jù)中心工作,并在工作中親自經(jīng)歷過兩次停電事故?!盚amilton在加入亞馬遜公司之前,曾經(jīng)在微軟公司大約工作了十年時間。
Hamilton并沒有在他的博客文章中引用達(dá)美航空公司的案例,但去年夏天只有這家航空公司數(shù)據(jù)中心發(fā)生中斷故障,該航空公司后來公布了上億美元的損失。
亞馬遜公司設(shè)計的避免這種電力中斷的技術(shù)是固件,它決定了當(dāng)數(shù)據(jù)中心的電力中斷時,電氣開關(guān)應(yīng)該進(jìn)行的處置措施。Hamilton表示,傳統(tǒng)的供應(yīng)商固件優(yōu)先考慮防止損壞昂貴的備用發(fā)電機,從而避免完全的數(shù)據(jù)中心中斷故障。亞馬遜公司(也許大多數(shù)其他大型數(shù)據(jù)中心運營商)都傾向于寧愿面對上百萬美????設(shè)備的損失風(fēng)險,而不愿面臨大范圍的應(yīng)用程序的中斷風(fēng)險。
當(dāng)電力設(shè)施停電(大多數(shù)時候都是這種情況)發(fā)生時,通常開關(guān)柜設(shè)備等待幾秒鐘再進(jìn)行動作,以等待電力立即恢復(fù)(這是最常見的情況),如果沒有恢復(fù),開關(guān)柜將會動作啟動發(fā)電機,而數(shù)據(jù)中心的IT設(shè)備將會采用UPS供電系統(tǒng)的后備電源。一旦發(fā)電機運行穩(wěn)定,就會成為IT系統(tǒng)的主要電力來源。
去年美國達(dá)美航空公司數(shù)據(jù)中心停電歸因于開關(guān)柜“鎖定”了亞特蘭大航空公司的發(fā)電機,沒有及時進(jìn)行切換。而這個功能是數(shù)據(jù)中心或供電設(shè)備中的大多數(shù)開關(guān)柜感測到市電異常而設(shè)計的,而如果開關(guān)切換,現(xiàn)場的柴油發(fā)電機有可能如果接入短路電流,就會發(fā)生短路事故,因此開關(guān)柜將發(fā)電機的開關(guān)鎖定以避免事故發(fā)生。
在大多數(shù)情況下這種事故將發(fā)生在建筑物之外,因此這個方案除了造成數(shù)據(jù)中心中斷之外,不會對其他設(shè)施造成損失。Hamilton表示,數(shù)據(jù)中心內(nèi)部短路,斷路器斷開,服務(wù)器切換到備用電源,或者如果配電系統(tǒng)中的故障較高或斷路器未能打開,發(fā)電機未鎖定時可能會損壞發(fā)電機。而這種情況極少發(fā)生。
“我寧愿承擔(dān)發(fā)電機的損壞風(fēng)險,也不能讓IT負(fù)荷中斷?!彼f,“如果客戶因此可能會損失上億美元,那么保護(hù)柴油發(fā)電機就不會成為優(yōu)先事項。”
由于了解到潛在的設(shè)備故障,當(dāng)亞馬遜公司工程師要求他們的開關(guān)柜制造商從其固件中消除鎖定設(shè)置時,開關(guān)柜供應(yīng)商拒絕實行,因此亞馬遜公司決定使用自己推出的固件。
Hamilton表示,“我很幸運能夠為這么大規(guī)模的運營商工作,實施定制可以避免中斷事件發(fā)生,即使發(fā)生發(fā)電機損壞這樣罕見的故障,也仍然具有極好的經(jīng)濟意義。因此我們幾年前就采用了這種特定的故障解決模式。”

