當涉及到機房建置時,"彈性"一詞可以定義爲"在面對環境極端以及人爲錯誤或故意破壞的情況下維持ICT服務的能力",通常可以將更高水平的彈性設計成機械和電力基礎設施在成本上的溢價。
Uptime Institute的數據中心的等級標準是廣泛用於衡量數據中心基礎架構彈性的方法。
然而根據研究,"人爲錯誤"是數據中心中斷的主要原因,至少爲70%。
但即使這樣,可以通過冗餘設計來提高可靠性。
在每個總線中使用UPS的雙母線供電系統可以在很大程度上保護雙接線負載,防止電源故障,人爲錯誤和無效的破壞,但即使如此,也一定要更加小心謹慎。
數字誤導用戶
當然,數據中心的用戶希望數據中心具有更高的可靠性和可用性,並且物有所值。
那麼,如何瞭解數據中心的可用性呢?
以下兩個有些相互關聯的"指標":
"Uptime Institute(I-IV)"或"TIA-942"(I-IV)的"類型",BICSI的"評級"和EN50600的"可用性類"
可用性百分率,例如99.999%(所謂的"五個九")
除了指出,只有Uptime Institute可以給出一個等級,TIA-942和BICSI是最適用於北美的ANSI標準,EN50600還沒有被使用,人們可以將這些標準都概述成描述能力的四個級別"可維護性"和"容錯".這些原則是明確的,兼容的可維護性回答了一個問題,即建立一個非常可靠(可能是有彈性的)數據中心,這個數據中心必須每年關閉一次以便維護?
雖然容錯系統可能會有任何組件,路徑或空間"失敗",但卻不會影響ICT服務。
然而濫用最多的是可用性百分率,因爲這很容易計算,但可以愚弄非專業的買方和用戶,使其造成誤解。
其實要明確地表示可用性,只需要兩個數字就可以,MTBF(平均故障間隔時間,小時)和MTTR(平均修復時間,小時),只需將MTBF除以總時間( MTBF + MTTR)來表示可用性,再乘以100%,就是真正的可用性。
因此,擁有很長的MTBF和很短的MTTR可能會得可用性非常高的結果。
不幸的是,MTBF和MTTR卻是營銷部門可以猜測的數字,如果他們使用這些數字來解釋。
例如,企業可以通過假設客戶端具有豐富經驗的工作人員和備件,並可在20分鐘內修復UPS,UPS的可用性可以引用99.999%。
然而真正的情況是,致電服務工程師上門維修,等待備件,重新投入使用之前進行測試(通常爲一天或更長時間)。
而假設MTBF爲100,000小時(12年以下),而MTTR爲20分鐘到12小時,這可以產生任何人們想要的結果。
第二個問題是故障事件的數量(多個MTTR求和)和MTBF的組合。
舊版本的Uptime Institute白皮書(現已作廢)試圖將可用率與四個Tier等級相關聯,但沒有定義測量時間。
這導致了一個奇怪的情況,即Tier級別低的數據中心設施每年可以允許53分鐘的離線時間,但級別最高的的Tier IV級數據中心只能提供5.3分鐘。
這很奇怪,然而如果每年發生一次的故障,這個對於TierI-Tier IV的任何級別的數據中心來說都是災難。
不管怎樣,人們不要總是關注這個問題,而要考慮組合問題。
這尤其影響到許多非常短暫的失敗。
最簡單的說明方法,就是以人們的心臟跳動爲例,某人的心臟是99.9%"可用",這聽起來還不錯,一年有3153600秒,0.01%代表着一年中可能30000次心跳停止跳動,如果某次時間較長,就會帶來生命危險,而如果它們在一年中平均分佈,那麼可能只是感覺不舒服。
在數據中心的術語中,查看電源輸入提供給負載的電壓。
許多現代的服務器無法承受10ms的電力中斷,而在6毫秒時,電力系統的可用性爲99.9999999%,因此每年可能會產生三個10ms的故障。
那麼該怎麼辦呢?
既然可用性是一個度量標準,只要它表達清晰,就沒有什麼問題。
例如,"10年以上測量的99.99%的可用性,單次故障持續不超過10小時"是MTBF(10年)和MTTR(10小時)的明確聲明。
一些人可能已經算出了答案,可用性將達到99.98859.但是現在人們可能會得出這樣一個觀點:MTBF比可用性更重要,人們需要採用MTBF來計算可用性在第一位。"
單一失敗"卻避免了多個事件的求和。
當然,彈性數據中心的最終"失敗"可能是最容易實現的:並不是通過黑客互聯網入侵UPS,而是人爲因素或故障關閉電源,提高服務器入口溫度,使其宕機。
彈性對於數據中心基礎管理和防止出現停機中斷都是至關重要的。
即使是最好的設計和運營也可能會發生失敗。
因此數據中心技術人員通過設計和測試來滿足運營商操作人員的需求,減少對停機中斷的恐懼,同時還可以提高工作人員管理維護數據中心,並提升對可用性的信心。
留言列表