Uptime Institute的一項調查研究顯示,高達十分之一的機櫃運行在溫度高於設備可靠性指導原則所推薦的允許範圍。
目前機房建置的機櫃功率密度不斷攀升,平均每臺機櫃的功率密度達到5kW甚至更高,因此,預計受熱點困擾的機櫃數量將與日俱增,很快超過上述比例。
如果熱點遲遲無法消除,時間一久便可能帶來嚴重的威脅,不僅危及IT設備的可靠性與性能,還會影響硬件製造商的保修或維護協議。
因此,數據中心運維人員需儘早採取有效措施,避免出現此類風險。
1 什麼是熱點
許多IT專業人員經常查看熱通道的溫度,或在冷通道的錯誤位置查看溫度,一旦發現溫度過高,便自認爲發現了熱點。
然後,他們會採取各種應對措施,但結果可能令人失望,非但未能消除熱點,反而引發更多的熱點。
搞清究竟什麼是熱點、熱點的根本起因以及如何識別熱點對於根除熱點至關重要。
(1) 熱點的定義
不能將數據中心內隨機測得的任何高溫點都視作熱點。
我們將熱點定義爲:當IT設備進風口的溫度高於ASHRAETC9.9所推薦的期望值,即視作熱點。
一般機櫃頂部的位置最容易產生熱點。
美國供熱、製冷與空調工程師學會(ASHRAE)的熱指南給出了服務器進風口處溫度的推薦值及允許值範圍。
(2) 熱點產生的根源
數據中心所安裝製冷裝置的製冷量經常供大於求,特別是當製冷量完全由IT設備“銘牌”上的額定值所決定。
倘若如此,那麼爲何還會出現熱點?
究其原因,熱點的產生並非是製冷量不足或熱負荷過大,而是製冷量未能得到充分的使用,換句話說,製冷量是充足的,但未能在需要製冷的區域提供充分的製冷量,這是由於缺乏氣流管理所造成的。
圖1是一個製冷量未被充分利用的例子,這是來自施耐德電氣對一個真實案例的研究。
圖中顯示了一個採用房間級製冷的傳統典型數據中心,它的高架地板和吊頂用作送風和迴風通道。
機房空調先是以一定的壓力和速度將冷風送入地板通道。
然後,冷風通過高架地板中的穿孔地板(佔機房空調氣流的54%)和地板上線纜切口(佔機房空調氣流的46%)從地板通道進入IT空間(即泄漏氣流)。
地板上線纜切口的泄漏氣流會導致製冷量的損失,因爲氣流無法到達IT設備的前方,而是繞過了設備。
事實上,這些氣流並未帶走任何熱量,而是又繞回到製冷單元。
通過穿孔地板的大部分氣流(佔穿孔地板風量的96.29%)都流經IT機櫃中的設備,但由於缺乏氣流管理,並非全部氣流都通過設備。
一小部分冷風(佔穿孔地板風量的3.71%)繞過IT設備又返回到製冷單元。
與泄漏氣流相同,這些旁通氣流也會造成製冷量損失。
同時,某些“亟需冷卻”的IT設備無法獲得足夠的冷量,而不得不從機櫃後部吸入設備排出的熱風(佔IT氣流量的7.15%),這經常在“亟需冷卻”的IT設備的前方造成熱點。
簡而言之,用於減少氣流泄漏、旁通與再循環的措施將有助於熱點的消除。
(3) 如何識別熱點
儘早發現熱點對於防止IT設備過熱和故障至關重要。
我們可以通過以下三種方法發現熱點:
①最簡單、最經濟的熱點檢測方法就是在數據中心內來回巡視,將手放於機櫃前部,感覺溫度。
如果溫度較高,則說明存在熱點。
這種方法的準確性最差,但對於極爲明顯的熱點頗爲有效。
②手動測量法較爲準確,因爲儀表可以更準確地測出溫度值。
此類儀表包括塑料溫度貼條、槍式測溫計和FLIR紅外熱像儀。
手動測量被認爲是一種經濟且頗爲有效的熱點檢測方法。
儘管如今的紅外熱像儀售價高達300美元。
數據中心運維人員可以利用這些儀表在服務器進風口和機櫃的前門位置測量溫度值以及測量服務器進風口和排風口間的溫差(即服務器的ΔT),以便發現熱點。
③自動監測被譽爲熱點識別的最佳方法,可以顯示實時數據,說明服務器或數據中心的製冷狀態。
數據中心物理基礎設施管理(DCIM)解決方案的自動監測裝置可在系統達到某個閾值時,通過電子郵件或短消息向相關人員發出實時警報。
藉助DCIM軟件,您可以按照自己的具體要求查看每臺設備進風口和排風口的實際溫度。
施耐德電氣的StruxureWareTM就是一款典型的數據中心基礎設施管理軟件,它可以利用從已安裝的傳感器網絡收集到的實時數據來提供詳實的三維熱分佈圖。
這種方法的精確度最高,但成本也最高。
此外,IT設備一般配有內置熱傳感器,可以監控其熱狀態並利用IPMI協議報告熱點。
其他有助於識別或預防潛在熱點的建議包括利用計量型機櫃式PDU識別並檢查高密度(功率密度在5kW以上的)機櫃——因爲這些機櫃出現熱點的可能性更高。
在決定進行移動、添加和更改機櫃操作後或在數據中心設計階段,利用CFD軟件預測熱點。
CFD模擬技術可以提供機櫃前部溫度與壓力雲圖以及機櫃周圍氣流分佈的詳細三維分析,從而發現潛在熱點。
該工具的強大之處在於可以發現哪些區域的製冷量被浪費,哪些區域存在冷熱氣流混合,導致製冷量未被充分利用。
留言列表