close

1、通過其他傳感器整合環境。溫度和試讀/液體傳感器只是智能數據中心環境監控的起步。很多地方需要消防警報。這些警報通常連接了建築的滅火系統,它們也可以被整合進數據中心監控系統,讓管理者發現火警立刻採取行動。
同樣也要用PDS(電力分配系統)監控能源,然後整合所得數據。能源監控可以支持持續評價數據中心PUE,幫助IT部門儘早介入能源錯誤。有的數據中心還檢查整合智能UPS系統的數據,還能追蹤UPS電池和告警情況。
房間和機架通行傳感器可以查出哪些人未經授權進入機房,在必要的時候還會召喚保安。至少簡單的物理傳感器可以記錄開關門情況,縮小在特定時間的人員進出範圍。
2、管理告警。正常運行時間和能效是衡量環境監控的標準。因爲查找錯誤,或提前檢測來預防故障是數據中心的關鍵任務。管理良好集中的系統能讓管理者很快應對緊急事件,保持高度正常運行。創建中心告警系統也對數據中心正常運行有很大意義。好的告警系統可以優先處理關鍵問題,對後果最嚴重的潛在時間優先對待。當配置好告警系統,要評價和指定每個報警對於業務和操作的影響。
3、遠程數據中心監控。遠程監控能幫助組織時刻注意他們的後背環境,或者把監控管理工作外包出去。觀察遠程設施健康狀況的能力能幫助IT管理者對緊急時間做出更快的迴應,使環境回覆正常。
數據中心監控的最佳實踐
記住:數據中心監控架構需要定期維護和測試——就像任何設備一樣。另外,適應數據中心的進化,不要把傳感器放好了就不管。這裏有一些關於數據中心環境監控的實踐。
1、測試和維護。所有傳感器都得定期測試維護。不穩定或有問題的傳感器必須及時替換。有一種測試方法是看其他類似傳感器的報道。當一臺機架內幾個傳感器報告同時報告同樣溫度,但是有一個傳感器卻與其他相異,那就得檢查了,當然你也得看看是不是機架本身有問題。
2、隨時準備面對緊急狀況。傳感器本身不能防止緊急狀況發生,所以你還要做好常規的計劃。災難恢復計劃就得包含在內。你得知道數據中心運維團隊是哪個,如何最快找到他們。當發生製冷故障,你得先找HVAC工程師。還得仔細描述問題。說道緊急故障,那可真是分秒必爭。
3、準備好後備計劃。監控系統能設置不同級別的告警。如果數據中心是在託管環境,就得在服務級別的合同中指定緊急狀況。託管商必須有意外事故的計劃,以面對突然發生的問題。在私人數據中心裏,總有傳感器監控和告警系統運作。製冷裝置可能會在緊急狀況發生時保證本地後備部件——即使這意味這是用臨時便攜製冷設備。
4、自動化恢復計劃。有的監控系統整合了自動系統。一旦發生單獨的機架事故,有的系統能關掉不必要的服務器。開發服務器通常好點很大,卻不用在正常產品過程中運行。任何測試服務器如果不是必要的,都可以在緊急情況中關掉。
隨着數據中心進化,IT經理應該發掘更多自動化工具,來幫助環境長久運轉。物理架構管理的自動化和中心化是數據中心設計運維的下一步。關鍵仍然在於策略性地保持正常時間。提前做好機房監控,IT管理員可以減少大量宕機危險。

arrow
arrow
    文章標籤
    環境監控
    全站熱搜
    創作者介紹
    創作者 hank 的頭像
    hank

    websitedesign

    hank 發表在 痞客邦 留言(0) 人氣()