close

機房建置服務器只是複雜的機器。
像任何機器一樣,它們需要定期維護,以達到最佳性能。
簡單的維護程序可減少嚴重的服務電話,延長服務器的使用壽命。
即使現代服務器擁有強大性能與豐富功能,增加的工作量整合和可靠性預期可能會對您的業務造成損失。
您的服務器維護覈對清單應包括物理元素以及系統的關鍵配置。

Data centre
堅持常規檢查
服務器管理員也經常忽略規劃維護窗口。
不要等到發生實際的問題,再預留時間進行例行的服務器預防性維護。
維護頻率取決於設備的年齡、數據中心環境、需要維護的服務器的數量等因素。
例如,位於設備倉庫中的較舊設備需要比採用HEPA過濾方式部署的、冷卻良好的數據中心中的新服務器更頻繁的檢查。
組織可以根據供應商或第三方提供商例程的日常維護計劃,如果供應商的服務合同每四到六個月要求進行系統檢查,遵循該日程安排。
準備工作決定一切
在處理服務器維護清單上的項目之前,請先制定計劃。
這包括檢查系統日誌中是否包含需要更多直接關注的任何錯誤或事件。
例如,如果系統日誌表示特定內存模塊的錯誤,您應該訂購一個替換的DIMM並將其安裝。
同樣,如果有固件,操作系統或代理補丁或更新可用,請在維護窗口之前先測試並檢查這些補丁。
還需一份明確的將系統脫機並將其返回服務狀態的明確計劃。
在虛擬化技術出現之前,服務器及其駐留應用程序將需要停機以適應維護窗口——通常迫使IT人員在夜間或週末執行維護。
虛擬化的服務器支持工作負載遷移,以取代停機時間,因此您可以將應用程序遷移到其他服務器,並且在底層主機系統上發生服務器維護時,將它們保持爲可用狀態。
在服務之前,瞭解虛擬機應該出現的位置,將虛擬機遷移到所選系統,並確保每個工作負載正在運行,然後再將服務器關閉進行維護。
此時,通常可以關閉服務器並將其從機架或其他機箱中取出。
確保服務器正常運行
一旦服務器脫機時,目視檢查其外部和內部氣流路徑。
除去灰塵和其它碎屑能夠妨礙冷卻空氣的任何累積。
從外部空氣入口和出口開始檢查,隨後進入系統機箱,查看CPU散熱器和風扇組件,內存模塊和所有冷卻風扇葉片和風道通道。
用清潔、乾燥的壓縮空氣清除適當、靜電安全的工作區上的灰塵或碎屑。
不要在機架上打掃服務器。
打掃灰塵是一個古老的流程,但這並不意味着它已經過時了。
灰塵是一種絕熱材料,如何去掉它們的方法非常重要,現在替代的冷卻方案和ASHRAE建議已經提高了數據中心的運行溫度。
灰塵和其他氣流障礙物將導致服務器使用更多的能量,甚至會引起本可避免的早期組件故障。
檢查本地磁盤
許多服務器依靠內部硬盤進行引導、工作負載啓動和存儲,用戶數據和其他功能。
磁盤介質問題嚴重損害了工作負載的性能和穩定性,往往導致磁盤過早故障。
磁介質不完美。
普遍的問題包括扇區損壞和碎片。
RAID在存儲錯誤後保持數據完整性有很大的進步,但較小的1U機架式服務器不能提供足夠的物理空間來部署磁盤陣列。
使用CHKDSK(檢查磁盤)實用程序等工具來驗證磁盤的完整性,並嘗試恢復任何損壞的扇區。
Windows Server 2012的更新版本的CHKDSK可以快速分析和修復文件系統結構中的磁盤問題。
只要NTFS和文件分配表或FAT文件系統首先使用磁盤空間可用的集羣,磁盤碎片根本不會消失。
碎片可能會拖慢服務器的磁盤並導致故障。
Windows Server 2012下的Optimize-Volume等實用程序會將每個文件的集羣連續排列在磁盤上。
閱讀事件日誌的詳細報告
服務器在事件日誌中記錄大量信息,特別是有關問題的詳細信息。
沒有仔細檢查系統,惡意軟件和其他事件日誌,沒有服務器維護清單完成。
當然,關鍵的系統問題應該立即引發IT管理員和技術人員的關注,但是, 無數的小問題可能預示着長期和嚴重的問題。
當您查閱日誌時,請檢查報告設置並驗證警報和警報收件人是否正常。
例如,如果服務器組有技術人員離職,則需要更新服務器的報告系統。
仔細檢查聯繫方式;
如果錯誤發生在工作時間之外,則報告發給技術人員公司電子郵件地址的嚴重錯誤可能完全不夠用(譯者注:非工作時間,技術人員可能無法登陸公司郵箱獲取重要的問題報告)。
主動跟日誌數據。
當日志檢查發現長期或重複的問題時,積極的調查可以在問題升級之前進行問題解決。
例如,如果服務器的日誌報告內存模塊中的可恢復性錯誤,它將不會觸發關鍵警報。
但是重複的實例會導致模塊出現問題,IT人員可以執行更詳細的診斷來識別即將發生的故障。
如果問題不是那麼嚴重,無需關閉服務器,則可以在更換硬件進入之前重新恢復生產狀態。

arrow
arrow
    文章標籤
    機房建置
    全站熱搜
    創作者介紹
    創作者 hank 的頭像
    hank

    websitedesign

    hank 發表在 痞客邦 留言(0) 人氣()