如果操作人員并非訓練有素,會增加數(shù)據中心故障的可能性
對于任何有軍事背景的人來說,這個道理很簡單。我們可以將數(shù)據中心操作人員接受培 訓的時間與其他主要操作職位所接受的培訓時間進行比較。例如,一個核設施中的操作人員 可能接受2000h的培訓,空軍地勤人員接受培訓的時間為1200h,而數(shù)據中心操作人員可能 很少,甚至沒有接受過有關如何操作他們所管理的數(shù)據中心關鍵子系統(tǒng)的培訓。數(shù)據中心操 作人員通常通過在工作中的動手操作和不正規(guī)的培訓獲得知識。盡管這些知識也是正確的, 但那是通過犯錯誤,甚至造成代價高昂的宕機而獲得的。
希望數(shù)據中心在運行時絕少出現(xiàn)巖機是大家的共同愿望,但是要做到這一點,必須對操 作人員進行有效的投資,要對操作人員制定一套標準的培訓計劃。在大部分情況下,培訓內 容涉及與各生產商的密切合作,以便對與產品有關的操作問題有詳細了解。
對于數(shù)據中心經理來說,最可怕的噩夢就是發(fā)生緊急斷電系統(tǒng)(EPO)的跳閘,無論是 人為的還是自動的,立即切斷給IT設備的供電對于硬件和應用軟件極其有害。對于配備了 最好的設備和最高冗余水平的數(shù)據中心,只要緊急斷電系統(tǒng)被啟動,整個中心就會在Is之 內停止運轉。盡管這對數(shù)據中心的沖擊很大,但由于國家電氣和火災法規(guī)的規(guī)定,在大部分 情況下配置EPO功能還是不可或缺的。
在多數(shù)情況下,EPO的錯誤配置很容易解決,由此產生的對數(shù)據中心的沖擊是可以避 免的。但是,很多數(shù)據中心操作人員不了解這些系統(tǒng)是如何工作的,對故障和自動跳閘也不 敏感。現(xiàn)在部分業(yè)內數(shù)據顯示,數(shù)據中心大概每5年經歷一次故障性跳閘。對于任何希望達 到99. 999%可用性(5個9)的數(shù)據中心,一次EPO錯誤就會使實現(xiàn)這一目標的所有希望 付之一炬,盡管保持的無錯誤記錄是那樣完美。
北京金恒智能系統(tǒng)工程技術有限責任公司 版權所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網站XML
智慧機房
在線體驗