機房監(jiān)控的目的在于保護(hù)機房內(nèi)IT系統(tǒng)的正常、有效運行,在事故發(fā)生之前偵測出潛在危機,并通過各種方式將警情信息發(fā)送給相關(guān)人員及時進(jìn)行處理。因此,機房監(jiān)控的核心應(yīng)該是對IT系統(tǒng)運行狀態(tài)的監(jiān)控,而最直接有效的監(jiān)控應(yīng)該是直接對IT設(shè)備運行狀態(tài)進(jìn)行監(jiān)控。
為了改變傳統(tǒng)機房環(huán)境監(jiān)控的現(xiàn)狀,需要引入三大新理念加以改善。
1、對設(shè)備內(nèi)部進(jìn)行監(jiān)控
機房監(jiān)控的目的在于保護(hù)機房內(nèi)IT系統(tǒng)的正常、有效運行,在事故發(fā)生之前偵測出潛在危機,并通過各種方式將警情信息發(fā)送給相關(guān)人員及時進(jìn)行處理。因此,機房監(jiān)控的核心應(yīng)該是對IT系統(tǒng)運行狀態(tài)的監(jiān)控,而最直接有效的監(jiān)控應(yīng)該是直接對IT設(shè)備運行狀態(tài)進(jìn)行監(jiān)控。
IT設(shè)備內(nèi)部的運行環(huán)境,例如服務(wù)器內(nèi)風(fēng)扇轉(zhuǎn)速與CPU溫度等是最直接、最迅速影響IT設(shè)備正常運行的因素。有時候即使機房內(nèi)空調(diào)運轉(zhuǎn)正常,機房整體環(huán)境參數(shù)值也在預(yù)設(shè)范圍內(nèi),但某服務(wù)器卻因為某種原因出現(xiàn)服務(wù)器內(nèi)風(fēng)扇的轉(zhuǎn)速不正常、CPU過熱。如果只監(jiān)控機房整體環(huán)境,此時機房的管理人員是不會得到這種危險信息的,整個系統(tǒng)就會因為該服務(wù)器潛在危機沒有得到及時處理而意外癱瘓。
2、多層次的機房監(jiān)控
完善的機房監(jiān)控系統(tǒng)應(yīng)該是能夠?qū)崿F(xiàn)對從設(shè)備運行情況到機柜微環(huán)境再到機房整體環(huán)境這樣多層次的監(jiān)控,并能重點實現(xiàn)對設(shè)備內(nèi)部的監(jiān)控。
我們都知道,機柜內(nèi)的微環(huán)境是設(shè)備正常運行所需要的物理環(huán)境。機柜微環(huán)境參數(shù)最能體現(xiàn)設(shè)備所處的實際運行物理環(huán)境的情況,所以實現(xiàn)對機柜內(nèi)微環(huán)境的監(jiān)控也相當(dāng)重要。機房各個點的環(huán)境參數(shù)值是不同的,因此機房內(nèi)整體環(huán)境監(jiān)測的參數(shù)不能體現(xiàn)各機柜微環(huán)境參數(shù),更不能體現(xiàn)重要設(shè)備內(nèi)部的環(huán)境。也就是說,即使機房整體環(huán)境參數(shù)正常,IT設(shè)備所在處的環(huán)境也不一定正常。所以說機房的整體環(huán)境監(jiān)控的重要性次于對設(shè)備的監(jiān)控和對機柜內(nèi)微環(huán)境的監(jiān)控。
空調(diào)機的運行是為了降低機房內(nèi)的溫度,使機房內(nèi)的整體溫濕度保持在一個合適的范圍內(nèi),機房各個點的溫度參數(shù)值是不同的。空調(diào)機出風(fēng)口的溫度值不能說明機房的整體溫度和機柜微環(huán)境溫度,空調(diào)的正常運行不能說明設(shè)備就能正常運行。因此對空調(diào)的監(jiān)控不能代表甚至取代對設(shè)備的監(jiān)控。
漏水監(jiān)測系統(tǒng)是為了監(jiān)測機房內(nèi)是否有漏水,以防止因漏水影響設(shè)備的正常運行。線式探測器是成線型布置在機房可能漏水的最低處,而實際上點式漏水探測器同樣可以反映機房的漏水情況且比線式探測器經(jīng)濟實惠、安裝方便、維護(hù)簡單。
機房內(nèi)設(shè)備由于非常重要,一般都是采用UPS供電,并且UPS是雙供電,只要對UPS進(jìn)行監(jiān)控就能確保設(shè)備正常供電并且能反映市電的情況。因此,對電源的有效監(jiān)控是在不增加任何投資的情況下通過協(xié)議實現(xiàn)對UPS的監(jiān)控,通過監(jiān)控其電壓、電流、電池使用情況、市電情況來確保設(shè)備的正常運行。
3、機房監(jiān)控的預(yù)警功能
報警(alarm)是報告事件的發(fā)生,是在故障或危害發(fā)生之后向管理人員發(fā)送警訊,及時地發(fā)送警訊可以縮短故障修復(fù)時間(MTTR),最大程度地保障系統(tǒng)運行。但故障還是不可避免地發(fā)生了,影響了系統(tǒng)的正常運行。
預(yù)警(alert)則是在故障或危害發(fā)生之前向管理人員報告潛在危機,提示相關(guān)人員進(jìn)行處理,是事前的,可以防止事故的發(fā)生。有效的預(yù)警可以增加系統(tǒng)平均無故障工作時間(MTBF),并可以根據(jù)危機情況自動延伸到報警。
預(yù)警與報警的區(qū)別就在于它是事前預(yù)防性報警,機房監(jiān)控系統(tǒng)只有具有良好的預(yù)警功能才能偵測出潛在危機并分層次逐步擴大警訊發(fā)送范圍,有效地防止事故的發(fā)生,將損失降低到最小。越來越多的機房管理人員也開始意識到預(yù)警的重要性,因此機房監(jiān)控系統(tǒng)必須有預(yù)警功能。
那么,機房監(jiān)控該如何實現(xiàn)預(yù)警功能呢?首先,可以通過靈活的閾值設(shè)置多種偵測方式,確保能及時地發(fā)現(xiàn)潛在危機;其次,通過設(shè)置多種預(yù)警的方式,確保所有相關(guān)人員無論在何時何地都能收到警訊;再次,設(shè)置多個預(yù)警流程,確保不同的相關(guān)人員在不同時間接收到不同程度的警訊。
這樣,一旦有危機出現(xiàn),立刻將信息發(fā)送給相關(guān)人員直至危機得到有效處理,實現(xiàn)真正意義的預(yù)警功能,最大程度地保護(hù)系統(tǒng)的運行。
這種將網(wǎng)絡(luò)運維和機房的配電電源監(jiān)控、環(huán)境監(jiān)控、和安全視頻監(jiān)控結(jié)合在一起監(jiān)控,基于TCP/IP及SNMP,就能夠高度的集中管理,不僅能夠?qū)蝹€機房內(nèi)各種動力設(shè)備與環(huán)境設(shè)備的各種狀態(tài)信息、報警信息、控制命令與歷史數(shù)據(jù)等進(jìn)行完整的集中監(jiān)控,并且能夠?qū)⒎植荚谌珖鞯氐亩鄠€機房實現(xiàn)跨區(qū)域的集中監(jiān)控。用戶只需登錄一套系統(tǒng)就完成對整個資源的管理,免去了登錄多套系統(tǒng)的麻煩。
為防止外人非法闖入實施破壞和盜竊行為,可根據(jù)機房現(xiàn)場環(huán)境合理配置門禁和紅外等探測器實現(xiàn)防盜報警。如果生后報警會將聯(lián)動打開輔助攝像燈光,攝像機會自動切換到相應(yīng)位置并開始錄像,同時通過短信,郵件等多種發(fā)生向用戶發(fā)出報警。真正實現(xiàn)無人值守、集中化、自動化的機房維護(hù)管理。
最后,管理和監(jiān)控是息息相關(guān)的。只有企業(yè)具備完善的管理能力能才保證監(jiān)控發(fā)揮作用。
文章來源:http://m.shfkmygs.com
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機房
在線體驗