■ 河北 溫帥
編者按:筆者在工作中發(fā)現(xiàn)一款監(jiān)測溫度的軟件,利用該軟件,可以實現(xiàn)機房溫度監(jiān)測報警機制。
筆者單位機房的普通格力120空調(diào)出現(xiàn)兩次故障,一次出現(xiàn)報錯,一次直接關(guān)機,兩次故障導(dǎo)致的原因都是外機溫度過高。
第一次發(fā)現(xiàn)是在例行檢查時,機房溫度已經(jīng)超過了45度,兩臺服務(wù)器(加配外置風(fēng)扇)的溫度已經(jīng)超過了50度,網(wǎng)絡(luò)設(shè)備溫度未報警,風(fēng)扇正常運轉(zhuǎn)。
圖1 Core Temp軟件
發(fā)現(xiàn)后馬上開啟備用空調(diào),清理空調(diào)外機,外機進風(fēng)口已經(jīng)完全被糊住了,導(dǎo)致進風(fēng)困難,持續(xù)運轉(zhuǎn)溫度升高,經(jīng)過清理恢復(fù)運行。
第二次還是在例行檢查時發(fā)現(xiàn)空調(diào)關(guān)閉,沒有報錯,機房溫度超過44度,服務(wù)器溫度超過50度。
兩次故障幸虧是在例行檢查的時候發(fā)現(xiàn),如果有其他工作耽誤了例行檢查,很有可能造成溫度更高,甚至服務(wù)器損壞。
圖3 監(jiān)測界面
于是研究如何檢測機房溫度,以便在不穩(wěn)定的空調(diào)宕機時能及時收到消息。
第一想法是使用服務(wù)器的溫度傳感器監(jiān)測溫度,并經(jīng)過一定的觸發(fā)報警,通知到管理人員。
經(jīng)過從網(wǎng)上搜索,找到一款Core Temp軟件(如圖1所示),可以持續(xù)監(jiān)測服務(wù)器各個核心的溫度,并觸發(fā)過熱保護,通過聲音報警或觸發(fā)程序報警,并自動向郵箱發(fā)送郵件。
以前的腳本發(fā)現(xiàn)是vbs的,而該軟件需要bat或者exe格式的文件,于是筆者從網(wǎng)上搜了一下,找到一個腳本,這個腳本的特點是,擴展名為vbs或者bat,兩種腳本都可以用,其中的語句在vbs和bat中具有不同的意義,或者被忽略,但都能實現(xiàn)發(fā)郵件的效果。
具體腳本如圖2所示。
軟件安裝到了一臺物理服務(wù)器上后,還需要對溫度持續(xù)監(jiān)測,了解到正常溫度的最大值是多少,才能設(shè)定報警值。
經(jīng)過1周的監(jiān)測,發(fā)現(xiàn)在空調(diào)設(shè)置24度恒溫的情況下,4個CPU核心最高溫度為45,我手動同時運行多個大型程序,也不會超過這個溫度,于是將過熱保護值設(shè)定為46度,觸發(fā)過熱保護后,運行sendmail.bat腳本,發(fā)送郵件,如圖3所示。
該報警方式實現(xiàn)服務(wù)器溫度傳感器同時應(yīng)用于服務(wù)器溫度檢測和機房溫度檢測,實現(xiàn)硬件的復(fù)用,節(jié)省費用,也實現(xiàn)了高溫報警,運行效果良好。
圖2 具體腳本內(nèi)容