田 斌
(蘇州市軌道交通集團有限公司運營一分公司,江蘇蘇州 201568)
蘇州軌道交通2 號線正線(2013 年12 月開通)門禁工作站采用DELL 公司生產(chǎn)的T5600 型號主機,配置2 塊SAS 硬盤(300 GB,15 000 r/min),并通過DELL H310 磁盤陣列控制卡組合成RAID 0 陣列格式。
2 號線延伸線(2016 年9 月開通)門禁工作站采用DELL公司生產(chǎn)的T5810 型號主機,配置1 塊SATA 硬盤(500 GB,7200 r/min)。
自2013 年12 月投入運行以來,門禁工作站整體運行情況良好,但T5600 型號主機在重啟或斷電再開機時,存在陣列配置丟失的現(xiàn)象。由于未作冗余配置,一旦故障就會影響車站值班人員對門禁進行操作;同時由于磁盤陣列結(jié)構(gòu)配置繁瑣,導(dǎo)致設(shè)備恢復(fù)時間較長。
在室溫20 ℃情況下,H310 陣列控制卡工作溫度約38 ℃,SAS 硬盤工作溫度最高為66 ℃(圖1)。門禁工作站頻繁出現(xiàn)卡頓、死機等現(xiàn)象,故障率約為35%。同時硬盤托架(塑料材質(zhì))長期受溫度影響逐漸產(chǎn)生脆化、發(fā)黃等老化現(xiàn)象,存在較大的電氣火災(zāi)隱患(圖2)。
圖1 硬盤溫度
圖2 發(fā)黃、脆化的硬盤托架
同時由于RAID 0 格式自身的缺陷,一旦陣列結(jié)構(gòu)發(fā)生丟失,硬盤上的數(shù)據(jù)會全部丟失。由于工作站不支持Ghost 還原,每次必須重新配置RAID 后才可以繼續(xù)安裝系統(tǒng)和配置軟件,維修時間約4~5 h。因此,如何杜絕電氣火災(zāi)隱患,減少維護成本,縮短維修時間就成了專業(yè)研究的方向。
RAID(Redundant Arrays of Independent Disks,磁盤陣列)可以將許多磁盤組合成一個容量和帶寬巨大的磁盤組,利用所產(chǎn)生的加成效果提升整個系統(tǒng)的讀寫效能。常見的磁盤陣列格式有以下4 種:
優(yōu)點:可以整倍提高硬盤容量和數(shù)據(jù)吞吐量。
缺點:任何一塊硬盤出現(xiàn)故障,整個硬盤的數(shù)據(jù)都將會受到破壞。
優(yōu)點:當(dāng)一塊硬盤失效時,系統(tǒng)會忽略該硬盤,轉(zhuǎn)而使用剩余的鏡像盤讀寫數(shù)據(jù),具備很好的磁盤冗余能力。
缺點:磁盤容量利用率僅為50%,不適合于數(shù)據(jù)訪問頻繁的環(huán)境。
優(yōu)點:讀出效率高,奇偶校驗穩(wěn)定性高,同RAID 1 一樣具備很好的冗余能力。
缺點:寫入效率低,成本較高,至少需要4 塊硬盤。
優(yōu)點:融合了RAID0 和RAID1 的優(yōu)點。
缺點:組建技術(shù)復(fù)雜,成本較高,至少需要4 塊硬盤。
目前實現(xiàn)磁盤陣列主要分為兩種方法:一種是主板集成控制芯片;另一種是擴展磁盤陣列控制卡。對于磁盤陣列控制卡來說,數(shù)據(jù)存儲是關(guān)鍵。通常有約80%以上屬于不活躍性數(shù)據(jù),只有約20%屬于活躍或者熱點數(shù)據(jù)。特別是在Web 服務(wù)器、工作站、虛擬桌面(VDI)對熱點數(shù)據(jù)有頻繁的讀操作。因此,擁有一個專門的存儲器,不僅能高速緩沖數(shù)據(jù),同時還能降低CPU 和內(nèi)存使用率。
經(jīng)向戴爾代理商咨詢,由于H310 陣列卡在設(shè)計時并沒有集成控制器高速緩存,隨機寫性能比較有限,所以它在每次寫入數(shù)據(jù)時都會強制執(zhí)行多次讀取操作,導(dǎo)致陣列卡和硬盤溫度升高。同時T5600 工作站內(nèi)沒有為陣列卡和硬盤設(shè)計獨立的散熱風(fēng)扇,也是引起溫度升高的一個潛在原因。
戴爾代理商建議升級為H710 型號,該型號集成RAID 控制器,512 MB NV 高速緩存,同時配置電池,當(dāng)系統(tǒng)意外掉電時,1 GB DDR 緩存中還未寫入硬盤的數(shù)據(jù)將被寫入到NVRAM 中,在寫入NVRAM 的過程中保證供電。NVRAM 中的緩存可以長期地保存下去。
廠家配置的SAS 硬盤為15 000 r/min,比普通硬盤的轉(zhuǎn)速快了近1 倍,理論上轉(zhuǎn)速越快發(fā)熱量越大。由圖2 可知,該硬盤使用DELL 定制的PVC 托架,托架部分直接與芯片接觸,不利于熱量散發(fā),繼而導(dǎo)致塑料發(fā)黃、脆化現(xiàn)象嚴(yán)重。
經(jīng)測試,在陣列卡散熱片上增加風(fēng)扇(5 V)后,芯片溫度雖然大幅下降,但仍然無法解決H310 本身性能的不足,且硬盤處無法加裝風(fēng)扇,溫度仍無法下降。
改用RAID 1 格式后,硬盤發(fā)熱更為明顯且運行卡頓,主要原因為RAID 1 格式會同時在兩塊硬盤上進行數(shù)據(jù)讀寫,磁盤容量利用率僅為50%,不適合于數(shù)據(jù)訪問頻繁的環(huán)境。
一般情況下,SATA 硬盤的性能即可滿足工作站需求。本文對1、2 號線工作站硬盤使用情況進行了統(tǒng)計,1 號線ISCS 工作站、1 號線ACS 工作站、2 號線ISCS 工作站和2 號線延伸線ACS 工作站均使用單硬盤,未配置磁盤陣列結(jié)構(gòu)。
改用單塊硬盤后,硬盤工作溫度從66 ℃下降至25 ℃,且運行流暢,重啟后無需擔(dān)心陣列信息丟失(圖3)。
圖3 硬盤溫度(單塊硬盤)
從經(jīng)濟角度考慮,SAS 硬盤價格約為950 元,磁盤陣列控制卡約為700 元,即采用磁盤陣列控制,每臺門禁工作站的維修成本約為2400 元;而單塊500 G 的SATA 硬盤價格僅為500 元,較磁盤陣列控制維修成本下降了80%。
綜上所述,硬盤發(fā)熱的主要原因是H310 陣列卡無高速緩存導(dǎo)致讀寫頻繁;次要原因是工作站散熱性能不足,無法滿足磁盤陣列卡的散熱需求;同時門禁工作站配置磁盤陣列卡屬于高配低用,經(jīng)濟性不佳。
采用單硬盤方案有如下優(yōu)點:
(1)硬盤工作溫度下降明顯,徹底杜絕了電氣火災(zāi)隱患。
(2)維修成本從3000 元下降至500 元。H310 陣列卡和2 塊SAS 硬盤的成本約3000 元,而500 GB SATA 硬盤的成本僅為500 元且通用性高。
(3)維修時間從4~5 h 縮短至0.5~1 h。
采用磁盤陣列結(jié)構(gòu)時,每次故障或都需要配置磁盤結(jié)構(gòu)和手動安裝陣列卡驅(qū)動,否則無法識別硬盤,重新配置1 臺門禁工作站的時間為4~5 h。更換為SATA 硬盤后,可通過Ghost 還原或硬盤拷貝的方式恢復(fù)系統(tǒng),維修效率提升了75%。
2 號線門禁工作站主要供車站人員觀察門禁鎖閉狀態(tài)和控制通道門的開啟,對性能要求不高,使用SATA 硬盤即可滿足性能。同時考慮到門禁工作站無需存儲刷卡和報警記錄,為進一步提高數(shù)據(jù)讀取速率,節(jié)省硬盤更換成本,后期建議逐步更換為小容量固態(tài)硬盤(如120 GB)。
同時自3 號線開始(2019 年開通),通過將門禁軟件安裝到綜合監(jiān)控工作站中(Windows 系統(tǒng)),取消了門禁工作站的配置,進一步降低維護成本。