吳云志
(安徽省黃山市廣播電視臺,安徽 黃山 245000)
iSCSI(Internet SCSI)標(biāo)準(zhǔn)在2003年2月11日由IETF(Internet Engineering Task Forc,互聯(lián)網(wǎng)工程任務(wù)組)認(rèn)證通過。iSCSI繼承了兩大最傳統(tǒng)技術(shù):SCSI和TCP/IP協(xié)議。這為iSCSI的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。IP-SAN(IP存儲區(qū)域網(wǎng)絡(luò))就是基于iSCSI協(xié)議的網(wǎng)絡(luò)構(gòu)架。
由于iSCSI的運(yùn)用和帶IP標(biāo)準(zhǔn)接口的存儲設(shè)備的出現(xiàn),使得完全采用千兆以太網(wǎng)技術(shù)搭建1個(gè)SAN成為現(xiàn)實(shí)。
IP-SAN架構(gòu)的非編網(wǎng)保留了SAN所具有的優(yōu)點(diǎn),最大限度保證了帶寬能力,其成本比FC-SAN架構(gòu)的非編網(wǎng)低得多,具有很高的性價(jià)比。在綜合考慮安全性之后,采用Microsoft群集服務(wù)(MSCS)技術(shù),搭載iSCSI Initiator(iSCSI引發(fā)器)+Tivoli SANergy(IBM公司開發(fā)的文件共享系統(tǒng)軟件)構(gòu)建的IP-SAN網(wǎng)絡(luò)正被廣泛的應(yīng)用于非編網(wǎng)中。隨之而來的這類型網(wǎng)絡(luò)維護(hù)問題也越來越受到人們的關(guān)注。
IP-SAN網(wǎng)絡(luò)將存儲系統(tǒng)、應(yīng)用服務(wù)器和客戶端都通過千兆以太交換機(jī)相互連接,這類網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,對以太網(wǎng)層面上的故障就不進(jìn)行考慮了。下面將著重對這種構(gòu)架網(wǎng)絡(luò)的幾個(gè)典型的故障做幾點(diǎn)分析。
MSCS服務(wù)依據(jù)一個(gè)專用的共享仲裁磁盤完成協(xié)同工作,(如上圖中標(biāo)識為Heart的卷)若仲裁磁盤丟失,則MSCS服務(wù)將無法啟動。參考解決方法為:
(1)確保仲裁磁盤正常情況下,關(guān)閉多余節(jié)點(diǎn),僅保留一個(gè)節(jié)點(diǎn)(服務(wù)器)情況下使用net start clussvc/fixquorum開關(guān)參數(shù)啟動群集。
(2)打開群集管理器,以點(diǎn)號“.”來連接群集,此時(shí)所有群集服務(wù)均offline;手動使仲裁盤等資源online。
(3)使用net stop clussvc命令停止群集服務(wù)后,再使用net start clussvc/resetquorumlog命令創(chuàng)建MSCS日志信息。
(4)重啟節(jié)點(diǎn)服務(wù)器,MSCS恢復(fù)正常。
數(shù)據(jù)庫典型的問題一般包括磁盤用滿、數(shù)據(jù)庫置疑等。數(shù)據(jù)庫磁盤用滿可以考慮采用分離后將數(shù)據(jù)移到空間足夠磁盤上再附加的方式解決。若磁盤用滿是數(shù)據(jù)庫日志文件過大引起,也可直接進(jìn)行數(shù)據(jù)庫日志收縮工作。
MDC(Meta Data Controller,元數(shù)據(jù)控制器)這里指的是通過配置SANergy管理卷(文件系統(tǒng))的服務(wù)器。
由于MDC服務(wù)器也采用MSCS方式,兩臺服務(wù)器功能完全一致。出現(xiàn)簡單故障時(shí),可先考慮切換到另一臺MDC服務(wù)器上嘗試恢復(fù)正常業(yè)務(wù)。若上述操作不成功,則可能需要對系統(tǒng)進(jìn)行重新配置。具體方法參考下文的MDC應(yīng)急內(nèi)容。
采用MSCS模式后,網(wǎng)絡(luò)安全的安全性得到了很大提升,但我們也要對極端情況做好預(yù)演和應(yīng)急工作。針對這種網(wǎng)絡(luò),需要做好SQL數(shù)據(jù)庫和MDC文件系統(tǒng)兩大核心服務(wù)方面的應(yīng)急工作。最常見且經(jīng)濟(jì)的應(yīng)急方式為新增一臺第三服務(wù)器用于完成SQL/MDC的應(yīng)急工作。具體措施如下:
SQL的應(yīng)急主要是在第三服務(wù)器上事先安裝好數(shù)據(jù)庫軟件,并定時(shí)將業(yè)務(wù)數(shù)據(jù)庫自動備份的數(shù)據(jù)文件遷移到這臺服務(wù)器上還原??梢耘浜鲜褂糜?jì)劃任務(wù)自動完成遷移及還原工作。當(dāng)業(yè)務(wù)數(shù)據(jù)庫異常時(shí),可以直接將工作站連接到這臺服務(wù)器上應(yīng)急使用即可。
MDC服務(wù)器模式下的SAN環(huán)境在項(xiàng)目搭建初期有兩種選擇,一種是像本文提到的MDC部分也采用MSCS方式。另一種方式可以采用第三臺服務(wù)器冷備的方式。兩種方式各有優(yōu)缺點(diǎn)。冷備方式操作簡單,但其需要手動替換故障設(shè)備,維修周期較長。而采用MSCS方式,雖然可以實(shí)現(xiàn)雙機(jī)熱備,但若出現(xiàn)極端情況時(shí),(如MDC雙機(jī)宕機(jī))維護(hù)、恢復(fù)工作較為復(fù)雜。下面就著重介紹一下采用MSCS方式的MDC服務(wù)器應(yīng)急恢復(fù)方法。
當(dāng)MDC MSCS系統(tǒng)出現(xiàn)異常時(shí),首先應(yīng)檢查構(gòu)成SAN環(huán)境的幾個(gè)重要設(shè)備狀態(tài),包括磁盤陣列、交換機(jī)、MDC服務(wù)器等,初步判斷故障原因。若發(fā)現(xiàn)是由于MDC群集癱瘓導(dǎo)致,則可按以下步驟進(jìn)行恢復(fù):
(1)按規(guī)范關(guān)閉網(wǎng)絡(luò)中的所有工作站和服務(wù)器,再單獨(dú)開啟其中一臺主MDC服務(wù)器,啟動后,由于磁盤的盤符通常會改變成初始狀態(tài),集群服務(wù)通常會失敗。
(2)進(jìn)入磁盤管理器檢查MDC服務(wù)器能否正確找到SAN中的仲裁磁盤和所有數(shù)據(jù)盤,(若沒有找到,則需要在磁盤陣列和交換機(jī)端查找原因。)當(dāng)磁盤可以正確顯示出來后,按照此前的規(guī)范重新分配盤符,注意此處一定要和原先的設(shè)定完全相同,否則群集無法正常工作。
(3)盤符修改完成后,在SANergy軟件的Volume Assignment頁面中檢查是否所有數(shù)據(jù)Volume的Meta Data Controller都是?CLUS,而仲裁磁盤和數(shù)據(jù)庫磁盤的MDC為?FREE,若不是則按此設(shè)置。
(4)完成應(yīng)急業(yè)務(wù)工作后,再次按日常規(guī)范關(guān)閉網(wǎng)絡(luò)中的所有工作站和服務(wù)器,然后單獨(dú)開啟另一臺未修復(fù)的MDC服務(wù)器,按照前面的步驟修改盤符后啟動Cluster Service服務(wù),驗(yàn)證正常后再將之前修復(fù)的MDC服務(wù)器啟動,此時(shí)MDC群集即可完全恢復(fù)正常。
從日常的維護(hù)來看,再好的系統(tǒng)都不能確保100%的安全。所以在完成日常的維護(hù)工作的同時(shí),做好重要數(shù)據(jù)的備份工作、完善應(yīng)急對策尤為重要。只有這樣,在遇到極端情況時(shí),才可以最大限度的修復(fù)系統(tǒng)、挽回?fù)p失。