張悅 趙雨晴 郭金榮
摘 要:曙光機(jī)群服務(wù)器采用的是LINUX系統(tǒng),LINUX系統(tǒng)是針對(duì)地震數(shù)據(jù)處理設(shè)計(jì)的操作系統(tǒng),操作命令采用字符操作,設(shè)備也采用字符命令,操作不謹(jǐn)慎就會(huì)造成預(yù)想不到的后果,要么處理的地震數(shù)據(jù)丟失,要么機(jī)群系統(tǒng)癱瘓,崩潰,死機(jī),生產(chǎn)期間服務(wù)器7×24小時(shí)工作,因此服務(wù)器放置的環(huán)境很重要,符合標(biāo)準(zhǔn)存放環(huán)境有助于服務(wù)器的穩(wěn)定運(yùn)行,機(jī)群服務(wù)器系統(tǒng)運(yùn)行維護(hù)只有在軟件和硬件的雙重保障下才能正常穩(wěn)定地運(yùn)行,故而機(jī)群操作維護(hù)需要特別小心嚴(yán)謹(jǐn)。
關(guān)鍵詞:服務(wù)器;LINUX系統(tǒng);系統(tǒng)維護(hù);小心嚴(yán)謹(jǐn)
1 前言
近年來(lái),中石化逐年減少內(nèi)部勘探工作任務(wù)。隨著國(guó)內(nèi)外勘探市場(chǎng)的競(jìng)爭(zhēng)日益激烈,國(guó)內(nèi)各大油田的物探研究中心地震數(shù)據(jù)處理設(shè)備的硬件也隨之升級(jí),曙光機(jī)群代表著目前最先進(jìn)的地震數(shù)據(jù)處理設(shè)備在國(guó)內(nèi)外勘探市場(chǎng)大顯身手,在競(jìng)爭(zhēng)日益激烈的國(guó)外市場(chǎng)脫穎而出,與一般的辦公生產(chǎn)電腦使用的WINDOWS操作系統(tǒng)不同的是,它采用的是LINUX系統(tǒng),操作全部采用鍵盤(pán)批命令操作,LINUX系統(tǒng)是針對(duì)地震數(shù)據(jù)處理設(shè)計(jì)的操作系統(tǒng),操作命令采用字符操作,設(shè)備也采用字符命令,地震數(shù)據(jù)處理員必須按照l(shuí)inux指令嚴(yán)謹(jǐn)操作,因?yàn)橐徊恍⌒恼`敲錯(cuò)字符指令,就會(huì)造成預(yù)想不到的后果,要么處理的地震數(shù)據(jù)丟失,要么機(jī)群系統(tǒng)癱瘓,崩潰,死機(jī),重新運(yùn)行需要廠家高級(jí)專業(yè)技術(shù)人員操作7~8天,嚴(yán)重影響生產(chǎn)運(yùn)行,故而在實(shí)際生產(chǎn)運(yùn)行中,系統(tǒng)運(yùn)行維護(hù)需要特別小心嚴(yán)謹(jǐn)。曙光機(jī)群如圖1所示。
1.1 系統(tǒng)概況
本集群共32節(jié)點(diǎn),存放于曙光4000A機(jī)柜,包括4臺(tái)TC2600刀片服務(wù)器(共32個(gè)刀片),以及一臺(tái)NAS存儲(chǔ),網(wǎng)絡(luò)設(shè)備包括D-link、Force10。本集群包括兩套網(wǎng)絡(luò),一套連接D-Link的管理網(wǎng),另一套連接Force10交換機(jī)交換網(wǎng)。高性能計(jì)算節(jié)點(diǎn)要由3臺(tái)TC2600刀片服務(wù)器。TC2600使用Blade CB60-G刀片,每節(jié)點(diǎn)24GB內(nèi)存,6顆計(jì)算核心。每個(gè)充當(dāng)集群的計(jì)算資源。由管理節(jié)點(diǎn)負(fù)責(zé)統(tǒng)一調(diào)配。
1.2 機(jī)架裝配布局圖
服務(wù)器安裝在1個(gè)曙光4000A機(jī)柜中,NAS存儲(chǔ)設(shè)備和Force10安裝的1個(gè)4000A機(jī)柜中。服務(wù)器在機(jī)柜中均由導(dǎo)軌固定,可以根據(jù)需要靈活抽出。
1.3 節(jié)點(diǎn)裝配位置圖
cat可以查看文件內(nèi)容,它的作用是連接一個(gè)文件或多個(gè)文件輸出結(jié)果,默認(rèn)是顯示一次,一屏顯示more,只能向后翻,less可以前后翻屏。
Wc統(tǒng)計(jì)文件中的單詞、行和字符,-w-l-c可看字、行、字符。
File 確定文件類型。
鏈接link是對(duì)一個(gè)文件或目錄的引用。
2.5 設(shè)備管理
每個(gè)設(shè)備都有一個(gè)major(主要的)號(hào)和minor(次要的)號(hào),設(shè)備可能是字符設(shè)備,也可能是塊設(shè)備。
設(shè)備類型:字符設(shè)備,以c表示其文件類型,數(shù)據(jù)傳輸一次一個(gè)字符。
3 曙光機(jī)群在運(yùn)行中常見(jiàn)的故障
曙光機(jī)群在運(yùn)行中出現(xiàn)的故障分為兩種:軟件故障和硬件故障。
軟件故障一般是由于操作人員不熟練Linux操作命令,誤操作引起服務(wù)器運(yùn)行不暢或死機(jī)。常見(jiàn)的有以下幾種:
(1)錯(cuò)誤設(shè)置用戶權(quán)限。
設(shè)置用戶權(quán)限應(yīng)為777(權(quán)限全部放開(kāi)),服務(wù)器才能開(kāi)啟運(yùn)行
#chmod 777/home/download
(2)系統(tǒng)啟動(dòng)時(shí),需要掛載分區(qū)必須設(shè)為1,而且整個(gè)fstab中只允許出現(xiàn)一個(gè)1,否則系統(tǒng)不運(yùn)行。
(3)配置文件里必須有mark地址(網(wǎng)卡的物理地址),修改了不生效,服務(wù)器功能開(kāi)啟不了。
(4)節(jié)點(diǎn)服務(wù)器開(kāi)機(jī)電壓不穩(wěn)定,系統(tǒng)不運(yùn)行,一般是服務(wù)器電池到了使用年限(一般2年),必須更換電池。
例如 [root@bnodel9-]#data(看系統(tǒng)運(yùn)行當(dāng)天時(shí)間)
[root@bnodel9-]# uptime(看系統(tǒng)運(yùn)行多少時(shí)間)
(5)誤操作輕易更改服務(wù)器IP地址,一般遵照出廠時(shí)設(shè)置的IP地址固定不變。
硬件故障一般是由于操作人員粗心導(dǎo)致,常見(jiàn)的有以下幾種:
①插拔網(wǎng)絡(luò)線和服務(wù)器連接線不緊密,造成連線松動(dòng),誤踩光纖線,造成光纖線內(nèi)部斷線。
②帶電插拔服務(wù)器,不按照曙光機(jī)群運(yùn)行操作規(guī)定運(yùn)行服務(wù)器,造成服務(wù)器主板硬件損壞。
③夏季遇到停電,系統(tǒng)運(yùn)維員沒(méi)有及時(shí)關(guān)機(jī),造成機(jī)群運(yùn)行溫度超標(biāo),燒毀服務(wù)器。
4 曙光機(jī)群在實(shí)際運(yùn)行中的對(duì)策
在日常工作中,管理員可對(duì)服務(wù)器硬件及操作系統(tǒng)進(jìn)行簡(jiǎn)單的日常維護(hù),如遇到棘手問(wèn)題,管理員可向曙光公司申請(qǐng)技術(shù)支持。
4.1 運(yùn)行環(huán)境要求
服務(wù)器7×24小時(shí)工作,因此服務(wù)器放置的環(huán)境很重要,符合標(biāo)準(zhǔn)存放環(huán)境有助于服務(wù)器穩(wěn)定運(yùn)行,可以輕松地達(dá)到甚至超過(guò)實(shí)際壽命:
(1)減少機(jī)房進(jìn)出人流量,機(jī)房保持干凈環(huán)境,定期打掃機(jī)房;
(2)機(jī)房應(yīng)處于封閉狀態(tài),室內(nèi)溫度應(yīng)保持在22攝氏度左右;
(3)機(jī)房做好防雷設(shè)施,和UPS供電,電源需要接地;
(4)機(jī)房一定要做定期巡檢,檢查是否有聲光報(bào)警,建議每周2次。
4.2 常見(jiàn)事項(xiàng)
服務(wù)器日常運(yùn)行中出現(xiàn)硬件故障,基本都會(huì)有報(bào)警音提示,主要集中在RAID卡和電源報(bào)警。
服務(wù)器采用的是熱插拔硬盤(pán),但是服務(wù)器正常運(yùn)行時(shí)是不允許對(duì)硬盤(pán)進(jìn)行插拔操作的,特別是做了RAID。
電源模塊出現(xiàn)故障時(shí),服務(wù)器會(huì)有報(bào)警音,管理員觀察電源模塊的指示燈是否處于綠燈常亮狀態(tài),如果指示燈熄滅或指示燈變成紅色,可以將該模塊電源線和模塊重新插拔,如果仍然處于熄滅狀態(tài)則需要更換模塊。為避免靜電或其他因素,建議在非緊急情況下,關(guān)機(jī)進(jìn)行模塊的插拔,以保護(hù)服務(wù)器其他硬件設(shè)備的安全。不要自行開(kāi)蓋維修電源模塊。
服務(wù)器硬盤(pán)通過(guò)RAID卡與主板連接,在日常運(yùn)行中,意外斷電或頻繁的I/O讀寫(xiě)會(huì)導(dǎo)致RAID中所屬硬盤(pán)產(chǎn)生物理或邏輯掉盤(pán)。如果出現(xiàn)RAID掉盤(pán)的情況,管理員應(yīng)第一時(shí)間將服務(wù)器內(nèi)的數(shù)據(jù)進(jìn)行異地備份,以保證數(shù)據(jù)安全,同時(shí)應(yīng)聯(lián)系集成商或者撥打曙光報(bào)修電話,以便及時(shí)修復(fù),避免數(shù)據(jù)丟失。
5 曙光機(jī)群服務(wù)器生產(chǎn)運(yùn)行的特別警告
作為L(zhǎng)inux系統(tǒng)管理員,面對(duì)的服務(wù)器是并行的節(jié)點(diǎn)集群,而不是自己的個(gè)人獨(dú)立計(jì)算機(jī),所以在日常管理工作中一定要養(yǎng)成嚴(yán)謹(jǐn)?shù)牧?xí)慣。
養(yǎng)成備份的習(xí)慣
服務(wù)器上跑的數(shù)據(jù)是非常重要的,一定要注意數(shù)據(jù)的安全。一定要記得備份數(shù)據(jù),否則,一旦出錯(cuò)您會(huì)后悔死。
root相當(dāng)于Windows里面的adminstrator,它任何權(quán)限都有,所以為了避免引起不必要的事故,能用普通用戶完成的任務(wù),盡量不要使用root。
Linux系統(tǒng)操作人員使用了一段時(shí)間的Linux,會(huì)越來(lái)越熟練各種命令,敲命令的速度肯定也會(huì)越來(lái)越快。每個(gè)人都會(huì)有疏忽的時(shí)候,一旦敲錯(cuò)了命令那產(chǎn)生的后果是不可預(yù)知的。所以,還是慢點(diǎn)敲鍵盤(pán)吧,如果快也沒(méi)有關(guān)系,但是敲回車(chē)鍵的時(shí)候一定要檢查一下當(dāng)前的命令是否是想要的。
參考文獻(xiàn)
[1]何明,何茜穎.Linux培訓(xùn)教程[M].北京:清華大學(xué)出版社,2011.
[2]王加森,何大可.可擴(kuò)展并行機(jī)群系統(tǒng)與曙光2000[J].計(jì)算機(jī)應(yīng)用,2001,21(S1):270-271.
(作者單位:河南油田物探公司物研所)