引言:筆者單位曾對(duì)一臺(tái)華為服務(wù)器進(jìn)行硬盤(pán)擴(kuò)容。在升級(jí)過(guò)程中,遇到兩個(gè)故障,一是硬盤(pán)在插入服務(wù)器插槽,啟動(dòng)服務(wù)器后,服務(wù)器掃描未發(fā)現(xiàn)任何硬盤(pán)。二是在故障排除后,在RAID配置界面顯示硬盤(pán)容量不正確。本文介紹故障的排除過(guò)程
筆者單位曾對(duì)一臺(tái)華為FusionServer RH2285服務(wù)器進(jìn)行硬盤(pán)擴(kuò)容。服務(wù)器原來(lái)配置了5塊容量為146GB的15000轉(zhuǎn)SATA硬盤(pán),使用的是LSI1064E REID卡,并使用RAID5技術(shù)將10塊硬盤(pán)做成磁盤(pán)陣列。后采購(gòu)了5塊4TB硬盤(pán)對(duì)原有硬盤(pán)進(jìn)行擴(kuò)容升級(jí)。
在升級(jí)過(guò)程中遇到了2個(gè)故障:一是硬盤(pán)在插入服務(wù)器插槽,啟動(dòng)服務(wù)器后,服務(wù)器掃描未發(fā)現(xiàn)任何硬盤(pán)。二是在故障一排除后,在RAID配置界面顯示硬盤(pán)容量不正確,每塊硬盤(pán)少了2TB的硬盤(pán)空間。
故障一:將硬盤(pán)插入服容量。務(wù)器硬盤(pán)插槽,啟動(dòng)服務(wù)器,服務(wù)器對(duì)硬盤(pán)進(jìn)行初始化掃描操作,但當(dāng)掃描結(jié)束后,所有的硬盤(pán)信號(hào)燈均顯示紅色(非正常),同時(shí)系統(tǒng)提示檢測(cè)不到物理硬盤(pán)。
重啟服務(wù)器后,進(jìn)入RAID配置界面后,仍然未發(fā)現(xiàn)任何一塊硬盤(pán),也就是說(shuō)5塊新購(gòu)硬盤(pán)都沒(méi)有被系統(tǒng)識(shí)別到。
故障二:在故障一被排除后,進(jìn)入RAID配置界面,所有的硬盤(pán)卻只能識(shí)別到2TB硬盤(pán)空間,剩余2TB的硬盤(pán)空間卻無(wú)法識(shí)別到,而在服務(wù)器開(kāi)機(jī)自檢的時(shí)候,卻可以識(shí)別到完整的4TB
首先對(duì)連接服務(wù)器和RAID卡的數(shù)據(jù)線進(jìn)行了檢查,然后將服務(wù)器PCI插槽中的RAID卡的線纜拔了下來(lái)連接到服務(wù)器主板的SATA接口,另一端直接連接新增的4TB硬盤(pán)。重啟服務(wù)器,發(fā)現(xiàn)服務(wù)器可以正常識(shí)別硬盤(pán),證明數(shù)據(jù)線正常。
接下來(lái)是檢查RAID卡,擔(dān)心在置換的時(shí)候因靜電原因造成RAID卡損壞。采用硬件置換的方法對(duì)該服務(wù)器的RAID卡進(jìn)行了置換,來(lái)檢測(cè)RAID卡是否發(fā)生損壞。啟動(dòng)服務(wù)器后,服務(wù)器系統(tǒng)在檢測(cè)掃描硬盤(pán)時(shí),仍未發(fā)現(xiàn)硬盤(pán),換回原來(lái)的RAID卡,連接原有146GB的服務(wù)器硬盤(pán),可以正常識(shí)別所有硬盤(pán)。這樣基本可以確定,RAID卡沒(méi)有物理故障。
第三,對(duì)新購(gòu)硬盤(pán)進(jìn)行了檢查。對(duì)新購(gòu)的物理硬盤(pán),從主板上直接連接硬盤(pán),逐一進(jìn)行測(cè)試,發(fā)現(xiàn)其中一塊物理硬盤(pán)無(wú)法識(shí)別,其余硬盤(pán)識(shí)別均正常。將可以正常識(shí)別的物理硬盤(pán)插入服務(wù)器插槽,然后恢復(fù)原有連接,啟動(dòng)服務(wù)器,發(fā)現(xiàn)所有的硬盤(pán)均可以正常識(shí)別??磥?lái)是因?yàn)槠渲幸粔K硬盤(pán)損壞,造成所有的硬盤(pán)都無(wú)法正常識(shí)別。
服務(wù)器只能識(shí)別2TB的硬盤(pán)空間,而不能識(shí)別4TB硬盤(pán)空間,我們采取了以下一些措施。
將原來(lái)的146GB硬盤(pán)更換回去后,所有的硬盤(pán)均可以正常識(shí)別,硬盤(pán)空間也均正常。經(jīng)分析,認(rèn)為可能是服務(wù)器對(duì)硬盤(pán)大小支持或RAID卡支持硬盤(pán)大小的問(wèn)題,后進(jìn)入華為官網(wǎng),發(fā)現(xiàn)該服務(wù)器支持SATA硬盤(pán),支持最大硬盤(pán)容量為24TB,支持 RAID 0,1,10,5,6,50 的數(shù)據(jù)保護(hù)技術(shù),而新購(gòu)硬盤(pán)總共大小為4×4=16TB,不存在超過(guò)服務(wù)器支持容量的現(xiàn)象。
圖1 READ(12)協(xié)議報(bào)文
接下來(lái)了解了一下該型號(hào)RAID卡的具體信息,發(fā)現(xiàn)LSI1064E型號(hào)的RAID卡只能識(shí)別2TB的硬盤(pán),無(wú)法識(shí)別超過(guò)2TB的硬盤(pán),看來(lái)只能更換RAID卡了。
后購(gòu)買了一塊LSI2308的RAID卡,所有的硬盤(pán)都可以正常識(shí)別,硬盤(pán)空間可以正常識(shí)別為4TB,一切恢復(fù)正常。
在安裝新的物理硬盤(pán)時(shí),如果有一塊物理硬盤(pán)損壞,則有可能造成RAID卡無(wú)法正常識(shí)別所有的物理硬盤(pán),這區(qū)別于服務(wù)器在正常使用中物理硬盤(pán)損壞的現(xiàn)象。服務(wù)器在正常使用過(guò)程中物理硬盤(pán)損壞時(shí),其他正常工作的硬盤(pán)是可以正常識(shí)別和使用的。
對(duì)于服務(wù)器無(wú)法正常識(shí)別硬盤(pán)容量,一般都是受主板、RAID卡和OS軟件所分別支持的尋址模式三個(gè)方面決定的。一般可以先查詢服務(wù)器和RAID卡的支持信息來(lái)查看是哪個(gè)原因造成的。
對(duì)于RAID卡而言,對(duì)于硬盤(pán)空間的尋址方式?jīng)Q定了其可以識(shí)別和支持的磁盤(pán)容量。而RAID卡的尋址長(zhǎng)度是基于SBC協(xié)議的READ字段來(lái)定義和決定的。對(duì)LSI1064E RAID卡而言,支持的協(xié)議為 READ(12),尋址長(zhǎng)度為 12位(如圖 1)。其最大的尋址空間為4byte,即2^32×512B=2TB,支 持 最大的單個(gè)硬盤(pán)空間為2TB。故只能識(shí)別到2TB的容量,多余的容量不能被識(shí)別。正確識(shí)別的容量可以正常使用,建議使用單盤(pán)容量不超過(guò)2TB的硬盤(pán)。
而新購(gòu)的LSI2308 RAID卡,支持的協(xié)議是READ(16),支持的尋址大小為8 byte,故支持的單元盤(pán)容量大小為2^64×512B=32TB。