【摘 要】在天津地鐵1號線系統(tǒng)數(shù)據(jù)庫全庫備份過程中,經(jīng)常出現(xiàn)由于數(shù)據(jù)庫壞塊導致全庫備份中止的情況,本文針對1號線數(shù)據(jù)庫壞塊的產(chǎn)生及處理做了歸納總結(jié),其中加入了個人工作中的一些經(jīng)驗教訓。
【關鍵詞】Oracle 數(shù)據(jù)庫 壞塊
一、什么是數(shù)據(jù)庫的壞塊
首先我們來大概看一下數(shù)據(jù)庫塊的格式和結(jié)構。數(shù)據(jù)庫的數(shù)據(jù)塊有固定的格式和結(jié)構,分三層:cache layer,transaction layer,data layer。在對數(shù)據(jù)塊進行讀取寫入操作的時候,數(shù)據(jù)庫會對要讀寫的數(shù)據(jù)塊做一致性的檢查,其中包括:數(shù)據(jù)塊的類型、數(shù)據(jù)塊的地址信息、數(shù)據(jù)塊的 SCN號以及數(shù)據(jù)塊的頭部和尾部。如果發(fā)現(xiàn)其中有不一致的信息,那數(shù)據(jù)庫就會標記這個數(shù)據(jù)塊為壞塊了。Oracle 數(shù)據(jù)壞塊大致分為兩種,一種是由于磁盤損壞造成的物理壞塊,另外一種是由于數(shù)據(jù)庫讀寫錯誤造成的邏輯壞塊。
因此處理Oracle 數(shù)據(jù)壞塊的時候首先需要考慮的就是壞塊是由于什么造成的。如果是物理壞塊,則首先需要考慮的是更換硬盤,然后再考慮邏輯壞塊的處理方法。
二、壞塊對數(shù)據(jù)庫產(chǎn)生的影響
如果數(shù)據(jù)庫出現(xiàn)壞塊,數(shù)據(jù)庫的告警日志文件里面會存在有如下的一些報錯信息:Ora-1578以及Ora-600 and trace file in bdump Directory,數(shù)據(jù)壞塊往往是數(shù)據(jù)庫在執(zhí)行某些insert、updata、deletc語句時會出現(xiàn)ORA-01578 ORA-01110 數(shù)據(jù)塊損壞的報錯信息。
在數(shù)據(jù)庫備份過程中出現(xiàn)了數(shù)據(jù)庫壞塊,造成數(shù)據(jù)庫全庫備份中斷,需要恢復壞塊后,才能正常備份數(shù)據(jù)庫。例如以下報錯信息:
Corrupt block relative dba: 0x030a455f (file 12, block 673119)
Data in bad block
Reread of blocknum=673119, file= C:\DATAFILE\AFC_TBS.DBF. found same corrupt data
從報錯信息中我們可以看出,壞塊出現(xiàn)在數(shù)據(jù)文件C:\DATAFILE\AFC_TBS.DBF上,文件號為12,壞塊號為673119,sequence號為26717
三、壞塊產(chǎn)生的原因
Oracle調(diào)用標準C的系統(tǒng)函數(shù),對數(shù)據(jù)塊進行讀寫操作,因此,壞塊可能是由以下幾種原因產(chǎn)生:硬件的I/O錯誤、操作系統(tǒng)的I/O錯誤或緩沖問題、內(nèi)存或paging問題、磁盤修復工具、一個數(shù)據(jù)文件的一部分正在被覆蓋、Oracle試圖訪問一個未被格式化的系統(tǒng)塊失敗、數(shù)據(jù)文件部分溢出、Oracle或者操作系統(tǒng)的bug
四、壞塊的處理方法
(一)通過下面這個查詢語句就可以查出當前存在壞塊的對象是什么,是索引還是表。需要注意的是如果是temp文件中出現(xiàn)壞塊,是沒有記錄返回的:
SELECT tablespace_name, segment_type, owner, segment_name, partition_name FROM dba_extents WHERE file_id =
(二)根據(jù)1中查詢出來的對象類型,確定相應的處理方法
1.出現(xiàn)壞塊的常見對象有:Sys用戶下的對象、回滾段、臨時段、索引或者分區(qū)索引表。
2.常用的處理方法有:恢復數(shù)據(jù)文件、只恢復壞的block、通過ROWID RANGE SCAN 保存數(shù)據(jù)、使用DBMS_REPAIR包、使用EVENT
(三)具體處理方法的介紹
1.恢復數(shù)據(jù)文件方法:
如果數(shù)據(jù)庫是歸檔方式下,并且有完整的物理備份,就可以使用此方法來恢復。 步驟如下:
(1)先offline受影響的數(shù)據(jù)文件,執(zhí)行語句;
(2)保留有壞塊的數(shù)據(jù)文件,然后拷貝備份的數(shù)據(jù)文件。如果恢復的數(shù)據(jù)文件要求路徑不同,執(zhí)行語句;
(3)恢復數(shù)據(jù)文件,執(zhí)行語句;
(4)Online恢復后的數(shù)據(jù)文件,執(zhí)行語句。
2.只恢復壞的block(9i以上版本可用)
使用這種方法要求數(shù)據(jù)庫版本是9.2.0以上,要求配置了Rman的catalog數(shù)據(jù)庫,數(shù)據(jù)庫為歸檔方式,并且有完整的物理備份。步驟如下:
使用RMAN的BLOCKRECOVER命令 :
Rman>run{blockrecover datafile 12 block 673119;}
也可以強制使用某個SCN號之前的備份,恢復數(shù)據(jù)塊。
Rman>run{blockrecover datafile12 block 673119 restore until sequence 26717;}
注:壞塊恢復成功后,通常要做一次全庫備份,全庫備份的大小會比上一次大很多,最好是在全庫備份之前,先做一次歸檔備份,這樣可以減少全庫備份的大小,不過全備還是會比上一次的大。再一次全庫備份大小就會恢復到之前的大小了。
五、壞塊的預先發(fā)現(xiàn)的方法
(一)如果要檢測數(shù)據(jù)庫中所有的表,可以利用exp工具導出整個數(shù)據(jù)庫可以檢測壞塊。不過這個工具有一些缺陷,對以下情況的壞塊是檢測不出來的:HWM以上的壞塊是不會發(fā)現(xiàn)的;索引中存在的壞塊是不會發(fā)現(xiàn)的;數(shù)據(jù)字典中的壞塊是不會發(fā)現(xiàn)的
(二)如果只是對數(shù)據(jù)庫中比較重要的表進行壞塊檢查,可以使用ANALYZE TABLE tablename VALIDATE STRUCTURE CASCADE 的方法來檢測壞塊,它執(zhí)行壞塊的檢查,但是不會標記壞塊為corrupt,檢測的結(jié)果保存在USER_DUMP_DEST目錄下的用戶trace文件中。
(三)使用Oracle的專門工具dbv來檢查壞塊,具體的語法如下:
例如:Dbv file=C:\DATAFILE\AFC_TBS.DBF blocksize=8192
注:因為dbv要求file后面跟的必須是一個文件擴展名,所以如果用裸設備存儲的,就必須使用ln鏈接裸設備到一個文件,然后再用dbv對這個鏈接文件進行檢查。