陶珩,張欽科,劉浩男,戴苗鵬,李曙
(吉首大學信息科學與工程學院,湖南吉首,416000)
2002 年,湖南湘西出土了3.8 萬多枚里耶秦簡,數(shù)量龐大,是此前全國發(fā)現(xiàn)秦簡總和的10 倍,總計20 余萬字,內(nèi)容涉及當時社會政治、經(jīng)濟、文化的各個層面,極大填補了秦代的歷史文獻和檔案資料,讓今人對秦朝政治和社會生活有了更加全面準確的認知。
里耶秦簡出土于里耶戰(zhàn)國秦代古城遺址,即現(xiàn)在里耶鎮(zhèn)。里耶鎮(zhèn)行政規(guī)劃屬湘西土家族苗族自治州龍山縣,坐落于湖南省武陵山腹地,湘、鄂、渝、黔四省市在此交界,距離保靖城區(qū)61 公里。里耶歷史古老,早在6000 年前便有人居住,但由于交通不便使其經(jīng)濟文化一直較為落后,直至清康熙年間始建街道和碼頭,雍正年間設置里耶塘,并漸成集市,一度繁榮。
研究里耶秦簡可更深入了解秦朝社會的經(jīng)濟政治。但由于秦簡的書寫多采用竹子或木頭,容易蟲蛀霉變,且年代久遠,在遺址的保存效果不好,發(fā)現(xiàn)出土時,秦簡上的字已經(jīng)出現(xiàn)了一系列模糊不清或筆畫缺失等問題。
為有效識別秦簡文字、避免耗費大量的人力物力地進行人工識別,有效結(jié)合現(xiàn)代圖像識別處理技術,提高簡牘文字的可識別數(shù)量和準確率,本文通過對里耶秦簡照片進行處理,分割文字得到單文字區(qū)域并有效的顯示出來,無需復雜的人為操作,效率比較高,實用性比較強。這對于后續(xù)里耶秦簡文字的自動檢測以及對缺少筆畫的修復等的研究具有重要意義。
里耶秦簡出土數(shù)量龐大,不乏有清晰、辨識度高的簡牘。書寫字體絕大多數(shù)為古隸書文字,鮮有官方頒布的小篆文字。里耶秦簡文字風格各異,大多起筆藏鋒逆入,橫豎線條粗細對比不明顯,字形大多以長形居多,上緊下松,大小不一。里耶秦簡書寫格式嚴謹,從上往下錯落有致[1-2]。
現(xiàn)有文字識別檢測的方法很多,如將所得字體骨架與原先所建字體庫進行對比,得到字體庫中與之近似度最高的文字作為識別結(jié)果;或利用專業(yè)軟件橡皮擦、鉛筆等功能對書法文字進行修復。前者方法需要在識別前建立完善的字體庫,但里耶秦簡文字因沒有統(tǒng)一字體庫而不適用于該方法,而后者方法需要人為的對書法圖像進行刪改與填充,需要花費大量的人力與時間,故實用性不佳。
本文提出利用最大極值穩(wěn)定區(qū)域和非極大值抑制的方法,快速、準確率高地將文字區(qū)域獲取并顯示出來。
步驟(1):文字圖像拍攝獲取。文字圖像拍攝獲取是將出土的秦簡進行數(shù)字化。通過黑白攝像機、掃描儀、數(shù)碼相機等設備,將秦簡拍攝成可以讀入計算機的圖片,圖片以BGR 格式存放計算機中。該關鍵點在于拍攝獲取圖像的清晰度,即圖片像素點矩陣,像素矩陣越大,其表現(xiàn)的里耶秦簡畫面信息量越多,后序處理效果將越好。清晰的書法圖像更利于后序的處理,故獲取高清晰度高保真的文字圖片至關重要[3]。
步驟(2):圖像預處理。在進行文字區(qū)域檢測之前,為保證檢測結(jié)果的成功率,減少非文字信息對識別整體效果的干擾,對文字圖像進行預處理。圖像拍攝獲取時多為彩色圖像,為減少顏色對識別結(jié)果的影響,第一步將圖片轉(zhuǎn)換為灰度圖。接著對灰度圖進行濾波處理,目的是為了消除圖像中的噪點,利用算子的平滑過程,降低圖片噪聲點與信息在圖片中所占影響,達到忽略噪聲點對整體圖像影響的效果。濾波處理后對圖像進行二值化,其原理在于通過閾值劃分像素值為兩個大小范圍,將大于閾值的像素點與小于閾值的像素點分別處理為統(tǒng)一大小像素值(本文將大于閾值的像素點值大小設置為255,小于閾值的設置為0),得到非黑即白的二值化文字圖像。
步驟(3):形態(tài)學操作及均值化處理。進行平滑處理后的圖像依然存在顆粒較大的噪點,且部分字的偏旁部首間隙大,易將這類字體檢測成多個文字區(qū)域;非文字區(qū)域檢測成文字區(qū)域。步驟(3)首先對平滑后的圖像進行腐蝕的形態(tài)學操作,是再次將影響較大的顆粒進行縮小處理,使其顆粒變細成細小的噪聲點。顆粒變成噪聲點后,明顯的大顆粒已消失不見,對圖像進行均值化處理,即可消除噪聲點,極大程度上只保留圖像中的文字區(qū)域。進行腐蝕操作得到的非實際上文字區(qū)域,故接著進行膨脹操作還原原先文字區(qū)域。因均值化處理得到的圖像結(jié)果并非二值圖像,為進行后序操作,再次對圖像進行二值化處理。在步驟(3)處理后,可使得偏旁部首的字區(qū)域連接形成唯一的文字區(qū)域。
步驟(4):最穩(wěn)定極值區(qū)域算法處理。該算法類似于分水嶺算法,該算法不斷進行多次改變閾值的二值化處理,直到得到穩(wěn)定的極值區(qū)域。該方法將區(qū)域?qū)ふ页霾⑦M行標記,在進行二值化處理的同時,標記區(qū)域的大小與像素值會發(fā)生改變,不斷改變閾值的方法計算不同情況下該區(qū)域的穩(wěn)定值,將最穩(wěn)定范圍內(nèi)所有出現(xiàn)的可能作為算法最后處理的結(jié)果,因此會在計算后返回多個值。其結(jié)果為對一個文字區(qū)域進行重復的框選。
步驟(5):非極大值抑制處理。在進行步驟(4)后,得到了需要的文字區(qū)域的同時,也出現(xiàn)多區(qū)域重疊出現(xiàn)現(xiàn)象,為能夠正確顯示,對所有標記區(qū)域進行非極大值抑制處理,保留最合適穩(wěn)定極值區(qū)域,將多個極值區(qū)域處理成一個區(qū)域。目的是為了刪除重復區(qū)域,只保留框選正確的正確區(qū)域。
本文選取多幅里耶秦簡文字圖像,分成高信噪比和低信噪比兩類分別進行實驗處理。
從兩類分別選取一幅圖作為實驗示例?;谀壳把芯楷F(xiàn)狀,本文代碼采用python 實現(xiàn)并完成圖像處理具體步驟。
(1)程序名稱:Main.py。該程序讀入圖像,調(diào)用其他程序,對最終得到的文字區(qū)域完成矩形繪制過程,返回最終的處理結(jié)果。
(2)程序名稱:Pretreatment.py。該程序?qū)⑼瓿蓤D像預處理步驟,因多幅圖像在進行二值化時需要的參數(shù)不同,該程序采用自適應的處理方法,對不同圖像尋找其最適合的閾值。
(3)程序名稱:Morphological_ Average.py。該程序完成形態(tài)學操作以及圖像的均值化處理。該程序?qū)⒕祷c形態(tài)學運算的卷積核設置為3×3的大小,經(jīng)實驗該核適應大多數(shù)圖像,但為達最佳處理結(jié)果,應對不同圖像的卷積核大小進行相應的調(diào)整。
(4)程序名稱:Mser.py。計算最穩(wěn)定極值區(qū)域,返回處理結(jié)果圖像。
(5)程序名稱:Nms.py。非極大值抑制,得到最終的文字區(qū)域,將結(jié)果返回Main.py 程序。
圖1 (a)原始里耶秦簡文字圖像;(b)預處理后的圖像;(c)形態(tài)學操作與均值化處理后的結(jié)果;(d)檢測結(jié)果。
在該實驗中成功將文字區(qū)域顯示并在原圖標識出來,且檢測成功率較高,部分緊挨著的字體分割較好,但文字區(qū)域與非文字區(qū)域如圖像上的墨點有很大的相似性,故不易區(qū)分,實驗結(jié)果中也將墨點框選中。
圖2 (a)低信噪比里耶秦簡文字圖像;(b)預處理后圖像;(c)形態(tài)學操作與均值化處理結(jié)果;(d)檢測結(jié)果。
低信噪比的圖像具有字體清晰度較低,非文字區(qū)域噪聲點密集,在轉(zhuǎn)化為灰度圖像后,非文字區(qū)域存在許多與文字區(qū)域像素值接近的噪聲點,這樣的噪聲點不易擦除,對實驗結(jié)果影響較大。對此,可利用灰度值的加權(quán)平均值作為閾值的改進二值化進行處理,該方法利用灰度值的加權(quán)平均值作為區(qū)分文字區(qū)域與非文字區(qū)域像素值的標尺,減少背景中噪聲點的干擾的同時,極大程度上保留文字區(qū)域。
本文利用里耶秦簡文字區(qū)域像素值接近的特點,對圖像進行預處理、形態(tài)學操作及均值化處理、最穩(wěn)定極值區(qū)域算法處理、非極大值抑制處理后,成功得到所需要檢測的文字區(qū)域并將其顯示。在檢測高信噪比的文字圖像時成功率較高,對多幅圖共計70 余字進行檢測,共檢測出個文字,成功率達。本文實驗結(jié)果表明,本文算法對多數(shù)秦簡文字能有效的分割與提取,有利于后期對里耶秦簡文字識別工作的展開,較傳統(tǒng)檢測方法而言,本文所述方法大大的提高了檢測的效率,在一定程度上為考古工作減輕來不少的工作量。