付昱承,徐愛惜,陳新文
隨著電子信息產業(yè)的不斷發(fā)展,電子家譜逐漸進入實際應用。平臺設定細致的家譜重建流程,或利用光學字符識別(Optical Character Recognition)技術對非手寫家譜進行掃描,轉換為計算機文字,切片后存入數據庫。并且考慮到家譜系統(tǒng)的復雜性,家譜數據結構的設計決定了管理操作的便捷與實用性。
2.1.1 手動導入數據生成電子譜
作為電子家譜平臺,各家各戶的家譜數據是基礎。家譜修訂通常由氏族德高望重之人負責,他們處理宗祠等氏族內部事務,有一定的威信和號召力。這部分人更加注重氏族的光宗耀祖,后繼有人,因此會大力修訂家譜,促使氏族興旺繁榮。經歷長期走訪調研以及針對傳統(tǒng)家譜制作方式的考察,平臺設計了一套電子譜生成方式。其主要操作流程如下:
(1)根據姓氏,創(chuàng)建新家譜,添加家譜基本信息。并查詢整理已有老譜資料,成立家譜編纂小組。
(2)制定家譜編纂提綱及編修工作進程安排。
(3)前言后記攥寫、列出譜系目錄、例句等。
(4)印制調查表格,安排家譜編纂小組成員按照提綱進行資料調查及征集。
(5)選擇家譜編修體例,確定采用歐體、蘇體、樹形圖或塔形圖。
(6)選擇家譜信息錄入方式,可采用光學字符識別技術直接掃描老譜生成電子譜,并對生成家譜中的信息進行勘誤和補充。若無法使用字符識別技術進行電子家譜制作,根據編撰小組提交的資料,進行了族譜編輯、老譜系的選擇、世系、世界表的排列等工作,對家譜的譜序、傳記、家訓、家規(guī)、題跋、世系圖等歷史的文集信息進行編輯錄入。
(7)編輯好家譜的基本信息,開始按要求依次錄入家族成員信息。
2.1.2 光學字符識別技術識別紙質譜
光學字符識別技術是利用光學技術和計算機技術掃描識別紙中文字,并轉換成計算機可接受、人又可理解的格式。利用當前已經成熟的字符識別技術、針對家譜信息改良的語義分析算法,解決在紙質譜轉電子譜過程中的印刷文本讀取識別與人物關系(如父子)的追溯兩大難點。與智能手機、數碼相機和掃描儀等設備(為確保數據準確,結合當前OCR的識別效果,推薦使用掃描儀)配合使用,使族譜編寫更高效。具體識別流程如下:
(1)收集族譜圖片:使用掃描儀掃描紙質族譜,設置合適的掃描分辨率,若分辨率過高則會導致掃描時間增加。一般采用300dpi較合適,可根據字號大小進行調整。對于一些紙張較薄的稿件,巧妙使用灰色掃描/圖片灰度化處理處理。避免受到背面文字干擾。R、G、B三個取值范圍:0~255,像素顏色有24次方種選擇,計算像素RGB的三個分量的均值,存儲于相應的矩陣中,構造灰度圖像。以jpg/png格式結束。
(2)對圖片預處理:
噪聲去除:用高斯模糊和其他濾波器對圖片進行處理,去除大部分的噪聲,可使圖像在后面的應用中減少許多干擾。
二值化:考慮到攝像頭拍攝的圖片大多為彩色圖像,包含信息量相比于黑白圖像更大,可簡單定義前景信息為黑色,背景信息為白色,其關鍵在于閾值T選擇,閾值確定后可將多灰度級圖像的每一點與閾值比較,大于T即二值化為1,反之則為0,便于后續(xù)的處理。
圖像傾斜矯正:考慮到人工對原圖的拍攝或掃描角度有一定誤差,最終圖像在水平或豎直方向有一定程度的傾斜,即可能導致后續(xù)表格分割出現偏差、識別率低下等情況。通過邊緣檢測與霍夫線變換算法,對圖中表格輪廓進行檢測,得到水平和豎直方向的線條。之后通過獨創(chuàng)的角度矯正算法,對表格的水平方向和豎直方向的傾斜角度進行判斷,再進行矯正,得到規(guī)整的圖片,用于下一步的表格化分割。
(3)對圖片進行表格化分割:通過上一步得到的規(guī)整圖片,再次進行霍夫線變換檢測出表格的線條輪廓。針對族譜的不同樣式使用不同的切割模型進行分析,得出表格的形狀結構,之后對表格中各單元格進行分割,得到每個單元格的小圖片,用于進一步的識別。
(4)調用文字識別接口:目前有很多訓練成熟的OCR接口,將每個單元格的圖片導入,經過識別后返回的內容數據。識別率通常可達95%以上。
(5)根據表格格式組合信息:根據不同的表格格式設計不同的信息組合方式,將各個單元格的識別內容根據原圖片表格的結構進行組合,得到需要的結構化數據并進行人工核對。
(6)語義分析:對于理解語句意思,尤其是文言文,準確的判斷主謂、述語與賓語等之間的名詞與動詞的語義對提煉關鍵信息極其重要。按表格分割數據后,將各個位置的信息定位并提取,主要提取出姓名,簡介,根據簡介信息提取出其父親姓名,并分析是其第幾子。具體方法:首先在簡介中查找“長子”“次子”“三子”等關鍵詞,在這些關鍵詞之前的便是其父親名,再根據“長子”“次子”“三子”等確定是其父親的第幾子。對簡介中類似“生”“娶”“適”“葬”等動詞進行判斷,分析動詞的施事和受事,對家譜信息的精確提煉有現實意義。
(7)數據存入數據庫:根據語義分析出的人物關系,將識別出的人物基本信息存入數據庫,用于后續(xù)的建樹。 注:OCR對于印刷體(包括活字印刷)的識別已十分成熟,但由于手寫體各具特色,因此目前尚未能對手寫體進行有效的識別,即對于年代久遠的非印刷版老譜,還需人工手動導入平臺。
2.2.1 一般結構分析
宗譜的核心內容是譜系,采用線、圖、立表的形式,將一個姓氏的第一宗族和以下各種后代布列起來,給人留以清晰印象。上述字符識別技術中的結構化數據,能夠清晰對應家譜數據中的每個節(jié)點。同家譜數據中由后代節(jié)點和父代節(jié)點分別組成家譜樹的特點對應,電子家譜系統(tǒng)通常采用樹形結構。
2.2.2 數據結構
二叉樹是每個節(jié)點最多有兩個子樹的樹結構。基本數據結構中樹與家譜體系結構十分相似,前后輩間的節(jié)點關系就是樹中父節(jié)點與子節(jié)點的關系。二叉樹的存儲結構比較簡單,對于遍歷等基本操作比較方便,所以有時需要把復雜的樹,轉換為簡單的二叉樹后再作處理。在此系統(tǒng)的二叉樹中,設計左子樹第一節(jié)點為父節(jié)點的兄弟,右子樹第一節(jié)點為父節(jié)點的兒子。
2.2.3 數據存儲方法
本平臺采用三叉鏈表存儲二叉樹,與二叉鏈表不同的是,除指向孩子與兄弟的指針外,還需一個指向父節(jié)點的指針以便回溯祖先節(jié)點,并且便于確立節(jié)點間的關系。選定家族成員作為基本的數據單元,定義結構體BiTNode及各類指針。
電子家譜的可視化形式是家譜信息化的重要組成部分。針對已有家譜樹中,邊的數量隨節(jié)點數增長而快速增長導致可視化效果差的問題,可以選擇不考慮夫妻關系從而減少邊的數量。從而形成每一個父/母節(jié)點的入點與多個單個孩子組成的出點集相對的關系模式。應傳統(tǒng)家譜中未記錄女性家族成員,即為了保證現代人工導入數據與OCR識別傳統(tǒng)紙質譜所獲得數據的存儲方法一致,數據存儲方法中不需要考慮夫妻關系,將女性成員信息收入其父親家族所在譜中,從而保證數據的統(tǒng)一,使展示結果清晰易懂。在用戶界面中,可對每一層中的兄弟節(jié)點進行歸納,以集合的形式展示,增強家譜樹的表現力。
目前市場上有對家譜互聯網化的方向傾斜,但仍不夠完善。能夠使互聯網家譜去中心化,實現人人參與修譜的靈活操作,使整份族譜更全面、完善的修譜軟件依舊缺失。本平臺運用的家譜管理方法和修譜手段,降低管理成本,優(yōu)化修譜流程,實現對家譜資源記載的重新挖掘。具有顯著的經濟效益和社會效益。利用光學字符識別技術,在保證效率的前提下實現家譜數據開發(fā)式的收集,通過不同的切割模型提取關鍵信息,語義分析發(fā)掘深層次的信息價值。優(yōu)化存儲過程和可視化形式,實現從掃描到樹形可視化的迅速轉換。但OCR技術針對手寫體和年久失修的老譜識別率暫未達到要求,以及如何展示具有夫妻關系且可視化效果強的家譜圖,是筆者暫未能解決的問題。
參考文獻∶
[1]關于Android平臺的OCR文字識別[J].數字技術與應用,2017(07).
[2]陳國軍,張庭玉.基于二叉樹的電子家譜設計方法[J].軟件,2015.
[3]劉軍丹,趙書良,趙嬌嬌,郭曉波,陳敏,柳萌萌.家譜關系的元圖表示[J].計算機應用,2013(07).
[4]王紀坤,劉晶紅.尋根問祖,薪火相傳——從文化尋根思潮探析譜牒文獻的社會文化價值[J].圖書與情報,2009(05).
[5]耿宇航.掃描儀使用OCR技巧[J].中國現代教育裝備,2008(10).
[6]孫良明.談古文訓詁中的語義關系分析——兼述讀俞樾《諸子平議》《群經平議》[J].古籍整理研究學刊,1997(03).