亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

關于電子家譜數據采集工作及結構設計實現方案

2018-02-15 17:15:07付昱承徐愛惜陳新文

西部皮革 2018年15期

付昱承，徐愛惜，陳新文

1 引言

隨著電子信息產業(yè)的不斷發(fā)展，電子家譜逐漸進入實際應用。平臺設定細致的家譜重建流程，或利用光學字符識別（Optical Character Recognition）技術對非手寫家譜進行掃描，轉換為計算機文字，切片后存入數據庫。并且考慮到家譜系統(tǒng)的復雜性，家譜數據結構的設計決定了管理操作的便捷與實用性。

2 項目實施方案

2.1 家譜數據采集工作

2.1.1 手動導入數據生成電子譜

作為電子家譜平臺，各家各戶的家譜數據是基礎。家譜修訂通常由氏族德高望重之人負責，他們處理宗祠等氏族內部事務，有一定的威信和號召力。這部分人更加注重氏族的光宗耀祖，后繼有人，因此會大力修訂家譜，促使氏族興旺繁榮。經歷長期走訪調研以及針對傳統(tǒng)家譜制作方式的考察，平臺設計了一套電子譜生成方式。其主要操作流程如下：

（1）根據姓氏，創(chuàng)建新家譜，添加家譜基本信息。并查詢整理已有老譜資料，成立家譜編纂小組。

（2）制定家譜編纂提綱及編修工作進程安排。

（3）前言后記攥寫、列出譜系目錄、例句等。

（4）印制調查表格，安排家譜編纂小組成員按照提綱進行資料調查及征集。

（5）選擇家譜編修體例，確定采用歐體、蘇體、樹形圖或塔形圖。

（6）選擇家譜信息錄入方式，可采用光學字符識別技術直接掃描老譜生成電子譜，并對生成家譜中的信息進行勘誤和補充。若無法使用字符識別技術進行電子家譜制作，根據編撰小組提交的資料，進行了族譜編輯、老譜系的選擇、世系、世界表的排列等工作，對家譜的譜序、傳記、家訓、家規(guī)、題跋、世系圖等歷史的文集信息進行編輯錄入。

（7）編輯好家譜的基本信息，開始按要求依次錄入家族成員信息。

2.1.2 光學字符識別技術識別紙質譜

光學字符識別技術是利用光學技術和計算機技術掃描識別紙中文字，并轉換成計算機可接受、人又可理解的格式。利用當前已經成熟的字符識別技術、針對家譜信息改良的語義分析算法，解決在紙質譜轉電子譜過程中的印刷文本讀取識別與人物關系（如父子）的追溯兩大難點。與智能手機、數碼相機和掃描儀等設備（為確保數據準確，結合當前OCR的識別效果，推薦使用掃描儀）配合使用，使族譜編寫更高效。具體識別流程如下：

（1）收集族譜圖片：使用掃描儀掃描紙質族譜，設置合適的掃描分辨率，若分辨率過高則會導致掃描時間增加。一般采用300dpi較合適，可根據字號大小進行調整。對于一些紙張較薄的稿件，巧妙使用灰色掃描/圖片灰度化處理處理。避免受到背面文字干擾。R、G、B三個取值范圍：0～255，像素顏色有24次方種選擇，計算像素RGB的三個分量的均值，存儲于相應的矩陣中，構造灰度圖像。以jpg/png格式結束。

（2）對圖片預處理：

噪聲去除：用高斯模糊和其他濾波器對圖片進行處理，去除大部分的噪聲，可使圖像在后面的應用中減少許多干擾。

二值化：考慮到攝像頭拍攝的圖片大多為彩色圖像，包含信息量相比于黑白圖像更大，可簡單定義前景信息為黑色，背景信息為白色，其關鍵在于閾值T選擇，閾值確定后可將多灰度級圖像的每一點與閾值比較，大于T即二值化為1，反之則為0，便于后續(xù)的處理。

圖像傾斜矯正：考慮到人工對原圖的拍攝或掃描角度有一定誤差，最終圖像在水平或豎直方向有一定程度的傾斜，即可能導致后續(xù)表格分割出現偏差、識別率低下等情況。通過邊緣檢測與霍夫線變換算法，對圖中表格輪廓進行檢測，得到水平和豎直方向的線條。之后通過獨創(chuàng)的角度矯正算法，對表格的水平方向和豎直方向的傾斜角度進行判斷，再進行矯正，得到規(guī)整的圖片，用于下一步的表格化分割。

（3）對圖片進行表格化分割：通過上一步得到的規(guī)整圖片，再次進行霍夫線變換檢測出表格的線條輪廓。針對族譜的不同樣式使用不同的切割模型進行分析，得出表格的形狀結構，之后對表格中各單元格進行分割，得到每個單元格的小圖片，用于進一步的識別。

（4）調用文字識別接口：目前有很多訓練成熟的OCR接口，將每個單元格的圖片導入，經過識別后返回的內容數據。識別率通常可達95%以上。

（5）根據表格格式組合信息：根據不同的表格格式設計不同的信息組合方式，將各個單元格的識別內容根據原圖片表格的結構進行組合，得到需要的結構化數據并進行人工核對。

（6）語義分析：對于理解語句意思，尤其是文言文，準確的判斷主謂、述語與賓語等之間的名詞與動詞的語義對提煉關鍵信息極其重要。按表格分割數據后，將各個位置的信息定位并提取，主要提取出姓名，簡介，根據簡介信息提取出其父親姓名，并分析是其第幾子。具體方法：首先在簡介中查找“長子”“次子”“三子”等關鍵詞，在這些關鍵詞之前的便是其父親名，再根據“長子”“次子”“三子”等確定是其父親的第幾子。對簡介中類似“生”“娶”“適”“葬”等動詞進行判斷，分析動詞的施事和受事，對家譜信息的精確提煉有現實意義。

（7）數據存入數據庫：根據語義分析出的人物關系，將識別出的人物基本信息存入數據庫，用于后續(xù)的建樹。注：OCR對于印刷體（包括活字印刷）的識別已十分成熟，但由于手寫體各具特色，因此目前尚未能對手寫體進行有效的識別，即對于年代久遠的非印刷版老譜，還需人工手動導入平臺。

2.2 家譜數據結構設計

2.2.1 一般結構分析

宗譜的核心內容是譜系，采用線、圖、立表的形式，將一個姓氏的第一宗族和以下各種后代布列起來，給人留以清晰印象。上述字符識別技術中的結構化數據，能夠清晰對應家譜數據中的每個節(jié)點。同家譜數據中由后代節(jié)點和父代節(jié)點分別組成家譜樹的特點對應，電子家譜系統(tǒng)通常采用樹形結構。

2.2.2 數據結構

二叉樹是每個節(jié)點最多有兩個子樹的樹結構。基本數據結構中樹與家譜體系結構十分相似，前后輩間的節(jié)點關系就是樹中父節(jié)點與子節(jié)點的關系。二叉樹的存儲結構比較簡單，對于遍歷等基本操作比較方便，所以有時需要把復雜的樹，轉換為簡單的二叉樹后再作處理。在此系統(tǒng)的二叉樹中，設計左子樹第一節(jié)點為父節(jié)點的兄弟，右子樹第一節(jié)點為父節(jié)點的兒子。

2.2.3 數據存儲方法

本平臺采用三叉鏈表存儲二叉樹，與二叉鏈表不同的是，除指向孩子與兄弟的指針外，還需一個指向父節(jié)點的指針以便回溯祖先節(jié)點，并且便于確立節(jié)點間的關系。選定家族成員作為基本的數據單元，定義結構體BiTNode及各類指針。

2.3 家譜樹可視化展示

電子家譜的可視化形式是家譜信息化的重要組成部分。針對已有家譜樹中，邊的數量隨節(jié)點數增長而快速增長導致可視化效果差的問題，可以選擇不考慮夫妻關系從而減少邊的數量。從而形成每一個父/母節(jié)點的入點與多個單個孩子組成的出點集相對的關系模式。應傳統(tǒng)家譜中未記錄女性家族成員，即為了保證現代人工導入數據與OCR識別傳統(tǒng)紙質譜所獲得數據的存儲方法一致，數據存儲方法中不需要考慮夫妻關系，將女性成員信息收入其父親家族所在譜中，從而保證數據的統(tǒng)一，使展示結果清晰易懂。在用戶界面中，可對每一層中的兄弟節(jié)點進行歸納，以集合的形式展示，增強家譜樹的表現力。

3 結語

目前市場上有對家譜互聯網化的方向傾斜，但仍不夠完善。能夠使互聯網家譜去中心化，實現人人參與修譜的靈活操作，使整份族譜更全面、完善的修譜軟件依舊缺失。本平臺運用的家譜管理方法和修譜手段，降低管理成本，優(yōu)化修譜流程，實現對家譜資源記載的重新挖掘。具有顯著的經濟效益和社會效益。利用光學字符識別技術，在保證效率的前提下實現家譜數據開發(fā)式的收集，通過不同的切割模型提取關鍵信息，語義分析發(fā)掘深層次的信息價值。優(yōu)化存儲過程和可視化形式，實現從掃描到樹形可視化的迅速轉換。但OCR技術針對手寫體和年久失修的老譜識別率暫未達到要求，以及如何展示具有夫妻關系且可視化效果強的家譜圖，是筆者暫未能解決的問題。

參考文獻∶

[1]關于Android平臺的OCR文字識別[J].數字技術與應用，2017（07）.

[2]陳國軍，張庭玉.基于二叉樹的電子家譜設計方法[J].軟件，2015.

[3]劉軍丹，趙書良，趙嬌嬌，郭曉波，陳敏，柳萌萌.家譜關系的元圖表示[J].計算機應用，2013（07）.

[4]王紀坤，劉晶紅.尋根問祖，薪火相傳——從文化尋根思潮探析譜牒文獻的社會文化價值[J].圖書與情報，2009（05）.

[5]耿宇航.掃描儀使用OCR技巧[J].中國現代教育裝備，2008（10）.

[6]孫良明.談古文訓詁中的語義關系分析——兼述讀俞樾《諸子平議》《群經平議》[J].古籍整理研究學刊，1997（03）.