亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關于電子家譜數據采集工作及結構設計實現方案

        2018-02-15 17:15:07付昱承徐愛惜陳新文
        西部皮革 2018年15期
        關鍵詞:二叉樹字符識別家譜

        付昱承,徐愛惜,陳新文

        1 引言

        隨著電子信息產業(yè)的不斷發(fā)展,電子家譜逐漸進入實際應用。平臺設定細致的家譜重建流程,或利用光學字符識別(Optical Character Recognition)技術對非手寫家譜進行掃描,轉換為計算機文字,切片后存入數據庫。并且考慮到家譜系統(tǒng)的復雜性,家譜數據結構的設計決定了管理操作的便捷與實用性。

        2 項目實施方案

        2.1 家譜數據采集工作

        2.1.1 手動導入數據生成電子譜

        作為電子家譜平臺,各家各戶的家譜數據是基礎。家譜修訂通常由氏族德高望重之人負責,他們處理宗祠等氏族內部事務,有一定的威信和號召力。這部分人更加注重氏族的光宗耀祖,后繼有人,因此會大力修訂家譜,促使氏族興旺繁榮。經歷長期走訪調研以及針對傳統(tǒng)家譜制作方式的考察,平臺設計了一套電子譜生成方式。其主要操作流程如下:

        (1)根據姓氏,創(chuàng)建新家譜,添加家譜基本信息。并查詢整理已有老譜資料,成立家譜編纂小組。

        (2)制定家譜編纂提綱及編修工作進程安排。

        (3)前言后記攥寫、列出譜系目錄、例句等。

        (4)印制調查表格,安排家譜編纂小組成員按照提綱進行資料調查及征集。

        (5)選擇家譜編修體例,確定采用歐體、蘇體、樹形圖或塔形圖。

        (6)選擇家譜信息錄入方式,可采用光學字符識別技術直接掃描老譜生成電子譜,并對生成家譜中的信息進行勘誤和補充。若無法使用字符識別技術進行電子家譜制作,根據編撰小組提交的資料,進行了族譜編輯、老譜系的選擇、世系、世界表的排列等工作,對家譜的譜序、傳記、家訓、家規(guī)、題跋、世系圖等歷史的文集信息進行編輯錄入。

        (7)編輯好家譜的基本信息,開始按要求依次錄入家族成員信息。

        2.1.2 光學字符識別技術識別紙質譜

        光學字符識別技術是利用光學技術和計算機技術掃描識別紙中文字,并轉換成計算機可接受、人又可理解的格式。利用當前已經成熟的字符識別技術、針對家譜信息改良的語義分析算法,解決在紙質譜轉電子譜過程中的印刷文本讀取識別與人物關系(如父子)的追溯兩大難點。與智能手機、數碼相機和掃描儀等設備(為確保數據準確,結合當前OCR的識別效果,推薦使用掃描儀)配合使用,使族譜編寫更高效。具體識別流程如下:

        (1)收集族譜圖片:使用掃描儀掃描紙質族譜,設置合適的掃描分辨率,若分辨率過高則會導致掃描時間增加。一般采用300dpi較合適,可根據字號大小進行調整。對于一些紙張較薄的稿件,巧妙使用灰色掃描/圖片灰度化處理處理。避免受到背面文字干擾。R、G、B三個取值范圍:0~255,像素顏色有24次方種選擇,計算像素RGB的三個分量的均值,存儲于相應的矩陣中,構造灰度圖像。以jpg/png格式結束。

        (2)對圖片預處理:

        噪聲去除:用高斯模糊和其他濾波器對圖片進行處理,去除大部分的噪聲,可使圖像在后面的應用中減少許多干擾。

        二值化:考慮到攝像頭拍攝的圖片大多為彩色圖像,包含信息量相比于黑白圖像更大,可簡單定義前景信息為黑色,背景信息為白色,其關鍵在于閾值T選擇,閾值確定后可將多灰度級圖像的每一點與閾值比較,大于T即二值化為1,反之則為0,便于后續(xù)的處理。

        圖像傾斜矯正:考慮到人工對原圖的拍攝或掃描角度有一定誤差,最終圖像在水平或豎直方向有一定程度的傾斜,即可能導致后續(xù)表格分割出現偏差、識別率低下等情況。通過邊緣檢測與霍夫線變換算法,對圖中表格輪廓進行檢測,得到水平和豎直方向的線條。之后通過獨創(chuàng)的角度矯正算法,對表格的水平方向和豎直方向的傾斜角度進行判斷,再進行矯正,得到規(guī)整的圖片,用于下一步的表格化分割。

        (3)對圖片進行表格化分割:通過上一步得到的規(guī)整圖片,再次進行霍夫線變換檢測出表格的線條輪廓。針對族譜的不同樣式使用不同的切割模型進行分析,得出表格的形狀結構,之后對表格中各單元格進行分割,得到每個單元格的小圖片,用于進一步的識別。

        (4)調用文字識別接口:目前有很多訓練成熟的OCR接口,將每個單元格的圖片導入,經過識別后返回的內容數據。識別率通常可達95%以上。

        (5)根據表格格式組合信息:根據不同的表格格式設計不同的信息組合方式,將各個單元格的識別內容根據原圖片表格的結構進行組合,得到需要的結構化數據并進行人工核對。

        (6)語義分析:對于理解語句意思,尤其是文言文,準確的判斷主謂、述語與賓語等之間的名詞與動詞的語義對提煉關鍵信息極其重要。按表格分割數據后,將各個位置的信息定位并提取,主要提取出姓名,簡介,根據簡介信息提取出其父親姓名,并分析是其第幾子。具體方法:首先在簡介中查找“長子”“次子”“三子”等關鍵詞,在這些關鍵詞之前的便是其父親名,再根據“長子”“次子”“三子”等確定是其父親的第幾子。對簡介中類似“生”“娶”“適”“葬”等動詞進行判斷,分析動詞的施事和受事,對家譜信息的精確提煉有現實意義。

        (7)數據存入數據庫:根據語義分析出的人物關系,將識別出的人物基本信息存入數據庫,用于后續(xù)的建樹。 注:OCR對于印刷體(包括活字印刷)的識別已十分成熟,但由于手寫體各具特色,因此目前尚未能對手寫體進行有效的識別,即對于年代久遠的非印刷版老譜,還需人工手動導入平臺。

        2.2 家譜數據結構設計

        2.2.1 一般結構分析

        宗譜的核心內容是譜系,采用線、圖、立表的形式,將一個姓氏的第一宗族和以下各種后代布列起來,給人留以清晰印象。上述字符識別技術中的結構化數據,能夠清晰對應家譜數據中的每個節(jié)點。同家譜數據中由后代節(jié)點和父代節(jié)點分別組成家譜樹的特點對應,電子家譜系統(tǒng)通常采用樹形結構。

        2.2.2 數據結構

        二叉樹是每個節(jié)點最多有兩個子樹的樹結構。基本數據結構中樹與家譜體系結構十分相似,前后輩間的節(jié)點關系就是樹中父節(jié)點與子節(jié)點的關系。二叉樹的存儲結構比較簡單,對于遍歷等基本操作比較方便,所以有時需要把復雜的樹,轉換為簡單的二叉樹后再作處理。在此系統(tǒng)的二叉樹中,設計左子樹第一節(jié)點為父節(jié)點的兄弟,右子樹第一節(jié)點為父節(jié)點的兒子。

        2.2.3 數據存儲方法

        本平臺采用三叉鏈表存儲二叉樹,與二叉鏈表不同的是,除指向孩子與兄弟的指針外,還需一個指向父節(jié)點的指針以便回溯祖先節(jié)點,并且便于確立節(jié)點間的關系。選定家族成員作為基本的數據單元,定義結構體BiTNode及各類指針。

        2.3 家譜樹可視化展示

        電子家譜的可視化形式是家譜信息化的重要組成部分。針對已有家譜樹中,邊的數量隨節(jié)點數增長而快速增長導致可視化效果差的問題,可以選擇不考慮夫妻關系從而減少邊的數量。從而形成每一個父/母節(jié)點的入點與多個單個孩子組成的出點集相對的關系模式。應傳統(tǒng)家譜中未記錄女性家族成員,即為了保證現代人工導入數據與OCR識別傳統(tǒng)紙質譜所獲得數據的存儲方法一致,數據存儲方法中不需要考慮夫妻關系,將女性成員信息收入其父親家族所在譜中,從而保證數據的統(tǒng)一,使展示結果清晰易懂。在用戶界面中,可對每一層中的兄弟節(jié)點進行歸納,以集合的形式展示,增強家譜樹的表現力。

        3 結語

        目前市場上有對家譜互聯網化的方向傾斜,但仍不夠完善。能夠使互聯網家譜去中心化,實現人人參與修譜的靈活操作,使整份族譜更全面、完善的修譜軟件依舊缺失。本平臺運用的家譜管理方法和修譜手段,降低管理成本,優(yōu)化修譜流程,實現對家譜資源記載的重新挖掘。具有顯著的經濟效益和社會效益。利用光學字符識別技術,在保證效率的前提下實現家譜數據開發(fā)式的收集,通過不同的切割模型提取關鍵信息,語義分析發(fā)掘深層次的信息價值。優(yōu)化存儲過程和可視化形式,實現從掃描到樹形可視化的迅速轉換。但OCR技術針對手寫體和年久失修的老譜識別率暫未達到要求,以及如何展示具有夫妻關系且可視化效果強的家譜圖,是筆者暫未能解決的問題。

        參考文獻∶

        [1]關于Android平臺的OCR文字識別[J].數字技術與應用,2017(07).

        [2]陳國軍,張庭玉.基于二叉樹的電子家譜設計方法[J].軟件,2015.

        [3]劉軍丹,趙書良,趙嬌嬌,郭曉波,陳敏,柳萌萌.家譜關系的元圖表示[J].計算機應用,2013(07).

        [4]王紀坤,劉晶紅.尋根問祖,薪火相傳——從文化尋根思潮探析譜牒文獻的社會文化價值[J].圖書與情報,2009(05).

        [5]耿宇航.掃描儀使用OCR技巧[J].中國現代教育裝備,2008(10).

        [6]孫良明.談古文訓詁中的語義關系分析——兼述讀俞樾《諸子平議》《群經平議》[J].古籍整理研究學刊,1997(03).

        猜你喜歡
        二叉樹字符識別家譜
        家即是國,鉤沉史海樂為舟——“家譜文化的傳揚者”朱炳國
        華人時刊(2022年15期)2022-10-27 09:05:54
        CSP真題——二叉樹
        電腦報(2022年37期)2022-09-28 05:31:07
        二叉樹創(chuàng)建方法
        一種改進深度學習網絡結構的英文字符識別
        一種由層次遍歷和其它遍歷構造二叉樹的新算法
        儀表字符識別中的圖像處理算法研究
        基于CUDA和深度置信網絡的手寫字符識別
        論復雜二叉樹的初始化算法
        河南科技(2014年24期)2014-02-27 14:20:01
        機加工件點陣字符識別研究
        河南科技(2014年3期)2014-02-27 14:05:36
        從《家譜》看吉林回族的源流與走向
        亚洲综合久久精品无码色欲| 校园春色日韩高清一区二区| 亚洲国产精品成人一区二区三区 | 国产美熟女乱又伦av果冻传媒| 国产乱妇乱子视频在播放| 欧洲熟妇色xxxx欧美老妇多毛网站| 久久精品国产亚洲av麻| 国产av综合一区二区三区最新| 国产综合精品久久亚洲| 国产亚洲精品日韩综合网| 啪啪视频免费看一区二区| 韩国免费一级a一片在线| 国产精品污一区二区三区在线观看| 亚洲中文有码一区二区| 国产精品三级在线不卡| 中文字幕文字幕一区二区 | 熟女人妻一区二区中文字幕| 精品一区二区三区老熟女少妇| 伊人加勒比在线观看视频| 亚洲av综合av一区| 亚洲av无码精品无码麻豆| 成人丝袜激情一区二区| 无码熟妇人妻av在线影片最多| 免费观看18禁无遮挡真人网站| 人人色在线视频播放| 天堂国精产品2023年| 国产精品九九九久久九九| 久久夜色精品国产亚洲噜噜| 亚洲精品综合在线影院| 黄色网页在线观看一区二区三区 | 久久亚洲精品成人综合| 久久精见国产亚洲av高清热| 亚洲国产综合人成综合网站| 国产91传媒一区二区三区| 亚洲av综合色区无码一区| 久久久久亚洲av无码专区喷水| 亚洲人成色7777在线观看| 亚洲av无码av男人的天堂| 日韩精品一区二区亚洲av| 成年女人A级毛片免| 青草青草久热精品视频国产4|