亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種具有反饋機制的名片信息分類方法

        2012-06-01 02:54:52
        電子科技 2012年1期
        關(guān)鍵詞:字符識別子集名片

        金 鑫

        (南京航空航天大學計算機科學與技術(shù)學院,江蘇南京 210016)

        日常商務(wù)活動中,名片的使用率較高,手工錄入名片信息耗時費力又容易出錯,因此利用手機和PDA對名片進行自動識別和存儲具有一定的實際應(yīng)用價值。理想的名片識別系統(tǒng)可分為4個模塊:圖像預處理模塊、版面分析模塊、字符識別模塊、信息分類模塊,完整流程如圖1 所示[1]。

        圖1 流程圖

        與技術(shù)相對成熟的預處理和字符識別環(huán)節(jié)相比,版面分析和識別后信息分類還有很多可以深入挖掘的地方。從圖1可以看出,信息分類的結(jié)果不能立刻作為最終結(jié)果導入數(shù)據(jù)庫,因為版面分析或字符識別階段產(chǎn)生的錯誤會帶到信息分類的環(huán)節(jié)。一個成熟的名片識別系統(tǒng),應(yīng)具有錯誤反饋和自動糾正的機制。一般情況下信息分類模塊發(fā)現(xiàn)的錯誤會反推到上一層字符識別,然后針對某一文字塊進行再識別和再分類處理。文中提出一種利用版面信息作為輔助決策的信息分類方面,并將信息分類后的出錯處理進一步反推到版面分析環(huán)節(jié)。實驗表明,改進后的方法能有效提高名片的識別率和信息分類正確率及系統(tǒng)的自動糾錯能力[2]。

        1 常見名片信息分類算法簡介

        1.1 信息分類模塊介紹

        名片圖像經(jīng)過預處理和版面分析后得到相對獨立的信息塊,如圖 2 所示[3]。

        圖2 相對獨立的信息塊

        字符識別模塊對文字塊切分出的單個字符進行識別,但識別出的單個字符在未組織成有效信息之前是沒有意義的。名片識別的最終結(jié)果不是單個字符而是經(jīng)過正確分類后與基本信息項相對應(yīng)且具有語義的信息。信息分類模塊按照每條信息的屬性對其歸類和存儲。名片圖像經(jīng)過字符識別后,送入信息分類模塊的是一些文本及相關(guān)信息。它們除了包含識別出的字符信息外,一般還包括識別的置信度,文本外接矩形框的大小,每行文本在名片中的位置,這些輔助信息在信息分類的過程中可以起一定的參考作用。同時,版面分析和字符識別階段產(chǎn)生的錯誤會被帶入信息分類模塊,所以該模塊還應(yīng)該具備向上層反饋錯誤,提供糾錯信息的功能。提出的方法是如何在傳統(tǒng)基于語義理解的信息分類方法上利用版面分析信息作為輔助決策,并將這一步得到的分類結(jié)果反饋于版面分析和字符識別環(huán)節(jié),提高了識別率的同時,增強系統(tǒng)的自動糾錯能力[4-5]。

        1.2 常見名片信息分類方法和不足

        在名片流行之初,版式單一,傳統(tǒng)的模板匹配算法配合少量關(guān)鍵詞的提取能夠滿足絕大部分名片信息分類的需求。但隨著名片版式的多樣化,模板匹配的方法不再適用。

        目前比較流行的是基于語法模式識別的信息分類方法。從語法的角度來講,名片信息都是短語,短語的骨架是一個或多個關(guān)鍵詞。對于屬性相同的信息項,其關(guān)鍵詞都具有相同或類似的語義,這些關(guān)鍵詞構(gòu)成了一種語法模式。語法分析的目的就是抽取名片各個文字域的語法模式。

        關(guān)鍵詞的提取一般使用最大正向匹配的方法,根據(jù)預定義的關(guān)鍵詞詞典對各個文字域查找。對關(guān)鍵詞的查找是按照候選鏈表進行的,如表示Email的關(guān)鍵詞列表為{電子郵箱,E - mail,eMail,E - Mail,郵箱,@},找到關(guān)鍵詞后,根據(jù)語法規(guī)則對各個關(guān)鍵詞進行篩選,確定最匹配的關(guān)鍵詞,并用它標注對應(yīng)的文本。

        在識別效果比較好的情況下,基于語法分析和關(guān)鍵詞庫的方法可以解決大部分文本內(nèi)容的分類問題。但基于語法分析方法的顯著缺點是需要手工建造知識庫,且封閉的規(guī)則不適應(yīng)靈活開放的自然語言的變化。在處理內(nèi)容相對復雜的中文文本塊時,分類效果不理想,而當文本塊中出現(xiàn)識別錯誤和版面錯誤時,其性能會嚴重下降。

        2 利用版面信息輔助分類和錯誤糾正

        通過對200張實際名片圖像的統(tǒng)計,以下幾種文本塊同時出現(xiàn)的幾率較大[6-8]:

        (1)姓名文本和職務(wù)文本的上下,左右相鄰關(guān)系。

        (2)被錯誤切分的先導詞和內(nèi)容文本之間的左右相鄰關(guān)系。

        (3)公司文本和上邊界之間的上下相鄰關(guān)系。

        (4)郵編和地址的上下關(guān)系。

        實驗統(tǒng)計的信息子集有:姓名、職稱、單位、地址、電話、電子郵箱。經(jīng)過統(tǒng)計可以得到不同信息子集項之間位置轉(zhuǎn)移概率,可以用一階馬爾可夫過程近似描述。

        因為送入文本分類模塊的文本信息除了文本的字符識別信息還有文本的位置和外接矩形框大小信息。通過迭代計算待分類的文本塊與信息子集項的統(tǒng)計位置信息得到一個相合度最高的分類及置信度,這是信息分類和錯誤反饋的重要參考信息。

        對最終文本分類的判斷,使用基于啟發(fā)式規(guī)則的隸屬度迭代決策機制。所謂隸屬度是指某文本塊對于某一信息項子集的隸屬程度。隸屬度的值在區(qū)間[0,1]內(nèi),若一個文本塊對某一信息項子集的隸屬度為0,則表示該文本塊肯定不屬于該信息項子集,同樣,若一個文本塊對某一信息項子集的隸屬度為1,則表示該文本塊肯定屬于該信息項子集。所以要為文本塊維持一個隸屬度數(shù)組。在進行判斷之前認為每個文本塊對每個信息項子集的隸屬度都為0,即隸屬度數(shù)組的每個成員的初值都為0。接下來,采用一組啟發(fā)式規(guī)則增加或減小文本塊對于某一信息項子集的隸屬度。

        按照規(guī)則的知識來源,可以將規(guī)則分為“自身規(guī)則”和“相鄰規(guī)則”。前者是根據(jù)文本塊自身的知識信息增加或減少對某一信息項的隸屬度。后者則是根據(jù)文本塊的屬性或某些知識信息增加或減少對某一信息項的隸屬度。文本塊中的關(guān)鍵詞屬于自身規(guī)則,在本文的的判別方法中,關(guān)鍵詞仍占有較大權(quán)重;而文本塊的相鄰規(guī)則體現(xiàn)了文本塊之間的“相互作用”,若已經(jīng)判定某一文本塊為姓名的隸屬度超過了一個較大的閾值,則處于同一列相鄰位置或同一行相鄰位置的文本塊對于“職稱”的隸屬度就會有相應(yīng)的增加。至此對于同一文本塊得到兩個隸屬度,一個由語法模式分析得到,一個由版面文本塊之間的位置關(guān)系得到,將這兩個隸屬度按權(quán)重歸一化到[0,1]區(qū)間,權(quán)值的選取要根據(jù)實驗效果多次嘗試,文中按“自身規(guī)則”0.7,“相鄰規(guī)則”0.3的權(quán)重分配取得良好的效果。

        按最大隸屬原則和閾值原則對文本塊的屬性作出判斷。假設(shè)文本塊X對于信息項子集的隸屬度為μi,如果μi滿足如下條件,則認為X∈I:

        (1)ui>uj,i≠j,1≤i≤n,1≤j≤n,其中n為信息項子集的總數(shù)。

        (2)ui>uTh,uTh為預先設(shè)定的閾值。

        按照上述判斷規(guī)則,如果一文本塊不能歸入任何一個信息項子集,則考慮在上層處理中出錯。首考慮字符識別模塊的錯誤,將無法正確分類的文本塊回送給字符識別模塊重新識別。新的識別結(jié)果如果還是不行,則進一步考慮是否在版面分析模塊出錯。因為版面分析模塊無法借助語義信息,所以可能出現(xiàn)如下錯誤的劃分,如圖3所示。

        圖3 錯誤的劃分

        此時會出現(xiàn)兩個文本塊無法被分類的情況,其中一個具有多個關(guān)鍵詞。所以在向版面劃分模塊反饋錯誤信息時,除了傳遞出錯文本塊的標識、大小和位置外,還要附上可能的錯誤類型,如上例中的關(guān)鍵詞過多(TOO_MANY_KEYWORDS),版面分析模塊對這些錯誤最可能的處理是,將該模塊和最相鄰的模塊考慮橫向切分。實驗表明這種錯誤反饋機制能有效提高名片識別系統(tǒng)的糾錯能力,降低誤識別率和不能識別率。

        3 名片信息分類模塊的最終結(jié)構(gòu)

        在基于啟發(fā)式規(guī)則分類的基礎(chǔ)上,增加了版面信息輔助分類,建立如圖4所示的信息分類結(jié)構(gòu),提高了系名片識別統(tǒng)信息分類的性能。

        圖4 信息分類結(jié)構(gòu)

        4 實驗數(shù)據(jù)及結(jié)果

        為驗證利用版面信息來幫助分類,并利用不能分類的信息用于糾錯和再識別分類,選取100張實際名片,作了一個對比測試。

        表1 實驗數(shù)據(jù)及結(jié)果

        測試中比較了是否有加版面信息和反饋機會對分類模塊最終性能的影響??梢钥吹剑陲@示的幾個主要類別中,各項指標都有不同程度的上升。無版面信息反饋機制的情況下分類正確率為96.8%,有版面信息反饋機制的情況下正確率為98.9%。

        5 結(jié)束語

        主要介紹了利用文本在名片圖像中的版面位置信息來輔助分類,并將出錯的情況反饋于版面分析和字符識別過程的方法。試驗表明這個新算法明顯提高了名片文本信息分類的準確性。而且經(jīng)過這個分類處理后,名片文本變成了條目清晰的信息項,為查詢檢索奠定了基礎(chǔ)。

        [1]林曉帆,丁曉青,吳佑壽.名片自動錄入系統(tǒng)的實現(xiàn)[J].數(shù)據(jù)采集與處理,1998,13(2):163 -167.

        [2]徐銳義,吳 煒,何小海,等.中文商務(wù)名片版面分割研究[J].四川大學學報,2008,45(2):331 -335.

        [3]LIN Lin,CHEW Lim Tan.Text extraction from name cards with complex design[C].Proceeding of the 2005 Eight International Conference on Document Analysis and Recognition,2005:977 -980.

        [4]KRISHNAMOORTHY M S,NAGY G,SETH S C,et al.Syntactic segmentation and labeling of digitized pages from technical journals[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1993,15(7):737 -747.

        [5]LIN X,DING X,WU Y.Automatic input system for chinese business cards[C].Proc of 7th ICCPOL,HongKong,1997:277-280.

        [6]劉昊.基于背景描述的中文版面分析方法的研究[D].哈爾濱:哈爾濱工業(yè)大學,1999.

        [7]田學東,郭寶蘭.基于組合特征的中文版面分析[J].中文信息學報,1999,13(4):22 -28.

        [8]張純,張濤,黃笑.中文商務(wù)名片識別系統(tǒng)的實現(xiàn)[J].中文信息學報,2000,14(2):22 -26.

        猜你喜歡
        字符識別子集名片
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        包頭的名片
        包包,也可以是你的名片
        好日子(2022年6期)2022-08-17 07:15:10
        我家的環(huán)保名片
        拓撲空間中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        一種改進深度學習網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
        不會丟的創(chuàng)意名片
        中外文摘(2017年17期)2017-10-10 09:10:03
        儀表字符識別中的圖像處理算法研究
        基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
        欧美69久成人做爰视频| 综合激情中文字幕一区二区| 在线观看一区二区三区视频| 包皮上有一点一点白色的| 成人美女黄网站色大免费的| 性夜夜春夜夜爽aa片a| h动漫尤物视频| 婷婷开心五月亚洲综合| 国产a∨天天免费观看美女 | 日本一区二区免费高清| 无码gogo大胆啪啪艺术| 国产精品久久久久电影网| 亚洲嫩草影院久久精品| 国产一区二区三区成人av| 亚洲2022国产成人精品无码区| 图片区小说区激情区偷拍区| 国产成人亚洲综合无码DVD| 丰满少妇又爽又紧又丰满动态视频 | xxxx国产视频| 一二三四中文字幕日韩乱码| 亚洲日本中文字幕高清在线| 国99久9在线 | 免费| 妺妺窝人体色www在线图片| 最新国产精品精品视频| 国产精品国产三级久久| 亚欧色一区w666天堂| 精品国产福利一区二区在线| 精品日产一区2区三区| 亚洲综合日韩一二三区| 在线欧美中文字幕农村电影| 永久无码在线观看| 国产一区二区三区特黄| 男人吃奶摸下挵进去啪啪软件| 国产亚洲精品久久久久婷婷瑜伽| 丝袜欧美视频首页在线| 日本国产一区二区在线观看| 看久久久久久a级毛片| 少妇厨房愉情理伦片bd在线观看 | 日本精品少妇一区二区| 无套内谢老熟女| 久久tv中文字幕首页|