亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文文本事件檢測技術(shù)?

        2022-03-18 06:20:22
        關(guān)鍵詞:文本檢測方法

        崔 瑩

        (西南電子技術(shù)研究所 成都 610036)

        1 引言

        BP 神經(jīng)網(wǎng)絡(luò)是一種人工神經(jīng)網(wǎng)絡(luò)模型,自被提出以來,已被廣泛應(yīng)用于各種檢測[1~2]。我們知道BP 神經(jīng)網(wǎng)絡(luò)是一種多層次的神經(jīng)網(wǎng)絡(luò),BP 神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)主要由輸入層、隱層、輸出層三部分組成。其中,隱藏層至少有一層,在各層之間神經(jīng)元是完全連接的。除了輸入層外,每一層的輸入都與上一層的輸出密切相關(guān)。通常,BP 神經(jīng)網(wǎng)絡(luò)是一種負(fù)反饋神經(jīng)網(wǎng)絡(luò)。它通過負(fù)誤差響應(yīng)來調(diào)整權(quán)重,使其更接近非線性函數(shù)。因此,BP 神經(jīng)網(wǎng)絡(luò)的收斂速度相對較慢。

        近年來,文本檢測已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)和具有挑戰(zhàn)性的課題。Tutz 提出了Logit 模型來估計(jì)權(quán)重,而不是使用完全由距離決定的權(quán)重。使用lasso 或enhancement 等選擇過程自動(dòng)選擇最近的鄰居。然后,基于評估和選擇的概念,預(yù)測器空間被擴(kuò)展[9]。Nucci 提出了一種自適應(yīng)的ASCI(錯(cuò)誤預(yù)測分類器的自適應(yīng)選擇)方法,該方法根據(jù)類的特征,動(dòng)態(tài)選擇一種分類器,可以從一組機(jī)器學(xué)習(xí)分類器中更好地預(yù)測類的錯(cuò)誤傾向。對30 個(gè)軟件系統(tǒng)的實(shí)證研究表明,ASCI 的性能優(yōu)于5個(gè)單獨(dú)使用并結(jié)合多數(shù)投票集成[10]的分類器。

        在研究中,利用花授粉算法(FPA)對傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,優(yōu)化了網(wǎng)絡(luò)的權(quán)重和閾值,并提出了一種基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的中文文本事件檢測方法。為了驗(yàn)證改進(jìn)后的神經(jīng)網(wǎng)絡(luò)算法在中文文本事件檢測中的效果,實(shí)驗(yàn)采用GB2312 格式的訓(xùn)練數(shù)據(jù)集,并對中文詞匯進(jìn)行模糊處理,以實(shí)現(xiàn)分析詞匯意義的目的。在計(jì)算機(jī)上對兩種方法進(jìn)行實(shí)驗(yàn),比較了自然場景文本檢測方法和基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的檢測方法的檢測效果,包括準(zhǔn)確率、召回率、F值和時(shí)間消耗量。

        2 文本檢測算法及改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)文本檢測算法

        2.1 文本檢測算法

        大多數(shù)傳統(tǒng)的文本檢測算法都是基于連通域分析的。這些算法首先根據(jù)低級別的特征(如光強(qiáng)度、顏色、梯度等)將圖像像素聚集到不同的連接區(qū)域中,然后用分類模型對這些連接的組件進(jìn)行分類,以過濾噪聲區(qū)域。傳統(tǒng)的文本檢測算法主要采用自下而上的方法。這些算法通常從字符檢測或筆劃檢測開始,然后通過過濾文本元素來應(yīng)用文本檢測,從而構(gòu)造文本行,并驗(yàn)證文本行。因此,該方法的檢測結(jié)果精度低,魯棒性差,實(shí)現(xiàn)過程過于復(fù)雜。在當(dāng)今社會(huì)快速發(fā)展過程中,文本檢測任務(wù)正面臨著更大的挑戰(zhàn)[11~15]。

        1)圖像中可能出現(xiàn)文字的任何長度、寬比、顏色、字體、大小和形狀;

        2)圖像背景更加復(fù)雜多樣,紋理與文本相似,容易引起混淆,如圍欄、植被等物體;

        3)圖像質(zhì)量不確定,文本檢測對圖像質(zhì)量非常敏感。常見的干擾有光照條件、運(yùn)動(dòng)模糊、低分辨率和遮擋;

        4)圖像文本分布密集,不同文本特征相似,只有細(xì)節(jié)筆畫不同,多個(gè)文本之間的空間很小,一些小細(xì)節(jié)可能導(dǎo)致多個(gè)文本被檢測為一個(gè)文本[16~19]。面對這些更復(fù)雜和困難的挑戰(zhàn),傳統(tǒng)的多步文本檢測算法很容易生成大量非文本連接區(qū)域,這給后續(xù)的文本行拼接和文本行驗(yàn)證帶來了很大的困難。

        2.2 基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的中文文本事件檢測方法

        神經(jīng)網(wǎng)絡(luò)是由大量簡單計(jì)算單元組成的非線性系統(tǒng),它在一定程度上模擬了人腦的處理操作。

        由于實(shí)驗(yàn)數(shù)據(jù)集主要是中文數(shù)據(jù),單詞很難分割,因此,采用紅黑樹的方法,對系統(tǒng)中預(yù)存儲(chǔ)的詞匯表進(jìn)行分段。在分析數(shù)據(jù)集時(shí),對數(shù)據(jù)集中的單詞進(jìn)行分割,然后與系統(tǒng)中的單詞進(jìn)行比較。FPA神經(jīng)網(wǎng)絡(luò)支持GB2312 數(shù)據(jù)集,實(shí)現(xiàn)分析中文文本的能力。

        在研究中,我們利用BP 神經(jīng)網(wǎng)絡(luò)的誤差函數(shù)作為FPA 的物理狀態(tài)函數(shù),找到物理函數(shù)的最小值,并反復(fù)更新FPA的狀態(tài),即當(dāng)誤差值最小時(shí),可以得到FPA的最佳解??勺鳛锽P神經(jīng)網(wǎng)絡(luò)的初始權(quán)重和閾值。

        全局授粉過程由列維飛行完成,描述如下:

        局部授粉過程和花的規(guī)律性描述如式(2):

        其中ε是均勻分布生成的隨機(jī)數(shù),在(0,1)范圍。

        最優(yōu)解,l是列維飛行的步長參數(shù),按以式(3)計(jì)算:

        3 實(shí)驗(yàn)設(shè)計(jì)

        1)實(shí)驗(yàn)準(zhǔn)備

        實(shí)驗(yàn)選擇CEC 語料庫作為測試對象。CEC 語料庫以地震、火災(zāi)、道路事故、恐怖襲擊和食物中毒等五種緊急事件的新聞報(bào)道為素材。通過文本預(yù)處理、文本分析、事件標(biāo)記和一致性檢查,最終注釋存儲(chǔ)在文本中。

        2)實(shí)驗(yàn)環(huán)境

        在建立和編碼文本事件檢測系統(tǒng)后,利用CEC語料庫對系統(tǒng)進(jìn)行了測試,全面驗(yàn)證了改進(jìn)算法的檢測效果。

        編程開發(fā)環(huán)境如下:

        開發(fā)工具:VS2008;

        開發(fā)語言:C++、STL;

        操作系統(tǒng):Windows7。

        測試文本數(shù)據(jù)集:2048,測試的核心代碼如下(部分代碼,如圖1所示)。

        圖1 文本檢測算法代碼

        4 實(shí)驗(yàn)結(jié)果分析

        4.1 數(shù)據(jù)預(yù)處理工作

        神經(jīng)網(wǎng)絡(luò)不能直接識(shí)別文本,因此需要將文本數(shù)據(jù)映射到多維實(shí)向量中,即文本向量化。數(shù)據(jù)預(yù)處理包括以下三個(gè)步驟。

        1)分詞

        中文文本之間沒有明顯的界限,所以中文文本的分割比英語文本更困難。是否能準(zhǔn)確分割文本,對文本情緒分類的準(zhǔn)確性有重要影響?!敖Y(jié)巴”中文分詞庫是一個(gè)python中文分詞庫,支持傳統(tǒng)的分詞和自定義詞典,選擇這種方法可以更準(zhǔn)確地分割句子。

        2)詞向量化

        詞的分布式表示具有很強(qiáng)的表示能力,每個(gè)詞之間的相似性可以用空間向量來表示。所謂的詞向量化是將單詞處理為單詞向量的形式。目前,word2vec是生成分布式詞向量的主流方式。結(jié)合中文語料庫,利用word2vec的相關(guān)技術(shù)得到詞向量模型,在分割后輸入到向量模型中,可以得到每個(gè)詞的詞向量。

        3)生成詞向量矩陣

        分詞和詞向量化后,形成N×m詞向量矩陣。其中N是分詞后的單詞數(shù),m是詞向量的維數(shù)。為了便于模型的訓(xùn)練,需要將每個(gè)文本生成的詞向量矩陣的大小進(jìn)行標(biāo)準(zhǔn)化,以使所有文本生成的詞向量矩陣的大小都是相同的。其處理方法為

        其中,n是歸一化詞向量矩陣中的單詞數(shù);avgN是所有文本分詞后詞的平均數(shù)n;stdN是分詞后數(shù)詞n的標(biāo)準(zhǔn)偏差。

        然后,處理由文本生成的詞向量矩陣。不足的字向量矩陣用0 填充,修剪超長詞向量矩陣。這樣,n×M詞向量矩陣可以覆蓋95%的樣本。

        4.2 中文常用漢字的選擇

        中文辭海包含85568 個(gè)漢字。可以看出,構(gòu)成文本的漢字?jǐn)?shù)量相當(dāng)大,但大多數(shù)漢字并不常用。因此,如果我們將很少使用的漢字和一些特殊符號作為禁用字,并在文本預(yù)處理階段將其從文本中刪除,可以大幅提高程序的處理速度。使用現(xiàn)代漢字列表中常用的2500 個(gè)漢字對文本進(jìn)行預(yù)處理。建立通用漢字碼交叉參考表,編號為2500 個(gè)通用漢字(漢字標(biāo)記為w),編號為1~2500個(gè)。通過查找表格,可以獲得每個(gè)漢字的代碼或相應(yīng)的漢字。表1是漢字編碼表的部分示例。

        表1 常用字編碼

        4.3 文本事件檢測

        無論是中文文本還是英文文本,與其他對象相比,字符都有自己的特征,如筆畫寬度、文本結(jié)構(gòu)、圖像中字符的顏色和字符的邊緣等特征。根據(jù)文本圖像相關(guān)特征,進(jìn)行統(tǒng)一歸納,整理相關(guān)決策檢測規(guī)則,以實(shí)現(xiàn)文本事件檢測的目的。與自然場景中的圖像文本相比,它很容易受到復(fù)雜背景條件的影響。中文印刷文本在字符大小、顏色、筆畫寬度和紋理分布方面往往有統(tǒng)一的規(guī)范。因此,可基于上述特征來檢測打印的文本。

        傳統(tǒng)的自然場景文本檢測算法基本上以英語文本為檢測對象。與英文文本的圖像檢測相比,中文文本檢測的風(fēng)格不同,結(jié)構(gòu)復(fù)雜,檢測結(jié)果并不理想。因此,將中文印刷區(qū)感興趣的輸出區(qū)域與改進(jìn)的SWT 路徑寬度算法相結(jié)合來檢測文本事件。與傳統(tǒng)的整個(gè)文本圖像的檢測過程相比,對感興趣文本區(qū)域的檢測無疑更快。

        4.4 中文文本事件檢測實(shí)驗(yàn)結(jié)果分析

        1)不同檢測方法的精度和召回率結(jié)果分析

        首先對兩種中文文本檢測方法的準(zhǔn)確性和召回率進(jìn)行分析,檢測結(jié)果見表2和圖2。

        表2 不同檢測方法的準(zhǔn)確率和召回率的比較

        圖2 不同事件檢測方法結(jié)果對比

        從表2 和圖2 可以看出,這兩種方法的準(zhǔn)確率和召回率有所不同。自然場景文本檢測算法的準(zhǔn)確率為88%,召回率為73%?;诟倪M(jìn)神經(jīng)網(wǎng)絡(luò)的文本檢測算法的準(zhǔn)確率為95%,召回率為86%。從兩組數(shù)據(jù)的比較可以看出,改進(jìn)神經(jīng)網(wǎng)絡(luò)文本檢測算法在中文文本事件檢測中具有較好的性能。

        2)不同檢測方法的F值與耗時(shí)分析

        為進(jìn)一步分析兩種算法的實(shí)用性,對比分析兩種檢測算法的準(zhǔn)確率和召回率后,進(jìn)一步對兩種算法的F 值和時(shí)間消耗實(shí)驗(yàn)結(jié)果進(jìn)行了比較,結(jié)果見表3和圖3。

        表3 不同檢測方法的準(zhǔn)確率和召回率比較

        圖3 不同檢測方法的F值和耗時(shí)比較

        表3 和圖3 顯示,中文文本事件檢測測試中自然場景文本檢測算法的F 值為0.79,耗時(shí)4.56s;基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的文本檢測算法的F 值為0.90,耗時(shí)0.64s。從數(shù)據(jù)比較中可以看出,基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的文本檢測算法可以更快地檢測中文文本事件,具有更好的實(shí)用性。

        5 結(jié)語

        本研究中,提出了一種基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的中文文本事件檢測方法,通過使用花授粉算法來優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)重和閾值。為了驗(yàn)證該方法的有效性,將其與自然場景文本檢測方法進(jìn)行了比較,并分析了它的準(zhǔn)確性、召回率和時(shí)間消耗,得到以下結(jié)論。

        1)基于改進(jìn)的神經(jīng)網(wǎng)絡(luò)的文本檢測算法的準(zhǔn)確率為95%,召回率為86%,相較于自然場景中文本檢測方法,其事件檢測精度更高。

        2)基于改進(jìn)的神經(jīng)網(wǎng)絡(luò)的文本檢測算法的F值為0.90,時(shí)間為0.64s,相較于自然場景中文本檢測方法,其耗時(shí)更短,F(xiàn) 值更高,該方法具有更好的性能。

        雖然提出的基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的文本檢測算法已經(jīng)取得了一些效果,但其性能還需通過應(yīng)用于實(shí)際生產(chǎn)得到進(jìn)一步驗(yàn)證。本課題將在未來繼續(xù)進(jìn)行深入學(xué)習(xí)和優(yōu)化算法。

        猜你喜歡
        文本檢測方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        欧美性xxxxx极品老少| 国产美女久久久亚洲综合| 精品国产av一区二区三区| 色欲一区二区三区精品a片| 男女车车的车车网站w98免费| 日韩AV无码免费二三区| 九色精品国产亚洲av麻豆一| 亚洲一区二区三区99| 亚洲色成人www永久在线观看| 国产午夜无码视频免费网站| 国产一区二区三区杨幂| 中美日韩在线一区黄色大片| aⅴ精品无码无卡在线观看| 国内精品九九久久久精品| 99热久久只有这里是精品| 亚洲av一区二区三区色多多| 青草内射中出高潮| 国产一级片毛片| 中文字幕久久人妻av| 精品欧美一区二区三区久久久| 欧美精品中文字幕亚洲专区| 国产精品27页| 久久久精品国产老熟女| 无码人妻h动漫中文字幕| 大胆欧美熟妇xxbbwwbw高潮了| 亚洲欧美v国产蜜芽tv| 青青草成人免费在线视频| 被黑人猛烈30分钟视频| 黄色毛片视频免费| 一区=区三区国产视频| 无码人妻丰满熟妇啪啪网不卡 | 97人妻无码免费专区| 99久久国内精品成人免费| 久久久久亚洲av无码专区首jn| 另类欧美亚洲| 色综合中文字幕综合网| 成品人视频ww入口| 成年女人永久免费看片| 男子把美女裙子脱了摸她内裤| 国产91清纯白嫩初高中在线观看| 大肉大捧一进一出视频出来呀|