亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向自動化標(biāo)檢的文本分類方法

        2020-11-26 07:41:56郭澤焦倩倩
        現(xiàn)代防御技術(shù) 2020年5期
        關(guān)鍵詞:貝葉斯段落文檔

        郭澤,焦倩倩

        (北京電子工程總體研究所,北京 100854)

        0 引言

        文檔是用戶與產(chǎn)品之間最直接的橋梁,它有助于軟件人員設(shè)計程序,有助于管理人員監(jiān)督和管理產(chǎn)品,有助于維護(hù)人員進(jìn)行有效的修改和改進(jìn),更是用戶對產(chǎn)品功能、使用方式等各方面進(jìn)行了解的最主要方式,其質(zhì)量十分重要。在軍用領(lǐng)域,研試文件、設(shè)計文件、軟件文件等等一系列文檔貫穿整個產(chǎn)品周期,其質(zhì)量的好壞對產(chǎn)品的研制、試驗(yàn)等過程有著極其重要甚至決定性作用[1]。同時,文檔作為向用戶展示成果的最直接窗口,其質(zhì)量更是反映了一個企業(yè)的文化。一份完美的文檔能夠讓人看出企業(yè)工作的嚴(yán)謹(jǐn)態(tài)度,而一份錯漏百出的文檔甚至?xí)钣脩羰ζ髽I(yè)的信心。

        文檔的質(zhì)量已經(jīng)引起各軍工企業(yè)的重視,對文檔質(zhì)量開展的各類評審、審查等工作使文檔的質(zhì)量大幅提高。然而目前對文檔的格式、內(nèi)容的審查均完全依靠人工進(jìn)行審查,審查效率不高,且受審查人水平、勞累程度等主觀因素影響較大。文檔的質(zhì)量即使經(jīng)過審查,也往往出現(xiàn)質(zhì)量參差不齊的情況。開展自動化標(biāo)檢技術(shù)研究,降低人力資源消耗,提高文檔產(chǎn)品質(zhì)量十分重要。對文檔的自動化標(biāo)檢實(shí)際是一種大規(guī)模文本的處理技術(shù),其過程可分解為文本識別、文本標(biāo)檢和文本處理,其中最為核心的技術(shù)在于對文本的識別,即文本分類技術(shù)[2]。

        1 基于機(jī)器學(xué)習(xí)的文本分類方法

        文本分類是處理和組織大規(guī)模文本數(shù)據(jù)的關(guān)鍵技術(shù),目前正廣泛的應(yīng)用于搜索引擎、快速資料分檢、自動文摘、信息資料推送等領(lǐng)域[3]。自20世紀(jì)90年代以來,隨著信息存儲技術(shù)和計算機(jī)網(wǎng)絡(luò)的飛速發(fā)展,機(jī)器學(xué)習(xí)逐漸取代了傳統(tǒng)的知識工程,成為文本分類的主流技術(shù)?;跈C(jī)器學(xué)習(xí)的文本分類方法一般采用向量空間模型[4],該模型包含3個關(guān)鍵技術(shù):特征選擇、特征權(quán)重估算和文本分類器。特征選擇是從原始特征集合中選擇一部分特征組成分類集合,最終得到原始特征集合的一個真子集,從而達(dá)到降低原始特征空間維度的目的。特征的權(quán)重反映了該特征對于標(biāo)識文本內(nèi)容的貢獻(xiàn)度和文本之間的區(qū)分度。分類器則用于依據(jù)特征的權(quán)重,采用一定的模型對文本實(shí)施分類。常用的分類器包括樸素貝葉斯[5]、最近鄰分類算法(K-nearest neighbor,KNN)[6]和支持向量機(jī)(support vector machine,SVM)[7],這幾類分類器在特定的領(lǐng)域均有較好的應(yīng)用。

        與傳統(tǒng)的文本分類問題不同,自動化標(biāo)檢領(lǐng)域的文本分類的基本單位為段落,特征向量除了文本外,段落的格式同樣是決定其分類的重要特征[8]。其各類格式特征和文本特征均是相互獨(dú)立的,這使得其非常適合采用樸素貝葉斯算法作為分類器[9]。由于需要進(jìn)行分類的樣本往往具有極強(qiáng)的樣本傾斜性,某一類的數(shù)量(如正文)十分多,因此KNN算法不適用。此外,文本的編寫中容易出現(xiàn)較多低級問題,使得某些特征具有一票否決的特性,支持向量機(jī)的核函數(shù)構(gòu)造較為困難。綜合考慮,采用樸素貝葉斯算法作為自動化標(biāo)檢的段落分類器。

        2 分類模型與特征選取

        設(shè)計一種改進(jìn)的樸素貝葉斯分類算法用于段落分類。定義事件Ai為段落為第i類,事件Bj表示段落有特征j,則段落可用特征向量X={B1,B2,…,Bj}表示。已知段落全部特征B1到Bj時,根據(jù)貝葉斯公式,段落具有B1到Bj特征的條件下為類型i的概率為

        由于各個特征相互獨(dú)立,根據(jù)全概率公式,得到

        不失一般性,對于任意一個段落,在不添加任何前置條件的情況下,P(X)對于所有類為常數(shù),公式進(jìn)一步變?yōu)?/p>

        可以看出,任意段落為某一類型的概率與以下2類概率直接相關(guān)。

        (1) 段落為類型i的先驗(yàn)概率[10]P(Ai);

        (2) 段落為類型i時具有特征Bj的概率P(Bj|Ai)。對于任意一個段落,在書寫過程中均可能出現(xiàn)特征與預(yù)期不符的情況。將P(Bj|Ai)拆分為類型i的特征符合要求和不符合要求2種情況。

        定義P0表示先驗(yàn)概率,Pj表示特征j符合類型i的值。假設(shè)某段落的特征2不符合類型i,其余特征均符合,則段落為類型i的概率為

        根據(jù)上述公式,段落的分類概率與P0到Pj直接相關(guān),選取合理的特征將大幅提升識別的準(zhǔn)確性。將特征分為格式特征和文本特征2類,其中格式特征表示段落的格式,文本特征表示段落文字中隱含的特征屬性。段落為類型i的概率為

        格式特征為通用特征,即每個段落都具備的特征,是進(jìn)行分類的基礎(chǔ)特征。文本特征為特有特征,當(dāng)某些段落具備特殊的文本特征時,該段落屬于某一類型的概率提升,屬于其他類型的概率降低。任意段落具備類型k的文本特征時,屬于不同類型的概率進(jìn)一步分解為

        根據(jù)上述推導(dǎo),我們選取了19個特征的概率值作為訓(xùn)練參數(shù),選取參數(shù)如表1所示。

        3 基于遺傳算法的參數(shù)訓(xùn)練模型

        各個特征對于最終文本分類結(jié)果的貢獻(xiàn)度由其權(quán)重直接決定,單純的依賴經(jīng)驗(yàn)難以獲取較好的分類結(jié)果,直接影響最終的標(biāo)檢質(zhì)量。本文采用一種基于遺傳算法的參數(shù)訓(xùn)練模型對19個特征的權(quán)重(概率)進(jìn)行訓(xùn)練,采用一種有監(jiān)督[11]的機(jī)器學(xué)習(xí)的算法,使得機(jī)器的分類結(jié)果盡可能的接近人工分類結(jié)果,各個特征的權(quán)重由樣本數(shù)據(jù)決定,隨著樣本量的增大,其分類的準(zhǔn)確性將有效提升。

        3.1 基因設(shè)計

        由于19個特征相互獨(dú)立,且均為概率值,本文采用一種一維線性基因,每個特征的權(quán)重作為其中的一個編碼,可以較為便捷的進(jìn)行交叉和變異操作。

        表1 訓(xùn)練參數(shù)選擇情況Table 1 The choice of training parameters

        3.2 算子設(shè)計

        選擇算子采用錦標(biāo)賽算子[12],交叉算子[13]采用單點(diǎn)交叉和兩點(diǎn)交叉算子,變異算子采用單點(diǎn)變異和位置變異算子[14]。

        3.3 適應(yīng)度設(shè)計

        考慮到文檔的段落類型的傾斜度,適應(yīng)度函數(shù)以文檔為單位計算分類參數(shù)的準(zhǔn)確度,機(jī)器分類的結(jié)果與人工分類的結(jié)果越接近,則適應(yīng)度越高。設(shè)p表示單份文檔中的段落個數(shù),q表示機(jī)器分類與人工分類相同的段落個數(shù),則適應(yīng)度計算函數(shù)為

        依據(jù)以上設(shè)計,本文采用傳統(tǒng)遺傳算法,在適應(yīng)度計算階段將交叉、變異后的基因解析為特征權(quán)重并帶入到文本分類算法中,對樣本進(jìn)行分類計算,將分類結(jié)果與人工結(jié)果進(jìn)行自動比對,計算適應(yīng)度并執(zhí)行選擇操作,判斷是否滿足準(zhǔn)確度要求或迭代次數(shù)要求,不滿足則繼續(xù)進(jìn)行下一代遺傳,滿足則輸出特征權(quán)重至文本分類模型中作為最終參數(shù)。基于遺傳算法的分類模型如圖1所示。

        圖1 基于遺傳算法的分類模型Fig.1 Classification model based on genetic algorithm

        4 基于識別結(jié)果的自動化標(biāo)檢模型

        自動化標(biāo)檢的目的是找出用戶編寫的文檔中格式錯誤或文本錯誤的文本,其關(guān)注的重點(diǎn)是用戶編寫錯誤的情況。因此在文本分類時需要考慮到錯誤較為嚴(yán)重的例子,例如用戶將圖題、表題的格式完全寫錯的時候,由于段落緊跟圖或表,仍應(yīng)當(dāng)識別為圖題或表題,否則將直接影響后續(xù)標(biāo)檢結(jié)果。為了解決該類問題,在上面的訓(xùn)練和分類模型的基礎(chǔ)上補(bǔ)充一種基于圖表位置的圖題表題識別算法優(yōu)化文本分類結(jié)果。本文采用的標(biāo)檢流程如下。

        (1) 檢查文件載入:將參數(shù)配置文件載入模型中;

        (2) 特征提取與篩選:提取段落的主要格式特征,剔除空段落、無效段落等干擾數(shù)據(jù);

        (3) 段落分類:為了進(jìn)一步提高識別準(zhǔn)確率,本方法加入了基于經(jīng)驗(yàn)的先驗(yàn)識別算法;

        圖題表題識別算法(算法1)。首先利用文字處理程序提供的api函數(shù)獲取其中所有的圖和表位置,初步識別出為表題和圖題的段落;

        通用識別算法(算法2)。然后采用基于改進(jìn)貝葉斯算法的分類算法計算所有段落的分類結(jié)果,記錄概率最高的3個類型;

        最后將2種識別算法結(jié)果進(jìn)行融合。由于圖題和表題通常緊跟圖或表,因此通過api函數(shù)獲取的圖題表題結(jié)果可信度較高。因此,算法1識別為圖題或表題時,直接采用算法1結(jié)果。算法1識別為非圖題或非表題時,從算法2的結(jié)果中選取與不違背算法1結(jié)果的概率最高的結(jié)果。

        (4) 錯誤檢查:基于識別結(jié)果對各段落進(jìn)行錯誤比對,記錄所有的錯誤位置,并生成錯誤提示字串;

        (5) 錯誤輸出:自動統(tǒng)計錯誤情況,將所有錯誤在對應(yīng)的位置直接以批注的形式輸出錯誤提示字串[15]。

        標(biāo)檢完成后將自動打開文檔便于標(biāo)檢人員查看錯誤情況,同時還將在文檔中標(biāo)注出錯誤統(tǒng)計情況,用于直觀判斷文檔的編寫質(zhì)量。

        5 實(shí)驗(yàn)

        定義文檔的識別準(zhǔn)確率如下:

        識別準(zhǔn)確率=識別正確的段落數(shù)/總段落數(shù)×100%.

        為了驗(yàn)證本文算法的效果,分別采用傳統(tǒng)KNN算法、樸素貝葉斯算法和本文的改進(jìn)樸素貝葉斯算法進(jìn)行實(shí)驗(yàn)。選取質(zhì)量技術(shù)處提供的實(shí)際文檔作為樣本,共計5 150個段落,樣本主要選取了最常見的需要標(biāo)檢的4類文檔,包括

        (1) 設(shè)計文件:正確樣本率100%;

        (2) 研試文件:正確樣本率80%;

        (3) 軟件文檔:正確樣本率:60%;

        (4) 三大規(guī)范:正確樣本率:40%。

        除了模板,針對這4類文檔,各隨機(jī)選取了一份真實(shí)文件進(jìn)行檢查。

        1) 模板文件識別準(zhǔn)確率分析

        各算法的模板文件的識別比較情況如圖2~5所示。

        可以看出,傳統(tǒng)的KNN和樸素貝葉斯算法在處理正確率較低的樣本效果較差,而本文提出的算法在各個不同正確率的樣本集中均取得了95%以上的識別準(zhǔn)確率。

        2) 隨機(jī)選取文件識別準(zhǔn)確率分析

        對4類文檔隨機(jī)選取的樣本進(jìn)行識別準(zhǔn)確率分析,結(jié)果如表2所示。

        可以看出,隨機(jī)選取的文檔識別準(zhǔn)確率均能達(dá)到95%左右的水平。

        為了驗(yàn)證錯誤提示的正確性,設(shè)計《測試文檔.doc》,植入不同的錯誤格式。植入的錯誤包括:段前行距錯誤、字號錯誤、首行縮進(jìn)錯誤、段后行距錯誤、字體錯誤、對齊方式錯誤、右側(cè)縮進(jìn)錯誤、左側(cè)縮進(jìn)錯誤。將部分縮進(jìn)進(jìn)行組合放在同一自然段,且最后2個自然段為正確格式,用于檢查是否誤報。

        圖2 設(shè)計文件識別準(zhǔn)確率Fig.2 Identification accuracy result of design documents

        圖3 研試文件識別準(zhǔn)確率Fig.3 Identification accuracy result of research & experiment documents

        圖4 軟件文檔識別準(zhǔn)確率Fig.4 Identification accuracy result of software documents

        圖5 三大規(guī)范識別準(zhǔn)確率Fig.5 Identification accuracy result of standards

        表2 隨機(jī)文件識別準(zhǔn)確率Table 2 Identification accuracy result of random documents

        植入的錯誤在各段落末尾標(biāo)注出設(shè)計測試文檔,植入錯誤的分布情況如圖6所示。使用工具進(jìn)行格式檢查后,自動生成錯誤批注,檢查結(jié)果如圖7所示。

        圖6 測試文檔設(shè)計情況Fig.6 Design of test document

        圖7 格式檢查結(jié)果Fig.7 Result of format check

        所有植入的錯誤均被工具自動識別且標(biāo)注出,標(biāo)注的段落位置正確。正確的段落未出現(xiàn)誤報,預(yù)埋錯誤的識別率達(dá)到100%,工具的基本格式檢查功能滿足設(shè)計要求。

        6 結(jié)束語

        本文首先對基于機(jī)器學(xué)習(xí)的文本分類算法進(jìn)行了介紹,在此基礎(chǔ)上選取了面向自動化標(biāo)檢的特征向量,進(jìn)而提出改進(jìn)的樸素貝葉斯分類算法和基于遺傳算法的分類模型。然后,在實(shí)際的數(shù)據(jù)集中分別采用KNN算法、傳統(tǒng)樸素貝葉斯算法和本文的算法進(jìn)行了分類。實(shí)驗(yàn)結(jié)果表明,本文提出的分類模型能夠有效處理段落數(shù)多、錯誤多的情況,正確的將段落進(jìn)行分類。能夠有效地提高自動化標(biāo)檢的正確率,從而提高標(biāo)檢質(zhì)量。

        猜你喜歡
        貝葉斯段落文檔
        有人一聲不吭向你扔了個文檔
        【短文篇】
        心理小測試
        夏天,愛情的第四段落
        散文詩(2017年17期)2018-01-31 02:34:11
        貝葉斯公式及其應(yīng)用
        基于RI碼計算的Word復(fù)制文檔鑒別
        基于貝葉斯估計的軌道占用識別方法
        弄清段落關(guān)系 按圖索驥讀文
        讀寫算(下)(2016年11期)2016-05-04 03:44:07
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        久久精品国产免费观看| 97一期涩涩97片久久久久久久 | 免费网站内射红桃视频| 欧美一区二区三区视频在线观看| 好屌草这里只有精品| 欧美成人精品第一区二区三区| 国产精品11p| 国产av丝袜旗袍无码网站| 国产熟妇搡bbbb搡bb七区| 97人妻碰免费视频| 国产美女av一区二区三区| 99久久久69精品一区二区三区 | 国产 高潮 抽搐 正在播放 | 欧美成a人片在线观看久| 国产日韩欧美网站| 日韩av无码午夜福利电影| 久久99免费精品国产| 欧洲美女熟乱av| 日日噜噜噜夜夜爽爽狠狠| 官网A级毛片| 国产在线a免费观看不卡| 亚洲处破女av日韩精品中出| 国产做国产爱免费视频| 国产精品成年片在线观看| 国产精品久久码一区二区| 人妻丰满少妇一二三区| 99久久婷婷亚洲综合国产| 日本欧美大码a在线观看| 欧洲成人午夜精品无码区久久| 国产午夜福利精品| av成人资源在线观看| 偷拍视频网址一区二区| 无码人妻精品一区二区三区9厂| 精品国精品国产自在久国产应用| 亚洲中文字幕黄色小视频| 国产精品熟女少妇不卡| 国产国语亲子伦亲子| 国产96在线 | 欧美| 国产va精品免费观看| 日本一级二级三级在线| 亚洲另类丰满熟妇乱xxxx|