亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種面向自動化標(biāo)檢的文本分類方法

2020-11-26 07:41:56郭澤焦倩倩

現(xiàn)代防御技術(shù) 2020年5期

郭澤，焦倩倩

(北京電子工程總體研究所，北京 100854)

0 引言

文檔是用戶與產(chǎn)品之間最直接的橋梁，它有助于軟件人員設(shè)計程序，有助于管理人員監(jiān)督和管理產(chǎn)品，有助于維護(hù)人員進(jìn)行有效的修改和改進(jìn)，更是用戶對產(chǎn)品功能、使用方式等各方面進(jìn)行了解的最主要方式，其質(zhì)量十分重要。在軍用領(lǐng)域，研試文件、設(shè)計文件、軟件文件等等一系列文檔貫穿整個產(chǎn)品周期，其質(zhì)量的好壞對產(chǎn)品的研制、試驗等過程有著極其重要甚至決定性作用[1]。同時，文檔作為向用戶展示成果的最直接窗口，其質(zhì)量更是反映了一個企業(yè)的文化。一份完美的文檔能夠讓人看出企業(yè)工作的嚴(yán)謹(jǐn)態(tài)度，而一份錯漏百出的文檔甚至?xí)钣脩羰ζ髽I(yè)的信心。

文檔的質(zhì)量已經(jīng)引起各軍工企業(yè)的重視，對文檔質(zhì)量開展的各類評審、審查等工作使文檔的質(zhì)量大幅提高。然而目前對文檔的格式、內(nèi)容的審查均完全依靠人工進(jìn)行審查，審查效率不高，且受審查人水平、勞累程度等主觀因素影響較大。文檔的質(zhì)量即使經(jīng)過審查，也往往出現(xiàn)質(zhì)量參差不齊的情況。開展自動化標(biāo)檢技術(shù)研究，降低人力資源消耗，提高文檔產(chǎn)品質(zhì)量十分重要。對文檔的自動化標(biāo)檢實際是一種大規(guī)模文本的處理技術(shù)，其過程可分解為文本識別、文本標(biāo)檢和文本處理，其中最為核心的技術(shù)在于對文本的識別，即文本分類技術(shù)[2]。

1 基于機器學(xué)習(xí)的文本分類方法

文本分類是處理和組織大規(guī)模文本數(shù)據(jù)的關(guān)鍵技術(shù)，目前正廣泛的應(yīng)用于搜索引擎、快速資料分檢、自動文摘、信息資料推送等領(lǐng)域[3]。自20世紀(jì)90年代以來，隨著信息存儲技術(shù)和計算機網(wǎng)絡(luò)的飛速發(fā)展，機器學(xué)習(xí)逐漸取代了傳統(tǒng)的知識工程，成為文本分類的主流技術(shù)。基于機器學(xué)習(xí)的文本分類方法一般采用向量空間模型[4]，該模型包含3個關(guān)鍵技術(shù)：特征選擇、特征權(quán)重估算和文本分類器。特征選擇是從原始特征集合中選擇一部分特征組成分類集合，最終得到原始特征集合的一個真子集，從而達(dá)到降低原始特征空間維度的目的。特征的權(quán)重反映了該特征對于標(biāo)識文本內(nèi)容的貢獻(xiàn)度和文本之間的區(qū)分度。分類器則用于依據(jù)特征的權(quán)重，采用一定的模型對文本實施分類。常用的分類器包括樸素貝葉斯[5]、最近鄰分類算法(K-nearest neighbor，KNN)[6]和支持向量機(support vector machine，SVM)[7]，這幾類分類器在特定的領(lǐng)域均有較好的應(yīng)用。

與傳統(tǒng)的文本分類問題不同，自動化標(biāo)檢領(lǐng)域的文本分類的基本單位為段落，特征向量除了文本外，段落的格式同樣是決定其分類的重要特征[8]。其各類格式特征和文本特征均是相互獨立的，這使得其非常適合采用樸素貝葉斯算法作為分類器[9]。由于需要進(jìn)行分類的樣本往往具有極強的樣本傾斜性，某一類的數(shù)量(如正文)十分多，因此KNN算法不適用。此外，文本的編寫中容易出現(xiàn)較多低級問題，使得某些特征具有一票否決的特性，支持向量機的核函數(shù)構(gòu)造較為困難。綜合考慮，采用樸素貝葉斯算法作為自動化標(biāo)檢的段落分類器。

2 分類模型與特征選取

設(shè)計一種改進(jìn)的樸素貝葉斯分類算法用于段落分類。定義事件Ai為段落為第i類，事件Bj表示段落有特征j，則段落可用特征向量X={B1,B2,…,Bj}表示。已知段落全部特征B1到Bj時，根據(jù)貝葉斯公式，段落具有B1到Bj特征的條件下為類型i的概率為

由于各個特征相互獨立，根據(jù)全概率公式，得到

不失一般性，對于任意一個段落，在不添加任何前置條件的情況下，P(X)對于所有類為常數(shù)，公式進(jìn)一步變?yōu)?/p>

可以看出，任意段落為某一類型的概率與以下2類概率直接相關(guān)。

(1) 段落為類型i的先驗概率[10]P(Ai)；

(2) 段落為類型i時具有特征Bj的概率P(Bj|Ai)。對于任意一個段落，在書寫過程中均可能出現(xiàn)特征與預(yù)期不符的情況。將P(Bj|Ai)拆分為類型i的特征符合要求和不符合要求2種情況。

定義P0表示先驗概率，Pj表示特征j符合類型i的值。假設(shè)某段落的特征2不符合類型i，其余特征均符合，則段落為類型i的概率為

根據(jù)上述公式，段落的分類概率與P0到Pj直接相關(guān)，選取合理的特征將大幅提升識別的準(zhǔn)確性。將特征分為格式特征和文本特征2類，其中格式特征表示段落的格式，文本特征表示段落文字中隱含的特征屬性。段落為類型i的概率為

格式特征為通用特征，即每個段落都具備的特征，是進(jìn)行分類的基礎(chǔ)特征。文本特征為特有特征，當(dāng)某些段落具備特殊的文本特征時，該段落屬于某一類型的概率提升，屬于其他類型的概率降低。任意段落具備類型k的文本特征時，屬于不同類型的概率進(jìn)一步分解為

根據(jù)上述推導(dǎo)，我們選取了19個特征的概率值作為訓(xùn)練參數(shù)，選取參數(shù)如表1所示。

3 基于遺傳算法的參數(shù)訓(xùn)練模型

各個特征對于最終文本分類結(jié)果的貢獻(xiàn)度由其權(quán)重直接決定，單純的依賴經(jīng)驗難以獲取較好的分類結(jié)果，直接影響最終的標(biāo)檢質(zhì)量。本文采用一種基于遺傳算法的參數(shù)訓(xùn)練模型對19個特征的權(quán)重(概率)進(jìn)行訓(xùn)練，采用一種有監(jiān)督[11]的機器學(xué)習(xí)的算法，使得機器的分類結(jié)果盡可能的接近人工分類結(jié)果，各個特征的權(quán)重由樣本數(shù)據(jù)決定，隨著樣本量的增大，其分類的準(zhǔn)確性將有效提升。

3.1 基因設(shè)計

由于19個特征相互獨立，且均為概率值，本文采用一種一維線性基因，每個特征的權(quán)重作為其中的一個編碼，可以較為便捷的進(jìn)行交叉和變異操作。

表1 訓(xùn)練參數(shù)選擇情況Table 1 The choice of training parameters

3.2 算子設(shè)計

選擇算子采用錦標(biāo)賽算子[12]，交叉算子[13]采用單點交叉和兩點交叉算子，變異算子采用單點變異和位置變異算子[14]。

3.3 適應(yīng)度設(shè)計

考慮到文檔的段落類型的傾斜度，適應(yīng)度函數(shù)以文檔為單位計算分類參數(shù)的準(zhǔn)確度，機器分類的結(jié)果與人工分類的結(jié)果越接近，則適應(yīng)度越高。設(shè)p表示單份文檔中的段落個數(shù)，q表示機器分類與人工分類相同的段落個數(shù)，則適應(yīng)度計算函數(shù)為

依據(jù)以上設(shè)計，本文采用傳統(tǒng)遺傳算法，在適應(yīng)度計算階段將交叉、變異后的基因解析為特征權(quán)重并帶入到文本分類算法中，對樣本進(jìn)行分類計算，將分類結(jié)果與人工結(jié)果進(jìn)行自動比對，計算適應(yīng)度并執(zhí)行選擇操作，判斷是否滿足準(zhǔn)確度要求或迭代次數(shù)要求，不滿足則繼續(xù)進(jìn)行下一代遺傳，滿足則輸出特征權(quán)重至文本分類模型中作為最終參數(shù)?；谶z傳算法的分類模型如圖1所示。

圖1 基于遺傳算法的分類模型Fig.1 Classification model based on genetic algorithm

4 基于識別結(jié)果的自動化標(biāo)檢模型

自動化標(biāo)檢的目的是找出用戶編寫的文檔中格式錯誤或文本錯誤的文本，其關(guān)注的重點是用戶編寫錯誤的情況。因此在文本分類時需要考慮到錯誤較為嚴(yán)重的例子，例如用戶將圖題、表題的格式完全寫錯的時候，由于段落緊跟圖或表，仍應(yīng)當(dāng)識別為圖題或表題，否則將直接影響后續(xù)標(biāo)檢結(jié)果。為了解決該類問題，在上面的訓(xùn)練和分類模型的基礎(chǔ)上補充一種基于圖表位置的圖題表題識別算法優(yōu)化文本分類結(jié)果。本文采用的標(biāo)檢流程如下。

(1) 檢查文件載入：將參數(shù)配置文件載入模型中；

(2) 特征提取與篩選：提取段落的主要格式特征，剔除空段落、無效段落等干擾數(shù)據(jù)；

(3) 段落分類：為了進(jìn)一步提高識別準(zhǔn)確率，本方法加入了基于經(jīng)驗的先驗識別算法；

圖題表題識別算法(算法1)。首先利用文字處理程序提供的api函數(shù)獲取其中所有的圖和表位置，初步識別出為表題和圖題的段落；

通用識別算法(算法2)。然后采用基于改進(jìn)貝葉斯算法的分類算法計算所有段落的分類結(jié)果，記錄概率最高的3個類型；

最后將2種識別算法結(jié)果進(jìn)行融合。由于圖題和表題通常緊跟圖或表，因此通過api函數(shù)獲取的圖題表題結(jié)果可信度較高。因此，算法1識別為圖題或表題時，直接采用算法1結(jié)果。算法1識別為非圖題或非表題時，從算法2的結(jié)果中選取與不違背算法1結(jié)果的概率最高的結(jié)果。

(4) 錯誤檢查：基于識別結(jié)果對各段落進(jìn)行錯誤比對，記錄所有的錯誤位置，并生成錯誤提示字串；

(5) 錯誤輸出：自動統(tǒng)計錯誤情況，將所有錯誤在對應(yīng)的位置直接以批注的形式輸出錯誤提示字串[15]。

標(biāo)檢完成后將自動打開文檔便于標(biāo)檢人員查看錯誤情況，同時還將在文檔中標(biāo)注出錯誤統(tǒng)計情況，用于直觀判斷文檔的編寫質(zhì)量。

5 實驗

定義文檔的識別準(zhǔn)確率如下：

識別準(zhǔn)確率=識別正確的段落數(shù)/總段落數(shù)×100%.

為了驗證本文算法的效果，分別采用傳統(tǒng)KNN算法、樸素貝葉斯算法和本文的改進(jìn)樸素貝葉斯算法進(jìn)行實驗。選取質(zhì)量技術(shù)處提供的實際文檔作為樣本，共計5 150個段落，樣本主要選取了最常見的需要標(biāo)檢的4類文檔，包括

(1) 設(shè)計文件：正確樣本率100%；

(2) 研試文件：正確樣本率80%；

(3) 軟件文檔：正確樣本率：60%；

(4) 三大規(guī)范：正確樣本率：40%。

除了模板，針對這4類文檔，各隨機選取了一份真實文件進(jìn)行檢查。

1) 模板文件識別準(zhǔn)確率分析

各算法的模板文件的識別比較情況如圖2～5所示。

可以看出，傳統(tǒng)的KNN和樸素貝葉斯算法在處理正確率較低的樣本效果較差，而本文提出的算法在各個不同正確率的樣本集中均取得了95%以上的識別準(zhǔn)確率。

2) 隨機選取文件識別準(zhǔn)確率分析

對4類文檔隨機選取的樣本進(jìn)行識別準(zhǔn)確率分析，結(jié)果如表2所示。

可以看出，隨機選取的文檔識別準(zhǔn)確率均能達(dá)到95%左右的水平。

為了驗證錯誤提示的正確性，設(shè)計《測試文檔.doc》，植入不同的錯誤格式。植入的錯誤包括：段前行距錯誤、字號錯誤、首行縮進(jìn)錯誤、段后行距錯誤、字體錯誤、對齊方式錯誤、右側(cè)縮進(jìn)錯誤、左側(cè)縮進(jìn)錯誤。將部分縮進(jìn)進(jìn)行組合放在同一自然段，且最后2個自然段為正確格式，用于檢查是否誤報。

圖2 設(shè)計文件識別準(zhǔn)確率Fig.2 Identification accuracy result of design documents

圖3 研試文件識別準(zhǔn)確率Fig.3 Identification accuracy result of research & experiment documents

圖4 軟件文檔識別準(zhǔn)確率Fig.4 Identification accuracy result of software documents

圖5 三大規(guī)范識別準(zhǔn)確率Fig.5 Identification accuracy result of standards

表2 隨機文件識別準(zhǔn)確率Table 2 Identification accuracy result of random documents

植入的錯誤在各段落末尾標(biāo)注出設(shè)計測試文檔，植入錯誤的分布情況如圖6所示。使用工具進(jìn)行格式檢查后，自動生成錯誤批注，檢查結(jié)果如圖7所示。

圖6 測試文檔設(shè)計情況Fig.6 Design of test document

圖7 格式檢查結(jié)果Fig.7 Result of format check

所有植入的錯誤均被工具自動識別且標(biāo)注出，標(biāo)注的段落位置正確。正確的段落未出現(xiàn)誤報，預(yù)埋錯誤的識別率達(dá)到100%，工具的基本格式檢查功能滿足設(shè)計要求。

6 結(jié)束語

本文首先對基于機器學(xué)習(xí)的文本分類算法進(jìn)行了介紹，在此基礎(chǔ)上選取了面向自動化標(biāo)檢的特征向量，進(jìn)而提出改進(jìn)的樸素貝葉斯分類算法和基于遺傳算法的分類模型。然后，在實際的數(shù)據(jù)集中分別采用KNN算法、傳統(tǒng)樸素貝葉斯算法和本文的算法進(jìn)行了分類。實驗結(jié)果表明，本文提出的分類模型能夠有效處理段落數(shù)多、錯誤多的情況，正確的將段落進(jìn)行分類。能夠有效地提高自動化標(biāo)檢的正確率，從而提高標(biāo)檢質(zhì)量。