亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向自動化標(biāo)檢的文本分類方法

        2020-11-26 07:41:56郭澤焦倩倩
        現(xiàn)代防御技術(shù) 2020年5期
        關(guān)鍵詞:貝葉斯段落文檔

        郭澤,焦倩倩

        (北京電子工程總體研究所,北京 100854)

        0 引言

        文檔是用戶與產(chǎn)品之間最直接的橋梁,它有助于軟件人員設(shè)計程序,有助于管理人員監(jiān)督和管理產(chǎn)品,有助于維護(hù)人員進(jìn)行有效的修改和改進(jìn),更是用戶對產(chǎn)品功能、使用方式等各方面進(jìn)行了解的最主要方式,其質(zhì)量十分重要。在軍用領(lǐng)域,研試文件、設(shè)計文件、軟件文件等等一系列文檔貫穿整個產(chǎn)品周期,其質(zhì)量的好壞對產(chǎn)品的研制、試驗等過程有著極其重要甚至決定性作用[1]。同時,文檔作為向用戶展示成果的最直接窗口,其質(zhì)量更是反映了一個企業(yè)的文化。一份完美的文檔能夠讓人看出企業(yè)工作的嚴(yán)謹(jǐn)態(tài)度,而一份錯漏百出的文檔甚至?xí)钣脩羰ζ髽I(yè)的信心。

        文檔的質(zhì)量已經(jīng)引起各軍工企業(yè)的重視,對文檔質(zhì)量開展的各類評審、審查等工作使文檔的質(zhì)量大幅提高。然而目前對文檔的格式、內(nèi)容的審查均完全依靠人工進(jìn)行審查,審查效率不高,且受審查人水平、勞累程度等主觀因素影響較大。文檔的質(zhì)量即使經(jīng)過審查,也往往出現(xiàn)質(zhì)量參差不齊的情況。開展自動化標(biāo)檢技術(shù)研究,降低人力資源消耗,提高文檔產(chǎn)品質(zhì)量十分重要。對文檔的自動化標(biāo)檢實際是一種大規(guī)模文本的處理技術(shù),其過程可分解為文本識別、文本標(biāo)檢和文本處理,其中最為核心的技術(shù)在于對文本的識別,即文本分類技術(shù)[2]。

        1 基于機器學(xué)習(xí)的文本分類方法

        文本分類是處理和組織大規(guī)模文本數(shù)據(jù)的關(guān)鍵技術(shù),目前正廣泛的應(yīng)用于搜索引擎、快速資料分檢、自動文摘、信息資料推送等領(lǐng)域[3]。自20世紀(jì)90年代以來,隨著信息存儲技術(shù)和計算機網(wǎng)絡(luò)的飛速發(fā)展,機器學(xué)習(xí)逐漸取代了傳統(tǒng)的知識工程,成為文本分類的主流技術(shù)。基于機器學(xué)習(xí)的文本分類方法一般采用向量空間模型[4],該模型包含3個關(guān)鍵技術(shù):特征選擇、特征權(quán)重估算和文本分類器。特征選擇是從原始特征集合中選擇一部分特征組成分類集合,最終得到原始特征集合的一個真子集,從而達(dá)到降低原始特征空間維度的目的。特征的權(quán)重反映了該特征對于標(biāo)識文本內(nèi)容的貢獻(xiàn)度和文本之間的區(qū)分度。分類器則用于依據(jù)特征的權(quán)重,采用一定的模型對文本實施分類。常用的分類器包括樸素貝葉斯[5]、最近鄰分類算法(K-nearest neighbor,KNN)[6]和支持向量機(support vector machine,SVM)[7],這幾類分類器在特定的領(lǐng)域均有較好的應(yīng)用。

        與傳統(tǒng)的文本分類問題不同,自動化標(biāo)檢領(lǐng)域的文本分類的基本單位為段落,特征向量除了文本外,段落的格式同樣是決定其分類的重要特征[8]。其各類格式特征和文本特征均是相互獨立的,這使得其非常適合采用樸素貝葉斯算法作為分類器[9]。由于需要進(jìn)行分類的樣本往往具有極強的樣本傾斜性,某一類的數(shù)量(如正文)十分多,因此KNN算法不適用。此外,文本的編寫中容易出現(xiàn)較多低級問題,使得某些特征具有一票否決的特性,支持向量機的核函數(shù)構(gòu)造較為困難。綜合考慮,采用樸素貝葉斯算法作為自動化標(biāo)檢的段落分類器。

        2 分類模型與特征選取

        設(shè)計一種改進(jìn)的樸素貝葉斯分類算法用于段落分類。定義事件Ai為段落為第i類,事件Bj表示段落有特征j,則段落可用特征向量X={B1,B2,…,Bj}表示。已知段落全部特征B1到Bj時,根據(jù)貝葉斯公式,段落具有B1到Bj特征的條件下為類型i的概率為

        由于各個特征相互獨立,根據(jù)全概率公式,得到

        不失一般性,對于任意一個段落,在不添加任何前置條件的情況下,P(X)對于所有類為常數(shù),公式進(jìn)一步變?yōu)?/p>

        可以看出,任意段落為某一類型的概率與以下2類概率直接相關(guān)。

        (1) 段落為類型i的先驗概率[10]P(Ai);

        (2) 段落為類型i時具有特征Bj的概率P(Bj|Ai)。對于任意一個段落,在書寫過程中均可能出現(xiàn)特征與預(yù)期不符的情況。將P(Bj|Ai)拆分為類型i的特征符合要求和不符合要求2種情況。

        定義P0表示先驗概率,Pj表示特征j符合類型i的值。假設(shè)某段落的特征2不符合類型i,其余特征均符合,則段落為類型i的概率為

        根據(jù)上述公式,段落的分類概率與P0到Pj直接相關(guān),選取合理的特征將大幅提升識別的準(zhǔn)確性。將特征分為格式特征和文本特征2類,其中格式特征表示段落的格式,文本特征表示段落文字中隱含的特征屬性。段落為類型i的概率為

        格式特征為通用特征,即每個段落都具備的特征,是進(jìn)行分類的基礎(chǔ)特征。文本特征為特有特征,當(dāng)某些段落具備特殊的文本特征時,該段落屬于某一類型的概率提升,屬于其他類型的概率降低。任意段落具備類型k的文本特征時,屬于不同類型的概率進(jìn)一步分解為

        根據(jù)上述推導(dǎo),我們選取了19個特征的概率值作為訓(xùn)練參數(shù),選取參數(shù)如表1所示。

        3 基于遺傳算法的參數(shù)訓(xùn)練模型

        各個特征對于最終文本分類結(jié)果的貢獻(xiàn)度由其權(quán)重直接決定,單純的依賴經(jīng)驗難以獲取較好的分類結(jié)果,直接影響最終的標(biāo)檢質(zhì)量。本文采用一種基于遺傳算法的參數(shù)訓(xùn)練模型對19個特征的權(quán)重(概率)進(jìn)行訓(xùn)練,采用一種有監(jiān)督[11]的機器學(xué)習(xí)的算法,使得機器的分類結(jié)果盡可能的接近人工分類結(jié)果,各個特征的權(quán)重由樣本數(shù)據(jù)決定,隨著樣本量的增大,其分類的準(zhǔn)確性將有效提升。

        3.1 基因設(shè)計

        由于19個特征相互獨立,且均為概率值,本文采用一種一維線性基因,每個特征的權(quán)重作為其中的一個編碼,可以較為便捷的進(jìn)行交叉和變異操作。

        表1 訓(xùn)練參數(shù)選擇情況Table 1 The choice of training parameters

        3.2 算子設(shè)計

        選擇算子采用錦標(biāo)賽算子[12],交叉算子[13]采用單點交叉和兩點交叉算子,變異算子采用單點變異和位置變異算子[14]。

        3.3 適應(yīng)度設(shè)計

        考慮到文檔的段落類型的傾斜度,適應(yīng)度函數(shù)以文檔為單位計算分類參數(shù)的準(zhǔn)確度,機器分類的結(jié)果與人工分類的結(jié)果越接近,則適應(yīng)度越高。設(shè)p表示單份文檔中的段落個數(shù),q表示機器分類與人工分類相同的段落個數(shù),則適應(yīng)度計算函數(shù)為

        依據(jù)以上設(shè)計,本文采用傳統(tǒng)遺傳算法,在適應(yīng)度計算階段將交叉、變異后的基因解析為特征權(quán)重并帶入到文本分類算法中,對樣本進(jìn)行分類計算,將分類結(jié)果與人工結(jié)果進(jìn)行自動比對,計算適應(yīng)度并執(zhí)行選擇操作,判斷是否滿足準(zhǔn)確度要求或迭代次數(shù)要求,不滿足則繼續(xù)進(jìn)行下一代遺傳,滿足則輸出特征權(quán)重至文本分類模型中作為最終參數(shù)?;谶z傳算法的分類模型如圖1所示。

        圖1 基于遺傳算法的分類模型Fig.1 Classification model based on genetic algorithm

        4 基于識別結(jié)果的自動化標(biāo)檢模型

        自動化標(biāo)檢的目的是找出用戶編寫的文檔中格式錯誤或文本錯誤的文本,其關(guān)注的重點是用戶編寫錯誤的情況。因此在文本分類時需要考慮到錯誤較為嚴(yán)重的例子,例如用戶將圖題、表題的格式完全寫錯的時候,由于段落緊跟圖或表,仍應(yīng)當(dāng)識別為圖題或表題,否則將直接影響后續(xù)標(biāo)檢結(jié)果。為了解決該類問題,在上面的訓(xùn)練和分類模型的基礎(chǔ)上補充一種基于圖表位置的圖題表題識別算法優(yōu)化文本分類結(jié)果。本文采用的標(biāo)檢流程如下。

        (1) 檢查文件載入:將參數(shù)配置文件載入模型中;

        (2) 特征提取與篩選:提取段落的主要格式特征,剔除空段落、無效段落等干擾數(shù)據(jù);

        (3) 段落分類:為了進(jìn)一步提高識別準(zhǔn)確率,本方法加入了基于經(jīng)驗的先驗識別算法;

        圖題表題識別算法(算法1)。首先利用文字處理程序提供的api函數(shù)獲取其中所有的圖和表位置,初步識別出為表題和圖題的段落;

        通用識別算法(算法2)。然后采用基于改進(jìn)貝葉斯算法的分類算法計算所有段落的分類結(jié)果,記錄概率最高的3個類型;

        最后將2種識別算法結(jié)果進(jìn)行融合。由于圖題和表題通常緊跟圖或表,因此通過api函數(shù)獲取的圖題表題結(jié)果可信度較高。因此,算法1識別為圖題或表題時,直接采用算法1結(jié)果。算法1識別為非圖題或非表題時,從算法2的結(jié)果中選取與不違背算法1結(jié)果的概率最高的結(jié)果。

        (4) 錯誤檢查:基于識別結(jié)果對各段落進(jìn)行錯誤比對,記錄所有的錯誤位置,并生成錯誤提示字串;

        (5) 錯誤輸出:自動統(tǒng)計錯誤情況,將所有錯誤在對應(yīng)的位置直接以批注的形式輸出錯誤提示字串[15]。

        標(biāo)檢完成后將自動打開文檔便于標(biāo)檢人員查看錯誤情況,同時還將在文檔中標(biāo)注出錯誤統(tǒng)計情況,用于直觀判斷文檔的編寫質(zhì)量。

        5 實驗

        定義文檔的識別準(zhǔn)確率如下:

        識別準(zhǔn)確率=識別正確的段落數(shù)/總段落數(shù)×100%.

        為了驗證本文算法的效果,分別采用傳統(tǒng)KNN算法、樸素貝葉斯算法和本文的改進(jìn)樸素貝葉斯算法進(jìn)行實驗。選取質(zhì)量技術(shù)處提供的實際文檔作為樣本,共計5 150個段落,樣本主要選取了最常見的需要標(biāo)檢的4類文檔,包括

        (1) 設(shè)計文件:正確樣本率100%;

        (2) 研試文件:正確樣本率80%;

        (3) 軟件文檔:正確樣本率:60%;

        (4) 三大規(guī)范:正確樣本率:40%。

        除了模板,針對這4類文檔,各隨機選取了一份真實文件進(jìn)行檢查。

        1) 模板文件識別準(zhǔn)確率分析

        各算法的模板文件的識別比較情況如圖2~5所示。

        可以看出,傳統(tǒng)的KNN和樸素貝葉斯算法在處理正確率較低的樣本效果較差,而本文提出的算法在各個不同正確率的樣本集中均取得了95%以上的識別準(zhǔn)確率。

        2) 隨機選取文件識別準(zhǔn)確率分析

        對4類文檔隨機選取的樣本進(jìn)行識別準(zhǔn)確率分析,結(jié)果如表2所示。

        可以看出,隨機選取的文檔識別準(zhǔn)確率均能達(dá)到95%左右的水平。

        為了驗證錯誤提示的正確性,設(shè)計《測試文檔.doc》,植入不同的錯誤格式。植入的錯誤包括:段前行距錯誤、字號錯誤、首行縮進(jìn)錯誤、段后行距錯誤、字體錯誤、對齊方式錯誤、右側(cè)縮進(jìn)錯誤、左側(cè)縮進(jìn)錯誤。將部分縮進(jìn)進(jìn)行組合放在同一自然段,且最后2個自然段為正確格式,用于檢查是否誤報。

        圖2 設(shè)計文件識別準(zhǔn)確率Fig.2 Identification accuracy result of design documents

        圖3 研試文件識別準(zhǔn)確率Fig.3 Identification accuracy result of research & experiment documents

        圖4 軟件文檔識別準(zhǔn)確率Fig.4 Identification accuracy result of software documents

        圖5 三大規(guī)范識別準(zhǔn)確率Fig.5 Identification accuracy result of standards

        表2 隨機文件識別準(zhǔn)確率Table 2 Identification accuracy result of random documents

        植入的錯誤在各段落末尾標(biāo)注出設(shè)計測試文檔,植入錯誤的分布情況如圖6所示。使用工具進(jìn)行格式檢查后,自動生成錯誤批注,檢查結(jié)果如圖7所示。

        圖6 測試文檔設(shè)計情況Fig.6 Design of test document

        圖7 格式檢查結(jié)果Fig.7 Result of format check

        所有植入的錯誤均被工具自動識別且標(biāo)注出,標(biāo)注的段落位置正確。正確的段落未出現(xiàn)誤報,預(yù)埋錯誤的識別率達(dá)到100%,工具的基本格式檢查功能滿足設(shè)計要求。

        6 結(jié)束語

        本文首先對基于機器學(xué)習(xí)的文本分類算法進(jìn)行了介紹,在此基礎(chǔ)上選取了面向自動化標(biāo)檢的特征向量,進(jìn)而提出改進(jìn)的樸素貝葉斯分類算法和基于遺傳算法的分類模型。然后,在實際的數(shù)據(jù)集中分別采用KNN算法、傳統(tǒng)樸素貝葉斯算法和本文的算法進(jìn)行了分類。實驗結(jié)果表明,本文提出的分類模型能夠有效處理段落數(shù)多、錯誤多的情況,正確的將段落進(jìn)行分類。能夠有效地提高自動化標(biāo)檢的正確率,從而提高標(biāo)檢質(zhì)量。

        猜你喜歡
        貝葉斯段落文檔
        有人一聲不吭向你扔了個文檔
        【短文篇】
        心理小測試
        夏天,愛情的第四段落
        散文詩(2017年17期)2018-01-31 02:34:11
        貝葉斯公式及其應(yīng)用
        基于RI碼計算的Word復(fù)制文檔鑒別
        基于貝葉斯估計的軌道占用識別方法
        弄清段落關(guān)系 按圖索驥讀文
        讀寫算(下)(2016年11期)2016-05-04 03:44:07
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        免费视频无打码一区二区三区| 玩弄放荡人妻少妇系列| 曰本无码人妻丰满熟妇啪啪| 青青草视频免费观看| 亚洲精品无码人妻无码| 亚洲一区视频在线| 国产高潮精品久久AV无码| 亚洲VR永久无码一区| 毛片色片av色在线观看| 久久老熟女一区二区三区| 粉嫩国产av一区二区三区| 人人色在线视频播放| 一本大道久久香蕉成人网| 午夜福利影院不卡影院| 日韩精品夜色二区91久久久| 亚洲中文乱码在线观看| 免费一区二区高清不卡av | 蜜桃国产精品视频网站| 又粗又黑又大的吊av| 被黑人猛躁10次高潮视频| 亚洲中久无码永久在线观看同| 国产精品国产自线拍免费| 日韩中文字幕乱码在线| 国产一区二区三区啊啊| 脱了老师内裤猛烈进入| 午夜不卡久久精品无码免费| 亚洲AⅤ无码日韩AV中文AV伦| 久久久久无码精品国| 亚洲中文乱码在线视频| 97久人人做人人妻人人玩精品| 欧美粗大无套gay| 国产欧美日本亚洲精品一5区| 国产亚洲91精品色在线| www射我里面在线观看| 亚洲国产av一区二区三区四区 | 成人白浆超碰人人人人| 99国产超薄丝袜足j在线观看| 中文字幕久久熟女人妻av免费| 亚洲精品国产精品乱码视色| 无码成人一区二区| 国产香蕉尹人综合在线观|