德州職業(yè)技術(shù)學(xué)院 田紹敏
本文根據(jù)傳統(tǒng)分類方法的不便之處,經(jīng)有效思考,提出了一種新型電子檔案自動歸類系統(tǒng),通過以文本特征作為識別對象,可有效完成分類工作。該系統(tǒng)具有語料庫模塊,能夠根據(jù)使用者日常搜索情況,分析其內(nèi)在需求,實(shí)現(xiàn)對語料的挖掘,并完成相關(guān)操作。同時,借助排版模塊,通過使用其中內(nèi)容映射運(yùn)作方式,能夠?qū)﹄娮訖n案進(jìn)行具體歸檔。建立在多種方法基礎(chǔ)上,能夠根據(jù)文本特征詞,對電子檔案中存在的文本特征進(jìn)行識別,確定其最終歸屬。
本文系統(tǒng)整體系統(tǒng)設(shè)計(jì)如圖1所示。以實(shí)現(xiàn)實(shí)時性對海量信息自動歸類作為最終目的,本文系統(tǒng)借助文本特征識別技術(shù),可有效縮短電子檔案內(nèi)容分析時間,并以此作為依據(jù),實(shí)現(xiàn)相應(yīng)的歸類工作,能夠?yàn)槭褂谜咛峁┯行П憷?/p>
圖1 系統(tǒng)整體設(shè)計(jì)圖
在各系統(tǒng)模塊中,語料庫模塊主要負(fù)責(zé)對相關(guān)算法學(xué)習(xí)進(jìn)行管理,并構(gòu)建訓(xùn)練檔案集。詞典模塊負(fù)責(zé)構(gòu)建詞典,并在詞典中完成添加、清除詞條等操作。文本體征提取模塊在所有模塊中,具有核心地位,主要負(fù)責(zé)在合理切分詞條的基礎(chǔ)上,對詞頻進(jìn)行統(tǒng)計(jì),并以結(jié)果作為參考,制作文本特征項(xiàng)集。電子檔案分類模塊主要負(fù)責(zé)以上文項(xiàng)集作為依據(jù),對檔案代表向量進(jìn)行分類處理,并分析不同向量中存在的相似度,實(shí)現(xiàn)自動歸類。在電子檔案排版模塊,主要使用方法包括遞歸下降分析法、新詞自動獲取法,能夠在總體電子檔案中,自動對內(nèi)容進(jìn)行排版。系統(tǒng)設(shè)置模塊負(fù)責(zé)根據(jù)實(shí)際工作情況,合理調(diào)整系統(tǒng)各項(xiàng)參數(shù)。
在本文研究系統(tǒng)中,主要應(yīng)用語料庫模塊設(shè)計(jì)為Ontology,建立在明確使用者需求基礎(chǔ)上,可有效實(shí)現(xiàn)對語料的深入挖掘,并進(jìn)一步構(gòu)建語料庫,為查詢、維護(hù)等相關(guān)操作提供便利,有利于促進(jìn)文本特征提取模塊工作。對于自動運(yùn)轉(zhuǎn)子模塊而言,主要分為兩部分,即后臺運(yùn)行、對使用者挖掘、操作命令進(jìn)行響應(yīng)等。在挖掘命令方面,借助自動轉(zhuǎn)運(yùn)子模塊功能,利用元搜索引擎,能夠在大數(shù)據(jù)中搜索相應(yīng)的語料。同時,通過使用過濾子模塊,能夠?qū)eb軟件利用檔案向量形式進(jìn)行準(zhǔn)確描述,以檔案向量進(jìn)行參考,將本體向量與其進(jìn)行對比,在分析相關(guān)性基礎(chǔ)上,能夠準(zhǔn)確獲取相應(yīng)的語料,并完成測試工作。在使用者抽象處理語料后,應(yīng)將相關(guān)概念、Web頁面完整體現(xiàn)在本題庫、語料庫中,并根據(jù)運(yùn)轉(zhuǎn)子模塊,得到最終挖掘結(jié)果,向使用者進(jìn)行展示。在操作命令方面,經(jīng)運(yùn)轉(zhuǎn)子模塊有效處理后,本題庫操作模塊將會接收到具體命令,并在語料庫完成相關(guān)操作,將最終結(jié)果展示給使用者。
在電子檔案中,內(nèi)容識別方法使用遞歸下降分析法,主題詞識別使用新詞自動獲取法,上述方法不僅在識別方面性能良好,還能夠起到對格式進(jìn)行糾錯的作用,借助內(nèi)容映射功能,能夠有效實(shí)現(xiàn)排版工作,排版效率顯著。對于固定檔案而言,排版子模塊能夠完成合理模板文件設(shè)計(jì),具體需要參考格式固定情況,并以單一電子檔案設(shè)計(jì)作為參考。并進(jìn)一步按照固定程序,實(shí)現(xiàn)在固定路徑內(nèi),對文件進(jìn)行存儲?;谏鲜龉ぷ?,使用者通過將所需要的歸檔資料輸入在相關(guān)區(qū)域內(nèi),經(jīng)系統(tǒng)處理,可自動將資料進(jìn)行規(guī)范。同時,針對文件類型不同,格式模板在標(biāo)準(zhǔn)方面也存在一定的差異,而應(yīng)用格式模板子模塊,能夠有效對這一現(xiàn)象進(jìn)行處理。針對格式校正模塊,可完成對檔案框架標(biāo)題的修正,進(jìn)一步實(shí)現(xiàn)對檔案內(nèi)容的解析,并將其予以合理處理。針對排版子模塊,能夠精準(zhǔn)識別不規(guī)范標(biāo)題,并進(jìn)行有效修正,能夠?qū)ξ谋局械母鱾€段落進(jìn)行重排,并將其按照相應(yīng)的檔案格式完成生成。
(1)本特征識別算法。在電子檔案中,通過深入挖掘語料庫模塊,能夠有效獲取相應(yīng)的語料,建立在明確文本特征識別算法基礎(chǔ)上,可將其有效應(yīng)用在文本特征提取模塊中,提高文本特征識別水平,優(yōu)化其精確度,能夠確保文本自動歸類工作完成。在本文系統(tǒng)中,通過以文本特征作為重點(diǎn),落實(shí)相應(yīng)的識別方法,并配套實(shí)施兩步特征選擇方法,在有機(jī)結(jié)合各類方法基礎(chǔ)上,進(jìn)一步形成組合特征選擇法。
(2)預(yù)選取。針對特征預(yù)選取,主要使用方法為有限自動機(jī)選擇法,通過在檔案中,對文本內(nèi)容進(jìn)行提取,可明確相應(yīng)的特征詞,并根據(jù)原電子檔案,將文本內(nèi)容進(jìn)行有效轉(zhuǎn)化,去除文本中原本存在的特征詞,使其處于無特征詞狀態(tài)。可設(shè)置特征集,并將特征詞作為其中一部分,在整個電子檔案語料庫模塊中,設(shè)置待處理原始語料集為X={X1......Xn},設(shè)置最終文本特征集為Y={y1......ym},在完成模式抽取的同時,進(jìn)一步生成相應(yīng)的有限自動機(jī),并對結(jié)果進(jìn)行識別處理,可在整個X中,對全部文本特征詞進(jìn)行識別,進(jìn)一步形成Y,經(jīng)有效手段,對y中涉及到的所有字符串進(jìn)行統(tǒng)計(jì),將詞頻設(shè)置為xfj,將閾值設(shè)置為w,借助有效計(jì)算公式,可得出在w為3的情況下,將文本特征進(jìn)行提取,能夠達(dá)到最高精度。在Y中,如果xfj低于w,將會得到字符串yj,在這種情況下,針對原電子檔案文本,可對文本特征詞進(jìn)行有效復(fù)原,使其轉(zhuǎn)變?yōu)檎顟B(tài)。同時,在原電子檔案文本中,通過進(jìn)行字典匹配,并借助有效識別法,能夠有效改變檔案文本集,使其轉(zhuǎn)變?yōu)闊o特殊詞狀態(tài)。
(3)組合特征選擇法。在X集中,對檔案所有文本進(jìn)行分詞處理,借助組合特征選擇法,將部分詞進(jìn)行有效選取,通過使用相關(guān)公式對剩余詞進(jìn)行計(jì)算,獲取相應(yīng)的CHI值,并以CHI值降序形式,對提取剩下的詞進(jìn)行排列,按照從上到下的原則,將選取的部分詞,添加在Y集中。
建立在合理使用上述方法基礎(chǔ)上,通過整合Y集,并根據(jù)部分詞特征,可有效生成最終本文特征集。
(4)自動歸類流程。以上文內(nèi)容作為依據(jù),通過獲取相應(yīng)的文本特征集,并合理使用SAV分類器、類別識別器,利用文檔分類模塊功能,自動歸類相關(guān)電子檔案。
建立在兩次歸類基礎(chǔ)上,能夠?qū)崿F(xiàn)對電子檔案的綜合評定,確定其最終類別歸屬。借助SVM分類器,完成首次歸類,主要圍繞電子檔案,對其是否存在敏感電子檔案情況進(jìn)行判斷,如果判定為是,則可以直接將該檔案按照敏感檔案進(jìn)行歸類,如果判定為否,則需要對檔案予以二次歸類,在第二次歸類中,主要選擇類別識別器,以文本特征識別結(jié)果作為參考,進(jìn)行分類,并最終實(shí)現(xiàn)歸類處理,通過兩次分類,確保電子檔案歸類合理性,并進(jìn)一步保障所有檔案均能夠?qū)崿F(xiàn)準(zhǔn)確的自動分類。
為有效驗(yàn)證上文系統(tǒng)準(zhǔn)確性,本文在某圖書館中,集中抽取訓(xùn)練集、測試集電子檔案共1000份,其中,前者500份,行封閉性歸類測試,設(shè)為A組,后者500份,行開放性歸類測試,設(shè)為B組。測試方向?yàn)椴槿?、精度。研究結(jié)果表明,A組查全率平均為97.70%,精度為96.30%。B組查全率平均為96.70%,精度為95.42%。兩組并不存在明顯差距,說明應(yīng)用本文系統(tǒng),能夠精確識別電子檔案,并且具有較高的普遍性,在有效性方面優(yōu)勢顯著。
取相同實(shí)驗(yàn)環(huán)境,將本文系統(tǒng)設(shè)為A組,將層級類別信息歸類系統(tǒng)設(shè)為B組,將權(quán)重自動優(yōu)化歸類系統(tǒng)作為C組,三組均接受自動歸類實(shí)驗(yàn),并集中在不同信噪比環(huán)境下,對比三組平均中斷概率,分析不同系統(tǒng)穩(wěn)定性情況。實(shí)驗(yàn)結(jié)果表明,A組平均中斷概率為0.16%,B組為0.42%,C組為0.58%,A組相對較低。并且以平均信噪比在20db以下作為背景,三組在平均中斷概率方面并不存在明顯差異,并且在信噪比升高情況下,三組平均中斷概率隨之升高,但是A組整體上升情況低于B組、C組,說明應(yīng)用本文系統(tǒng),在穩(wěn)定性方面優(yōu)勢明顯。
對特征數(shù)進(jìn)行調(diào)整,按照上文分組方式,對比三組準(zhǔn)確率、召回率,具體實(shí)驗(yàn)結(jié)果顯示:A組召回率、準(zhǔn)確率均高于B組、C組。究其原因,在本文系統(tǒng)中,通過準(zhǔn)確識別文本信息,完成自動分類,能夠避免受到以往特征詞丟失情況影響,并且借助組合特征選擇法,本文研究系統(tǒng)降噪效果顯著,穩(wěn)定性良好。
結(jié)論:建立在有效電子檔案自動歸檔基礎(chǔ)上,可有效提取到海量信息。本文研究自動歸類系統(tǒng)主要根據(jù)文本特征,并進(jìn)一步配套兩步特征選擇方法,實(shí)現(xiàn)對文本特征的有效識別,通過合理使用SVM分類器,加強(qiáng)對類別識別器的使用,能夠?qū)ξ臋n進(jìn)行兩次歸類,最終完成相應(yīng)的歸類。