亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

探索基于文本特征識(shí)別的電子檔案自動(dòng)歸類系統(tǒng)

2021-06-30 01:43:54德州職業(yè)技術(shù)學(xué)院田紹敏

電子世界 2021年11期

德州職業(yè)技術(shù)學(xué)院田紹敏

本文根據(jù)傳統(tǒng)分類方法的不便之處，經(jīng)有效思考，提出了一種新型電子檔案自動(dòng)歸類系統(tǒng)，通過(guò)以文本特征作為識(shí)別對(duì)象，可有效完成分類工作。該系統(tǒng)具有語(yǔ)料庫(kù)模塊，能夠根據(jù)使用者日常搜索情況，分析其內(nèi)在需求，實(shí)現(xiàn)對(duì)語(yǔ)料的挖掘，并完成相關(guān)操作。同時(shí)，借助排版模塊，通過(guò)使用其中內(nèi)容映射運(yùn)作方式，能夠?qū)﹄娮訖n案進(jìn)行具體歸檔。建立在多種方法基礎(chǔ)上，能夠根據(jù)文本特征詞，對(duì)電子檔案中存在的文本特征進(jìn)行識(shí)別，確定其最終歸屬。

1 基于文本特征識(shí)別自動(dòng)歸類系統(tǒng)分析

1.1 整體系統(tǒng)設(shè)計(jì)

本文系統(tǒng)整體系統(tǒng)設(shè)計(jì)如圖1所示。以實(shí)現(xiàn)實(shí)時(shí)性對(duì)海量信息自動(dòng)歸類作為最終目的，本文系統(tǒng)借助文本特征識(shí)別技術(shù)，可有效縮短電子檔案內(nèi)容分析時(shí)間，并以此作為依據(jù)，實(shí)現(xiàn)相應(yīng)的歸類工作，能夠?yàn)槭褂谜咛峁┯行П憷?/p>

圖1 系統(tǒng)整體設(shè)計(jì)圖

在各系統(tǒng)模塊中，語(yǔ)料庫(kù)模塊主要負(fù)責(zé)對(duì)相關(guān)算法學(xué)習(xí)進(jìn)行管理，并構(gòu)建訓(xùn)練檔案集。詞典模塊負(fù)責(zé)構(gòu)建詞典，并在詞典中完成添加、清除詞條等操作。文本體征提取模塊在所有模塊中，具有核心地位，主要負(fù)責(zé)在合理切分詞條的基礎(chǔ)上，對(duì)詞頻進(jìn)行統(tǒng)計(jì)，并以結(jié)果作為參考，制作文本特征項(xiàng)集。電子檔案分類模塊主要負(fù)責(zé)以上文項(xiàng)集作為依據(jù)，對(duì)檔案代表向量進(jìn)行分類處理，并分析不同向量中存在的相似度，實(shí)現(xiàn)自動(dòng)歸類。在電子檔案排版模塊，主要使用方法包括遞歸下降分析法、新詞自動(dòng)獲取法，能夠在總體電子檔案中，自動(dòng)對(duì)內(nèi)容進(jìn)行排版。系統(tǒng)設(shè)置模塊負(fù)責(zé)根據(jù)實(shí)際工作情況，合理調(diào)整系統(tǒng)各項(xiàng)參數(shù)。

1.2 語(yǔ)料庫(kù)模塊

在本文研究系統(tǒng)中，主要應(yīng)用語(yǔ)料庫(kù)模塊設(shè)計(jì)為Ontology，建立在明確使用者需求基礎(chǔ)上，可有效實(shí)現(xiàn)對(duì)語(yǔ)料的深入挖掘，并進(jìn)一步構(gòu)建語(yǔ)料庫(kù)，為查詢、維護(hù)等相關(guān)操作提供便利，有利于促進(jìn)文本特征提取模塊工作。對(duì)于自動(dòng)運(yùn)轉(zhuǎn)子模塊而言，主要分為兩部分，即后臺(tái)運(yùn)行、對(duì)使用者挖掘、操作命令進(jìn)行響應(yīng)等。在挖掘命令方面，借助自動(dòng)轉(zhuǎn)運(yùn)子模塊功能，利用元搜索引擎，能夠在大數(shù)據(jù)中搜索相應(yīng)的語(yǔ)料。同時(shí)，通過(guò)使用過(guò)濾子模塊，能夠?qū)eb軟件利用檔案向量形式進(jìn)行準(zhǔn)確描述，以檔案向量進(jìn)行參考，將本體向量與其進(jìn)行對(duì)比，在分析相關(guān)性基礎(chǔ)上，能夠準(zhǔn)確獲取相應(yīng)的語(yǔ)料，并完成測(cè)試工作。在使用者抽象處理語(yǔ)料后，應(yīng)將相關(guān)概念、Web頁(yè)面完整體現(xiàn)在本題庫(kù)、語(yǔ)料庫(kù)中，并根據(jù)運(yùn)轉(zhuǎn)子模塊，得到最終挖掘結(jié)果，向使用者進(jìn)行展示。在操作命令方面，經(jīng)運(yùn)轉(zhuǎn)子模塊有效處理后，本題庫(kù)操作模塊將會(huì)接收到具體命令，并在語(yǔ)料庫(kù)完成相關(guān)操作，將最終結(jié)果展示給使用者。

1.3 排版模塊

在電子檔案中，內(nèi)容識(shí)別方法使用遞歸下降分析法，主題詞識(shí)別使用新詞自動(dòng)獲取法，上述方法不僅在識(shí)別方面性能良好，還能夠起到對(duì)格式進(jìn)行糾錯(cuò)的作用，借助內(nèi)容映射功能，能夠有效實(shí)現(xiàn)排版工作，排版效率顯著。對(duì)于固定檔案而言，排版子模塊能夠完成合理模板文件設(shè)計(jì)，具體需要參考格式固定情況，并以單一電子檔案設(shè)計(jì)作為參考。并進(jìn)一步按照固定程序，實(shí)現(xiàn)在固定路徑內(nèi)，對(duì)文件進(jìn)行存儲(chǔ)。基于上述工作，使用者通過(guò)將所需要的歸檔資料輸入在相關(guān)區(qū)域內(nèi)，經(jīng)系統(tǒng)處理，可自動(dòng)將資料進(jìn)行規(guī)范。同時(shí)，針對(duì)文件類型不同，格式模板在標(biāo)準(zhǔn)方面也存在一定的差異，而應(yīng)用格式模板子模塊，能夠有效對(duì)這一現(xiàn)象進(jìn)行處理。針對(duì)格式校正模塊，可完成對(duì)檔案框架標(biāo)題的修正，進(jìn)一步實(shí)現(xiàn)對(duì)檔案內(nèi)容的解析，并將其予以合理處理。針對(duì)排版子模塊，能夠精準(zhǔn)識(shí)別不規(guī)范標(biāo)題，并進(jìn)行有效修正，能夠?qū)ξ谋局械母鱾€(gè)段落進(jìn)行重排，并將其按照相應(yīng)的檔案格式完成生成。

1.4 軟件設(shè)計(jì)

（1）本特征識(shí)別算法。在電子檔案中，通過(guò)深入挖掘語(yǔ)料庫(kù)模塊，能夠有效獲取相應(yīng)的語(yǔ)料，建立在明確文本特征識(shí)別算法基礎(chǔ)上，可將其有效應(yīng)用在文本特征提取模塊中，提高文本特征識(shí)別水平，優(yōu)化其精確度，能夠確保文本自動(dòng)歸類工作完成。在本文系統(tǒng)中，通過(guò)以文本特征作為重點(diǎn)，落實(shí)相應(yīng)的識(shí)別方法，并配套實(shí)施兩步特征選擇方法，在有機(jī)結(jié)合各類方法基礎(chǔ)上，進(jìn)一步形成組合特征選擇法。

（2）預(yù)選取。針對(duì)特征預(yù)選取，主要使用方法為有限自動(dòng)機(jī)選擇法，通過(guò)在檔案中，對(duì)文本內(nèi)容進(jìn)行提取，可明確相應(yīng)的特征詞，并根據(jù)原電子檔案，將文本內(nèi)容進(jìn)行有效轉(zhuǎn)化，去除文本中原本存在的特征詞，使其處于無(wú)特征詞狀態(tài)?？稍O(shè)置特征集，并將特征詞作為其中一部分，在整個(gè)電子檔案語(yǔ)料庫(kù)模塊中，設(shè)置待處理原始語(yǔ)料集為X={X1......Xn}，設(shè)置最終文本特征集為Y={y1......ym}，在完成模式抽取的同時(shí)，進(jìn)一步生成相應(yīng)的有限自動(dòng)機(jī)，并對(duì)結(jié)果進(jìn)行識(shí)別處理，可在整個(gè)X中，對(duì)全部文本特征詞進(jìn)行識(shí)別，進(jìn)一步形成Y，經(jīng)有效手段，對(duì)y中涉及到的所有字符串進(jìn)行統(tǒng)計(jì)，將詞頻設(shè)置為xfj，將閾值設(shè)置為w，借助有效計(jì)算公式，可得出在w為3的情況下，將文本特征進(jìn)行提取，能夠達(dá)到最高精度。在Y中，如果xfj低于w，將會(huì)得到字符串yj，在這種情況下，針對(duì)原電子檔案文本，可對(duì)文本特征詞進(jìn)行有效復(fù)原，使其轉(zhuǎn)變?yōu)檎顟B(tài)。同時(shí)，在原電子檔案文本中，通過(guò)進(jìn)行字典匹配，并借助有效識(shí)別法，能夠有效改變檔案文本集，使其轉(zhuǎn)變?yōu)闊o(wú)特殊詞狀態(tài)。

（3）組合特征選擇法。在X集中，對(duì)檔案所有文本進(jìn)行分詞處理，借助組合特征選擇法，將部分詞進(jìn)行有效選取，通過(guò)使用相關(guān)公式對(duì)剩余詞進(jìn)行計(jì)算，獲取相應(yīng)的CHI值，并以CHI值降序形式，對(duì)提取剩下的詞進(jìn)行排列，按照從上到下的原則，將選取的部分詞，添加在Y集中。

建立在合理使用上述方法基礎(chǔ)上，通過(guò)整合Y集，并根據(jù)部分詞特征，可有效生成最終本文特征集。

（4）自動(dòng)歸類流程。以上文內(nèi)容作為依據(jù)，通過(guò)獲取相應(yīng)的文本特征集，并合理使用SAV分類器、類別識(shí)別器，利用文檔分類模塊功能，自動(dòng)歸類相關(guān)電子檔案。

建立在兩次歸類基礎(chǔ)上，能夠?qū)崿F(xiàn)對(duì)電子檔案的綜合評(píng)定，確定其最終類別歸屬。借助SVM分類器，完成首次歸類，主要圍繞電子檔案，對(duì)其是否存在敏感電子檔案情況進(jìn)行判斷，如果判定為是，則可以直接將該檔案按照敏感檔案進(jìn)行歸類，如果判定為否，則需要對(duì)檔案予以二次歸類，在第二次歸類中，主要選擇類別識(shí)別器，以文本特征識(shí)別結(jié)果作為參考，進(jìn)行分類，并最終實(shí)現(xiàn)歸類處理，通過(guò)兩次分類，確保電子檔案歸類合理性，并進(jìn)一步保障所有檔案均能夠?qū)崿F(xiàn)準(zhǔn)確的自動(dòng)分類。

2 實(shí)驗(yàn)分析

為有效驗(yàn)證上文系統(tǒng)準(zhǔn)確性，本文在某圖書(shū)館中，集中抽取訓(xùn)練集、測(cè)試集電子檔案共1000份，其中，前者500份，行封閉性歸類測(cè)試，設(shè)為A組，后者500份，行開(kāi)放性歸類測(cè)試，設(shè)為B組。測(cè)試方向?yàn)椴槿省⒕?。研究結(jié)果表明，A組查全率平均為97.70%，精度為96.30%。B組查全率平均為96.70%，精度為95.42%。兩組并不存在明顯差距，說(shuō)明應(yīng)用本文系統(tǒng)，能夠精確識(shí)別電子檔案，并且具有較高的普遍性，在有效性方面優(yōu)勢(shì)顯著。

取相同實(shí)驗(yàn)環(huán)境，將本文系統(tǒng)設(shè)為A組，將層級(jí)類別信息歸類系統(tǒng)設(shè)為B組，將權(quán)重自動(dòng)優(yōu)化歸類系統(tǒng)作為C組，三組均接受自動(dòng)歸類實(shí)驗(yàn)，并集中在不同信噪比環(huán)境下，對(duì)比三組平均中斷概率，分析不同系統(tǒng)穩(wěn)定性情況。實(shí)驗(yàn)結(jié)果表明，A組平均中斷概率為0.16%，B組為0.42%，C組為0.58%，A組相對(duì)較低。并且以平均信噪比在20db以下作為背景，三組在平均中斷概率方面并不存在明顯差異，并且在信噪比升高情況下，三組平均中斷概率隨之升高，但是A組整體上升情況低于B組、C組，說(shuō)明應(yīng)用本文系統(tǒng)，在穩(wěn)定性方面優(yōu)勢(shì)明顯。

對(duì)特征數(shù)進(jìn)行調(diào)整，按照上文分組方式，對(duì)比三組準(zhǔn)確率、召回率，具體實(shí)驗(yàn)結(jié)果顯示：A組召回率、準(zhǔn)確率均高于B組、C組。究其原因，在本文系統(tǒng)中，通過(guò)準(zhǔn)確識(shí)別文本信息，完成自動(dòng)分類，能夠避免受到以往特征詞丟失情況影響，并且借助組合特征選擇法，本文研究系統(tǒng)降噪效果顯著，穩(wěn)定性良好。

結(jié)論：建立在有效電子檔案自動(dòng)歸檔基礎(chǔ)上，可有效提取到海量信息。本文研究自動(dòng)歸類系統(tǒng)主要根據(jù)文本特征，并進(jìn)一步配套兩步特征選擇方法，實(shí)現(xiàn)對(duì)文本特征的有效識(shí)別，通過(guò)合理使用SVM分類器，加強(qiáng)對(duì)類別識(shí)別器的使用，能夠?qū)ξ臋n進(jìn)行兩次歸類，最終完成相應(yīng)的歸類。