亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進TF-IDF可疑人員文本表示方法

        2021-02-25 05:50:48何雋飛何學(xué)明
        計算機工程與設(shè)計 2021年2期
        關(guān)鍵詞:特征詞研判文檔

        何雋飛,趙 慧,何學(xué)明

        (1.武漢科技大學(xué) 機器人與智能系統(tǒng)研究院,湖北 武漢 430080;2.武警海警學(xué)院 機電管理系,浙江 寧波 315801)

        0 引 言

        承辦重大國際活動時,在不影響人民群眾正常工作生活的前提下,通常會在的人群聚集區(qū)域入口設(shè)立嚴密的視頻監(jiān)控和安保閘口,通過監(jiān)控閘口的身份識別信息,對人員進行數(shù)據(jù)庫信息比對[1]。研究表明,在實際案例中暴恐組織記錄在案的人員一般不直接參與暴恐活動,而是通過發(fā)展親友、組織新人直接制造暴恐活動,這給安保任務(wù)對可疑人員進行威脅等級研判帶來了新的技術(shù)挑戰(zhàn)[2]。目前現(xiàn)有的較為完備的人員信息庫一般是半結(jié)構(gòu)化的文本數(shù)據(jù)庫;情報研判需要情報人員大量的人工參與才能進行,效率十分低下[3]。如何自動從大量的文本中提取出有用的信息,為后續(xù)研判提供支撐是首要待解決的技術(shù)問題。

        本文通過對文本表示模型和文本分類方法的研究,提出了面向情報研判的可疑人員文本表示方法。方法通過引入文本類別參數(shù)改進TF-IDF文本特征提取算法,使文本表示模型能夠充分表征可疑人員屬性特征,從而提高威脅研判的效率。研究表明,潛在的可疑人員一般具有和暴恐份子相似或者重疊的行為規(guī)律和屬性特征。利用這一規(guī)律,本文基于歷史數(shù)據(jù)庫的可疑人員信息進行文本類別特征學(xué)習(xí),通過提取可疑人員的行為規(guī)律和屬性特征,并進行文本表示,然后通過文本分類算法不斷加深對文本特征的學(xué)習(xí),訓(xùn)練出能對可疑人員進行研判的分類模型,從而實現(xiàn)對可疑人員的威脅等級研判。

        1 相關(guān)工作

        從大量文本中提取關(guān)鍵特征并進行研判分類是屬于文本分類的范疇。文本分類是自然語言處理領(lǐng)域極其重要的子任務(wù),有絕大多數(shù)的場景都可以歸納為文本分類任務(wù),比如:情感分析、領(lǐng)域識別、意圖識別等等[4]。文本分類的過程就是通過提取文本中能夠表達文本特征的關(guān)鍵詞來表征文本,然后通過關(guān)鍵詞的特征對文本進行類別的劃分[5]。在機器學(xué)習(xí)領(lǐng)域,文本分類屬于有監(jiān)督學(xué)習(xí),它通過對已標簽的文本數(shù)據(jù)集進行特征學(xué)習(xí),尋找文本標簽和文本特征之間的關(guān)系,建立分類模型,然后使用這個模型對未知類別文本進行分類。

        文本分類的核心問題是文本表示和分類模型。文本表示在分類模型之前,對分類模型的效果起著至關(guān)重要的作用。在自然語言處理領(lǐng)域,詞袋和詞嵌入是兩種最常用的文本表示模型[6]。它們通過不同的方式將文本表示為向量,然后通過分類模型對向量進行分類。詞袋模型是從文本文檔中提取特征最簡單但又最直接的技術(shù)。這個模型的本質(zhì)是將每個文檔轉(zhuǎn)化成相應(yīng)的向量,文檔向量表示在所有文檔空間中全部不同的單詞在該文檔中的頻率[7]。ZHANG等利用One-hot把文本表示為向量,這種文本表示方法在應(yīng)對文檔單詞比較單一且數(shù)量不大時有非常好的性能表現(xiàn);但是在應(yīng)對包含大量單詞的文檔時,這種表達方式容易造成維度災(zāi)難且不能展示詞語之間的語義關(guān)系。提取文本特征詞的好壞對詞袋模型的文本表示效果有著直接的影響[8]。TF-IDF是傳統(tǒng)的特征詞提取算法,它通過篩選文本中的高頻詞并使用逆文檔頻率對高頻詞進行加權(quán)得到文本特征詞[9]。它在表征文本特征方面達到了較高的精度,但是基于文本分類的場景,由于未考慮文本類別的參數(shù),并不能有效提取出對文本分類具有關(guān)鍵作用的特征詞。詞嵌入模型是自然語言處理中語言模型與表征學(xué)習(xí)技術(shù)的統(tǒng)稱。Paccanaro等提出了Distributed representation概念,它基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本詞語的分布式表示。該方法用詞語之間的“距離”概念表示詞語的語義關(guān)系,從而達到將詞向量降維的目的[10]。其中,Word2vec[11]是Google在2013年開源的一款詞向量工具,其原理基于深度學(xué)習(xí)算法,是目前較為成熟的詞向量模型,適用于復(fù)雜文本的詞向量表示[12]。文本向量化表示之后,就可以通過文本分類模型進行訓(xùn)練學(xué)習(xí)特征,從而得到可以對未知文本進行分類的分類模型。目前,應(yīng)用于文本分類的技術(shù)和算法很多,例如樸素貝葉斯算法、K最近鄰算法、神經(jīng)網(wǎng)絡(luò)、支持向量機(SVM)等[13]。大量研究表明SVM分類算法有很好的泛化能力與學(xué)習(xí)能力,被廣泛用于文本自動分類、人臉識別、基因表達、手寫體的識別等領(lǐng)域[14]。

        2 屬性加權(quán)的可疑人員文本表示

        2.1 基于文本表示的研判方案

        鑒于現(xiàn)有的可疑人員情報文本數(shù)據(jù)特征,通過本文提出的屬性加權(quán)文本表示方法對可疑人員情報進行文本向量化表示,然后在SVM分類模型中建立可疑人員情報與威脅等級之間的映射關(guān)系,實現(xiàn)對可疑人員的研判分類,情報研判方案如圖1所示。

        圖1 情報研判方案流程

        2.2 可疑人員信息庫特點

        目前,歷史可疑人員信息庫是在自然語言的基礎(chǔ)上提煉出的半結(jié)構(gòu)化文本數(shù)據(jù)庫,它對比自然語言處理領(lǐng)域的應(yīng)用對象有自身的特點。例如,可疑人員各屬性之間的關(guān)聯(lián)性相較于自然文本語言的詞語間的關(guān)聯(lián)性呈現(xiàn)出弱關(guān)聯(lián)的特點;但單個屬性的文本又具有自然文本語言的特點;可疑人員情報信息是基于可疑人員的屬性特征進行統(tǒng)計的,造成了屬性特征之間的相對獨立;半結(jié)構(gòu)化的文本數(shù)據(jù)庫讓文本特征更加的簡明,但涉及特殊屬性例如‘負債情況’、‘征信情況’等則是通過復(fù)雜的文本表述進行特征表示。隨著可疑人員信息庫的逐漸擴展,單條可疑人員的文本信息量增多,主要表現(xiàn)為屬性數(shù)量的增加以及屬性信息更為復(fù)雜。將半結(jié)構(gòu)化的可疑人員文本數(shù)據(jù)進行文本向量化表示是首要的也是直接影響威脅研判效果的關(guān)鍵一步。

        2.3 屬性加權(quán)表示方法

        One-hot和TF-IDF是目前最為常見的基于詞袋模型提取文本特征的方法。由于詞袋模型的緣故,詞與詞之間的順序特征未納入學(xué)習(xí)范圍,這恰好符合可疑人員信息庫中屬性相對獨立的特點;通常One-hot方法制作的向量是高維稀疏的,容易造成分類模型訓(xùn)練過程中內(nèi)存爆炸,但情報研判領(lǐng)域中由于現(xiàn)有信息庫屬性數(shù)量限制,后續(xù)可以通過人為控制屬性數(shù)量輸入來保證模型訓(xùn)練的順利進行。

        通常使用詞袋模型,考慮詞頻作為文本特征是比較合適的,但是向量完全依賴于單詞出現(xiàn)的絕對頻率,這會影響其它出現(xiàn)相對不頻繁但對文本分類更有意義和有效的單詞,因此本文通過改進TF-IDF詞頻-逆文檔頻率來對One-hot向量進行加權(quán)優(yōu)化,以此來改善情報研判模型的效果。

        One-hot向量基于詞袋模型表征可疑人員情報信息結(jié)果見表1。表格展示了3個可疑人員的One-hot向量,其中各屬性權(quán)重參數(shù)均為1,無法判斷屬性相對于威脅等級的重要性。

        表1 基于詞袋模型的One-hot文本向量

        TF-IDF是一種統(tǒng)計方法,用以評估單詞對于文本集合中某一文本的重要程度。它的核心思想是單詞的重要性與它在某篇文檔中出現(xiàn)的次數(shù)成正比,與它在所有文檔中出現(xiàn)的次數(shù)成反比。數(shù)學(xué)上,TF-IDF是兩個度量的乘積,可以表示為TF-IDF=TF×IDF,其中詞頻(TF)和逆文檔頻率(IDF)是兩個度量,TF-IDF的計算公式如式(1)所示。對于傳統(tǒng)的TF-IDF而言,它通過對高頻詞的統(tǒng)計,提取出文檔集合中特定文檔里所包含的區(qū)別于其它文檔的特征詞。但是在面向文本分類場景時,僅僅依賴每篇文檔區(qū)分度強的特征詞并不能達到理想的分類效果。尤其在可疑人員情報文本表示中,由于存在文本類別參數(shù)未納入考量,以及可疑人員信息文本長度相對固定的情況,這將導(dǎo)致屬性特征詞出現(xiàn)頻率TF值將是一個恒定不變的值,無法達到有效提取特征詞的作用

        (1)

        本文嘗試改進TF-IDF算法,引入文本類別的考量,提出屬性加權(quán)表示方法。將特定文檔內(nèi)的詞頻率TF改為同類別文檔內(nèi)的詞頻率,面向情報研判領(lǐng)域即各類威脅等級的可疑人員信息中各屬性特征詞出現(xiàn)的頻率;由于傳統(tǒng)算法中IDF部分只考慮了特征詞與它出現(xiàn)的文檔數(shù)量之間的關(guān)系,而忽略了特征詞在文本類別之間的分布情況,本文將包含特征詞的特定類別文檔數(shù)引入IDF算法來優(yōu)化IDF權(quán)重,即引入包含特征屬性的特定威脅等級的可疑人數(shù)來優(yōu)選影響研判的最佳權(quán)重。屬性特征詞的重要性隨著它在特定威脅等級的可疑人員信息中出現(xiàn)的頻率成正比增加,同時會隨著它在可疑人員信息數(shù)據(jù)庫中出現(xiàn)頻率成反比下降。本文改進算法中,TF詞頻基于詞袋模型以及文本集類別計算得出,表示該詞在特定類別文檔中出現(xiàn)的頻率值。詞頻公式為

        (2)

        其中,i表示單詞在詞袋中的位置,j表示文本類別數(shù)。ni,j表示詞袋中第i個詞在dj類文檔中出現(xiàn)的次數(shù),∑knk,j表示該類文檔中所有詞條數(shù)目。逆文檔頻率是每個單詞的文檔頻率的逆,傳統(tǒng)算法中該值由文本集中全部文檔數(shù)量除以包含該單詞的文檔數(shù)量,然后將結(jié)果取對數(shù)得到。本文引入類別文本數(shù)的逆文檔頻率公式為

        (3)

        其中,|D|表示文本集中全部文檔數(shù)量,{m:ti∈dj}表示包含該單詞且屬于dj類文檔數(shù)量,|{x:ti∈dx}+1|表示所有包含該單詞的文檔數(shù)量。

        整合改進后的TF-IDF算法公式為式(4)所示,表示第i個詞對dj類文檔的重要程度

        (4)

        為簡化分類模型訓(xùn)練參數(shù),防止過擬合,將整合后的類別特征詞屬性進行均值化處理如式(5)所示,得到了詞袋模型每個單詞的權(quán)重

        (5)

        將每個單詞權(quán)重按詞袋順序依次連接,合成為屬性特征詞向量,見表2,通過屬性特征詞向量對One-hot向量進行屬性加權(quán),即對可疑人員情報文本信息進行改進的TF-IDF操作,得到了最終的可疑人員情報特征向量,見表3。

        改進的TF-IDF方法制作的特征向量相較于One-hot向量,表征了更多的特征信息,不僅包含了One-hot的優(yōu)點區(qū)分了每個可疑人員的信息,還引入了屬性加權(quán)區(qū)別了各屬性對可疑人員信息的權(quán)重,為后續(xù)研判提供了重要的參考。

        表2 屬性特征詞向量

        表3 可疑人員情報特征向量

        3 實驗設(shè)計與分析

        3.1 實驗設(shè)計

        本文在Anaconda環(huán)境中使用Python3.7進行數(shù)據(jù)清洗操作,并通過scikit-learn機器學(xué)習(xí)庫對可疑人員歷史數(shù)據(jù)信息進行文本表示和特征學(xué)習(xí)的模型訓(xùn)練。

        通過使用One-hot編碼和改進的TF-IDF特征詞提取方法制作可疑人員特征向量,然后將可疑人員特征向量輸送給SVM分類模型,通過模型預(yù)測結(jié)果對分類模型進行性能評估,并分析實驗結(jié)果。實驗設(shè)計流程如圖2所示。

        圖2 實驗設(shè)計流程

        3.2 數(shù)據(jù)來源與預(yù)處理

        本實驗數(shù)據(jù)來源于公安部重點人員信息庫,實驗所用數(shù)據(jù)進行了非密化處理,保留了原始數(shù)據(jù)的自然屬性和可疑人員的行為規(guī)律以及屬性特征。如圖3所示,每個可疑人員有13個特征屬性,涵蓋了威脅研判所需要的基本信息,包括年齡、性別、民族、宗教信仰、教育程度、籍貫、婚姻狀況、涉案類型、出行情況、征信情況、在案情況、負債情況、親友情況等。原始數(shù)據(jù)中,可疑人員被標簽為3個威脅等級,因為存在樣本不均衡的問題,需要通過數(shù)據(jù)預(yù)處理減輕不均衡對分類模型的影響,處理完的數(shù)據(jù)比例如圖4所示。其中,高威脅人員數(shù)據(jù)中宗教信仰分布和民族分布如圖5和圖6所示。

        圖3 重點人員信息庫部分屬性截圖

        圖4 可疑人員類別比例

        圖5 高威脅人員宗教信仰分布

        3.3 實驗結(jié)果評價指標

        訓(xùn)練、調(diào)優(yōu)和建立模型是整個分析生命周期的重要部分,但更重要的是知道這些模型的性能如何。分類模型的性能一般基于模型對新數(shù)據(jù)的預(yù)測結(jié)果。本文使用精確率(precision)、召回率(recall)、F均值等指標來評估模型的性能,指標定義見表4。

        其中,c為正樣本被正確預(yù)測為正類的數(shù)量,d為負樣本被錯誤預(yù)測為正類的數(shù)量,e為正樣本被錯誤預(yù)測為負類的數(shù)量。F均值通過同時考慮分類精確率和召回率,可以用來整體描述模型的分類精度。

        圖6 高威脅人員民族分布

        表4 分類器性能指標

        3.4 實驗結(jié)果及分析

        通過對比實驗得到改進前后TF-IDF文本表示方法與One-hot文本表示方法應(yīng)用在可疑人員信息數(shù)據(jù)庫上的研判模型評估結(jié)果,如圖7所示,從結(jié)果可知,在使用SVM分類算法作為研判分類模型中,改進的TF-IDF屬性加權(quán)文本表示方法相較于傳統(tǒng)文本表示方法能達到更高的研判精度。

        圖7 研判分類結(jié)果評估對比

        其中,改進后的TF-IDF算法引入了類別參數(shù)后精確率達到了98.8%,相較于傳統(tǒng)的文本表示方法提高了將近4%,且完全符合安保任務(wù)對智能系統(tǒng)研判精度的要求標準。傳統(tǒng)的TF-IDF方法在該可疑人員數(shù)據(jù)集上的表現(xiàn)稍優(yōu)于One-hot方法。

        圖8展示了算法在各威脅等級測試集上的研判準確率。通過對比分析可知,改進的TF-IDF算法對中威脅等級的分類準確率更高,這源于本文算法引入類別參數(shù)后進行了類別權(quán)重的均值化操作,優(yōu)化了算法對中威脅等級可疑人員的敏感度,并且沒有損失對高威脅等級的分類精度。傳統(tǒng)TF-IDF和One-hot算法對高威脅等級的分類準確率更高,但是對中威脅和低威脅的研判準確率相對就較低,這緣于數(shù)據(jù)集樣本均衡的前提下,特征提取算法沒能提取到區(qū)分類別的權(quán)重信息。

        圖8 各威脅等級的研判準確率

        算法的運算效率受制的因素有很多,其中算法的復(fù)雜程度、計算平臺以及數(shù)據(jù)本身占據(jù)著主要因素,本實驗所用平臺是Intel(R)Core(TM)i5-3210雙核CPU@2.5 GHz的RAM為8 GB的筆記本電腦。從圖9可以看出,由于在TF-IDF中引入了類別文本數(shù),使改進的TF-IDF權(quán)重表征能力加強,改進后的文本表示方法能夠更好表征可疑人員信息,具有更多信息的特征向量導(dǎo)入研判模型的訓(xùn)練時間相應(yīng)也隨之增加,但在提高研判精度的前提下整體訓(xùn)練耗時都在正常可控范圍內(nèi)。

        圖9 算法訓(xùn)練時間對比

        此外,本文還對目前主流的文本表示方法Word2vec模型進行了相應(yīng)對比實驗,并控制不同的訓(xùn)練集比例進行多組對照。如圖10所示,當訓(xùn)練數(shù)據(jù)較少時,使用本文改進的TF-IDF算法進行特征提取,可以得到更好的分類特征,從而達到更高的研判準確率;由于Word2vec模型基于簡單神經(jīng)網(wǎng)絡(luò)模型設(shè)計而來,需要大量的數(shù)據(jù)來訓(xùn)練權(quán)重矩陣,因此隨著訓(xùn)練集比例的增大,Word2vec模型的效果會有較大的提升,而改進的TF-IDF算法效果會有輕微下降,這緣于TF-IDF算法本身存在對數(shù)據(jù)集大小的限制,當數(shù)據(jù)集過大時,分類特征的提取受制于TF值的變化程度減弱,相應(yīng)的表征能力會出現(xiàn)下降。

        圖10 算法相對訓(xùn)練集比例的準確率對比

        4 結(jié)束語

        本文提出了一種基于改進TF-IDF的可疑人員文本表示方法,通過實驗結(jié)果分析,驗證了方法的可行性,改進算法在可疑人員信息表征中可以提取到更多類別信息,有助于研判的分類準確率。同時,通過對比本文改進的TF-IDF屬性加權(quán)文本表示方法與傳統(tǒng)文本表示方法在SVM分類算法中的性能表現(xiàn),可知在可疑人員情報研判任務(wù)中,鑒于目前可疑人員信息庫的特點,以及實際應(yīng)用場景考慮,本文算法在充分滿足研判任務(wù)需求的同時,提供了高質(zhì)量的研判參考信息,提高了情報人員的研判效率。

        但隨著未來可疑人員信息數(shù)據(jù)庫逐步壯大,也需要研究更高效的文本分類模型。深度神經(jīng)網(wǎng)絡(luò)在提取復(fù)雜文本信息方面有著更強大的表征能力,未來面向安防領(lǐng)域,可疑人員情報研判將納入更多的屬性信息,利用深度神經(jīng)網(wǎng)絡(luò)將為安保任務(wù)提供更優(yōu)質(zhì)的技術(shù)保障。

        猜你喜歡
        特征詞研判文檔
        徐州市超前研判 做好春節(jié)安全防范
        有人一聲不吭向你扔了個文檔
        研判當前貨幣政策走勢的“量”與“價”
        中國外匯(2019年20期)2019-11-25 09:54:52
        研判當前貨幣政策的“變”與“不變”
        中國外匯(2019年18期)2019-11-25 01:41:48
        基于改進TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        基于CRF文本挖掘的事故研判分析
        基于RI碼計算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        面向文本分類的特征詞選取方法研究與改進
        亚洲av理论在线电影网| 日日碰日日摸日日澡视频播放| av色综合久久天堂av色综合在| 午夜丰满少妇性开放视频| 国产精品福利小视频| 手机av在线观看视频| 亚洲另类丰满熟妇乱xxxx| 亚洲av综合a色av中文| 国产女合集小岁9三部| 亚洲精品综合在线影院| 日本一区二区不卡在线| 日韩日韩日韩日韩日韩| 成人性生交大片免费看r| 国内精品久久久久影院蜜芽| 综合久久精品亚洲天堂| 日本大肚子孕妇交xxx| 韩日美无码精品无码| 波多吉野一区二区三区av| 国产精品熟女视频一区二区三区| 国内熟女啪啪自拍| 婷婷开心深爱五月天播播| 国产精品国产三级国产av主| 久久综合国产精品一区二区| 国产啪亚洲国产精品无码| 国产在线白丝DVD精品| 视频一区中文字幕亚洲| 国产内射一级一片内射视频| 久久夜色精品国产噜噜亚洲av | 国产91精品丝袜美腿在线| 午夜一区二区视频在线观看| 欧美成人精品午夜免费影视| 中文字幕AⅤ人妻一区二区| 91桃色在线播放国产| 亚洲国产亚综合在线区| 狠狠色丁香久久婷婷综合蜜芽五月| 91精品欧美综合在线观看| 青青久在线视频免费视频| 中文无码一区二区不卡av| 在线观看视频一区| 麻豆成人久久精品二区三区91| 欧美性猛交aaaa片黑人 |