摘 要: 網(wǎng)絡(luò)敏感信息挖掘過(guò)程中,敏感信息和正常信息的特征不同,具有較高的遮蔽性。利用傳統(tǒng)敏感信息挖掘方法時(shí),固有的敏感信息被遮蔽,無(wú)法進(jìn)行敏感信息的準(zhǔn)確挖掘。提出基于TF?IDF改進(jìn)聚類算法的網(wǎng)絡(luò)敏感信息挖掘方法,通過(guò)TF?IDF方法獲取網(wǎng)絡(luò)敏感信息文本,在網(wǎng)絡(luò)敏感信息文本中獲取有價(jià)值的敏感信息特征,采用該信息完成聚類算法,對(duì)全部敏感信息特征進(jìn)行聚類分析,完成網(wǎng)絡(luò)敏感信息的挖掘。實(shí)驗(yàn)結(jié)果說(shuō)明,所提方法進(jìn)行網(wǎng)絡(luò)敏感信息挖掘,具有較高的挖掘效率和精度。
關(guān)鍵詞: TF?IDF; 聚類分析; 網(wǎng)絡(luò)敏感信息; 信息挖掘
中圖分類號(hào): TN911?34; TP33 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)24?0044?03
Objectionable internet information excavation performed by improved clustering algorithm based on TF?IDF
MENG Caixia, CHEN Hongyu
(Public security technology department, Railway Police College, Zhengzhou 450053, China)
Abstract: In the mining process of objectionable Internet information, the sensitive information is different from normal information and has high shadowing property. When the traditional method is taken to excavate the sensitive information, the sensitive information can not be mined accurately because the inherent sensitive information is obscured. The objectionable Internet information excavation algorithm is proposed, in which clustering algorithm is improved on the basis of TF?IDF. It uses TF?IDF algorithm to obtain objectionable Internet informative text, in which valuable features of the sensitive information are got. This information is used to complete the clustering algorithm, and all the sensitive information features are clustered and analyzed, so that the network sensitive information is mined completely. The experimental results show that the proposed method has high efficiency and precision for objectionable network information excavation.
Keywords: TF?IDF; clustering analysis; sensitive network information; information mining
0 引 言
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展以及互聯(lián)網(wǎng)用戶的不斷增加,使得互聯(lián)網(wǎng)成為一種重要的交流渠道,其存儲(chǔ)和傳輸?shù)男畔?,特別是敏感話題,在很大程度上反映了社會(huì)不同領(lǐng)域和人們關(guān)注的熱點(diǎn)[1?3]。這些敏感信息對(duì)大眾輿論形成和傳播具有重要作用,同時(shí)也存在一定的潛在安全威脅。因此,分析如何及時(shí)挖掘網(wǎng)絡(luò)上的敏感信息,并對(duì)其采取有效的解決措施,成為相關(guān)部門分析的熱點(diǎn)方向[4?6]。
當(dāng)前主流的網(wǎng)絡(luò)中敏感信息挖掘方法主要有基于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)敏感信息挖掘方法、基于主元分析的網(wǎng)絡(luò)敏感信息挖掘方法和基于關(guān)聯(lián)規(guī)則算法的網(wǎng)絡(luò)敏感信息挖掘方法。網(wǎng)絡(luò)敏感信息在挖掘過(guò)程中,敏感信息與正常信息的特征不同,具有較高的遮蔽性。而利用上述分析的幾種傳統(tǒng)網(wǎng)絡(luò)敏感信息挖掘方法時(shí),存在固有的敏感信息被遮蔽問(wèn)題,無(wú)法對(duì)敏感信息進(jìn)行準(zhǔn)確的挖掘[7?10]。
基于上述分析的問(wèn)題,提出了基于TF?IDF改進(jìn)聚類算法的網(wǎng)絡(luò)敏感信息挖掘方法,通過(guò)TF?IDF方法獲取網(wǎng)絡(luò)敏感信息文本,在網(wǎng)絡(luò)敏感信息文本中獲取有價(jià)值的敏感信息特征,采用聚類算法,對(duì)全部敏感信息特征進(jìn)行聚類分析,完成網(wǎng)絡(luò)敏感信息的挖掘。實(shí)驗(yàn)結(jié)果說(shuō)明,所提方法進(jìn)行網(wǎng)絡(luò)敏感信息挖掘,具有較高的挖掘效率和精度。
1 基于TF?IDF和聚類算法的網(wǎng)絡(luò)敏感信息
挖掘方法
1.1 網(wǎng)絡(luò)敏感信息文本獲取
通常采用TF?IDF方法提取網(wǎng)絡(luò)敏感信息文本。通過(guò)對(duì)比網(wǎng)絡(luò)敏感信息詞頻的高低,采集出網(wǎng)絡(luò)信息內(nèi)容中的高詞頻詞元,進(jìn)而得到網(wǎng)絡(luò)敏感信息文本。TF?IDF方法的主要思想是:若某個(gè)詞或短語(yǔ)在一篇文章中產(chǎn)生的頻率TF高,且在其他文章中很少出現(xiàn),則說(shuō)明該詞或短語(yǔ)具有很好的類別區(qū)分能力,可用于分類。TF?IDF是TF詞頻(Term Frequency),IDF反文檔頻率(Inverse Document Frequency)。TF表示敏感字在文檔d中產(chǎn)生的頻率。IDF的主要思想為:若含有敏感字t的文檔越少,即n越小,IDF越大,則說(shuō)明敏感字具有很好的類別區(qū)分能力。采用TF?IDF方法獲取網(wǎng)絡(luò)敏感信息文本的過(guò)程如下:
[Wij=TFij×IDFi] (1)
[TFij=FijmaxFkjk=(1,2,...,T)] (2)
[IDFi=logNnj] (3)
式中:[Wij]表示在文檔[dj]中,敏感字[ki]所占的比重,也就是獲取的網(wǎng)絡(luò)敏感信息文本;[Fij]表示敏感字[ki]在文檔[dj]中出現(xiàn)的頻率,文檔[dj]中包含T個(gè)關(guān)鍵字;N表示文檔總數(shù);[nj]表示包含敏感字[ki]的文檔總數(shù)。
1.2 采集網(wǎng)絡(luò)敏感信息特征
通過(guò)上述分析的基于TF?IDF方法獲取網(wǎng)絡(luò)信息文本[Wij]后,應(yīng)選擇具有代表性的敏感信息特征。采用式(4)運(yùn)算敏感信息的特征數(shù)量:
[ynml=Wij?vhml?log(Qql+0.01)?KIll=1r(hml?log(Q/ql+0.01)?KIl)2] (4)
式中:[Wij]表示網(wǎng)絡(luò)敏感信息文本;[vhml]表示敏感信息在所有網(wǎng)絡(luò)信息中的比例;Q表示所有網(wǎng)絡(luò)信息中的敏感信息特征數(shù)量;n表示敏感信息數(shù)量;m表示所有網(wǎng)絡(luò)信息數(shù)量;l表示敏感信息特征參數(shù);v表示敏感信息權(quán)重;KI表示設(shè)定的閾值。
采集網(wǎng)絡(luò)中敏感信息特征的詳細(xì)過(guò)程為:
(1) 將任意一個(gè)屬性的敏感信息特征當(dāng)成聚類中心;
(2) 運(yùn)算網(wǎng)絡(luò)中不同屬性的敏感信息間的相似程度;
(3) 若不同屬性的敏感信息特征間的相似程度低于設(shè)定的閾值,則對(duì)聚類中心進(jìn)行調(diào)整,否則,保留該敏感信息特征;
(4) 對(duì)所有網(wǎng)絡(luò)敏感信息特征執(zhí)行過(guò)程(2)和過(guò)程(3);
(5) 通過(guò)下述公式實(shí)現(xiàn)敏感信息特征的交叉處理,最終采集到網(wǎng)絡(luò)敏感信息特征,如式(5)所示:
[C(v)=ynml×r[v]×r∈Er[ev]×logr[ev]r[e]] (5)
式中:[ynml]表示敏感信息的特征數(shù)量;r表示敏感信息特征參數(shù)數(shù)量;v表示敏感信息的權(quán)重;e表示敏感信息的相似度。
通過(guò)上述方法,可采集到敏感信息文本中的敏感信息特征,為敏感信息挖掘提供可靠的依據(jù)。
1.3 實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息的挖掘
上述分析方法獲取的網(wǎng)絡(luò)敏感信息特征C(v)可用[Ckl]描述,在該集合中,[k=1,2,…,q],[l=1,2,…,r]。在上述集合中隨機(jī)選擇一個(gè)敏感信息特征[ckl],其對(duì)應(yīng)的特征值如式(6)所示:
[C=c11 c12 ... c1rc21 c22 ... c2r ? ? ? ?cq1 cq2 ... cqr] (6)
在上述網(wǎng)絡(luò)敏感信息特征中,采集q個(gè)樣本,并設(shè)置成聚類中心。挖掘網(wǎng)絡(luò)敏感信息時(shí),應(yīng)設(shè)置合理的閾值,基于聚類結(jié)果,完成網(wǎng)絡(luò)敏感信息的挖掘。詳細(xì)的過(guò)程如下:
設(shè)置[bkl(k=1,2,…,q, l=1,2,…,r)]表示網(wǎng)絡(luò)中敏感信息第k個(gè)聚類中心第1個(gè)特征參數(shù)。通過(guò)式(7)得到敏感信息的特征隸屬度:
[igkl(n)=Ceekl(n)p] (7)
式中:C表示網(wǎng)絡(luò)敏感信息特征值;p表示網(wǎng)絡(luò)信息數(shù)量的上限;e表示網(wǎng)絡(luò)中不同屬性的敏感信息間的相似度。
通過(guò)式(8)得到敏感信息特征間的歐氏距離:
[disk(n)=igkl(n)l=1r(bkl-blm)2] (8)
通過(guò)式(9)獲取敏感信息同正常信息間的距離極大值:
[umax=0.5×k=1qn=1qdisk(n)q×q] (9)
則通過(guò)式(10)得到網(wǎng)絡(luò)敏感信息挖掘的聚類中心,實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息的挖掘:
[bml=m=1pbkl(mn)umaxp] (10)
式中:p表示網(wǎng)絡(luò)信息數(shù)量上限;n表示敏感信息數(shù)量;m表示所有網(wǎng)絡(luò)信息數(shù)量。
通過(guò)上述分析的方法,可在網(wǎng)絡(luò)敏感信息文本中采集有價(jià)值的敏感信息特征,為敏感信息挖掘提供有效的分析依據(jù)。通過(guò)聚類算法對(duì)全部的敏感信息特征進(jìn)行聚類操作,完成網(wǎng)絡(luò)敏感信息的挖掘。
2 實(shí)驗(yàn)分析
2.1 語(yǔ)料庫(kù)
通過(guò)云蛛網(wǎng)絡(luò)信息獲取云服務(wù)平臺(tái)采集實(shí)際檢測(cè)網(wǎng)絡(luò)敏感數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行人工處理,采集400篇敏感文本,400篇正常文本。其中與“留守兒童”有關(guān)的正常文115,敏感文本255篇;與“邪教”有關(guān)的正常文本104篇,敏感文本136篇;與“暴恐”有關(guān)的正常文本65篇,敏感文本114篇;與“竊聽(tīng)”有關(guān)的正常文本163篇,敏感文本54篇;各類有交叉。實(shí)驗(yàn)過(guò)程中,對(duì)某一類選擇其中[23]篇當(dāng)成訓(xùn)練集,[13]當(dāng)成測(cè)試集。
2.2 評(píng)價(jià)標(biāo)準(zhǔn)
網(wǎng)絡(luò)敏感信息挖掘的評(píng)估標(biāo)準(zhǔn)是通過(guò)實(shí)驗(yàn)采集數(shù)據(jù)完成評(píng)判的,評(píng)估標(biāo)準(zhǔn)對(duì)網(wǎng)絡(luò)敏感信息挖掘準(zhǔn)確性具有較高的影響作用。本文實(shí)驗(yàn)使用的挖掘評(píng)估指標(biāo)主要有準(zhǔn)確率、誤判率以及召回率,采用如下方法對(duì)各指標(biāo)進(jìn)行定義,如表1所示。
表1 分類評(píng)價(jià)指標(biāo)參數(shù)
通過(guò)表1可得出以下基本結(jié)論:
網(wǎng)頁(yè)文本總數(shù)為:n=a+b+c+d;正常文本總數(shù)為:a+c;敏感網(wǎng)頁(yè)文本總數(shù):b+d。
敏感文本準(zhǔn)確率:P敏感=[db+d×100%]。
正常文本準(zhǔn)確率:P正常=[aa+c×100%]。
敏感文本誤判率:E敏感=[cc+d×100%]。
正常文本誤判率:E正常=[ba+b×100%]。
敏感文本召回率:R敏感=[dc+d×100%]。
正常文本召回率:R正常=[aa+b×100%]。
召回率不考慮誤判對(duì)網(wǎng)絡(luò)敏感信息挖掘帶來(lái)的影響,也就是說(shuō)當(dāng)誤判率很高時(shí),召回率的值也會(huì)很大。通常正確率提高,召回率會(huì)相應(yīng)的降低,反之召回率提高,正確率就會(huì)降低。因此應(yīng)通過(guò)一個(gè)平衡值,確保召回率和正確率處于一個(gè)合理的區(qū)間內(nèi),用[F=2×R×PR+P]描述。
2.3 實(shí)驗(yàn)結(jié)果及分析
采用本文方法對(duì)實(shí)驗(yàn)敏感文本信息進(jìn)行挖掘分析,結(jié)果用表2描述。
表2 利用本文方法的敏感信息挖掘結(jié)果 %
采用傳統(tǒng)方法對(duì)實(shí)驗(yàn)網(wǎng)絡(luò)敏感信息進(jìn)行挖掘,結(jié)果用表3描述。因?yàn)槲臋n集各類間存在一定的關(guān)聯(lián)性,因此所以實(shí)驗(yàn)主要分析敏感文本和正常文本。
表3 采用傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)方法的網(wǎng)絡(luò)敏感信息挖掘結(jié)果
分析表2可得本文方法對(duì)“暴恐,邪教”的網(wǎng)絡(luò)敏感信息挖掘效果優(yōu)于“留守兒童,竊聽(tīng)”,這還是符合客觀實(shí)際情況的,因?yàn)椤氨┛?,邪教”的敏感度高于“留守兒童,竊聽(tīng)”的敏感度。說(shuō)明本文提出的敏感信息挖掘方法實(shí)用性較強(qiáng)。
對(duì)比分析表2和表3可得,采用傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)方法的網(wǎng)絡(luò)敏感信息挖掘準(zhǔn)確率低于本文方法,主要是因?yàn)槊舾行畔⑼P畔⒌奶卣鞑煌?,具有較高的遮蔽性。利用傳統(tǒng)敏感信息挖掘方法時(shí),固有的敏感信息被遮蔽,無(wú)法進(jìn)行敏感信息的準(zhǔn)確挖掘。而本文方法通過(guò)TF?IDF獲取網(wǎng)絡(luò)敏感信息文本后,在網(wǎng)絡(luò)信息文本中獲取有價(jià)值的敏感信息特征,極大地提高了網(wǎng)絡(luò)敏感信息挖掘的準(zhǔn)確率。
3 結(jié) 語(yǔ)
本文提出了基于TF?IDF和聚類算法的網(wǎng)絡(luò)敏感信息挖掘方法,通過(guò)TF?IDF獲取網(wǎng)絡(luò)敏感信息文本,在網(wǎng)絡(luò)信息中獲取有價(jià)值的敏感信息特征,采用聚類算法,對(duì)全部敏感信息特征進(jìn)行聚類分析,完成網(wǎng)絡(luò)敏感信息的挖掘。實(shí)驗(yàn)結(jié)果說(shuō)明,所提方法進(jìn)行網(wǎng)絡(luò)敏感信息挖掘,具有較高的挖掘效率和精度。
參考文獻(xiàn)
[1] WANG X B, FU M Y, ZHANG H S, et al. Target tracking in wireless sensor networks based on the combination of KF and MLE using distance measurements [J]. IEEE Transactions on Mobile Computing, 2012, 11(4): 567?576.
[2] EKANAYAKE J, LI H, ZHANG B, ET AL. Twister: a runtime for iterative MapReduce [C]∥Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing. ACM: [s.n.], 2013: 810?818.
[3] HE B, FANG W, LUO Q, et al. Mars: a MapReduce framework on graphics processors [C]// Proceedings of the 17th international conference on Parallel architectures and compilation techniques. ACM: [s.n.], 2014: 260?269.
[4] 章武媚,陳慶章.引入偏移量遞階控制的網(wǎng)絡(luò)入侵HHT檢測(cè)挖掘算法[J].計(jì)算機(jī)科學(xué),2014,41(12):107?111.
[5] KANG L Y, WANG X Y, BAI R J. Analysis of MapReduce principle and its main implementation platforms [J]. New Technology of Library and Information Service, 2014, 55(2): 60?67.
[6] 饒雨泰,楊凡.網(wǎng)絡(luò)入侵?jǐn)噭?dòng)下的網(wǎng)絡(luò)失穩(wěn)控制方法研究[J].科技通報(bào),2014,30(1):185?188.
[7] 肖金超,曾鵬,何杰,等.基于傳感器網(wǎng)絡(luò)的多信道定位挖掘技術(shù)[J].信息與控制,2015,44(3):44?46.
[8] THUSOO A, SARMA J S, JAIN N, et al. Hive: a warehousing solution over a map?reduce framework [J]. Proceedings of the VLDB Endowment, 2013, 2(2): 1626?1629.
[9] 侯森,羅興國(guó),宋克.基于信息源聚類的最大熵加權(quán)信任分析挖掘算法[J].電子學(xué)報(bào),2013,43(5):993?999.
[10] ABOUZEID A, BAJDA?PAWLIKOWSKI K, ABADI D, et al. HadoopDB: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads [J]. Proceedings of the VLDB Endowment, 2014, 2(1): 922?933.