摘 要: 網絡上不良信息的出現是困擾社會精神健康發(fā)展的“頑疾”,如果不進行有效的過濾,會給搜索服務帶來不良影響,極大的影響了社會的和諧穩(wěn)定發(fā)展。提出一種基于特征加權的網絡不良內容識別方法,在對網頁上的文本預處理后,引入針對不良內容的加權方法,然后再結合KNN、樸素貝葉斯、SVM三種文本分類方法進行實驗對比。對比實驗結果表明,所采用的方法在識別網絡不良內容上的準確率和召回率都有較大提高。
關鍵詞: 互聯(lián)網; 不良內容; 特征加權; 內容識別
中圖分類號: TN711?34 文獻標識碼: A 文章編號: 1004?373X(2016)03?0076?04
Feature weighting based identification method for network undesirable content
YU Haoliang1, WANG Qiusen1, FENG Xupeng2, LIU Lijun1, FU Tiewei3, HUANG Qingsong1, 3
(1. College of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China;
2. Center of Educational Technology and Network, Kunming University of Science and Technology, Kunming 650500, China;
3. Yunnan Key Laboratory of Computer Technology and Applications, Kunming 650500, China)
Abstract: The emergence of network undesirable information is the “chronic illness” which persecutes the healthy development of mental social, if the information isn′t filtered effectively, it will bring undesirably affect on the search service, and influences the harmony and stability development of the society. An identification method for network undesirable content based on feature weighting is proposed. The weighting method for the undesirable content is introduced after text pretreatment on web page, and then the proposed method and three test categorization methods of KNN, Naive Bayes and SVM are compared with the experiments. The contrast experimental results show that the adopted method has great improvement on precision and recall of identifying the network undesirable content.
Keywords: Internet; undesirable content; feature weighting; content identification
0 引 言
互聯(lián)網的迅速發(fā)展,使得網絡上發(fā)布黃色、暴力、賭博甚至反動言論等不良信息時有發(fā)生,這類不良網頁信息隨著現代互聯(lián)網的蓬勃發(fā)展呈現著蔓延之勢,引起社會各界的極大關注。不良信息的監(jiān)控問題成為國家迫切關注的敏感問題,更是一個影響和諧穩(wěn)定發(fā)展的社會問題。網絡上不良信息的傳播如果不加以嚴格監(jiān)控,除了對個人造成不良影響外,更會給社會帶來巨大不安定的因素。因此如何強化網頁不良內容的識別能力,提高輿情監(jiān)測的質量和效率,成為一個技術工作者需要解決的重要問題。
近年來網絡不良內容的識別問題引起了廣泛關注和研究[1?3],針對不良文本識別的問題,文獻[4]提出了文本傾向性的不良文本識別方法。對不良主題的相關文本利用傾向性分析方法對文本進行分類。文獻[5]提出了局部語義分析的文本過濾方法,將特征詞的知識屬性和局部語法匹配引入信息過濾模型。文獻[6]提出了基于粗糙集與貝葉斯決策相結合的不良內容過濾方法,先用粗糙集理論區(qū)分矩陣和函數得到網頁分類決策屬性約簡,再通過貝葉斯決策理論對頁面信息進行分類與過濾決策。文獻[7]引入信息論中熵的概念,用詞的熵函數對權值進行調整,從而更準確地選擇特征詞。
目前研究常常忽略了詞在文本的位置屬性,影響了分類的效果。針對這個問題本文在對網頁上的文本預處理后,引入針對不良內容的加權方法,然后再結合KNN、樸素貝葉斯、SVM這三種文本分類方法進行實驗對比,對比實驗結果表明,所采用的方法在識別網絡不良內容上的準確率和召回率都有較大提高。
1 網頁數據預處理
網頁信息主要是以HTML的形式出現,對已經爬取到的網頁信息進行過濾之前,首先要經過網頁的預處理將頁面上的信息進行清洗,便于后續(xù)識別處理。預處理過程如圖1所示。
(1) 統(tǒng)一編碼:為了便于后面數據處理,對采集到的頁面統(tǒng)一轉換為UTF?8編碼格式。
(2) 網頁內容提取:由于所爬取的頁面包含有頁面標簽等干擾數據,采用Jsoup對爬取的頁面按標簽定位,按需提取出網頁內容標題、正文、網址、發(fā)帖人、時間等信息,并存入mongodb中。
(3) 中文分詞:使用中國科學院計算技術研究所開發(fā)的分詞系統(tǒng)ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis Syetem)對上述數據集進行分詞、詞性標注。
(4) 去除停用詞:停用詞對判斷該文本是否為不良文本起著干擾作用,停用詞的去除對識別效率有著一定的提升。通過停用詞庫,取文本中中文分詞標記的中間詞匯,判斷該詞是否在停用詞庫中,如果屬于則去除該詞,從而得到有效的詞集。
2 不良網頁的特征識別與提取
2.1 不良網頁識別
不良文本主要以其所包含的特征詞來呈現,如何更好的提取特征詞成為網絡不良內容識別的關鍵,網絡上不良內容的特征詞主要包含黃色、暴力、反動等敏感詞匯。
實際上,不良內容為了不讓監(jiān)管部門識別出來屏蔽其發(fā)的信息,通常使用以下手法躲過追查:
(1) 使用拼音、拼音首字母代替敏感詞;
(2) 使用近義詞、諧音詞、內涵詞代替敏感詞;
(3) 使用特殊符號將詞中每個字隔開、詞中的敏感字用其拼音首字母間隔。
這些因素在一定程度上降低了識別的準確率,因此建立了敏感基礎詞庫,在查詢關鍵詞時,進行比對匹配。敏感基礎詞匯舉例見表1。
在本文的實驗中,定義敏感基礎詞庫中特征詞的權值為0.15。
2.2 針對不良內容的特征加權方法
經過上述預處理后,清洗得到包含的特征詞匯,若全部采用,無疑加劇了處理的工作量。由于清洗后的文本表示成空間向量維數較大,所消耗的時間成本同樣會增多,因此有必要對網頁內容分類作用不大的特征進行選擇,降低空間向量維數。
本文以文檔頻率作為特征選擇的方法。根據某個特征項在所有文本集中出現的文本數目與所有文本集總數目的比值來判斷。
根據各大論壇貼吧的文本來看,有如下特征:文章的標題反映著文章的大體內容,文章的首段和末段反映著文章的主題思想,中間段落主要是對文章主題進行充分說明。根據每段來分,段首表明段落主旨,段尾表明段落總結,中間句則對本段主旨進行內容補充。因此提出一種基于內容的特征加權方法,構造出加權函數。算法步驟:經過預處理和停用詞處理,并分析文檔,求出詞在文章中出現的次數,記錄該詞的位置屬性。詞頻高的詞比詞頻低的詞對文本貢獻程度大。因此詞[i]的權值[ci]的計算公式如下:
式中:[freq(ci)]為詞[i]在文檔中出現的頻數;[freqmax]為文檔中詞的總數;[position(pi)]為詞位置權值;[cBi]為標題詞[Bi]的權值;[λBi]判斷該詞是否為標題詞,是則為1,否則為0;[λj]判斷該詞是否為敏感基礎詞,是則為1,否則為0;[cj]為敏感基礎詞的權值。
其中標題詞[Bi]的權值[cBi]的計算公式如下:
式中:[cBi]為標題詞[Bi]的權值;[freq(Bi)]為標題詞[Bi]在全文中出現的頻數。
式(1)中[position(pi)]權值對應關系,如表2所示。
2.3 語料訓練
人工選擇含有不良信息的頁面,對其進行預處理和停用詞處理,利用式(1),式(2)計算每個詞在整個文檔的權值。依照所得出的每個詞的權值排序,建立特征詞庫。具體如圖2所示。
3 文本分類算法
經過第二節(jié)的處理后,引入三種常用的文本分類算法,分別是KNN、樸素貝葉斯、SVM,并通過實驗比對檢驗第二節(jié)方法的效果。
3.1 KNN文本分類算法
KNN(K?Nearest Neighbor)[8]文本分類方法的原理是:對于所采集的測試文本,計算出它與訓練集中每個文本的相似度,在訓練集中找出[k]個離它最近的鄰居文本,并根據這些鄰居文本所屬類別給測試文本類進行評分,分值是同一個類別鄰居文本與測試文本之間的文本相似度之和。通過對候選類別的分值進行排序,根據分值得到測試文本的類別結果。KNN文本分類方法中的決策規(guī)則可以表示為:
其中:[y(di,Cj)∈{0,1}]表示文檔[di]是否屬于類[Cj](是[y=1];否[y=0]);[sim(x,di)]表示測試文檔[xi]和訓練文檔[di]之間的相似度,其中[di]是[x]的[k]個最近鄰之一;[bj]是決策的閾值。
3.2 樸素貝葉斯
樸素貝葉斯(Naive?Bayes)[8]文本分類方法的原理是:對于所采集的測試文本計算出它的概率分布估計,從而計算待分類文本屬于各個類別的概率,則待分類文本所屬的類別取概率最大的類別。樸素貝葉斯分類器可以表述為:
其中:[C]表示類別集合;[Cj]表示類別;[P(Cj)]表示類別[Cj]出現的概率;[P(ωi|Cj)]表示詞條[ωi]出現在[Cj]中的概率。
3.3 SVM分類算法
SVM(Support Vector Machines)[8]分類的原理是先通過非線性變換將輸入空間映射到一個高維度特征空間,然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當的內積函數來實現的。對于一個帶有不等式約束的二次優(yōu)化問題,并存在惟一的最優(yōu)解[(a,b)],對應其最優(yōu)判決函數為:
4 實 驗
4.1 實驗數據集
實驗數據選用來自各大論壇的語料,包含以下五個熱門板塊,分別是:社會、新聞、生活、教育、娛樂、健康。其中從天涯論壇(http://bbs.tianya.cn/)采集到語料800條;從新浪論壇(http://bbs.sina.com.cn/)采集到語料1 000條;從豆瓣社區(qū)(http://www.douban.com/)采集到語料1 000條;從貓撲貼貼采集到語料750條。
4.2 實驗設計
本文實驗環(huán)境軟硬件配置如下:CPU:Intel? Core i7?3370@3.4 GHz;內存:8 GB;操作系統(tǒng):Windows 7 64?b;編程語言:Java?1.7;數據庫:MySQL,MongoDB。
實驗選用準確率(Precision)和召回率(Recall)來衡量分類系統(tǒng)的性能。對于第[i]個類別,其準確率和召回率分別定義如下:
式中:[li]表示分類的結果中被標記為第[i]個類別且標記正確的文本個數;[mi]表示結果中被標記成第[i]個類的文本個數;[ni]表示被分類的文本中實際屬于第[i]個類別的樣本個數。
實驗計劃分為3個部分:預處理;KNN分類算法[k]值的選擇;預處理后使用本文算法與不用本算法直接用3種分類算法效果對比。
實驗中預處理部分采用中文分詞工具ICTCLAS(http://ictclas.nlpir.org/)對實驗語料進行分詞,然后去除停用詞,得到清洗后的向量文本。
支持向量機(Support Vector Machine,SVM)分類器選用Chih?Jen Lin的Lib?SVM(http://www.csie.ntu.edu.tw/~cjlin)實現分類,采用徑向基核函數(Radial Basis Function,RBF),其余參數設為缺省值。
4.3 實驗結果及分析
實驗中第二部分KNN分類算法[k]值的選定,實驗結果如圖3所示,其中橫坐標[x]軸代表[k]值的取定,[k]值的取值范圍是[5,15],以1為間隔,縱坐標[y]軸代表分類的準確率。
由圖3可以得出:當[k]值取為12時,分類的準確率達到相對高點且較為穩(wěn)定。
實驗第三部分將提出的結合特征加權方法與普通的機器分類算法效果對比。
實驗1:為預處理后不使用特征加權的方法,比較這三種方法在2個數據規(guī)模下的分類性能,實驗結果如表3所示。
實驗2:為預處理后使用特征加權方法結合KNN、樸素貝葉斯、SVM。共三種方法分別對2個數據規(guī)模的語料集進行分類,比較這三種方法在原始規(guī)模數據下的分類性能。實驗結果如表4所示。
表4 使用特征加權方法不同分類方法性能對比
[分類算法\特征規(guī)模:500\\特征規(guī)模:2 000\準確率 /%\召回率 /%\\準確率 /%\召回率 /%\Mixed-KNN\75.42\74.29\\83.31\81.14\Mixed-Naive Bayes\78.93\77.37\\87.67\85.97\Mixed-SVM\85.19\84.21\\92.35\90.83\平均值\79.85\78.62\\87.78\85.98\]
分析兩個實驗可得:在兩種特征規(guī)模下,同樣使用SVM算法分類,本文提出的預處理特征加權方法在兩種數據規(guī)模下比用傳統(tǒng)方法準確率和召回率均值有著相應的提高;傳統(tǒng)的分類方法在規(guī)模數據偏小的情況下分類性能會大幅下降,本文提出的特征加權降維方法可以使分類器的分類得到較好的保持。
5 結 語
本文提出的方法將網頁文本預處理后加入了特征加權方法,使方法模型中的特征項更好地保存文本的特征,從而可以有效的識別不良內容。在將來的研究工作中,將從以下兩個方面對網頁不良文本的識別方法進一步改進:根據互聯(lián)網新詞的出現,不斷豐富敏感基礎詞,清除不常用詞匯;在更大規(guī)模的語料集上,進一步驗證所提方法的適應性和強壯性。
參考文獻
[1] 丁霄云,劉功申,孟魁.基于一類SVM的不良信息過濾算法改進[J].計算機科學,2013,40(11A):86?90.
[2] 邵忻,徐倩漪.網絡偽裝不良信息檢測方法的研究與仿真[J].計算機仿真,2012,29(2):135?138.
[3] 李少卿,吳承榮,曾劍平,等.不良文本變體關鍵詞識別的詞匯串相似度計算[J].計算機應用與軟件,2015,32(3):151?157.
[4] 戴永清,章月麗.一種基于文本傾向性的不良文本識別方法[J].計算機應用與軟件,2011,28(5):296?298.
[5] 曹海.基于文本內容分析的過濾技術研究[J].四川大學學報(自然科學版),2006,43(6):1248?1252.
[6] 孫艷.基于粗糙集與貝葉斯決策的不良網頁過濾研究[J].中文信息學報,2012,26(1):67?72.
[7] 馮長遠.Web文本特征選擇算法研究[J].計算機應用研究,2005,22(7):36?38.
[8] 劉挺,秦兵,張宇,等.信息檢索系統(tǒng)導論[M].北京:機械工業(yè)出版社,2008.