王文霞,王春紅
(運城學院 計算機科學與技術(shù)系,山西 運城 044000)
短信文本分類技術(shù)的研究
王文霞,王春紅
(運城學院 計算機科學與技術(shù)系,山西 運城 044000)
短信作為一種重要的交流手段,發(fā)揮著越來越重要的作用。但伴隨著短信的廣泛使用,垃圾短信則嚴重影響著人們的生活,因此文中基于短信文本特征詞對短信進行分類研究。其中,TF-IDF特征詞權(quán)重計算方法是對文本詞匯權(quán)重計算的一種經(jīng)典算法,得到了廣泛應用。但此方法為了簡化計算,忽略了詞語之間的相互關(guān)系。針對此問題,依據(jù)同一短信文本中的詞匯之間存在的相互關(guān)系,文中對權(quán)重計算法進行了調(diào)整,提出了基于模糊K均值的短信文本分類算法。即先將短信文本集用TF-IDF算法處理,得到詞匯-文本集,再用模糊K均值算法對得到的詞匯-文本集進行處理。最后通過實驗,驗證了基于模糊K均值的短信文本分類算法,其分類結(jié)果的查全率和查準率都較高,有效辨別了垃圾短信。
短信文本分類;向量空間模型;模糊聚類;模糊K均值
短信業(yè)務作為目前的一種重要通信手段,具有短小、迅速、簡便、便宜等諸多優(yōu)點。據(jù)中國新聞網(wǎng)統(tǒng)計,到2010年,中國的手機用戶數(shù)量達到近7.4億,2009年短信發(fā)送量日均達到了21億條,全年各類短信發(fā)送量達到7 840.4億條[1]。根據(jù)中國互聯(lián)網(wǎng)協(xié)會2008年年初發(fā)布的一項調(diào)查,中國手機用戶平均每周收到的垃圾短信竟然多達8.29條,每周收到40條以上的居然達到了6.25%。在飛速的發(fā)展過程中,短信業(yè)務在給廣大使用者帶來方便的同時,也出現(xiàn)了很多問題,比如泛濫的垃圾短信、詐騙短信、謠言短信等等。這些垃圾短信給手機用戶帶來了很大的危害,因此需對垃圾短信進行過濾。
文中將自然語言文本處理運用到手機短信的分類研究[2-5]中。通過對短信文本特點的分析,實現(xiàn)對短信文本的分類。利用文本分類算法對短信信息進行分類,常用的分類算法有:決策樹、支持向量機[6-9]、粗糙集和貝葉斯算法[10]。由于短信內(nèi)容較少,依據(jù)同一短信文本中的詞匯之間存在的相互關(guān)系,文中通過對經(jīng)典的TF-IDF權(quán)重計算法的調(diào)整,并采用了模糊聚類算法,實現(xiàn)對短信文本的分類,達到了提高短信文本分析準確性的效果。
1.1 垃圾短信的概念、特點、分類
沒有經(jīng)過接收者允許而收到的,內(nèi)容具有違法性、欺騙性或廣告性,并且侵犯了人們的合法權(quán)益,這樣的短信被稱之為垃圾短信。垃圾短信具有以下特點:騷擾性,未經(jīng)接收者同意發(fā)布且具有廣告性質(zhì),具有違法犯罪的內(nèi)容等等。垃圾短信一般分為商業(yè)廣告信息、非法制作各種票或證的信息、詐騙信息、賭博信息等。詐騙短信已成為危害社會治安秩序的一大公害。
目前,我國出現(xiàn)的詐騙短信共有三類:
1)手機費詐騙。
(1)通過贈送話費來騙取手機費:利用人們貪圖小便宜的心理,使用戶上當;
(2)通過朋友點歌或接收彩信來騙取手機費:人們往往以為是自己的朋友為自己點歌,所以就會毫無防備地回消息,造成手機費被騙;
(3)以冒充老朋友的身份騙取電話費:這種短信的迷惑性相當大,人們很容易上當受騙;
(4)以聽取心里話的方式詐騙手機費:主要利用用戶的好奇心理,誘使用戶受騙。
2)銀行卡詐騙。
一般是團伙作案,犯罪分子先利用短信群發(fā)器發(fā)送消息,對于上當?shù)娜耍麄兗侔玢y行工作人員、警察、銀行管理中心人員等,讓上當者成功地將錢存入其他賬戶;這種短信主要是利用用戶對自身財產(chǎn)安全關(guān)心的心理。
3)現(xiàn)金詐騙。
(1)以謊稱辦假證、走私軍火、售槍支彈藥、招嫖或者提供其他違法服務或物品的方式詐騙現(xiàn)金:主要利用用戶想走捷徑的心理,將錢騙走;
(2)以謊稱中獎騙取現(xiàn)金:這種短信利用用戶貪小便宜心理,當用戶聯(lián)系時他們會要求先交一部分個人所得稅等一系列費用,然后卷著錢財逃之夭夭[11]。
1.2 垃圾短信的危害
伴隨著智能移動設備的普及,短信業(yè)務迅猛發(fā)展,垃圾短信也日益猖獗,已嚴重擾亂了人們正常的工作和生活,非常不利于社會穩(wěn)定與和諧,主要表現(xiàn)如下:
(1)影響人們的正常工作和生活。無論接收者是否愿意,垃圾短信都會不分時段地發(fā)到接收者的手機。接到一條短信后,用戶最少要花10 s來判斷是不是垃圾短信,一天收到十幾條,就需要花幾分鐘來查看,嚴重浪費了用戶的時間。不管你看不看短信,都會收到短信鈴聲的騷擾,讓用戶苦不堪言,嚴重影響用戶的工作和生活。
(2)擾亂社會秩序。垃圾短信為辦假學歷、假證件、出售黑車等非法行為提供了一種安全、廉價的業(yè)務促進方式,使社會秩序被嚴重擾亂。甚至有些垃圾短信包含著低級下流、污染社會風氣的內(nèi)容,直接影響青少年的身心健康[12]。
(3)垃圾短信已成為犯罪分子實施詐騙的載體。一些不法分子利用手機散布謠言,散布邪教和封建迷信的思想,煽動民眾,造成民族關(guān)系緊張,影響社會穩(wěn)定。不法分子通過抓住人們的心理,群發(fā)一些迷惑性短信,騙取信任,獲得資金。
(4)影響正常通信。垃圾短信一般都是群發(fā),數(shù)量極大,傳輸時會占用大量的通訊資源,嚴重的甚至會導致堵塞,使通信中斷。
1.3 垃圾短信的處理
垃圾短信采用文本形式表示信息,首先需要把它轉(zhuǎn)變成計算機可識別的形式。文中采用的是空間向量模型即VSM。下面介紹一些關(guān)于VSM的基本概念:
(1)特征項:指文本中能夠代表該文本特點的基本語言單位。
(2)特征項權(quán)值:指特征項代表文本的能力的大小。特征項權(quán)值計算方法有很多,例如:布爾權(quán)重計算、平方根權(quán)重計算、TF-IDF權(quán)重計算等,其中TD-IDF權(quán)重計算最為常用。文中對于文本集的加權(quán)計算采用這種方法。
(3)文本向量:設文本集合中共有m個不同的特征項,分別計算出文本特征項的權(quán)值,由這些特征項權(quán)值所構(gòu)成的向量稱為文本向量[13]。
接下來詳細介紹一下TF-IDF權(quán)重計算:
TF-IDF是一種基于統(tǒng)計分析的方法,用以獲取字詞在一個文件集或一個語料庫中某文本的重要程度。TF-IDF權(quán)重計算的出發(fā)點是字詞的重要性會隨著它在文本中出現(xiàn)的次數(shù)增加,但同時會隨著它在語料庫中出現(xiàn)的頻率下降[14]。其主要思想是:如果某個詞或短語在某個文本中出現(xiàn)的頻率高,而在其他文本中又很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。
TF-IDF計算方法中有兩個重要參數(shù):
(1)TF詞頻。
它是指特征項在文本中出現(xiàn)的頻率,計算公式為:
tfik=特征項tk在文檔di中出現(xiàn)的頻率
(1)
(2)IDF反文本頻率。
它是對特征詞在文本集中分布情況的量化,用于衡量該特征詞區(qū)分不同文本的能力,常用計算公式為:
idfk=log(N/nk+0.01)
(2)
其中:N代表文本集所有文本的個數(shù);nk代表文本集中出現(xiàn)特征詞的文本數(shù)。
TF-IDF權(quán)重計算方法,是Salton和McGill基于香農(nóng)信息理論提出的一種方法。該方法已成為目前文本聚類和分類中最常用的方法。它是將詞頻和反文檔頻率兩方面因素相結(jié)合來得到特征詞的權(quán)重值,計算公式為:
wik=tfik×idfk=tfik×log(N/nk+0.01)
(3)
Bezdeck等提出了模糊K均值算法。模糊K均值算法將模糊原理與經(jīng)典K均值算法相結(jié)合,是一種非監(jiān)督聚類算法。其基本思想是按照一定的模糊隸屬度將每個數(shù)據(jù)對象分配到某個聚類中,使得不同類中的數(shù)據(jù)對象具有較低的相似性,同一個類中的數(shù)據(jù)對象具有較高的相似性。該算法將分好的簇看做是模糊集合,一個簇對應一個模糊集合,用隸屬度函數(shù)度量每個數(shù)據(jù)屬于某個簇的可能性,然后依據(jù)最大隸屬度原則將數(shù)據(jù)分配到隸屬度最大的簇中。
2.1 算法基本思想
模糊K均值算法是基于最小化以下目標函數(shù)[15]:
(4)
2.2 算法描述
總而言之,舞臺表演是聲樂演唱不可分割的一部分。演唱者在平時的練習中,學習好基礎(chǔ)知識,然后在表演實踐中提升自己的舞臺表演能力,在演唱中逐漸變得成熟,很好地向觀眾傳達作品的思想情感,有助于觀眾更好地了解作品。演員也要在面部表情、手勢動作、上下場的處理等方面多下功夫,使得“演”與“唱”協(xié)調(diào)統(tǒng)一,使歌唱達到聲情并茂的藝術(shù)境界,從而提升音樂的魅力,向觀眾展現(xiàn)出更多更加感人、更加優(yōu)美的作品,也讓越來越多的觀眾因為演員真摯的表演而愛上音樂。
模糊K均值算法描述如下:
(2)初始化聚類中心vi,i=1,2,…,K,一般從N個數(shù)據(jù)點中任意選擇K個數(shù)據(jù)點作初始聚類中心。
(3)根據(jù)式(5)計算所有聚類數(shù)據(jù)點對于每一個聚類中心的隸屬度。
(5)
(6)
利用模糊K均值實現(xiàn)短信文本分類算法描述如下:
(1)輸入文本集合中的特征項,建立特征項庫。
(2)將文本內(nèi)容輸入數(shù)據(jù)庫,建立文本信息庫以及文本段信息庫。
(3)對每個文本段信息利用TF-IDF權(quán)重計算公式算出每一個特征項的權(quán)值,構(gòu)造文本向量信息庫。
(4)用模糊K均值算法對文本向量進行處理。需要明確要處理的樣本數(shù)、每一行的特征項個數(shù)、要分的類別數(shù)、迭代的次數(shù)、聚類的精度等等。
(5)輸出一個隸屬度矩陣,獲得文本分類結(jié)果。
基于模糊K均值的短信文本分類算法的基本思想是首先收集待處理的短信文本集,接著要對短信文本進行分詞;然后建立特征項集,利用TF-IDF對每個特征項進行加權(quán)計算,得到文本向量,構(gòu)建“詞匯-文本”矩陣;最后用模糊K均值算法對“詞匯-文本”矩陣進行處理,輸出一個隸屬度矩陣。具體的算法設計如圖1所示。
圖1 算法流程圖
根據(jù)文本檢索的度量標準,文中定義了兩個評估指標,即查準率(Precision)和查全率(Recall),對基于模糊K均值的短信文本分類算法進行了有效性驗證。
其中:查準率p是指實際相符的文本占屬于類別Ci的所有文本的比例;查全率r是指正確歸類的文本占專家判定的應屬于類別Ci的所有文本的比例。兩項指標分別定義如下:
(7)
(8)
基于從互聯(lián)網(wǎng)上收集的商業(yè)廣告型短信、詐騙短信、非法制作各種票或證的短信、賭博類短信四方面的大量文本,分別從中各隨機選取10個文本,共40個。這40個文本分別按商業(yè)廣告型短信、詐騙短信、非法制作各種票或證的短信、賭博類短信的次序排列,并對其進行預處理,進而基于模糊K均值聚類算法實現(xiàn)了文本分類。實驗結(jié)果如表1所示,列出了10個文本的隸屬度矩陣,商業(yè)廣告型短信和詐騙短信各2個,非法制作各種票或證的短信和賭博類短信各3個;表2給出了每個文本所屬的類。
表1 輸出的隸屬度矩陣
表2 40個樣本的分類結(jié)果
為了驗證該算法的有效性,將該算法聚類分析結(jié)果與人工分類的結(jié)果進行了對比,如表3所示;并采用了聚類分析的兩個評價標準—查準率和查全率對聚類結(jié)果進行量化分析,其結(jié)果如表4所示。從這兩個表可以看出,基于模糊K均值對文本分類,其查準率和查全率都較高。
表3 模糊K均值聚類分析最終結(jié)果
文中提出的基于模糊K均值的短信文本分類算法,很好地克服了經(jīng)典TF-IDF權(quán)重計算中忽略了詞
表4 查準率和查全率
語之間的相互關(guān)系的弊端。實驗結(jié)果表明,該聚類算法大大地改善了短信文本聚類的效果,查全率和查準率都較高。
[1] 劉國香,張鈞鋒.垃圾短信分類方式的探討[J].滄州師范專科學校學報,2011,27(4):122-124.
[2]PatelD,BhatnagarM.MobileSMSclassification:anapplicationoftextclassification[J].InternationalJournalofSoftComputingandEngineering,2011,1(2):47-49.
[3]LiuWuying,WangTing.Index-basedonlinetextclassificationforSMSspamfiltering[J].JournalofComputers,2010,5(6):844-851.
[4]LiFeng,LiJigang.StudyingofclassificationChineseSMSmessagebasedonBayesianclassification[J].JournalofTheoreticalandAppliedInformationTechnology,2012,44(1):141-146.
[5] 楊 柳,殷 釗,滕建斌,等.改進貝葉斯分類的智能短信分類方法[J].計算機科學,2014,41(10):31-35.
[6] 李 慧,葉 鴻,潘雪瑞,等.基于SVM的垃圾短信過濾系統(tǒng)[J].計算機安全,2012(6):34-38.
[7] 馮歐鵬.垃圾短信過濾中字特征與詞特征對過濾效果的比較研究[D].北京:北京郵電大學,2011.
[8] 徐 易.基于短文本的分類算法研究[D].上海:上海交通大學,2010.
[9]LanMan,TanCL,SuJian,etal.Supervisedandtraditionaltermweightingmethodsforautomatictextcategorization[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,31(4):721-735.
[10] 張 兢,候旭東,呂和勝.基于樸素貝葉斯和支持向量機的短信智能分析系統(tǒng)設計[J].重慶理工大學學報:自然科學,2010,24(1):77-81.
[11] 趙曉芳.短信詐騙的類型、法律定性及應對策略[J].消費導刊,2008(2):125-125.
[12] 董月琴.基于Android的垃圾短信處理系統(tǒng)的研究與設計[D].淮南:安徽理工大學,2011.
[13] 付克志,林鴻飛.基于N-LevelVSM在Web信息檢索中的研究[J].計算機工程與應用,2006,42(19):158-160.
[14] 包金龍.基于向量空間模型的信息檢索系統(tǒng)的設計[J].情報雜志,2005,24(7):44-45.
[15] 葉吉祥,譚冠政,路秋靜.基于核的非凸數(shù)據(jù)模糊K-均值聚類研究[J].計算機工程與設計,2005,26(7):1784-1785.
Research on Text Classification Technology for Message
WANG Wen-xia,WANG Chun-hong
(Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000,China)
As an important means of communication,SMS plays an increasingly important role.But along with the extensive use of SMS,SMS spam seriously influences people’s lives.Therefore,the classification of SMS is researched based on the keywords in this paper.TF-IDF weight calculation method is a classical algorithm to calculate the text word weight,which is widely used.But in order to calculate simply,this method ignores the mutual relations between words.Aiming at this problem,based on the same relationship between words in the text messages,in this paper,the weighting method is used for adjusting,it puts forward the text classification based on fuzzyK-meansalgorithm.ThetextsetisprocessedbyTF-IDFalgorithm,gettingavocabulary-textset.ThenfuzzyK-meansalgorithmisusedtogetavocabulary-textset.Finally,throughtheexperimenttoverifythetextclassificationbasedonfuzzyK-meansalgorithm,theclassificationresultsofrecallandprecisionishigh.
text categorization;vector space model;fuzzy clustering;fuzzyK-means
2015-07-22
2015-11-05
時間:2016-03-22
國家自然科學基金資助項目(11241005);山西省高等學校教學改革研究項目(J2012098);運城學院教學改革研究項目(JG201418)
王文霞(1979-),女,講師,碩士,研究方向為數(shù)據(jù)挖掘及算法分析;王春紅,教授,研究方向為信息檢索及算法分析。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1522.092.html
TP
A
1673-629X(2016)05-0145-04
10.3969/j.issn.1673-629X.2016.05.031