粟栗,戴晶,安寧宇,張峰
(1 中國(guó)移動(dòng)通信有限公司研究院,北京 100053; 2 中國(guó)移動(dòng)集團(tuán)公司信息安全管理與運(yùn)行中心,北京 100053)
短文本先驗(yàn)?zāi)P团卸夹g(shù)研究與實(shí)踐*
粟栗1,戴晶2,安寧宇1,張峰1
(1 中國(guó)移動(dòng)通信有限公司研究院,北京 100053; 2 中國(guó)移動(dòng)集團(tuán)公司信息安全管理與運(yùn)行中心,北京 100053)
為了應(yīng)對(duì)違規(guī)信息的快速、多樣化發(fā)展,運(yùn)營(yíng)商對(duì)違規(guī)信息的治理手段也需要與時(shí)俱進(jìn),需要對(duì)違規(guī)信息的覆蓋更全面、判定更精準(zhǔn)?;谝陨夏繕?biāo),本文提出了一種基于先驗(yàn)?zāi)P偷亩涛谋具`規(guī)信息識(shí)別與過濾方法。該方法從文字特征層、關(guān)鍵詞模式層、內(nèi)容特征層3個(gè)層面對(duì)于違規(guī)信息進(jìn)行分析,最后利用綜合分析判定層結(jié)合之前的訓(xùn)練對(duì)短信進(jìn)行最終的判定。我們?cè)诒WC較高違規(guī)信息判定準(zhǔn)確率的前提下,可以大幅度提高違規(guī)信息判定的召回率,較好的解決目前違規(guī)信息判定問題,為運(yùn)營(yíng)商節(jié)省大量人力。
違規(guī)信息過濾;先驗(yàn)?zāi)P?;文字特征;關(guān)鍵詞模式;內(nèi)容特征
目前隨著運(yùn)營(yíng)商對(duì)信息治理的逐步深入,治理手段為多樣化組合。目前的治理措施包括用戶黑名單、關(guān)鍵詞正則策略、用戶發(fā)送行為判定、相同與近似內(nèi)容自動(dòng)比對(duì)等技術(shù)。上述治理方法中,用戶黑名單、相同與近似內(nèi)容比對(duì)的技術(shù)有很高的準(zhǔn)確率,但分析范圍有限;關(guān)鍵詞正則策略、用戶發(fā)送行為判定等技術(shù)收集的疑似信息范圍較廣,但仍有較高的誤判率,需要人工審核進(jìn)行最終判定。
為了盡量多的避免違規(guī)信息騷擾用戶,一般在人工審核負(fù)擔(dān)運(yùn)行的范圍內(nèi),盡量多設(shè)置策略進(jìn)行疑似數(shù)據(jù)采集。因此,若能有方法減少疑似信息中的誤判,將利于減輕人力負(fù)擔(dān)。
本文提出一種4層先驗(yàn)?zāi)P?,基于文字特征、關(guān)鍵詞模式、內(nèi)容特征進(jìn)行訓(xùn)練,能自動(dòng)生成4層違規(guī)信息綜合判定模型,能對(duì)疑似數(shù)據(jù)中的正常信息、違規(guī)信息進(jìn)行有效判定,能達(dá)到判定準(zhǔn)確率98%以上,召回率達(dá)到60%以上。使用該模型能對(duì)數(shù)據(jù)進(jìn)行二次判定篩選,進(jìn)一步提升系統(tǒng)的自動(dòng)化能力。
目前對(duì)于違規(guī)信息的主要發(fā)現(xiàn)技術(shù)有4類。
(1)關(guān)鍵詞正則表達(dá)式過濾。通過關(guān)鍵詞組合對(duì)短信進(jìn)行篩選,發(fā)現(xiàn)違規(guī)信息。
(2)基于用戶的發(fā)送行為進(jìn)行篩選。該方法通過設(shè)定單位時(shí)間內(nèi)發(fā)送量的閾值,對(duì)可能發(fā)送違規(guī)信息的號(hào)碼進(jìn)行判定;或基于用戶發(fā)送對(duì)象的離散程度、用戶收發(fā)短信的數(shù)量比等特征進(jìn)行判定。
(3)重復(fù)或近似信息比對(duì)。通過Simhash、Jaccard等方法對(duì)文本信息內(nèi)容進(jìn)行分析,與已有的違規(guī)信息樣本/模板進(jìn)行比對(duì),發(fā)現(xiàn)可疑信息。
(4)基于內(nèi)容特征的機(jī)器學(xué)習(xí)算法。例如貝葉斯、Word2Vec等方法進(jìn)行訓(xùn)練與識(shí)別。
從能力上考慮,技術(shù)1、2都能發(fā)現(xiàn)大量的信息,且運(yùn)行效率較高,但面臨的最大的困擾是誤判率較高,帶來較多人工審核工作,效率較低。技術(shù)3具有非常高的精度,但一方面判定效率較低,另一方面對(duì)已有的判定庫的依賴性大,樣本收集有一定難度,可作為二次判定或輔助判定方法。技術(shù)4則具備較高的準(zhǔn)確率和覆蓋率,但訓(xùn)練復(fù)雜、效率較低。
例如這樣一條關(guān)鍵詞策略:(發(fā)票|稅票)&(增值|普通|6%|17%)&(電話|聯(lián)系)。當(dāng)該策略植入系統(tǒng)中,系統(tǒng)即抓取符合條件的信息并判定可能為詐騙短信。
例1,“我司供應(yīng)各類普通、增值發(fā)票:建筑.工程.商業(yè).廣告.服務(wù)(收0.5%)電話:139xxxxxxxx王生”。
例2,“公司住宿發(fā)票要求:(1)必須是增值稅發(fā)票。(2)必須包含納稅人識(shí)別號(hào)、公司電話。(3)專票需抵扣聯(lián)?!?/p>
例1為垃圾短信,例2為正常短信。
雖然通過上述4類技術(shù)手段的疊加可以取得一定的優(yōu)化效果,但仍然較難改變使用技術(shù)1、2的誤判問題。
本文提出的先驗(yàn)?zāi)P褪腔诂F(xiàn)有的違規(guī)信息與正常信息的差異度區(qū)分集和組建的數(shù)學(xué)模型。
本文提出一種基于已有人工判定結(jié)果進(jìn)行學(xué)習(xí)的先驗(yàn)?zāi)P?,針?duì)違規(guī)信息進(jìn)行判定有覆蓋面廣且準(zhǔn)確的效果,能極大提升違規(guī)信息的判定能力。設(shè)計(jì)“違規(guī)信息判定先驗(yàn)?zāi)P汀卑?個(gè)層次:文字特征分析層、關(guān)鍵詞模式匹配層、內(nèi)容特征精確判定層以及綜合分析判定層。
對(duì)各層次的功能說明如下。
2.1.1 文字特征分析層
本提案提出基于短信內(nèi)容的構(gòu)成特點(diǎn),對(duì)已分類文本進(jìn)行特征分析,形成包含長(zhǎng)度、標(biāo)點(diǎn)符號(hào)分布、特殊符號(hào)占比的三維違規(guī)信息文本特征模型?;谀P团卸ù龣z測(cè)內(nèi)容是否具備違規(guī)信息特征。該功能用于對(duì)部分不包含關(guān)鍵字特征(如新型短信),但具有明顯廣告等違規(guī)特征的短信進(jìn)行判定。
例1,“就這農(nóng)卡; 6.2.2.8 4.8.x.x.x. 0 7.8.x.x.0 0 7.1.4. 楊 xx:”。
例2,“想-了-解-某-人-的-說-話-和-短-訊-嗎; l 5053l 8xxxx潘總”。
2.1.2 關(guān)鍵詞模式匹配層
首先依據(jù)已有的分類短信進(jìn)行學(xué)習(xí),構(gòu)建關(guān)鍵詞模式庫,然后基于模式庫對(duì)包含關(guān)鍵詞的文本進(jìn)行判定。本提案提出一種基于正則的有序、帶有權(quán)重的違規(guī)信息關(guān)鍵詞分析模型,對(duì)每類關(guān)鍵詞序列形成動(dòng)態(tài)權(quán)重,用于帶有關(guān)鍵詞的短信內(nèi)容分析。
該功能適用于對(duì)包含關(guān)鍵詞的文本進(jìn)行疑似度確認(rèn)。下兩條短信都是命中相同的關(guān)鍵字,但通過本方案提出動(dòng)態(tài)關(guān)鍵詞模式庫,判定的疑似度可能不一。
例1,“我司供應(yīng)各類發(fā)票:建筑.工程.商業(yè).廣告.服務(wù)(收0.5%)電話:139xxxx8371王生”。
例2,“您好!電話:139xxxx8371王生。我司供應(yīng):建筑.工程.商業(yè).廣告.服務(wù).發(fā)票(收0.5%)”。
2.1.3 內(nèi)容特征精準(zhǔn)判定層
該部分首先通過學(xué)習(xí)建立一個(gè)庫,包含違規(guī)信息中的電話、qq、網(wǎng)址等信息,一旦在被檢測(cè)信息中命中相關(guān)信息,則進(jìn)行判定。同時(shí),該層還包含語義傾向性分析功能,具有正向或負(fù)向關(guān)聯(lián)分析功能。
例1,“恭喜您中獎(jiǎng)啦,領(lǐng)獎(jiǎng)詳細(xì)信息請(qǐng)聯(lián)系4006723xxxx”。判定結(jié)果:命中號(hào)碼,且判定為正向(與原意一致)。
例2,“4006723xxxx是詐騙電話”。判定結(jié)果:命中號(hào)碼,且判定為負(fù)向(與原意相反)。
2.1.4 綜合分析判定層
將前3層的判定規(guī)則進(jìn)行訓(xùn)練,確定判定流程,得到最優(yōu)的判定結(jié)果。
對(duì)系統(tǒng)架構(gòu)設(shè)計(jì)如圖1所示。系統(tǒng)包含基于已有信息分析、學(xué)習(xí)、建模的過程,然后基于建立的模型進(jìn)行違規(guī)信息判定。
模型分析算法模塊基于正常樣本學(xué)習(xí)庫、違規(guī)樣本學(xué)習(xí)庫、關(guān)鍵字庫進(jìn)行學(xué)習(xí)與分析形成先驗(yàn)?zāi)P汀?/p>
圖1 違規(guī)信息判定總體架構(gòu)
2.2.1 內(nèi)容特征模型算法
設(shè)定四維向量:CV=[長(zhǎng)度閾值TL,特殊符號(hào)數(shù)量TM,符號(hào)占比Tr,符號(hào)間隔均值TS]為內(nèi)容特征向量表示。
CV的學(xué)習(xí)過程為基于正常短信樣本庫、違規(guī)短信樣本庫分析如下指標(biāo):長(zhǎng)度特征、特殊符號(hào)數(shù)量、符號(hào)占比、符號(hào)間隔均值信息。典型表示如下。
2.2.1.1 長(zhǎng)度分布特征
在先驗(yàn)?zāi)P椭?,短信的長(zhǎng)度閾值(TL)是一個(gè)重要的判定手段。根據(jù)經(jīng)驗(yàn)判斷,違規(guī)信息為了有一定的信息量輸出,必然要達(dá)到一定的長(zhǎng)度,而很多正常短信則會(huì)很短。例如聊天類短信“呵呵”,“晚安”。因此我們假定L<TL的短信判定為正常短信;L>TL的短信判定為疑似短信。其中L為判定短信的長(zhǎng)度。
2.2.1.2 特殊符號(hào)個(gè)數(shù)分析
首先定義特殊符號(hào)訓(xùn)練集,然后基于訓(xùn)練樣本分析正常短信樣本、違規(guī)短信樣本中的特殊符號(hào)個(gè)數(shù)。一般來說,出現(xiàn)較多特殊符號(hào)的信息為違規(guī)信息居多,但也有一個(gè)常見的表情符號(hào)(如O(∩_∩)O~ (=@__@=)(*^__^*))出現(xiàn)在正常短信中。
例1,“↘代↘驗(yàn)↘↘開↘後↘↘發(fā)↘付↘↘嘌↘款↘I39-188-2xxxx何琳”。
例2,“開★┋山東省┋☆┋記賬┋★┋増☆值┋☆┋禾兌★據(jù)┋188-6681-xxxx王財(cái)務(wù)”。
通過數(shù)據(jù)訓(xùn)練,將特殊符號(hào)分為正常類型和違規(guī)類型,并通過訓(xùn)練確定閾值TM為違規(guī)信息判定標(biāo)記參考。
2.2.1.3 符號(hào)占比分析
在部分違規(guī)信息中,還使用正常的標(biāo)點(diǎn)符號(hào)進(jìn)行干擾,有必要對(duì)標(biāo)點(diǎn)符號(hào)在內(nèi)容中的占比進(jìn)行分析。符號(hào)占比大的信息,違規(guī)信息的可能性較大;反之則可判定為正常短信。最終確定閾值Tr為違規(guī)信息符號(hào)占比參考值。
例 1,“^各, 種 ,發(fā) :票 . 可、 開、 ① 363285⑶xxx 何小姐”。
例2,“*有{稅}{嘌}代開I3652444918 黃生”。
2.2.1.4 符號(hào)間隔位置分析
一般來說,短信中的符號(hào)出現(xiàn)存在一定間隔,而部分違規(guī)信息中特殊字符出現(xiàn)呈較為明顯的間隔特性,通過訓(xùn)練可確定閾值TS為違規(guī)信息判定標(biāo)記參考。符號(hào)間隔大于TS我們認(rèn)為是正常短信,反之認(rèn)為是疑似短信。
2.2.2 關(guān)鍵詞動(dòng)態(tài)序列權(quán)重庫生成
大部分違規(guī)短信中均包含關(guān)鍵詞,關(guān)鍵詞動(dòng)態(tài)權(quán)重庫通過詞頻統(tǒng)計(jì)分析構(gòu)建。
對(duì)正常短信樣本庫、違規(guī)短信樣本庫,計(jì)算每個(gè)關(guān)鍵詞、關(guān)鍵詞序列的命中情況如表1所示。
綜合考慮關(guān)鍵詞命中正常庫、違規(guī)庫的概率PKey1,PKey2,設(shè)定關(guān)鍵詞命中的權(quán)重:
PKey=Pkey2/Pkey1(Pkey2/Pkey1最高值為100)
表1 關(guān)鍵詞命中統(tǒng)計(jì)表
通過學(xué)習(xí)分析,可確定關(guān)鍵詞匹配模式正則:
P(?*發(fā)票?*廣告?*電話?*)=45;
P(銷售)=32。
按上述方法,可生成關(guān)鍵詞動(dòng)態(tài)序列權(quán)重庫;一旦學(xué)習(xí)樣本有變動(dòng),可動(dòng)態(tài)再次進(jìn)行權(quán)值更新。
2.2.3 特征內(nèi)容集
針對(duì)違規(guī)短信中包含的電話、qq、郵箱、URL等唯一標(biāo)識(shí)性信息,可加入特征內(nèi)容集,形成庫,并記錄違規(guī)庫命中次數(shù)。一旦待判定的信息中有該類型的信息,則可唯一命中,將待判定信息判定為違規(guī)信息。
例如我公司銷售各種普通、增值發(fā)票,電話13711111111。
上述短信命中了特征內(nèi)容集中的號(hào)碼13711111111,其權(quán)值為3,判定Hit(SMS)=3。
2.2.4 先驗(yàn)?zāi)P途C合判定算法
在先驗(yàn)?zāi)P偷?個(gè)判定流程:內(nèi)容特征模型算法、關(guān)鍵詞動(dòng)態(tài)序列權(quán)重庫以及特征內(nèi)容集,我們采用串行的判定模式進(jìn)行判定,判定是先進(jìn)行一個(gè)流程再進(jìn)行下一個(gè)流程。如果在某一個(gè)流程中已經(jīng)對(duì)某一條短信做出判定,那下一個(gè)流程的判定結(jié)果將不再對(duì)該短信的判定產(chǎn)生影響。
例如某條信息:“有發(fā)票13811145678”。該短信命中關(guān)鍵詞“發(fā)票”,特征內(nèi)容集“13811145678”,并且該短信的內(nèi)容特征模型值(CV)還小于閾值。如果先進(jìn)行CV判定,則該短信被判定為正常短信,后面的關(guān)鍵詞判定、內(nèi)容特征集判定結(jié)果將不產(chǎn)生作用;如果先做關(guān)鍵詞判定,則該短信被判定為疑似短信或違規(guī)短信;如果先做內(nèi)容特征集,則該短信被判定為違規(guī)短信。
由以上例證可見,不同的判定流程順序,對(duì)最終的判定結(jié)果會(huì)產(chǎn)生影響。在實(shí)際的算法實(shí)踐中,我們一次性填入所有的判定流程結(jié)果,然后根據(jù)預(yù)先配置好的判定流程順序,來決定最終的判定結(jié)果。例如判定流程:Step1-Step2-Step3,我們先檢查Step1是否有判定結(jié)果,如果有則先驗(yàn)?zāi)P偷呐卸ńY(jié)果就是Step1的判定結(jié)果;否則再檢查Step2的判定結(jié)果,如果為空再檢查Step3的判定結(jié)果。
在先驗(yàn)?zāi)P偷挠?xùn)練過程中,我們使用有人工審核結(jié)果的疑似短信作為訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)(默認(rèn)人工審核結(jié)果是短信的正確判定結(jié)果)。人工標(biāo)注短信集共200萬余條,我們分為訓(xùn)練短信集與測(cè)試短信集分別100萬條左右。然后經(jīng)過先驗(yàn)?zāi)P偷呐卸▽?duì)原短信添加判定結(jié)果。我們可以統(tǒng)計(jì)得出先驗(yàn)?zāi)P偷呐卸ㄐЧ⑴c人工判定結(jié)果進(jìn)行比對(duì),比對(duì)結(jié)果用召回率R(Recall)與查準(zhǔn)率P(Precision)表示,定義如下:
其中Jwrong表示先驗(yàn)?zāi)P团卸ㄥe(cuò)誤的短信量,Jright表示先驗(yàn)?zāi)P团卸ㄕ_的短信量,Msum表示短信總量。召回率表示先驗(yàn)?zāi)P团卸ǖ亩绦艛?shù)量占總短信量的比值,查準(zhǔn)率表示判定正確的短信數(shù)量占總判定量的比值。
誤判率定義如下:F=1-P。
在內(nèi)容特征模型訓(xùn)練中,我們對(duì)短信的長(zhǎng)度、特殊符號(hào)個(gè)數(shù)、符號(hào)占比以及符號(hào)間隔位置逐項(xiàng)進(jìn)行訓(xùn)練分析,確定各項(xiàng)閾值以及內(nèi)容特征模型整體閾值,具體訓(xùn)練過程如下。
3.2.1 長(zhǎng)度閾值訓(xùn)練
根據(jù)長(zhǎng)度閾值設(shè)定,我們對(duì)全量訓(xùn)練短信(包括正常短信、違規(guī)短信)利用長(zhǎng)度閾值判定規(guī)則進(jìn)行判定,結(jié)果如圖2所示。
圖2 先驗(yàn)?zāi)P烷L(zhǎng)度閾值訓(xùn)練
考慮到短信過濾系統(tǒng)需要查準(zhǔn)率盡可能的高,所以短信長(zhǎng)度閾值的設(shè)定我們認(rèn)為20最理想,所以確定TL=20。
3.2.2 特殊符號(hào)數(shù)量訓(xùn)練
我們將特殊符號(hào)分為正常類型和違規(guī)類型,并通過訓(xùn)練確定違規(guī)類型閾值為違規(guī)信息判定標(biāo)記參考。通過數(shù)據(jù)訓(xùn)練,確認(rèn)某類特殊符號(hào)10個(gè)以上的60%以上為違規(guī)信息,因此確定TM=10。
3.2.3 符號(hào)占比訓(xùn)練
在文本中,我們計(jì)算特殊符號(hào)等符號(hào)信息占整體短信文本的比例,訓(xùn)練的結(jié)果表示如圖3表示。我們看到符號(hào)占比的閾值在0.15~0.25之間時(shí),違規(guī)短信的數(shù)量最多,因此我們將違規(guī)短信占比閾值確定為0.15~0.25。
圖3 符號(hào)占比分析
3.2.4 符號(hào)間隔位置訓(xùn)練
對(duì)符號(hào)間隔采用2次曲線進(jìn)行擬合后,進(jìn)行分段積分分析,可確定合適的閾值判定違規(guī)信息。例如經(jīng)過某訓(xùn)練集分析,標(biāo)點(diǎn)符號(hào)間隔在1~3.3之間,違規(guī)信息占比為96%;因此,確定TS=1~3.3。
3.2.5 內(nèi)容特征模型算法綜合訓(xùn)練與判定
基于上述訓(xùn)練,可確定四維向量,即CV=[長(zhǎng)度閾值TL(TL>20),特殊符號(hào)數(shù)量TM(TM>10),符號(hào)占比Tr(0.15≤Tr≤0.25),符號(hào)間隔均值TS(1≤TS≤3.3)]。
若某短信經(jīng)內(nèi)容分析,長(zhǎng)度、特殊符號(hào)數(shù)量、符號(hào)占比均滿足違規(guī)閾值要求,符號(hào)間隔不滿足違規(guī)閾值要求,則經(jīng)過CV閾值判定的結(jié)果為:
在關(guān)鍵詞訓(xùn)練的第一步,我們首先計(jì)算每個(gè)關(guān)鍵詞進(jìn)行序列提取,并在訓(xùn)練短信庫中的判定準(zhǔn)確率。它的定義如下:
相應(yīng)的誤判率為Kf=1-Kr
因?yàn)樵谙闰?yàn)?zāi)P椭校P(guān)鍵詞序列若命中人工判定的違規(guī)短信(即Jright),我們就認(rèn)為它正確判定,否則是錯(cuò)誤判定。
我們對(duì)關(guān)鍵詞的判定準(zhǔn)確率在100萬的訓(xùn)練庫中進(jìn)行測(cè)試,判定結(jié)果如圖4所示。
圖4 關(guān)鍵詞篩選
可以看到隨著關(guān)鍵詞序列判定閾值的下降,先驗(yàn)?zāi)P偷恼倩芈室搽S之下降,但先驗(yàn)?zāi)P偷臏?zhǔn)確率在關(guān)鍵詞閾值為0.1時(shí)最大,查全率在0.2時(shí)最高。平衡系統(tǒng)的準(zhǔn)確率與查全率,選擇0.15 作為關(guān)鍵詞篩選的參數(shù)。
我們將提取的回聯(lián)號(hào)碼代入訓(xùn)練庫中,計(jì)算回聯(lián)號(hào)碼的命中準(zhǔn)確率,如公式:
Jright為回聯(lián)號(hào)碼命中的違規(guī)短信,Jwrong為回聯(lián)號(hào)碼命中的正常短信。這里應(yīng)用回聯(lián)號(hào)碼的目的是找出違規(guī)信息,所以回聯(lián)號(hào)碼命中違規(guī)短信的,為正確命中;反之命中正常短信的,為錯(cuò)誤命中。
經(jīng)過訓(xùn)練,回聯(lián)號(hào)碼的命中率非常高,可以選取0.99作為回聯(lián)號(hào)碼命中準(zhǔn)確率的閾值,我們選取大于或等于此閾值的回聯(lián)號(hào)碼作為黑名單,放入配置文件。
我們定義各個(gè)判定流程如下。
Step1:內(nèi)容特征模型算法判定。
Step2:關(guān)鍵詞判定。
圖5 先驗(yàn)?zāi)P团卸樞蛴?xùn)練
Step3:特征內(nèi)容集判定。
不同的判定順序得到的判定結(jié)果如圖5所示。
圖5中123表示判定順序?yàn)镾tep1、Step2、Step3,以此類推。判定模型為123時(shí)判定準(zhǔn)確率最高,而判定模型順序?yàn)?21時(shí)判定召回率最高??紤]到判定的準(zhǔn)確率都在99%以上,因此選擇判定順序321(即Step3、Step2、Step1的順序)為算法的全流程判定順序??膳卸?3%左右的短信,并且判定的準(zhǔn)確率達(dá)到99%以上。
本文提出一種先驗(yàn)?zāi)P偷男畔⑴卸ǚ椒ǎ瑫r(shí)具備基于關(guān)鍵詞判定的覆蓋率,又具備較高的準(zhǔn)確率。應(yīng)用該方法能解決違規(guī)信息判定中的如下問題:一是能盡可能發(fā)現(xiàn)已知類型違規(guī)信息,具有很高的覆蓋率;二是通過對(duì)已判定的信息進(jìn)行不斷學(xué)習(xí),自動(dòng)優(yōu)化判定模型,提升對(duì)新信息的發(fā)現(xiàn)能力;三是能基于已知的特點(diǎn)進(jìn)行分析,具有較高的準(zhǔn)確率,節(jié)省人工判定工作量。
通過實(shí)際數(shù)據(jù)檢驗(yàn),采用先驗(yàn)?zāi)P团卸ㄋ惴ㄔ谂卸?zhǔn)確率達(dá)到98%以上的同時(shí),判定召回率達(dá)到60%以上。
AbstractIn order to deal with the rapid and diversified development of spam messages, the governance means of operators towards spam messages need to advance with the times, need to cover more comprehensive and judge more accurate. In view of the objectives, we proposed an identification and filtering method based on prior model for short text spam messages. This method analyze short text from three aspects,respectively text feature layer, keyword pattern layer and content feature layer, then ultimately give a final judgment result using comprehensive analysis and determination layer with previous training process. We can not only ensure the precision of spam messages recognition, but also greatly improve the recall of spam message recognition. We give a better solution to the current spam messages recognition problem, which may save a lot of manpower for the operators.
Keywordsspam messages filter; prior model; text feature; keyword pattern; content feature
The research and practice of a prior model decision technique for short text
SU Li1, DAI Jing2, AN Ning-Yu1, ZHANG Feng1
(1 China Mobile Research Institute, Beijing 100053, China; 2 China Mobile Information Security Center, Beijing 100053, China)
TN918
A
1008-5599(2017)10-0033-06
2017-09-18
* 中國(guó)移動(dòng)集團(tuán)級(jí)一類科技創(chuàng)新成果,原成果名稱為《基于大數(shù)據(jù)算法的信息安全管控工具與平臺(tái)研發(fā)(莫擾)》。