李歡
摘 要: 針對(duì)傳統(tǒng)推送技術(shù)存在推送效率低、局限性大及安全性差的問(wèn)題,提出基于文化安全的微博信息推送技術(shù);該技術(shù)下的微博信息推送系統(tǒng)主要包括用戶興趣模塊、關(guān)鍵詞采集模塊、文本分類模塊以及信息推送模塊。系統(tǒng)通過(guò)用戶興趣模塊,為用戶提供符合文化安全要求的信息;采用基于主題詞表的貝葉斯方法,獲取微博文本中的關(guān)鍵詞。通過(guò)關(guān)鍵詞和文化安全類別的互信息值,塑造關(guān)鍵詞?文化安全類別關(guān)系表,實(shí)現(xiàn)微博文本的分類;再經(jīng)過(guò)信息推送模塊,將文化安全類的微博信息推送給用戶。實(shí)驗(yàn)結(jié)果表明,該方法具有更優(yōu)的查準(zhǔn)率和召回率指標(biāo),實(shí)現(xiàn)了很好的信息推送服務(wù)。
關(guān)鍵詞: 文化安全; 微博; 信息推送; 用戶興趣模塊
中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)08?0041?04
Research of microblog information push technology based on cultural security
LI Huan
(School of Computer Science and Technology, Zhoukou Normal University, Zhoukou 466001, China)
Abstract: To solve the problems existing in traditional push technology, such as low efficiency push, great limitations and poor safety problems, a microblog information push technology based on the cultural security is proposed. The microblog information push system based on the technology is mainly composed of user interest module, keywords acquisition module, text classification module and information push module. The system provides users with information which is in accordance with the requirements of the cultural security through a user interest module, and gets the keywords in the microblog text by means of Bayesian method based on thesauri. By keyword and mutual information value in the cultural security category, the relational table of keyword and cultural security category is made to realize the classification of the microblog text. And then the weibo information in the culture safety class is pushed to the users through information push module. The experimental results indicate that the method has better precision ratio and recall rate, and can achieve very good information push service.
Keywords: cultural security; microblog; information push; user interest module
文化安全是文化建設(shè)中民族文化健全自身機(jī)制、防范和解決風(fēng)險(xiǎn)的能力。隨著當(dāng)前計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,使得人們處在快速膨脹的信息社會(huì)。由于經(jīng)濟(jì)全球化的發(fā)展,使得政治和文化呈現(xiàn)多元化發(fā)展,出現(xiàn)了很多文化交流的方式,微博作為目前最火的一個(gè)網(wǎng)絡(luò)社交平臺(tái),受到越來(lái)越多人的關(guān)注和使用。社會(huì)中的任何人都可通過(guò)微博肆意發(fā)布任何消息,對(duì)于我國(guó)的文化安全造成了嚴(yán)重威脅[1?3]。因此,為了確保中國(guó)文化安全性,應(yīng)在微博信息推送過(guò)程中考慮文化安全因素,關(guān)注微博時(shí)代信息傳播的安全性具有了重要意義[4?5]。但是,當(dāng)前的推送方法存在效率低,準(zhǔn)確性差等問(wèn)題,為了解決上述問(wèn)題的產(chǎn)生,本文提出基于文化安全的微博信息推送系統(tǒng),該系統(tǒng)由用戶交互層、興趣模型層以及語(yǔ)義操作層組成。系統(tǒng)依據(jù)關(guān)鍵詞和文化安全類別的互信息值,塑造關(guān)鍵詞?文化安全類別關(guān)系表,實(shí)現(xiàn)微博文本的分類。通過(guò)信息推送模塊,將文化安全類別的微博信息推送給用戶。實(shí)驗(yàn)結(jié)果說(shuō)明,本文方法具有更優(yōu)的查準(zhǔn)率和召回率指標(biāo)。
1 基于文化安全的微博信息推送技術(shù)
在了解基于文化安全的微博信息推送系統(tǒng)的組成結(jié)構(gòu)之后,進(jìn)一步對(duì)系統(tǒng)核心功能模塊進(jìn)行設(shè)計(jì)。本文設(shè)計(jì)的基于文化安全的微博信息推送系統(tǒng)主要包括用戶興趣模塊、關(guān)鍵詞采集模塊、文本分類模塊以及信息推送模塊,下面對(duì)各個(gè)模塊進(jìn)行設(shè)計(jì)分析。
1.1 用戶興趣模塊
用戶興趣模塊是系統(tǒng)用于描述用戶個(gè)性化信息需求的模塊。微博信息推送技術(shù)應(yīng)滿足用戶的個(gè)性化需求,通過(guò)用戶興趣模塊,為用戶提供文化安全類別高的微博信息。塑造用戶興趣模型時(shí),應(yīng)先采集用戶信息,再基于用戶信息塑造用戶模型,為用戶提供文化安全方面高的微博信息服務(wù),同時(shí)通過(guò)用戶反饋機(jī)制調(diào)整用戶興趣模塊信息。用戶興趣模塊建模過(guò)程如圖1所示。其中文化安全信息推送服務(wù)的模式是基于用戶興趣模型而構(gòu)建的,其可提供滿足用戶需求的文化安全信息。
1.2 關(guān)鍵詞采集模塊
在收集到用戶感興趣的信息之后,微博信息推送系統(tǒng)可準(zhǔn)確識(shí)別出文化安全類別的關(guān)鍵詞,對(duì)于系統(tǒng)推送精度具有重要作用。本文采用基于主題詞表的貝葉斯方法,采集微博文本中的關(guān)鍵詞,并在訓(xùn)練過(guò)程中采集貝葉斯模型中的相關(guān)參數(shù),對(duì)詞語(yǔ)在文本中產(chǎn)生的位置進(jìn)行了分析,可獲取更優(yōu)的結(jié)果。該算法由訓(xùn)練過(guò)程和采集過(guò)程組成,如圖2所示。
圖2 關(guān)鍵詞采集算法
1.3 文本分類模塊
采集到微博文本關(guān)鍵詞后,可通過(guò)文化安全類信息的要求對(duì)文本分類模塊進(jìn)行分析,實(shí)現(xiàn)微博文本的分類。文本分類模塊通過(guò)概率的方式,計(jì)算所屬文本安全類別的概率,而此步驟由訓(xùn)練過(guò)程和分類過(guò)程構(gòu)成。訓(xùn)練過(guò)程主要是對(duì)訓(xùn)練文本集進(jìn)行操作,明確分類算法的參數(shù),塑造文本分類器;分類過(guò)程通過(guò)使用文本分類器對(duì)微博文本進(jìn)行操作,獲取文化安全類別高的微博文本。其詳細(xì)步驟如下所示:
(1) 訓(xùn)練過(guò)程。訓(xùn)練過(guò)程主要是通過(guò)互信息量描述方法,建立微博文本詞語(yǔ)同文化安全類別文本間的關(guān)系。互信息則可以體現(xiàn)出不同兩個(gè)事件集間的關(guān)聯(lián)性。系統(tǒng)對(duì)具有文化安全類別的文本進(jìn)行訓(xùn)練學(xué)習(xí),獲取關(guān)鍵詞與文化安全類別間的關(guān)系,訓(xùn)練過(guò)程為:
① 基于關(guān)鍵詞采集算法,獲取訓(xùn)練集中不同文本中的關(guān)鍵詞。
② 通過(guò)關(guān)鍵詞和文化安全類別互信息公式,獲取關(guān)鍵詞和文化安全類別的互信息值。互信息公式為:
[MI(x,y)=log p(x,y)p(x)p(y)] (1)
式中:[p(x,y)=c(x,y)x′,y′c(x′,y′)];[p(x)]和[p(y)]分別表示關(guān)鍵詞[x]與[y]獨(dú)立出現(xiàn)的概率;[p(x,y)]是關(guān)鍵詞與同時(shí)出現(xiàn)的概率;[c(x,y)]表示關(guān)鍵詞與同時(shí)出現(xiàn)在一篇微博文本最終的次數(shù)。
③ 過(guò)濾互信息值,塑造關(guān)鍵詞?文化安全類別關(guān)系表。
(2) 分類過(guò)程。采用關(guān)鍵詞采集算法獲取微博文本中的關(guān)鍵詞。通過(guò)關(guān)鍵詞?文化安全類別表,計(jì)算微博所屬文化安全類別的概率,再依據(jù)分類順序得到相應(yīng)微博文本內(nèi)容的分類矢量,采用該分類矢量可對(duì)采集文化安全類別的微博文本信息進(jìn)行分類。詳細(xì)的過(guò)程如圖3所示。
圖3 文本分類過(guò)程
1.4 信息推送模塊
在對(duì)微博文本進(jìn)行分類之后,通過(guò)微博文本信息?興趣模型的相關(guān)度,調(diào)控文化安全類別微博信息推送的過(guò)程。當(dāng)相關(guān)度同系統(tǒng)規(guī)定一致時(shí),文化安全類別信息會(huì)被推送給用戶。具體的推送流程如下:
(1) 通過(guò)文本分類方法,對(duì)一條原始微博信息進(jìn)行處理,采集信息的分類矢量;
(2) 計(jì)算微博文化安全類別的概率;
(3) 依據(jù)信息分類矢量和興趣模型,得出用戶對(duì)文化安全類別信息的興趣度,公式為:
[興趣度=iIiPi, i=1,2,…,n] (2)
式中:[Ii]用于描述用戶對(duì)文化安全類別信息的興趣度;Pi表示微博文本屬于文化安全類別[Ci]的概率。
(4) 向用戶推送文化安全類別信息。系統(tǒng)向用戶推送文化安全類別信息時(shí),要充分分析用戶對(duì)文化安全類別信息的興趣度和熱度,再確定可不可以向用戶推送該類信息。因此,應(yīng)在用戶對(duì)文化安全類別信息的興趣度高于瀏覽的信息平均興趣度,且信息熱度高于制定的閾值時(shí),向用戶推送文化安全類的微博信息。基于文化安全的微博信息推送流程如圖4所示。
在對(duì)基于文化安全的微博信息推送系統(tǒng)的用戶興趣模塊、關(guān)鍵詞采集模塊、文本分類模塊以及信息推送模塊進(jìn)行設(shè)計(jì)之后,對(duì)其源代碼進(jìn)行設(shè)置。
2 系統(tǒng)設(shè)計(jì)實(shí)驗(yàn)代碼
本文系統(tǒng)中的用戶同服務(wù)端交互微博信息時(shí),微博信息中的文本信息、圖片消息以及語(yǔ)音消息都采用XML數(shù)據(jù)包的方式完成傳輸。所以服務(wù)端與發(fā)送端在收發(fā)數(shù)據(jù)的過(guò)程中,需要完成數(shù)據(jù)的XML數(shù)據(jù)解析及XML數(shù)據(jù)轉(zhuǎn)換處理。XML解析通常依據(jù)事件流或文檔樹(shù)完成數(shù)據(jù)的解析。而本文分析的微信推送信息,則是依據(jù)XML樹(shù)形結(jié)構(gòu)進(jìn)行的解析。所以系統(tǒng)設(shè)計(jì)的詳細(xì)代碼為:
Community immovability Pattern
收集用戶感興趣的文本
{
Pattern
Readingdata readingdata =
requirement.networkRelevancesO; 對(duì)關(guān)鍵詞進(jìn)行訓(xùn)練
PIPEspeak speak = good PIPEspeakQ:
Missive missive = speak.read(readingdata); 獲取互信息值
Component origin =
missive.forOriginComponentQ;
塑造關(guān)鍵詞?文本安全類別關(guān)系表
Catalogue
to (Component c : componentCatalogue){
pattern .stupid(c .forDenominateU, c.toThemeU);
計(jì)算文化安全類別的概率
}
readingdata.overU;
readingdata = vacancy; 推送信息
repay pattern;
}
先設(shè)置了Pattern
完成基于文化安全的微博信息推送系統(tǒng)設(shè)計(jì)及源代碼設(shè)計(jì)之后,需要進(jìn)一步對(duì)設(shè)計(jì)系統(tǒng)的性能進(jìn)行驗(yàn)證。
3 實(shí) 驗(yàn)
為了驗(yàn)證本文提出的基于文化安全的微博信息推送技術(shù)的有效性,需要進(jìn)行相關(guān)的實(shí)驗(yàn)分析。
3.1 實(shí)驗(yàn)方法
實(shí)驗(yàn)將微博網(wǎng)絡(luò)中全部的微博內(nèi)容當(dāng)成一個(gè)總文本集,分別采用本文方法和靜態(tài)推送方法,對(duì)實(shí)驗(yàn)微博網(wǎng)絡(luò)中的信息進(jìn)行推送;采用查準(zhǔn)率和召回率評(píng)估兩種方法的性能,并將總文本集按文化安全類別分為以下4類:A類,系統(tǒng)推送并屬于文化安全類別的內(nèi)容;B類,系統(tǒng)推送但不屬于文化安全類別的內(nèi)容;C類,系統(tǒng)沒(méi)有推送但屬于文化安全類別的內(nèi)容;D類,系統(tǒng)沒(méi)有推送但不屬于文化安全類別的內(nèi)容。
系統(tǒng)的查準(zhǔn)率和召回率定義如下:
查準(zhǔn)率:[U=AA+B];
召回率: [W=AA+C]。
其中:A+B用于描述系統(tǒng)的總推送微博信息數(shù);A+C用于描述全部同文本安全相關(guān)的信息數(shù)。查準(zhǔn)率值越高,說(shuō)明相應(yīng)方法下系統(tǒng)推送文化安全方面的信息準(zhǔn)確性越高。召回率越低,說(shuō)明相應(yīng)方法下系統(tǒng)推送的信息中,遺漏掉有關(guān)文化安全方面的信息越少。
3.2 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)分別對(duì)本文方法和靜態(tài)推送方法下微博信息推送系統(tǒng)的10次檢測(cè)結(jié)果分別用表1和表2描述。
基于表1和表2中的數(shù)據(jù),運(yùn)算兩種方法的查準(zhǔn)率和召回率,在實(shí)驗(yàn)次數(shù)相同的情況下,本文算法相比靜態(tài)推送方法,本文設(shè)計(jì)的系統(tǒng)推送的文化安全類微博數(shù)與實(shí)際文化安全類的全部微博數(shù)更相近。其結(jié)果分別如圖5和圖6所示。
分析圖5可得,相對(duì)于靜態(tài)推送方法,本文方法下的微博信息推送系統(tǒng)的查準(zhǔn)率是穩(wěn)定的,并且高于靜態(tài)推送方法。從圖6中的結(jié)果可以看出,本文方法下的微博信息推送系統(tǒng)的召回率較為平穩(wěn),而靜態(tài)推送方法下的系統(tǒng)召回率具有較高的波動(dòng)幅度,并且本文方法的召回率低于靜態(tài)推送方法,說(shuō)明本文方法下的微博信息推送系統(tǒng)可向用戶推送更多文化安全方面的信息,實(shí)現(xiàn)了很好的信息推送服務(wù)。
4 結(jié) 語(yǔ)
本文提出基于文化安全的微博信息推送技術(shù),在該技術(shù)下的微博信息推送系統(tǒng),主要包括用戶興趣模塊、關(guān)鍵詞采集模塊、文本分類模塊以及信息推送模塊實(shí)驗(yàn)結(jié)果說(shuō)明,本文方法具有更優(yōu)的查準(zhǔn)率和召回率指標(biāo),實(shí)現(xiàn)了很好的信息推送服務(wù)。
參考文獻(xiàn)
[1] 許少華,夏智偉.基于輪轉(zhuǎn)周期的動(dòng)態(tài)反饋負(fù)載均衡算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(6):63?66.
[2] AL?REFAIE Abbas. Factors affect companies ' safety performance in Jordan usingstructural equation modeling [J]. Safety science, 2013 (57): 169?178.
[3] FANG Dongping, WU Haojie. Development of a safety culture interaction (SCI) modelfor construction projects [J]. Safety science, 2013 (57): 138?149.
[4] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第33次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計(jì)報(bào)告[R].北京:CNNIC,2014.
[5] 李森.大數(shù)據(jù)背景下的內(nèi)河航運(yùn)信息化建設(shè)[J].信息化建設(shè),2013(8):29?31.
[6] 馮祖洪,李靜.基于主成分分析的改進(jìn)貝葉斯網(wǎng)絡(luò)入侵檢測(cè)研究[J].現(xiàn)代電子技術(shù),2012,35(19):73?75.