錢怡陶
摘 要 信息增益是當(dāng)下國內(nèi)外文本分類熱門方法之一,擁有廣泛的應(yīng)有領(lǐng)域。通過對(duì)傳統(tǒng)基礎(chǔ)的新聞推薦算法的模型原理進(jìn)行詳細(xì)分析解釋,選取各自的優(yōu)點(diǎn),指出算法融合改造的優(yōu)勢,將一種基于信息增益的新聞推薦模型,用以達(dá)到挑選出最合適的新聞推送給最有興趣的用戶的目的。
關(guān)鍵詞 信息增益;新聞推薦;TF-IDF
中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2016)05-0019-02
近年來,許多國外購物網(wǎng)站如Amazon采用信息增益的方法來幫助客戶做出消費(fèi)決定,這個(gè)方法可以有效縮短客戶閱讀大量評(píng)論的時(shí)間,從而達(dá)到更好的購物體驗(yàn)感,也加速了每一筆訂單的消費(fèi)時(shí)長[1]。而采用信息增益的文本分類方法的應(yīng)用領(lǐng)域十分廣泛,例如網(wǎng)絡(luò)輿情的挖掘[2],煙絲致香成分分析[3],甚至應(yīng)用于地震趨勢的估計(jì)預(yù)測中[4]。
1 新聞推薦的原理
新聞閱讀與線上購物的原理類似,只不過在這里將所有的商品替代為新聞,用戶也在海量的新聞中搜索自己感興趣的,如同在挑選產(chǎn)品,因此可以借鑒此種方法。在新聞推薦中主要包含的技術(shù)步驟包括提取新聞特征向量來簡化對(duì)原新聞的分析,用戶聚類來對(duì)不同類群的客戶提供個(gè)性化的推薦,進(jìn)行新聞關(guān)聯(lián)將有聯(lián)系的新聞建立聯(lián)系,最后再向客戶提供因人而異的有興趣和緊密聯(lián)系的新聞。
2 一般新聞特征提取方法
提取新聞特征向量最傳統(tǒng)和經(jīng)典的方法之一是TF-IDF法[5]。下面簡單介紹一下它的原理。
若采用向量空間模型VSM(Vector Space Model)作為新聞文本表示模型,那么新聞文本就好似在一個(gè)矢量空間中的某一點(diǎn),而其中的特征量能夠給予這個(gè)點(diǎn)矢量值[6]。那么從中提取特征向量的過程就是對(duì)新聞內(nèi)容進(jìn)行降維處理,將冗余的信息和不重要的無關(guān)信息篩選掉,從而能夠使文本在矢量空間中定點(diǎn)。常用的方法是詞頻法TF(Terms Frequency),通過計(jì)算一個(gè)詞在整個(gè)新聞中出現(xiàn)的次數(shù)來判斷這個(gè)詞對(duì)于文本的重要性和代表性。詞頻法可以在一定程度上防止同一個(gè)詞在長文本中出現(xiàn)的頻度,很可能大于短文本而帶來的干擾。
假設(shè)在文本中,詞頻的計(jì)算公式如下:
其中,分子代表某一選定詞在整個(gè)文本中的計(jì)數(shù),而分母則表示文本中所有詞的計(jì)數(shù)和。
但是這樣的方法會(huì)有很大偏差,如會(huì)有很多沒有實(shí)際意義的詞語干擾,如“的”“和”等等。因此需要對(duì)特征項(xiàng)進(jìn)行加權(quán)處理,對(duì)高價(jià)值能夠更多提供文本分類信息的特征詞給予較高權(quán)重[7]。逆向文件頻率IDF(Inverse Document Frequency)加權(quán)是普遍的一種處理計(jì)算,其計(jì)算公式如下:
其中,分子表示表示新聞庫中新聞的總和,而分母是包含特定特征詞的新聞總數(shù),再將商做對(duì)數(shù)處理。
那么TF-IDF的公式可以整理為
經(jīng)過IDF加權(quán)處理過后的TF法,可以有效降低數(shù)據(jù)維度,剔除冗余詞匯。但是這種方法只能夠判斷單文本的關(guān)鍵詞權(quán)重,不能夠給出文本類內(nèi)類外分布對(duì)關(guān)鍵詞權(quán)重的影響。下面將介紹一種可以優(yōu)化文本類間的權(quán)重計(jì)算方法。
3 信息增益的優(yōu)勢及改良
信息增益IG(Information Gain)被認(rèn)為是鑒定機(jī)器學(xué)習(xí)(Machine Learning)效果的良好標(biāo)準(zhǔn)之一[8],也是通過提取特征向量來進(jìn)行文本分類的常用方法[5]。信息增益的定義為某一特征詞選定后在文本中前后的信息熵IE(Information Entropy)之差。而信息熵在信息論中表示一個(gè)隨機(jī)事件出現(xiàn)的概率,而如果在隨機(jī)事件發(fā)生之后計(jì)算某一特征詞信息熵,則可以從中獲得這個(gè)特征詞的信息價(jià)
值[9]。在一個(gè)文本類型中,如果一個(gè)詞的信息熵越大,代表它在文本類中分布得越廣,越能夠代表這個(gè)文本類的普遍特征。信息增益的表達(dá)公式
如下[10]:
上式中,t為新聞中的特征詞,C為新聞?lì)悇e。特征詞的信息增量越大,則說明這個(gè)詞對(duì)新聞分類的貢獻(xiàn)越大,越具有代表性。在“今日頭條”上挑選50條最新的新聞(2016年1月8日至2016年1月11日期間),財(cái)經(jīng)、體育、汽車、科技、歷史五個(gè)板塊各選取10個(gè)文本,挑選“股市”“中國”“自燃”“售價(jià)”“古代”為特征項(xiàng)。結(jié)果如表1所示。
IG(股市)=-log(0.2,2)+5/50×(3/5×log
(3/5,2)+1/5×log(1/5,2)+1/5×log(1/5,2))+
45/50×(7/45×log(7/45,2)+10/45×log(10/45,
2)×2+9/45×log(9/45,2)×2)=0.105 139
IG(中國)=-log(0.2,2)+25/50×(6/25×log (6/25,2)+1/5×log(1/5,2)+3/25×log(3/25,
2)+4/25×log(4/25,2)+7/25×log(7/25,2))+
25/50×(6/25×log(6/25,2)+1/5×log(1/5,2)+
3/25×log(3/25,2)+4/25×log(4/25,2)+7/25×
log(7/25,2))=0.059 103
IG(自燃)=-log(0.2,2)+24/25×(5/24×log (5/24,2)×4+4/24×log(4/24,2))=0.097 907
IG(售價(jià))=-log (0.2,2)+6/50×(1/2×log (1/2,2)×2)+44/50×(10/44×log(10/44,2)×3+
7/44×log(7/44,2)×2)=0.176 845
IG(古代)=-log(0.2,2)+21/25×(10/42×log (10/42,2)×4+2/42×log(2/42,2))=0.489 924
由數(shù)據(jù)可以看出IG(古代)>IG(售價(jià))>IG(股市)>IG(自燃)>IG(中國)?!肮糯边@個(gè)特征項(xiàng)只出現(xiàn)在“歷史”類別的新聞中,而且占比較大,因此能夠很好的代表這類文章,IG值較高;而“中國”這個(gè)特征項(xiàng)在五類新聞中都有出現(xiàn),且分布較為均勻,且此不具有能代表某一類新聞典型特征的特點(diǎn),IG值較低。
可見特征詞的信息增益可以有效提供特征詞在文本類間的分布情況,但是不能提供文本內(nèi)部特征詞的情況。因此,可以考慮結(jié)合TF-IDF和IG共同考慮來優(yōu)化特征項(xiàng)的提取,提高其權(quán)重的準(zhǔn)確性。
中科院魯松團(tuán)隊(duì)從1996—1997年的《人民日?qǐng)?bào)》上選取了6 518篇文本,分別用TF-IDF和TF-IDF-IG兩種方法計(jì)算召回率(recall)和正確率(precision)進(jìn)行比較[11]。結(jié)果用TF-IDF-IG方法來表示文本從召回率和正確率兩個(gè)測試結(jié)果上都要好于TF-IDF法。
4 結(jié)論
可見信息增益的加入相較于傳統(tǒng)的TF-IDF法,使新聞推薦更加高效和準(zhǔn)確。但其中必須指出的是,該方法的前提是用戶的新聞偏好在一段較長的時(shí)間內(nèi)保持不變[12]。對(duì)新發(fā)布的新聞與用戶閱讀過的新聞進(jìn)行對(duì)比,當(dāng)兩篇新聞的相似度大于某一閾值,且這個(gè)閾值于不同類型的文本各異,我們才能將新錄入的新聞推薦給用戶。
參考文獻(xiàn)
[1]Richong Zhang · Thomas Tran (2011) An information gain-based approach for recommending useful product reviews. Knowl Inf Syst 26.
[2]萬源.基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].武漢:武漢理工大學(xué),2012.
[3]劉孝良,丁香乾,門月.基于信息增益的特征選擇在煙絲致香成分中的應(yīng)用[J].現(xiàn)代電子技術(shù),2012(18):92-94.
[4]齊玉妍,孫麗娜,邱玉榮,等.河北及鄰區(qū)地震時(shí)空概率增益綜合預(yù)測研究[J].中國地震,2015(1):78-88.
[5]劉建國,周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.
[6]王博.文本分類中特征選擇技術(shù)的研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2009.
[7]陳瀅.基于個(gè)性化推薦技術(shù)的“新聞客戶端”的使用與滿足研究[D].廣州:暨南大學(xué),2015.
[8]Lee C,Lee GG (2006) Information gain and divergence-based feature selection for machine learningbased text categorization. Inform Process Manag 42.
[9]李海瑞.基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D].重慶:重慶大學(xué),2012.
[10]YangY,Pedersen JO (1997)Acomparative study on feature selection in text categorization. In:Proceedings of the fourteenth international conference on machine learning:412–420.
[11]魯松,李曉黎,白碩,等.文檔中詞語權(quán)重計(jì)算方法的改進(jìn)[J].中文信息學(xué)報(bào),2000(6):8-13.
[12]付娟妮.基于信息用戶的新聞推薦系統(tǒng)特點(diǎn)及構(gòu)建[J].企業(yè)科技與發(fā)展,2013(15):39-40.