亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

信息增益對(duì)于提取新聞特征向量的優(yōu)勢

2016-05-14 14:34:24錢怡陶

新媒體研究 2016年5期

錢怡陶

摘要信息增益是當(dāng)下國內(nèi)外文本分類熱門方法之一，擁有廣泛的應(yīng)有領(lǐng)域。通過對(duì)傳統(tǒng)基礎(chǔ)的新聞推薦算法的模型原理進(jìn)行詳細(xì)分析解釋，選取各自的優(yōu)點(diǎn)，指出算法融合改造的優(yōu)勢，將一種基于信息增益的新聞推薦模型，用以達(dá)到挑選出最合適的新聞推送給最有興趣的用戶的目的。

關(guān)鍵詞信息增益；新聞推薦；TF-IDF

中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360（2016）05-0019-02

近年來，許多國外購物網(wǎng)站如Amazon采用信息增益的方法來幫助客戶做出消費(fèi)決定，這個(gè)方法可以有效縮短客戶閱讀大量評(píng)論的時(shí)間，從而達(dá)到更好的購物體驗(yàn)感，也加速了每一筆訂單的消費(fèi)時(shí)長[1]。而采用信息增益的文本分類方法的應(yīng)用領(lǐng)域十分廣泛，例如網(wǎng)絡(luò)輿情的挖掘[2]，煙絲致香成分分析[3]，甚至應(yīng)用于地震趨勢的估計(jì)預(yù)測中[4]。

1 新聞推薦的原理

新聞閱讀與線上購物的原理類似，只不過在這里將所有的商品替代為新聞，用戶也在海量的新聞中搜索自己感興趣的，如同在挑選產(chǎn)品，因此可以借鑒此種方法。在新聞推薦中主要包含的技術(shù)步驟包括提取新聞特征向量來簡化對(duì)原新聞的分析，用戶聚類來對(duì)不同類群的客戶提供個(gè)性化的推薦，進(jìn)行新聞關(guān)聯(lián)將有聯(lián)系的新聞建立聯(lián)系，最后再向客戶提供因人而異的有興趣和緊密聯(lián)系的新聞。

2 一般新聞特征提取方法

提取新聞特征向量最傳統(tǒng)和經(jīng)典的方法之一是TF-IDF法[5]。下面簡單介紹一下它的原理。

若采用向量空間模型VSM（Vector Space Model）作為新聞文本表示模型，那么新聞文本就好似在一個(gè)矢量空間中的某一點(diǎn)，而其中的特征量能夠給予這個(gè)點(diǎn)矢量值[6]。那么從中提取特征向量的過程就是對(duì)新聞內(nèi)容進(jìn)行降維處理，將冗余的信息和不重要的無關(guān)信息篩選掉，從而能夠使文本在矢量空間中定點(diǎn)。常用的方法是詞頻法TF（Terms Frequency），通過計(jì)算一個(gè)詞在整個(gè)新聞中出現(xiàn)的次數(shù)來判斷這個(gè)詞對(duì)于文本的重要性和代表性。詞頻法可以在一定程度上防止同一個(gè)詞在長文本中出現(xiàn)的頻度，很可能大于短文本而帶來的干擾。

假設(shè)在文本中，詞頻的計(jì)算公式如下：

其中，分子代表某一選定詞在整個(gè)文本中的計(jì)數(shù)，而分母則表示文本中所有詞的計(jì)數(shù)和。

但是這樣的方法會(huì)有很大偏差，如會(huì)有很多沒有實(shí)際意義的詞語干擾，如“的”“和”等等。因此需要對(duì)特征項(xiàng)進(jìn)行加權(quán)處理，對(duì)高價(jià)值能夠更多提供文本分類信息的特征詞給予較高權(quán)重[7]。逆向文件頻率IDF（Inverse Document Frequency）加權(quán)是普遍的一種處理計(jì)算，其計(jì)算公式如下：

其中，分子表示表示新聞庫中新聞的總和，而分母是包含特定特征詞的新聞總數(shù)，再將商做對(duì)數(shù)處理。

那么TF-IDF的公式可以整理為

經(jīng)過IDF加權(quán)處理過后的TF法，可以有效降低數(shù)據(jù)維度，剔除冗余詞匯。但是這種方法只能夠判斷單文本的關(guān)鍵詞權(quán)重，不能夠給出文本類內(nèi)類外分布對(duì)關(guān)鍵詞權(quán)重的影響。下面將介紹一種可以優(yōu)化文本類間的權(quán)重計(jì)算方法。

3 信息增益的優(yōu)勢及改良

信息增益IG（Information Gain）被認(rèn)為是鑒定機(jī)器學(xué)習(xí)（Machine Learning）效果的良好標(biāo)準(zhǔn)之一[8]，也是通過提取特征向量來進(jìn)行文本分類的常用方法[5]。信息增益的定義為某一特征詞選定后在文本中前后的信息熵IE（Information Entropy）之差。而信息熵在信息論中表示一個(gè)隨機(jī)事件出現(xiàn)的概率，而如果在隨機(jī)事件發(fā)生之后計(jì)算某一特征詞信息熵，則可以從中獲得這個(gè)特征詞的信息價(jià)

值[9]。在一個(gè)文本類型中，如果一個(gè)詞的信息熵越大，代表它在文本類中分布得越廣，越能夠代表這個(gè)文本類的普遍特征。信息增益的表達(dá)公式

如下[10]：

上式中，t為新聞中的特征詞，C為新聞?lì)悇e。特征詞的信息增量越大，則說明這個(gè)詞對(duì)新聞分類的貢獻(xiàn)越大，越具有代表性。在“今日頭條”上挑選50條最新的新聞（2016年1月8日至2016年1月11日期間），財(cái)經(jīng)、體育、汽車、科技、歷史五個(gè)板塊各選取10個(gè)文本，挑選“股市”“中國”“自燃”“售價(jià)”“古代”為特征項(xiàng)。結(jié)果如表1所示。

IG（股市）=-log（0.2，2）+5/50×（3/5×log

（3/5，2）+1/5×log（1/5，2）+1/5×log（1/5，2））+

45/50×（7/45×log（7/45，2）+10/45×log（10/45，

2）×2+9/45×log（9/45，2）×2）=0.105 139

IG（中國）=-log（0.2，2）+25/50×（6/25×log （6/25，2）+1/5×log（1/5，2）+3/25×log（3/25，

2）+4/25×log（4/25，2）+7/25×log（7/25，2））+

25/50×（6/25×log（6/25，2）+1/5×log（1/5，2）+

3/25×log（3/25，2）+4/25×log（4/25，2）+7/25×

log（7/25，2））=0.059 103

IG（自燃）=-log（0.2，2）+24/25×（5/24×log （5/24，2）×4+4/24×log（4/24，2））=0.097 907

IG（售價(jià)）=-log （0.2，2）+6/50×（1/2×log （1/2，2）×2）+44/50×（10/44×log（10/44，2）×3+

7/44×log（7/44，2）×2）=0.176 845

IG（古代）=-log（0.2，2）+21/25×（10/42×log （10/42，2）×4+2/42×log（2/42，2））=0.489 924

由數(shù)據(jù)可以看出IG（古代）>IG（售價(jià)）>IG（股市）>IG（自燃）>IG（中國）?！肮糯边@個(gè)特征項(xiàng)只出現(xiàn)在“歷史”類別的新聞中，而且占比較大，因此能夠很好的代表這類文章，IG值較高；而“中國”這個(gè)特征項(xiàng)在五類新聞中都有出現(xiàn)，且分布較為均勻，且此不具有能代表某一類新聞典型特征的特點(diǎn)，IG值較低。

可見特征詞的信息增益可以有效提供特征詞在文本類間的分布情況，但是不能提供文本內(nèi)部特征詞的情況。因此，可以考慮結(jié)合TF-IDF和IG共同考慮來優(yōu)化特征項(xiàng)的提取，提高其權(quán)重的準(zhǔn)確性。

中科院魯松團(tuán)隊(duì)從1996—1997年的《人民日?qǐng)?bào)》上選取了6 518篇文本，分別用TF-IDF和TF-IDF-IG兩種方法計(jì)算召回率（recall）和正確率（precision）進(jìn)行比較[11]。結(jié)果用TF-IDF-IG方法來表示文本從召回率和正確率兩個(gè)測試結(jié)果上都要好于TF-IDF法。

4 結(jié)論

可見信息增益的加入相較于傳統(tǒng)的TF-IDF法，使新聞推薦更加高效和準(zhǔn)確。但其中必須指出的是，該方法的前提是用戶的新聞偏好在一段較長的時(shí)間內(nèi)保持不變[12]。對(duì)新發(fā)布的新聞與用戶閱讀過的新聞進(jìn)行對(duì)比，當(dāng)兩篇新聞的相似度大于某一閾值，且這個(gè)閾值于不同類型的文本各異，我們才能將新錄入的新聞推薦給用戶。

參考文獻(xiàn)

[1]Richong Zhang · Thomas Tran （2011） An information gain-based approach for recommending useful product reviews. Knowl Inf Syst 26.

[2]萬源.基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].武漢：武漢理工大學(xué)，2012.

[3]劉孝良，丁香乾，門月.基于信息增益的特征選擇在煙絲致香成分中的應(yīng)用[J].現(xiàn)代電子技術(shù)，2012（18）：92-94.

[4]齊玉妍，孫麗娜，邱玉榮，等.河北及鄰區(qū)地震時(shí)空概率增益綜合預(yù)測研究[J].中國地震，2015（1）：78-88.

[5]劉建國，周濤，汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展，2009，19（1）：1-15.

[6]王博.文本分類中特征選擇技術(shù)的研究[D].長沙：國防科學(xué)技術(shù)大學(xué)，2009.

[7]陳瀅.基于個(gè)性化推薦技術(shù)的“新聞客戶端”的使用與滿足研究[D].廣州：暨南大學(xué)，2015.

[8]Lee C，Lee GG （2006） Information gain and divergence-based feature selection for machine learningbased text categorization. Inform Process Manag 42.

[9]李海瑞.基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D].重慶：重慶大學(xué)，2012.

[10]YangY，Pedersen JO （1997）Acomparative study on feature selection in text categorization. In：Proceedings of the fourteenth international conference on machine learning：412–420.

[11]魯松，李曉黎，白碩，等.文檔中詞語權(quán)重計(jì)算方法的改進(jìn)[J].中文信息學(xué)報(bào)，2000（6）：8-13.

[12]付娟妮.基于信息用戶的新聞推薦系統(tǒng)特點(diǎn)及構(gòu)建[J].企業(yè)科技與發(fā)展，2013（15）：39-40.

新媒體研究2016年5期

新媒體研究的其它文章: 播音主持藝術(shù)的發(fā)展前景分析; 網(wǎng)絡(luò)新聞傳播效果評(píng)估的作用及方法; 法制類電視節(jié)目如何講好精彩故事; 新聞輿論監(jiān)督類欄目的發(fā)展策略; 新聞標(biāo)題在新聞報(bào)道中的引導(dǎo)作用; 經(jīng)濟(jì)新聞策劃的合理性原則與方法