亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信息增益對(duì)于提取新聞特征向量的優(yōu)勢

        2016-05-14 14:34:24錢怡陶
        新媒體研究 2016年5期

        錢怡陶

        摘 要 信息增益是當(dāng)下國內(nèi)外文本分類熱門方法之一,擁有廣泛的應(yīng)有領(lǐng)域。通過對(duì)傳統(tǒng)基礎(chǔ)的新聞推薦算法的模型原理進(jìn)行詳細(xì)分析解釋,選取各自的優(yōu)點(diǎn),指出算法融合改造的優(yōu)勢,將一種基于信息增益的新聞推薦模型,用以達(dá)到挑選出最合適的新聞推送給最有興趣的用戶的目的。

        關(guān)鍵詞 信息增益;新聞推薦;TF-IDF

        中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2016)05-0019-02

        近年來,許多國外購物網(wǎng)站如Amazon采用信息增益的方法來幫助客戶做出消費(fèi)決定,這個(gè)方法可以有效縮短客戶閱讀大量評(píng)論的時(shí)間,從而達(dá)到更好的購物體驗(yàn)感,也加速了每一筆訂單的消費(fèi)時(shí)長[1]。而采用信息增益的文本分類方法的應(yīng)用領(lǐng)域十分廣泛,例如網(wǎng)絡(luò)輿情的挖掘[2],煙絲致香成分分析[3],甚至應(yīng)用于地震趨勢的估計(jì)預(yù)測中[4]。

        1 新聞推薦的原理

        新聞閱讀與線上購物的原理類似,只不過在這里將所有的商品替代為新聞,用戶也在海量的新聞中搜索自己感興趣的,如同在挑選產(chǎn)品,因此可以借鑒此種方法。在新聞推薦中主要包含的技術(shù)步驟包括提取新聞特征向量來簡化對(duì)原新聞的分析,用戶聚類來對(duì)不同類群的客戶提供個(gè)性化的推薦,進(jìn)行新聞關(guān)聯(lián)將有聯(lián)系的新聞建立聯(lián)系,最后再向客戶提供因人而異的有興趣和緊密聯(lián)系的新聞。

        2 一般新聞特征提取方法

        提取新聞特征向量最傳統(tǒng)和經(jīng)典的方法之一是TF-IDF法[5]。下面簡單介紹一下它的原理。

        若采用向量空間模型VSM(Vector Space Model)作為新聞文本表示模型,那么新聞文本就好似在一個(gè)矢量空間中的某一點(diǎn),而其中的特征量能夠給予這個(gè)點(diǎn)矢量值[6]。那么從中提取特征向量的過程就是對(duì)新聞內(nèi)容進(jìn)行降維處理,將冗余的信息和不重要的無關(guān)信息篩選掉,從而能夠使文本在矢量空間中定點(diǎn)。常用的方法是詞頻法TF(Terms Frequency),通過計(jì)算一個(gè)詞在整個(gè)新聞中出現(xiàn)的次數(shù)來判斷這個(gè)詞對(duì)于文本的重要性和代表性。詞頻法可以在一定程度上防止同一個(gè)詞在長文本中出現(xiàn)的頻度,很可能大于短文本而帶來的干擾。

        假設(shè)在文本中,詞頻的計(jì)算公式如下:

        其中,分子代表某一選定詞在整個(gè)文本中的計(jì)數(shù),而分母則表示文本中所有詞的計(jì)數(shù)和。

        但是這樣的方法會(huì)有很大偏差,如會(huì)有很多沒有實(shí)際意義的詞語干擾,如“的”“和”等等。因此需要對(duì)特征項(xiàng)進(jìn)行加權(quán)處理,對(duì)高價(jià)值能夠更多提供文本分類信息的特征詞給予較高權(quán)重[7]。逆向文件頻率IDF(Inverse Document Frequency)加權(quán)是普遍的一種處理計(jì)算,其計(jì)算公式如下:

        其中,分子表示表示新聞庫中新聞的總和,而分母是包含特定特征詞的新聞總數(shù),再將商做對(duì)數(shù)處理。

        那么TF-IDF的公式可以整理為

        經(jīng)過IDF加權(quán)處理過后的TF法,可以有效降低數(shù)據(jù)維度,剔除冗余詞匯。但是這種方法只能夠判斷單文本的關(guān)鍵詞權(quán)重,不能夠給出文本類內(nèi)類外分布對(duì)關(guān)鍵詞權(quán)重的影響。下面將介紹一種可以優(yōu)化文本類間的權(quán)重計(jì)算方法。

        3 信息增益的優(yōu)勢及改良

        信息增益IG(Information Gain)被認(rèn)為是鑒定機(jī)器學(xué)習(xí)(Machine Learning)效果的良好標(biāo)準(zhǔn)之一[8],也是通過提取特征向量來進(jìn)行文本分類的常用方法[5]。信息增益的定義為某一特征詞選定后在文本中前后的信息熵IE(Information Entropy)之差。而信息熵在信息論中表示一個(gè)隨機(jī)事件出現(xiàn)的概率,而如果在隨機(jī)事件發(fā)生之后計(jì)算某一特征詞信息熵,則可以從中獲得這個(gè)特征詞的信息價(jià)

        值[9]。在一個(gè)文本類型中,如果一個(gè)詞的信息熵越大,代表它在文本類中分布得越廣,越能夠代表這個(gè)文本類的普遍特征。信息增益的表達(dá)公式

        如下[10]:

        上式中,t為新聞中的特征詞,C為新聞?lì)悇e。特征詞的信息增量越大,則說明這個(gè)詞對(duì)新聞分類的貢獻(xiàn)越大,越具有代表性。在“今日頭條”上挑選50條最新的新聞(2016年1月8日至2016年1月11日期間),財(cái)經(jīng)、體育、汽車、科技、歷史五個(gè)板塊各選取10個(gè)文本,挑選“股市”“中國”“自燃”“售價(jià)”“古代”為特征項(xiàng)。結(jié)果如表1所示。

        IG(股市)=-log(0.2,2)+5/50×(3/5×log

        (3/5,2)+1/5×log(1/5,2)+1/5×log(1/5,2))+

        45/50×(7/45×log(7/45,2)+10/45×log(10/45,

        2)×2+9/45×log(9/45,2)×2)=0.105 139

        IG(中國)=-log(0.2,2)+25/50×(6/25×log (6/25,2)+1/5×log(1/5,2)+3/25×log(3/25,

        2)+4/25×log(4/25,2)+7/25×log(7/25,2))+

        25/50×(6/25×log(6/25,2)+1/5×log(1/5,2)+

        3/25×log(3/25,2)+4/25×log(4/25,2)+7/25×

        log(7/25,2))=0.059 103

        IG(自燃)=-log(0.2,2)+24/25×(5/24×log (5/24,2)×4+4/24×log(4/24,2))=0.097 907

        IG(售價(jià))=-log (0.2,2)+6/50×(1/2×log (1/2,2)×2)+44/50×(10/44×log(10/44,2)×3+

        7/44×log(7/44,2)×2)=0.176 845

        IG(古代)=-log(0.2,2)+21/25×(10/42×log (10/42,2)×4+2/42×log(2/42,2))=0.489 924

        由數(shù)據(jù)可以看出IG(古代)>IG(售價(jià))>IG(股市)>IG(自燃)>IG(中國)?!肮糯边@個(gè)特征項(xiàng)只出現(xiàn)在“歷史”類別的新聞中,而且占比較大,因此能夠很好的代表這類文章,IG值較高;而“中國”這個(gè)特征項(xiàng)在五類新聞中都有出現(xiàn),且分布較為均勻,且此不具有能代表某一類新聞典型特征的特點(diǎn),IG值較低。

        可見特征詞的信息增益可以有效提供特征詞在文本類間的分布情況,但是不能提供文本內(nèi)部特征詞的情況。因此,可以考慮結(jié)合TF-IDF和IG共同考慮來優(yōu)化特征項(xiàng)的提取,提高其權(quán)重的準(zhǔn)確性。

        中科院魯松團(tuán)隊(duì)從1996—1997年的《人民日?qǐng)?bào)》上選取了6 518篇文本,分別用TF-IDF和TF-IDF-IG兩種方法計(jì)算召回率(recall)和正確率(precision)進(jìn)行比較[11]。結(jié)果用TF-IDF-IG方法來表示文本從召回率和正確率兩個(gè)測試結(jié)果上都要好于TF-IDF法。

        4 結(jié)論

        可見信息增益的加入相較于傳統(tǒng)的TF-IDF法,使新聞推薦更加高效和準(zhǔn)確。但其中必須指出的是,該方法的前提是用戶的新聞偏好在一段較長的時(shí)間內(nèi)保持不變[12]。對(duì)新發(fā)布的新聞與用戶閱讀過的新聞進(jìn)行對(duì)比,當(dāng)兩篇新聞的相似度大于某一閾值,且這個(gè)閾值于不同類型的文本各異,我們才能將新錄入的新聞推薦給用戶。

        參考文獻(xiàn)

        [1]Richong Zhang · Thomas Tran (2011) An information gain-based approach for recommending useful product reviews. Knowl Inf Syst 26.

        [2]萬源.基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].武漢:武漢理工大學(xué),2012.

        [3]劉孝良,丁香乾,門月.基于信息增益的特征選擇在煙絲致香成分中的應(yīng)用[J].現(xiàn)代電子技術(shù),2012(18):92-94.

        [4]齊玉妍,孫麗娜,邱玉榮,等.河北及鄰區(qū)地震時(shí)空概率增益綜合預(yù)測研究[J].中國地震,2015(1):78-88.

        [5]劉建國,周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.

        [6]王博.文本分類中特征選擇技術(shù)的研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2009.

        [7]陳瀅.基于個(gè)性化推薦技術(shù)的“新聞客戶端”的使用與滿足研究[D].廣州:暨南大學(xué),2015.

        [8]Lee C,Lee GG (2006) Information gain and divergence-based feature selection for machine learningbased text categorization. Inform Process Manag 42.

        [9]李海瑞.基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D].重慶:重慶大學(xué),2012.

        [10]YangY,Pedersen JO (1997)Acomparative study on feature selection in text categorization. In:Proceedings of the fourteenth international conference on machine learning:412–420.

        [11]魯松,李曉黎,白碩,等.文檔中詞語權(quán)重計(jì)算方法的改進(jìn)[J].中文信息學(xué)報(bào),2000(6):8-13.

        [12]付娟妮.基于信息用戶的新聞推薦系統(tǒng)特點(diǎn)及構(gòu)建[J].企業(yè)科技與發(fā)展,2013(15):39-40.

        日本午夜理伦三级好看| 久热这里只有精品视频6| 亚洲va欧美va国产综合| 日日噜噜夜夜狠狠2021| 国产av一级二级三级| 欧美老肥婆牲交videos| 俺来也俺去啦最新在线| 国产麻豆精品久久一二三| 久久综合网天天 | 日本高清中文字幕二区在线| 国产一区二区三区在线视频观看| 成人免费a级毛片| 妺妺窝人体色www在线图片| 熟女少妇av免费观看| 人妖一区二区三区在线| 三级全黄的视频在线观看| 国产思思99re99在线观看| 加勒比东京热综合久久| 性感女教师在线免费观看| 特级毛片a级毛片100免费播放| 精品手机在线视频| 一区二区三区在线观看视频免费| 91九色免费视频网站| 国产综合无码一区二区色蜜蜜| 99精品国产兔费观看久久| 亚洲中字永久一区二区三区| 国产无遮挡aaa片爽爽| 丰满的少妇xxxxx青青青| 日韩中文字幕久久久经典网| 免费人成黄页网站在线一区二区 | 绿帽人妻被插出白浆免费观看| 蜜桃臀av一区二区三区| 亚洲精品久久久久中文字幕一福利| 亚洲天堂资源网| 精品人妻av区二区三区| 欧美国产激情二区三区| 欧美真人性做爰一二区| 91国产超碰在线观看| 精品人妻一区二区三区久久| 无码国产午夜福利片在线观看| 国产精品久久久久久久y|