亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TF*PDF的熱點(diǎn)新聞發(fā)現(xiàn)研究

        2017-04-22 10:11:18盧春光周安民
        現(xiàn)代計(jì)算機(jī) 2017年8期
        關(guān)鍵詞:詞匯用戶

        盧春光,周安民

        (四川大學(xué)電子信息學(xué)院,成都 610065)

        基于TF*PDF的熱點(diǎn)新聞發(fā)現(xiàn)研究

        盧春光,周安民

        (四川大學(xué)電子信息學(xué)院,成都 610065)

        隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)新聞呈現(xiàn)爆炸式的增長(zhǎng),如何有效發(fā)現(xiàn)熱點(diǎn)新聞成為了當(dāng)前研究的熱點(diǎn)之一。TF*PDF算法側(cè)重文本中熱點(diǎn)詞的計(jì)算,但沒(méi)有考慮用戶的影響。用戶的閱讀和評(píng)論在熱點(diǎn)新聞的發(fā)展和形成過(guò)程中起到催化劑的作用,引入用戶關(guān)注度用來(lái)表示熱點(diǎn)新聞受關(guān)注的程度,提出一種基于TF*PDF算法和用戶關(guān)注度相結(jié)合的熱點(diǎn)新聞發(fā)現(xiàn)方法。首先采用TF*PDF算法發(fā)現(xiàn)熱點(diǎn)新聞相關(guān)的熱點(diǎn)詞匯,然后計(jì)算出用戶關(guān)注度以發(fā)現(xiàn)熱點(diǎn)新聞。實(shí)驗(yàn)結(jié)果表明,該方法可以有效發(fā)現(xiàn)熱點(diǎn)新聞。

        熱點(diǎn)詞;用戶關(guān)注度;熱點(diǎn)新聞

        0 引言

        網(wǎng)絡(luò)熱點(diǎn)新聞是指能呈現(xiàn)當(dāng)前重要事件、反映當(dāng)前關(guān)注焦點(diǎn)和輿論傾向的新聞。普通新聞發(fā)展成為熱點(diǎn)新聞包括:新聞報(bào)道被各大網(wǎng)站轉(zhuǎn)載,吸引人們關(guān)注,人們受新聞評(píng)論的影響,產(chǎn)生思想共鳴或異議,進(jìn)而產(chǎn)生對(duì)個(gè)人的影響,新聞事件持續(xù)的傳播,受到影響的人數(shù)越來(lái)越多,最終發(fā)展成為熱點(diǎn)新聞,對(duì)社會(huì)造成一定的影響。熱點(diǎn)新聞的特點(diǎn)包括關(guān)注廣泛性,利益相關(guān)性,重復(fù)轉(zhuǎn)載性和漸進(jìn)持續(xù)性。網(wǎng)絡(luò)熱點(diǎn)新聞的發(fā)現(xiàn)能夠幫助人們了解當(dāng)前的社會(huì)動(dòng)態(tài),關(guān)注民生,同時(shí)也能幫助政府部門(mén)及時(shí)掌握社會(huì)輿情的發(fā)展態(tài)勢(shì),進(jìn)而正確引導(dǎo)輿情發(fā)展。用戶的參與和討論,在熱點(diǎn)新聞的形成和發(fā)展過(guò)程中,產(chǎn)生了重要的影響,因此提出用戶關(guān)注度來(lái)定量化表示用戶的行為對(duì)熱點(diǎn)新聞所起的影響和作用。

        1 相關(guān)工作

        熱點(diǎn)新聞的發(fā)現(xiàn)借鑒了話題檢測(cè)與跟蹤TDT(Topic Detection and Tracking)的理論和方法。TDT起源于早期面向事件的檢測(cè)與跟蹤(Event Detection and Tracking)[1]。它最初是要?jiǎng)?chuàng)造一種算法,用來(lái)發(fā)現(xiàn)數(shù)據(jù)流中的重要信息,其基本思想是話題檢測(cè)與追蹤,該項(xiàng)目在熱點(diǎn)關(guān)鍵詞挖掘檢測(cè)方面主要針對(duì)突發(fā)性網(wǎng)絡(luò)輿情事件的挖掘和網(wǎng)絡(luò)輿情熱點(diǎn)跟蹤方面的研究[2]。中科院計(jì)算機(jī)研究所張華平等人提出了一種基于主題詞的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)算法[3]。其基本思想就是將主題詞表生成主題詞候選集,對(duì)其進(jìn)行過(guò)濾和權(quán)重計(jì)算,以主題詞為線索,使用多特征的話題模型,結(jié)合新聞和微博等相應(yīng)特征實(shí)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)話題的發(fā)現(xiàn)。萬(wàn)曉霞等提出了基于三種聚類算法相結(jié)合的話題發(fā)現(xiàn)算法和熱度計(jì)算方法[4],通過(guò)選擇層次聚類對(duì)每天的新聞進(jìn)行聚類得出微類,再選擇K-Means聚類算法對(duì)每月的微類進(jìn)行聚類,最后將每個(gè)月的熱點(diǎn)事件通過(guò)增量聚類得到該年度的熱點(diǎn)新聞;吳永輝等將仿射傳播聚類算法(A,P)[5-6]和LDA模型相結(jié)合,提出了一種自適應(yīng)網(wǎng)絡(luò)主題發(fā)現(xiàn)和熱點(diǎn)新聞發(fā)現(xiàn)方法[7];王義等通過(guò)將字符串核函數(shù)(string kernel)計(jì)算文本相似度并應(yīng)用到文本聚類,提出了基于字符串核函數(shù)的熱點(diǎn)新聞發(fā)現(xiàn)方法[8]。Bun和Ishizuka等提出了一種基于TF*PDF的算法[9]用于熱點(diǎn)話題的發(fā)現(xiàn),但是沒(méi)有考慮到用戶的影響因素。本文借用百度指數(shù)的思想用熱點(diǎn)新聞的關(guān)注度來(lái)描述當(dāng)前新聞被關(guān)注的程度,提出了基于TF*PDF和用戶關(guān)注度相結(jié)合的熱點(diǎn)新聞發(fā)現(xiàn)算法。

        2 基于TF*PDF和用戶關(guān)注度的熱點(diǎn)新聞發(fā)現(xiàn)算法

        2.1 TF★PDF算法

        在傳統(tǒng)的TF*IDF[10-11]算法中,更看重出現(xiàn)在較少文章中的詞匯,而B(niǎo)un和Ishizuka提出的TF*PDF算法是一種新的衡量詞匯權(quán)重的算法,該算法認(rèn)為越是出現(xiàn)在多個(gè)文章中的單詞被認(rèn)為是熱門(mén)主題單詞的可能性越大。其計(jì)算公式如式如下所示:

        其中,Wj表示詞匯j的權(quán)重;Fjc表示詞匯j在渠道c出現(xiàn)的頻率;njc表示詞匯j所在的渠道包含的文檔數(shù)量;Nc表示渠道c中文檔的總數(shù)量;k表示一個(gè)渠道詞匯的總數(shù)量;D表示渠道的數(shù)量。

        TF*PDF算法主要有三部分組成;一是單詞j的權(quán)重是由該單詞在每個(gè)渠道中的權(quán)重求和得到的;二是Fjc,因?yàn)樵诓煌那乐性~匯集的大小不同,在具有較多文章的渠道中單詞j出現(xiàn)的頻率越大,也即是Fjc的值越大;三是PDF(Proportional Document Frequency)這部分表示越是在多個(gè)文章中出現(xiàn)的單詞,其價(jià)值越大,權(quán)重也就越大。

        在TF*PDF算法中,某個(gè)渠道詞匯的權(quán)重和該詞匯在渠道中出現(xiàn)的頻率成線性比,與該渠道包含詞匯的文檔比率數(shù)呈指數(shù)比。該詞匯的總權(quán)重為該詞匯在每個(gè)渠道的權(quán)重之和。

        2.2 用戶關(guān)注度的計(jì)算

        用戶關(guān)注度是指熱點(diǎn)新聞被用戶關(guān)注的程度。影響用戶關(guān)注度的參數(shù)主要是新聞閱讀數(shù)、新聞評(píng)論數(shù)和單位時(shí)間新聞評(píng)論數(shù)。新聞閱讀數(shù)用RN來(lái)表示,新聞評(píng)論數(shù)用CN來(lái)表示,單位時(shí)間評(píng)論數(shù)用UTC來(lái)表示。新聞評(píng)論數(shù)和新聞閱讀數(shù)對(duì)熱點(diǎn)新聞的形成起到的作用和影響是不同的,所以應(yīng)對(duì)其設(shè)定不同的權(quán)重大小。正常情況下如果一個(gè)用戶對(duì)某個(gè)新聞感興趣,則在閱讀完該新聞后會(huì)對(duì)其進(jìn)行評(píng)論,因此本文認(rèn)為新聞評(píng)論數(shù)在熱點(diǎn)新聞的形成過(guò)程中所起的作用要比新聞閱讀數(shù)所起的作用更大更重要,應(yīng)對(duì)其設(shè)置較高的權(quán)重。本文經(jīng)過(guò)多次試驗(yàn)發(fā)現(xiàn)當(dāng)新聞評(píng)論數(shù)設(shè)置的權(quán)重為新聞閱讀數(shù)兩倍時(shí)效果最好。用戶關(guān)注度的計(jì)算公式如下:

        其中α為:

        其中Pc計(jì)算公式為:

        其中Pr計(jì)算公式為:

        其中:T(i,t)u表示在時(shí)間段t內(nèi)用戶對(duì)新聞i的關(guān)注度;Pc表示關(guān)于新聞i的評(píng)論人數(shù)占評(píng)論數(shù)和閱讀數(shù)的比值,γ作為調(diào)整因子,起到平衡作用;Pr表示關(guān)于新聞i的閱讀人數(shù)所占的比值;CN為t時(shí)間段內(nèi)的新聞評(píng)論數(shù),RN為t時(shí)間段內(nèi)的新聞閱讀數(shù)。

        單位時(shí)間段內(nèi)的評(píng)論數(shù)UTC用來(lái)描述網(wǎng)絡(luò)新聞從一般性新聞演變?yōu)闊狳c(diǎn)新聞趨勢(shì)變化的強(qiáng)弱,UTC越大說(shuō)明該新聞發(fā)展成為熱點(diǎn)新聞的趨勢(shì)越強(qiáng)。

        其中UTC的計(jì)算公式表示為:

        將通過(guò)TF*PDF算法和用戶關(guān)注度結(jié)合起來(lái)可以較好的描述熱點(diǎn)新聞的關(guān)注度,其計(jì)算公式如下:

        其中參數(shù)β是調(diào)整參數(shù),用來(lái)調(diào)整TF*PDF算法的結(jié)果和用戶關(guān)注度的數(shù)值差異,防止由于某一方數(shù)值很大而把另一方數(shù)值淹沒(méi)的出現(xiàn)。在描述熱點(diǎn)新聞關(guān)注度變化情況時(shí),我們借助“話題指數(shù)”的思想,提出一種“新聞熱點(diǎn)變化指數(shù)”,用來(lái)描述在第n天時(shí)熱點(diǎn)新聞相對(duì)于第一天的變化情況,其計(jì)算公式如下:

        其中,Hn表示熱點(diǎn)新聞在第n天的熱點(diǎn)指數(shù);Tn用來(lái)表示熱點(diǎn)新聞在第n天的關(guān)注度;T1用來(lái)表示熱點(diǎn)新聞在初始第一天的關(guān)注度。我們可以用公式Hn來(lái)描述熱點(diǎn)新聞在一個(gè)時(shí)間段內(nèi)的關(guān)注度的變化情況,同時(shí)還能過(guò)濾小部分雖然關(guān)注度高但卻不屬于熱點(diǎn)的新聞。例如NBA新聞雖然短時(shí)間內(nèi)報(bào)道數(shù)量和用戶關(guān)注較多,但是隨著時(shí)間的推移,新聞的熱度很快下降,所以并不屬于熱點(diǎn)新聞。

        3 實(shí)驗(yàn)結(jié)果和分析

        本文的實(shí)驗(yàn)數(shù)據(jù)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)采集網(wǎng)易新聞手機(jī)版的新聞和評(píng)論。首先,使用Android模擬器和抓包工具分析手機(jī)端的新聞結(jié)構(gòu),然后使用模擬瀏覽器的方式對(duì)目標(biāo)網(wǎng)站發(fā)起請(qǐng)求,通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容的解析,獲取包括新聞標(biāo)題、新聞內(nèi)容、發(fā)布時(shí)間和新聞評(píng)論內(nèi)容、用戶信息、評(píng)論時(shí)間等信息。最后通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證基于TF*PDF和用戶關(guān)注度算法的有效性。

        3.1 實(shí)驗(yàn)數(shù)據(jù)源的選取

        數(shù)據(jù)來(lái)源為從網(wǎng)易新聞手機(jī)版采集回來(lái)的2016年10月份和2016年11月份的新聞數(shù)據(jù)。經(jīng)過(guò)數(shù)據(jù)的去重處理,獲取的數(shù)據(jù)(以條為單位)如表1所示:

        表1

        3.2 實(shí)驗(yàn)步驟及結(jié)果

        為了保證用戶關(guān)注度T(i,t)u隨著用戶的閱讀數(shù)和評(píng)論數(shù)的增加而增加,使用戶關(guān)注度呈現(xiàn)正相關(guān),對(duì)式(3)中的對(duì)數(shù)底數(shù)α取值大于1,γ取值1,新聞閱讀數(shù)取新聞評(píng)論數(shù)和新聞點(diǎn)贊數(shù)之和。首先要對(duì)式(8)中的加權(quán)因子進(jìn)行測(cè)定,通過(guò)隨機(jī)選取兩個(gè)月份各800條數(shù)據(jù)及其對(duì)應(yīng)的評(píng)論進(jìn)行多次試驗(yàn),對(duì)β的數(shù)值從[0,1]進(jìn)行遍歷選取,遍歷步長(zhǎng)為0.01,并根據(jù)結(jié)果進(jìn)行統(tǒng)計(jì)分析,得到當(dāng)β等于0.63時(shí)熱點(diǎn)新聞發(fā)現(xiàn)效果最好。實(shí)驗(yàn)結(jié)果如表2所示:

        表2

        從表2可以看到,關(guān)注度較高的新聞?dòng)忻绹?guó)大選事件等,將實(shí)驗(yàn)結(jié)果與同一時(shí)間段內(nèi)各大網(wǎng)站的評(píng)選結(jié)果進(jìn)行比較,可知在加權(quán)用戶關(guān)注度的影響下,得到的熱點(diǎn)新聞更加客觀準(zhǔn)確。表2中的熱點(diǎn)新聞關(guān)注度也反映出了使用新方法得到的熱點(diǎn)新聞的關(guān)注度大小,能夠更好地衡量實(shí)驗(yàn)結(jié)果的有效性。

        4 結(jié)語(yǔ)

        本文首先介紹了熱點(diǎn)新聞的相關(guān)知識(shí)和當(dāng)前的研究現(xiàn)狀,然后分析了用戶關(guān)注行為在熱點(diǎn)新聞發(fā)展形成過(guò)程中所起到的作用,引入用戶關(guān)注度用來(lái)衡量熱點(diǎn)新聞受關(guān)注的程度。通過(guò)TF*PDF算法進(jìn)行熱點(diǎn)詞匯的發(fā)現(xiàn),然后根據(jù)提出的用戶關(guān)注度算法計(jì)算用戶對(duì)新聞的關(guān)注度大小,最后將兩者進(jìn)行加權(quán)計(jì)算,得到熱點(diǎn)新聞的關(guān)注度。實(shí)驗(yàn)結(jié)果證明,該方法能夠有效地進(jìn)行熱點(diǎn)新聞發(fā)現(xiàn)。下一步的工作重點(diǎn)是考慮將熱點(diǎn)新聞發(fā)現(xiàn)應(yīng)用于輿情分析和預(yù)測(cè)。

        [1]Allan J,Carbonell J,Doddington G,et al.Topic Detection and Tracking Pilot Study:Final Report[C],1998.

        [2]Y.M.Yang,J.Carbonell,R.Brown et al.Learning Approaches for Detection and Tracking New Events.IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval,1999.

        [3]張華平等.基于主題詞的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn).第五屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議CCIR,2009,135-142.

        [4]萬(wàn)曉霞,趙佳.基于聚類的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)研究.現(xiàn)代計(jì)算機(jī)[J],2015,36-39.

        [5]B Frey,D Dueck.Clustering by Passing Messages Between Data Points[J].New York:Science,2007,315(5814):972-976.

        [6]肖宇,于劍.基于近鄰傳播算法的半監(jiān)督聚類[J].軟件學(xué)報(bào)2008,9(11):2803-2813.

        [7]吳永輝等.基于主題的自適應(yīng)、在線網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法及新聞推薦系統(tǒng)[J].電子學(xué)報(bào),2010,28(11):2620-2624.

        [8]王義等.基于字符串核函數(shù)的熱點(diǎn)新聞發(fā)現(xiàn)系統(tǒng)[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2007-12,25(4):212-215.

        [9]Bun KK,Ishizuka M.Topic Extraction from News Archive Using TF*PDF Algorithm[A].In:Processing of the 3 rd International Conference on Web Information Systems Engineering(SISE 2002),Singapore,2002:73-82.

        [10]P.D.Turney.Learning Algorithms for Keyphrase Extraction.Information Retrieval,2000,2(4):303-336.

        [11]I.H.Witten,G.W.Paynteer,E.Frank,et al.KEA:Practical Automatic Keyphrase Extraction.The 4th ACM Conference on Digital Libraries,Berkeley:ACM Press,1999:254-256.

        Research on Hot News Discovery Based on TF*PDF

        LU Chun-guang,ZHOU An-min
        (College of Electronics and Information Engineering,Sichuan University,Chengdu 610065)

        With the development of the Internet and the explosive growth of network news,how to effectively find hot news has become one of the hot spots of current research.TF*PDF algorithm focuses on the calculation of hot words in the text,without considering the user's impact. User's reading and commenting plays a catalytic role in the development and formation of hot news,so introduction the user attention to indicate the extent to which the hot news is of interest,presents a method of hot news discovery which is based on TF*PDF algorithm and user attention.Uses TF*PDF algorithm to find hot words related to hot news,and then calculates the user attention to get hot news.Experimental results show that the method can effectively find hot news.

        Hot Words;User Attention;Hot News

        1007-1423(2017)08-0018-04

        10.3969/j.issn.1007-1423.2017.08.004

        盧春光(1990-),男,河南周口人,碩士研究生,研究方向?yàn)樾畔踩?/p>

        2016-12-29

        2017-02-25

        周安民(1963-),男,四川成都人,碩士生導(dǎo)師,研究員,研究方向?yàn)樾畔踩?/p>

        猜你喜歡
        詞匯用戶
        本刊可直接用縮寫(xiě)的常用詞匯
        一些常用詞匯可直接用縮寫(xiě)
        本刊可直接用縮寫(xiě)的常用詞匯
        一些常用詞匯可直接用縮寫(xiě)
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        100萬(wàn)用戶
        如何獲取一億海外用戶
        最近中文字幕完整版免费 | 亚洲国产aⅴ成人精品无吗| 99香蕉国产精品偷在线观看 | 国产激情视频在线观看你懂的| 精品一区二区三区女同免费| 日本一区二区视频在线| 日韩在线永久免费播放| 久久精品国产亚洲7777| 免费特级毛片| 国产激情久久99久久| 国产99久久久国产精品免费| 一卡二卡国产av熟女| 免费看国产成年无码av| 中文字幕无码免费久久99| 色二av手机版在线| 日韩人妖一区二区三区| 亚洲av毛片在线免费观看| 国产aⅴ无码专区亚洲av麻豆| 啪啪免费网站| 亚洲人成影院在线高清| 人妻少妇被猛烈进入中文| 亚洲亚色中文字幕剧情| 免费国产在线精品一区| 日韩人妻无码一区二区三区久久99| 精品88久久久久88久久久| 波多野结衣一区二区三区视频| 午夜视频在线观看国产| 国产精品主播在线一区二区| 麻豆免费观看高清完整视频| 日本做受高潮好舒服视频| 成年奭片免费观看视频天天看| 男女性搞视频网站免费| 日韩av一区二区不卡在线| 色一情一乱一伦一视频免费看| 国产sm调教视频在线观看| 国产精品亚洲午夜不卡| 亚洲色图在线视频观看| 加勒比东京热一区二区| 国产熟妇疯狂4p交在线播放| 真实国产乱啪福利露脸 | 日本一区不卡高清在线观看|