亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于泊松分布和伽馬分布的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)

        2017-02-27 00:35:14羅泰曄
        現(xiàn)代情報 2017年1期

        羅泰曄

        〔摘要〕本文提出了一種基于泊松分布和伽馬分布的網(wǎng)絡(luò)輿情熱點(diǎn)實(shí)時識別方法。該方法使用話題的人氣和時間間隔特征兩方面來識別輿情熱點(diǎn),發(fā)現(xiàn)單位時間內(nèi)(如1小時)參與話題討論的人數(shù)成泊松分布,回帖的時間間隔服從伽馬分布。本研究用歷史數(shù)據(jù)證明了該方法具有良好的識別效果。

        〔關(guān)鍵詞〕網(wǎng)絡(luò)熱點(diǎn);網(wǎng)絡(luò)輿情;伽馬分布;泊松分布;熱點(diǎn)發(fā)現(xiàn);話題熱度

        DOI:10.3969/j.issn.1008-0821.2017.01.014

        〔中圖分類號〕G203〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2017)01-0077-04

        〔Abstract〕A method was proposed in the paper to identify online hot topics based on Poisson distribution and Gamma distribution,which combined the popularity and time interval characteristics of hot topics.It was found that the number of people participating in a topic discussion per unit time(e.g.one hour)follows a Poisson distribution,and the time interval between two replies follows a Gamma distribution.Historical data was used to test the effectiveness of the method.

        〔Key words〕online hot topics;online public opinion;gamma distribution;Poisson distribution;hot topic identification;topic hotness

        中國互聯(lián)網(wǎng)信息中心第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2016年6月,中國網(wǎng)民規(guī)模達(dá)7.10億[1]。互聯(lián)網(wǎng)已成為民眾接收和發(fā)布消息的主要渠道,網(wǎng)絡(luò)輿情已具備較大規(guī)模。網(wǎng)絡(luò)輿情傳播由于具有傳播速度快、覆蓋范圍廣、互動性強(qiáng)等特點(diǎn),已引起政府管理的高度重視,也成為學(xué)術(shù)界研究的流行內(nèi)容。其中,對于網(wǎng)絡(luò)輿情的實(shí)時監(jiān)測和分析是輿情研究的重點(diǎn)內(nèi)容之一。

        當(dāng)前國內(nèi)關(guān)于網(wǎng)絡(luò)輿情的監(jiān)測主要可以分為兩大技術(shù)路線。一種是基于內(nèi)容的分析,即對網(wǎng)絡(luò)信息文本進(jìn)行關(guān)鍵內(nèi)容的提取,再通過關(guān)鍵詞識別、支持向量機(jī)、K均值等分類或聚類的方法發(fā)現(xiàn)輿情熱點(diǎn)[2]。這方面的研究已經(jīng)較多。另一種是基于輿情發(fā)展模式的分析,這條路線主要是從數(shù)量關(guān)系和時間特征上發(fā)現(xiàn)輿情熱點(diǎn)與普通網(wǎng)絡(luò)話題的區(qū)別[3-5],從而進(jìn)行熱點(diǎn)的發(fā)現(xiàn)。目前這條路線的研究還相對較少。已有的研究主要存在兩種思路:一種是將單位時間內(nèi)的回帖量與回帖人數(shù)是作為識別網(wǎng)絡(luò)輿情熱點(diǎn)的主要指標(biāo)。另一種是利用回帖的時間間隔特征來反映話題帖的活躍度。從已有的文獻(xiàn)看,兩種思路都存在需要進(jìn)一步解決的問題。對于第一種思路,以單位時間進(jìn)行統(tǒng)計(比如1小時統(tǒng)計1次)可能出現(xiàn)遺漏潛在輿情熱點(diǎn)的情況,即在統(tǒng)計時段中后期才啟動的輿情話題,由于在數(shù)量上可能還達(dá)不到設(shè)定的閾值而在統(tǒng)計時未被識別出來。而輿情熱點(diǎn)的識別越早越好,能越早識別出潛在的熱點(diǎn),就能夠進(jìn)行很好的控制和引導(dǎo)。因此,需要對話題的發(fā)展趨勢做一個概率的判斷。此外,回帖量和回帖人數(shù)可能不在同一個數(shù)量級,如果簡單地將兩者結(jié)合起來使用,可能會弱化數(shù)量級相對較低的回帖人數(shù)的作用。為避免出現(xiàn)這種情況,需要對回帖量或者回帖人數(shù)進(jìn)行一定的數(shù)學(xué)轉(zhuǎn)換,使二者處于同一數(shù)量級。對于第二種思路,回帖的時間間隔到底具備什么樣的特征,已有的研究也只是提出了一個抽象的函數(shù)f(t),而對于f(t)的具體內(nèi)容沒有進(jìn)一步分析。針對以上問題,本文提出一種將回帖人數(shù)和回帖時間間隔結(jié)合起來的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)的方法。該方法基于兩個重要的統(tǒng)計分布:泊松分布和伽馬分布。

        1網(wǎng)絡(luò)輿情熱點(diǎn)特征

        網(wǎng)絡(luò)輿情熱點(diǎn)與普通網(wǎng)絡(luò)話題的區(qū)別主要體現(xiàn)在兩個方面。一是單位時間內(nèi)參與熱點(diǎn)話題討論的人數(shù)眾多;二是回帖的時間間隔短。討論人數(shù)多,回帖的時間間隔短,則使得單位時間內(nèi)回帖的數(shù)量大,從而形成輿情熱點(diǎn)。因此,人氣(回帖人數(shù))和時間間隔這兩個變量可以用作發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)的指標(biāo)。筆者以一個高校網(wǎng)絡(luò)論壇2008年4月和5月的歷史數(shù)據(jù)為例,探索運(yùn)用這兩個指標(biāo)實(shí)時發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)的方法。首先從2008年4月的數(shù)據(jù)中找出30個熱點(diǎn)話題帖作為素材,分析熱點(diǎn)話題在人氣和時間間隔上的特征。

        1.1輿情熱點(diǎn)的人氣特征

        其中A表示由每小時討論人數(shù)組成的向量,alpha為置信率。如果運(yùn)行結(jié)果H=0,則表示A服從泊松分布。對熱點(diǎn)話題樣本運(yùn)行的結(jié)果顯示H=0,因此每小時參與討論的人數(shù)服從泊松分布。

        1.2輿情熱點(diǎn)的時間間隔特征

        在單位時間內(nèi),輿情熱點(diǎn)的熱度與回帖的時間間隔是緊密相關(guān)的,回帖的時間間隔短,則回帖數(shù)量多,相應(yīng)的輿情規(guī)模就大。伽馬分布是一種重要的統(tǒng)計分布,經(jīng)常用于描述時間間隔的特征[8]。如果連續(xù)型隨機(jī)變量X的概率密度函數(shù)如公式(2)所示,則稱X服從伽瑪分布。

        回帖時間間隔指的是相鄰的兩個回帖之間的時間間隔,用秒作為單位。計算公式為:ΔTi=Ti-Ti-1,i≥1。其中T0表示話題帖,Ti表示第i個回帖的發(fā)表時間。為檢驗(yàn)回帖時間間隔是否服從伽馬分布,筆者計算出每個樣本帖的所有回帖之間的時間間隔,并使用matlab軟件進(jìn)行K-S檢驗(yàn)。經(jīng)過運(yùn)行檢測程序,發(fā)現(xiàn)H值為0,所以回帖時間間隔服從伽馬分布。

        2輿情熱點(diǎn)識別方法設(shè)計

        2.1輿情熱點(diǎn)人氣值

        從上一節(jié)的分析得到每小時的回帖人數(shù)服從泊松分布。從公式(1)中可以看出,λ是一個重要參數(shù),它決定了泊松分布的圖像形狀。熱點(diǎn)話題和普通話題在每小時參與討論的人數(shù)是不一樣的。熱點(diǎn)話題的回復(fù)人數(shù)要遠(yuǎn)大于普通話題帖,這造成了每小時回帖人數(shù)的平均值的不同。而這一區(qū)別可以通過λ反映出來。因此,可以利用λ來計算一個話題帖的人氣值。

        λ的值一般是通過歷史數(shù)據(jù)獲得的。對于每一個熱點(diǎn)樣本帖計算出其每小時討論人數(shù)的平均值,由此可以獲得30個平均值。再對這30個平均值求平均數(shù),進(jìn)而獲得λ的值。通過計算,λ約為25.36,取整數(shù),將λ的初始值λ(0)設(shè)定為25,即對于熱點(diǎn)帖來講,平均每小時約有25個人參與討論。而對該論壇4月的所有話題帖平均每小時參與討論人數(shù)進(jìn)行計算得到的值約為4.42,即不超過5個人,遠(yuǎn)小于熱點(diǎn)帖。

        對于一個待識別的新話題帖,以小時為單位進(jìn)行統(tǒng)計,計算出該小時內(nèi)參與討論的人數(shù)n(t),t=1,2,3…,并用n(t)對λ(t)進(jìn)行修正:λ(t)=(n(t)+λ(t-1))/2,t=1,2,3…。進(jìn)行修正的過程也就是判斷話題發(fā)展趨勢的過程。如圖1和圖2所示,圖1和圖2分別是一個熱點(diǎn)帖和一個普通帖前4個小時的泊松分布的圖像。兩個圖中“+”顯示的圖像是初始時刻(即λ=25)時的圖像。可以從圖1中看出,一個熱點(diǎn)帖每小時討論人數(shù)的泊松分布圖像始終在初始圖像的附近移動,說明在一個小時內(nèi)出現(xiàn)回帖人數(shù)超過25人的概率仍然很大;而一個普通帖的圖像(圖2)則是完全往左移動,在1個小時內(nèi)出現(xiàn)回帖人數(shù)超過25人的概率變得越來越小。因此,可以用這個帖在1小時內(nèi)獲得大于25人回帖的概率來衡量這個帖的人氣值。

        2.2輿情熱點(diǎn)規(guī)模

        在單位時間內(nèi)(如1小時),回帖的時間間隔分布的情況決定了輿情的規(guī)模。圖3是2個熱點(diǎn)帖和1個普通帖回帖時間間隔伽馬分布的圖像。從圖3中可以看到,兩個熱點(diǎn)帖(a=0.42和a=0.37)的圖像大致相同,而普通帖(a=1.71)的圖像在形態(tài)上與另兩個圖像有明顯區(qū)別。這種區(qū)別主要是由形狀參數(shù)a和尺度參數(shù)b決定的,所以可以利用這兩個參數(shù)來代表輿情規(guī)模。

        以30個熱點(diǎn)帖第1小時的數(shù)據(jù)為例,首先計算出第一小時內(nèi)所有回帖的時間間隔。利用最大似然估計法(MLE)對伽馬分布的兩個參數(shù)a和b進(jìn)行估計,從而得到a和b的一個樣本數(shù)據(jù)。這樣總共可以獲得30個樣本數(shù)據(jù)。隨后,用這30個樣本數(shù)據(jù)與第1小時的回帖量(n)進(jìn)行相關(guān)分析,結(jié)果如表1所示。

        從表1中可以看出,第1小時的回帖量與伽馬分布兩個的兩個參數(shù)a和b呈顯著的負(fù)相關(guān)關(guān)系,即a和b的值越小,n越大。因此,可以用a和b來代表回帖的規(guī)模。

        2.3輿情話題熱度計算

        這種方法對于在統(tǒng)計時段中后期才啟動的話題也能起到識別作用。一個話題帖即便是在中后期啟動,在獲得回帖人數(shù)或回帖量上還達(dá)不到設(shè)定的閾值。一方面,由于回帖的時間間隔短,使得用最大似然法估計得到的a或b的值比較小,從而使其倒數(shù)的值比較大;另一方面,話題討論雖未形成較大規(guī)模,但已有一定數(shù)量的人參加,對λ(t)沒有進(jìn)行過度的負(fù)修正(即沒有使λ(t)變得很?。?,從而使得R的值不至于過低,甚至可能存在正修正的情況,從而獲得一個較大的R值。根據(jù)公式(4),兩部分求和之后得到的H值也可能較大,從而識別出可能在下一個小時爆發(fā)的輿情熱點(diǎn)。

        3熱點(diǎn)識別方法的效果檢驗(yàn)

        從表2中可以看出,熱點(diǎn)帖的實(shí)時熱度都在1以上,而普通帖的熱度除第1小時外,基本都小于1。這說明熱點(diǎn)帖被持續(xù)討論的時間和熱度都強(qiáng)于普通帖。普通帖一般只有在第1小時可能引起較多的關(guān)注和討論,隨著時間的推移,討論熱度逐漸減弱,整個討論持續(xù)的時間不超過5小時。因此,公式(4)能夠有效地實(shí)時識別熱點(diǎn)帖和普通帖。

        4結(jié)語

        本文發(fā)現(xiàn)單位時間內(nèi)的回帖人數(shù)服從泊松分布,回帖時間間隔服從伽馬分布,并在此基礎(chǔ)上提出了一種網(wǎng)絡(luò)輿情熱點(diǎn)實(shí)時識別的方法,并用歷史數(shù)據(jù)證明了該方法的有效性。在實(shí)際使用時,可首先進(jìn)行初步篩選,去除無回帖或只有幾個回帖的話題帖,對剩余的話題帖再使用本方法進(jìn)行識別,從而提高效率。

        本文使用的數(shù)據(jù)是一個高校網(wǎng)絡(luò)論壇2008年的歷史數(shù)據(jù)。鑒于當(dāng)時的通信技術(shù)條件(如尚無移動互聯(lián)網(wǎng)),加之高校網(wǎng)絡(luò)論壇具有封閉性,即便是版面中最熱門的話題的規(guī)模從現(xiàn)在看來在絕對數(shù)量上仍顯得不是很大。但從相對值來看,文中所選的話題帖的規(guī)模已是普通話題的幾十倍,已經(jīng)具備了輿情熱點(diǎn)的特征。未來的研究可以利用開放的網(wǎng)絡(luò)論壇或者微博中的素材來進(jìn)一步檢驗(yàn)文中所提方法的健壯性。

        參考文獻(xiàn)

        [1]中國互聯(lián)網(wǎng)信息中心.第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[EB/OL].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/,2016.8.

        [2]王玉珍.網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)綜述[J].內(nèi)蒙古科技與經(jīng)濟(jì),2015,(8):66-67.

        [3]王麗英.高校BBS教育輿情的時空特征模型構(gòu)建和熱點(diǎn)發(fā)現(xiàn)[J].現(xiàn)代情報,2016,(1):84-89.

        [4]李文杰,化存才,何偉全.網(wǎng)絡(luò)輿情熱點(diǎn)事件的可控性和篩選數(shù)學(xué)模型分析[J].情報科學(xué),2016,(6):37-42.

        [5]曹樹金,鄭凌,陳憶金.網(wǎng)絡(luò)輿情突發(fā)異常識別及關(guān)鍵算法研究[J].圖書情報知識,2012,(1):43-51.

        [6]徐國祥.統(tǒng)計學(xué)[M].上海:上海人民出版社,2007.

        [7]劉超.Matlab基礎(chǔ)與實(shí)踐教程[M].北京:機(jī)械工業(yè)出版社,2011.

        [8]Walid F.Nasrallah,M.ASCE and Rana Bou-Matar.Exponential,Gamma,and Power Law Distributions in Information Flow on a Construction Site[J].Journal of construction engineering and management,2008,(6):442-450.

        (本文責(zé)任編輯:馬卓)

        看全色黄大色大片免费久久| 亚洲无人区乱码中文字幕能看| 人人妻人人澡人人爽精品日本| 无码人妻精品一区二区| 久久精品无码鲁网中文电影| 久久精品无码专区免费青青| av无码天一区二区一三区| 日韩少妇高潮在线视频| 亚洲av五月天一区二区| 人妻少妇乱子伦精品| 在线观看欧美精品| 国产女主播免费在线观看| 久久av不卡人妻出轨一区二区| 内射合集对白在线| 久久综合第一页无码| 91亚洲最新国语中文字幕| 美女人妻中出日本人妻| 蜜桃久久精品成人无码av| 中文字幕国产欧美| 日本女优中文字幕四季视频网站| 日韩极品视频免费观看| 久久精品免费一区二区三区| 无码人妻系列不卡免费视频| 国产精品一区又黄又粗又猛又爽| 国产女人精品视频国产灰线| 熟妇的荡欲色综合亚洲| 亚洲综合伦理| 国产日产亚洲系列首页| 亚洲熟妇久久精品| 亚洲第一网站免费视频| 国产一区二区黑丝美女| 国产亚洲av另类一区二区三区| 欧美a级情欲片在线观看免费 | 国产精品情侣呻吟对白视频| 久久久久久人妻一区二区三区| 婷婷五月亚洲综合图区| 无色码中文字幕一本久道久| 国产精品特级毛片一区二区三区| 国产黄色片在线观看| 国产精品国产三级厂七| 无码免费无线观看在线视|