亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析技術(shù)研究

        2021-04-29 06:56:24黃德勝
        微型電腦應(yīng)用 2021年4期
        關(guān)鍵詞:分析方法

        黃德勝

        (廣州衛(wèi)生職業(yè)技術(shù)學(xué)院 基礎(chǔ)學(xué)院, 廣東 廣州 510925)

        0 引言

        實(shí)現(xiàn)快速準(zhǔn)確的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析,有利于及時(shí)發(fā)現(xiàn)熱點(diǎn)信息。眾所周知,社交網(wǎng)絡(luò)是用戶(hù)在線(xiàn)交流、傳播信息的重要場(chǎng)所。社交網(wǎng)絡(luò)可以讓所有用戶(hù)都能夠自由注冊(cè)賬戶(hù),與其他人建立聯(lián)絡(luò),同時(shí)還能夠查看其他好友的動(dòng)態(tài),為人們帶來(lái)了很大便利。然而任何事情都有兩面性,在社交網(wǎng)絡(luò)用戶(hù)以及信息不斷增長(zhǎng)的同時(shí),去中心化問(wèn)題也尤為突出。社交網(wǎng)絡(luò)中的信息具有稀疏性、高維性、主題不均勻等特點(diǎn),這些特點(diǎn)導(dǎo)致用戶(hù)難以獲取自己感興趣的話(huà)題以及某一時(shí)間段內(nèi)的熱點(diǎn)話(huà)題。因此,如何從雜亂無(wú)章的海量社交網(wǎng)絡(luò)信息中提取到熱點(diǎn)話(huà)題是一個(gè)巨大的挑戰(zhàn)。

        當(dāng)前常使用的關(guān)于社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析的方法有兩種,一種是基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法;另一種是基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法。其中基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法主要是將一定情況、場(chǎng)景或者某一個(gè)統(tǒng)計(jì)維度在不同時(shí)刻點(diǎn)上的各個(gè)數(shù)據(jù),按照時(shí)間的先后順序排列而成的序列,能夠研究隨機(jī)數(shù)據(jù)序列所服從的統(tǒng)計(jì)特征,從而對(duì)社交網(wǎng)絡(luò)的熱點(diǎn)進(jìn)行分析?;谑录P(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法主要對(duì)采集的大量網(wǎng)絡(luò)安全事件信息進(jìn)行分析,從中查找到關(guān)聯(lián)數(shù)據(jù),從而分析社交網(wǎng)站數(shù)據(jù)熱點(diǎn)。

        盡管這兩種方法在社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析中分別具有一定優(yōu)勢(shì),但依舊存在部分問(wèn)題,為了提高社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析的速度以及準(zhǔn)確性,本研究設(shè)計(jì)了一種社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法。首先進(jìn)行社交網(wǎng)絡(luò)數(shù)據(jù)的采集與預(yù)處理,再通過(guò)計(jì)算社交網(wǎng)站數(shù)據(jù)語(yǔ)義相似度對(duì)相關(guān)數(shù)據(jù)進(jìn)行檢索,最后計(jì)算社交網(wǎng)站中的數(shù)據(jù)熱度,完成社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析。實(shí)驗(yàn)證明,本研究設(shè)計(jì)的社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法能夠及時(shí)發(fā)現(xiàn)熱點(diǎn)信息。

        1 社交網(wǎng)絡(luò)數(shù)據(jù)采集

        數(shù)據(jù)采集通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取指定社交網(wǎng)絡(luò)平臺(tái)上的原始數(shù)據(jù)[1-2],下載到計(jì)算機(jī)中作為社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)分析的數(shù)據(jù)源,并從這些數(shù)據(jù)源中抽取有價(jià)值的信息,主要包括用戶(hù)信息、發(fā)布時(shí)間、文本內(nèi)容、評(píng)論信息以及關(guān)注人數(shù)等,將這些信息轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。網(wǎng)絡(luò)爬蟲(chóng)可以自動(dòng)采集所有其能夠訪問(wèn)到的頁(yè)面內(nèi)容,為搜索引擎和大數(shù)據(jù)分析提供數(shù)據(jù)來(lái)源。在抓取工作中,首先選取一部分種子統(tǒng)一資源定位符(Uniform Resource Location、URL),將其放入待抓取URL隊(duì)列中,從中取出待抓取URL,解析DNS得到主機(jī)的IP地址,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái)存儲(chǔ)到已下載網(wǎng)頁(yè)庫(kù)中。此外,將以上URL放進(jìn)已抓取URL隊(duì)列,再分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將這些URL放入待抓取URL隊(duì)列,在此基礎(chǔ)上進(jìn)入下一個(gè)循環(huán)。網(wǎng)絡(luò)爬蟲(chóng)工作流程,如圖1所示。

        圖1 網(wǎng)絡(luò)爬蟲(chóng)工作流程

        由于本研究采集的數(shù)據(jù)中包含重復(fù)數(shù)據(jù),因此需要對(duì)采集的數(shù)據(jù)進(jìn)行分詞處理與過(guò)濾。處理流程,如圖2所示。

        圖2 社交網(wǎng)站數(shù)據(jù)分詞處理流程圖

        在此基礎(chǔ)上,選取社交網(wǎng)站數(shù)據(jù)特征,其處理流程如下所示。

        Step1:采用TF-IDF(Term Frequency-inverse Document Frequency)權(quán)值計(jì)算方法,計(jì)算經(jīng)過(guò)分詞的社交網(wǎng)站數(shù)據(jù)詞頻。其中TF-IDF權(quán)值計(jì)算方法的主要思想是分析某個(gè)數(shù)據(jù)在一個(gè)網(wǎng)站中出現(xiàn)的頻率值[4],如果該數(shù)據(jù)在其他數(shù)據(jù)中很少出現(xiàn),則認(rèn)為此數(shù)據(jù)具有很好的類(lèi)別區(qū)分能力;

        Step2:將數(shù)據(jù)高維向量空間[5]進(jìn)行降維縮減;

        Step3:提取最能反映社交網(wǎng)站數(shù)據(jù)的特征向量;

        Step4:存儲(chǔ)特征數(shù)據(jù)。

        以此,通過(guò)上述過(guò)程完成社交網(wǎng)絡(luò)數(shù)據(jù)分詞的處理,通過(guò)分詞可得到每個(gè)數(shù)據(jù)對(duì)應(yīng)句子的權(quán)重,其流程如下所示。

        第一:特征數(shù)據(jù)存儲(chǔ);

        第二:社交網(wǎng)站特征數(shù)據(jù)加權(quán)處理;

        第三:按照上述權(quán)重計(jì)算結(jié)果對(duì)原文數(shù)據(jù)排序,完成數(shù)據(jù)分詞權(quán)重的處理。

        2 社交網(wǎng)站數(shù)據(jù)熱點(diǎn)分析

        2.1 數(shù)據(jù)語(yǔ)義相似度計(jì)算

        在上述社交網(wǎng)站數(shù)據(jù)采集的基礎(chǔ)上,對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)進(jìn)行分析。在分析過(guò)程中,需要將獲取的數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)內(nèi)部能理解的形式以進(jìn)行數(shù)值運(yùn)算[6]。因此建立向量空間模型,即對(duì)文本數(shù)據(jù)建模[7]。向量空間模型的主要思想是將數(shù)據(jù)看成孤立的、互不相關(guān)的部分,以將文本數(shù)據(jù)轉(zhuǎn)化為多維度的空間向量。向量空間模型中文本與空間存在的關(guān)系,如圖3所示。

        圖3 向量空間模型中文本與空間存在的關(guān)系

        將社交網(wǎng)站文本數(shù)據(jù)轉(zhuǎn)換為空間向量后,就可以進(jìn)行相關(guān)計(jì)算,通過(guò)向量空間模型將整個(gè)數(shù)據(jù)映射為一個(gè)特征向量,如式(1)。

        Q=D+R/x

        (1)

        式中,D表示社交網(wǎng)站文本數(shù)據(jù)中互不相同的詞條項(xiàng);R表示社交網(wǎng)站文本數(shù)據(jù)詞頻函數(shù);x表示數(shù)據(jù)在文檔中出現(xiàn)的次數(shù)。

        在此基礎(chǔ)上,計(jì)算數(shù)據(jù)語(yǔ)義相似度[8],這是由于社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)分析過(guò)程中,數(shù)據(jù)之間具有相關(guān)性,因此采用語(yǔ)義相似度的方法度量數(shù)據(jù)相關(guān)性。語(yǔ)義相似度方法主要以信息特征為計(jì)算基礎(chǔ),通過(guò)分析兩個(gè)概念在知識(shí)庫(kù)中共享信息情況,計(jì)算二者所有信息的比率[9],如式(2)。

        (2)

        式中,X表示最小上層詞語(yǔ)的深度;y表示詞語(yǔ)包含的語(yǔ)義信息;d表示同義詞集合中元素集合中的部分。

        2.2 相關(guān)數(shù)據(jù)檢索

        尋找社交網(wǎng)站中熱點(diǎn)數(shù)據(jù),需要依據(jù)語(yǔ)義相似度計(jì)算結(jié)果建立事件關(guān)聯(lián)圖[10],以分析數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。對(duì)相關(guān)數(shù)據(jù)檢索通過(guò)兩個(gè)方面展開(kāi),如圖4所示。

        圖4 相關(guān)數(shù)據(jù)檢索流程

        本地事件檢索主要應(yīng)用了特征詞提取技術(shù)[11],其具體表達(dá)式,如式(3)。

        F=H/k+l

        (3)

        式中,H表示社交網(wǎng)站數(shù)據(jù)詞頻;k表示數(shù)據(jù)長(zhǎng)度;l表示數(shù)據(jù)特征參數(shù)。

        在互聯(lián)網(wǎng)事件檢索上,借助互聯(lián)網(wǎng)上的搜索引擎[12]對(duì)數(shù)據(jù)進(jìn)行處理,將檢索到的文檔分類(lèi)到在本地?cái)?shù)據(jù)庫(kù)中獲得的相關(guān)話(huà)題中,從而獲得新的相關(guān)話(huà)題。

        2.3 數(shù)據(jù)熱度計(jì)算

        將上述獲得的相關(guān)話(huà)題文檔按照時(shí)間進(jìn)行劃分,根據(jù)各個(gè)事件的數(shù)據(jù)文檔衡量數(shù)據(jù)的熱度[13]。數(shù)據(jù)熱度計(jì)算涉及的主要內(nèi)容,如圖5所示。

        圖5 數(shù)據(jù)熱度計(jì)算主要內(nèi)容

        從圖5可知,社交網(wǎng)站的數(shù)據(jù)紛繁復(fù)雜,數(shù)據(jù)量極為龐大,而且各種各樣的話(huà)題涉及到的內(nèi)容不同,但只有部分?jǐn)?shù)據(jù)是用戶(hù)重點(diǎn)關(guān)注的話(huà)題。因此以衡量數(shù)據(jù)的重要度來(lái)確定數(shù)據(jù)的影響力[14],綜合考慮網(wǎng)民關(guān)注度與媒體關(guān)注度[15],計(jì)算數(shù)據(jù)熱度,如式(4)。

        w=At*Et+B

        (4)

        式中,At表示社交網(wǎng)站數(shù)據(jù)在時(shí)間t內(nèi)的總點(diǎn)擊次數(shù),即表示數(shù)據(jù)的評(píng)論數(shù);w表示社交網(wǎng)站數(shù)據(jù)的權(quán)威度;Et表示社交網(wǎng)站數(shù)據(jù)在時(shí)間t內(nèi)的報(bào)道總數(shù);B表示調(diào)整因子。

        通過(guò)上述過(guò)程,完成社交網(wǎng)站中數(shù)據(jù)熱點(diǎn)的分析。

        3 實(shí)驗(yàn)對(duì)比

        為了更好地證明本研究方法的有效性,本研究使用Chrome瀏覽器,并利用網(wǎng)上一綜合性大型網(wǎng)站為實(shí)驗(yàn)對(duì)象進(jìn)行相關(guān)實(shí)驗(yàn),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取實(shí)驗(yàn)使用的4個(gè)數(shù)據(jù)集,其中主要包括娛樂(lè)類(lèi)數(shù)據(jù)、體育類(lèi)數(shù)據(jù)、美食類(lèi)數(shù)據(jù)和美妝類(lèi)數(shù)據(jù),其大小分別為45 kB、125 kB、256 kB和452 kB,實(shí)驗(yàn)分析了該網(wǎng)站總計(jì)8天的數(shù)據(jù)。將每小時(shí)對(duì)該帖子的評(píng)論數(shù)作為熱度值,采用此次設(shè)計(jì)的社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法識(shí)別這4個(gè)數(shù)據(jù)集中的熱點(diǎn)話(huà)題。為了增強(qiáng)實(shí)驗(yàn)的對(duì)比性,將傳統(tǒng)的基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法、基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法對(duì)比。此次設(shè)計(jì)的方法發(fā)現(xiàn)在這4個(gè)數(shù)據(jù)集上的熱點(diǎn)數(shù)據(jù)的時(shí)間。

        3.1 娛樂(lè)類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

        三種方法發(fā)現(xiàn)娛樂(lè)數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表1所示。

        表1 娛樂(lè)類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

        由表1可知,所設(shè)計(jì)的方法能夠在短時(shí)間內(nèi)識(shí)別社交網(wǎng)站的數(shù)據(jù)。傳統(tǒng)的基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法、基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法的娛樂(lè)類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間顯著高于所設(shè)計(jì)的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析方法。

        3.2 美食類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

        三種方法發(fā)現(xiàn)美食類(lèi)數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表2所示。

        表2 美食類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

        由表2可知,美食類(lèi)數(shù)據(jù)多于娛樂(lè)類(lèi)數(shù)據(jù),在此類(lèi)數(shù)據(jù)識(shí)別上,傳統(tǒng)兩種方法發(fā)現(xiàn)美食類(lèi)數(shù)據(jù)熱點(diǎn)的時(shí)間呈增加的趨勢(shì)。并經(jīng)過(guò)對(duì)比可知,所設(shè)計(jì)方法發(fā)現(xiàn)美食類(lèi)數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間較短。

        3.3 美妝類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

        美妝類(lèi)數(shù)據(jù)為452 kB,數(shù)據(jù)量多于上述兩種對(duì)比內(nèi)容的數(shù)據(jù),三種方法在此數(shù)據(jù)下的發(fā)現(xiàn)時(shí)間,如表3所示。

        表3 美妝類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

        由表3可知,此次設(shè)計(jì)的方法發(fā)現(xiàn)熱點(diǎn)的時(shí)間沒(méi)有明顯變化,花費(fèi)時(shí)間依舊較少。而傳統(tǒng)兩種方法的美妝類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間仍然高于所設(shè)計(jì)的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析方法。

        3.4 體育類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

        三種方法發(fā)現(xiàn)體育類(lèi)數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表4所示。

        表4 體育類(lèi)數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

        由表4可知,所設(shè)計(jì)方法發(fā)現(xiàn)體育類(lèi)數(shù)據(jù)熱點(diǎn)的時(shí)間較短,明顯低于傳統(tǒng)兩種方法?;蛟S是傳統(tǒng)方法在分詞、特征提取、權(quán)重計(jì)算與聚類(lèi)處理等方面上耗費(fèi)了大量時(shí)間,導(dǎo)致數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間延長(zhǎng)。因此,通過(guò)上述實(shí)驗(yàn)?zāi)軌蜃C明,所設(shè)計(jì)的方法數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間短于傳統(tǒng)兩種分析方法,能夠及時(shí)向社交網(wǎng)站用戶(hù)推送熱門(mén)內(nèi)容。

        4 總結(jié)

        社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析是一個(gè)隨著時(shí)代變化不斷發(fā)展的研究領(lǐng)域,還有許多問(wèn)題有待進(jìn)一步探索與研究。針對(duì)此次研究?jī)?nèi)容的不足,今后將重點(diǎn)研究三方面內(nèi)容,分別為如何有效及時(shí)獲取網(wǎng)絡(luò)中的最新消息;如何挖掘社交網(wǎng)站數(shù)據(jù)中蘊(yùn)含的語(yǔ)義信息以提高熱點(diǎn)數(shù)據(jù)挖掘能力;如何對(duì)音頻、視頻等多媒體信息進(jìn)行處理以進(jìn)一步提高社交網(wǎng)站數(shù)據(jù)熱點(diǎn)分析效果,及時(shí)為用戶(hù)提供熱點(diǎn)數(shù)據(jù)。

        猜你喜歡
        分析方法
        隱蔽失效適航要求符合性驗(yàn)證分析
        學(xué)習(xí)方法
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        捕魚(yú)
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        中文无码av一区二区三区| 国产成人综合亚洲av| 精品专区一区二区三区| 亚洲一区二区三区少妇| 午夜理论片yy44880影院| 毛片免费全部无码播放| 中文字幕人妻丝袜成熟乱| 国产精品一区久久综合| 亚洲精品成人网站在线播放| 亚洲gv白嫩小受在线观看| 亚洲欧美成人久久综合中文网| 不卡视频在线观看网站| 精品国产青草久久久久福利| 99久久久无码国产精品9| 国产亚洲一区二区三区成人| 国产精品国产av一区二区三区| 午夜理论片yy44880影院| 精品人无码一区二区三区| 亚洲精品中文有码字幕| 一本色道久久亚洲加勒比| 亚洲中文字幕久久精品无码喷水| 国产欧美va欧美va香蕉在线观| 免费高清日本一区二区| 插插射啊爱视频日a级| 中文人妻无码一区二区三区在线| 免费精品美女久久久久久久久久| 白嫩少妇在线喷水18禁| 国产猛男猛女超爽免费视频| 亚洲精品一区二区三区大桥未久| 国产日韩三级| 国产精品成人av大片| 国产裸体舞一区二区三区 | 国产精品18久久久久网站 | 国产亚洲人成在线观看| 精品乱码久久久久久久| 亚洲成人免费无码| 日本久久大片中文字幕| 性饥渴的农村熟妇| 欧美中文字幕在线| 日韩人妻免费一区二区三区| 国产精品美女久久久网av|