亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        應(yīng)用主題爬蟲的電力網(wǎng)絡(luò)輿情數(shù)據(jù)采集

        2022-05-11 01:30:16奚增輝王衛(wèi)斌陸嘉銘瞿海妮
        西安工程大學(xué)學(xué)報 2022年2期
        關(guān)鍵詞:方法

        奚增輝,王衛(wèi)斌,陸嘉銘,瞿海妮

        (國網(wǎng)上海市電力公司,上海200122)

        0 引 言

        在電力網(wǎng)絡(luò)系統(tǒng)快速發(fā)展的背景下,國內(nèi)供電網(wǎng)的大多數(shù)業(yè)務(wù)均實現(xiàn)了網(wǎng)絡(luò)化管理模式,網(wǎng)絡(luò)通信成為電力發(fā)展和應(yīng)用的重要數(shù)據(jù)基礎(chǔ)[1-2]。然而電力網(wǎng)絡(luò)應(yīng)用中輿情頻發(fā),往往在很短時間內(nèi)就快速傳播,引起電力用戶的廣泛關(guān)注,從而形成輿論事件[3]。其網(wǎng)絡(luò)輿情的發(fā)生原因既包括內(nèi)部原因,也有外部原因,包括供電企業(yè)服務(wù)不佳、相關(guān)政策未能貫徹落實以及企業(yè)存在亂收費等情況,電力企業(yè)都需要對電網(wǎng)行業(yè)的輿情進行了解,居安思危,進而更好地推動行業(yè)發(fā)展。那么,如何快速準確獲取電力網(wǎng)絡(luò)輿情,了解用戶最核心的意見,成為有效引導(dǎo)輿論熱點的關(guān)鍵。在此背景下,電力網(wǎng)絡(luò)輿情數(shù)據(jù)采集成為近來重要研究內(nèi)容,通過采集此類數(shù)據(jù)能有效提高對電力網(wǎng)絡(luò)的日常管理,提高工作效率。

        常用的數(shù)據(jù)采集技術(shù)大可分為4類:ETL技術(shù)可在離線狀態(tài)完成數(shù)據(jù)提取、轉(zhuǎn)化及加載;Flume技術(shù)可實現(xiàn)實時采集,主要應(yīng)用于考慮流水處理的業(yè)務(wù)場景中;網(wǎng)絡(luò)爬蟲技術(shù)可自動抓取網(wǎng)絡(luò)中的信息程序或腳本,支持圖片、視頻、音頻等文件格式的采集;對于企業(yè)生產(chǎn)經(jīng)營相關(guān)的機密數(shù)據(jù)可通過特殊系統(tǒng)端口完成數(shù)據(jù)采集。

        電力網(wǎng)絡(luò)的輿論熱點主要集中在微信、QQ、微博等社交網(wǎng)站之中,可利用網(wǎng)絡(luò)爬蟲技術(shù)進行數(shù)據(jù)獲取[4]。網(wǎng)絡(luò)爬蟲技術(shù)是搜索引擎的重要組成部分,能夠提供固定抓取規(guī)則,定向鏈接數(shù)據(jù),輔助完成數(shù)據(jù)搜索并自動生成索引信息。網(wǎng)絡(luò)爬蟲技術(shù)面向底層互聯(lián)網(wǎng)直接進行數(shù)據(jù)獲取,因此對網(wǎng)絡(luò)更新速度也具有一定影響[5-6]。

        鑒于網(wǎng)絡(luò)爬蟲技術(shù)的優(yōu)勢和重要性,許多研究者針對網(wǎng)絡(luò)爬蟲技術(shù)以及電力網(wǎng)絡(luò)輿情數(shù)據(jù)采集做出了相關(guān)研究。黨佩等應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù),采用XPath和正則表達式進行信息抽取,從電力網(wǎng)絡(luò)中抓取事故信息相關(guān)內(nèi)容,并進行信息數(shù)據(jù)匹配操作,獲取電力事故相關(guān)信息,該方法能快速完成信息獲取,但計算準確率不高[7];馮昊等主要利用網(wǎng)絡(luò)爬蟲TCP/IP協(xié)議棧,通過布局分配電力數(shù)據(jù)搭建了一種新的數(shù)據(jù)瓦解模型,解決網(wǎng)絡(luò)占用資源合理分配問題,但該方法運行時間較長[8];謝文旺等提出了一種電力線通信數(shù)據(jù)處理算法,以實際用戶用電采集數(shù)據(jù)為基礎(chǔ),采用改進神經(jīng)網(wǎng)絡(luò)進行數(shù)據(jù)處理,并對具體處理方式作出描述,通過仿真實驗驗證了該設(shè)計方法的可行性,但召回率較低[9];曾健榮等提出了一種新的網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集技術(shù),主要對象為多數(shù)據(jù)源,該文采用Servlet后臺調(diào)度技術(shù),融合處理了網(wǎng)絡(luò)爬蟲數(shù)據(jù),對解析網(wǎng)頁源碼提取數(shù)據(jù),將提取得到的信息存入數(shù)據(jù)庫,提高了數(shù)據(jù)采集效率,但計算準確率還有待提高[10]。

        為解決現(xiàn)有研究的不足,在電力網(wǎng)絡(luò)輿情研究中采用主題爬蟲技術(shù),給模型添加鏈接和網(wǎng)頁分析功能,濾除無關(guān)信息,達到降低資源存儲和運算量的目的[11]。本文提出基于網(wǎng)絡(luò)爬蟲技術(shù)的電力網(wǎng)絡(luò)輿情數(shù)據(jù)采集方法。

        1 主題爬蟲

        網(wǎng)絡(luò)爬蟲技術(shù)也叫網(wǎng)絡(luò)蜘蛛技術(shù),是目前互聯(lián)網(wǎng)研究中的典型技術(shù),通過互聯(lián)網(wǎng)中的統(tǒng)一資源定位系統(tǒng)(uniform resource locator,URL)進行數(shù)據(jù)定位符統(tǒng)一化處理,按照一定策略遍歷網(wǎng)頁,獲取互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)并做出數(shù)據(jù)分析、輿情采集等,同時將數(shù)據(jù)迭代傳遞反饋[12-13]。網(wǎng)絡(luò)爬蟲技術(shù)的主要功能包括URL解析、互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)存儲以及數(shù)據(jù)爬取隊列維護等。本文采用網(wǎng)絡(luò)爬蟲技術(shù)的主要目的是爬取電力網(wǎng)絡(luò)輿情相關(guān)數(shù)據(jù),為電力網(wǎng)絡(luò)輿情分析和控制提供數(shù)據(jù)基礎(chǔ)[14]。

        比較常見的網(wǎng)絡(luò)爬蟲技術(shù)為通用網(wǎng)絡(luò)爬蟲。該技術(shù)從URL開始,爬蟲系統(tǒng)開始訪問網(wǎng)頁,采集網(wǎng)頁所有超鏈接。為了防止獲取重復(fù)的 URL,將爬取到的網(wǎng)頁信息存儲在原始數(shù)據(jù)庫中,然后對網(wǎng)頁進行解析,并根據(jù)網(wǎng)頁搜索策略爬取新的URL。重復(fù)上述過程,直到爬取到的URL符合停止條件,則完成整個爬蟲過程。這種面向全網(wǎng)的檢索工具,需要非常大的存儲空間和帶寬,無法準確提供用戶特定的需求[15]。因此,提出了面向特定主題需求的網(wǎng)絡(luò)爬蟲,即主題爬蟲。

        主題爬蟲比通用網(wǎng)絡(luò)爬蟲復(fù)雜一些,需要定義目標(biāo)、過濾無關(guān)鏈接、選取下一步爬取的URL地址。主題爬蟲可以按照對應(yīng)的主題有目的地進行爬取,將目標(biāo)定位在互聯(lián)網(wǎng)中與主題相關(guān)的頁面中,初始URL的獲取是通過對抓取目標(biāo)的定義以及相關(guān)的描述。為了幫助爬蟲更有效地發(fā)現(xiàn)與主題相關(guān)的URL,需要對主題準確描述,然后解析網(wǎng)頁內(nèi) URL,判斷網(wǎng)頁與主題的相關(guān)度,根據(jù)網(wǎng)頁搜索策略預(yù)測鏈接的主題相關(guān)度并確定 URL優(yōu)先級。在聚焦網(wǎng)絡(luò)爬蟲中,不同的爬取順序會導(dǎo)致爬蟲的執(zhí)行效率不同,需要依據(jù)搜索策略來確定下一步需要爬取的 URL 地址并存儲。整個主題爬蟲不斷重復(fù)上述過程,直至符合爬蟲系統(tǒng)中規(guī)定的停止條件[16]。

        基于主題爬蟲的電力網(wǎng)絡(luò)輿情數(shù)據(jù)采集框架如圖1所示。

        圖 1 基于主題爬蟲的數(shù)據(jù)采集框架Fig.1 Data collection framework based on topic crawler

        2 電力網(wǎng)絡(luò)輿情數(shù)據(jù)采集

        網(wǎng)絡(luò)輿情[17]具有明確的主題內(nèi)容,在采集電力網(wǎng)絡(luò)輿情之前需要首先構(gòu)建該事件的主題向量,然后利用主題爬蟲進行主題搜索、數(shù)據(jù)相似性分析等操作,最終實現(xiàn)網(wǎng)絡(luò)輿情采集。

        2.1 網(wǎng)絡(luò)輿情的主題向量構(gòu)建

        主題向量構(gòu)建是主題爬蟲運行的首要步驟,使用主題向量表示網(wǎng)絡(luò)輿情信息,能為后續(xù)輿情的主體相似度計算提供依據(jù),幫助判斷所獲取信息是否與主題相關(guān)。

        特征詞是目前應(yīng)用較多的主題向量構(gòu)建方法。首先用戶提供與電力網(wǎng)絡(luò)輿情相關(guān)的網(wǎng)頁,然后構(gòu)建網(wǎng)頁集合作為訓(xùn)練樣本并提取網(wǎng)頁特征,生成特征詞,最終完成主題向量構(gòu)建[18-20]。但該方法在運行初始階段很難判斷主題網(wǎng)頁的質(zhì)量,有很多用戶的主觀性在其中,網(wǎng)頁權(quán)威性不高,導(dǎo)致樣本的可信度不足,因此本文引入開放分類目錄(open directory project,ODP),將ODP作為目標(biāo)源對網(wǎng)頁進行分類。ODP是目前人工編輯網(wǎng)站中內(nèi)容最豐富的網(wǎng)站分類目錄,引入ODP能有效提高網(wǎng)頁權(quán)威性,很好地解決特征詞樣本可信度不足的問題,提高主題向量構(gòu)建效果[21-22]。

        電力網(wǎng)絡(luò)輿情包含眾多網(wǎng)頁,每一個網(wǎng)頁中的標(biāo)題和所含內(nèi)容均是對主題的表征,可使用主題來描述這些信息。因此本文從ODP中選取與電力網(wǎng)絡(luò)輿情相關(guān)的目錄文件,構(gòu)建電力網(wǎng)絡(luò)輿情的主題向量,如圖2所示。

        圖 2 主題向量構(gòu)建流程Fig.2 Topic vector construction process

        2.2 基于相似性計算的最佳優(yōu)先搜索策略

        電力網(wǎng)絡(luò)輿情的頻發(fā)以及網(wǎng)絡(luò)數(shù)據(jù)的指數(shù)級增長,使得網(wǎng)絡(luò)輿情相關(guān)網(wǎng)頁數(shù)量龐大,那么如何在眾多網(wǎng)頁獲取匹配性較高的網(wǎng)頁,避免消耗過量資源則非常重要,主題爬蟲技術(shù)中的搜索策略則能很好地解決這一問題[23-24]。搜索策略是主題爬蟲技術(shù)的核心,主要用于判斷網(wǎng)頁下載的優(yōu)先順序。先對主題相關(guān)度進行整體評估,計算主題向量與電力網(wǎng)絡(luò)輿情的相關(guān)網(wǎng)頁的相似性,對網(wǎng)頁進行評分,相關(guān)性越高的網(wǎng)頁評分越高,評分完成后按照分數(shù)高低依次下載電力網(wǎng)絡(luò)輿情相關(guān)網(wǎng)頁[25-26]。

        依據(jù)主題爬蟲技術(shù)特性,選取最佳優(yōu)先搜索策略進行網(wǎng)頁優(yōu)先級判斷,具體過程如下:

        1) 初始化電力通信網(wǎng)的網(wǎng)頁,選取與電力網(wǎng)絡(luò)輿情相關(guān)的鏈接,根據(jù)鏈接獲取網(wǎng)頁;

        2) 通過網(wǎng)頁與網(wǎng)絡(luò)輿情相似性計算確定優(yōu)先級[27-28]。假設(shè)電力通信網(wǎng)絡(luò)中關(guān)鍵字的權(quán)重為wi,表示主題向量維度,數(shù)量為n,網(wǎng)頁中關(guān)鍵詞的權(quán)重結(jié)合頻率表示總權(quán)重,關(guān)鍵詞的頻率表示為αi,網(wǎng)頁中關(guān)鍵詞的總權(quán)重表示為αiwi。那么電力網(wǎng)絡(luò)輿情的主題向量可表示為

        T1=(w1,w2,…,wn)

        (1)

        電力網(wǎng)絡(luò)輿情的主題網(wǎng)頁可表示為

        T2=(α1w1,α2w2,…,αnwn)

        (2)

        利用相似度模型,考慮數(shù)據(jù)的語義特征,綜合分析式(1)、(2),可計算得到關(guān)鍵詞主題向量與電力通信網(wǎng)頁的相似度Sim:

        Sim(T1,T2)=cos〈T1,T2〉=

        (3)

        設(shè)定相似性閾值γ,將主題向量與主題網(wǎng)頁的相關(guān)性判斷向量表示為C,取值范圍為(0,1]。若Sim(T1,T2)<γ,則取值為0,兩者不相關(guān);若取值在[γ,1]范圍內(nèi),則兩者相關(guān)。在該范圍內(nèi),取值越大表示相關(guān)性越高。

        3)選取相似度最高的網(wǎng)頁設(shè)定為第一優(yōu)先級,并將該網(wǎng)頁作為目標(biāo)網(wǎng)頁進行爬取。

        2.3 網(wǎng)絡(luò)輿情主題數(shù)據(jù)爬取

        在上述完成相似性計算和優(yōu)先級確定基礎(chǔ)上,給出基于主題爬蟲技術(shù)的網(wǎng)絡(luò)輿情主題數(shù)據(jù)爬取實現(xiàn)流程,如圖3所示。

        圖 3 網(wǎng)絡(luò)輿情主題數(shù)據(jù)爬取流程Fig.3 Crawling process of online public opinion topic data

        從圖3可以看出,通過主題爬蟲技術(shù)進行電力網(wǎng)絡(luò)輿情爬取時,首先定義網(wǎng)絡(luò)輿情主題,初始化URL。然后構(gòu)建主題向量,對主題向量和主題網(wǎng)頁進行相似性計算,將與主題向量相關(guān)網(wǎng)頁添加到網(wǎng)絡(luò)爬蟲隊列中。使用最佳優(yōu)先搜索策略選取最高相似性的網(wǎng)頁作為第一優(yōu)先級,依據(jù)優(yōu)先級下載電力通信網(wǎng)的網(wǎng)頁,并存儲網(wǎng)絡(luò)輿情,完成電力網(wǎng)絡(luò)輿情采集。

        3 結(jié)果與分析

        為驗證本文基于主題爬蟲技術(shù)的電力網(wǎng)絡(luò)輿情采集方法的有效性,設(shè)計如下對比實驗。使用LoadRunner自動化測試工具,采用互聯(lián)網(wǎng)服務(wù)端的性能測試軟件開展實驗。為保證實驗測試結(jié)果的公平性,整個實驗測試過程的環(huán)境和參數(shù)保持一致,分別測試本文數(shù)據(jù)采集方法與文獻[7]、文獻[8]、文獻[9]方法的性能。

        實驗指標(biāo)分別為:平均召回率、網(wǎng)頁相似性計算準確率、數(shù)據(jù)采集耗時。

        召回率即為查全率,是對數(shù)據(jù)采集方法獲取結(jié)果全面性的一個描述指標(biāo),召回率越大,表示該方法的性能越好。為驗證本文方法的有效性,以平均召回率為指標(biāo),在下載的網(wǎng)頁數(shù)量分別為1 000、2 000、3 000的情況下,對比本文方法與文獻[7]、文獻[8]、文獻[9]方法,結(jié)果見表1。

        表 1 不同方法平均召回率對比Tab.1 Comparison of average recall rates ofdifferent methods 單位:%

        從表1可以看出,隨著網(wǎng)頁數(shù)量的增加,4種不同方法的召回率均出現(xiàn)一定幅度的增長,但文獻[7]、文獻[8]、文獻[9]方法在下載網(wǎng)頁數(shù)量為3 000時,最大平均召回率均不超過80%,尤其是文獻[8]方法,平均召回率僅為70%,而本文方法的最大平均召回率高達92%。通過數(shù)據(jù)對比可知,本文基于主題爬蟲技術(shù)的網(wǎng)絡(luò)輿情采集方法具有明顯較高的召回率,展現(xiàn)出了較好的計算性能。這是因為本文引入ODP構(gòu)建網(wǎng)絡(luò)輿情的主題向量,有效提高了特征詞樣本可信度,從而提升了數(shù)據(jù)采集的召回率。

        當(dāng)應(yīng)用主題爬蟲技術(shù)時,網(wǎng)頁向量與主題向量的相似性計算是非常重要的一步,因此本實驗選取網(wǎng)頁相似性計算準確率為指標(biāo)驗證本文方法,結(jié)果如圖4所示。

        圖 4 網(wǎng)頁相似性計算準確率對比Fig.4 Comparison of accuracy of web page similarity calculation

        從圖4可以看出,本文方法測試生成的準確度折線整體在90%以上,最高準確率達到95%,相比其他3種文獻方法具有非常明顯的優(yōu)勢。這是因為本文利用相似度模型計算網(wǎng)頁向量與主題向量的相似性,考慮到了數(shù)據(jù)的語義特征,因此在計算性能上得到提高。

        為進一步證明本文方法的優(yōu)勢,以數(shù)據(jù)采集耗時為指標(biāo)對比本文方法與文獻[7]、文獻[8]、文獻[9]方法,對比結(jié)果如表2所示。

        表 2 不同方法數(shù)據(jù)采集耗時對比Tab.2 Comparison of data acquisition time ofdifferent methods 單位:min

        從表2可以看出,網(wǎng)頁數(shù)量越多,數(shù)據(jù)采集耗時越長。對不同數(shù)量的網(wǎng)頁進行測試,本文方法的網(wǎng)絡(luò)輿情采集耗時均值為36 min,文獻[7]、文獻[8]、文獻[9]方法的數(shù)據(jù)采集耗時均值分別約為90 min、67 min、70 min??梢姳疚姆椒ㄔ诓杉瘯r間上遠優(yōu)于傳統(tǒng)文獻方法,通過利用本文方法能有效提高電力網(wǎng)絡(luò)輿情采集效率。

        4 結(jié) 論

        1) 引入ODP構(gòu)建主題向量,并利用相似度模型計算關(guān)鍵字向量與網(wǎng)頁向量的相似性,提高計算結(jié)果的準確率。

        2) 本文方法具有非常優(yōu)越的性能,相比文獻[7]、文獻[8]、文獻[9]方法,其平均召回率為92%。

        3) 相比文獻[7]、文獻[8]、文獻[9]方法,本文方法的網(wǎng)頁相似性高于90%,且數(shù)據(jù)采集耗時較短,均值為36 min。

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产91在线播放九色快色| 欧美日韩性视频| 午夜无码片在线观看影院y| 国产丝袜一区丝袜高跟美腿| 波多野结衣中文字幕一区二区三区| 男男性恋免费视频网站| 综合色天天久久| 四虎在线中文字幕一区| 欧美亅性猛交内射| 一本色道久久99一综合| 欧美成人免费看片一区| 久久精品天堂一区二区| 男女性杂交内射女bbwxz| 久久男人av资源网站无码| 日本一区二区三区中文字幕最新| 成人黄色片久久久大全| 国产高清av在线播放| 国产亚洲av人片在线观看| 69堂在线无码视频2020| 久久久国产精品黄毛片| 亚洲国产天堂久久综合| 九九99久久精品在免费线18| 国产大学生自拍三级视频 | 亚洲成a人片在线观看高清| 亚洲乱码中文字幕一线区| 轻点好疼好大好爽视频| 国产精品无需播放器| 人妻风韵犹存av中文字幕| 欧美拍拍视频免费大全| 秋霞午夜无码鲁丝片午夜精品 | 极品人妻少妇av免费久久| 国产亚洲精品久久777777| AV教师一区高清| 在线看亚洲一区二区三区| 国产av无码专区亚洲avjulia| 亚洲另类激情综合偷自拍图| 在线观看免费人成视频国产| 国产精品内射久久一级二| 久久九九国产精品怡红院| 亚洲色www无码| 风韵人妻丰满熟妇老熟|