亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于標(biāo)準(zhǔn)時序生成的科研熱點預(yù)測及加速方法

        2020-09-02 04:23:22韓英昆齊達立
        山東電力技術(shù) 2020年8期

        馬 艷 ,韓英昆 ,齊達立 ,劉 科

        (1.山東電力研究院,山東 濟南 250003;2.國網(wǎng)山東省電力公司電力科學(xué)研究院,山東 濟南 250003)

        0 引言

        科技情報對國家、社會、企業(yè)的戰(zhàn)略、計劃的制定以及實施都發(fā)揮了重要作用??蒲袩狳c預(yù)測是科技情報領(lǐng)域較新的應(yīng)用需求??蒲泄ぷ髡?、科研項目管理者在選題、立項必須有一定的前瞻性,即立足于當(dāng)前科學(xué)技術(shù)現(xiàn)狀與社會發(fā)展情況,對未來可能產(chǎn)生的新理論或者產(chǎn)生應(yīng)用價值的新技術(shù)做出判斷[1-2]。

        按照研究主體,科研熱點預(yù)測分為對網(wǎng)絡(luò)文章和學(xué)術(shù)文獻的研究。PageRank算法是由Google提出的較為經(jīng)典的網(wǎng)絡(luò)文章熱點預(yù)測算法[3]?;谖谋痉治龅木W(wǎng)絡(luò)文章熱點預(yù)測也取得了較好的效果[4]。

        在沒有引入機器學(xué)習(xí)算法以前,對學(xué)術(shù)文獻的熱點預(yù)測嚴(yán)重依賴于本領(lǐng)域高級專業(yè)人員通過文獻查閱與市場調(diào)研的方法確定。比如,根據(jù)科學(xué)引文索引數(shù)據(jù)庫對論文的文獻分類分別統(tǒng)計每個分類中的論文數(shù)量,用數(shù)字來說明文獻科研熱點集中在哪些領(lǐng)域;還可以根據(jù)文獻分類分別統(tǒng)計每個分類中的研究作者數(shù)量,用客觀的數(shù)值來表明科研熱點的研究熱度所在和科研力量集中點[5]。

        近年來,利用機器學(xué)習(xí)技術(shù)對學(xué)術(shù)文獻進行科研熱點的預(yù)測分析得到普遍關(guān)注[6]。2003年著名的LDA(Latent Dirichlet Allocation)算法在 pLSI基礎(chǔ)上被提出[7],既是一種文檔主題生成模型,又是一個包含詞、主題和文檔三層結(jié)構(gòu)的貝葉斯概率模型。LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。

        然而,國內(nèi)外目前建立的科研熱點預(yù)測模型,從應(yīng)用效果上分析還存在以下問題:1)當(dāng)一個新的理論與技術(shù)誕生后,其關(guān)聯(lián)應(yīng)用領(lǐng)域還需要大量的工作去發(fā)掘。2)科研領(lǐng)域中,科研熱點詞匯數(shù)量巨大,每種熱點呈現(xiàn)的走勢不盡相同,基于標(biāo)準(zhǔn)的機器學(xué)習(xí)模型擬合熱點走勢準(zhǔn)確率不高。

        因此,亟須設(shè)計一種考慮時序關(guān)系的科研熱點預(yù)測算法和系統(tǒng),可對未來一段時間的科學(xué)研究熱點較為快速準(zhǔn)確地預(yù)測出來,輔助科研工作者及科研項目管理者的工作。

        1 科研熱點預(yù)測與推送框架

        目前,每種科研熱點呈現(xiàn)各種各樣的時序走勢。以某熱點科研詞匯的點擊量為例,其隨著時間變化的趨勢完全不同,如圖1所示。不同的時序走勢,導(dǎo)致標(biāo)準(zhǔn)機器學(xué)習(xí)算法在直接使用時預(yù)測準(zhǔn)確度不高。這就須設(shè)計一種可適應(yīng)多樣時序趨勢的預(yù)測模型和框架。

        圖1 科研詞匯的點擊量時序趨勢

        基于上述問題,提出一種基于標(biāo)準(zhǔn)時序生成的科研熱點預(yù)測框架,使得用戶可以及時獲得未來一段時間科研熱點主題預(yù)測推薦??蚣芊譃?個模塊,如圖2所示,包括時序數(shù)據(jù)爬取模塊、熱點數(shù)據(jù)標(biāo)記模塊、時序聚類模塊、熱點預(yù)測模塊、預(yù)測加速模塊。

        時序數(shù)據(jù)爬取模塊利用爬蟲技術(shù)在科技新聞網(wǎng)站、文獻數(shù)據(jù)庫爬取科技信息文章;熱點數(shù)據(jù)標(biāo)記模塊負(fù)責(zé)標(biāo)記1個周期的所有熱點關(guān)鍵詞,并且生成關(guān)鍵詞的歷史時序數(shù)據(jù);時序聚類模塊負(fù)責(zé)對熱點時序進行聚類,并且根據(jù)聚類結(jié)果生成標(biāo)準(zhǔn)熱點時序;熱點預(yù)測模塊負(fù)責(zé)對各關(guān)鍵詞的權(quán)重TF-IDF時序進行檢測,找出熱點關(guān)鍵詞;預(yù)測加速模塊負(fù)責(zé)對熱點預(yù)測任務(wù)進行加速。

        圖2 科研熱點預(yù)測與推送框架

        2 科研熱點預(yù)測過程

        基于上述框架,給出基于標(biāo)準(zhǔn)時序生成的科研熱點預(yù)測方法的實施過程,如圖3所示。

        圖3 基于標(biāo)準(zhǔn)時序的科研熱點預(yù)測方法流程

        2.1 時序數(shù)據(jù)爬取模塊

        時序數(shù)據(jù)爬取模塊將爬取的文章文本化,設(shè)一段時間內(nèi)抓取的科技信息文章集合為Tt,其中t表示周期序號?;跈?quán)重TF-IDF算法獲得Tt的關(guān)鍵詞向量,記為 at={bi|i∈Q},Q 為科技詞庫中詞的數(shù)量。設(shè)ai為詞庫中詞匯分量第i個關(guān)鍵詞,bi為對應(yīng)關(guān)鍵詞ai所得權(quán)重TF-IDF值。

        計算bi的具體步驟為:

        1)設(shè)tj是 Tt的一篇文章,基于標(biāo)準(zhǔn) TF-IDF算法獲得tj第i個詞匯的TF-IDF值,設(shè)為

        2)設(shè)tj的下載量或閱讀量為nj,引用量為mj。那其中分別表示該周期內(nèi)所有文章nj與mj的平均值。

        在具體實施過程中,bi的計算可以基于下載量、閱讀量、引用量,也可以基于瀏覽時長、轉(zhuǎn)發(fā)率。

        2.2 熱點數(shù)據(jù)標(biāo)記模塊

        熱點數(shù)據(jù)標(biāo)記模塊負(fù)責(zé)標(biāo)記一個周期的所有熱點關(guān)鍵詞、生成關(guān)鍵詞的歷史時序數(shù)據(jù),并將這些時序數(shù)據(jù)加入樣本庫,用以模型訓(xùn)練。具體方法如下:

        1)設(shè)置bi的熱點閾值,當(dāng)bi>時,則標(biāo)記bi對應(yīng)的ai為熱點關(guān)鍵詞。

        2)生成 ai的 權(quán) 重 TF-IDF 時 間 序 列 Bi={bi,t,t=1,2,…,n},其中 bi,t表示第 t個周期 bi的值。 bi,t應(yīng)從歷史數(shù)據(jù)中獲取。

        3)篩選首次熱點出現(xiàn)序列。首次熱點出現(xiàn)序列是指之前關(guān)鍵詞ai不是熱點詞匯,而本周期變?yōu)闊狳c詞匯,基于此序列訓(xùn)練預(yù)測模型可以有效感知未來的熱點關(guān)鍵詞。設(shè)當(dāng)前周期為t,若bi,t≥且bi,t-1<,則標(biāo)記Bi為首次熱點出現(xiàn)序列。

        4)設(shè) Bi,(t-s+1,t)為首次熱點出現(xiàn)序列的一個截取樣本,Bi,(t-s+1,t)={bi,x,x=t-s+1, …,t-1,t},s 為截取長度,所有的樣本長度固定為s。

        5)將該樣本加入樣本集,供時序聚類使用。

        2.3 時序聚類模塊

        該模塊通過對熱點時序進行聚類[8]生成標(biāo)準(zhǔn)熱點時序。通過聚類一組時序數(shù)據(jù)生成一個標(biāo)準(zhǔn)熱點時序的示意見圖4。模塊的具體流程如下:

        1)對樣本庫的時序數(shù)據(jù)樣本聚類。

        首先,基于動態(tài)時間規(guī)整算法(DTW)計算兩個時序樣本 Bi,(t-s+1,t)、Bj,(x-s+1,x)的距離,x、t表示起止時間可不同。公式如下:

        式中:D(t1,t2)為兩個時序分別在 t1周期與 t2周期的DTW 距離;Dist(t1,t2)=|bi,t1-bi,t2|。

        其次,基于DBSCAN聚類算法對樣本庫的時序數(shù)據(jù)樣本進行聚類,設(shè)生成的聚類為 Cβ|β=1,2,…,n。

        2)生成標(biāo)準(zhǔn)熱點時序,即基于一個時序聚類中所有時序數(shù)據(jù)樣本計算出一個標(biāo)準(zhǔn)時序,作為該聚類的標(biāo)準(zhǔn)示例。 用 Bβ(t-s+1,t)表示標(biāo)準(zhǔn)熱點時序,其計算公式如下為 Bi在 t周期的值,t=1,2,…,S。S為周期的數(shù)量。每個時序聚類對應(yīng)生成一個標(biāo)準(zhǔn)熱點時序,設(shè)Z為生成標(biāo)準(zhǔn)熱點時序的集合,Z={Bβ|β=1,2,…,n}。

        3)計算每個聚類中的時序樣本與其標(biāo)準(zhǔn)熱點時序最遠DTW距離。Cβ的最遠DTW距離設(shè)為mβ。

        圖4 標(biāo)準(zhǔn)熱點時序生成

        2.4 熱點預(yù)測模塊

        該模塊負(fù)責(zé)對各關(guān)鍵詞的權(quán)重TF-IDF時序進行檢測,找出熱點關(guān)鍵詞。方法如下:

        1)過濾掉過低 bi,t的關(guān)鍵詞 ai,以減少檢測數(shù)量。設(shè)置過濾閾值 γ,若當(dāng)前周期其中bi表示近s′個周期bi,x的平均值,則認(rèn)為關(guān)鍵詞ai有可能成為熱點關(guān)鍵詞,進行檢測。反之,則不進行檢測。

        2)設(shè) ai通過第 1)步過濾,則生成 ai檢測序列Bi,Bi={bi,t,t=1,2,…,n}。

        過低的γ會導(dǎo)致過多的檢測樣本,預(yù)測效率降低;而過高的γ會導(dǎo)致一些熱點關(guān)鍵詞被過濾掉,降低熱點關(guān)鍵詞查全率。在具體實施過程中,可設(shè)置

        2.5 預(yù)測加速模塊

        本模塊負(fù)責(zé)對熱點預(yù)測任務(wù)進行加速。在熱點預(yù)測模塊,每個關(guān)鍵詞都要與每個標(biāo)準(zhǔn)熱點時序進行DTW距離計算,因此其時間復(fù)雜度為w·|Z|,其中w為模塊4(熱點預(yù)測模塊)步驟1)過濾后關(guān)鍵詞的數(shù)量,|Z|為Z標(biāo)準(zhǔn)熱點時序的數(shù)量。此方法比較耗時,本模塊基于時序特征前置比較的方式,加快預(yù)測時間。方法如下:

        1)提取每個 Bβ|Bβ∈Z的時序特征。 這些時序特征包括均值、方差、最大值、最小值等,Bβ的時序特征用Vβ表示。

        2)初步檢測ai檢測序列Bi與Bβ的距離。提取Bi的時序特征Vi,基于歐氏距離計算Vi與Vβ的距離,若此距離小于閾值v·,則再進行模塊4的熱點預(yù)測;若大于v·則放棄Bi與DTW距離計算。

        3 性能驗證

        本節(jié)驗證提出科研熱點預(yù)測及加速方法的實驗性能。提出的算法簡稱為PASSG(Prediction and Acceleration based on Standard Sequence Generation);無加速模塊的算法簡稱為PSSG算法,即PSSG算法僅包含前4個模塊?;鶞?zhǔn)算法使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作對比分析,性能指標(biāo)使用查全率、查準(zhǔn)率及預(yù)測時間實施評價。

        圖5 算法查全率和查準(zhǔn)率對比分析

        首先,驗證PASSG和RNN算法對不同樣本數(shù)量情況下的查全率和查準(zhǔn)率,如圖5所示。樣本數(shù)據(jù)是指隨機抽取熱點關(guān)鍵詞的樣本數(shù)量。樣本數(shù)量分別選定 500、1 500、2 500、3 500。 從圖 5 看出,PASSG算法比RNN算法查全率平均提高25.75%,查準(zhǔn)率平均提高28.25%,特別是在樣本數(shù)量較大時。RNN方法將所有樣本放入模型進行訓(xùn)練,然而時序具有多樣性,其用一個樣本擬合,效果不佳。

        其次,設(shè)置樣本數(shù)量為3 500,考察參數(shù)γ值對PASSG算法查全率與預(yù)測時間的影響,如圖6所示。橫軸為γ大于任意熱點標(biāo)準(zhǔn)時序均值的百分比。從圖中看出,查全率和預(yù)測時間都隨著γ的增大遞減。因此,算法需要根據(jù)實際需求,折中的設(shè)置γ值。當(dāng)對耗時敏感時,應(yīng)選擇較高的γ,而對查全率要求較高時,應(yīng)選擇較低的γ。

        圖6 γ值對查全率與預(yù)測時間的影響

        最后考察預(yù)測加速模塊的性能表現(xiàn),如圖7所示。設(shè)置樣本3 500。PSSG是指不用第2.5節(jié)的模塊5進行加速,直接用第2.4節(jié)模塊4進行預(yù)測。結(jié)果表明,使用加速方法的PASSG算法較PSSG算法不僅可以大幅提高預(yù)測效率,而且預(yù)測的精度損失較小。

        圖7 加速方法查全率和消耗時間性能分析

        4 結(jié)語

        提出一種科研熱點預(yù)測及加速框架,該框架基于權(quán)重TF-IDF獲取爬取信息的特征向量,兼顧信息的時序變化關(guān)系,并基于時序特征前置比較的方式提高預(yù)測效率。實驗表明,提出框架和方法不僅具有較高的查全率和查準(zhǔn)率,預(yù)測時間亦在可接受范圍內(nèi),且隨著樣本數(shù)量的增大,查全率、查準(zhǔn)率和預(yù)測時間優(yōu)勢明顯。

        国产精品人成在线观看不卡| 八区精品色欲人妻综合网| 免费看国产成年无码av| 女人一级特黄大片国产精品| 羞羞色院99精品全部免| 欧美激情一区二区三区| 丰满爆乳无码一区二区三区| 无码高潮久久一级一级喷水| 亚洲av熟女少妇一区二区三区| 深夜爽爽动态图无遮无挡| 国内精品久久久久久中文字幕 | 亚洲午夜成人精品无码色欲| 色综合中文综合网| 成人综合亚洲欧美一区h| 在线观看的a站免费完整版 | 精品一区二区av天堂| 手机在线中文字幕av| 亚洲综合另类小说色区| 无遮挡又黄又刺激又爽的视频| 最爽无遮挡行房视频| 久久亚洲黄色| 日本久久精品国产精品| 一区二区三区国产免费视频| 男人j进女人j啪啪无遮挡| 一级呦女专区毛片| 一区二区三区观看在线视频| 亚洲综合图色40p| 国产suv精品一区二人妻| 婷婷五月亚洲综合图区| 国产中文色婷婷久久久精品| 亚洲av永久中文无码精品综合| 国产av影片麻豆精品传媒| 精品人妻一区二区久久| 久久精品亚洲熟女av蜜謦| 久久精品免视看国产成人| 国产精品三级在线专区1| 蜜桃av夺取一区二区三区| 久久国产成人午夜av免费影院| 日本老熟妇乱| 精品亚洲午夜久久久久| 97人妻中文字幕总站|