馬 艷,韓英昆,曹建梅,任金花,劉 科,鄒立達
(1.山東電力研究院,山東 濟南 250003;2.國網(wǎng)山東省電力公司電力科學研究院,山東 濟南 250003;3.山東財經(jīng)大學,山東 濟南 250014)
科研選題預測與推薦是科技情報領域較新的應用需求。以往選題技術(shù)研究集中于圖書行業(yè),時間序列分析[1]、神經(jīng)網(wǎng)絡[2]、協(xié)同過濾[3]、個性化推薦[4]等方法得到應用。對于科研選題的研究,目前多針對文獻檢索工具[5]、選題案例分析[6]等展開??萍脊ぷ髡哌x題目標的確定,常依賴于市場人員的反饋,二手信息導致科技與應用需求的脫節(jié);又或者自己查閱科技文獻,科技文獻有一定的滯后性,無法給予科技人員最新的科技應用場景。
科研選題面臨的數(shù)據(jù)具有維度高、數(shù)據(jù)量大的特點??蒲羞x題過程中,科技工作者需要分析來自各個領域的數(shù)據(jù),其常以瀏覽新聞的方式了解自身科技領域的需求與發(fā)展。較為先進的方法是通過主題的訂閱,系統(tǒng)再基于推薦算法推送相關領域的文章給科技工作者。然而,這種被動接收信息的方式,使得科技人員不易洞察和分析應用市場與科學技術(shù)的聯(lián)系及關聯(lián)脈絡;同時,也不易對熱點事件的重要程度形成客觀的認識。
比如,一位電網(wǎng)調(diào)度領域的科技工作者,需要了解自身領域的科技應用需求[7]。與此同時,以比特幣為代表的虛擬貨幣的發(fā)展在國際社會成為重要的事件?!半娋W(wǎng)調(diào)度在比特幣挖礦巨量耗電中有著重要的應用前景”,這句話有著如下的邏輯依賴鏈條“比特幣——區(qū)塊鏈—挖礦—顯卡—功耗—用電量—電網(wǎng)調(diào)度”。如果沒有前人總結(jié),這種邏輯鏈條需要科技工作者閱讀大量的比特幣文章[8]才能夠領悟。即使有人總結(jié),科技工作者也會因為偶然閱讀,不能了解其重要程度,從而錯失了優(yōu)先開展研究的機會。
因此,亟須設計一種科技情報邏輯依賴鏈生成方法,可以對當前的社會經(jīng)濟新聞收集、分析,形成熱點新聞事件與科技人員領域的邏輯依賴鏈條,幫助科技工作者進行科研選題工作。
提出一種基于新聞事件的科技情報邏輯依賴鏈生成方法,旨在自動化地篩選與跟蹤社會熱點事件,當熱點事件涉及科技工作者的領域時,系統(tǒng)給出兩者之間的邏輯依賴鏈條,以方便科技工作者及時了解與獲取新的科研需求。
該系統(tǒng)框架的主要技術(shù)特征為:先模擬熱量傳導的現(xiàn)象找到熱點事件的相關主題,再基于主題詞熱量極值出現(xiàn)先后時序及相關性確定主題詞之間的邏輯依賴鏈。
圖1 給出了基于新聞事件的科技情報邏輯依賴鏈生成技術(shù)框架,包括依賴熱點事件獲取模塊、主題矩陣模塊、邏輯依賴生成模塊和科研方向推薦模塊。
圖1 科技情報邏輯依賴鏈生成技術(shù)框架
熱點事件獲取模塊負責獲得當前社會熱點事件的熱點主題詞,以及以該熱點主題詞為主要主題的文章。主題矩陣模塊負責生成與熱點主題詞相關的其他主題詞,并將與熱點事件的相關新聞加入主題文章庫。邏輯依賴鏈生成模塊負責生成從熱點詞到科技工作者關注領域的邏輯依賴鏈。形成“熱點詞—X1—X2—…—Xn”的邏輯依賴鏈,供科技工作者參考,其中X1…Xn表示技術(shù)領域詞??蒲蟹较蛲扑]負責管理科技工作者的關注領域,并根據(jù)邏輯依賴鏈推薦科研方向文章。
基于上述框架,圖2 給出基于新聞事件的科技情報邏輯依賴鏈生成過程。
圖2 科技情報邏輯依賴鏈生成流程
熱點事件獲取模塊用主題詞代表熱點事件,搜索下載以主題詞ki為主要主題的文章,然后計算ki的熱量,對于熱量較大的ki才進行后續(xù)的挖掘;熱量小的關鍵詞說明其代表熱點事件并不是一個具有廣泛社會效應的事件,從而舍棄。
在搜索引擎網(wǎng)站,獲取一個周期的關鍵詞搜索排名。對排名前n的每個關鍵詞做以下步驟:
1)設其中一個關鍵詞為ki,利用爬蟲工具搜索下載該周期內(nèi)含有ki的新聞文章。
2)設h為一篇含有ki的新聞文章?;陔[含狄利克雷分布(Latent Dirichlet All·cation,LDA)[9]技術(shù)對h進行分析,若h中ki的權(quán)重最高,則認為h是ki的主題文章。
3)若h是ki的主題文章,將h標識為hki,并加入主題文章庫。設ki的主題文章的集合為。
4)設主題詞ki的熱量為ei,則。其中,wh為ki在文章h中的LDA權(quán)重,ch為文章h的瀏覽量。
5)設γ為主題詞最小熱量閾值。若ei>γ,則認為ki是一個關注度較高事件的主題詞,對ki的邏輯依賴鏈進行挖掘,將ki傳遞依次給主題矩陣模塊;否則舍棄ki。
主題矩陣模塊接收熱點事件獲取模塊的熱點主題關鍵詞,并模擬熱量傳導原理尋找與該熱點主題關鍵詞相關的其他主題詞,模塊實現(xiàn)步驟如下。
1)將接收的一個熱點主題關鍵詞kx加入待傳導主題詞庫W。將kx加入事件主題詞庫Kx。
2)若W不為空,從W取出一個主題詞,設為ki。將ki的熱量傳導到其他主題詞。設kj為任意一個主題詞,kj∈(K-ki),其中K為全部主題詞庫。kj被ki傳導的熱量設為ej,則,其中wi、wj為ki在文章h中ki、kj的LDA權(quán)重。
4)將kj加入W,返回2)繼續(xù)執(zhí)行。
步驟結(jié)束后得到的Kx即為kx相關的其他主題詞,將Kx發(fā)送給邏輯依賴鏈生成模塊生成kx的邏輯依賴鏈。
邏輯依賴鏈生成模塊首先計算各主題詞熱量最高的時刻,再根據(jù)時序及主題相關度形成kx與科技工作者關注主題的邏輯依賴鏈,模塊實現(xiàn)步驟如下。
1)設科技工作者訂閱的主題詞集合為S。
2)若Kx∩S≠?,則說明kx代表的新聞事件與科技工作者所涉及的領域相關。應挖掘Kx∩S中主題詞與kx的邏輯依賴鏈。
3)若Kx∩S=?,則說明kx代表的新聞事件與科技工作者所涉及的領域不相關。不再挖掘kx與科技工作者所涉及的領域的依賴關系。轉(zhuǎn)到主題矩陣模塊挖掘繼續(xù)挖掘其他的kx。
4)對于所有的ks∈Kx∩S執(zhí)行5)—8)步驟。
5)設kx為此次挖掘的熱點事件的主題詞,設H為kx以及kx相關主題詞的主題文章集合,即H=。
6)計算所有Kx中主題詞熱量最高時刻,設kj|kj∈Kx熱量最高的時刻為tj。把周期分為若干個時間段,在ty時間段內(nèi),kj的熱量為是指在ty時間段內(nèi)含主題kj的文章。熱量最高時刻即為tj=ty|max(ey)。
7)設Ls為ks的依賴鏈,ks為Ls最后一個主題詞,也即科技工作者訂閱的主題詞。基于直接依賴詞查找方法(在步驟8說明)依次生成ks直接依賴詞、第一間接依賴、第二間接依賴……,直到依賴詞為kx,則Ls結(jié)束完成。Ls生成完畢后,其形式為Ls=kx?…ki?…?ks。其中,ki是ki+1的直接依賴主題詞。
8)ki的直接依賴詞查找方法如下:
(a)Kx=Kx-ki。
(b)對于所有kj∈Kx且tj<ti,計算kj與時間ki關聯(lián)度mi,j,。其中,Hi,j為H中在(tj-α,ti+α)時段同時含有ki與kj主題文章的集合,α是時間松弛系數(shù)。hi,j為Hi,j一篇文章,wi與wj為hi,j中ki與kj的LDA 權(quán)重。其中,Ti,j=tj-ti+2α,為hi,j的點擊量。
(c)ki的直接依賴詞為kd=kj|max(mi,j),kj∈Kx。
科研方向推薦模塊向科技工作者推送基于前面介紹的3 個模塊生成的邏輯依賴鏈。具體地,若ks為科技工作者訂閱主題詞,且Ls成功生成,則推送。在推送的時候,Ls上每個主題詞可以附上點擊量較大且與前后主題密切相關的文章超鏈接。
本文提出的邏輯依賴科研方向推薦方法(Related Link of Logic Judgment,RLLJ)包括依賴熱點事件獲取、主題矩陣、邏輯依賴生成和科研方向推薦4 個模塊。將主題矩陣和邏輯依賴生成模塊分別簡稱為主題矩陣方法(Related Link,RL)和邏輯依賴鏈生成方法(Logic Judgment,LJ),其是提出方法RLLJ 的核心算法,決定了方法的有效性和準確率。為了驗證基于熱量傳導方法的性能,首先給出兩個直觀方法的定義,使其與本文所提出的算法進行比較。
首先,定義一種直觀相關主題生成方法(Intuitively Topic Gereration,ITG)。這種方法與模塊二主題矩陣模塊的功能相同,只不過模塊二是通過模擬熱傳導方法生成相關主題。以下是用ITG方法搜索ki為主題詞相關主題庫的步驟:
1)對于?kj∈K,K是全詞庫。
2)ki,kj的相關性用如下公式定義,
3)當ei,j大于一定的閾值時,則認為ki,kj相關。將kj加入主題庫Ki。
4)對Ki所有主題詞迭代地重復執(zhí)行步驟1),直到所有kj∈Ki的相關主題詞都搜索過。
其次,定義一種簡單直觀的邏輯依賴鏈生成算法(Intuitively Logic Dependency Generation,ILDG)。以下是用ILDG方法生成邏輯依賴鏈的步驟:
1)設ks為用戶訂閱主題詞,設kx為熱點主題詞,目標是生成kx到ks的邏輯依賴鏈Ls。
2)令ki=ks。
3)在Kx中查詢ki的直接依賴。
4)Kx=Kx-ki,對?kj∈KX,計算
5)選擇kj|max(mi,j),kj∈KX,為ki的直接依賴主題詞。Ls=kj?Ls
6)令ki=kj,重復執(zhí)行步驟3)—6)直到kj=ks。
基于上述定義,我們通過仿真試驗對比驗證提出算法的性能。
首先,基于爬蟲下載一個周期的文章庫H,分別使用ITG 和RL方法生成相關主題。從圖3可以看出,ITG挖掘的主題庫非常大,當其與用戶訂閱主題集相交時,幾乎需要對用戶推薦所有訂閱主題,即要對用戶的所有訂閱主題生成邏輯依賴鏈。ITG 方法冗余大,對用戶推薦的信息過量,使用戶不能聚焦有用的信息。而RL 挖掘出的主題庫與用戶訂閱主題集重合的數(shù)量少,可以針對性生成邏輯依賴鏈,用戶可專注于有用的信息。
圖3 ITG與RL挖掘主題庫對用戶的影響
接著,試驗分別基于LJ 與ILDG 生成Ls。如圖4所示,橫坐標是Kx初始數(shù)量;縱坐標為Ls的長度??梢钥闯?,ILDG 沒有考慮時序的因素,其長度幾乎接近Kx規(guī)模,產(chǎn)生較多冗余信息,沒有參考價值。LJ 同時考慮時序與相關性的因素,可將Ls長度控制在個位數(shù),能準確高效表達主題之間的邏輯依賴關系。
圖4 LJ與ILDG生成邏輯依賴鏈有效性比較
最后,為驗證提出算法RLLJ 的效果,試驗給出人工生成Ls的方法,即給定kx與ks,根據(jù)領域?qū)<业乃阉?,人工生成Ls。設人工生成的Ls為L′s。
定義重合率為:給定kx與ks,RLLJ 與人工生成Ls方法主題詞相同的占比,即重合率表示邏輯依賴的鏈的長度。
定義優(yōu)秀率:給定Kx、kx與ks,分別用RLLJ與人工的生成Ls,經(jīng)用戶盲選,用戶認同RLLJ生成的Ls視為RLLJ優(yōu)秀。進行多次試驗,優(yōu)秀的占比成為優(yōu)秀率。
圖5 給出了試驗比較結(jié)果,橫坐標為Kx初始數(shù)量;縱坐標為比率??梢钥闯觯睾下孰S著Kx規(guī)模增加而減少,說明RLLJ與人工生成算法在Kx規(guī)模大時有較多的分歧。觀察優(yōu)秀率,可以發(fā)現(xiàn)隨著Kx規(guī)模增加而增高,這是人工方法中由于人的精力限制在大量主題面前會出現(xiàn)較多失誤。
圖5 算法的重合率及優(yōu)秀率
提出一種基于新聞事件的科技情報邏輯依賴鏈生成方法,通過模擬熱量傳導現(xiàn)象找到熱點事件相關主題,再基于主題詞熱量極值出現(xiàn)先后時序及相關性實現(xiàn)主題詞邏輯依賴鏈的確定。該方法使科研工作人員更加容易地了解熱點事件與自身關注技術(shù)的邏輯關系,更加容易總結(jié)熱點事件在技術(shù)領域的應用需求,幫助科研工作人員實時快速地跟蹤與自己研究領域相關的社會熱點事件。試驗驗證了提出算法具有較高的針對性,專注于對用戶有用的信息。算法還可準確高效表達主題之間的邏輯依賴關系,尤其在主題詞規(guī)模較大時,具有高達70%的優(yōu)秀率。