陳敏璇,戴 歡,+,高玉建,付保川,王金鵬
(1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000;2.教育部學(xué)位與研究生教育發(fā)展中心 信息處,北京 100083)
隨著新興學(xué)科和交叉學(xué)科的不斷產(chǎn)生與發(fā)展,對遴選出合適的專家進(jìn)行相關(guān)材料的評審工作,提出了更高的要求。目前,基于學(xué)科目錄進(jìn)行遴選的傳統(tǒng)方法存在以下不足:①論文內(nèi)容的學(xué)科交叉性強(qiáng),其復(fù)雜性超出單一學(xué)科的標(biāo)準(zhǔn)。涉及跨學(xué)科專業(yè)知識的論文難以歸類,致使論文送審的專家匹配度不高;②按照學(xué)科目錄配置評審專家,即使專家同屬于一個二級學(xué)科,其研究方向也不盡相同;③評審專家多為領(lǐng)域權(quán)威,科研任務(wù)較重,如若不能有效地進(jìn)行專家遴選,將大幅度增加專家的工作量,同時論文的往返送審時間也會相應(yīng)延長。因此,在多領(lǐng)域跨學(xué)科的情況下,匹配合適的專家將有利于論文評審工作的有效開展。
本文將專家關(guān)鍵詞作為專家特征,并向量化專家與論文的研究方向關(guān)鍵詞,基于兩者之間的相似度,進(jìn)一步分析論文與專家之間的匹配度,實現(xiàn)了交叉學(xué)科的專家遴選,有效解決了遴選過程中出現(xiàn)的多領(lǐng)域跨學(xué)科問題。
專家遴選算法可追溯到上世紀(jì)90年代,為解決用戶個性化需求,多種多樣的推薦系統(tǒng)應(yīng)運而生,Amazon[3]、Google公司開發(fā)了關(guān)于電子商務(wù)的專家推薦系統(tǒng)。目前,專家遴選系統(tǒng)的經(jīng)典方法是基于內(nèi)容的推薦算法[4]、協(xié)同過濾算法[5]和混合推薦算法[6]。專家推薦系統(tǒng)應(yīng)用領(lǐng)域比較廣泛,常見應(yīng)用范圍集中在音樂[7]、書籍[8]、網(wǎng)絡(luò)搜索[9]方面等。近年來,推薦系統(tǒng)被逐漸應(yīng)用于學(xué)術(shù)領(lǐng)域。文獻(xiàn)[10]構(gòu)建的Aminer系統(tǒng)[10],利用專家之間的學(xué)術(shù)關(guān)系建立學(xué)術(shù)社交網(wǎng)絡(luò),使用知識圖譜通過專家參與的會議給每個專家設(shè)置標(biāo)簽,從而建立專家異構(gòu)信息網(wǎng)絡(luò),再基于主題模型對網(wǎng)絡(luò)進(jìn)行統(tǒng)一建模,估計不同專家的概率分布。文獻(xiàn)[11]設(shè)計了二集概念空間映射算法,即基于概念相似度和空間映射的專家知識推薦系統(tǒng)。該算法從核心資源數(shù)據(jù)庫中提取一般知識,從機(jī)構(gòu)數(shù)據(jù)庫中提取專業(yè)知識,利用空間結(jié)構(gòu)表示學(xué)科邊界之間的聯(lián)系,圖形結(jié)構(gòu)代表學(xué)科知識發(fā)展在領(lǐng)域內(nèi)的結(jié)構(gòu)關(guān)系。文獻(xiàn)[12]使用科學(xué)領(lǐng)域中科學(xué)計量學(xué)方法的科學(xué)領(lǐng)域本體論、知識映射、余字分析選擇合適的同行專家評估學(xué)科,確保最后選擇的專家盡可能是掌握專業(yè)知識的專家。文獻(xiàn)[13]將專家、項目、領(lǐng)域建立關(guān)聯(lián),基于貪心算法衡量待評審項目與專家的匹配程度。對于專家推薦的評價指標(biāo),文獻(xiàn)[14]比較了3種判斷集成方法的精度改進(jìn)和預(yù)測性能,由于系統(tǒng)預(yù)測的專業(yè)度高,專家預(yù)測結(jié)果容易受到專家對自身判斷過于自信的影響,提出了專家與系統(tǒng)預(yù)測相結(jié)合的評判標(biāo)準(zhǔn)。
通過上述的分析可知,目前論文評審的專家遴選算法大多基于專家學(xué)科領(lǐng)域把專家劃分至單個學(xué)科領(lǐng)域中,當(dāng)面臨多領(lǐng)域跨學(xué)科的專家遴選,通常存在遴選匹配度不高的情況。因此,本文首先基于生成關(guān)鍵詞詞庫,對論文與專家的研究方向關(guān)鍵詞進(jìn)行匹配的方法進(jìn)行專家遴選,有效解決多領(lǐng)域跨學(xué)科情況下的專家遴選問題。
本文提出的專家遴選算法包括以下部分:①數(shù)據(jù)預(yù)處理,包括對摘要文本分詞、去停用詞、文本特征提取等過程,進(jìn)而得到論文研究方向關(guān)鍵詞;②詞語向量化,使用Word2vec技術(shù)將論文及專家的研究方向關(guān)鍵詞向量化;③詞向量相似度計算,對論文與專家的研究方向關(guān)鍵詞詞向量之間進(jìn)行相似度計算得到相似度矩陣;④相似度矩陣分析,對詞向量相似度矩陣分析得到專家遴選列表。算法整體流程如圖1所示。
圖1 多領(lǐng)域跨學(xué)科專家遴選算法框架
2.1.1 文本分詞
由于JIEBA文本分詞[15]方法既包含詞典分詞切分速度快的特點,又能夠利用統(tǒng)計分詞結(jié)合上下文識別生詞、自動消除歧義。因此,本文算法首先基于JIEBA文本分詞方法對摘要文本進(jìn)行分詞處理,將摘要語句劃分為詞語,便于后續(xù)提取特征詞語作為論文特征。在進(jìn)行文本分詞前,如式(1)所示,論文摘要文本T可表示為關(guān)于語句的集合
T={S1,S2,…,Sq}
(1)
式中:Sq表示論文摘要文本T中第q個語句。
算法對Sq進(jìn)行分詞產(chǎn)生若干個分詞形式,基于JIEBA自帶詞典,結(jié)合每個分詞形式中的詞語生成對應(yīng)的有向無環(huán)圖,并且采用動態(tài)規(guī)劃查找m種形式中最大概率路徑,得到Sq最合理的分詞形式。假設(shè)句子Sq的第m種分詞形式如式(2)表示
Sq,m=Wq,m1Wq,m2…Wq,mn
(2)
式中:Wq,mn表示句子Sq第m種分詞方式Sq,m的第n個詞語。經(jīng)過JIEBA文本分詞后,如式(3)所示,論文摘要文本T可被表示為一個詞語集合Tjieba
Tjieba={W1,W2,…,Wk}
(3)
式中:Wk表示論文摘要T經(jīng)過JIEBA文本分詞得到的詞語集合Tjieba中第k個詞語Wk。
2.1.2 去除停用詞
文本在分詞處理之后會出現(xiàn)一些無用的詞,比如所有的標(biāo)點符號、數(shù)字,以及例如“你”、“我”、“他”、“的”等詞語或漢字,這些詞語包含信息少,且出現(xiàn)頻率高,占用較大空間,在后續(xù)算法中屬于無用的輸入詞。因此,為了進(jìn)一步文本特征選擇的準(zhǔn)確性與高效性,在文本特征提取前需要去除論文摘要中的停用詞。去除停用詞使用的停用詞表一般為“哈工大停用詞詞表”,同時可以根據(jù)具體情況在停用詞表中自定義添加論文數(shù)據(jù)集中出現(xiàn)次數(shù)較多且無用的詞語。
摘要文本T經(jīng)過分詞算法后生成的詞語集合Tjieba={W1,W2,…,Wk} 中通常含有停用詞。因此,算法通過調(diào)用停用詞表去除集合Tjieba中的停用詞后,將詞語重新排列,如式(4)所示,摘要T可被表示為新的詞語集合
Tlast={W1,W2,…,Wh}
(4)
式中:Wh表示摘要文本的詞語集合Tjieba在去除停用詞后的新詞語集合Tlast中的第h個詞語。
本文算法基于TF-IDF[16]方法從論文摘要中提取出能夠代表整篇論文的詞語作為論文的研究方向關(guān)鍵詞。算法對詞語集合Tlast進(jìn)行特征選擇,且僅對提取出的特征關(guān)鍵詞進(jìn)行分析,減小了算法中的數(shù)據(jù)維度。將詞語集合Tlast={W1,W2,…,Wh} 中每個詞語都經(jīng)過TF-IDF計算,按照結(jié)果大小選取摘要關(guān)鍵詞。詞語的TF-IDF計算如式(5)所示
TF_IDFWh=TFWh*IDFWh
(5)
式中:TFWh表示詞語Wh的詞頻,IDFWh表示詞語Wh的逆文檔頻率,如式(6)、式(7)所示,詞頻和逆文檔頻率可表示為
(6)
(7)
(8)
將詞語集合Tlast中所有詞語 {W1,W2,…,Wh} 進(jìn)行TF-IDF計算后,將top-n對應(yīng)的n個詞語提取出來作為論文的研究方向關(guān)鍵詞,則論文研究方向關(guān)鍵詞集合key如式(9)所示
Key={wd1,wd2,…,wdn}
(9)
(10)
式中:TF_IDFw dn表示論文研究方向關(guān)鍵詞wdn經(jīng)過TF-IDF計算的詞語特征值。
提取論文的關(guān)鍵詞后,為定量度量論文與專家研究方向關(guān)鍵詞之間的關(guān)系,本文算法使用Word2vec[17]處理文本數(shù)據(jù),將論文與專家的研究方向關(guān)鍵詞映射為K維的詞向量。在模型生成關(guān)鍵詞詞向量過程中,Word2vec從訓(xùn)練文本語料中構(gòu)建詞匯表,用于訓(xùn)練研究方向關(guān)鍵詞的向量表示。為更快地生成詞向量,本文算法使用了CBOW模型,圖2是本文構(gòu)建的CBOW模型。
圖2 CBOW模型
詞語向量化分別將論文與專家的研究方向關(guān)鍵詞映射為K維的數(shù)值向量后,論文與專家才能基于關(guān)鍵詞相似度計算得到論文與專家研究方向的匹配度。
由于專家的研究方向關(guān)鍵詞涉及多領(lǐng)域跨學(xué)科,所以使用傳統(tǒng)方法先將專家進(jìn)行分類會導(dǎo)致專家遴選結(jié)果不準(zhǔn)確。為避免出現(xiàn)基于跨學(xué)科研究方向?qū)<曳诸惖恼`差,在論文與專家的研究方向關(guān)鍵詞轉(zhuǎn)化為詞向量后,直接將論文與專家的研究方向關(guān)鍵詞詞向量進(jìn)行數(shù)值匹配。本文提出的算法基于歐氏距離對論文和專家的研究方向關(guān)鍵詞詞向量之間直接進(jìn)行相似度計算。本文使用的歐氏距離相似度計算用于衡量論文與專家研究方向關(guān)鍵詞詞向量之間的絕對距離。因此,本文算法計算論文與專家研究方向關(guān)鍵詞之間的歐氏距離dist如式(11)所示
(11)
根據(jù)上述構(gòu)建的專家遴選算法,本文提出的一種面向多領(lǐng)域跨學(xué)科的專家遴選算法CD-Selection可用于在多領(lǐng)域中對跨學(xué)科專家的遴選。詳細(xì)的算法偽代碼如下所示。
算法1:CD-Selection
輸入:論文摘要文本T={S1,S2,…,Sq}
輸出:專家遴選列表List
(1) /*數(shù)據(jù)預(yù)處理*/
(2) forSqinT:
(3) 對Sq進(jìn)行分詞操作
(4) if word in Stopwords then:
(5) 去除停用詞語
(6) end if
(7) end for
(8) then getTlast={W1,W2,……,Wh}
(9) /*提取論文研究方向關(guān)鍵詞*/
(10) for word inTlast:
(11)TF-IDF=TFword*IDFword
(12) end for
(13) keyword1←TF-IDF中top-n對應(yīng)關(guān)鍵詞
(14) /*研究方向關(guān)鍵詞向量化*/
(15) for keyword1 ofT:
(16) for keyword2 of expert:
(17) 論文與專家的研究方向關(guān)鍵詞Word2vec向量化
(18) 計算keyword1與keyword2的歐氏距離
(19) end for
(20) end for
(21)List←關(guān)鍵詞相似度矩陣排序分析
(22) returnList
算法1中,相比于傳統(tǒng)的通過學(xué)科目錄匹配論文與專家的研究方向,本文通過直接將專家的多領(lǐng)域跨學(xué)科研究方向關(guān)鍵詞作為專家特征,根據(jù)論文與專家研究方向關(guān)鍵詞的匹配度,得到了專家遴選列表List,提高了專家遴選的準(zhǔn)確性。
由算法流程可知,算法最主要的時間花費在研究方向關(guān)鍵詞向量化模型訓(xùn)練過程中。如算法1所述,對于專家詞語庫中所有詞語生成詞向量,每個詞向量維度為K,Word2vec模型的窗口大小為W,模型embedding大小為E,詞語庫中詞語數(shù)量為N。因此,該過程的時間復(fù)雜度為O(W*(E+E*N))。
專家數(shù)據(jù)庫數(shù)據(jù)來自于Aminer系統(tǒng)篩選出的近三年畢業(yè)的1043個博士專家以及專家相關(guān)的15 688個研究方向關(guān)鍵詞,其中包括了計算機(jī)、醫(yī)學(xué)、馬克思主義、物理、環(huán)境等多領(lǐng)域方面的專家。數(shù)據(jù)庫中的每位專家都包含專家姓名、所屬學(xué)科、所屬院系和若干個關(guān)于研究方向的關(guān)鍵詞等信息。論文關(guān)鍵詞詞庫使用的是Word2vec的經(jīng)典語料庫,將研究方向關(guān)鍵詞使用純文本形式保存,進(jìn)行規(guī)格化處理變?yōu)榭捎玫年P(guān)鍵詞詞庫。同時,將篩選出的專家對應(yīng)的研究方向關(guān)鍵詞按照與論文關(guān)鍵詞庫同樣的方法保存至論文研究方向關(guān)鍵詞數(shù)據(jù)庫中。數(shù)據(jù)的規(guī)格化操作包括對研究方向關(guān)鍵詞進(jìn)行去除特殊字符、標(biāo)點、無意義漢字等操作。
作為算法測試的論文數(shù)據(jù)集是在中國知網(wǎng)中隨機(jī)下載的30篇論文,論文研究方向同樣覆蓋多個領(lǐng)域,取出每篇論文的摘要部分形成每篇論文對應(yīng)的純文本文件。
得到專家遴選列表后,算法一般使用列表結(jié)果中遴選成功的論文數(shù)目及專家遴選匹配率P評價算法的正確性。因此,專家遴選匹配率P如式(12)所示
(12)
式中:N為算法選取的測試論文總數(shù),CR為在所有測試論文中最終遴選的專家適合評審論文的論文數(shù)。通過對遴選成功論文數(shù)和P指數(shù)的計算分析,判斷文中提出的遴選算法是否能夠匹配到合適的評審專家。
本文提出的算法對一篇論文摘要的純文本文件基于JIEBA技術(shù)進(jìn)行文本內(nèi)容分詞,將摘要劃分為單獨的詞語。文本分詞后,加載停用詞文件把劃分的獨立詞語內(nèi)容中的停用詞刪除,保留文本中能代表論文研究內(nèi)容的詞語。然后使用TF-IDF的文本特征提取方法得到論文的研究方向關(guān)鍵詞,再對論文和專家的研究方向關(guān)鍵詞使用Word2vec方法將關(guān)鍵詞向量化得到詞語對應(yīng)的詞向量。將論文的研究方向關(guān)鍵詞詞向量與1043個專家所有的研究方向關(guān)鍵詞詞向量進(jìn)行歐氏距離計算得到1043個每個專家對應(yīng)的距離矩陣,第j個專家的距離矩陣為Distj, 算法中距離矩陣Distj如式(13)表示
(13)
(14)
式中: min(Distj) 表示第j個專家的距離矩陣中的最小值。
本文算法的Word2vec模型中,需要對參數(shù)進(jìn)行定量設(shè)置。其中,Size表示詞語經(jīng)過模型生成詞向量的規(guī)模大??;Windows表示模型訓(xùn)練文本時詞語滑動窗口大?。籛orkers表示模型并行運算窗口個數(shù);Seed表示隨機(jī)種子,該參數(shù)須設(shè)置為一個定值,否則不定隨機(jī)種子將導(dǎo)致相同詞語經(jīng)過模型訓(xùn)練后形成的詞向量結(jié)果不相同。
改變Word2vec中的參數(shù)進(jìn)行實驗發(fā)現(xiàn),參數(shù)設(shè)置不同會對算法結(jié)果產(chǎn)生影響。圖3是參數(shù)Seed分別對WE-LDA算法[18]、UCCFRIET算法[19]及本文CD-Selection算法的實驗結(jié)果P值的影響。其中,參數(shù)Seed取值為0、1、25、50、75、100。從圖3可以看出,3種算法在Seed參數(shù)為1時遴選實驗結(jié)果最好,并且隨著模型中Seed參數(shù)增大,專家遴選匹配率降低。且本文算法在所有Seed參數(shù)值下的專家遴選匹配率均高于其它兩種算法。因此,Seed參數(shù)會影響遴選匹配率,本文選擇的Seed參數(shù)值為1。
圖3 改變Seed參數(shù)時算法遴選匹配率對比
3種算法在Windows參數(shù)分別為1、3、5、7、9時的遴選準(zhǔn)確度實驗結(jié)果對比如圖4所示,可以看出,本文算法在所有Windows參數(shù)取值下的專家遴選匹配率均高于其它兩種算法。并且Windows參數(shù)取值為5時,算法的專家遴選匹配率更高。
圖4 改變Windows參數(shù)時算法遴選匹配率對比
根據(jù)上述改變Seed和Windows取值的實驗結(jié)果分析,選取最優(yōu)值。因此,本文算法中使用的Word2vec模型的參數(shù)及取值見表1。
表1 Word2vec模型參數(shù)的設(shè)定
專家遴選算法在詞向量相似度計算中分別使用標(biāo)準(zhǔn)歐氏距離、歐氏距離、曼哈頓距離、切比雪夫距離、余弦相似度、Pearson相似度時論文遴選匹配結(jié)果如圖5所示。由此可以發(fā)現(xiàn)選取歐氏距離計算詞向量相似度的遴選算法匹配結(jié)果都高于其它方法,由此可見,歐氏距離可以有效計算詞向量之間的相似度,得到專家匹配度,實現(xiàn)跨學(xué)科專家遴選。
圖5 不同詞向量相似度計算方法下的遴選實驗結(jié)果
如圖6所示,3種算法分別在表1的Word2vec參數(shù)下基于30篇論文數(shù)據(jù)集的實驗結(jié)果。從圖6可以看出,本文CD-Selection算法在Word2vec最優(yōu)參數(shù)下遴選成功論文數(shù)多于其它兩種算法。
圖6 表1參數(shù)下的算法遴選實驗結(jié)果
3種算法在論文總數(shù)分別為5、10、15、20、25、30時的P值結(jié)果如圖7所示,由此可以發(fā)現(xiàn)3種算法的專家遴選匹配率均呈現(xiàn)相同趨勢,但本文CD-Selection算法在所有取值范圍間的專家遴選匹配率高于其它兩種算法。由此可見,本文CD-Selection算法能有效實現(xiàn)多領(lǐng)域跨學(xué)科的專家遴選。
圖7 改變論文總數(shù)時算法遴選匹配率對比
本文提出了一種面向多領(lǐng)域跨學(xué)科的專家遴選算法。該算法通過直接匹配論文與專家的研究方向關(guān)鍵詞,避免出現(xiàn)基于研究領(lǐng)域?qū)<疫M(jìn)行跨領(lǐng)域分類導(dǎo)致的誤差。算法在提取論文摘要的文本特征后,使用Word2vec技術(shù)將詞語向量化。基于歐氏距離計算論文與專家研究方向關(guān)鍵詞詞向量之間的距離矩陣,最后,根據(jù)距離矩陣分析數(shù)據(jù)從而找到適合評審多領(lǐng)域跨學(xué)科論文的專家。實驗結(jié)果表明,本文所提算法在跨領(lǐng)域遴選時匹配度高,能夠有效實現(xiàn)多領(lǐng)域跨學(xué)科的專家遴選。