胡 斌,徐小良
(杭州電子科技大學(xué)軟件與智能技術(shù)研究所,浙江杭州 310018)
隨著互聯(lián)網(wǎng)信息資源的不斷增長,使用關(guān)鍵字的檢索手段,難以滿足用戶高效獲取所需信息。在這種背景下,個性化推薦系統(tǒng)應(yīng)運而生,并在電子商務(wù)、影視、文章推薦等多領(lǐng)域得到應(yīng)用。但在科技項目評審領(lǐng)域,鮮有項目評審專家自動推薦系統(tǒng)的研究及應(yīng)用?;谪S富的專家?guī)煨畔?,根?jù)科技項目信息自動推薦合適的評審專家,是科技項目評審質(zhì)量和效果的保證。文中根據(jù)科技項目評審標準、專家信息庫和待評審科技項目信息研究科技項目評審專家推薦系統(tǒng),以實現(xiàn)科技項目評審專家的高效準確的遴選。
通用的推薦系統(tǒng)一般適用于電子商務(wù)、視頻、音樂等有著大量用戶的互聯(lián)網(wǎng)網(wǎng)站,對向量空間數(shù)據(jù)的獲取多是通過挖掘用戶在網(wǎng)上的瀏覽或購買的歷史記錄。而科技項目評審專家推薦中的數(shù)據(jù)多源于數(shù)據(jù)庫中的文本信息,其來源差別較大,并且通用的推薦系統(tǒng)模型一般只考慮用戶-對象二維度量空間,不能夠考慮到評審專家推薦中篩選評審專家的原則等多維因素[1]。因此,運用通用的推薦系統(tǒng)模型會導(dǎo)致推薦結(jié)果準確率較低,推薦產(chǎn)生結(jié)果不能作為遴選參考。為解決這一問題,提出了一種在基于內(nèi)容推薦的基礎(chǔ)上融合協(xié)同過濾算法的組合推薦策略。為了使推薦的結(jié)果能夠符合篩選評審專家的原則,在此基礎(chǔ)上加入了專家評分加權(quán)因子,對推薦結(jié)果進一步調(diào)整。
推薦系統(tǒng)模型具體實現(xiàn)步驟如下:
(1)根據(jù)專家信息庫中的專家信息,按評審專家選擇標準(科研課題、文獻、人才培養(yǎng)、獲獎情況)對每位專家評分,建立專家評分數(shù)學(xué)模型庫。
(2)按數(shù)據(jù)庫中專家的文本信息,對每位專家信息進行文本分詞,再用TF-IDF算法篩選關(guān)鍵詞,建立專家信息向量空間模型庫。
(3)讀取新項目文本信息,對其分詞、篩選關(guān)鍵詞,建立項目向量空間模型。
(4)根據(jù)新項目的文本信息,找出已評審過的類似項目列表,取出相似項目列表中已選的評審專家,建立類似項目評審專家列表。
(5)將步驟(2)與步驟(3)中產(chǎn)生的專家向量空間模型與項目向量空間模型進行相似性匹配,產(chǎn)生推薦,得到匹配度最高的前N個推薦專家列表。
(6)運用新的混合推薦算法,將步驟(1)、(4)和(5)中得到的推薦專家信息進行處理,從而得到最終的推薦專家列表,設(shè)計流程如圖1所示。
圖1 系統(tǒng)推薦實現(xiàn)流程
科技項目和評審專家信息的向量空間模型的創(chuàng)建過程[2]類似,具體的實現(xiàn)步驟如下:
(1)將文檔先進行分詞處理。
(2)運用TF-IDF算法計算每個特征詞的權(quán)值[3],并篩選關(guān)鍵詞。
(3)將關(guān)鍵詞與關(guān)鍵詞在整個文本信息中的權(quán)重,映射成為一個特征向量 V(d)={〈t1,w1(d)〉,〈t2,w2(d)〉,…,〈tn,wn(d)〉},用這樣的形式表示向量空間模型。其中,ti,i=1,2,…,n 為特征詞條項;wi(d)為ti在d中的權(quán)重;wi(d)權(quán)重是運用TF-IDF算法根據(jù)特征項的頻率信息TF和反文檔頻率IDF來計算出文檔d中每一個特征項的權(quán)值,再代入特征向量V(d),便得到該文檔的向量空間模型。
基于TF-IDF特征權(quán)重閾值的向量空間模型建立流程,如圖2所示。
圖2 向量空間模型實現(xiàn)流程
專家評分數(shù)學(xué)模型庫的建立,是為了通過專家的專業(yè)評分作為加權(quán)因子,調(diào)整推薦產(chǎn)生的結(jié)果列表,從而提高評審專家推薦的準確性。根據(jù)評審專家的評價指標和遴選實施細則,在獲取專家基本信息的基礎(chǔ)上,對信息進行提取建立專家信息的評分數(shù)學(xué)模型,計算得到專家的專業(yè)評分,再將結(jié)果存入庫中[4]。具體實現(xiàn)方法:
(1)讀取專家?guī)熘械膶<倚畔?,對需要運用的字段信息進行提取。
(2)根據(jù)專家信息建立科研課題指標數(shù)學(xué)模型,計算得到科研課題指標的專業(yè)評分,其中計算方法為
式中,Pi,S1,S2為相應(yīng)的權(quán)重;Aαi1,Aαi2分別為已鑒定的項目數(shù)和在研究的項目數(shù);i分別為國家級項目和省部級項目。
(3)根據(jù)專家信息建立文獻指標數(shù)學(xué)模型,計算得到文獻指標的專業(yè)評分,其中計算方法為
式中,Di,Wi,Wj',Wk″為相應(yīng)權(quán)重;Aβi1為論文量;Aβi2為著作量;Aβi3為印證量;i分別為4大檢索系統(tǒng)收錄,發(fā)表于國際、國內(nèi)核心期刊,國內(nèi)二級期刊;j分別為著書,編著書,編書;k分別為國外引證量,國內(nèi)引證量,自引率。
(4)根據(jù)專家信息建立人才培養(yǎng)指標數(shù)學(xué)模型,計算得到人才培養(yǎng)指標的專業(yè)評分,其中計算方法為
式中,Ri,C1,C2為相應(yīng)權(quán)重;Aγi1,Aγi2分別為所培養(yǎng)研究生人數(shù)和擔(dān)任研究生導(dǎo)師的年限;i分別為博士生導(dǎo)師和碩士生導(dǎo)師。
(5)根據(jù)專家信息建立獲獎情況指標數(shù)學(xué)模型,計算得到獲獎情況指標的專業(yè)評分,其中計算方法為
式中,Qi,Ej為相應(yīng)權(quán)重;Nj為發(fā)表論文數(shù);i分別為國家級獲獎和省部級獲獎;j分別為一等獎、二等獎、三等獎。
(6)根據(jù)上述4個評價指標值建立專家評分數(shù)學(xué)模型,計算得到專家的最終的專業(yè)評分,其中計算公式為
式中,Mi分別表示為科研課題指標、文獻指標、人才培養(yǎng)指標、獲獎情況指標的相應(yīng)權(quán)重。
(7)根據(jù)前6步的方法計算專家?guī)熘忻课粚<业膶I(yè)評分,然后存入數(shù)據(jù)庫中,完成專家評分數(shù)學(xué)模型庫的建立。
專家評分數(shù)學(xué)模型庫的建立實現(xiàn)流程如圖3所示。
圖3 專家評分數(shù)學(xué)模型庫的建立流程圖
該混合推薦算法的基本思想:首先構(gòu)建科技項目向量空間模型和評審專家向量空間模型,運用基于內(nèi)容的推薦算法對向量空間模型進行相似性匹配,從而產(chǎn)生初步推薦專家列表;然后根據(jù)已評審相似項目的評審專家列表運用協(xié)同過濾推薦算法對得到的推薦專家列表進行調(diào)整;最后在前兩步的基礎(chǔ)上運用專家評分數(shù)學(xué)模型庫中相應(yīng)的專家評分作為加權(quán)因子產(chǎn)生最終推薦列表。具體實現(xiàn)步驟如下:
(1)運用本課題在基于內(nèi)容的推薦算法[5]基礎(chǔ)上提出的基于內(nèi)容的分層次推薦算法,計算得到相似值最高的前N位或大于閾值的專家。
(2)融合協(xié)同過濾算法的思想[6],查找出與該項目相似的已評審項目的評審專家列表,如果第一步中推薦產(chǎn)生的專家在相似的已評審項目專家列表中,則將項目相似值乘以相應(yīng)權(quán)重加到第一步的相似值上,如果不在專家列表中則加0。
(3)從專家評分數(shù)學(xué)模型庫中,找出推薦專家列表中每位專家的專業(yè)評分,除以100再乘以相應(yīng)權(quán)重加入到上述得到的相似值上。
(4)計算得到最終的綜合分值,再對其重新排序,取最靠前的N/2為評審專家作為推薦返回?;旌贤扑]算法的實現(xiàn)流程如圖4所示。
其中項目向量空間模型與專家向量空間模型的匹配實現(xiàn)步驟如下:
(1)在基于內(nèi)容的推薦算法下,得到項目的向量空間模型。
(2)根據(jù)項目模型中的特征詞和權(quán)值與專家信息向量模型庫中的每一位專家進行匹配。
圖4 混合推薦算法實現(xiàn)框圖
(3)運用余弦系數(shù)相似度計算方案[7]計算出項目與每位專家相似系數(shù)Pi,通過兩個向量的相似系數(shù)Pi來表示項目與專家的匹配程度。
(4)取前N個值最大的Pi,所對應(yīng)的專家為最適合評審該新項目的推薦專家列表N。
推薦產(chǎn)生的專家與人工選擇結(jié)果越接近則說明越準確,一般運用覆蓋率(Coverage)和準確率(Precision)兩者綜合產(chǎn)生的匹配率(Matching)來度量推薦的準確性[8]。假設(shè)RS為推薦專家集,ES為人工選擇的專家集,則
其中實驗中用到的匹配率代表人工推薦的和推薦系統(tǒng)推薦的結(jié)果集的交集除以推薦的總?cè)藬?shù),排列次序匹配率代表人工推薦和推薦系統(tǒng)推薦的結(jié)果集交集中次序依次對應(yīng)的人數(shù)除以推薦的總?cè)藬?shù)。
該系統(tǒng)的實驗數(shù)據(jù)來源于浙江省科技項目管理系統(tǒng),系統(tǒng)中含有已審批的科技項目為33 288項,評審專家為16 118位。測試數(shù)據(jù)中專家信息是從16 118位專家中篩選出計算機相關(guān)方面的專家,然后再隨即抽取其中300位作為專家樣本庫,待評審的項目是從系統(tǒng)中隨機抽取40個與計算機相關(guān)的已評審項目,每個項目計算獲取3組數(shù)據(jù):(1)嚴格按照評審專家遴選標準人工選取10位評審專家并且按照符合程度依次排序。(2)用基于內(nèi)容的推薦算法推薦產(chǎn)生10位評審專家并且按余弦相似值的符合程度依次排序。(3)用提出的混合推薦算法推薦產(chǎn)生10位專家并按照混合推薦值的符合程度依次排序。然后,運用推薦系統(tǒng)的評價指標中匹配率的計算方法分別計算出以上每項(1)與(2),(1)與(3)的匹配率和排列次序匹配率。實驗得到的數(shù)據(jù)如表1所示。
表1 匹配率與排列次序匹配率實驗數(shù)據(jù)
續(xù)表1
根據(jù)表1中的40個項目數(shù)據(jù)進行統(tǒng)計,實驗結(jié)果如圖5,圖6所示。
如圖5所示,混合推薦算法產(chǎn)生的推薦匹配率,在多數(shù)情況下都高于基于內(nèi)容推薦產(chǎn)生的推薦,且混合推薦的匹配率平均值高于基于內(nèi)容推薦所產(chǎn)生的推薦。由圖6可知,混合推薦算法產(chǎn)生的推薦次序匹配率,在多數(shù)情況下都高于基于內(nèi)容推薦所產(chǎn)生的推薦,且混合推薦的推薦次序匹配率平均值高于基于內(nèi)容推薦產(chǎn)生的推薦。綜上所述,文中提出的科技項目評審專家推薦模型有較好的可行性,且基于混合推薦的方案具有更高的準確性。
針對科技項目評審專家遴選問題,提出了一個新的推薦系統(tǒng)框架模型和兩種推薦策略,并通過實驗驗證了其可行性和推薦準確度,在一定程度上能幫助在評審專家選擇時提供參考,具有較好的應(yīng)用價值。但由于文本信息分詞后取得的關(guān)鍵詞權(quán)重準確度偏低,
致使項目與專家匹配時未能完全按照真實的情況產(chǎn)生推薦,這中間還需要加入人工干預(yù),為進一步提高推薦準確度,下一步的研究工作是提出更優(yōu)的分詞算法和建立針對性強的分詞詞庫。
[1]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報,2009,20(2):350-362.
[2]PENG Xinyuan.Automated chinese essay scoring using vector space models[C].Universal Communication Symposium,2010:149-153.
[3]KONGMANEE T,VANICHAYOBON S,WETTAYAPRASIT W.The TF-IDF and neural networks approach for translation initiation site prediction[J].Computer Science and Information Technology,2009,4(3):318 -322.
[4]王憑慧.科技項目評價方法[M].北京:科學(xué)出版社,2003.
[5]CHUANG Huanming.A study on the comparison between content-based and preference-based recommendation systems[C].Fourth International Conference on Semantics,Knowledge and Grid,2008:477 -480.
[6]ZHENG Zibin.WSRec:a collaborative filtering based web service recommender system [C].IEEE 6th International Conference on Semantics,2009:437 -444.
[7]張振亞.基于余弦相似度的文本空間索引方法研究[J].計算機科學(xué),2005,32(9):160 -163.
[8]劉建國.個性化推薦系統(tǒng)評價方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1 -10.