領(lǐng)域科研項目評審專家推薦算法

2021-06-28 11:38:58張仰森周煒翔黃改娟

計算機(jī)工程與設(shè)計 2021年6期

張雯，張仰森，周煒翔，黃改娟

(北京信息科技大學(xué) 智能信息處理研究所，北京 100101)

0 引言

2018年4月20日至21日，習(xí)近平主席在全國網(wǎng)絡(luò)安全和信息化工作會議上發(fā)表講話，強(qiáng)調(diào)“沒有網(wǎng)絡(luò)安全就沒有國家安全”。網(wǎng)絡(luò)與信息安全已經(jīng)上升為國家戰(zhàn)略，為促進(jìn)網(wǎng)絡(luò)與信息安全領(lǐng)域蓬勃發(fā)展，需要大力開展網(wǎng)絡(luò)與信息安全領(lǐng)域科研項目的開發(fā)工作。在科研項目立項階段，存在一個關(guān)鍵步驟——評審專家推薦。評審專家推薦即根據(jù)科研項目申請文檔，確定項目研究領(lǐng)域，同時推薦相關(guān)領(lǐng)域的專家進(jìn)行項目評審，以評估項目的實際意義及可行性。

目前，針對科研項目的評審專家遴選任務(wù)，大多數(shù)政府機(jī)構(gòu)、科技部門、互聯(lián)網(wǎng)企業(yè)仍然停留在人工選拔專家的階段。這種人工遴選專家的方式具有很大的弊端。例如，各個機(jī)構(gòu)的科研項目立項活動往往集中在同一時期進(jìn)行，需要進(jìn)行選拔的專家數(shù)量較多，同時需要考慮每個項目的專家分配情況，造成大量的人力資源消耗也會出現(xiàn)分配不合理的現(xiàn)象。在進(jìn)行人工遴選評審專家的過程中，首先需要選拔專家的人員對待評審的科研項目進(jìn)行研究方向的確定，依據(jù)確定的研究方向著手進(jìn)行評審專家的遴選工作。但人的知識認(rèn)知范圍是有限的，科研項目文檔中往往涉及多個研究方向，單純的依靠人工進(jìn)行所有科研項目的分析，無法保證遴選人員對科研項目所涉及領(lǐng)域具有正確的判斷，因而將導(dǎo)致所邀請的評審專家研究領(lǐng)域與待評審的科研項目研究領(lǐng)域不匹配的問題。這在一定程度上會對項目評審結(jié)果造成不良影響。因此，為提升科研項目的評審質(zhì)量，針對領(lǐng)域科研項目評審專家的推薦具有重要的研究意義。

1 相關(guān)工作

評審專家推薦系統(tǒng)以滿足用戶對專家這一特定實體的推薦需求為目的，是推薦技術(shù)的一種實例化形式。近年來使用頻率較多的個性化推薦算法主要包括協(xié)同過濾的推薦算法[1-3]、基于圖結(jié)構(gòu)的推薦算法[4-7]和基于社交網(wǎng)絡(luò)的推薦算法[8-11]。文獻(xiàn)[12]參考用戶項目矩陣中的評分資料進(jìn)行用戶與項目之間的相似度[12]。文獻(xiàn)[13]基于申報項目論文及知識庫論文，設(shè)計了一種通過計算文本余弦相似度來推薦評審專家的方法，解決了人工遴選評審專家中效率較低、主觀選擇專家等問題[13]。但是該推薦算法僅采用余弦相似度進(jìn)行基于內(nèi)容的相似度計算，未能充分考慮文本中的語義信息。文獻(xiàn)[14]利用科技文獻(xiàn)之間存在的引用及被引用關(guān)系，提出了一種學(xué)術(shù)平臺相關(guān)學(xué)者以及相關(guān)論文推薦方法，并構(gòu)建了基于Word2vec的學(xué)者與跨語言論文推薦模型[14]。文獻(xiàn)[15]通過構(gòu)建領(lǐng)域知識圖譜、關(guān)鍵詞特征向量抽取、領(lǐng)域節(jié)點向量的加權(quán)映射以及匹配相似度計算實現(xiàn)學(xué)位論文最為匹配的評審專家推薦[15]。文獻(xiàn)[16]針對已有協(xié)同過濾推薦算法可解釋性不高和基于內(nèi)容推薦算法信息提取困難、推薦效率低等問題，提出了一種融合知識圖譜和協(xié)同過濾的高效推薦模型[16]。

目前，推薦算法主要應(yīng)用于電商、新聞、科技論文評審等領(lǐng)域，針對領(lǐng)域科研項目評審專家的推薦算法的研究較少。領(lǐng)域科研項目評審專家推薦與傳統(tǒng)的推薦問題有很大的不同，原因在于：專家存在較為復(fù)雜的社會關(guān)系，在進(jìn)行項目評審中，往往會存在一些感情因素。因此，在專家過程中不僅需要考慮專家的研究領(lǐng)域、學(xué)術(shù)水平是否與待評審項目相吻合，保證項目評審的科學(xué)性。同時，還要充分考慮專家的社會關(guān)系，避免與項目申請者存在關(guān)系強(qiáng)度較大的專家進(jìn)入推薦專家評審組，進(jìn)而保證項目評審的公正性。

綜上所述，設(shè)計了一種基于領(lǐng)域標(biāo)簽體系的專家推薦算法。首先，依據(jù)高校主頁專家個人信息，確定待分析領(lǐng)域?qū)＜壹稀；诖治鰧＜壹?，采集專家論文?shù)據(jù)并進(jìn)行分析，構(gòu)建專家?guī)?；然后，利用領(lǐng)域論文數(shù)據(jù)，訓(xùn)練專業(yè)實體識別模型BiLSTM-CRF，為領(lǐng)域標(biāo)簽體系的構(gòu)建提供幫助，采用關(guān)鍵詞抽取及專業(yè)實體識別模型相結(jié)合的方式，實現(xiàn)項目申請文檔的標(biāo)簽標(biāo)注；最后，依據(jù)項目申請文檔標(biāo)簽及專家標(biāo)簽標(biāo)注模型，生成推薦專家候選集，同時基于專家?guī)鞌?shù)據(jù)，進(jìn)行專家關(guān)聯(lián)關(guān)系分析，構(gòu)建專家社會關(guān)系網(wǎng)絡(luò)，實現(xiàn)專家回避，結(jié)合領(lǐng)域吻合度及領(lǐng)域權(quán)威度進(jìn)行排序，完成最終的領(lǐng)域科研項目評審專家推薦。

2 專家?guī)斓臉?gòu)建

2.1 數(shù)據(jù)采集

本文采用Webmagic爬蟲框架進(jìn)行數(shù)據(jù)采集，采集的數(shù)據(jù)分為兩類：專家基礎(chǔ)數(shù)據(jù)、專家領(lǐng)域數(shù)據(jù)。專家基礎(chǔ)數(shù)據(jù)的采集主要包括專家姓名、工作單位、性別、聯(lián)系方式等；專家領(lǐng)域數(shù)據(jù)主要是針對專家論文數(shù)據(jù)的采集，基于論文數(shù)據(jù)，進(jìn)行數(shù)據(jù)分析，獲取研究領(lǐng)域、領(lǐng)域權(quán)威度等專家領(lǐng)域信息。

專家基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)源包括：高校主頁、百度百科、百度學(xué)者庫。分析不同數(shù)據(jù)源的網(wǎng)站頁面結(jié)構(gòu)，制定全面準(zhǔn)確的分辨和解析策略，針對不同網(wǎng)站的特點設(shè)計對應(yīng)的解決方案，如部分網(wǎng)站需要使用代碼偽造登錄口令進(jìn)而獲取cookie信息。在爬蟲策略上，采用IP代理池并引入異常處理機(jī)制，以防止由未知錯誤引起的爬蟲程序的中斷。

專家領(lǐng)域數(shù)據(jù)的數(shù)據(jù)源包括：萬方論文數(shù)據(jù)、知網(wǎng)博碩論文數(shù)據(jù)庫、維普數(shù)據(jù)庫。由于異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)會存在數(shù)據(jù)重復(fù)的情況，進(jìn)而導(dǎo)致計算資源負(fù)載不均衡。因此在專家論文數(shù)據(jù)采集方面，采用3個數(shù)據(jù)源爬蟲同時采集，協(xié)同運作的方式，在提高采集效率的同時，避免了各個數(shù)據(jù)源之間數(shù)據(jù)不均衡的情況，更好地保證了數(shù)據(jù)的全面性及計算資源的合理利用。論文數(shù)據(jù)采集方法具體如下：

(1)從待爬取論文集合中取出論文a；

(2)查看論文a的可用數(shù)據(jù)源集合s；

(3)逐一查看集合s中各數(shù)據(jù)源當(dāng)前的待爬取隊列大小l；

(4)選擇待下載隊列最小的數(shù)據(jù)源，將論文a添加到該數(shù)據(jù)源的待下載隊列末尾。

2.2 數(shù)據(jù)處理

專家數(shù)據(jù)中存在同名專家問題，為保證專家?guī)熘袑＜覕?shù)據(jù)的準(zhǔn)確性，需要對專家數(shù)據(jù)進(jìn)行進(jìn)一步的處理，對同名專家的屬性數(shù)據(jù)進(jìn)行數(shù)據(jù)消歧。我們充分利用同名專家的屬性特征，通過對多種屬性特征的綜合考慮進(jìn)行組合，從多側(cè)面匹配的角度計算同名專家的相似度，彌補(bǔ)單一特征的不足之處，提高專家數(shù)據(jù)的準(zhǔn)確性。

首先，構(gòu)建3個消歧特征類?；拘畔⑻卣黝?姓名、性別、郵箱、電話)、社會關(guān)系特征類(單位、畢業(yè)院校)、領(lǐng)域特征類(研究方向、論文信息等)；然后，進(jìn)行相似度計算。在每類消歧特征類中，采用編輯距離計算各個屬性特征的相似度，并實行屬性特征相似度的動態(tài)加權(quán)計算及歸一化處理；最后，實現(xiàn)線性加權(quán)。根據(jù)每類消歧能力強(qiáng)弱賦予不同的權(quán)值，對每類相似度計算結(jié)果進(jìn)行線性加權(quán)計算，得到最終相似度。與實驗所得最優(yōu)效果閾值進(jìn)行比對，確定消歧專家，實現(xiàn)專家數(shù)據(jù)融合。

3 基于領(lǐng)域標(biāo)簽體系的推薦算法

3.1 領(lǐng)域標(biāo)簽體系的構(gòu)建

當(dāng)前信息安全領(lǐng)域沒有成型的標(biāo)簽體系及技術(shù)名詞命名規(guī)范，項目申請文檔中存在專業(yè)名詞命名不一致的現(xiàn)象，且項目申請文檔的撰寫角度無法固定，很多機(jī)構(gòu)的文檔撰寫偏向于應(yīng)用領(lǐng)域的角度，而專家的論文數(shù)據(jù)偏向于科研角度，這就導(dǎo)致了在進(jìn)行專家推薦時直接使用項目申請文檔的標(biāo)簽與專家標(biāo)簽進(jìn)行匹配時，相似度計算困難。為解決這一問題，我們參考了目前國內(nèi)較成熟的國家自然科學(xué)基金標(biāo)簽體系，同時采用《計算機(jī)科學(xué)技術(shù)百科全書》第三版對國家自然科學(xué)基金標(biāo)簽體系進(jìn)行層級結(jié)構(gòu)的調(diào)整，標(biāo)簽名詞的擴(kuò)充、歸一與融合，結(jié)合了應(yīng)用領(lǐng)域及科學(xué)研究兩個角度，構(gòu)建了一套面向網(wǎng)絡(luò)與信息安全領(lǐng)域的標(biāo)簽體系，為項目申請文檔的標(biāo)簽標(biāo)注及專家標(biāo)簽標(biāo)注模型提供對標(biāo)功能。除此之外，專業(yè)領(lǐng)域標(biāo)簽往往具有獨特的上下文語境，而經(jīng)過關(guān)鍵詞提取后的標(biāo)簽長度較短，不具有較多的語義信息。因此僅僅依靠字詞級特征進(jìn)行相似度計算的效果較差。

圖1 專業(yè)領(lǐng)域名詞識別模型

由于專家的標(biāo)簽標(biāo)注主要依據(jù)專家論文，在后續(xù)推薦過程中，需要將專家標(biāo)簽與項目指南文檔標(biāo)簽進(jìn)行匹配，因此，本文基于論文數(shù)據(jù)及項目申請指南文檔，進(jìn)行專業(yè)領(lǐng)域名詞識別模型的訓(xùn)練，確定標(biāo)簽詞語概念粒度及層次結(jié)構(gòu)。根據(jù)實驗結(jié)果，參考國家自然科學(xué)基金體系，保留體系中“計算機(jī)科學(xué)”、“人工智能”、“自動化”、“信息與電子學(xué)系統(tǒng)”4個領(lǐng)域的一級、二級結(jié)構(gòu)，同時依據(jù)《計算機(jī)科學(xué)技術(shù)百科全書》對三、四級標(biāo)簽名詞進(jìn)行補(bǔ)充及融合。最終本文的領(lǐng)域標(biāo)簽體系采用四級樹狀層級結(jié)構(gòu)，標(biāo)簽總數(shù)為1780個。

3.2 項目申請文檔標(biāo)簽標(biāo)注算法

不同的科研機(jī)構(gòu)設(shè)有不同的項目申請文檔規(guī)范，文檔的部分模塊，如相關(guān)工作、相關(guān)調(diào)研等部分也會存在一些技術(shù)名詞，但這些名詞往往不是本篇文檔所真正關(guān)注的技術(shù)領(lǐng)域。因此，本文根據(jù)特定的項目申請文檔模板，進(jìn)行分析區(qū)域的劃分。結(jié)合領(lǐng)域標(biāo)簽體系，從字詞和語義兩個角度出發(fā)，提出了一種基于TextRank與BiLSTM-CRF相結(jié)合的項目申請文檔標(biāo)簽標(biāo)注算法，并采用詞向量與詞頻相結(jié)合的方法實現(xiàn)標(biāo)簽體系標(biāo)簽詞與識別出的專業(yè)領(lǐng)域名詞的相似度計算任務(wù)，詞頻的加入可以降低區(qū)分能力較弱詞語的權(quán)重。在此基礎(chǔ)上，引入投票機(jī)制，從字詞和語義兩個層面分別選擇不同的影響因子進(jìn)行線性加權(quán)，最終確定標(biāo)簽名詞的權(quán)重排序，獲取自動標(biāo)注的標(biāo)簽結(jié)果。具體算法描述如下：

算法1：項目申請文檔標(biāo)簽標(biāo)注算法

輸入：項目申請文檔A

輸出：標(biāo)簽列表labelb

過程：

步驟1 專業(yè)領(lǐng)域名詞識別：采用直接定位、Text-Rank、BiLSTM-CRF這3種方法進(jìn)行識別，得到3個專業(yè)領(lǐng)域名詞列表Entity；

步驟2 專業(yè)領(lǐng)域名詞Entity與標(biāo)簽詞相似度計算：采用詞向量及詞頻相結(jié)合實現(xiàn)專業(yè)領(lǐng)域關(guān)鍵詞與標(biāo)簽體系標(biāo)簽詞的相似度計算，計算公式如式(3)所示，分別得到3種途徑識別名詞所確定的最終標(biāo)簽詞列表labela

(1)

(2)

(3)

步驟3 投票機(jī)制：引入投票機(jī)制，將3種途徑獲取到的最終標(biāo)簽詞進(jìn)行投票，將最終的投票分?jǐn)?shù)進(jìn)行歸一化處理；

步驟4 線性加權(quán)：選擇投票計算結(jié)果、向量相似度計算結(jié)果、標(biāo)簽詞詞頻計算結(jié)果為影響因子進(jìn)行線性加權(quán)，計算公式如式(4)所示，按照最終標(biāo)簽的權(quán)重排序結(jié)果，得到標(biāo)簽列表labelb

(4)

式中：score(label)表示標(biāo)簽分?jǐn)?shù)，w1、w2、w3表示不同影響因子對應(yīng)的權(quán)重，tflabel表示標(biāo)簽詞label的詞頻。

3.3 基于三元組的專家標(biāo)簽標(biāo)注方法

從實際應(yīng)用背景出發(fā)，專家研究領(lǐng)域固定但研究方向可以包括很多，在每一研究方向的研究程度往往不一樣，引入領(lǐng)域吻合度作為標(biāo)注特征，用以表征專家在其各自研究方向的研究深度；除此之外，單純地考慮專家的研究方向并不能較好保證評審質(zhì)量，同時當(dāng)一批專家均符合評審條件而評審專家數(shù)目卻有限制時，往往需要進(jìn)行擇優(yōu)推薦，引入領(lǐng)域權(quán)威度作為標(biāo)注特征，描述專家在相關(guān)領(lǐng)域的影響力度。綜上，領(lǐng)域吻合度為專家標(biāo)簽標(biāo)注提供自身的縱向比較，領(lǐng)域權(quán)威度為專家推薦提供領(lǐng)域的橫向比較。因此，本文選擇專家領(lǐng)域吻合度及領(lǐng)域權(quán)威度兩個特征作為擇優(yōu)推薦的參考指標(biāo)，提出了專家領(lǐng)域吻合度計算模型，公式如式(5)所示，制定了專家領(lǐng)域權(quán)威度的評價指標(biāo)，評價指標(biāo)見表1。采用(專家標(biāo)簽、領(lǐng)域權(quán)威度、領(lǐng)域吻合度)三元組的形式進(jìn)行專家標(biāo)簽表征。具體標(biāo)注方法如下：

表1 領(lǐng)域權(quán)威度評價指標(biāo)

(1)領(lǐng)域標(biāo)簽抽?。航Y(jié)合領(lǐng)域標(biāo)簽體系，從專家的論文數(shù)據(jù)中提取專家的領(lǐng)域標(biāo)簽；

(2)吻合度計算：依據(jù)標(biāo)簽在專家相關(guān)資料中出現(xiàn)的頻次、論文的影響因子、論文引用數(shù)、專家發(fā)表的總文獻(xiàn)數(shù)，進(jìn)行吻合度計算

(5)

式中：scorei表示標(biāo)簽i的領(lǐng)域吻合度，wj表示論文j的影響因子，nij表示標(biāo)簽i在論文出現(xiàn)次數(shù)，tj表示論文j的引用數(shù)，N表示專家發(fā)表的總文獻(xiàn)數(shù)。將每篇文獻(xiàn)的各個特征值相乘，并進(jìn)行求和，獲得的平均值作為該研究領(lǐng)域的吻合度，為保證分母不為0，故對總文獻(xiàn)數(shù)加1。

(3)權(quán)威度計算：依據(jù)領(lǐng)域權(quán)威度的評價指標(biāo)，進(jìn)行線性加權(quán)計算。

3.4 專家推薦算法

專家推薦過程中，不僅需要保證專家研究領(lǐng)域與申請項目的領(lǐng)域相匹配，還需要考慮專家的專業(yè)水平，以保證評審質(zhì)量。依據(jù)實際評審需求，本文選取專家領(lǐng)域吻合度及領(lǐng)域權(quán)威度進(jìn)行專家表征，以領(lǐng)域標(biāo)簽體系為標(biāo)準(zhǔn)，統(tǒng)一專家標(biāo)簽及項目申請文檔標(biāo)簽提取的概念粒度及命名規(guī)范，構(gòu)建了基于領(lǐng)域標(biāo)簽體系的專家推薦算算法。具體的算法過程描述如算法2所示：

算法2：基于領(lǐng)域標(biāo)簽體系的專家推薦算法

輸入：項目申請文檔A

輸出：推薦專家名單Expertc

過程：

步驟1 分析項目申請文檔A結(jié)構(gòu)特點，確定進(jìn)行分析的文本范圍，進(jìn)行項目申請文檔的標(biāo)簽標(biāo)注，得到項目申請文檔的標(biāo)簽列表La；

步驟2 依據(jù)專家文獻(xiàn)數(shù)據(jù)進(jìn)行專家標(biāo)簽標(biāo)注、專家領(lǐng)域吻合度、專家領(lǐng)域權(quán)威度的表征，得到專家表征三元組Triple(專家標(biāo)簽、領(lǐng)域吻合度、領(lǐng)域權(quán)威度)；

步驟3 將步驟1所得項目申請文檔的標(biāo)簽列表La與步驟2所得的三元組中的專家標(biāo)簽進(jìn)行匹配，構(gòu)建備選領(lǐng)域?qū)＜壹螮xperta；

步驟4 基于專家社會關(guān)系網(wǎng)絡(luò)，構(gòu)建專家回避模型，得到回避專家列表Lb，將步驟3中所得的備選領(lǐng)域?qū)＜壹螮xperta進(jìn)行過濾，此時得到備選專家集合Expertb；

步驟5 結(jié)合專家表征三元組Triple(專家標(biāo)簽、領(lǐng)域吻合度、領(lǐng)域權(quán)威度)，對步驟4得到的備選專家集合Expertb進(jìn)行線性加權(quán)，將加權(quán)結(jié)果進(jìn)行排序，根據(jù)項目需求，選取排序結(jié)果TopN的專家作為最終推薦專家列表Expertc。

3.5 專家回避算法

為保證項目評審的公平性，需要進(jìn)行評審專家與項目申請人之間的回避問題。考慮專家實際生活場景及成長背景，對專家社會關(guān)系進(jìn)行關(guān)聯(lián)關(guān)系分析，抽取專家的社會關(guān)系，本文中所選取的社會關(guān)系分為直接關(guān)系與間接關(guān)系，直接關(guān)系包括：合作關(guān)系、同事關(guān)系、同學(xué)關(guān)系、師生關(guān)系、控股關(guān)系，間接關(guān)系由以上5種直接關(guān)系間接引起的二階或多階關(guān)系。將關(guān)系作為邊，專家作為節(jié)點，構(gòu)建專家社會關(guān)系網(wǎng)絡(luò)，這類屬性主要采用規(guī)則推理的方法進(jìn)行提取，同時基于專家社會關(guān)系網(wǎng)絡(luò)設(shè)計回避算法，具體算法描述如下：

算法3：基于領(lǐng)域標(biāo)簽體系的專家推薦算法

輸入：項目申請人名單Avoida,推薦專家名單Experta

輸出：回避專家名單Avoida

過程：

步驟1 依據(jù)構(gòu)建的專家?guī)鞌?shù)據(jù)，采用規(guī)則推理的方法進(jìn)行專家關(guān)聯(lián)關(guān)系分析，構(gòu)建專家社會關(guān)系網(wǎng)絡(luò)，具體規(guī)則見表2；

表2 社會關(guān)系規(guī)則

步驟2 基于專家社會關(guān)系網(wǎng)絡(luò)，查詢推薦專家名單Experta及項目申請人名單Applicanta每兩者之間的全部關(guān)系路徑，并進(jìn)行兩者間關(guān)系強(qiáng)度的計算，計算模型如圖2所示，計算公式如式(6)所示；

圖2 回避模型

(6)

式中：Q(A,B)表示專家A與申請人B之間的關(guān)系強(qiáng)度，W表示關(guān)系權(quán)重，dec表示衰減比重。本文引入衰減比的概念，在專家社會網(wǎng)絡(luò)中，連接兩者的邊數(shù)越多，其關(guān)系衰減避重越大。將關(guān)系強(qiáng)度的計算分為兩種情況：當(dāng)A與B之間存在1條最短路徑時，直接進(jìn)行權(quán)重與衰減比的乘積，結(jié)果作為兩者之間的關(guān)系強(qiáng)度；當(dāng)A與B之間存在多條長度相等路徑時，對每條路徑的權(quán)重與衰減比相乘后求和，結(jié)果作為兩者之間的關(guān)系強(qiáng)度；

步驟3 選取關(guān)系強(qiáng)度計算結(jié)果中的最大值，進(jìn)行回避閾值判斷，實現(xiàn)專家回避，得到最終的回避專家名單Avoida。

4 實驗及結(jié)果分析

4.1 數(shù)據(jù)集

本實驗中所用的數(shù)據(jù)集為爬蟲所得的網(wǎng)絡(luò)與信息安全感領(lǐng)域的論文摘要，將數(shù)據(jù)集按照9∶1的比例分成訓(xùn)練集、驗證集，項目申請文檔作為測試集，語料規(guī)模見表3。

表3 數(shù)據(jù)集介紹

4.2 專業(yè)領(lǐng)域名詞識別模型實驗及結(jié)果分析

專業(yè)領(lǐng)域名詞識別結(jié)果影響著領(lǐng)域標(biāo)簽體系構(gòu)建的效果及項目申請文檔的標(biāo)簽標(biāo)注結(jié)果。針對模型設(shè)計，本文設(shè)計了兩組對照實驗。

實驗1：基于Word2vec實現(xiàn)向量映射，將映射后的向量矩陣作為BiLSTM層的輸入，經(jīng)過降維后，選取BiLSTM層輸出的分?jǐn)?shù)最高的標(biāo)簽作為標(biāo)簽預(yù)測結(jié)果。該模型準(zhǔn)確率達(dá)67.86%。

實驗2：在實驗1的基礎(chǔ)上，添加CRF層。CRF層可以為自動學(xué)習(xí)一些約束條件，進(jìn)而為預(yù)測標(biāo)簽的合法性提供保證，如通過引入CRF層可以學(xué)習(xí)到句子中的第一個詞應(yīng)該是以標(biāo)簽“B”或“O”開始；同時CRF中存在轉(zhuǎn)移特征，它可以考慮輸出標(biāo)簽之間的順序性，以此來進(jìn)行一些約束規(guī)則的學(xué)習(xí)。BiLSTM-CRF模型的準(zhǔn)確率達(dá)77.96%。

4.3 項目申請文檔的標(biāo)簽標(biāo)注算法實驗及結(jié)果分析

項目申請文檔的標(biāo)簽標(biāo)注是實現(xiàn)專家推薦的關(guān)鍵步驟，其標(biāo)注準(zhǔn)確率直接影響著推薦專家的結(jié)果。在進(jìn)行項目申請文檔標(biāo)簽標(biāo)注算法的設(shè)計過程中，主要設(shè)置以下3組對照實驗，實驗結(jié)果見表4。

表4 項目申請文檔標(biāo)簽標(biāo)注實驗結(jié)果對比

實驗1：依據(jù)領(lǐng)域技術(shù)標(biāo)簽體系，采用直接定位、Text-Rank關(guān)鍵詞及關(guān)鍵短語提取兩種方法進(jìn)行專業(yè)領(lǐng)域名詞的識別，其中關(guān)鍵詞及關(guān)鍵短語的提取借助Hanlp開源工具，利用Word2vec詞嵌入向量計算識別出的領(lǐng)域標(biāo)簽詞與標(biāo)簽體系詞之間的相似度，進(jìn)行閾值判斷，確定項目申請文檔的標(biāo)簽標(biāo)注結(jié)果。

實驗2：在實驗1基礎(chǔ)之上，專業(yè)領(lǐng)域名詞識別過程不變，在經(jīng)過詞向量映射進(jìn)行相似度計算過程中時，由于一個標(biāo)簽詞的詞嵌入向量由構(gòu)成這個標(biāo)簽詞的所有字向量拼接而成，標(biāo)簽詞中的每個字的區(qū)分能力強(qiáng)弱不同，如“計算機(jī)木馬”、“計算機(jī)通信協(xié)議”兩個標(biāo)簽代表領(lǐng)域相差甚大，但由于詞中均具有“計算機(jī)”這一子串，將會對相似度計算結(jié)果產(chǎn)生影響。因此，在進(jìn)行相似度計算時引入字頻特征，將字頻取倒數(shù)后作為當(dāng)前字的向量權(quán)重，之后進(jìn)行向量拼接，以此降低標(biāo)簽體系中區(qū)分能力較弱的字在標(biāo)簽詞中所占的權(quán)重。

實驗3：針對專業(yè)領(lǐng)域名詞識別過程，實驗1和實驗2僅考慮了字詞特征，但是一篇項目申請文檔中往往蘊(yùn)含著大量的語義信息，同時專業(yè)領(lǐng)域名詞的上下文語境較為獨特，因此，本文在實驗3中考慮了語義特征，引入在領(lǐng)域標(biāo)簽體系構(gòu)建過程中訓(xùn)練好的BiLSTM-CRF專業(yè)名詞識別模型，采用直接定位、關(guān)鍵詞提取、BiLSTM-CRF模型3種方式進(jìn)行專業(yè)領(lǐng)域名詞的識別，有效地結(jié)合了字詞及語義兩個層面的特征。相似度計算與實驗2保持一致，采用詞向量與字頻相結(jié)合的方式進(jìn)行計算。同時，在結(jié)果統(tǒng)計策略上，我們引入了投票機(jī)制及線性加權(quán)，將3種途徑獲取到的最終標(biāo)簽詞進(jìn)行投票，選擇投票計算結(jié)果、向量相似度計算結(jié)果、標(biāo)簽詞詞頻計算結(jié)果為影響因子進(jìn)行線性加權(quán)，獲得最終標(biāo)簽標(biāo)注的權(quán)重排序結(jié)果。

為保證實驗結(jié)果的準(zhǔn)確性，邀請了多位機(jī)構(gòu)工作人員針對項目申請文檔進(jìn)行背對背標(biāo)簽標(biāo)注，項目申請文檔數(shù)為50篇，每篇文檔標(biāo)簽標(biāo)注數(shù)目為3個，綜合多位工作人員標(biāo)注結(jié)果確定最終的準(zhǔn)確標(biāo)簽集合作為實驗結(jié)果正確數(shù)據(jù)集，計算3種實驗的標(biāo)注準(zhǔn)確率，同時，我們在整理人工標(biāo)簽標(biāo)注結(jié)果時注意到人工標(biāo)注的準(zhǔn)確率僅達(dá)68%，算法的最終準(zhǔn)確率達(dá)83.33%，遠(yuǎn)遠(yuǎn)超過人工標(biāo)注效果。實驗結(jié)果見表4。

4.4 基于領(lǐng)域標(biāo)簽體系的推薦算法的實驗結(jié)果分析

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，將人類帶入了大數(shù)據(jù)時代，利用網(wǎng)絡(luò)數(shù)據(jù)資源實現(xiàn)各種形式的推薦已經(jīng)成為學(xué)術(shù)界和商業(yè)界的研究熱門。相比于其它推薦算法，本文所設(shè)計的算法在以下4個方面具有先進(jìn)性及創(chuàng)新性。

(1)數(shù)據(jù)量方面

從數(shù)據(jù)量角度講，相較于大多數(shù)推薦系統(tǒng)通常都是在小規(guī)模數(shù)據(jù)集上搭建起來的，本文開發(fā)相應(yīng)的爬蟲工具，依托于集群資源，進(jìn)行多節(jié)點并行處理爬取任務(wù)。專家數(shù)據(jù)量破萬，論文數(shù)據(jù)量破百萬，此外采集信息中還包括專利信息、專家個人信息等，為專家?guī)鞓?gòu)建工作提供了強(qiáng)大的數(shù)據(jù)支持。

(2)領(lǐng)域標(biāo)簽體系構(gòu)建

領(lǐng)域標(biāo)簽體系的數(shù)目眾多且較為復(fù)雜，信息檢索、計量評價等科研活動中存在領(lǐng)域標(biāo)簽著錄混亂、層級結(jié)構(gòu)模糊等瓶頸問題。很多機(jī)構(gòu)無成型的領(lǐng)域標(biāo)簽體系，機(jī)構(gòu)內(nèi)部相關(guān)技術(shù)無統(tǒng)一命名規(guī)范及明確定義。目前，針對領(lǐng)域標(biāo)簽方面的相關(guān)研究較少，國家自然科學(xué)基金體系是國內(nèi)較為成熟的領(lǐng)域標(biāo)簽體系，具有一定的參考價值，但是由于其面向的領(lǐng)域較多，體系層級結(jié)構(gòu)劃分與項目申請文檔中的技術(shù)概念粒度不契合等問題，往往需要對部分層級結(jié)構(gòu)進(jìn)行擴(kuò)充與融合。

本文考慮到推薦算法過程中涉及到的專家標(biāo)簽標(biāo)注的數(shù)據(jù)來源及項目申請文檔的標(biāo)簽標(biāo)注兩個關(guān)鍵步驟，利用論文數(shù)據(jù)進(jìn)行專業(yè)領(lǐng)域名詞識別模型的訓(xùn)練，以此統(tǒng)一標(biāo)簽名詞概念粒度及命名規(guī)范，極大提高了專家標(biāo)簽與項目申請文檔標(biāo)簽之間的匹配準(zhǔn)確率。

(3)專家標(biāo)簽標(biāo)注

考慮到實際應(yīng)用場景，系統(tǒng)中需要評價的對象是人，因此需保證其描述維度的全面性。本系統(tǒng)中專家屬性達(dá)40種，從專家特定信息、專家基礎(chǔ)屬性信息、專家論文信息、專家專利信息、專家基金信息、專家培養(yǎng)學(xué)生信息6個維度出發(fā)描述專家，且每個維度特征不少于6個，進(jìn)而保證了專家屬性的全面性。基于以上信息，在進(jìn)行專家標(biāo)簽標(biāo)注過程中，制定了領(lǐng)域權(quán)威度評價指標(biāo)，提出了領(lǐng)域吻合度計算模型，不僅實現(xiàn)了專家研究領(lǐng)域的表征，同時也對專家研究水平進(jìn)行表征。

(4)專家推薦及回避

專家推薦問題有著自身獨有的特點，專家是有情感的人，所推薦的專家在進(jìn)行項目或論文評審中，會帶有一定的感情因素。因此，不但要考慮專家的專業(yè)特長、學(xué)術(shù)水準(zhǔn)是否與被評審項目相吻合，以保證項目評審的科學(xué)性，同時還要考慮專家的社會關(guān)系，避免那些與項目申請人存在各種社會關(guān)系的專家進(jìn)入項目評審組，以保證項目評審的公正性。

本文提出了一種基于領(lǐng)域標(biāo)簽體系的專家推薦算法，通過匹配專家的技術(shù)標(biāo)簽篩選初步推薦專家名單，根據(jù)專家多維度屬性信息構(gòu)建專家權(quán)威度和領(lǐng)域吻合度算法實現(xiàn)專家的排序，最終結(jié)合專家社會關(guān)系網(wǎng)絡(luò)進(jìn)行回避路徑的計算，經(jīng)過濾后完成最終的專家推薦。不僅考量了專家的權(quán)威度信息和領(lǐng)域吻合度信息，還引入了專家社會關(guān)系回避信息，使推薦的結(jié)果更具有可行性。

5 結(jié)束語

本文在領(lǐng)域科研項目評審專家推薦方面提出了一套基于領(lǐng)域標(biāo)簽體系的推薦算法。首先，進(jìn)行了數(shù)據(jù)采集及處理工作，構(gòu)建專家?guī)?；然后，采用BiLSTM-CRF專業(yè)領(lǐng)域名詞識別模型構(gòu)建了一套領(lǐng)域標(biāo)簽體系，基于領(lǐng)域標(biāo)簽體系，設(shè)計了字詞與語義特征相結(jié)合的項目申請文檔標(biāo)簽標(biāo)注方法，針對專家專業(yè)研究水平，提出了一種基于三元組的專家標(biāo)簽表征模型；最后，利用專家?guī)鞌?shù)據(jù)，構(gòu)建專家社會關(guān)系網(wǎng)絡(luò)，充分考慮評審專家與項目申請人之間的社會關(guān)系，提出了基于社會關(guān)系網(wǎng)絡(luò)的回避算法，并結(jié)合專家標(biāo)簽與項目申請文檔標(biāo)簽的匹配結(jié)果，進(jìn)行專家的推薦與回避。

在接下來的工作中，我們計劃引入專家評價體系及專家用戶畫像。進(jìn)一步完善專家推薦過程中，專家擇優(yōu)推薦模型的表征方法，期望進(jìn)一步提高專家推薦效果，進(jìn)而保證領(lǐng)域科研項目的評審質(zhì)量。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放