張 雯,張仰森,周煒翔,黃改娟
(北京信息科技大學(xué) 智能信息處理研究所,北京 100101)
2018年4月20日至21日,習(xí)近平主席在全國網(wǎng)絡(luò)安全和信息化工作會議上發(fā)表講話,強(qiáng)調(diào)“沒有網(wǎng)絡(luò)安全就沒有國家安全”。網(wǎng)絡(luò)與信息安全已經(jīng)上升為國家戰(zhàn)略,為促進(jìn)網(wǎng)絡(luò)與信息安全領(lǐng)域蓬勃發(fā)展,需要大力開展網(wǎng)絡(luò)與信息安全領(lǐng)域科研項目的開發(fā)工作。在科研項目立項階段,存在一個關(guān)鍵步驟——評審專家推薦。評審專家推薦即根據(jù)科研項目申請文檔,確定項目研究領(lǐng)域,同時推薦相關(guān)領(lǐng)域的專家進(jìn)行項目評審,以評估項目的實際意義及可行性。
目前,針對科研項目的評審專家遴選任務(wù),大多數(shù)政府機(jī)構(gòu)、科技部門、互聯(lián)網(wǎng)企業(yè)仍然停留在人工選拔專家的階段。這種人工遴選專家的方式具有很大的弊端。例如,各個機(jī)構(gòu)的科研項目立項活動往往集中在同一時期進(jìn)行,需要進(jìn)行選拔的專家數(shù)量較多,同時需要考慮每個項目的專家分配情況,造成大量的人力資源消耗也會出現(xiàn)分配不合理的現(xiàn)象。在進(jìn)行人工遴選評審專家的過程中,首先需要選拔專家的人員對待評審的科研項目進(jìn)行研究方向的確定,依據(jù)確定的研究方向著手進(jìn)行評審專家的遴選工作。但人的知識認(rèn)知范圍是有限的,科研項目文檔中往往涉及多個研究方向,單純的依靠人工進(jìn)行所有科研項目的分析,無法保證遴選人員對科研項目所涉及領(lǐng)域具有正確的判斷,因而將導(dǎo)致所邀請的評審專家研究領(lǐng)域與待評審的科研項目研究領(lǐng)域不匹配的問題。這在一定程度上會對項目評審結(jié)果造成不良影響。因此,為提升科研項目的評審質(zhì)量,針對領(lǐng)域科研項目評審專家的推薦具有重要的研究意義。
評審專家推薦系統(tǒng)以滿足用戶對專家這一特定實體的推薦需求為目的,是推薦技術(shù)的一種實例化形式。近年來使用頻率較多的個性化推薦算法主要包括協(xié)同過濾的推薦算法[1-3]、基于圖結(jié)構(gòu)的推薦算法[4-7]和基于社交網(wǎng)絡(luò)的推薦算法[8-11]。文獻(xiàn)[12]參考用戶項目矩陣中的評分資料進(jìn)行用戶與項目之間的相似度[12]。文獻(xiàn)[13]基于申報項目論文及知識庫論文,設(shè)計了一種通過計算文本余弦相似度來推薦評審專家的方法,解決了人工遴選評審專家中效率較低、主觀選擇專家等問題[13]。但是該推薦算法僅采用余弦相似度進(jìn)行基于內(nèi)容的相似度計算,未能充分考慮文本中的語義信息。文獻(xiàn)[14]利用科技文獻(xiàn)之間存在的引用及被引用關(guān)系,提出了一種學(xué)術(shù)平臺相關(guān)學(xué)者以及相關(guān)論文推薦方法,并構(gòu)建了基于Word2vec的學(xué)者與跨語言論文推薦模型[14]。文獻(xiàn)[15]通過構(gòu)建領(lǐng)域知識圖譜、關(guān)鍵詞特征向量抽取、領(lǐng)域節(jié)點向量的加權(quán)映射以及匹配相似度計算實現(xiàn)學(xué)位論文最為匹配的評審專家推薦[15]。文獻(xiàn)[16]針對已有協(xié)同過濾推薦算法可解釋性不高和基于內(nèi)容推薦算法信息提取困難、推薦效率低等問題,提出了一種融合知識圖譜和協(xié)同過濾的高效推薦模型[16]。
目前,推薦算法主要應(yīng)用于電商、新聞、科技論文評審等領(lǐng)域,針對領(lǐng)域科研項目評審專家的推薦算法的研究較少。領(lǐng)域科研項目評審專家推薦與傳統(tǒng)的推薦問題有很大的不同,原因在于:專家存在較為復(fù)雜的社會關(guān)系,在進(jìn)行項目評審中,往往會存在一些感情因素。因此,在專家過程中不僅需要考慮專家的研究領(lǐng)域、學(xué)術(shù)水平是否與待評審項目相吻合,保證項目評審的科學(xué)性。同時,還要充分考慮專家的社會關(guān)系,避免與項目申請者存在關(guān)系強(qiáng)度較大的專家進(jìn)入推薦專家評審組,進(jìn)而保證項目評審的公正性。
綜上所述,設(shè)計了一種基于領(lǐng)域標(biāo)簽體系的專家推薦算法。首先,依據(jù)高校主頁專家個人信息,確定待分析領(lǐng)域?qū)<壹稀;诖治鰧<壹?,采集專家論文?shù)據(jù)并進(jìn)行分析,構(gòu)建專家?guī)?;然后,利用領(lǐng)域論文數(shù)據(jù),訓(xùn)練專業(yè)實體識別模型BiLSTM-CRF,為領(lǐng)域標(biāo)簽體系的構(gòu)建提供幫助,采用關(guān)鍵詞抽取及專業(yè)實體識別模型相結(jié)合的方式,實現(xiàn)項目申請文檔的標(biāo)簽標(biāo)注;最后,依據(jù)項目申請文檔標(biāo)簽及專家標(biāo)簽標(biāo)注模型,生成推薦專家候選集,同時基于專家?guī)鞌?shù)據(jù),進(jìn)行專家關(guān)聯(lián)關(guān)系分析,構(gòu)建專家社會關(guān)系網(wǎng)絡(luò),實現(xiàn)專家回避,結(jié)合領(lǐng)域吻合度及領(lǐng)域權(quán)威度進(jìn)行排序,完成最終的領(lǐng)域科研項目評審專家推薦。
本文采用Webmagic爬蟲框架進(jìn)行數(shù)據(jù)采集,采集的數(shù)據(jù)分為兩類:專家基礎(chǔ)數(shù)據(jù)、專家領(lǐng)域數(shù)據(jù)。專家基礎(chǔ)數(shù)據(jù)的采集主要包括專家姓名、工作單位、性別、聯(lián)系方式等;專家領(lǐng)域數(shù)據(jù)主要是針對專家論文數(shù)據(jù)的采集,基于論文數(shù)據(jù),進(jìn)行數(shù)據(jù)分析,獲取研究領(lǐng)域、領(lǐng)域權(quán)威度等專家領(lǐng)域信息。
專家基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)源包括:高校主頁、百度百科、百度學(xué)者庫。分析不同數(shù)據(jù)源的網(wǎng)站頁面結(jié)構(gòu),制定全面準(zhǔn)確的分辨和解析策略,針對不同網(wǎng)站的特點設(shè)計對應(yīng)的解決方案,如部分網(wǎng)站需要使用代碼偽造登錄口令進(jìn)而獲取cookie信息。在爬蟲策略上,采用IP代理池并引入異常處理機(jī)制,以防止由未知錯誤引起的爬蟲程序的中斷。
專家領(lǐng)域數(shù)據(jù)的數(shù)據(jù)源包括:萬方論文數(shù)據(jù)、知網(wǎng)博碩論文數(shù)據(jù)庫、維普數(shù)據(jù)庫。由于異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)會存在數(shù)據(jù)重復(fù)的情況,進(jìn)而導(dǎo)致計算資源負(fù)載不均衡。因此在專家論文數(shù)據(jù)采集方面,采用3個數(shù)據(jù)源爬蟲同時采集,協(xié)同運作的方式,在提高采集效率的同時,避免了各個數(shù)據(jù)源之間數(shù)據(jù)不均衡的情況,更好地保證了數(shù)據(jù)的全面性及計算資源的合理利用。論文數(shù)據(jù)采集方法具體如下:
(1)從待爬取論文集合中取出論文a;
(2)查看論文a的可用數(shù)據(jù)源集合s;
(3)逐一查看集合s中各數(shù)據(jù)源當(dāng)前的待爬取隊列大小l;
(4)選擇待下載隊列最小的數(shù)據(jù)源,將論文a添加到該數(shù)據(jù)源的待下載隊列末尾。
專家數(shù)據(jù)中存在同名專家問題,為保證專家?guī)熘袑<覕?shù)據(jù)的準(zhǔn)確性,需要對專家數(shù)據(jù)進(jìn)行進(jìn)一步的處理,對同名專家的屬性數(shù)據(jù)進(jìn)行數(shù)據(jù)消歧。我們充分利用同名專家的屬性特征,通過對多種屬性特征的綜合考慮進(jìn)行組合,從多側(cè)面匹配的角度計算同名專家的相似度,彌補(bǔ)單一特征的不足之處,提高專家數(shù)據(jù)的準(zhǔn)確性。
首先,構(gòu)建3個消歧特征類?;拘畔⑻卣黝?姓名、性別、郵箱、電話)、社會關(guān)系特征類(單位、畢業(yè)院校)、領(lǐng)域特征類(研究方向、論文信息等);然后,進(jìn)行相似度計算。在每類消歧特征類中,采用編輯距離計算各個屬性特征的相似度,并實行屬性特征相似度的動態(tài)加權(quán)計算及歸一化處理;最后,實現(xiàn)線性加權(quán)。根據(jù)每類消歧能力強(qiáng)弱賦予不同的權(quán)值,對每類相似度計算結(jié)果進(jìn)行線性加權(quán)計算,得到最終相似度。與實驗所得最優(yōu)效果閾值進(jìn)行比對,確定消歧專家,實現(xiàn)專家數(shù)據(jù)融合。
當(dāng)前信息安全領(lǐng)域沒有成型的標(biāo)簽體系及技術(shù)名詞命名規(guī)范,項目申請文檔中存在專業(yè)名詞命名不一致的現(xiàn)象,且項目申請文檔的撰寫角度無法固定,很多機(jī)構(gòu)的文檔撰寫偏向于應(yīng)用領(lǐng)域的角度,而專家的論文數(shù)據(jù)偏向于科研角度,這就導(dǎo)致了在進(jìn)行專家推薦時直接使用項目申請文檔的標(biāo)簽與專家標(biāo)簽進(jìn)行匹配時,相似度計算困難。為解決這一問題,我們參考了目前國內(nèi)較成熟的國家自然科學(xué)基金標(biāo)簽體系,同時采用《計算機(jī)科學(xué)技術(shù)百科全書》第三版對國家自然科學(xué)基金標(biāo)簽體系進(jìn)行層級結(jié)構(gòu)的調(diào)整,標(biāo)簽名詞的擴(kuò)充、歸一與融合,結(jié)合了應(yīng)用領(lǐng)域及科學(xué)研究兩個角度,構(gòu)建了一套面向網(wǎng)絡(luò)與信息安全領(lǐng)域的標(biāo)簽體系,為項目申請文檔的標(biāo)簽標(biāo)注及專家標(biāo)簽標(biāo)注模型提供對標(biāo)功能。除此之外,專業(yè)領(lǐng)域標(biāo)簽往往具有獨特的上下文語境,而經(jīng)過關(guān)鍵詞提取后的標(biāo)簽長度較短,不具有較多的語義信息。因此僅僅依靠字詞級特征進(jìn)行相似度計算的效果較差。
圖1 專業(yè)領(lǐng)域名詞識別模型
由于專家的標(biāo)簽標(biāo)注主要依據(jù)專家論文,在后續(xù)推薦過程中,需要將專家標(biāo)簽與項目指南文檔標(biāo)簽進(jìn)行匹配,因此,本文基于論文數(shù)據(jù)及項目申請指南文檔,進(jìn)行專業(yè)領(lǐng)域名詞識別模型的訓(xùn)練,確定標(biāo)簽詞語概念粒度及層次結(jié)構(gòu)。根據(jù)實驗結(jié)果,參考國家自然科學(xué)基金體系,保留體系中“計算機(jī)科學(xué)”、“人工智能”、“自動化”、“信息與電子學(xué)系統(tǒng)”4個領(lǐng)域的一級、二級結(jié)構(gòu),同時依據(jù)《計算機(jī)科學(xué)技術(shù)百科全書》對三、四級標(biāo)簽名詞進(jìn)行補(bǔ)充及融合。最終本文的領(lǐng)域標(biāo)簽體系采用四級樹狀層級結(jié)構(gòu),標(biāo)簽總數(shù)為1780個。
不同的科研機(jī)構(gòu)設(shè)有不同的項目申請文檔規(guī)范,文檔的部分模塊,如相關(guān)工作、相關(guān)調(diào)研等部分也會存在一些技術(shù)名詞,但這些名詞往往不是本篇文檔所真正關(guān)注的技術(shù)領(lǐng)域。因此,本文根據(jù)特定的項目申請文檔模板,進(jìn)行分析區(qū)域的劃分。結(jié)合領(lǐng)域標(biāo)簽體系,從字詞和語義兩個角度出發(fā),提出了一種基于TextRank與BiLSTM-CRF相結(jié)合的項目申請文檔標(biāo)簽標(biāo)注算法,并采用詞向量與詞頻相結(jié)合的方法實現(xiàn)標(biāo)簽體系標(biāo)簽詞與識別出的專業(yè)領(lǐng)域名詞的相似度計算任務(wù),詞頻的加入可以降低區(qū)分能力較弱詞語的權(quán)重。在此基礎(chǔ)上,引入投票機(jī)制,從字詞和語義兩個層面分別選擇不同的影響因子進(jìn)行線性加權(quán),最終確定標(biāo)簽名詞的權(quán)重排序,獲取自動標(biāo)注的標(biāo)簽結(jié)果。具體算法描述如下:
算法1:項目申請文檔標(biāo)簽標(biāo)注算法
輸入:項目申請文檔A
輸出:標(biāo)簽列表labelb
過程:
步驟1 專業(yè)領(lǐng)域名詞識別:采用直接定位、Text-Rank、BiLSTM-CRF這3種方法進(jìn)行識別,得到3個專業(yè)領(lǐng)域名詞列表Entity;
步驟2 專業(yè)領(lǐng)域名詞Entity與標(biāo)簽詞相似度計算:采用詞向量及詞頻相結(jié)合實現(xiàn)專業(yè)領(lǐng)域關(guān)鍵詞與標(biāo)簽體系標(biāo)簽詞的相似度計算,計算公式如式(3)所示,分別得到3種途徑識別名詞所確定的最終標(biāo)簽詞列表labela
(1)
(2)
(3)
步驟3 投票機(jī)制:引入投票機(jī)制,將3種途徑獲取到的最終標(biāo)簽詞進(jìn)行投票,將最終的投票分?jǐn)?shù)進(jìn)行歸一化處理;
步驟4 線性加權(quán):選擇投票計算結(jié)果、向量相似度計算結(jié)果、標(biāo)簽詞詞頻計算結(jié)果為影響因子進(jìn)行線性加權(quán),計算公式如式(4)所示,按照最終標(biāo)簽的權(quán)重排序結(jié)果,得到標(biāo)簽列表labelb
(4)
式中:score(label)表示標(biāo)簽分?jǐn)?shù),w1、w2、w3表示不同影響因子對應(yīng)的權(quán)重,tflabel表示標(biāo)簽詞label的詞頻。
從實際應(yīng)用背景出發(fā),專家研究領(lǐng)域固定但研究方向可以包括很多,在每一研究方向的研究程度往往不一樣,引入領(lǐng)域吻合度作為標(biāo)注特征,用以表征專家在其各自研究方向的研究深度;除此之外,單純地考慮專家的研究方向并不能較好保證評審質(zhì)量,同時當(dāng)一批專家均符合評審條件而評審專家數(shù)目卻有限制時,往往需要進(jìn)行擇優(yōu)推薦,引入領(lǐng)域權(quán)威度作為標(biāo)注特征,描述專家在相關(guān)領(lǐng)域的影響力度。綜上,領(lǐng)域吻合度為專家標(biāo)簽標(biāo)注提供自身的縱向比較,領(lǐng)域權(quán)威度為專家推薦提供領(lǐng)域的橫向比較。因此,本文選擇專家領(lǐng)域吻合度及領(lǐng)域權(quán)威度兩個特征作為擇優(yōu)推薦的參考指標(biāo),提出了專家領(lǐng)域吻合度計算模型,公式如式(5)所示,制定了專家領(lǐng)域權(quán)威度的評價指標(biāo),評價指標(biāo)見表1。采用(專家標(biāo)簽、領(lǐng)域權(quán)威度、領(lǐng)域吻合度)三元組的形式進(jìn)行專家標(biāo)簽表征。具體標(biāo)注方法如下:
表1 領(lǐng)域權(quán)威度評價指標(biāo)
(1)領(lǐng)域標(biāo)簽抽?。航Y(jié)合領(lǐng)域標(biāo)簽體系,從專家的論文數(shù)據(jù)中提取專家的領(lǐng)域標(biāo)簽;
(2)吻合度計算:依據(jù)標(biāo)簽在專家相關(guān)資料中出現(xiàn)的頻次、論文的影響因子、論文引用數(shù)、專家發(fā)表的總文獻(xiàn)數(shù),進(jìn)行吻合度計算
(5)
式中:scorei表示標(biāo)簽i的領(lǐng)域吻合度,wj表示論文j的影響因子,nij表示標(biāo)簽i在論文出現(xiàn)次數(shù),tj表示論文j的引用數(shù),N表示專家發(fā)表的總文獻(xiàn)數(shù)。將每篇文獻(xiàn)的各個特征值相乘,并進(jìn)行求和,獲得的平均值作為該研究領(lǐng)域的吻合度,為保證分母不為0,故對總文獻(xiàn)數(shù)加1。
(3)權(quán)威度計算:依據(jù)領(lǐng)域權(quán)威度的評價指標(biāo),進(jìn)行線性加權(quán)計算。
專家推薦過程中,不僅需要保證專家研究領(lǐng)域與申請項目的領(lǐng)域相匹配,還需要考慮專家的專業(yè)水平,以保證評審質(zhì)量。依據(jù)實際評審需求,本文選取專家領(lǐng)域吻合度及領(lǐng)域權(quán)威度進(jìn)行專家表征,以領(lǐng)域標(biāo)簽體系為標(biāo)準(zhǔn),統(tǒng)一專家標(biāo)簽及項目申請文檔標(biāo)簽提取的概念粒度及命名規(guī)范,構(gòu)建了基于領(lǐng)域標(biāo)簽體系的專家推薦算算法。具體的算法過程描述如算法2所示:
算法2:基于領(lǐng)域標(biāo)簽體系的專家推薦算法
輸入:項目申請文檔A
輸出:推薦專家名單Expertc
過程:
步驟1 分析項目申請文檔A結(jié)構(gòu)特點,確定進(jìn)行分析的文本范圍,進(jìn)行項目申請文檔的標(biāo)簽標(biāo)注,得到項目申請文檔的標(biāo)簽列表La;
步驟2 依據(jù)專家文獻(xiàn)數(shù)據(jù)進(jìn)行專家標(biāo)簽標(biāo)注、專家領(lǐng)域吻合度、專家領(lǐng)域權(quán)威度的表征,得到專家表征三元組Triple(專家標(biāo)簽、領(lǐng)域吻合度、領(lǐng)域權(quán)威度);
步驟3 將步驟1所得項目申請文檔的標(biāo)簽列表La與步驟2所得的三元組中的專家標(biāo)簽進(jìn)行匹配,構(gòu)建備選領(lǐng)域?qū)<壹螮xperta;
步驟4 基于專家社會關(guān)系網(wǎng)絡(luò),構(gòu)建專家回避模型,得到回避專家列表Lb,將步驟3中所得的備選領(lǐng)域?qū)<壹螮xperta進(jìn)行過濾,此時得到備選專家集合Expertb;
步驟5 結(jié)合專家表征三元組Triple(專家標(biāo)簽、領(lǐng)域吻合度、領(lǐng)域權(quán)威度),對步驟4得到的備選專家集合Expertb進(jìn)行線性加權(quán),將加權(quán)結(jié)果進(jìn)行排序,根據(jù)項目需求,選取排序結(jié)果TopN的專家作為最終推薦專家列表Expertc。
為保證項目評審的公平性,需要進(jìn)行評審專家與項目申請人之間的回避問題。考慮專家實際生活場景及成長背景,對專家社會關(guān)系進(jìn)行關(guān)聯(lián)關(guān)系分析,抽取專家的社會關(guān)系,本文中所選取的社會關(guān)系分為直接關(guān)系與間接關(guān)系,直接關(guān)系包括:合作關(guān)系、同事關(guān)系、同學(xué)關(guān)系、師生關(guān)系、控股關(guān)系,間接關(guān)系由以上5種直接關(guān)系間接引起的二階或多階關(guān)系。將關(guān)系作為邊,專家作為節(jié)點,構(gòu)建專家社會關(guān)系網(wǎng)絡(luò),這類屬性主要采用規(guī)則推理的方法進(jìn)行提取,同時基于專家社會關(guān)系網(wǎng)絡(luò)設(shè)計回避算法,具體算法描述如下:
算法3:基于領(lǐng)域標(biāo)簽體系的專家推薦算法
輸入:項目申請人名單Avoida,推薦專家名單Experta
輸出:回避專家名單Avoida
過程:
步驟1 依據(jù)構(gòu)建的專家?guī)鞌?shù)據(jù),采用規(guī)則推理的方法進(jìn)行專家關(guān)聯(lián)關(guān)系分析,構(gòu)建專家社會關(guān)系網(wǎng)絡(luò),具體規(guī)則見表2;
表2 社會關(guān)系規(guī)則
步驟2 基于專家社會關(guān)系網(wǎng)絡(luò),查詢推薦專家名單Experta及項目申請人名單Applicanta每兩者之間的全部關(guān)系路徑,并進(jìn)行兩者間關(guān)系強(qiáng)度的計算,計算模型如圖2所示,計算公式如式(6)所示;
圖2 回避模型
(6)
式中:Q(A,B)表示專家A與申請人B之間的關(guān)系強(qiáng)度,W表示關(guān)系權(quán)重,dec表示衰減比重。本文引入衰減比的概念,在專家社會網(wǎng)絡(luò)中,連接兩者的邊數(shù)越多,其關(guān)系衰減避重越大。將關(guān)系強(qiáng)度的計算分為兩種情況:當(dāng)A與B之間存在1條最短路徑時,直接進(jìn)行權(quán)重與衰減比的乘積,結(jié)果作為兩者之間的關(guān)系強(qiáng)度;當(dāng)A與B之間存在多條長度相等路徑時,對每條路徑的權(quán)重與衰減比相乘后求和,結(jié)果作為兩者之間的關(guān)系強(qiáng)度;
步驟3 選取關(guān)系強(qiáng)度計算結(jié)果中的最大值,進(jìn)行回避閾值判斷,實現(xiàn)專家回避,得到最終的回避專家名單Avoida。
本實驗中所用的數(shù)據(jù)集為爬蟲所得的網(wǎng)絡(luò)與信息安全感領(lǐng)域的論文摘要,將數(shù)據(jù)集按照9∶1的比例分成訓(xùn)練集、驗證集,項目申請文檔作為測試集,語料規(guī)模見表3。
表3 數(shù)據(jù)集介紹
專業(yè)領(lǐng)域名詞識別結(jié)果影響著領(lǐng)域標(biāo)簽體系構(gòu)建的效果及項目申請文檔的標(biāo)簽標(biāo)注結(jié)果。針對模型設(shè)計,本文設(shè)計了兩組對照實驗。
實驗1:基于Word2vec實現(xiàn)向量映射,將映射后的向量矩陣作為BiLSTM層的輸入,經(jīng)過降維后,選取BiLSTM層輸出的分?jǐn)?shù)最高的標(biāo)簽作為標(biāo)簽預(yù)測結(jié)果。該模型準(zhǔn)確率達(dá)67.86%。
實驗2:在實驗1的基礎(chǔ)上,添加CRF層。CRF層可以為自動學(xué)習(xí)一些約束條件,進(jìn)而為預(yù)測標(biāo)簽的合法性提供保證,如通過引入CRF層可以學(xué)習(xí)到句子中的第一個詞應(yīng)該是以標(biāo)簽“B”或“O”開始;同時CRF中存在轉(zhuǎn)移特征,它可以考慮輸出標(biāo)簽之間的順序性,以此來進(jìn)行一些約束規(guī)則的學(xué)習(xí)。BiLSTM-CRF模型的準(zhǔn)確率達(dá)77.96%。
項目申請文檔的標(biāo)簽標(biāo)注是實現(xiàn)專家推薦的關(guān)鍵步驟,其標(biāo)注準(zhǔn)確率直接影響著推薦專家的結(jié)果。在進(jìn)行項目申請文檔標(biāo)簽標(biāo)注算法的設(shè)計過程中,主要設(shè)置以下3組對照實驗,實驗結(jié)果見表4。
表4 項目申請文檔標(biāo)簽標(biāo)注實驗結(jié)果對比
實驗1:依據(jù)領(lǐng)域技術(shù)標(biāo)簽體系,采用直接定位、Text-Rank關(guān)鍵詞及關(guān)鍵短語提取兩種方法進(jìn)行專業(yè)領(lǐng)域名詞的識別,其中關(guān)鍵詞及關(guān)鍵短語的提取借助Hanlp開源工具,利用Word2vec詞嵌入向量計算識別出的領(lǐng)域標(biāo)簽詞與標(biāo)簽體系詞之間的相似度,進(jìn)行閾值判斷,確定項目申請文檔的標(biāo)簽標(biāo)注結(jié)果。
實驗2:在實驗1基礎(chǔ)之上,專業(yè)領(lǐng)域名詞識別過程不變,在經(jīng)過詞向量映射進(jìn)行相似度計算過程中時,由于一個標(biāo)簽詞的詞嵌入向量由構(gòu)成這個標(biāo)簽詞的所有字向量拼接而成,標(biāo)簽詞中的每個字的區(qū)分能力強(qiáng)弱不同,如“計算機(jī)木馬”、“計算機(jī)通信協(xié)議”兩個標(biāo)簽代表領(lǐng)域相差甚大,但由于詞中均具有“計算機(jī)”這一子串,將會對相似度計算結(jié)果產(chǎn)生影響。因此,在進(jìn)行相似度計算時引入字頻特征,將字頻取倒數(shù)后作為當(dāng)前字的向量權(quán)重,之后進(jìn)行向量拼接,以此降低標(biāo)簽體系中區(qū)分能力較弱的字在標(biāo)簽詞中所占的權(quán)重。
實驗3:針對專業(yè)領(lǐng)域名詞識別過程,實驗1和實驗2僅考慮了字詞特征,但是一篇項目申請文檔中往往蘊(yùn)含著大量的語義信息,同時專業(yè)領(lǐng)域名詞的上下文語境較為獨特,因此,本文在實驗3中考慮了語義特征,引入在領(lǐng)域標(biāo)簽體系構(gòu)建過程中訓(xùn)練好的BiLSTM-CRF專業(yè)名詞識別模型,采用直接定位、關(guān)鍵詞提取、BiLSTM-CRF模型3種方式進(jìn)行專業(yè)領(lǐng)域名詞的識別,有效地結(jié)合了字詞及語義兩個層面的特征。相似度計算與實驗2保持一致,采用詞向量與字頻相結(jié)合的方式進(jìn)行計算。同時,在結(jié)果統(tǒng)計策略上,我們引入了投票機(jī)制及線性加權(quán),將3種途徑獲取到的最終標(biāo)簽詞進(jìn)行投票,選擇投票計算結(jié)果、向量相似度計算結(jié)果、標(biāo)簽詞詞頻計算結(jié)果為影響因子進(jìn)行線性加權(quán),獲得最終標(biāo)簽標(biāo)注的權(quán)重排序結(jié)果。
為保證實驗結(jié)果的準(zhǔn)確性,邀請了多位機(jī)構(gòu)工作人員針對項目申請文檔進(jìn)行背對背標(biāo)簽標(biāo)注,項目申請文檔數(shù)為50篇,每篇文檔標(biāo)簽標(biāo)注數(shù)目為3個,綜合多位工作人員標(biāo)注結(jié)果確定最終的準(zhǔn)確標(biāo)簽集合作為實驗結(jié)果正確數(shù)據(jù)集,計算3種實驗的標(biāo)注準(zhǔn)確率,同時,我們在整理人工標(biāo)簽標(biāo)注結(jié)果時注意到人工標(biāo)注的準(zhǔn)確率僅達(dá)68%,算法的最終準(zhǔn)確率達(dá)83.33%,遠(yuǎn)遠(yuǎn)超過人工標(biāo)注效果。實驗結(jié)果見表4。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,將人類帶入了大數(shù)據(jù)時代,利用網(wǎng)絡(luò)數(shù)據(jù)資源實現(xiàn)各種形式的推薦已經(jīng)成為學(xué)術(shù)界和商業(yè)界的研究熱門。相比于其它推薦算法,本文所設(shè)計的算法在以下4個方面具有先進(jìn)性及創(chuàng)新性。
(1)數(shù)據(jù)量方面
從數(shù)據(jù)量角度講,相較于大多數(shù)推薦系統(tǒng)通常都是在小規(guī)模數(shù)據(jù)集上搭建起來的,本文開發(fā)相應(yīng)的爬蟲工具,依托于集群資源,進(jìn)行多節(jié)點并行處理爬取任務(wù)。專家數(shù)據(jù)量破萬,論文數(shù)據(jù)量破百萬,此外采集信息中還包括專利信息、專家個人信息等,為專家?guī)鞓?gòu)建工作提供了強(qiáng)大的數(shù)據(jù)支持。
(2)領(lǐng)域標(biāo)簽體系構(gòu)建
領(lǐng)域標(biāo)簽體系的數(shù)目眾多且較為復(fù)雜,信息檢索、計量評價等科研活動中存在領(lǐng)域標(biāo)簽著錄混亂、層級結(jié)構(gòu)模糊等瓶頸問題。很多機(jī)構(gòu)無成型的領(lǐng)域標(biāo)簽體系,機(jī)構(gòu)內(nèi)部相關(guān)技術(shù)無統(tǒng)一命名規(guī)范及明確定義。目前,針對領(lǐng)域標(biāo)簽方面的相關(guān)研究較少,國家自然科學(xué)基金體系是國內(nèi)較為成熟的領(lǐng)域標(biāo)簽體系,具有一定的參考價值,但是由于其面向的領(lǐng)域較多,體系層級結(jié)構(gòu)劃分與項目申請文檔中的技術(shù)概念粒度不契合等問題,往往需要對部分層級結(jié)構(gòu)進(jìn)行擴(kuò)充與融合。
本文考慮到推薦算法過程中涉及到的專家標(biāo)簽標(biāo)注的數(shù)據(jù)來源及項目申請文檔的標(biāo)簽標(biāo)注兩個關(guān)鍵步驟,利用論文數(shù)據(jù)進(jìn)行專業(yè)領(lǐng)域名詞識別模型的訓(xùn)練,以此統(tǒng)一標(biāo)簽名詞概念粒度及命名規(guī)范,極大提高了專家標(biāo)簽與項目申請文檔標(biāo)簽之間的匹配準(zhǔn)確率。
(3)專家標(biāo)簽標(biāo)注
考慮到實際應(yīng)用場景,系統(tǒng)中需要評價的對象是人,因此需保證其描述維度的全面性。本系統(tǒng)中專家屬性達(dá)40種,從專家特定信息、專家基礎(chǔ)屬性信息、專家論文信息、專家專利信息、專家基金信息、專家培養(yǎng)學(xué)生信息6個維度出發(fā)描述專家,且每個維度特征不少于6個,進(jìn)而保證了專家屬性的全面性。基于以上信息,在進(jìn)行專家標(biāo)簽標(biāo)注過程中,制定了領(lǐng)域權(quán)威度評價指標(biāo),提出了領(lǐng)域吻合度計算模型,不僅實現(xiàn)了專家研究領(lǐng)域的表征,同時也對專家研究水平進(jìn)行表征。
(4)專家推薦及回避
專家推薦問題有著自身獨有的特點,專家是有情感的人,所推薦的專家在進(jìn)行項目或論文評審中,會帶有一定的感情因素。因此,不但要考慮專家的專業(yè)特長、學(xué)術(shù)水準(zhǔn)是否與被評審項目相吻合,以保證項目評審的科學(xué)性,同時還要考慮專家的社會關(guān)系,避免那些與項目申請人存在各種社會關(guān)系的專家進(jìn)入項目評審組,以保證項目評審的公正性。
本文提出了一種基于領(lǐng)域標(biāo)簽體系的專家推薦算法,通過匹配專家的技術(shù)標(biāo)簽篩選初步推薦專家名單,根據(jù)專家多維度屬性信息構(gòu)建專家權(quán)威度和領(lǐng)域吻合度算法實現(xiàn)專家的排序,最終結(jié)合專家社會關(guān)系網(wǎng)絡(luò)進(jìn)行回避路徑的計算,經(jīng)過濾后完成最終的專家推薦。不僅考量了專家的權(quán)威度信息和領(lǐng)域吻合度信息,還引入了專家社會關(guān)系回避信息,使推薦的結(jié)果更具有可行性。
本文在領(lǐng)域科研項目評審專家推薦方面提出了一套基于領(lǐng)域標(biāo)簽體系的推薦算法。首先,進(jìn)行了數(shù)據(jù)采集及處理工作,構(gòu)建專家?guī)?;然后,采用BiLSTM-CRF專業(yè)領(lǐng)域名詞識別模型構(gòu)建了一套領(lǐng)域標(biāo)簽體系,基于領(lǐng)域標(biāo)簽體系,設(shè)計了字詞與語義特征相結(jié)合的項目申請文檔標(biāo)簽標(biāo)注方法,針對專家專業(yè)研究水平,提出了一種基于三元組的專家標(biāo)簽表征模型;最后,利用專家?guī)鞌?shù)據(jù),構(gòu)建專家社會關(guān)系網(wǎng)絡(luò),充分考慮評審專家與項目申請人之間的社會關(guān)系,提出了基于社會關(guān)系網(wǎng)絡(luò)的回避算法,并結(jié)合專家標(biāo)簽與項目申請文檔標(biāo)簽的匹配結(jié)果,進(jìn)行專家的推薦與回避。
在接下來的工作中,我們計劃引入專家評價體系及專家用戶畫像。進(jìn)一步完善專家推薦過程中,專家擇優(yōu)推薦模型的表征方法,期望進(jìn)一步提高專家推薦效果,進(jìn)而保證領(lǐng)域科研項目的評審質(zhì)量。