亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        領(lǐng)域科研項目評審專家推薦算法

        2021-06-28 11:38:58張仰森周煒翔黃改娟
        計算機(jī)工程與設(shè)計 2021年6期
        關(guān)鍵詞:文檔標(biāo)簽專家

        張 雯,張仰森,周煒翔,黃改娟

        (北京信息科技大學(xué) 智能信息處理研究所,北京 100101)

        0 引 言

        2018年4月20日至21日,習(xí)近平主席在全國網(wǎng)絡(luò)安全和信息化工作會議上發(fā)表講話,強(qiáng)調(diào)“沒有網(wǎng)絡(luò)安全就沒有國家安全”。網(wǎng)絡(luò)與信息安全已經(jīng)上升為國家戰(zhàn)略,為促進(jìn)網(wǎng)絡(luò)與信息安全領(lǐng)域蓬勃發(fā)展,需要大力開展網(wǎng)絡(luò)與信息安全領(lǐng)域科研項目的開發(fā)工作。在科研項目立項階段,存在一個關(guān)鍵步驟——評審專家推薦。評審專家推薦即根據(jù)科研項目申請文檔,確定項目研究領(lǐng)域,同時推薦相關(guān)領(lǐng)域的專家進(jìn)行項目評審,以評估項目的實際意義及可行性。

        目前,針對科研項目的評審專家遴選任務(wù),大多數(shù)政府機(jī)構(gòu)、科技部門、互聯(lián)網(wǎng)企業(yè)仍然停留在人工選拔專家的階段。這種人工遴選專家的方式具有很大的弊端。例如,各個機(jī)構(gòu)的科研項目立項活動往往集中在同一時期進(jìn)行,需要進(jìn)行選拔的專家數(shù)量較多,同時需要考慮每個項目的專家分配情況,造成大量的人力資源消耗也會出現(xiàn)分配不合理的現(xiàn)象。在進(jìn)行人工遴選評審專家的過程中,首先需要選拔專家的人員對待評審的科研項目進(jìn)行研究方向的確定,依據(jù)確定的研究方向著手進(jìn)行評審專家的遴選工作。但人的知識認(rèn)知范圍是有限的,科研項目文檔中往往涉及多個研究方向,單純的依靠人工進(jìn)行所有科研項目的分析,無法保證遴選人員對科研項目所涉及領(lǐng)域具有正確的判斷,因而將導(dǎo)致所邀請的評審專家研究領(lǐng)域與待評審的科研項目研究領(lǐng)域不匹配的問題。這在一定程度上會對項目評審結(jié)果造成不良影響。因此,為提升科研項目的評審質(zhì)量,針對領(lǐng)域科研項目評審專家的推薦具有重要的研究意義。

        1 相關(guān)工作

        評審專家推薦系統(tǒng)以滿足用戶對專家這一特定實體的推薦需求為目的,是推薦技術(shù)的一種實例化形式。近年來使用頻率較多的個性化推薦算法主要包括協(xié)同過濾的推薦算法[1-3]、基于圖結(jié)構(gòu)的推薦算法[4-7]和基于社交網(wǎng)絡(luò)的推薦算法[8-11]。文獻(xiàn)[12]參考用戶項目矩陣中的評分資料進(jìn)行用戶與項目之間的相似度[12]。文獻(xiàn)[13]基于申報項目論文及知識庫論文,設(shè)計了一種通過計算文本余弦相似度來推薦評審專家的方法,解決了人工遴選評審專家中效率較低、主觀選擇專家等問題[13]。但是該推薦算法僅采用余弦相似度進(jìn)行基于內(nèi)容的相似度計算,未能充分考慮文本中的語義信息。文獻(xiàn)[14]利用科技文獻(xiàn)之間存在的引用及被引用關(guān)系,提出了一種學(xué)術(shù)平臺相關(guān)學(xué)者以及相關(guān)論文推薦方法,并構(gòu)建了基于Word2vec的學(xué)者與跨語言論文推薦模型[14]。文獻(xiàn)[15]通過構(gòu)建領(lǐng)域知識圖譜、關(guān)鍵詞特征向量抽取、領(lǐng)域節(jié)點向量的加權(quán)映射以及匹配相似度計算實現(xiàn)學(xué)位論文最為匹配的評審專家推薦[15]。文獻(xiàn)[16]針對已有協(xié)同過濾推薦算法可解釋性不高和基于內(nèi)容推薦算法信息提取困難、推薦效率低等問題,提出了一種融合知識圖譜和協(xié)同過濾的高效推薦模型[16]。

        目前,推薦算法主要應(yīng)用于電商、新聞、科技論文評審等領(lǐng)域,針對領(lǐng)域科研項目評審專家的推薦算法的研究較少。領(lǐng)域科研項目評審專家推薦與傳統(tǒng)的推薦問題有很大的不同,原因在于:專家存在較為復(fù)雜的社會關(guān)系,在進(jìn)行項目評審中,往往會存在一些感情因素。因此,在專家過程中不僅需要考慮專家的研究領(lǐng)域、學(xué)術(shù)水平是否與待評審項目相吻合,保證項目評審的科學(xué)性。同時,還要充分考慮專家的社會關(guān)系,避免與項目申請者存在關(guān)系強(qiáng)度較大的專家進(jìn)入推薦專家評審組,進(jìn)而保證項目評審的公正性。

        綜上所述,設(shè)計了一種基于領(lǐng)域標(biāo)簽體系的專家推薦算法。首先,依據(jù)高校主頁專家個人信息,確定待分析領(lǐng)域?qū)<壹稀;诖治鰧<壹?,采集專家論文?shù)據(jù)并進(jìn)行分析,構(gòu)建專家?guī)?;然后,利用領(lǐng)域論文數(shù)據(jù),訓(xùn)練專業(yè)實體識別模型BiLSTM-CRF,為領(lǐng)域標(biāo)簽體系的構(gòu)建提供幫助,采用關(guān)鍵詞抽取及專業(yè)實體識別模型相結(jié)合的方式,實現(xiàn)項目申請文檔的標(biāo)簽標(biāo)注;最后,依據(jù)項目申請文檔標(biāo)簽及專家標(biāo)簽標(biāo)注模型,生成推薦專家候選集,同時基于專家?guī)鞌?shù)據(jù),進(jìn)行專家關(guān)聯(lián)關(guān)系分析,構(gòu)建專家社會關(guān)系網(wǎng)絡(luò),實現(xiàn)專家回避,結(jié)合領(lǐng)域吻合度及領(lǐng)域權(quán)威度進(jìn)行排序,完成最終的領(lǐng)域科研項目評審專家推薦。

        2 專家?guī)斓臉?gòu)建

        2.1 數(shù)據(jù)采集

        本文采用Webmagic爬蟲框架進(jìn)行數(shù)據(jù)采集,采集的數(shù)據(jù)分為兩類:專家基礎(chǔ)數(shù)據(jù)、專家領(lǐng)域數(shù)據(jù)。專家基礎(chǔ)數(shù)據(jù)的采集主要包括專家姓名、工作單位、性別、聯(lián)系方式等;專家領(lǐng)域數(shù)據(jù)主要是針對專家論文數(shù)據(jù)的采集,基于論文數(shù)據(jù),進(jìn)行數(shù)據(jù)分析,獲取研究領(lǐng)域、領(lǐng)域權(quán)威度等專家領(lǐng)域信息。

        專家基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)源包括:高校主頁、百度百科、百度學(xué)者庫。分析不同數(shù)據(jù)源的網(wǎng)站頁面結(jié)構(gòu),制定全面準(zhǔn)確的分辨和解析策略,針對不同網(wǎng)站的特點設(shè)計對應(yīng)的解決方案,如部分網(wǎng)站需要使用代碼偽造登錄口令進(jìn)而獲取cookie信息。在爬蟲策略上,采用IP代理池并引入異常處理機(jī)制,以防止由未知錯誤引起的爬蟲程序的中斷。

        專家領(lǐng)域數(shù)據(jù)的數(shù)據(jù)源包括:萬方論文數(shù)據(jù)、知網(wǎng)博碩論文數(shù)據(jù)庫、維普數(shù)據(jù)庫。由于異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)會存在數(shù)據(jù)重復(fù)的情況,進(jìn)而導(dǎo)致計算資源負(fù)載不均衡。因此在專家論文數(shù)據(jù)采集方面,采用3個數(shù)據(jù)源爬蟲同時采集,協(xié)同運作的方式,在提高采集效率的同時,避免了各個數(shù)據(jù)源之間數(shù)據(jù)不均衡的情況,更好地保證了數(shù)據(jù)的全面性及計算資源的合理利用。論文數(shù)據(jù)采集方法具體如下:

        (1)從待爬取論文集合中取出論文a;

        (2)查看論文a的可用數(shù)據(jù)源集合s;

        (3)逐一查看集合s中各數(shù)據(jù)源當(dāng)前的待爬取隊列大小l;

        (4)選擇待下載隊列最小的數(shù)據(jù)源,將論文a添加到該數(shù)據(jù)源的待下載隊列末尾。

        2.2 數(shù)據(jù)處理

        專家數(shù)據(jù)中存在同名專家問題,為保證專家?guī)熘袑<覕?shù)據(jù)的準(zhǔn)確性,需要對專家數(shù)據(jù)進(jìn)行進(jìn)一步的處理,對同名專家的屬性數(shù)據(jù)進(jìn)行數(shù)據(jù)消歧。我們充分利用同名專家的屬性特征,通過對多種屬性特征的綜合考慮進(jìn)行組合,從多側(cè)面匹配的角度計算同名專家的相似度,彌補(bǔ)單一特征的不足之處,提高專家數(shù)據(jù)的準(zhǔn)確性。

        首先,構(gòu)建3個消歧特征類?;拘畔⑻卣黝?姓名、性別、郵箱、電話)、社會關(guān)系特征類(單位、畢業(yè)院校)、領(lǐng)域特征類(研究方向、論文信息等);然后,進(jìn)行相似度計算。在每類消歧特征類中,采用編輯距離計算各個屬性特征的相似度,并實行屬性特征相似度的動態(tài)加權(quán)計算及歸一化處理;最后,實現(xiàn)線性加權(quán)。根據(jù)每類消歧能力強(qiáng)弱賦予不同的權(quán)值,對每類相似度計算結(jié)果進(jìn)行線性加權(quán)計算,得到最終相似度。與實驗所得最優(yōu)效果閾值進(jìn)行比對,確定消歧專家,實現(xiàn)專家數(shù)據(jù)融合。

        3 基于領(lǐng)域標(biāo)簽體系的推薦算法

        3.1 領(lǐng)域標(biāo)簽體系的構(gòu)建

        當(dāng)前信息安全領(lǐng)域沒有成型的標(biāo)簽體系及技術(shù)名詞命名規(guī)范,項目申請文檔中存在專業(yè)名詞命名不一致的現(xiàn)象,且項目申請文檔的撰寫角度無法固定,很多機(jī)構(gòu)的文檔撰寫偏向于應(yīng)用領(lǐng)域的角度,而專家的論文數(shù)據(jù)偏向于科研角度,這就導(dǎo)致了在進(jìn)行專家推薦時直接使用項目申請文檔的標(biāo)簽與專家標(biāo)簽進(jìn)行匹配時,相似度計算困難。為解決這一問題,我們參考了目前國內(nèi)較成熟的國家自然科學(xué)基金標(biāo)簽體系,同時采用《計算機(jī)科學(xué)技術(shù)百科全書》第三版對國家自然科學(xué)基金標(biāo)簽體系進(jìn)行層級結(jié)構(gòu)的調(diào)整,標(biāo)簽名詞的擴(kuò)充、歸一與融合,結(jié)合了應(yīng)用領(lǐng)域及科學(xué)研究兩個角度,構(gòu)建了一套面向網(wǎng)絡(luò)與信息安全領(lǐng)域的標(biāo)簽體系,為項目申請文檔的標(biāo)簽標(biāo)注及專家標(biāo)簽標(biāo)注模型提供對標(biāo)功能。除此之外,專業(yè)領(lǐng)域標(biāo)簽往往具有獨特的上下文語境,而經(jīng)過關(guān)鍵詞提取后的標(biāo)簽長度較短,不具有較多的語義信息。因此僅僅依靠字詞級特征進(jìn)行相似度計算的效果較差。

        圖1 專業(yè)領(lǐng)域名詞識別模型

        由于專家的標(biāo)簽標(biāo)注主要依據(jù)專家論文,在后續(xù)推薦過程中,需要將專家標(biāo)簽與項目指南文檔標(biāo)簽進(jìn)行匹配,因此,本文基于論文數(shù)據(jù)及項目申請指南文檔,進(jìn)行專業(yè)領(lǐng)域名詞識別模型的訓(xùn)練,確定標(biāo)簽詞語概念粒度及層次結(jié)構(gòu)。根據(jù)實驗結(jié)果,參考國家自然科學(xué)基金體系,保留體系中“計算機(jī)科學(xué)”、“人工智能”、“自動化”、“信息與電子學(xué)系統(tǒng)”4個領(lǐng)域的一級、二級結(jié)構(gòu),同時依據(jù)《計算機(jī)科學(xué)技術(shù)百科全書》對三、四級標(biāo)簽名詞進(jìn)行補(bǔ)充及融合。最終本文的領(lǐng)域標(biāo)簽體系采用四級樹狀層級結(jié)構(gòu),標(biāo)簽總數(shù)為1780個。

        3.2 項目申請文檔標(biāo)簽標(biāo)注算法

        不同的科研機(jī)構(gòu)設(shè)有不同的項目申請文檔規(guī)范,文檔的部分模塊,如相關(guān)工作、相關(guān)調(diào)研等部分也會存在一些技術(shù)名詞,但這些名詞往往不是本篇文檔所真正關(guān)注的技術(shù)領(lǐng)域。因此,本文根據(jù)特定的項目申請文檔模板,進(jìn)行分析區(qū)域的劃分。結(jié)合領(lǐng)域標(biāo)簽體系,從字詞和語義兩個角度出發(fā),提出了一種基于TextRank與BiLSTM-CRF相結(jié)合的項目申請文檔標(biāo)簽標(biāo)注算法,并采用詞向量與詞頻相結(jié)合的方法實現(xiàn)標(biāo)簽體系標(biāo)簽詞與識別出的專業(yè)領(lǐng)域名詞的相似度計算任務(wù),詞頻的加入可以降低區(qū)分能力較弱詞語的權(quán)重。在此基礎(chǔ)上,引入投票機(jī)制,從字詞和語義兩個層面分別選擇不同的影響因子進(jìn)行線性加權(quán),最終確定標(biāo)簽名詞的權(quán)重排序,獲取自動標(biāo)注的標(biāo)簽結(jié)果。具體算法描述如下:

        算法1:項目申請文檔標(biāo)簽標(biāo)注算法

        輸入:項目申請文檔A

        輸出:標(biāo)簽列表labelb

        過程:

        步驟1 專業(yè)領(lǐng)域名詞識別:采用直接定位、Text-Rank、BiLSTM-CRF這3種方法進(jìn)行識別,得到3個專業(yè)領(lǐng)域名詞列表Entity;

        步驟2 專業(yè)領(lǐng)域名詞Entity與標(biāo)簽詞相似度計算:采用詞向量及詞頻相結(jié)合實現(xiàn)專業(yè)領(lǐng)域關(guān)鍵詞與標(biāo)簽體系標(biāo)簽詞的相似度計算,計算公式如式(3)所示,分別得到3種途徑識別名詞所確定的最終標(biāo)簽詞列表labela

        (1)

        (2)

        (3)

        步驟3 投票機(jī)制:引入投票機(jī)制,將3種途徑獲取到的最終標(biāo)簽詞進(jìn)行投票,將最終的投票分?jǐn)?shù)進(jìn)行歸一化處理;

        步驟4 線性加權(quán):選擇投票計算結(jié)果、向量相似度計算結(jié)果、標(biāo)簽詞詞頻計算結(jié)果為影響因子進(jìn)行線性加權(quán),計算公式如式(4)所示,按照最終標(biāo)簽的權(quán)重排序結(jié)果,得到標(biāo)簽列表labelb

        (4)

        式中:score(label)表示標(biāo)簽分?jǐn)?shù),w1、w2、w3表示不同影響因子對應(yīng)的權(quán)重,tflabel表示標(biāo)簽詞label的詞頻。

        3.3 基于三元組的專家標(biāo)簽標(biāo)注方法

        從實際應(yīng)用背景出發(fā),專家研究領(lǐng)域固定但研究方向可以包括很多,在每一研究方向的研究程度往往不一樣,引入領(lǐng)域吻合度作為標(biāo)注特征,用以表征專家在其各自研究方向的研究深度;除此之外,單純地考慮專家的研究方向并不能較好保證評審質(zhì)量,同時當(dāng)一批專家均符合評審條件而評審專家數(shù)目卻有限制時,往往需要進(jìn)行擇優(yōu)推薦,引入領(lǐng)域權(quán)威度作為標(biāo)注特征,描述專家在相關(guān)領(lǐng)域的影響力度。綜上,領(lǐng)域吻合度為專家標(biāo)簽標(biāo)注提供自身的縱向比較,領(lǐng)域權(quán)威度為專家推薦提供領(lǐng)域的橫向比較。因此,本文選擇專家領(lǐng)域吻合度及領(lǐng)域權(quán)威度兩個特征作為擇優(yōu)推薦的參考指標(biāo),提出了專家領(lǐng)域吻合度計算模型,公式如式(5)所示,制定了專家領(lǐng)域權(quán)威度的評價指標(biāo),評價指標(biāo)見表1。采用(專家標(biāo)簽、領(lǐng)域權(quán)威度、領(lǐng)域吻合度)三元組的形式進(jìn)行專家標(biāo)簽表征。具體標(biāo)注方法如下:

        表1 領(lǐng)域權(quán)威度評價指標(biāo)

        (1)領(lǐng)域標(biāo)簽抽?。航Y(jié)合領(lǐng)域標(biāo)簽體系,從專家的論文數(shù)據(jù)中提取專家的領(lǐng)域標(biāo)簽;

        (2)吻合度計算:依據(jù)標(biāo)簽在專家相關(guān)資料中出現(xiàn)的頻次、論文的影響因子、論文引用數(shù)、專家發(fā)表的總文獻(xiàn)數(shù),進(jìn)行吻合度計算

        (5)

        式中:scorei表示標(biāo)簽i的領(lǐng)域吻合度,wj表示論文j的影響因子,nij表示標(biāo)簽i在論文出現(xiàn)次數(shù),tj表示論文j的引用數(shù),N表示專家發(fā)表的總文獻(xiàn)數(shù)。將每篇文獻(xiàn)的各個特征值相乘,并進(jìn)行求和,獲得的平均值作為該研究領(lǐng)域的吻合度,為保證分母不為0,故對總文獻(xiàn)數(shù)加1。

        (3)權(quán)威度計算:依據(jù)領(lǐng)域權(quán)威度的評價指標(biāo),進(jìn)行線性加權(quán)計算。

        3.4 專家推薦算法

        專家推薦過程中,不僅需要保證專家研究領(lǐng)域與申請項目的領(lǐng)域相匹配,還需要考慮專家的專業(yè)水平,以保證評審質(zhì)量。依據(jù)實際評審需求,本文選取專家領(lǐng)域吻合度及領(lǐng)域權(quán)威度進(jìn)行專家表征,以領(lǐng)域標(biāo)簽體系為標(biāo)準(zhǔn),統(tǒng)一專家標(biāo)簽及項目申請文檔標(biāo)簽提取的概念粒度及命名規(guī)范,構(gòu)建了基于領(lǐng)域標(biāo)簽體系的專家推薦算算法。具體的算法過程描述如算法2所示:

        算法2:基于領(lǐng)域標(biāo)簽體系的專家推薦算法

        輸入:項目申請文檔A

        輸出:推薦專家名單Expertc

        過程:

        步驟1 分析項目申請文檔A結(jié)構(gòu)特點,確定進(jìn)行分析的文本范圍,進(jìn)行項目申請文檔的標(biāo)簽標(biāo)注,得到項目申請文檔的標(biāo)簽列表La;

        步驟2 依據(jù)專家文獻(xiàn)數(shù)據(jù)進(jìn)行專家標(biāo)簽標(biāo)注、專家領(lǐng)域吻合度、專家領(lǐng)域權(quán)威度的表征,得到專家表征三元組Triple(專家標(biāo)簽、領(lǐng)域吻合度、領(lǐng)域權(quán)威度);

        步驟3 將步驟1所得項目申請文檔的標(biāo)簽列表La與步驟2所得的三元組中的專家標(biāo)簽進(jìn)行匹配,構(gòu)建備選領(lǐng)域?qū)<壹螮xperta;

        步驟4 基于專家社會關(guān)系網(wǎng)絡(luò),構(gòu)建專家回避模型,得到回避專家列表Lb,將步驟3中所得的備選領(lǐng)域?qū)<壹螮xperta進(jìn)行過濾,此時得到備選專家集合Expertb;

        步驟5 結(jié)合專家表征三元組Triple(專家標(biāo)簽、領(lǐng)域吻合度、領(lǐng)域權(quán)威度),對步驟4得到的備選專家集合Expertb進(jìn)行線性加權(quán),將加權(quán)結(jié)果進(jìn)行排序,根據(jù)項目需求,選取排序結(jié)果TopN的專家作為最終推薦專家列表Expertc。

        3.5 專家回避算法

        為保證項目評審的公平性,需要進(jìn)行評審專家與項目申請人之間的回避問題。考慮專家實際生活場景及成長背景,對專家社會關(guān)系進(jìn)行關(guān)聯(lián)關(guān)系分析,抽取專家的社會關(guān)系,本文中所選取的社會關(guān)系分為直接關(guān)系與間接關(guān)系,直接關(guān)系包括:合作關(guān)系、同事關(guān)系、同學(xué)關(guān)系、師生關(guān)系、控股關(guān)系,間接關(guān)系由以上5種直接關(guān)系間接引起的二階或多階關(guān)系。將關(guān)系作為邊,專家作為節(jié)點,構(gòu)建專家社會關(guān)系網(wǎng)絡(luò),這類屬性主要采用規(guī)則推理的方法進(jìn)行提取,同時基于專家社會關(guān)系網(wǎng)絡(luò)設(shè)計回避算法,具體算法描述如下:

        算法3:基于領(lǐng)域標(biāo)簽體系的專家推薦算法

        輸入:項目申請人名單Avoida,推薦專家名單Experta

        輸出:回避專家名單Avoida

        過程:

        步驟1 依據(jù)構(gòu)建的專家?guī)鞌?shù)據(jù),采用規(guī)則推理的方法進(jìn)行專家關(guān)聯(lián)關(guān)系分析,構(gòu)建專家社會關(guān)系網(wǎng)絡(luò),具體規(guī)則見表2;

        表2 社會關(guān)系規(guī)則

        步驟2 基于專家社會關(guān)系網(wǎng)絡(luò),查詢推薦專家名單Experta及項目申請人名單Applicanta每兩者之間的全部關(guān)系路徑,并進(jìn)行兩者間關(guān)系強(qiáng)度的計算,計算模型如圖2所示,計算公式如式(6)所示;

        圖2 回避模型

        (6)

        式中:Q(A,B)表示專家A與申請人B之間的關(guān)系強(qiáng)度,W表示關(guān)系權(quán)重,dec表示衰減比重。本文引入衰減比的概念,在專家社會網(wǎng)絡(luò)中,連接兩者的邊數(shù)越多,其關(guān)系衰減避重越大。將關(guān)系強(qiáng)度的計算分為兩種情況:當(dāng)A與B之間存在1條最短路徑時,直接進(jìn)行權(quán)重與衰減比的乘積,結(jié)果作為兩者之間的關(guān)系強(qiáng)度;當(dāng)A與B之間存在多條長度相等路徑時,對每條路徑的權(quán)重與衰減比相乘后求和,結(jié)果作為兩者之間的關(guān)系強(qiáng)度;

        步驟3 選取關(guān)系強(qiáng)度計算結(jié)果中的最大值,進(jìn)行回避閾值判斷,實現(xiàn)專家回避,得到最終的回避專家名單Avoida。

        4 實驗及結(jié)果分析

        4.1 數(shù)據(jù)集

        本實驗中所用的數(shù)據(jù)集為爬蟲所得的網(wǎng)絡(luò)與信息安全感領(lǐng)域的論文摘要,將數(shù)據(jù)集按照9∶1的比例分成訓(xùn)練集、驗證集,項目申請文檔作為測試集,語料規(guī)模見表3。

        表3 數(shù)據(jù)集介紹

        4.2 專業(yè)領(lǐng)域名詞識別模型實驗及結(jié)果分析

        專業(yè)領(lǐng)域名詞識別結(jié)果影響著領(lǐng)域標(biāo)簽體系構(gòu)建的效果及項目申請文檔的標(biāo)簽標(biāo)注結(jié)果。針對模型設(shè)計,本文設(shè)計了兩組對照實驗。

        實驗1:基于Word2vec實現(xiàn)向量映射,將映射后的向量矩陣作為BiLSTM層的輸入,經(jīng)過降維后,選取BiLSTM層輸出的分?jǐn)?shù)最高的標(biāo)簽作為標(biāo)簽預(yù)測結(jié)果。該模型準(zhǔn)確率達(dá)67.86%。

        實驗2:在實驗1的基礎(chǔ)上,添加CRF層。CRF層可以為自動學(xué)習(xí)一些約束條件,進(jìn)而為預(yù)測標(biāo)簽的合法性提供保證,如通過引入CRF層可以學(xué)習(xí)到句子中的第一個詞應(yīng)該是以標(biāo)簽“B”或“O”開始;同時CRF中存在轉(zhuǎn)移特征,它可以考慮輸出標(biāo)簽之間的順序性,以此來進(jìn)行一些約束規(guī)則的學(xué)習(xí)。BiLSTM-CRF模型的準(zhǔn)確率達(dá)77.96%。

        4.3 項目申請文檔的標(biāo)簽標(biāo)注算法實驗及結(jié)果分析

        項目申請文檔的標(biāo)簽標(biāo)注是實現(xiàn)專家推薦的關(guān)鍵步驟,其標(biāo)注準(zhǔn)確率直接影響著推薦專家的結(jié)果。在進(jìn)行項目申請文檔標(biāo)簽標(biāo)注算法的設(shè)計過程中,主要設(shè)置以下3組對照實驗,實驗結(jié)果見表4。

        表4 項目申請文檔標(biāo)簽標(biāo)注實驗結(jié)果對比

        實驗1:依據(jù)領(lǐng)域技術(shù)標(biāo)簽體系,采用直接定位、Text-Rank關(guān)鍵詞及關(guān)鍵短語提取兩種方法進(jìn)行專業(yè)領(lǐng)域名詞的識別,其中關(guān)鍵詞及關(guān)鍵短語的提取借助Hanlp開源工具,利用Word2vec詞嵌入向量計算識別出的領(lǐng)域標(biāo)簽詞與標(biāo)簽體系詞之間的相似度,進(jìn)行閾值判斷,確定項目申請文檔的標(biāo)簽標(biāo)注結(jié)果。

        實驗2:在實驗1基礎(chǔ)之上,專業(yè)領(lǐng)域名詞識別過程不變,在經(jīng)過詞向量映射進(jìn)行相似度計算過程中時,由于一個標(biāo)簽詞的詞嵌入向量由構(gòu)成這個標(biāo)簽詞的所有字向量拼接而成,標(biāo)簽詞中的每個字的區(qū)分能力強(qiáng)弱不同,如“計算機(jī)木馬”、“計算機(jī)通信協(xié)議”兩個標(biāo)簽代表領(lǐng)域相差甚大,但由于詞中均具有“計算機(jī)”這一子串,將會對相似度計算結(jié)果產(chǎn)生影響。因此,在進(jìn)行相似度計算時引入字頻特征,將字頻取倒數(shù)后作為當(dāng)前字的向量權(quán)重,之后進(jìn)行向量拼接,以此降低標(biāo)簽體系中區(qū)分能力較弱的字在標(biāo)簽詞中所占的權(quán)重。

        實驗3:針對專業(yè)領(lǐng)域名詞識別過程,實驗1和實驗2僅考慮了字詞特征,但是一篇項目申請文檔中往往蘊(yùn)含著大量的語義信息,同時專業(yè)領(lǐng)域名詞的上下文語境較為獨特,因此,本文在實驗3中考慮了語義特征,引入在領(lǐng)域標(biāo)簽體系構(gòu)建過程中訓(xùn)練好的BiLSTM-CRF專業(yè)名詞識別模型,采用直接定位、關(guān)鍵詞提取、BiLSTM-CRF模型3種方式進(jìn)行專業(yè)領(lǐng)域名詞的識別,有效地結(jié)合了字詞及語義兩個層面的特征。相似度計算與實驗2保持一致,采用詞向量與字頻相結(jié)合的方式進(jìn)行計算。同時,在結(jié)果統(tǒng)計策略上,我們引入了投票機(jī)制及線性加權(quán),將3種途徑獲取到的最終標(biāo)簽詞進(jìn)行投票,選擇投票計算結(jié)果、向量相似度計算結(jié)果、標(biāo)簽詞詞頻計算結(jié)果為影響因子進(jìn)行線性加權(quán),獲得最終標(biāo)簽標(biāo)注的權(quán)重排序結(jié)果。

        為保證實驗結(jié)果的準(zhǔn)確性,邀請了多位機(jī)構(gòu)工作人員針對項目申請文檔進(jìn)行背對背標(biāo)簽標(biāo)注,項目申請文檔數(shù)為50篇,每篇文檔標(biāo)簽標(biāo)注數(shù)目為3個,綜合多位工作人員標(biāo)注結(jié)果確定最終的準(zhǔn)確標(biāo)簽集合作為實驗結(jié)果正確數(shù)據(jù)集,計算3種實驗的標(biāo)注準(zhǔn)確率,同時,我們在整理人工標(biāo)簽標(biāo)注結(jié)果時注意到人工標(biāo)注的準(zhǔn)確率僅達(dá)68%,算法的最終準(zhǔn)確率達(dá)83.33%,遠(yuǎn)遠(yuǎn)超過人工標(biāo)注效果。實驗結(jié)果見表4。

        4.4 基于領(lǐng)域標(biāo)簽體系的推薦算法的實驗結(jié)果分析

        隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,將人類帶入了大數(shù)據(jù)時代,利用網(wǎng)絡(luò)數(shù)據(jù)資源實現(xiàn)各種形式的推薦已經(jīng)成為學(xué)術(shù)界和商業(yè)界的研究熱門。相比于其它推薦算法,本文所設(shè)計的算法在以下4個方面具有先進(jìn)性及創(chuàng)新性。

        (1)數(shù)據(jù)量方面

        從數(shù)據(jù)量角度講,相較于大多數(shù)推薦系統(tǒng)通常都是在小規(guī)模數(shù)據(jù)集上搭建起來的,本文開發(fā)相應(yīng)的爬蟲工具,依托于集群資源,進(jìn)行多節(jié)點并行處理爬取任務(wù)。專家數(shù)據(jù)量破萬,論文數(shù)據(jù)量破百萬,此外采集信息中還包括專利信息、專家個人信息等,為專家?guī)鞓?gòu)建工作提供了強(qiáng)大的數(shù)據(jù)支持。

        (2)領(lǐng)域標(biāo)簽體系構(gòu)建

        領(lǐng)域標(biāo)簽體系的數(shù)目眾多且較為復(fù)雜,信息檢索、計量評價等科研活動中存在領(lǐng)域標(biāo)簽著錄混亂、層級結(jié)構(gòu)模糊等瓶頸問題。很多機(jī)構(gòu)無成型的領(lǐng)域標(biāo)簽體系,機(jī)構(gòu)內(nèi)部相關(guān)技術(shù)無統(tǒng)一命名規(guī)范及明確定義。目前,針對領(lǐng)域標(biāo)簽方面的相關(guān)研究較少,國家自然科學(xué)基金體系是國內(nèi)較為成熟的領(lǐng)域標(biāo)簽體系,具有一定的參考價值,但是由于其面向的領(lǐng)域較多,體系層級結(jié)構(gòu)劃分與項目申請文檔中的技術(shù)概念粒度不契合等問題,往往需要對部分層級結(jié)構(gòu)進(jìn)行擴(kuò)充與融合。

        本文考慮到推薦算法過程中涉及到的專家標(biāo)簽標(biāo)注的數(shù)據(jù)來源及項目申請文檔的標(biāo)簽標(biāo)注兩個關(guān)鍵步驟,利用論文數(shù)據(jù)進(jìn)行專業(yè)領(lǐng)域名詞識別模型的訓(xùn)練,以此統(tǒng)一標(biāo)簽名詞概念粒度及命名規(guī)范,極大提高了專家標(biāo)簽與項目申請文檔標(biāo)簽之間的匹配準(zhǔn)確率。

        (3)專家標(biāo)簽標(biāo)注

        考慮到實際應(yīng)用場景,系統(tǒng)中需要評價的對象是人,因此需保證其描述維度的全面性。本系統(tǒng)中專家屬性達(dá)40種,從專家特定信息、專家基礎(chǔ)屬性信息、專家論文信息、專家專利信息、專家基金信息、專家培養(yǎng)學(xué)生信息6個維度出發(fā)描述專家,且每個維度特征不少于6個,進(jìn)而保證了專家屬性的全面性。基于以上信息,在進(jìn)行專家標(biāo)簽標(biāo)注過程中,制定了領(lǐng)域權(quán)威度評價指標(biāo),提出了領(lǐng)域吻合度計算模型,不僅實現(xiàn)了專家研究領(lǐng)域的表征,同時也對專家研究水平進(jìn)行表征。

        (4)專家推薦及回避

        專家推薦問題有著自身獨有的特點,專家是有情感的人,所推薦的專家在進(jìn)行項目或論文評審中,會帶有一定的感情因素。因此,不但要考慮專家的專業(yè)特長、學(xué)術(shù)水準(zhǔn)是否與被評審項目相吻合,以保證項目評審的科學(xué)性,同時還要考慮專家的社會關(guān)系,避免那些與項目申請人存在各種社會關(guān)系的專家進(jìn)入項目評審組,以保證項目評審的公正性。

        本文提出了一種基于領(lǐng)域標(biāo)簽體系的專家推薦算法,通過匹配專家的技術(shù)標(biāo)簽篩選初步推薦專家名單,根據(jù)專家多維度屬性信息構(gòu)建專家權(quán)威度和領(lǐng)域吻合度算法實現(xiàn)專家的排序,最終結(jié)合專家社會關(guān)系網(wǎng)絡(luò)進(jìn)行回避路徑的計算,經(jīng)過濾后完成最終的專家推薦。不僅考量了專家的權(quán)威度信息和領(lǐng)域吻合度信息,還引入了專家社會關(guān)系回避信息,使推薦的結(jié)果更具有可行性。

        5 結(jié)束語

        本文在領(lǐng)域科研項目評審專家推薦方面提出了一套基于領(lǐng)域標(biāo)簽體系的推薦算法。首先,進(jìn)行了數(shù)據(jù)采集及處理工作,構(gòu)建專家?guī)?;然后,采用BiLSTM-CRF專業(yè)領(lǐng)域名詞識別模型構(gòu)建了一套領(lǐng)域標(biāo)簽體系,基于領(lǐng)域標(biāo)簽體系,設(shè)計了字詞與語義特征相結(jié)合的項目申請文檔標(biāo)簽標(biāo)注方法,針對專家專業(yè)研究水平,提出了一種基于三元組的專家標(biāo)簽表征模型;最后,利用專家?guī)鞌?shù)據(jù),構(gòu)建專家社會關(guān)系網(wǎng)絡(luò),充分考慮評審專家與項目申請人之間的社會關(guān)系,提出了基于社會關(guān)系網(wǎng)絡(luò)的回避算法,并結(jié)合專家標(biāo)簽與項目申請文檔標(biāo)簽的匹配結(jié)果,進(jìn)行專家的推薦與回避。

        在接下來的工作中,我們計劃引入專家評價體系及專家用戶畫像。進(jìn)一步完善專家推薦過程中,專家擇優(yōu)推薦模型的表征方法,期望進(jìn)一步提高專家推薦效果,進(jìn)而保證領(lǐng)域科研項目的評審質(zhì)量。

        猜你喜歡
        文檔標(biāo)簽專家
        致謝審稿專家
        有人一聲不吭向你扔了個文檔
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于RI碼計算的Word復(fù)制文檔鑒別
        標(biāo)簽化傷害了誰
        請叫我專家
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        專家面對面
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        亚洲一区二区三区在线高清中文| 亚洲依依成人亚洲社区| 亚洲乱码视频在线观看| 激情综合色综合久久综合| 少妇人妻在线视频| 精品久久综合亚洲伊人| 久久久久久AV无码成人| 国产精品综合女同人妖| 亚洲a∨无码精品色午夜| 男受被做哭激烈娇喘gv视频| 国产内射XXXXX在线| 国产精品原创永久在线观看| 中文字幕东京热一区二区人妻少妇| 天堂8在线新版官网| 亚洲欧美在线观看| 99综合精品久久| h视频在线免费观看视频| 天天爽夜夜爽人人爽| 日本亚洲国产一区二区三区| 色999欧美日韩| 亚洲区一区二区三区四| 亚洲精品中文字幕免费专区| 曰韩无码二三区中文字幕| 国产精品短视频| 亚洲一区二区三区亚洲| 色窝窝亚洲av网在线观看| 99蜜桃在线观看免费视频网站| 久久精品国产只有精品96| 日韩在线一区二区三区中文字幕| 一本一道av无码中文字幕麻豆| 亚洲av无码专区亚洲av| 亚洲成片在线看一区二区| 美女视频一区二区三区在线| 国产精品激情| 久久天天躁狠狠躁夜夜96流白浆| 国产精品久久这里只有精品| 日韩精品极品系列在线免费视频 | 人妻无码中文人妻有码| 99久久免费中文字幕精品| 黑人老外3p爽粗大免费看视频| 亚洲av永久无码精品一区二区|