亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本相似度的評(píng)審專家推薦方法研究

        2019-09-17 10:47:04鄭新宇徐建良
        科技資訊 2019年17期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        鄭新宇 徐建良

        摘 ?要:在科研項(xiàng)目申報(bào)過程中,當(dāng)前多采用人工方式進(jìn)行評(píng)審專家遴選,由于人工對(duì)領(lǐng)域知識(shí)的理解有限,且具有一定的主觀性傾向,隨著項(xiàng)目申報(bào)數(shù)量的增加,人工選擇的效率和準(zhǔn)確率逐漸降低。為解決此問題,該文提出一種基于文本相似度的評(píng)審專家推薦方法。通過對(duì)項(xiàng)目論文信息進(jìn)行數(shù)據(jù)挖掘,利用編輯距離模糊匹配和Wordnet語義擴(kuò)展方法改進(jìn)文本相似度計(jì)算,設(shè)計(jì)對(duì)比實(shí)驗(yàn)分別說明方法的可行性,并對(duì)推薦結(jié)果給出解釋。實(shí)驗(yàn)結(jié)果表明,該文方法能夠有效解決評(píng)審專家遴選問題。

        關(guān)鍵詞:專家推薦 ?數(shù)據(jù)挖掘 ?文本相似度 ?語義擴(kuò)展

        中圖分類號(hào):TP391.1 ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)06(b)-0173-04

        Abstract:In the process of applying for scientific research projects, the selection of review experts is often carried out manually. Due to the limited understanding of domain knowledge and the subjective tendency of manual selection, the efficiency and accuracy of manual selection gradually decrease with the increase of the number of project declarations. To solve this problem, this paper proposes a method of expert recommendation based on text similarity. Through data mining of project paper information, the text similarity calculation is improved by using editing distance fuzzy matching and Wordnet semantic extension methods. The validity of the method is illustrated by designing comparative experiments, and the recommendation results are explained. The experimental results show that this method can effectively solve the problem of selecting evaluation experts.

        Key Words:Expert recommendation; Data mining; Text similarity; Semantic extension

        隨著計(jì)算機(jī)應(yīng)用技術(shù)的迅猛發(fā)展,越來越多的科研單位選擇使用線上信息管理的方式,來進(jìn)行科研項(xiàng)目的申報(bào)工作。在科研項(xiàng)目申報(bào)的過程中,有一個(gè)極為重要的流程就是評(píng)審專家推薦過程[1-3]。評(píng)審專家推薦是指根據(jù)項(xiàng)目的一些文本信息,選擇出幾個(gè)相關(guān)領(lǐng)域的專家成為評(píng)審專家。評(píng)審專家對(duì)項(xiàng)目進(jìn)行評(píng)估審查工作,來確認(rèn)項(xiàng)目是否具有研究的價(jià)值[4]。但由于項(xiàng)目申請(qǐng)數(shù)量多、類型多樣,并且專家的科研信息比較復(fù)雜,管理人員很難恰當(dāng)?shù)卦u(píng)估某個(gè)專家在一定時(shí)間內(nèi)的研究偏重方向,所以使用人工來選擇評(píng)審專家的工作方式效率不夠高,不能滿足工作需要。因此,需要借助計(jì)算機(jī)技術(shù),為人工選擇評(píng)審專家提供自動(dòng)化的幫助。因此,如何選擇出合適的評(píng)審專家則成為該文研究的關(guān)鍵問題[5-7]。

        評(píng)審專家推薦系統(tǒng)本質(zhì)上是屬于個(gè)性化推薦技術(shù)范疇,目的是滿足系統(tǒng)用戶對(duì)專家這一特殊實(shí)體的推薦需求[8]。2005年Reichling、Schubert等學(xué)者第一次對(duì)專家推薦進(jìn)行準(zhǔn)確的定義,指明專家推薦是一種檢索技術(shù),根據(jù)一定的信息輸入,檢索出能解決具體問題的相關(guān)專家,幫助用戶提高檢索效率和精確率[9]。專家推薦系統(tǒng)一般應(yīng)用于專業(yè)領(lǐng)域性較強(qiáng)的工作,如學(xué)術(shù)論文的審查工作、工程建設(shè)的評(píng)估工作、項(xiàng)目招標(biāo)的評(píng)審工作。在科研項(xiàng)目申報(bào)立項(xiàng)的過程中,對(duì)專家推薦的專業(yè)性要求標(biāo)準(zhǔn)更高,對(duì)推薦技術(shù)也有著更高的要求。胡斌等使用概念層次模型挖掘科技項(xiàng)目與專家相似性,解決科技項(xiàng)目專家推薦問題[10]。劉一星等使用經(jīng)過改進(jìn)的ATSVM算法用于論文投稿的評(píng)審專家推薦研究[7]。李瑩等使用主題信息完成企業(yè)需求的專家推薦工作[11]。蒲珊珊等建立知識(shí)互補(bǔ)的科研合作專家推薦模型來完成專家推薦工作[12]。

        該文設(shè)計(jì)的基于數(shù)據(jù)挖掘的評(píng)審專家推薦方法,抽取項(xiàng)目中論文關(guān)鍵字和知識(shí)庫中論文關(guān)鍵字,對(duì)關(guān)鍵字集合進(jìn)行數(shù)據(jù)規(guī)整、語義擴(kuò)展,得到擴(kuò)展后的關(guān)鍵字集合[13]。計(jì)算項(xiàng)目論文與知識(shí)庫論文的余弦相似度,得到知識(shí)庫中相似度排序前K個(gè)論文集合。根據(jù)論文集合,得到候選專家集合。對(duì)候選專家集合中的每個(gè)專家的論文進(jìn)行檢索,檢索出的論文與項(xiàng)目進(jìn)行余弦相似度計(jì)算,得出的相似度值取平均值作為專家的權(quán)威性衡量,候選專家集合中按專家權(quán)威性排序,得到權(quán)威性排名前N個(gè)專家,系統(tǒng)將把這些專家作為推薦結(jié)果推薦給用戶[14]。

        1 ?評(píng)審專家推薦方法設(shè)計(jì)

        1.1 方法思路分析

        評(píng)審專家推薦的關(guān)鍵問題是根據(jù)項(xiàng)目中給出的文本信息,與知識(shí)庫中的專家進(jìn)行分析對(duì)比,選擇出研究相關(guān)的人作為評(píng)審專家。

        該文中專家推薦分為兩個(gè)階段:首先,根據(jù)項(xiàng)目文本信息在知識(shí)庫中找到相關(guān)論文;其次,根據(jù)相關(guān)論文,得到候選專家推薦列表,對(duì)列表中專家進(jìn)行分析,分析后得到推薦結(jié)果。流程圖如圖1、圖2所示。

        1.2 文本數(shù)據(jù)處理

        (1)實(shí)驗(yàn)中所用數(shù)據(jù)集來自微軟學(xué)術(shù)圖譜MAG的子數(shù)據(jù)集。目前MAG主要用于量化學(xué)者影響力研究[15]、異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中學(xué)者位置的影響力研究[16]、學(xué)術(shù)社交網(wǎng)絡(luò)的提取與挖掘[17-18]等。

        對(duì)于MAG中的論文信息,每篇論文都是一個(gè)JSON對(duì)象的字符串,經(jīng)過數(shù)據(jù)格式整理后,數(shù)據(jù)格式見表1。

        (2)文本向量化。19世紀(jì)70年代杰拉德·索爾頓提出了一種來源于信息檢索的向量空間模型(Vector Space Model,VSM)技術(shù)[19]。該模型認(rèn)為文本特征之間是相互獨(dú)立的,因此可以忽略文本特征之間的依賴關(guān)系,將文本信息轉(zhuǎn)化為向量表示,減少數(shù)據(jù)量的同時(shí)保留文本的語義。

        1.3 基于模糊匹配的文本相似度計(jì)算方法

        1.4 基于語義擴(kuò)展的文本相似度計(jì)算方法

        在進(jìn)行相似度計(jì)算時(shí),關(guān)鍵字集合從文本信息中抽取,關(guān)鍵字的語義粒度不能直接獲得,但在實(shí)際處理中,關(guān)鍵字的語義范圍相互交叉的情況十分常見。為提高語義粒度,采用基于語義擴(kuò)展的相似度計(jì)算方法[20-21]。

        對(duì)于論文Pi的關(guān)鍵字集合KWi={k1,k2,…kn}中每個(gè)關(guān)鍵字ki,利用NLTK工具庫中Wordnet資源,擴(kuò)展關(guān)鍵字的上下位詞及近義詞。

        2 ?實(shí)驗(yàn)設(shè)計(jì)及評(píng)估

        實(shí)驗(yàn)數(shù)據(jù)選取MAG子數(shù)據(jù)集中計(jì)算機(jī)科學(xué)領(lǐng)域中8103篇論文,將計(jì)算機(jī)科學(xué)領(lǐng)域280319篇論文作為知識(shí)庫存入數(shù)據(jù)庫中。方法設(shè)計(jì)如表2所示。

        選擇實(shí)驗(yàn)數(shù)據(jù)集中30篇論文用于數(shù)據(jù)展示,實(shí)驗(yàn)數(shù)據(jù)集與知識(shí)庫中的論文進(jìn)行匹配后,計(jì)算得出余弦距離并排序。

        由圖3、4可知,管是關(guān)鍵字集合在擴(kuò)展前還是擴(kuò)展后,基于編輯距離的相似度都要高于完全匹配的相似度,說明在完全匹配中檢索不出來的關(guān)鍵字,在基于編輯距離相似度計(jì)算方法中被檢索出來,且每一篇的數(shù)值模糊匹配要高于完全匹配,說明在進(jìn)行相似度計(jì)算時(shí),選擇模糊匹配的方法是有效的。

        由圖5可知,經(jīng)過關(guān)鍵字?jǐn)U展后,完全匹配的相似度升高。由此可證明,完全匹配失敗的關(guān)鍵字,在關(guān)鍵字?jǐn)U展后,擁有相同的上下位詞或者近義詞,經(jīng)過字符串完全匹配后,余弦相似度增加。

        根據(jù)圖6余弦距離結(jié)果可知,關(guān)鍵字在擴(kuò)展前后經(jīng)過模糊匹配后,相似度整體表現(xiàn)差別不是特別大。原因在于關(guān)鍵字經(jīng)過語義擴(kuò)展后關(guān)鍵字集合維度增加,根據(jù)式(1),造成余弦距離結(jié)果相差較小。從另一方面來說,關(guān)鍵字集合經(jīng)過擴(kuò)展后,相似度變化不大說明關(guān)鍵字集合攜帶的信息量增加,但對(duì)整體的語義偏向沒有太大的影響。

        3 ?結(jié)語

        該文設(shè)計(jì)了一種通過計(jì)算文本余弦相似度來推薦評(píng)審專家的方法,解決人工遴選評(píng)審專家中效率較低、主觀選擇專家等問題。由于方法是基于文本內(nèi)容相似度進(jìn)行專家推薦,因此該方法對(duì)所有文本推薦具有一定的普適性。

        目前對(duì)于評(píng)審專家的推薦方法,大多從語義概念模型方向解決推薦問題。但在研究領(lǐng)域中存在專業(yè)內(nèi)專有名詞,因此需要人工建立領(lǐng)域詞典,建立語義之間的聯(lián)系,未來的進(jìn)一步工作是在Wordnet基礎(chǔ)上,加入專有名詞語義關(guān)系,進(jìn)一步提高語義擴(kuò)展的相似度。

        參考文獻(xiàn)

        [1] 張勇勤.科技計(jì)劃項(xiàng)目經(jīng)費(fèi)預(yù)算評(píng)審評(píng)估制度研究[J].天津科技,2008(3):77-79.

        [2] 陳月英,穆仕華.科研項(xiàng)目在線評(píng)審體系的研究與應(yīng)用[J].中國(guó)新通信,2015,17(9):69-70.

        [3] 沈才俊,徐暑芬,常云志.科技項(xiàng)目評(píng)審過程中項(xiàng)目分組與專家推薦流程的設(shè)計(jì)[J].江蘇科技信息,2016(6):29-31.

        [4] 梁保磊.政府科技項(xiàng)目評(píng)審主體、過程及應(yīng)用系統(tǒng)開發(fā)研究[D].東南大學(xué),2009.

        [5] 萬猛.關(guān)于科技評(píng)審專家的選擇及其評(píng)審行為的判斷方法[J].研究與發(fā)展管理,2007(3):119-122,129.

        [6] 靳健,楊海慈,李凝,等.基于主題契合度的專家推薦模型研究[J].數(shù)字圖書館論壇,2017(4):47-55.

        [7] 劉一星.論文投稿系統(tǒng)評(píng)審專家自動(dòng)推薦模型研究[D].重慶大學(xué),2009.

        [8] 李有超.基于項(xiàng)目屬性與偏愛比較的協(xié)同過濾推薦算法研究[D].燕山大學(xué),2010.

        [9] Reichling T,Schubert K,Wulf V.Matching human actors basedon their textsdesign and evaluation of an instance of the Expert Finding framework[A].Proceedings of the2005 international ACMSIGGROUP conference on Supporting group work[C].ACM,2005:61-70.

        [10] 胡斌,徐小良.科技項(xiàng)目評(píng)審專家推薦系統(tǒng)模型[J].電子科技,2012,25(7):1-5.

        [11] 李瑩.面向企業(yè)需求的專家推薦算法研究[D].北京交通大學(xué),2018.

        [12] 蒲姍姍.基于知識(shí)互補(bǔ)的科研合作專家推薦模型研究[J].情報(bào)理論與實(shí)踐,2018,41(8):96-101.

        [13] 滕巖,李玉忱.基于《知網(wǎng)》的語義信息檢索[A].第二屆全國(guó)web信息系統(tǒng)及其應(yīng)用會(huì)議[C].2005.

        [14] 朱昆磊,黃佳進(jìn).基于信念網(wǎng)絡(luò)的協(xié)同過濾圖模型的推薦算法[J].模式識(shí)別與人工智能,2016,29(2):171-176.

        [15] 周金夢(mèng).基于學(xué)術(shù)異構(gòu)網(wǎng)絡(luò)的學(xué)者影響力評(píng)估算法[D].大連理工大學(xué),2016.

        [16] 張君.基于異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)的學(xué)者影響力評(píng)估與預(yù)測(cè)[D].大連理工大學(xué),2018.

        [17] Tang J, Zhang J, Yao L, et al. Arnetminer: extraction and mining of academic social networks[A].Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining[C].ACM,2008:990-998.

        [18] Sinha A, Shen Z, Song Y, et al. An overview of microsoft academic service (mas) and applications[A].Proceedings of the 24th international conference on world wide web[C].ACM,2015:243-246.

        [19] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[M].Communications of the ACM,1975.

        [20] 王良芳.文本挖掘關(guān)鍵詞提取算法的研究[D].浙江工業(yè)大學(xué),2013.

        [21] 王進(jìn),陳恩紅,施德明,等.一種基于語義相似度的信息檢索方法[J].模式識(shí)別與人工智能,2006,19(6):696-701.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        亚洲精品第一国产麻豆| 奶头又大又白喷奶水av| 伊人久久大香线蕉av网禁呦| 国产普通话对白视频二区| 精品人妻免费看一区二区三区| 国产熟女自拍av网站| 午夜免费电影| 亚洲精品毛片一区二区三区| 99久久这里只精品国产免费| 美女被强吻并脱下胸罩内裤视频| 精品亚洲国产成人蜜臀av| 人人妻人人澡人人爽久久av| 91精品国产91久久久久久青草| 青青草绿色华人播放在线视频| 国产成人精品无码免费看| 国产精品9999久久久久| 欧美色色视频| 精品人妻一区二区视频| 亚洲人成人无码www| 国产欧美日韩一区二区三区在线 | 国产自产在线视频一区| av在线观看一区二区三区| 日本爽快片18禁免费看| 久久国产影视免费精品| 免费看草逼操爽视频网站| 色综合久久无码五十路人妻 | 成年人视频在线播放视频| 一区二区三区国产黄色| 特级a欧美做爰片第一次| 免费AV一区二区三区无码| 97超碰中文字幕久久| 特黄 做受又硬又粗又大视频 | 国产黄三级三级三级三级一区二区| 国产精品一区二区三区自拍| av无码天堂一区二区三区| 国产精品三级在线专区1| 国产成人精品一区二区三区av| 亚洲日韩国产欧美一区二区三区| 亚洲va在线va天堂va手机| 玖玖资源网站最新网站| 新婚人妻不戴套国产精品|