亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于學術(shù)合作關(guān)系的學科專家導航實現(xiàn)算法研究

        2015-04-29 00:00:00卜玉敏侯聰聰高國帥高阿坤
        科技創(chuàng)新與應(yīng)用 2015年22期

        摘 要:一個科學高效的學科專家導航系統(tǒng)對學科研究有極大的推動作用,然而目前我國對此類系統(tǒng)的設(shè)計開發(fā)和利用程度仍有待提高。文章僅對該系統(tǒng)的專家檢索和基于合作關(guān)系的專家導航進行算法設(shè)計。文中介紹了該系統(tǒng)的五大模塊及其功能。運用向量空間模型、相關(guān)性傳播模型計算某一領(lǐng)域的專家專長得分,得到該領(lǐng)域的專家排名列表;基于專家合作關(guān)系網(wǎng)絡(luò),設(shè)計了在非限定領(lǐng)域和限定領(lǐng)域檢索中的專家合作強度算法。

        關(guān)鍵詞:專家檢索;專家導航;合作網(wǎng)絡(luò)

        引言

        科研是推動學科發(fā)展的強大力量。我國對科研項目的投入不斷增加,產(chǎn)生了一些優(yōu)秀的科研成果。但不可否認,我國科研領(lǐng)域仍存在一些問題。據(jù)2012年山東省審計,在該省四所高等院校2008年立項的縱向課題項目中,平均預算執(zhí)行率為27.66%,未按期結(jié)題率為33.98%[1]。說明現(xiàn)階段我國科研存在項目資金利用率低,結(jié)題率低的弊端。原因之一在于部分項目申報者自身科研能力不足,學術(shù)資源在空間上分配不均,因此尋找并溝通學科科研人員之間的關(guān)系就尤為重要。學科專家導航系統(tǒng)的核心功能是把專家基于學術(shù)合作經(jīng)歷進行聯(lián)系,并以可視化的方式向用戶展示。系統(tǒng)提供以下幾種方式的查詢:以專家姓名為檢索詞,查詢某一專家的基本信息、科研作品和與其他專家之間的合作關(guān)系;以學科領(lǐng)域為檢索詞,查詢該領(lǐng)域的專家排序列表。此外還對專家及作品進行分類:按組織、關(guān)鍵詞、會議等幾大類進行整理,列出最前沿的前20類,供用戶進行檢索查找。主要包含專家信息錄入、專家信息更新、用戶操作、專家檢索、管理與維護五個功能模塊。

        1 實現(xiàn)算法

        本章將對專家檢索進行算法設(shè)計。幾種檢索方式分別是:基于學科領(lǐng)域的專家導航,即用戶輸入學科領(lǐng)域詞作為檢索詞,系統(tǒng)返回該領(lǐng)域的專家排名列表;另一種是基于專家姓名的專家導航,即用戶輸入專家姓名作為檢索詞,系統(tǒng)返回該專家的工作單位、聯(lián)系方式等基本信息和科研成果,并以合作網(wǎng)絡(luò)的可視化方式展示與其他專家之間的合作關(guān)系。按類別分類便于用戶按專家所在組織、文獻的關(guān)鍵詞、文獻來源等對專家和文獻進行分類查詢或瀏覽。

        為便于后續(xù)設(shè)計,現(xiàn)將文章約束表述如下:第一,文章對專家關(guān)系界定為基于其學術(shù)研究的論文合作關(guān)系和研究領(lǐng)域的相似關(guān)系;第二,對有關(guān)專家學術(shù)成果的算法設(shè)計僅圍繞文字形式的成果信息(主要指學術(shù)論文)進行。

        1.1 學科領(lǐng)域檢索的專家檢索算法

        專家得分來源于兩方面:一是從專家參與所著論文中獲得,包括論文與查詢詞的相似度得分和論文的學術(shù)價值得分,此為專家初始得分;二是基于專家在相關(guān)論文中的合作關(guān)系,運用信息檢索中的相關(guān)性傳播模型,參照文獻[3],把初始得分根據(jù)專家之間的相關(guān)度權(quán)值進行傳播提升。

        基本思路:(1)為每篇文獻建立索引文檔,文檔中包括關(guān)鍵詞出現(xiàn)的位置(標題、正文等),這一工作在系統(tǒng)建立后已經(jīng)完成;(2)運用向量空間模型計算文獻與查詢詞的相似度,并篩選出相似度大于閾值的文獻;(3)根據(jù)文獻與查詢詞的相似度、文獻期刊的影響因子計算(2)中篩選出的每篇文獻的得分;(4)把每篇文獻的得分分配到作者,計算每位相關(guān)作者基于所著文獻的總得分,作為每位相關(guān)作者的初始得分;(5)根據(jù)(2)所得文獻集,計算作者之間的相關(guān)度權(quán)值;(6)把作者的初始得分進行傳播提升,經(jīng)過多輪迭代,得到每位相關(guān)專家的總得分;(7)按得分高低把專家姓名排序輸出。

        1.1.1 基于文獻的作者初始得分算法

        文獻得分依據(jù)兩方面:一是依據(jù)文獻與搜索領(lǐng)域的相關(guān)度;二是依據(jù)文獻在該領(lǐng)域的學術(shù)價值。相關(guān)度和學術(shù)價值越高,得分越高,反之則越低。利用向量空間模型(VSM)稍加改變,進行相關(guān)度的計算;用文獻所在期刊的復合影響因子衡量其學術(shù)價值。

        根據(jù)文獻[4],文檔di可表示為(wi,1,wi,2,…,wi,m),其中wi,1,wi,2,…,wi,m分別代表文檔di特征項t1,t2,…,t3的特征項權(quán)重。類似地,查詢也可以在同一空間里表示為一個查詢向量。用夾角θ的余弦來衡量二者相關(guān)程度的大小,即

        Sim(d,q)=cosθ=■ (1)

        將這個結(jié)果與設(shè)定的閾值比較,如果大于或等于閾值則視為相關(guān),小于該閾值的視為不相關(guān)。

        語詞加權(quán)方案為wi,j=f'i,j*log(N/nj) (2)

        nj表示含有標引詞kj的文檔數(shù)目;f i,j表示語詞kj結(jié)合其位置變形后的加權(quán)標準化頻率。

        f'i,j=■ (3)

        分子表示語詞kj在文檔di中的加權(quán)頻率;r1,r2,r3,r4分別表示題目、摘要、關(guān)鍵詞、正文中的語詞權(quán)重;freq'i,j,freq\"i,j,freq\"'i,j,freq\"\"i,j分別表示語詞在題目、摘要、關(guān)鍵詞、正文中的初始頻率;freq'i,l表示語詞kl在文檔di中的加權(quán)頻率,最大值是通過計算文檔di中出現(xiàn)的所有語詞來獲得的。

        對查詢詞的權(quán)值,在Salton和Buckley提出可以采用如下方法,即

        wq,j=(0.5+0.5■)*log(N/nj) (4)

        至此,可得出文檔di的相關(guān)度得分。把相關(guān)度小于閾值的文檔剔除。

        Pi=β*Sim(di,q)+(1-β)*Vali (5)

        Pi表示文獻di的總得分;Vali表示文檔di的學術(shù)價值,即期刊影響因子;β∈(0,1)。至此已得文獻di的綜合得分。把文獻得分分配到作者,即

        De,i=Pi/m (6)

        De,i表示文檔di帶給作者e的得分;m表示文獻di的作者人數(shù)。

        De=∑t i=1De,i (7)

        De表示專家e在當前查詢下基于所著文獻的得分總值,為該專家的初始得分;t表示專家e在該學科領(lǐng)域共參與合作的論文篇數(shù)。

        1.1.2 基于相關(guān)性傳播的模型初始得分傳播提升算法

        按照文檔-專家關(guān)系數(shù)據(jù)計算專家之間的相關(guān)度權(quán)值vi,j(表示專家i到專家j的相關(guān)度權(quán)值),該權(quán)值不具有對稱性,即vi,j≠vj,i。

        表1 文檔-專家關(guān)系表

        該模型基于以下假設(shè):(1)如果一對專家在不同文檔中合作的次數(shù)越多,則其相關(guān)度權(quán)值越大;(2)一篇文檔的合作者越多,則兩位專家之間的相關(guān)度權(quán)值越小。

        基于以上假設(shè),如果專家i、j都在文檔dk中,則i、j基于文檔dk的逆向頻率為

        gi,j,k=1/(f(dk)-1) (8)

        f(dk)表示文檔dk的專家數(shù)量。

        對于文檔集D,專家i和j在所有文檔中的逆向頻率為ci,j=∑m k=1gi,j,k,歸一化后有vi,j=ci,j/∑n k=1ci,k

        m表示專家i、j合著的文獻總量,n表示在相相似度大于閾值的文獻中與專家i有合作關(guān)系的專家總量。

        專家e的最終得分為:

        (9)

        (9)式是一個迭代的過程,經(jīng)多輪迭代后,S■■收斂,最終可得到專家的排序得分。其中S■■是指專家e的總得分,vi,j指專家i到專家j的相關(guān)度權(quán)值;D■■表示專家e的初始得分; 表示專家e經(jīng)多輪迭代

        后得到的提升分值,表征專家在查詢領(lǐng)域的權(quán)威性,n表示該領(lǐng)域與專家e有合作關(guān)系的專家數(shù)量,ve,j表示專家e到專家j的相關(guān)度權(quán)值;α是衰減系數(shù),且α∈(0,1)。

        至此得到相關(guān)專家在當前查詢下各自得分總值,按分數(shù)由高到低排序輸出記得到專家列表。

        1.2 專家姓名檢索的合作網(wǎng)絡(luò)專家檢索算法

        合作網(wǎng)絡(luò)以專家為節(jié)點,以節(jié)點之間連線的長度表示合作關(guān)系的強度,且連線長度與關(guān)系強度成負相關(guān)。此算法按涉及的學科范圍分為兩種:一種是包含全部學科,即某位專家和在其所有論文中與之有合作關(guān)系的所有其他專家構(gòu)成的合作網(wǎng)絡(luò),稱為非限定領(lǐng)域合作網(wǎng)絡(luò);另一種是在用戶指定查詢領(lǐng)域,即某位專家和在其發(fā)表的與該領(lǐng)域相關(guān)的論文中與之有合作關(guān)系的所有其他專家構(gòu)成的合作網(wǎng)絡(luò),稱為限定領(lǐng)域合作網(wǎng)絡(luò)。

        1.2.1 非限定領(lǐng)域合作網(wǎng)絡(luò)的算法

        基本思路:(1)為文獻建立著者倒排文檔(通常在系統(tǒng)建立后已經(jīng)完成);(2)根據(jù)被查詢著者(記為e)找到其所有文獻的記錄存取號,記為集合A;(3)對專家-論文表中的記錄一一掃描,對包含集合A中文獻的記錄,計算出其對應(yīng)著者(非e)與著者e之間基于該文獻的合作強度;(4)根據(jù)著者是否相同把合作強度進行合并,根據(jù)合作強度的大小返回合作網(wǎng)絡(luò)。

        合作強度計算方法如下,基于一篇文獻兩位專家之間的合作強度[5]

        si=y/C2 n (10)

        si表示兩位專家關(guān)于文獻di的合作強度;n表示文獻di的合作專家總?cè)藬?shù);y表示文章所在期刊的影響因子(取期刊的復合影響因子)。

        S=∑M i=1si (11)

        S表示兩位專家的非限定領(lǐng)域合作強度;M表示兩位專家合作的論文總量。

        1.2.2 限定領(lǐng)域合作網(wǎng)絡(luò)的算法

        基本思路:(1)為文獻建立著者倒排文檔;(2)根據(jù)被查詢著者(e)找到其所有文獻的記錄存取號,記為集合A;(3)計算集合A中的文獻與查詢領(lǐng)域的相似度,保留相似度大于閾值的文獻,記為集合B;(4)對專家-論文表中的記錄一一掃描,對包含集合A中文獻的記錄,計算出其對應(yīng)著者(非e)與著者e之間基于該文獻的合作強度;(5)根據(jù)著者是否相同把合作強度進行合并,根據(jù)合作強度的大小返回合作網(wǎng)絡(luò)。其文獻與查詢的相似度和專家之間基于每篇論文的合作強度計算方法同上。

        2 結(jié)束語

        一個方便高效的學科專家導航系統(tǒng)對專家的科研活動有很大的幫助作用。文章對該系統(tǒng)的專家檢索算法進行了詳細設(shè)計。主要包括:聯(lián)系關(guān)鍵詞在文獻中的位置加權(quán),運用向量空間模型和相關(guān)性傳播模型設(shè)計了某一檢索領(lǐng)域的專家排名算法;在非限定領(lǐng)域和限定領(lǐng)域檢索中的專家合作強度算法。

        相比較專家?guī)於裕粩喔碌木W(wǎng)絡(luò)信息中藏有更多的專家數(shù)據(jù)。相信隨著大數(shù)據(jù)處理技術(shù)研究進展,專家系統(tǒng)將會實現(xiàn)網(wǎng)絡(luò)中相關(guān)信息的有效抓取、處理和利用,快速地為用戶提供更豐富的有用信息。

        參考文獻

        [1]魏海政.山東審計顯示部分高??蒲许椖窟M展遲緩結(jié)題率低[N].中國教育報,2012-7-31.

        [2]嚴俊哲.項目評審專家?guī)斓慕ㄔO(shè)及專家管理研究[D].武漢:武漢理工大學,2013.

        [3]鄭義平,王勇,等.基于查詢詞相關(guān)性傳播的專家檢索方法[J].計算機工設(shè)計,2014,35(6):2165-2169.

        [4]王知津.信息存儲與檢索[M].北京:機械工業(yè)出版社,2009:31+33.

        [5]王志亮.社會網(wǎng)絡(luò)分析方法在科研協(xié)作網(wǎng)中的應(yīng)用研究[D].大連理工大學,2005.

        作者簡介:卜玉敏(1993,7-),女,籍貫:河北省定州市,本科學歷,研究方向:信息管理與信息系統(tǒng)。

        国产精品欧美亚洲韩国日本| 国产产区一二三产区区别在线| 国产麻豆精品久久一二三| 亚洲综合色秘密影院秘密影院| 看全色黄大黄大色免费久久| 一区二区在线视频免费蜜桃| 成人免费a级毛片| a一区二区三区乱码在线 | 欧洲| 中文字幕人妻系列一区尤物视频| 亚洲精品中文字幕乱码 | 亚洲乱亚洲乱妇无码麻豆| 四虎影视永久在线精品| 色窝综合网| 亚洲精品第四页中文字幕| 国产乡下三级全黄三级| 亚洲AV无码一区二区三区人| 精品亚洲一区二区视频| 视频在线观看免费一区二区| 免费a级毛片无码| 久久久久国产一级毛片高清版A| 久久五月精品中文字幕| 天天躁夜夜躁狠狠躁婷婷| 午夜亚洲www湿好爽| 日韩精品永久免费播放平台| 极品夫妻一区二区三区| 无码人妻丰满熟妇区五十路| 日韩在线无| 女同性恋一区二区三区四区| 亚洲精品在线国产精品| 成全高清在线播放电视剧| 音影先锋色天堂av电影妓女久久| 国产夫妻自偷自拍第一页| 久久久久亚洲av综合波多野结衣| 色欲aⅴ亚洲情无码av蜜桃| 国产一区二区精品网站看黄| 粉嫩av最新在线高清观看| 国产 字幕 制服 中文 在线| 妞干网中文字幕| 日韩一本之道一区中文字幕| 无码人妻精品一区二区蜜桃网站| 99久久免费国产精品2017|