亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        潛在科研合作機(jī)會識別方法研究進(jìn)展

        2023-06-23 10:11:16張雪張志強(qiáng)
        圖書與情報 2023年2期
        關(guān)鍵詞:研究內(nèi)容機(jī)器學(xué)習(xí)

        張雪 張志強(qiáng)

        摘? ?要:文章梳理了國內(nèi)外潛在科研合作機(jī)會識別相關(guān)成果,歸納總結(jié)現(xiàn)有識別方法及存在的問題,為學(xué)科領(lǐng)域進(jìn)行前瞻性合作推薦提供參考借鑒。首先對潛在科研合作機(jī)會識別的必要性進(jìn)行歸納總結(jié),其次對相關(guān)概念及研究主體類型進(jìn)行界定,再次在調(diào)研國內(nèi)外相關(guān)研究基礎(chǔ)上對潛在科研合作機(jī)會識別方法進(jìn)行歸納整理,最后指出現(xiàn)有研究不足并對未來發(fā)展提出展望。研究發(fā)現(xiàn):就研究主體類型而言,根據(jù)研究目的、研究層次的不同,將研究主體劃分為微觀、中觀、宏觀三個維度。就識別方法而言,外部屬性信息是潛在科研合作機(jī)會識別方法中最直接、最通俗易懂的方法;鏈路預(yù)測是使用最多、應(yīng)用最為成熟的方法;比較而言,網(wǎng)絡(luò)學(xué)習(xí)和機(jī)器學(xué)習(xí)是潛在科研合作機(jī)會識別的新方向和新思路。在以上分析基礎(chǔ)上,總結(jié)了不同方法的不足以及存在的普適性問題,并對未來研究重點(diǎn)進(jìn)行展望。

        關(guān)鍵詞:潛在合作機(jī)會;外部屬性特征;研究內(nèi)容;鏈路預(yù)測;網(wǎng)絡(luò)表示學(xué)習(xí);機(jī)器學(xué)習(xí)

        中圖分類號:G304? ?文獻(xiàn)標(biāo)識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023022

        Abstract This Paper sorting out the relevant achievements in the identification of potential cooperation opportunities, this paper summarizes the existing identification methods and problems, providing reference for forward-looking cooperation recommendations in the discipline field. Firstly, this paper summarizes the necessity of identifying potential cooperation opportunities. Secondly, it defines the relevant concepts and entity object types. Thirdly, it summarizes the identification methods of potential cooperation opportunities. Finally, it points out the existing research deficiencies and puts forward prospects for future development. As for the types of entity objects, according to the different research purposes and research levels, entity objects are divided into three dimensions: microscopic, mesoscopic and macroscopic. As for the identification methods, external attribute information is the most direct and easy method in the identification of potential cooperation opportunities; link prediction is the most widely used and most mature method; in comparison, network representation learning and machine learning are new directions and new ideas for identifying potential cooperation opportunities. Based on the above analysis, the deficiencies and universal problems of different types of potential cooperation opportunities identification methods are summarized, and the future research priorities are prospected.

        Key words potential cooperation opportunities; external attribute information; research topic; link prediction; network representation learning; machine learning

        發(fā)現(xiàn)和把握科研合作機(jī)會是促進(jìn)和開展科研合作的基礎(chǔ)。隨著解決復(fù)雜性和挑戰(zhàn)性不斷提高的綜合性、高難度科研任務(wù)或科技問題的需求持續(xù)增加,跨國家(地區(qū))、跨機(jī)構(gòu)、跨學(xué)科等多種形式的合作研究成為科學(xué)研究和科技發(fā)展的重要途徑。為此,從浩瀚資源中快速定位并識別潛在科研合作機(jī)會的理論方法研究,就成為了一個前沿性和戰(zhàn)略性研究課題。

        發(fā)現(xiàn)和把握潛在合作機(jī)會需要發(fā)展和完善(定性和定量相結(jié)合的)識別方法。本研究主要關(guān)注如何識別不同研究主體間的潛在合作機(jī)會,即從方法論的角度出發(fā)探討采用何種方法、手段從研究主體已有的合作模式中進(jìn)一步挖掘未合作對象間的潛在合作機(jī)會。目前學(xué)者在該方面已有一些初步探索,其中定性研究方面,領(lǐng)域?qū)<彝ǔ⑴c不同對象間潛在合作機(jī)會的預(yù)判。但隨著數(shù)據(jù)密集型科研范式的到來,技術(shù)領(lǐng)域高度分散,通過人工精準(zhǔn)追蹤學(xué)科領(lǐng)域合作機(jī)會的關(guān)聯(lián)與傳遞,這一傳統(tǒng)知識發(fā)現(xiàn)模式的可靠性、及時性逐漸降低。定量研究方面,現(xiàn)有研究大多考察了已存在關(guān)聯(lián)關(guān)系的合作對象間網(wǎng)絡(luò)結(jié)構(gòu)演變趨勢。對于科技政策制定者或企業(yè)來說,雖然衡量過去某個時間段內(nèi)研究主體間已有合作模式十分重要,但無法提前為潛在合作帶來的新挑戰(zhàn)做好準(zhǔn)備,也無法提前預(yù)判未來科學(xué)技術(shù)變革將在哪些國家、機(jī)構(gòu)、學(xué)科間發(fā)生,比較而言,挖掘研究主體間潛在合作機(jī)會的模式更為關(guān)鍵。整體來看:首先,現(xiàn)有潛在合作機(jī)會識別研究多以定性分析為主,定量研究大多分析了目前已產(chǎn)生合作關(guān)系的對象間網(wǎng)絡(luò)結(jié)構(gòu)演化趨勢,對尚未產(chǎn)生關(guān)聯(lián)的對象間潛在合作模式的提前識別研究相對較少;其次,對于潛在合作機(jī)會識別中所涉及的概念內(nèi)涵、研究方法等的梳理尚存在清晰性、系統(tǒng)性不足等問題。

        基于此,本研究首先對潛在合作機(jī)會識別的概念進(jìn)行界定,進(jìn)一步從宏觀、中觀、微觀三個維度對研究主體類型進(jìn)行歸納,以便明晰合作機(jī)會識別的服務(wù)主體;其次對已有潛在合作機(jī)會識別方法進(jìn)行梳理和總結(jié),以期全面揭示潛在合作機(jī)會識別的方法體系,為科研人員根據(jù)研究對象、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征等從不同層面切入尋找精度最優(yōu)模型提供參考借鑒。

        1? ?潛在科研合作機(jī)會識別概念及研究主體

        潛在合作機(jī)會識別以研究主體合作網(wǎng)絡(luò)為基礎(chǔ),節(jié)點(diǎn)為不同研究主體,連邊為主體間合作關(guān)系,其是在學(xué)習(xí)大量歷史資源網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)或網(wǎng)絡(luò)屬性特征的基礎(chǔ)上挖掘研究主體間可能產(chǎn)生新連邊的可能性,進(jìn)而識別主體間的潛在合作機(jī)會。

        根據(jù)研究目的、研究層次的不同,研究主體可進(jìn)一步劃分為基于微觀層面的科研人員或關(guān)鍵詞合作機(jī)會識別、基于中觀層面的機(jī)構(gòu)或?qū)W科領(lǐng)域合作機(jī)會識別、基于宏觀層面的國家或地區(qū)合作機(jī)會識別(各研究主體間關(guān)聯(lián)關(guān)系見圖1),具體分析如下:

        (1)微觀層面的分析。這方面的研究一方面?zhèn)戎赜跒檠芯咳藛T選擇潛在合作對象。如張金柱和韓濤選用12個共同鄰居及其改進(jìn)指標(biāo)分析圖書情報領(lǐng)域潛在合作關(guān)系[1];丁敬達(dá)和郭杰綜合運(yùn)用作者研究內(nèi)容相似度和合作網(wǎng)絡(luò)結(jié)構(gòu)相似性分析我國生物醫(yī)學(xué)領(lǐng)域潛在合作關(guān)系[2];另一方面?zhèn)戎赜趶年P(guān)鍵詞共現(xiàn)角度剖析未來可能產(chǎn)生聯(lián)系的關(guān)鍵詞,進(jìn)而挖掘潛在主題。如黃璐等運(yùn)用鏈路預(yù)測指標(biāo)識別鈣鈦礦材料領(lǐng)域技術(shù)術(shù)語加權(quán)共現(xiàn)網(wǎng)絡(luò)中的潛在共現(xiàn)關(guān)鍵詞,以期得到未來新興技術(shù)主題[3];Duan和Guan以太陽能領(lǐng)域論文文獻(xiàn)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)為基礎(chǔ),綜合運(yùn)用鏈路預(yù)測、關(guān)鍵詞中介中心性等指標(biāo)分析關(guān)鍵詞潛在融合模式,以期得到未來需關(guān)注的主題[4]。微觀層面分析中,科研人員潛在合作機(jī)會發(fā)現(xiàn)研究已較為成熟,而關(guān)鍵詞間的預(yù)測分析還處于初級階段,與同詞異義、異詞同義等問題有關(guān)。

        (2)中觀層面的分析。相關(guān)研究一方面?zhèn)戎赜诜治霾煌芯繖C(jī)構(gòu)間潛在合作趨勢。如余傳明等基于特征融合的鏈路預(yù)測方法對金融領(lǐng)域機(jī)構(gòu)、區(qū)域間潛在合作機(jī)會進(jìn)行識別[4];李魯瑩綜合考慮高校的合作機(jī)構(gòu)、學(xué)科分布、研究興趣等屬性,挖掘卓越大學(xué)聯(lián)盟與國內(nèi)外高校潛在合作機(jī)會[6]。另一方面?zhèn)戎赜诜治霾煌瑢W(xué)科潛在交叉融合趨勢,根據(jù)選用數(shù)據(jù)源的不同,又可將其分為:其一,基于論文文獻(xiàn)的潛在學(xué)科合作機(jī)會識別。如岳增慧等以學(xué)科引證知識擴(kuò)散時序演化網(wǎng)絡(luò)結(jié)構(gòu)信息為基礎(chǔ),采用無權(quán)及加權(quán)鏈路預(yù)測指標(biāo)分析社會網(wǎng)絡(luò)領(lǐng)域潛在學(xué)科合作關(guān)系[7]。其二,基于專利文獻(xiàn)的潛在學(xué)科合作機(jī)會識別。如Cho等以化學(xué)工程領(lǐng)域?qū)@鸌PC分類號共線網(wǎng)絡(luò)為基礎(chǔ),采用隨機(jī)森林模型預(yù)測潛在學(xué)科合作關(guān)系[8];Kwon等結(jié)合專利IPC分類號共線網(wǎng)絡(luò)、網(wǎng)絡(luò)中心性指標(biāo)等分析潛在學(xué)科合作關(guān)系[9];唐影基于圖神經(jīng)網(wǎng)絡(luò)的鏈路預(yù)測模型預(yù)測3D打印技術(shù)的潛在學(xué)科合作關(guān)系[10]。因Web of Science、Scopus等主流數(shù)據(jù)庫目前均并沒有對單篇文獻(xiàn)進(jìn)行學(xué)科歸類,一般通過文獻(xiàn)所屬期刊學(xué)科類別間接表征文獻(xiàn)學(xué)科分類,但一篇文獻(xiàn)對應(yīng)一個期刊,一個期刊一般歸至1-2個學(xué)科類別,數(shù)據(jù)體量過少,故基于論文文獻(xiàn)的學(xué)科共現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)不適用于鏈路預(yù)測等潛在合作機(jī)會識別方法。與論文文獻(xiàn)相比,每個專利自帶多個IPC分類號,有效克服了論文文獻(xiàn)的局限性,因此目前以專利文獻(xiàn)為數(shù)據(jù)源分析潛在技術(shù)合作機(jī)會研究相對較多。

        (3)宏觀層面的分析。與中觀、微觀層面分析相比,國家這一對象間潛在合作機(jī)會識別研究相對較少,主要研究包括Guan等以國家間原油貿(mào)易網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)為基礎(chǔ),以每個國家對共同貿(mào)易伙伴數(shù)量為潛在合作動機(jī),探索國家間潛在貿(mào)易合作伙伴關(guān)系[11];Guns和Rousseau結(jié)合鏈路預(yù)測和機(jī)器學(xué)習(xí)方法挖掘非洲、中東和南亞城市在瘧疾和結(jié)核病領(lǐng)域潛在合作關(guān)系[12]。這方面研究較少的原因是與基于科研人員合作關(guān)系網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相比,同樣的數(shù)據(jù)集中,捕捉到的國家或地區(qū)節(jié)點(diǎn)數(shù)量會大量減少,而已有合作機(jī)會識別方法主要是學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)間關(guān)聯(lián)關(guān)系,因而節(jié)點(diǎn)數(shù)量是算法表現(xiàn)優(yōu)劣的基礎(chǔ)。

        (4)多層面綜合分析??蒲腥藛T層面的挖掘有助于發(fā)現(xiàn)具有相同研究主題的學(xué)者,揭示影響合作的因素如師承關(guān)系等;機(jī)構(gòu)層面的挖掘有助于發(fā)現(xiàn)對相關(guān)主題共同感興趣或合作密切的科研團(tuán)體,揭示地理位置等因素是否對合作關(guān)系產(chǎn)生影響;國家層面的挖掘則更多聚焦宏觀層面,有助于發(fā)現(xiàn)國際間潛在合作趨勢,揭示國家發(fā)展戰(zhàn)略規(guī)劃、經(jīng)濟(jì)發(fā)展差異等因素對合作的影響。這些研究層次并不是彼此孤立,而是互相關(guān)聯(lián),若將以上不同層面的研究主體綜合分析,則能挖掘出更加豐富的信息。目前學(xué)者在該方面研究有一些初步探索,如林原等融合科研人員、機(jī)構(gòu)、關(guān)鍵詞3個層面的異質(zhì)信息構(gòu)建科研合作網(wǎng)絡(luò),采用網(wǎng)絡(luò)表示學(xué)習(xí)模型將網(wǎng)絡(luò)中每個節(jié)點(diǎn)表示為低維向量,通過余弦相似度計算向量相似度進(jìn)而為作者推薦潛在合作者、合作機(jī)構(gòu)、研究主題等[13]。不過融合多種異質(zhì)信息的研究較少,更多研究在一模網(wǎng)絡(luò)基礎(chǔ)上探究二模合作關(guān)系,如分析潛在合作作者及其合作主題、潛在合作機(jī)構(gòu)及其合作者等,該方面研究仍是未來研究方向和重點(diǎn)。

        2? ?潛在科研合作機(jī)會識別方法研究

        研究主體蘊(yùn)含豐富的信息,對象間的路徑長度也一定程度上反映了節(jié)點(diǎn)間的緊密關(guān)系,基于這些信息,學(xué)者從不同的分析角度探索性地提出一些分析方法,并在實(shí)踐中得到一定的驗證。根據(jù)分析方法所基于的研究主體信息不同,本研究將其分為外部屬性、研究內(nèi)容、鏈路預(yù)測、網(wǎng)絡(luò)表示學(xué)習(xí)、機(jī)器學(xué)習(xí)共五種方法類型,其中外部屬性信息是研究主體最基本的信息,也是合作機(jī)會識別方法中最直接、最通俗易懂的方法;鏈路預(yù)測是使用最多、應(yīng)用最為成熟的方法;網(wǎng)絡(luò)表示學(xué)習(xí)和機(jī)器學(xué)習(xí)是合作機(jī)會識別的新方向和新思路。

        2.1? ? 基于外部屬性特征的合作機(jī)會識別方法

        該方法主要基于節(jié)點(diǎn)的外部屬性特征來刻畫節(jié)點(diǎn)間相似性。若節(jié)點(diǎn)為作者,則其外部屬性特征包括年齡、性別、職業(yè)、愛好、所屬機(jī)構(gòu)、研究興趣等;若節(jié)點(diǎn)為機(jī)構(gòu),則其外部屬性特征包括機(jī)構(gòu)的類型、地理位置、排名、研究主題等;若節(jié)點(diǎn)為具體學(xué)科領(lǐng)域,則其外部屬性特征包括學(xué)科的研究主題、主要發(fā)文機(jī)構(gòu)、主要發(fā)文作者等。基于外部屬性特征的合作機(jī)會識別研究一般基于以上信息構(gòu)建節(jié)點(diǎn)向量,然后通過計算向量間余弦相似度分析節(jié)點(diǎn)對在合作選擇偏好方面的相似程度。運(yùn)用節(jié)點(diǎn)屬性特征等外部信息可提高預(yù)測結(jié)果,但這些信息獲取困難,如用戶信息涉及隱私問題,因此現(xiàn)有研究很少單獨(dú)使用節(jié)點(diǎn)外部屬性特征進(jìn)行合作機(jī)會識別,一般將其與鏈路預(yù)測、機(jī)器學(xué)習(xí)等方法聯(lián)合使用。如Liben-Nowell和Kleinberg將論文標(biāo)題、作者機(jī)構(gòu)、地理位置信息等外部屬性特征加入作者合作網(wǎng)絡(luò)中對潛在合作機(jī)會識別結(jié)果進(jìn)行微調(diào)[14];Ahmed和Elkorany以社交網(wǎng)絡(luò)Twitter為研究對象,首先抽取出不同類型用戶的屬性信息和多種網(wǎng)絡(luò)結(jié)構(gòu)特征,基于此對用戶間聯(lián)系強(qiáng)度關(guān)系建模,結(jié)果表明結(jié)合用戶屬性相似度可有效提高鏈路預(yù)測效果[15];Abu-Salih等以Twitter用戶外部屬性特征為研究對象,結(jié)合機(jī)器學(xué)習(xí)方法識別用戶潛在感興趣的研究領(lǐng)域[16];汪志兵等融合作者合作網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息和作者機(jī)構(gòu)屬性特征構(gòu)建潛在合作機(jī)會識別模型[17];林原等以“高校—共有機(jī)構(gòu)合作網(wǎng)絡(luò)”和“機(jī)構(gòu)—發(fā)文主題網(wǎng)絡(luò)”為數(shù)據(jù)基礎(chǔ),構(gòu)建綜合考量路徑相似性和研究主題相似性的加和指標(biāo)體系,以識別卓越大學(xué)聯(lián)盟與國內(nèi)外高校潛在合作機(jī)會[18]。

        該方法與鏈路預(yù)測等方法結(jié)合使用可有效提高算法精確度,但外部屬性信息的真實(shí)性、可靠性常難以保證。更進(jìn)一步,假若能獲得并保證節(jié)點(diǎn)信息準(zhǔn)確度較高,但如何鑒別哪些信息對鏈路預(yù)測有用,有多大用處,是需要進(jìn)一步探索的問題。

        2.2? ? 基于研究內(nèi)容相似度的合作機(jī)會識別方法

        Morris和Yen指出,通過共同的詞語聯(lián)系到一起的文獻(xiàn)可能表示共同的研究主題,同理,作者關(guān)鍵詞表征作者研究主題,通過挖掘作者關(guān)鍵詞耦合強(qiáng)度可測度作者研究主題相似度,從而挖掘潛在合作關(guān)系[19]。具體分析步驟為:首先,建立“作者—關(guān)鍵詞”二模矩陣,采用TF-IDF等方法計算關(guān)鍵詞權(quán)重;其次,根據(jù)“作者—關(guān)鍵詞”矩陣,通過作者間共有關(guān)鍵詞耦合強(qiáng)度構(gòu)建作者相似度矩陣;最后,將作者對相似度值降序排列,過濾已產(chǎn)生合作關(guān)系的作者對,剩余即為潛在作者合作關(guān)系。若將上述過程中作者替換為機(jī)構(gòu)、國家、學(xué)科等主體,則可挖掘出潛在合作機(jī)構(gòu)、合作國家等;若將關(guān)鍵詞耦合強(qiáng)度關(guān)系替換為作者發(fā)文同被引或文獻(xiàn)耦合關(guān)系,則可從引文角度挖掘潛在合作關(guān)系。已有研究包括劉志輝和張志強(qiáng)對比分析作者關(guān)鍵詞耦合網(wǎng)絡(luò)與作者同被引網(wǎng)絡(luò),結(jié)果表明作者關(guān)鍵詞耦合網(wǎng)絡(luò)能揭示作者之間的隱含關(guān)系[20];陳衛(wèi)靜和鄭穎基于作者關(guān)鍵詞耦合分析法挖掘作者之間潛在合作關(guān)系[21];宋艷輝和武夷山對比分析作者文獻(xiàn)耦合網(wǎng)絡(luò)和作者關(guān)鍵詞耦合網(wǎng)絡(luò)在揭示學(xué)科領(lǐng)域知識結(jié)構(gòu)方面的異同,結(jié)果表明二者不可互相替代,結(jié)合分析是探尋學(xué)科知識結(jié)構(gòu)的理想方法[22]。

        該方法自提出以來推廣應(yīng)用程度并不高,究其原因:一方面只是從內(nèi)容角度揭示了作者間合作的可能性,而關(guān)鍵詞存在很高的主觀性,兩個不同的詞可能蘊(yùn)含相同詞意,相同的詞在不同文章中可能表達(dá)不同研究內(nèi)容;另一方面主要依靠人工定性判讀識別結(jié)果是否可靠,并沒有數(shù)據(jù)支撐識別結(jié)果與真實(shí)合作關(guān)系之間的差異。因此該方面的研究主要與鏈路預(yù)測、機(jī)器學(xué)習(xí)等方法結(jié)合使用。

        2.3? ? 基于鏈路預(yù)測的合作機(jī)會識別方法

        鏈路預(yù)測基于馬爾可夫鏈和機(jī)器學(xué)習(xí),其主要通過對大量網(wǎng)絡(luò)節(jié)點(diǎn)屬性特征和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息的學(xué)習(xí)來預(yù)測尚未產(chǎn)生連接的兩節(jié)點(diǎn)間產(chǎn)生連邊的可能性。這種預(yù)測既包含實(shí)際網(wǎng)絡(luò)中未出現(xiàn)但未來很有可能產(chǎn)生的連接關(guān)系,也涵蓋實(shí)際網(wǎng)絡(luò)中已存在但尚未被觀測到的未知連接。因其易理解、易實(shí)施、可量化評估等優(yōu)點(diǎn)是目前合作機(jī)會識別中使用最多的方法,最新出現(xiàn)的網(wǎng)絡(luò)表示學(xué)習(xí)、機(jī)器學(xué)習(xí)等方法也大多在其基礎(chǔ)上優(yōu)化改進(jìn),故研究著重對該方法的詳細(xì)分析流程進(jìn)行介紹。

        第一步:根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)確定預(yù)測指標(biāo)。

        Liben-Nowell和Kleinberg最早基于網(wǎng)絡(luò)結(jié)構(gòu)特征引入鏈路預(yù)測指標(biāo)[14],隨后呂琳媛將鏈路預(yù)測的相關(guān)研究方法引入國內(nèi)[23]。有研究表明,目前共有30余種不同鏈路預(yù)測指標(biāo)[24],根據(jù)各指標(biāo)內(nèi)涵的不同,可將其分為基于網(wǎng)絡(luò)結(jié)構(gòu)相似性的鏈路預(yù)測指標(biāo)及基于似然分析的鏈路預(yù)測指標(biāo)。其中基于結(jié)構(gòu)相似性的鏈路預(yù)測指標(biāo)計算復(fù)雜度低,適用于大規(guī)模網(wǎng)絡(luò),進(jìn)一步地,根據(jù)各指標(biāo)依附的網(wǎng)絡(luò)結(jié)構(gòu)信息的不同,又可將其分為基于節(jié)點(diǎn)信息、基于路徑信息、基于隨機(jī)游走三種類型,梳理歸納每種鏈路預(yù)測類型對應(yīng)的指標(biāo)及計算方法,具體如下:

        (1)基于節(jié)點(diǎn)信息的相似性指標(biāo)?;诠?jié)點(diǎn)相似性的鏈路預(yù)測指標(biāo)構(gòu)建原則為兩個節(jié)點(diǎn)間的相似性程度越高,則它們之間產(chǎn)生連接的可能性越大。其中計算最簡單、使用頻率最高的經(jīng)典指標(biāo)為共同鄰居指標(biāo)(Common Neighbor,CN),它指兩個節(jié)點(diǎn)的共同鄰居節(jié)點(diǎn)數(shù)目,若節(jié)點(diǎn)x和節(jié)點(diǎn)y未連接,但其共同鄰居節(jié)點(diǎn)數(shù)目越多,則兩節(jié)點(diǎn)間的相關(guān)性越高[25]。為了進(jìn)一步增強(qiáng)指標(biāo)的魯棒性,學(xué)者們基于CN指標(biāo)進(jìn)行了許多探索工作,改進(jìn)指標(biāo)可分為兩類:一類是在共同鄰居節(jié)點(diǎn)基礎(chǔ)上納入考量未連接的兩節(jié)點(diǎn)度的影響,改進(jìn)指標(biāo)包括Salton指標(biāo)[26]、Jaccard指標(biāo)[27]、Srensen指標(biāo)[28]、HPI指標(biāo)[29]、HDI指標(biāo)[30]、LHI-I指標(biāo)[31]等;另一類是在共同鄰居節(jié)點(diǎn)基礎(chǔ)上納入考量共同鄰居節(jié)點(diǎn)度的影響,改進(jìn)指標(biāo)包括AA指標(biāo)[32]、RA指標(biāo)[30]、PA指標(biāo)[33]等。此外,一些學(xué)者認(rèn)為,處于中心位置的節(jié)點(diǎn)可能具有更強(qiáng)的信息傳播能力,故利用節(jié)點(diǎn)聚類系數(shù)、中介中心度、特征向量中心度等信息對經(jīng)典指標(biāo)進(jìn)行改進(jìn)[34-36](各指標(biāo)的計算方法及含義見表1)。此類指標(biāo)在簡單高效基礎(chǔ)上充分運(yùn)用網(wǎng)絡(luò)中節(jié)點(diǎn)信息,網(wǎng)絡(luò)適用范圍廣,預(yù)測精度較高,是目前使用最為廣泛的一類指標(biāo)。

        (2)基于路徑信息的相似性指標(biāo)。CN類指標(biāo)計算復(fù)雜度低,但使用信息有限,因而預(yù)測精度受到限制?;诖?,學(xué)者嘗試?yán)霉?jié)點(diǎn)間路徑信息,從另一角度切入提出一系列相似性指標(biāo)?;诼窂较嗨菩缘逆溌奉A(yù)測算法從整體網(wǎng)絡(luò)出發(fā),其構(gòu)建原則為考慮所有長度路徑的影響,若兩節(jié)點(diǎn)間最短路徑長度越短,只需經(jīng)過較少節(jié)點(diǎn)就能相互訪問,說明節(jié)點(diǎn)間關(guān)系相對密切[36]。經(jīng)典指標(biāo)具體如下:局部路徑指標(biāo)(Local Path,LP)在共同鄰居的基礎(chǔ)上考慮三階路徑的因素[37];Katz指標(biāo)則在LP指標(biāo)基礎(chǔ)上考慮網(wǎng)絡(luò)中所有路徑對節(jié)點(diǎn)、對相似性貢獻(xiàn)程度[38];LHI-II指標(biāo)基于一般等價原理[31](各指標(biāo)的計算方法及含義見表2)。該類指標(biāo)以完整的或近似完整的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息為基礎(chǔ),雖準(zhǔn)確率有普遍提升,但計算復(fù)雜度過高,計算耗時,不適合應(yīng)用于大規(guī)模數(shù)據(jù)集;且往往無法獲得完整的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息。

        (3)基于隨機(jī)游走的相似性指標(biāo)。隨機(jī)游走用來表示任何不規(guī)則運(yùn)動而形成的軌跡[39],基于隨機(jī)游走的相似性指標(biāo)根據(jù)隨機(jī)游走模型定義,得到一系列節(jié)點(diǎn)對間的概率值,進(jìn)而將其作為不相鄰節(jié)點(diǎn)對的相似性得分,得分值越高,則兩節(jié)點(diǎn)間產(chǎn)生連邊的可能性越大。經(jīng)典指標(biāo)具體如下:平均通勤時間(Average Commute Time,ACT)通過比較隨機(jī)游走粒子在節(jié)點(diǎn)對間來回游走的平均時間來衡量兩個節(jié)點(diǎn)間的相似性[40];基于隨機(jī)游走的余弦相似度(Cos+)在ACT指標(biāo)基礎(chǔ)上計算兩節(jié)點(diǎn)間余弦相似度[41];有重啟的隨機(jī)游走指標(biāo)(Random Walk with Restart,RWR)基于谷歌PageRank算法[42];SimRank指標(biāo)旨在刻畫從不相鄰節(jié)點(diǎn)出發(fā)的兩個粒子平均花費(fèi)多長時間相遇[43]。上述指標(biāo)基于全局網(wǎng)絡(luò)信息,計算復(fù)雜度高,難以推廣應(yīng)用。為了提高模型泛化能力,學(xué)者摒棄網(wǎng)絡(luò)中無用或用途不大的信息,提出基于局部網(wǎng)絡(luò)信息的指標(biāo),如Liu和lü提出只考慮有限步數(shù)的局部隨機(jī)游走指標(biāo)(Local Random Walk,LRW),接著在LRW指標(biāo)基礎(chǔ)上,將t步及其以前結(jié)果加總得到有疊加效應(yīng)的局部隨機(jī)游走指標(biāo)(Superposed Random Walk,SRW)[44](各指標(biāo)的計算方法及含義見表3)。該類指標(biāo)對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和演化機(jī)制依賴程度較高,若算法恰好能抓住網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征,則預(yù)測準(zhǔn)確率較高;但計算復(fù)雜度相較于路徑信息指標(biāo)更高,同樣不適用規(guī)模較大網(wǎng)絡(luò)。

        基于似然分析的鏈路預(yù)測方法通過計算網(wǎng)絡(luò)中未連接節(jié)點(diǎn)間存在鏈路的似然值或觀察一條鏈路的加入和移除對網(wǎng)絡(luò)自身似然的影響來判別該條連接是否存在。該方法新穎性強(qiáng),但算法復(fù)雜,晦澀難懂;另一方面應(yīng)用性不高,即使是精巧實(shí)現(xiàn)的算法,處理幾千個節(jié)點(diǎn)的網(wǎng)絡(luò)也會感到吃力。有研究表明,基于節(jié)點(diǎn)相似性的鏈路預(yù)測方法優(yōu)于該方法,同時顯示出強(qiáng)大的計算優(yōu)勢[45]。

        在真實(shí)網(wǎng)絡(luò)中,首先,有的節(jié)點(diǎn)對聯(lián)系緊密,有的則較為疏遠(yuǎn);其次,節(jié)點(diǎn)對間關(guān)系不是完全對等,如引用關(guān)系網(wǎng)絡(luò),存在施引文獻(xiàn)和參考文獻(xiàn)的區(qū)別;最后,網(wǎng)絡(luò)可能由不同類型節(jié)點(diǎn)組成,如機(jī)構(gòu)-關(guān)鍵詞、作者-主題等。因此基于無權(quán)無向同類型節(jié)點(diǎn),又衍生出加權(quán)網(wǎng)絡(luò)、有向網(wǎng)絡(luò)、二模異構(gòu)網(wǎng)絡(luò)或多種關(guān)系集成網(wǎng)絡(luò),具體的鏈路預(yù)測指標(biāo)是在上述指標(biāo)基礎(chǔ)上進(jìn)行推廣和改進(jìn),此處不再贅述。

        第二步:將已有數(shù)據(jù)集劃分為訓(xùn)練集和測試集。

        為了比較上述鏈路預(yù)測指標(biāo)效果優(yōu)劣,首先將已知連邊集合E劃分為訓(xùn)練集ET和測試集EP滿足條件E=ET∪EP且ET∩EP =■,同時將屬于U但不屬于E的邊稱為不存在的邊,屬于U但不屬于ET的邊稱為未知邊。劃分?jǐn)?shù)據(jù)集的方法包括隨機(jī)抽樣、滾雪球抽樣、k-折疊交叉檢驗等,劃分的不同方式代表了鏈路預(yù)測的兩種類型:靜態(tài)鏈路預(yù)測和動態(tài)鏈路預(yù)測。其中靜態(tài)鏈路預(yù)測用來挖掘網(wǎng)絡(luò)中實(shí)際存在但被遺漏或尚未被發(fā)現(xiàn)的節(jié)點(diǎn)關(guān)系,動態(tài)鏈路預(yù)測用來發(fā)掘當(dāng)下網(wǎng)絡(luò)中不存在,但未來可能存在連接的節(jié)點(diǎn)關(guān)系。

        第三步:分別計算測試集和不存在邊對應(yīng)的指標(biāo)數(shù)值。

        對鏈路預(yù)測算法的計算過程進(jìn)行梳理(見圖2),可以發(fā)現(xiàn)網(wǎng)絡(luò)中節(jié)點(diǎn)總數(shù)V=5,E=8,網(wǎng)絡(luò)中可能的連接數(shù)U=5*(5-1)/2=10。為了測試指標(biāo)的精確性,選擇邊{AB,AE,AC,BE,BC,CD}為訓(xùn)練集,邊{EC,BD}為測試集,分別采用不同指標(biāo)為每對沒有連邊的節(jié)點(diǎn)對{EC,BD,AD,ED}賦值,將所有未連邊的節(jié)點(diǎn)對按照分?jǐn)?shù)值從大到小排列。若模型能更多地將測試邊{EC,BD}排在不存在的邊{AD,ED}之前,則表明模型的預(yù)測精度越高。

        第四步:衡量鏈路預(yù)測算法精確度。

        通過將鏈路預(yù)測算法預(yù)測結(jié)果與測試邊進(jìn)行對比分析,進(jìn)而評價算法的優(yōu)劣。目前常用的評價指標(biāo)主要包括是三類:

        (1)AUC值(Area Under the receiver operation characteristic Curve):該指標(biāo)從整體上衡量鏈路預(yù)測算法精度,其基本思想可解釋為從測試集EP中隨機(jī)選取一條連接邊的預(yù)測概率高于不存在邊的預(yù)測概率的可能性[46]。因從整體上衡量算法的精確度,故區(qū)分度比較低,可能出現(xiàn)兩個算法準(zhǔn)確率相差很大,但AUC值差異很小,甚至可能持平[47]。

        (2)精確度(Precision):根據(jù)排序結(jié)果,有時只關(guān)心前L個預(yù)測節(jié)點(diǎn)對中預(yù)測準(zhǔn)確的比例,若L個預(yù)測節(jié)點(diǎn)對中有m個節(jié)點(diǎn)對預(yù)測準(zhǔn)確,則精確度Precision=m/L。該指標(biāo)大小與參數(shù)L有關(guān),為了避免參數(shù)L取值主觀性過高影響對比結(jié)果,一般與AUC值結(jié)合使用。

        (3)排序分(Ranking Score):該指標(biāo)主要考慮測試集中節(jié)點(diǎn)對在最終排序中的位置。計算公式為:RS=1/|EP|*■■,其中EP是測試集集合,ri是測試邊i∈EP在排序中的排名,H=U-ET為測試集中節(jié)點(diǎn)對和不存在的節(jié)點(diǎn)對集合。

        第五步:選擇精確度較高指標(biāo)應(yīng)用于整個數(shù)據(jù)集,進(jìn)行潛在合作機(jī)會識別。

        任何單一指標(biāo)所考慮的信息相對有限,不能適應(yīng)所有網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征,故不能在所有網(wǎng)絡(luò)類型中均有較好的準(zhǔn)確率。因此一般將多種不同指標(biāo)應(yīng)用于訓(xùn)練集和測試集,選擇預(yù)測精確度最高的指標(biāo)應(yīng)用于整個網(wǎng)絡(luò),進(jìn)而分析那些潛在的合作組合。

        鏈路預(yù)測方法可用來揭示和預(yù)測隱含對象間關(guān)系,在合作機(jī)會識別領(lǐng)域有很好的應(yīng)用價值。但在實(shí)際應(yīng)用中也存在部分局限:其一,只能預(yù)測訓(xùn)練網(wǎng)絡(luò)中未連接節(jié)點(diǎn)間產(chǎn)生連邊的概率,不能預(yù)測連接到新增節(jié)點(diǎn)的概率。而現(xiàn)實(shí)網(wǎng)絡(luò)中隨著時間演進(jìn),已有節(jié)點(diǎn)間不僅可能產(chǎn)生連接,而且會出現(xiàn)新節(jié)點(diǎn);其二,在動態(tài)鏈路預(yù)測中,網(wǎng)絡(luò)處于不斷演化狀態(tài),但為了有一個相對較為公平的比較環(huán)境,需將待分析節(jié)點(diǎn)限定在訓(xùn)練集和測試集共有的節(jié)點(diǎn)范圍內(nèi),忽略新增節(jié)點(diǎn)的作用;其三,某個指標(biāo)在目標(biāo)網(wǎng)絡(luò)中表現(xiàn)出較高的預(yù)測準(zhǔn)確率,但在其它網(wǎng)絡(luò)中可能表現(xiàn)不佳,故如何吸收各指標(biāo)不同或互補(bǔ)特征,以提高指標(biāo)適用性是未來研究的新方向;其四,一方面網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)會影響網(wǎng)絡(luò)演化趨勢,另一方面政策干預(yù)等外部因素也對鏈路預(yù)測結(jié)果產(chǎn)生影響,故該方面仍難以全面捕捉對象間關(guān)系及其未來趨勢走向。

        2.4? ? 基于網(wǎng)絡(luò)表示學(xué)習(xí)的合作機(jī)會識別方法

        隨著數(shù)據(jù)體量激增,鏈路預(yù)測等傳統(tǒng)方法應(yīng)用于網(wǎng)絡(luò)中大規(guī)模節(jié)點(diǎn)關(guān)系挖掘顯得力不從心,因此基于深度學(xué)習(xí)的網(wǎng)絡(luò)中節(jié)點(diǎn)向量自動表示學(xué)習(xí)成為研究熱點(diǎn)。網(wǎng)絡(luò)表示學(xué)習(xí)屬于深度學(xué)習(xí)的范疇,其具體做法為:以包含節(jié)點(diǎn)上下文信息的語料為數(shù)據(jù)基礎(chǔ),首先,結(jié)合文本上下文語義信息,通過設(shè)計多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將原始網(wǎng)絡(luò)中每個節(jié)點(diǎn)映射為低維稠密實(shí)值向量,且使得該向量形式可在向量空間中具有表示以及推理能力,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)輸入至任務(wù)輸出的目標(biāo);其次,計算節(jié)點(diǎn)間的向量空間相似度值并將計算結(jié)果降序排列,通過對尚未產(chǎn)生合作關(guān)系但相似度較高的節(jié)點(diǎn)的進(jìn)一步挖掘以識別潛在合作關(guān)系;最后,若將節(jié)點(diǎn)的向量表示結(jié)果作為機(jī)器學(xué)習(xí)模型的特征輸入,則通過二元運(yùn)算等方法將單個節(jié)點(diǎn)特征向量轉(zhuǎn)換為任意兩個節(jié)點(diǎn)間的向量表示,接著采用不同機(jī)器學(xué)習(xí)模型對節(jié)點(diǎn)間關(guān)系進(jìn)行再次學(xué)習(xí)。通過上述流程,使得知識發(fā)現(xiàn)和知識推理性能顯著提升。通過對已有研究梳理,可將目前合作機(jī)會識別研究中采用的經(jīng)典的網(wǎng)絡(luò)表示學(xué)習(xí)方法分為兩類:一類是基于網(wǎng)絡(luò)結(jié)構(gòu)信息,一類是融合節(jié)點(diǎn)內(nèi)容特征的局部網(wǎng)絡(luò)結(jié)構(gòu)信息(具體研究內(nèi)容見表4)。

        網(wǎng)絡(luò)表示學(xué)習(xí)方法可降低噪聲和冗余信息影響,將網(wǎng)絡(luò)中節(jié)點(diǎn)表示為低維稠密連續(xù)向量,有效彌補(bǔ)傳統(tǒng)方法高計算復(fù)雜度、低并行速度等缺陷。已有網(wǎng)絡(luò)表示學(xué)習(xí)方法基于網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點(diǎn)文本等信息開發(fā)出不同算法,但其適用性仍有許多可思考的地方:其一,大多算法未考量高階網(wǎng)絡(luò)結(jié)構(gòu)信息,但現(xiàn)實(shí)網(wǎng)絡(luò)中多數(shù)節(jié)點(diǎn)存在較少連接,如何通過有限信息挖掘這些弱連接節(jié)點(diǎn)間的關(guān)系需進(jìn)一步深究;其二,現(xiàn)有研究假設(shè)節(jié)點(diǎn)文本信息與網(wǎng)絡(luò)結(jié)構(gòu)信息之間存在聯(lián)系且二者的融合可提高算法性能,有些情況下確有較高預(yù)測精度,但計算復(fù)雜度過高。但某些情況下節(jié)點(diǎn)文本信息的嵌入反而會降低算法精確度,故對二者融合機(jī)制及特征互補(bǔ)性的探究可能會對算法性能提升有顯著作用;其三,網(wǎng)絡(luò)是動態(tài)變化的,但現(xiàn)有算法主要針對靜態(tài)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,或?qū)討B(tài)網(wǎng)絡(luò)劃分為不同時間片,在每個時間片上仍使用靜態(tài)網(wǎng)絡(luò)表示方法,雖有一定改進(jìn),但缺乏對其動態(tài)特征本質(zhì)挖掘,如何捕捉網(wǎng)絡(luò)后續(xù)應(yīng)用場景仍是重要挑戰(zhàn);其四,網(wǎng)絡(luò)中往往不僅存在一種類型節(jié)點(diǎn),如何將網(wǎng)絡(luò)表示學(xué)習(xí)方法應(yīng)用到異質(zhì)網(wǎng)絡(luò)中也是未來需進(jìn)一步改進(jìn)的地方。

        2.5? ? 基于機(jī)器學(xué)習(xí)的合作機(jī)會識別方法

        與機(jī)器學(xué)習(xí)相關(guān)的合作機(jī)會識別研究主要利用機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)算法,通過將多種不同鏈路預(yù)測指標(biāo)、節(jié)點(diǎn)屬性特征、網(wǎng)絡(luò)表示向量等融合在一起,能夠有效解決單一算法適用性較差這一局限,進(jìn)一步提高合作機(jī)會識別的推薦準(zhǔn)確度[24]。具體做法為:首先,將基于節(jié)點(diǎn)屬性特征、鏈路預(yù)測等方法得到的兩個節(jié)點(diǎn)之間相似度分值作為該節(jié)點(diǎn)對的一個或多個拓?fù)浣Y(jié)構(gòu)屬性特征,再加上節(jié)點(diǎn)的度、聚類系數(shù)、最短路徑等結(jié)構(gòu)特征,共同構(gòu)成該節(jié)點(diǎn)對的輸入特征向量,輸出特征為節(jié)點(diǎn)間是否存在連接,以0、1表征;其次,采用不同的機(jī)器學(xué)習(xí)方法對模型輸入、輸出特征進(jìn)行訓(xùn)練學(xué)習(xí);最后,遴選性能最優(yōu)模型并將其應(yīng)用于尚未產(chǎn)生關(guān)聯(lián)的節(jié)點(diǎn)間潛在合作機(jī)會識別。如張金柱等采用邏輯回歸分類模型學(xué)習(xí)不同路徑權(quán)重對于潛在合作關(guān)系識別的貢獻(xiàn);謝奕希等以CN、RA、AA、PA指標(biāo)為基礎(chǔ),提出基于改進(jìn)邏輯回歸模型的鏈路預(yù)測指標(biāo)融合方法,結(jié)果表明融合算法精度高于所有基準(zhǔn)指標(biāo)[56];Guns等采用隨機(jī)森林算法綜合基于節(jié)點(diǎn)相似性的鏈路預(yù)測指標(biāo),以識別潛在國家合作關(guān)系[12,57];Behrouzi等將Jaccard、RA等鏈路預(yù)測指標(biāo)與聚類系數(shù)、特征向量中心度等網(wǎng)絡(luò)指標(biāo)共同作為節(jié)點(diǎn)間是否存在連接的特征向量,綜合采用隨機(jī)森林、樸素貝葉斯等五種機(jī)器學(xué)習(xí)算法比較識別結(jié)果精確度,結(jié)果表明機(jī)器學(xué)習(xí)算法均顯示出比單一指標(biāo)更好的性能[58]。通過對已有研究的梳理總結(jié),潛在合作機(jī)會識別研究中常用的機(jī)器學(xué)習(xí)算法包括人工神經(jīng)網(wǎng)絡(luò)(ANNs)、決策樹(DTs)、隨機(jī)森林(RF)、支持向量機(jī)(SVMs)、k近鄰算法(KNN)、高斯樸素貝葉斯(GNB)、多項式樸素貝葉斯(MNB)、邏輯回歸(LR)等,但并沒有研究明確表明何種算法在合作機(jī)會識別研究中性能最優(yōu),需綜合考量具體應(yīng)用場景具體判別。

        因每種單一方法均不能適應(yīng)所有網(wǎng)絡(luò)結(jié)構(gòu)特征,故基于機(jī)器學(xué)習(xí)算法集成外部屬性特征、鏈路預(yù)測等算法優(yōu)缺點(diǎn)挖掘潛在合作機(jī)會是當(dāng)下和未來研究的重點(diǎn)方向之一,但機(jī)器學(xué)習(xí)算法種類繁多,如何在眾多指標(biāo)中選擇能有效捕捉網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的指標(biāo)并將其集成新的分析指標(biāo)是該方法的難點(diǎn),因此也要求研究者對具體應(yīng)用場景網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行剖析,以選擇最能合理表達(dá)網(wǎng)絡(luò)結(jié)構(gòu)的集成算法。

        3? ?總結(jié)與展望

        在對潛在合作機(jī)會識別概念厘定的基礎(chǔ)上,從宏觀、中觀、微觀等層面對研究主體類型進(jìn)行劃分和梳理,再從不同方法的內(nèi)涵、原理等視角對潛在合作機(jī)會識別方法進(jìn)行系統(tǒng)歸納總結(jié)。未來需要從以下方面進(jìn)一步展開深入研究:

        3.1? ? 明晰不同識別方法的適用性

        不同方法均有其優(yōu)勢和局限性,如外部屬性特征能反映節(jié)點(diǎn)真實(shí)信息,但獲取難度較大且多為非結(jié)構(gòu)化文本信息;研究內(nèi)容相似度一般以關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)來表征,未能融合作者、機(jī)構(gòu)等多種異質(zhì)信息;鏈路預(yù)測方法指標(biāo)眾多,但單一指標(biāo)只能捕捉網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的某些信息,且某些指標(biāo)計算復(fù)雜度過高,推廣應(yīng)用價值低;網(wǎng)絡(luò)表示學(xué)習(xí)方法雖有效彌補(bǔ)了傳統(tǒng)方法高計算復(fù)雜度、低并行速度等缺陷,但其原理類似黑箱,可解釋性差;比較而言,機(jī)器學(xué)習(xí)方法的機(jī)制為集成學(xué)習(xí),可整合上述各方法的優(yōu)點(diǎn),但集成算法種類繁多,具體選用何種機(jī)器學(xué)習(xí)算法也需深究。綜上,已有方法眾多,但不可能在實(shí)際研究中窮盡所有方法,因此需根據(jù)具體應(yīng)用場景、研究目的、以及對算法復(fù)雜度、時間復(fù)雜度、算法準(zhǔn)確率的要求等選擇有針對性的識別方法。

        3.2? ? 優(yōu)化多維識別方法的可擴(kuò)展性、有效性

        首先,已有方法不論是挖掘網(wǎng)絡(luò)中實(shí)際存在,而尚未監(jiān)測到的連接,還是目前不存在,但未來有很大概率存在的連接,均是對網(wǎng)絡(luò)中已有節(jié)點(diǎn)潛在關(guān)系的挖掘。網(wǎng)絡(luò)是動態(tài)變化的,不斷有新的節(jié)點(diǎn)加入,或舊的節(jié)點(diǎn)退出,若將研究對象圈定在不同時間窗口內(nèi)共有節(jié)點(diǎn)范圍內(nèi),只能預(yù)測未連接節(jié)點(diǎn)間產(chǎn)生連邊的概率,并不能捕捉連接到新增節(jié)點(diǎn)的概率。因此開發(fā)考量節(jié)點(diǎn)動態(tài)演化趨勢方法是未來的新課題;其次,已有方法往往不能適用網(wǎng)絡(luò)中大規(guī)模節(jié)點(diǎn)數(shù)目,因此學(xué)者通常篩選高被引作者或TOP機(jī)構(gòu)等為研究對象,然而發(fā)表文獻(xiàn)較少的作者或機(jī)構(gòu)可能更希望得到合作推薦,進(jìn)而找到潛在合作對象,以提高其學(xué)術(shù)影響力,故優(yōu)化已有方法使其可作用于網(wǎng)絡(luò)中低頻節(jié)點(diǎn)或邊緣節(jié)點(diǎn)是未來研究的方向之一;最后,在方法的有效性方面,除了鏈路預(yù)測和機(jī)器學(xué)習(xí)方法將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,從量化角度評估方法的精確度,其余方法更多傾向領(lǐng)域?qū)<叶ㄐ苑治鼋Y(jié)果的有效性,但隨著定量方法挖掘出的潛在合作關(guān)系越來越多,人工解讀費(fèi)時費(fèi)力,可操作性低,因此借鑒定量評估方法首先篩選高價值關(guān)系,再輔之專家知識是未來需進(jìn)一步完善的方法流程。

        3.3? ? 擴(kuò)展合作主體對象的多樣性

        研究對象方面,科研人員被視為合作的主體,且與其它研究主體相比,由個體組成的科研合作網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)目多,更符合已有識別方法對網(wǎng)絡(luò)結(jié)構(gòu)的要求,因此潛在合作機(jī)會識別研究中更多聚焦于挖掘科研人員潛在合作對象,即該方面研究最多,最為成熟。但國家、機(jī)構(gòu)等多層面、多形式的科研合作關(guān)系識別從不同維度刻畫了合作的形式,同樣是合作研究中的重要組成部分。因此,未來可遷移并調(diào)整已有識別方法使其助力于國家、機(jī)構(gòu)等研究主體深層合作發(fā)展。數(shù)據(jù)來源方面,現(xiàn)有研究主要以論文數(shù)據(jù)為載體,部分研究通過專利數(shù)據(jù)分析技術(shù)融合模式。不同數(shù)據(jù)源具有不同的數(shù)據(jù)特色,如國家級基金項目在一定程度上更能體現(xiàn)學(xué)科領(lǐng)域的最高水平,也較論文數(shù)據(jù)更能預(yù)先捕捉領(lǐng)域發(fā)展態(tài)勢。因此,未來可針對同一研究對象挖掘不同數(shù)據(jù)源潛在合作機(jī)會識別結(jié)果的異同,進(jìn)而分析差異背后的原因,更好輔助于合作推薦。

        3.4? ? 挖掘潛在合作機(jī)會的動機(jī)

        以往研究大多將重心聚焦于提高預(yù)測方法的準(zhǔn)確率、增加節(jié)點(diǎn)類型的異質(zhì)性等方面,對潛在合作機(jī)會產(chǎn)生的動力學(xué)機(jī)制少有探討,如為什么這些研究主體在未來有潛在合作傾向?這種潛在合作的穩(wěn)定性、影響力會怎樣演變?一方面網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)會影響網(wǎng)絡(luò)演化趨勢,另一方面政策干預(yù)、人員流動等外部因素也會導(dǎo)致合作傾向性發(fā)生轉(zhuǎn)變,因此在識別出潛在合作關(guān)系的基礎(chǔ)上需要進(jìn)一步將識別結(jié)果與研究主體背景知識相結(jié)合,挖掘可解釋的合作動因和合作模式,從而為機(jī)構(gòu)或個人等更好開展合作提供有價值的參考意義。更進(jìn)一步,研究主體潛在合作機(jī)會產(chǎn)生與否和政策干預(yù)、人員流動等因素之間的具體因果關(guān)系值得深究和探討。因此,在定性分析合作機(jī)會產(chǎn)生的動因基礎(chǔ)上采用因果推斷方法從定量角度剖析二者具體的因果關(guān)系,即不僅要基于數(shù)據(jù)和方法得出結(jié)論,更要重視影響因素和結(jié)論之間的因果邏輯關(guān)系,只有經(jīng)過嚴(yán)謹(jǐn)?shù)囊蚬治?,推薦的合作模式才更有說服力和影響力。

        *本文系四川省科技計劃項目“適應(yīng)新科技革命趨勢和規(guī)律的科技創(chuàng)新政策與四川科技創(chuàng)新治理機(jī)制研究”(項目編號:23RKX0302)研究成果之一。

        參考文獻(xiàn):

        [1]? 張金柱,韓濤.數(shù)據(jù)規(guī)模對合著關(guān)系預(yù)測的影響研究[J].情報雜志,2016,35(9):80-85.

        [2]? 丁敬達(dá),郭杰.融合內(nèi)容相似度和路徑相似性的潛在作者合作關(guān)系挖掘[J].情報理論與實(shí)踐,2021,44(1):124-128,123.

        [3]? 黃璐,朱一鶴,張嶷.基于加權(quán)網(wǎng)絡(luò)鏈路預(yù)測的新興技術(shù)主題識別研究[J].情報學(xué)報,2019,38(4):335-341.

        [4]? Duan Y,Guan Q.Predicting Potential Knowledge Convergence of Solar Energy:Bibliometric Analysis Based on Link Prediction Model[J].Scientometrics,2021,126(5):3749-3773.

        [5]? 余傳明,龔雨田,趙曉莉,等.基于多特征融合的金融領(lǐng)域科研合作推薦研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(8):39-47.

        [6]? 李魯瑩.基于SSCI的卓越大學(xué)聯(lián)盟社會科學(xué)領(lǐng)域合作機(jī)會發(fā)現(xiàn)研究[D].大連:大連理工大學(xué),2019.

        [7]? 岳增慧,許海云,王倩飛.基于局部信息相似性的學(xué)科引證知識擴(kuò)散動態(tài)鏈路預(yù)測研究[J].情報理論與實(shí)踐,2020,43(2):84-91,99.

        [8]? Cho J H,Lee J,Sohn S Y.Predicting Future Technological Convergence Patterns Based on Machine Learning Using Link Prediction[J].Scientometrics,2021,126(7):1-17.

        [9]? Kwon O,An Y,Kim M,et al.Anticipating Technology-driven Industry Convergence: Evidence From Large-scale Patent Analysis[J].Technology Analysis & Strategic Management,2020,32(4):363-378.

        [10]? 唐影.基于圖神經(jīng)網(wǎng)絡(luò)的鏈路預(yù)測的技術(shù)融合預(yù)見研究[D].西安:西安郵電大學(xué),2020.

        [11]? Guan Q,An H,Gao X,et al.Estimating Potential Trade Links in the International Crude Oil Trade: A Link Prediction Approach[J].Energy,2016,102(102):406-415.

        [12]? Guns R,Rousseau R.Recommending Research Collaborations Using Link Prediction and Random Forest Classifiers[J].Scientometrics,2014,101(2):1461-1473.

        [13]? 林原,王凱巧,劉海峰,等.網(wǎng)絡(luò)表示學(xué)習(xí)在學(xué)者科研合作預(yù)測中的應(yīng)用研究[J].情報學(xué)報,2020,39(4):367-373.

        [14]? Liben Nowell D,Kleinberg J.The Link Prediction Problem for Social Networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.

        [15]? Ahmed C,ElKorany A.Enhancing Link Prediction in Twitter Using Semantic User Attributes[A].Proceedings of the 2015 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining[C].2015:1155-1161.

        [16]? Abu-Salih B,Wongthongtham P,Chan K Y.Twitter Mining for Ontology-based Domain Discovery Incorporating Machine Learning[J].Journal of Knowledge Management,2018,22(5):949-981.

        [17]? 汪志兵,韓文民,孫竹梅,等.基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與節(jié)點(diǎn)屬性特征融合的科研合作預(yù)測研究[J].情報理論與實(shí)踐,2019,42(8):116-120,109.

        [18]? 林原,謝張,李魯瑩,等.卓越大學(xué)聯(lián)盟國內(nèi)外高校科研合作機(jī)會發(fā)現(xiàn)[J].情報雜志,2020,39(3):81-86,114.

        [19]? Morris S A,Yen G G.Crossmaps:Visualization of Overlapping Relationships in Collections of Journal Papers[J].Proceedings of the National Academy of Sciences,2004,101(Suppl 1):5291-5296.

        [20]? 劉志輝,張志強(qiáng).作者關(guān)鍵詞耦合分析方法及實(shí)證研究[J].情報學(xué)報,2010,29(2):268-275.

        [21]? 陳衛(wèi)靜,鄭穎.基于作者關(guān)鍵詞耦合的潛在合作關(guān)系挖掘[J].情報雜志,2013,32(5):127-131.

        [22]? 宋艷輝,武夷山.作者文獻(xiàn)耦合分析與作者關(guān)鍵詞耦合分析比較研究:Scientometrics實(shí)證分析[J].中國圖書館學(xué)報,2014,40(1):25-38.

        [23]? 呂琳媛.復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測[J].電子科技大學(xué)學(xué)報,2010,39(5):651-661.

        [24]? 呂偉民,王小梅,韓濤.結(jié)合鏈路預(yù)測和ET機(jī)器學(xué)習(xí)的科研合作推薦方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(4):38-45.

        [25]? Lorrain F,White H C.Structural Equivalence of Individuals in Social Networks[J].The Journal of Mathematical Sociology,1971,1(1):49-80.

        [26]? Salton G,Mcgill M J.Introduction to Modern Information Retrieval[M].Auckland:MuGraw-Hill,1986.

        [27]? Jaccard P.tude Comparative De La Distribution Florale Dans Une Portion Des Alpes Et Des Jura[J].Bulletin of the Torrey Botanical Club,1901,37:547-579.

        [28]? Srensen T.A Method of Establishing Groups of Equal Amplitude in Plant Sociology Based on Similarity of Species Content and Its Application to Analyses of the Vegetation on Danish Commons[J].Biologiske Skrifter,1948,5(4):1-34.

        [29]? Ravasz E,Somera A L,Mongru D A,et al.Hierarchical Organization of Modularity in Metabolic Networks[J].Science,2002,297(5586):1551-1555.

        [30]? Zhou T,Lü L,Zhang Y C.Predicting Missing Links Via Local Information[J].The European Physical Journal B,2009,71(4):623-630.

        [31]? Leicht E A,Holme P,Newman M E J.Vertex Similarity in Networks[J].Physical Review E,2006,73(2):1-10.

        [32]? Adamic L A,Adar E.Friends and Neighbors on the Web[J].Social Networks,2003,25(3):211-230.

        [33]? Barabási A L,Albert R.Emergence of Scaling in Random Networks[J].Science,1999,286(5439):509-512.

        [34]? Valverde-Rebaza J C,Roche M,Poncelet P,et al.The Role of Location and Social Strength for Friendship Prediction in Location-based Social Networks[J].Information Processing & Management,2018,54(4):475-489.

        [35]? 高楊,張燕平,錢付蘭,等.結(jié)合節(jié)點(diǎn)度和節(jié)點(diǎn)聚類系數(shù)的鏈路預(yù)測算法[J].小型微型計算機(jī)系統(tǒng),2017,38(7):1436-1441.

        [36]? 陳嘉穎,于炯,楊興耀,等.基于復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)重要性的鏈路預(yù)測算法[J].計算機(jī)應(yīng)用,2016,36(12):3251-3255,3268.

        [37]? Lü L,Jin C H,Zhou T.Similarity Index Based on Local Paths for Link Prediction of Complex Networks[J].Physical Review E,2009,80(4):1-9.

        [38]? Katz L.A New Status Index Derived From Sociometric Analysis[J].Psychometrika,1953,18(1):39-43.

        [39]? 呂亞楠.基于網(wǎng)絡(luò)結(jié)構(gòu)和隨機(jī)游走理論的鏈路預(yù)測算法研究[D].武漢:武漢理工大學(xué),2019.

        [40]? Klein D J,Randi?M.Resistance Distance[J].Journal of Mathematical Chemistry,1993,12(1):81-95.

        [41]? Fouss F,Pirotte A,Renders J M,et al.Random-Walk Computation of Similarities Between Nodes of a Graph with Application to Collaborative Recommendation[A].IEEE Transactions on Knowledge and Data Engineering[C].2007,19(3):355-369.

        [42]? Brin S,Page L.The Anatomy of a Large-scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117.

        [43]? Jeh G,Widom J.Simrank:A Measure of Structural-Context Similarity[A].Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].2002:538-543.

        [44]? Liu W,Lü L.Link Prediction Based on Local Random Walk[J].Europhysics Letters,2010,89(5):1-6.

        [45]? Kim H,Hong S,Kwon O,et al.Concentric Diversification Based on Technological Capabilities:Link Analysis of Products and Technologies[J].Technological Forecasting and Social Change,2017,118:246-257.

        [46]? 劉海峰.社交網(wǎng)絡(luò)用戶交互模型及行為偏好預(yù)測研究[D].北京:北京郵電大學(xué),2014.

        [47]? 張金柱,胡一鳴.利用鏈路預(yù)測揭示合著網(wǎng)絡(luò)演化機(jī)制[J].情報科學(xué),2017,35(7):75-81.

        [48]? Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online Learning of Social Representations[A].Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data mining[C].ACM,2014:701-710.

        [49]? Tang J,Qu M,Wang M,et al.Line:Large-scale Information Network Embedding[A].Proceedings of the 24th International Conference on World Wide Web[C].2015:1067-1077.

        [50]? Cao S,Lu W,Xu Q.Grarep:Learning Graph Representations with Global Structural Information[A].Proceedings of the 24th ACM International on Conference on Information and Knowledge Management[C].ACM,2015:891-900.

        [51]? Grover A,Leskovec J.Node2vec:Scalable Feature Learning for Networks[A].Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].ACM,2016:855-864.

        [52]? Wang D,Cui P,Zhu W.Structural Deep Network Embedding[A].Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].ACM,2016:1225-1234.

        [53]? Yang C,Liu Z,Zhao D,et al.Network Representation Learning with Rich Text Information[A].Twenty-Fourth International Joint Conference on Artificial Intelligence[C].IJCAI,2015:2111-2117.

        [54]? Tu C,Zhang W,Liu Z,et al.Max-Margin Deepwalk:Discriminative Learning of Network Representation[A].Twenty-Fifth International Joint Conference on Artificial Intelligence[C].IJCAI,2016:3889-3895.

        [55]? Li J,Dani H,Hu X,et al.Attributed Network Embedding for Learning in a Dynamic Environment[A].Proceedings of the 2017 ACM on Conference on Information and Knowledge Management[C].ACM,2017:387-396.

        [56]? 謝奕希,陳鴻昶,黃瑞陽,等.一種基于改進(jìn)Logistic模型的鏈路預(yù)測指標(biāo)融合方法[J].信息工程大學(xué)學(xué)報,2017,18(6):703-707.

        [57]? Guns R,Wang L.Detecting the Emergence of New Scientific Collaboration Links in Africa:A Comparison of Expected and Realized Collaboration Intensities[J].Journal of Informetrics,2017,11(3):892-903.

        [58]? Behrouzi S,Sarmoor Z S,Hajsadeghi K,et al.Predicting Scientific Research Trends Based on Link Prediction in Keyword Networks[J].Journal of Informetrics,2020,14(4):1-16.

        作者簡介:張雪,女,西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院講師,研究方向:學(xué)科信息學(xué)與領(lǐng)域知識發(fā)現(xiàn)、科學(xué)計量與科技評價;張志強(qiáng),男,中國科學(xué)院成都文獻(xiàn)情報中心研究員,中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院信息資源管理系教授,博士生導(dǎo)師,研究方向:科技戰(zhàn)略與規(guī)劃、科技政策與管理、科學(xué)學(xué)、科學(xué)計量與科技評價等。

        猜你喜歡
        研究內(nèi)容機(jī)器學(xué)習(xí)
        獨(dú)立學(xué)院創(chuàng)新創(chuàng)業(yè)教育體系的研究
        考試周刊(2016年103期)2017-01-23 17:21:15
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        中國企業(yè)管理研究的著力點(diǎn)應(yīng)該放在哪
        人民論壇(2016年31期)2016-12-06 11:06:09
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        我國會展物流研究綜述
        智富時代(2016年12期)2016-12-01 14:06:52
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        近三十年《詩經(jīng)·周頌》的研究綜述
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        關(guān)于圖像處理中幾個關(guān)鍵算法的研究
        科技視界(2016年20期)2016-09-29 12:39:02
        内射干少妇亚洲69xxx| 午夜一区二区三区在线视频| 亚洲一区二区三区高清视频| 亚洲国产综合久久天堂| 潮喷大喷水系列无码久久精品| 精品一区二区三区蜜桃麻豆| 久久久极品少妇刺激呻吟网站| 人妻无码中文字幕| 特级做a爰片毛片免费看无码| 亚洲av无码一区二区三区在线| 亚洲av影院一区二区三区四区| 手机在线中文字幕av| 少妇激情av一区二区三区| 无码人妻aⅴ一区二区三区| 少妇人妻偷人精品视蜜桃| 久久精品国产精品亚洲婷婷| 日韩人妻高清福利视频| 亚洲国产免费不卡视频| 国产免费一区二区三区免费视频| 老师翘臀高潮流白浆| 中文字幕无码日韩欧毛| 一本之道加勒比在线观看| 美女国产毛片a区内射| 精品亚洲成a人片在线观看| 欧洲综合色| 少妇被搞高潮在线免费观看| 极品尤物精品在线观看| 国产精品自在线拍国产手机版| 亚洲色AV性色在线观看| 日本一区二区三区激视频| 18禁止看的免费污网站| 藏春阁福利视频| 久久精品国产成人午夜福利| 久久丝袜熟女av一区二区| 亚洲精品美女久久久久久久| 99国产精品久久久蜜芽| 久久精品国产亚洲av沈先生| 欧美激情综合色综合啪啪五月| 美丽人妻被按摩中出中文字幕 | 精品高清免费国产在线| 无码国模国产在线观看|