亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測

        2021-03-15 07:52:36曹志鵬潘啟亮
        情報(bào)學(xué)報(bào) 2021年2期

        曹志鵬,潘 定,潘啟亮

        (暨南大學(xué),廣州 510632)

        知識網(wǎng)絡(luò)是由創(chuàng)造、轉(zhuǎn)移、吸收和應(yīng)用知識的行為主體構(gòu)成,在知識傳播與交流過程中,彼此聯(lián)結(jié)而形成的復(fù)雜網(wǎng)絡(luò)。許多學(xué)者借助合著網(wǎng)絡(luò)、引證網(wǎng)絡(luò)和共詞網(wǎng)絡(luò)等對知識網(wǎng)絡(luò)的形成和演化進(jìn)行了深入的研究。從研究對象和立足點(diǎn)上看,這些研究體現(xiàn)出了兩種不同的研究思路:一種是基于物理統(tǒng)計(jì)的方法,側(cè)重于對實(shí)際知識網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和演化特征進(jìn)行客觀的描述及分析,其研究對象往往是文獻(xiàn)、書刊等;另一種是基于認(rèn)知的角度,與思維、語言等要素相結(jié)合,側(cè)重語義地圖、知識圖譜等,其研究對象往往是關(guān)鍵詞等情報(bào)單元[1]。不同的研究思路促進(jìn)了知識網(wǎng)絡(luò)研究的發(fā)展,但也在一定程度上造成了割裂。實(shí)際上,知識網(wǎng)絡(luò)的完整研究應(yīng)該兼具物理統(tǒng)計(jì)和認(rèn)知兩種角度,但是這方面的進(jìn)展卻相對緩慢,目前僅有的研究主要集中于二部圖網(wǎng)絡(luò)和異質(zhì)網(wǎng)絡(luò)。近年來,人工智能領(lǐng)域,尤其是網(wǎng)絡(luò)表示學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的技術(shù)突破,為知識網(wǎng)絡(luò)的研究帶來了新的方法,為融合知識網(wǎng)絡(luò)客觀主體和認(rèn)知文本提供了新的途徑。

        本文將借助知識表示學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù),對合著主體及知識文本分別建立復(fù)雜網(wǎng)絡(luò),形成雙層知識網(wǎng)絡(luò)結(jié)構(gòu)。利用網(wǎng)絡(luò)表示學(xué)習(xí),分別將兩層網(wǎng)絡(luò)中的節(jié)點(diǎn)映射到低維的向量空間,然后輸入到專門設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行鏈路預(yù)測。該模型在進(jìn)行鏈路預(yù)測時(shí),綜合利用合著網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征以及作者研究領(lǐng)域等文本內(nèi)容中的潛在信息,使預(yù)測準(zhǔn)確率得到大幅提升。

        1 相關(guān)研究工作

        1.1 情報(bào)學(xué)基本原理

        隨著科學(xué)的發(fā)展,學(xué)科領(lǐng)域日益復(fù)雜,知識與信息呈幾何級增長,知識體系逐步演化為一個復(fù)雜的知識網(wǎng)絡(luò)。知識網(wǎng)絡(luò)屬于宏觀情報(bào)學(xué)的研究范疇,知識網(wǎng)絡(luò)中節(jié)點(diǎn)的鏈路產(chǎn)生機(jī)制受到情報(bào)學(xué)基礎(chǔ)理論的指導(dǎo)和約束。靖繼鵬教授在著作《情報(bào)學(xué)理論基礎(chǔ)》[2]中給出四個基本原理,即情報(bào)產(chǎn)生原理、情報(bào)序化原理、情報(bào)傳遞原理和情報(bào)吸收原理。

        靖繼鵬教授認(rèn)為,“情報(bào)產(chǎn)生原理”的理論基礎(chǔ)是相似性原理,包括幾何相似、運(yùn)動相似和動力相似。只有相似單元、相似層次的構(gòu)造,才能產(chǎn)生相似;具備相似過程、相似環(huán)境,相似才能產(chǎn)生。如果客觀事物中相似屬性、相似特征越多、越強(qiáng)烈,那么這種相似的功能就越多、越大。“情報(bào)序化原理”指出,序化就是將雜亂無章、隨機(jī)的知識,加以整序、分析綜合成人們解決問題的形態(tài)。情報(bào)序化原理依據(jù)耗散結(jié)構(gòu)理論來闡述,因?yàn)楹纳⒔Y(jié)構(gòu)理論同樣是人類情報(bào)現(xiàn)象和行為的基本原理?!扒閳?bào)傳遞原理”研究情報(bào)傳遞交流的行為和過程,情報(bào)傳遞必須處于激發(fā)狀態(tài),即I≥I0,傳遞情報(bào)所需的時(shí)間(T)與其自身的價(jià)值(I)和情報(bào)用戶對情報(bào)的需求強(qiáng)度(F)成正比,與傳遞環(huán)境阻力(f)成反比?!扒閳?bào)吸收原理”指出,“情報(bào)接受”是用戶與情報(bào)之間保持的一種關(guān)系,是接受主體能動的行為,是情報(bào)主體為了追求和實(shí)現(xiàn)情報(bào)價(jià)值的一種合目的性和合規(guī)律性的行為,其實(shí)質(zhì)是情報(bào)價(jià)值的選擇性實(shí)現(xiàn)[2-3]。

        情報(bào)學(xué)的基本原理為知識網(wǎng)絡(luò)的鏈路預(yù)測提供了理論支撐,指明了鏈路預(yù)測的努力方向。網(wǎng)絡(luò)結(jié)構(gòu)相似性是鏈路預(yù)測的重要切入點(diǎn),尋找知識網(wǎng)絡(luò)中與某節(jié)點(diǎn)結(jié)構(gòu)和功能類似的節(jié)點(diǎn),有助于分析該節(jié)點(diǎn)可能產(chǎn)生的鏈路。情報(bào)序化的基礎(chǔ)耗散結(jié)構(gòu)理論指出,系統(tǒng)由無序走向有序的一個重要條件是系統(tǒng)內(nèi)部要素之間存在非線性的相互作用,那么作為復(fù)雜系統(tǒng)的知識網(wǎng)絡(luò),其鏈路預(yù)測應(yīng)基于非線性的作用,即預(yù)測函數(shù)要具有非線性的特征。情報(bào)傳遞和吸收原理則動態(tài)解釋了信息在高維知識網(wǎng)絡(luò)向量場中的流動方向和大小。這些都表明,用同樣符合這些特征的人工神經(jīng)網(wǎng)絡(luò)來擬合知識網(wǎng)絡(luò),借鑒網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)能夠提升鏈路預(yù)測的效果。

        1.2 知識網(wǎng)絡(luò)鏈路預(yù)測

        鏈路預(yù)測是知識網(wǎng)絡(luò)的重要研究領(lǐng)域,處理的是信息科學(xué)中最基本的問題——缺失信息的還原與預(yù)測。鏈路預(yù)測通過網(wǎng)絡(luò)中已知的網(wǎng)絡(luò)節(jié)點(diǎn)、網(wǎng)絡(luò)結(jié)構(gòu)等信息,預(yù)測網(wǎng)絡(luò)中尚未產(chǎn)生的兩個結(jié)點(diǎn)之間產(chǎn)生鏈接的可能性[4]。鏈路預(yù)測可以分為兩類:未知鏈路預(yù)測和未來鏈路預(yù)測。未知鏈路(missing links)是指網(wǎng)絡(luò)中實(shí)際存在,但尚未被探測到的鏈路;未來鏈路(future links)是指網(wǎng)絡(luò)中目前不存在,但應(yīng)該存在或?qū)砗芸赡艽嬖诘逆溌贰烧邔?yīng)的數(shù)據(jù)集劃分方法也有所不同,前者多采用隨機(jī)抽樣,后者需要考慮時(shí)序狀態(tài)[5]。

        經(jīng)典的鏈路預(yù)測方法主要有:①基于節(jié)點(diǎn)結(jié)構(gòu)相似性的方法,包括共同鄰居(common neighbors,CN)指標(biāo)、Adamic-Adar(AA)指標(biāo)、網(wǎng)絡(luò)資源分配(resource allocation,RA)指標(biāo)等;②基于路徑結(jié)構(gòu)相似性的方法,包括局部路徑(local path,LP)指標(biāo)、Katz 指標(biāo)和LHN-II(Leicht-Holme-Newman -II)指標(biāo)等;③基于隨機(jī)游走相似性的方法,包括平均通勤時(shí)間(average commute time,ACT)指標(biāo)、有重啟的隨機(jī)游走(random walk with restart,RWR)指標(biāo)、局部隨機(jī)游走(locally random walk,LRW)指標(biāo)等。此外,還有一些研究提出了基于似然分析和基于機(jī)器學(xué)習(xí)的鏈路預(yù)測方法。這些算法以及衍生出來的改進(jìn)算法,都是通過對已知數(shù)據(jù)結(jié)構(gòu)特征的刻畫來實(shí)現(xiàn)預(yù)測。雖然在科學(xué)合著網(wǎng)絡(luò)等實(shí)際網(wǎng)絡(luò)中取得了較好的預(yù)測效果,但是也存在明顯的不足,即這些指標(biāo)一般只能運(yùn)用到同質(zhì)性的復(fù)雜網(wǎng)絡(luò)中,不能用于包含異質(zhì)節(jié)點(diǎn)和異質(zhì)邊的網(wǎng)絡(luò)。

        近年,有一些學(xué)者在經(jīng)典鏈路預(yù)測方法之外另辟蹊徑,嘗試提出二分網(wǎng)絡(luò)等異質(zhì)網(wǎng)絡(luò)的鏈路預(yù)測方法。張金柱等[6]在作者-關(guān)鍵詞二分網(wǎng)絡(luò)中,抽取多種路徑表示作者間的關(guān)聯(lián),并計(jì)算多種合著連接預(yù)測指標(biāo),最終通過機(jī)器學(xué)習(xí)方法組合這些指標(biāo),構(gòu)建出一個二分網(wǎng)絡(luò)中基于路徑組合的合著關(guān)系預(yù)測模型。項(xiàng)欣等[7]以作者-關(guān)鍵詞網(wǎng)絡(luò)為例,基于相似連接、優(yōu)先連接等演化機(jī)制,構(gòu)建了二分屬性知識網(wǎng)絡(luò)上的鏈路預(yù)測模型。陳文杰等[8]以CNKI 引文數(shù)據(jù)集為例,結(jié)合引文網(wǎng)絡(luò)K階鄰近結(jié)構(gòu)和關(guān)鍵詞屬性,提出了基于向量共享的交叉學(xué)習(xí)機(jī)制,并運(yùn)用到鏈路預(yù)測中。整體上看,已有的關(guān)于異質(zhì)知識網(wǎng)絡(luò)或多層知識網(wǎng)絡(luò)的研究還很少,且已提出的算法僅是考慮到了節(jié)點(diǎn)的文本詞語,少有結(jié)合網(wǎng)絡(luò)表示學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)并進(jìn)行深入分析的成果。

        1.3 網(wǎng)絡(luò)表示學(xué)習(xí)

        網(wǎng)絡(luò)表示學(xué)習(xí)的目的是學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的潛在低維表示,同時(shí)保留網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、節(jié)點(diǎn)內(nèi)容、節(jié)點(diǎn)外部信息以及其他方面的信息。常見的基于網(wǎng)絡(luò)表示學(xué)習(xí)算法主要分成兩大類。

        一是基于網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)。這類算法包括:基于矩陣分解和特征向量計(jì)算的方法、基于簡單神經(jīng)網(wǎng)絡(luò)的方法和基于深層神經(jīng)網(wǎng)絡(luò)的方法。具體算法包括譜聚類方法中的局部線性表示(locally linear embedding,LLE)、拉普拉斯特征映射(La‐placian eigenmap,LE)、有向圖表示(directed graph embedding,DGE)、GraRep 算法[9]及各類改進(jìn)算法。這類算法基于網(wǎng)絡(luò)的鄰接矩陣或者拉普拉斯矩陣,在時(shí)間復(fù)雜度和空間復(fù)雜度上都較高,難以應(yīng)用到大規(guī)模數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)中[10]。神經(jīng)網(wǎng)絡(luò)相關(guān)的網(wǎng)絡(luò)表示學(xué)習(xí)算法主要有DeepWalk 算法、word2vec 算法、LINE 算法和SDNE 算法等[11]。這類算法使用隨機(jī)游走序列而不是鄰接矩陣,雖然降低了計(jì)算時(shí)間和空間消耗,但是仍然專注于網(wǎng)絡(luò)結(jié)構(gòu)本身而無法處理節(jié)點(diǎn)結(jié)構(gòu)以外的額外信息。

        二是結(jié)合外部信息的網(wǎng)絡(luò)表示學(xué)習(xí)。在真實(shí)世界的復(fù)雜網(wǎng)絡(luò)中,節(jié)點(diǎn)往往具有豐富的外部信息,如標(biāo)簽信息、地理位置信息、研究領(lǐng)域信息等。傳統(tǒng)網(wǎng)絡(luò)表示學(xué)習(xí)主要依賴網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,而忽略了這些異質(zhì)的外部信息。增加外部信息有助于提高網(wǎng)絡(luò)表示的質(zhì)量,并增強(qiáng)表示向量在具體的網(wǎng)絡(luò)分析中的應(yīng)用。半監(jiān)督的網(wǎng)絡(luò)表示學(xué)習(xí)方法,如MMDW 算 法[12]、node2vec 算 法、GCN 算 法[13]等;結(jié)合外部信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法主要是結(jié)合文本信息的方法,如TADW 算法[14]、CANE 算法[15]等;結(jié)合邊上標(biāo)簽信息的網(wǎng)絡(luò)表示學(xué)習(xí),如TransNet 算法[16]等。

        知識網(wǎng)絡(luò)表示學(xué)習(xí)是面向知識網(wǎng)絡(luò)中的實(shí)體和關(guān)系進(jìn)行表示學(xué)習(xí),該方向逐漸成為知識網(wǎng)絡(luò)領(lǐng)域熱門研究話題,在知識網(wǎng)絡(luò)的節(jié)點(diǎn)分類、聚類分析和鏈路預(yù)測等領(lǐng)域有良好的運(yùn)用前景。

        2 研究思路與研究設(shè)計(jì)

        本研究的雙層知識網(wǎng)絡(luò),由作者合著關(guān)系網(wǎng)絡(luò)和學(xué)術(shù)領(lǐng)域關(guān)系網(wǎng)絡(luò)構(gòu)成,是具有雙層網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)。首先,通過特定的網(wǎng)絡(luò)表示學(xué)習(xí)算法,分別計(jì)算得到兩層網(wǎng)絡(luò)中節(jié)點(diǎn)的低維向量表示;其次,將代表同一作者的向量按照特定規(guī)則運(yùn)算,得到該作者的綜合向量表示;最后,在進(jìn)行鏈路預(yù)測時(shí),將兩個作者的綜合向量表示作為輸入,通過深層卷積神經(jīng)網(wǎng)絡(luò)計(jì)算,輸出作者間合作的概率。新的節(jié)點(diǎn)向量融合了作者合著關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)信息和作者學(xué)術(shù)領(lǐng)域信息,具有更優(yōu)秀的鏈接預(yù)測能力。

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

        作者合著關(guān)系網(wǎng)絡(luò)記作G=(V,E),其中V表示節(jié)點(diǎn)集合,E表示邊的集合;邊e=(vi,vj) ∈E表示了節(jié)點(diǎn)vi到vj的一條邊,i,j≤|V|,|V|表示網(wǎng)絡(luò)節(jié)點(diǎn)的數(shù)量。網(wǎng)絡(luò)的鄰接矩陣定義為A∈R|V|×|V|。若(vi,vj)∈E,則Aij= 1;否則,Aij= 0。采用鄰接矩陣作為該網(wǎng)絡(luò)的表達(dá)形式,鄰接矩陣A的每一行,表示節(jié)點(diǎn)與所有其他節(jié)點(diǎn)的合作關(guān)系。

        網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí),主要采用node2vec 算法。該算法以word2vec 算法為基礎(chǔ),由Grover 等[17]在2016 年提出,其改進(jìn)了經(jīng)典的DeepWalk 算法的游走序列生成策略,引入將寬度優(yōu)先搜索(breadth-first sampling,BFS) 和深度優(yōu)先搜索(depth-first sam‐pling,DFS)策略,DFS 注重鄰近的節(jié)點(diǎn)并刻畫了相對局部的一種網(wǎng)絡(luò)表示,BFS 則反映了更高層面上的節(jié)點(diǎn)間的同質(zhì)性。該算法通過兼顧BFS 的寬度和DFS 的廣度,讓隨機(jī)游走序列更完整的保存節(jié)點(diǎn)中所包含的網(wǎng)絡(luò)原始信息。具體如圖1 所示。

        該算法將Skip-Gram 架構(gòu)擴(kuò)展到網(wǎng)絡(luò),尋求優(yōu)化 目 標(biāo) 函 數(shù)并 使 用 隨機(jī)梯度上升來優(yōu)化模型參數(shù)[17]。其中,vi∈V,定義Ns(vi)?V為節(jié)點(diǎn)vi通過策略S得到的鄰居節(jié)點(diǎn)。在得到節(jié)點(diǎn)的表示學(xué)習(xí)向量后,Grover 等[17]通過bootstrapping 方法將單個節(jié)點(diǎn)的特征學(xué)習(xí)擴(kuò)展到節(jié)點(diǎn)對的特征學(xué)習(xí)中,并提出edge2vec 方法,以適用(于)網(wǎng)絡(luò)節(jié)點(diǎn)對的鏈路預(yù)測任務(wù)。具體如表1所示。

        圖1 BFS和DFS的節(jié)點(diǎn)vi搜索策略(修改自文獻(xiàn)[17])

        表1 生成節(jié)點(diǎn)對向量的二元運(yùn)算方法(修改自文獻(xiàn)[17])

        2.2 研究領(lǐng)域表示學(xué)習(xí)

        與網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)類似,將作者研究領(lǐng)域網(wǎng)絡(luò)記作D=(N,B),其中N是節(jié)點(diǎn)集合,B是邊的集合,邊b=(ni,nj) ≤B表示節(jié)點(diǎn)ni到nj的一條邊,i,j∈|N|。網(wǎng)絡(luò)的鄰接矩陣定義為B∈R|N|×|N|,|N|表示網(wǎng)絡(luò)中節(jié)點(diǎn)的數(shù)量,若(ni,nj)∈B,則Bij= 1;否則,Bij= 0。

        研究領(lǐng)域表示學(xué)習(xí)主要采用doc2vec 算法,該算法基于word2vec 算法,由Mikolov 等[18-19]提出。實(shí)際上,word2vec 是一個淺層神經(jīng)網(wǎng)絡(luò)模型,輸入是采用獨(dú)熱編碼的單詞,隱藏層不使用激活函數(shù),用Softmax 回歸。當(dāng)模型訓(xùn)練好后,該模型通過訓(xùn)練數(shù)據(jù)所學(xué)得的隱藏層的權(quán)重矩陣即詞的向量表示。這個模型在定義數(shù)據(jù)的輸入和輸出時(shí),一般分為CBOW(continuous bag-of-words)與Skip-Gram 兩種方法。CBOW 模型的訓(xùn)練輸入是某一個特征詞的上下文相關(guān)詞所對應(yīng)的詞向量,而輸出就是這個特定詞的詞向量。Skip-Gram 方法與CBOW 相反,即輸入是一個特定詞的詞向量,而輸出是特定詞對應(yīng)的上下文詞向量。具體如圖2 所示。

        圖2 CBOW和Skip-Gram模型(修改自文獻(xiàn)[18])

        以word2vec 為基礎(chǔ),Mikolov 在2013 年提出了句子和文檔的向量表示模型,即doc2vec,模型在輸入層引入了文檔向量,并將其看作輸入單詞所構(gòu)成的語境信息的補(bǔ)充[20]。與word2vec 的Skip-Gram和CBOW 方法對應(yīng),doc2vec 在處理輸入向量和輸出向量時(shí),也分為PV-DM(distributed memory ver‐sion of paragraph vector) 和PV-DBOW (distributed bag of words version of paragraph vector)兩種方法,具體如圖3 所示。

        在doc2vec 得到文檔的表示學(xué)習(xí)后,可以利用文檔的余弦相似性進(jìn)行作者間的鏈路預(yù)測。

        圖3 PV-DM和PV-DBOW文檔表示學(xué)習(xí)框架(修改自文獻(xiàn)[19])

        2.3 雙層知識網(wǎng)絡(luò)鏈路預(yù)測

        雙層知識網(wǎng)絡(luò)鏈路預(yù)測主要通過專門設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)完成,做到同時(shí)關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)節(jié)點(diǎn)向量和研究領(lǐng)域節(jié)點(diǎn)向量,更好的聚合網(wǎng)絡(luò)結(jié)構(gòu)和文本信息,大幅度提高鏈路預(yù)測的準(zhǔn)確性。這是由于該關(guān)注機(jī)制避免了傳統(tǒng)單層合著網(wǎng)絡(luò)表示學(xué)習(xí)的不足,即單層合著網(wǎng)絡(luò)的表示學(xué)習(xí)只能依靠節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)的特征,無法感知節(jié)點(diǎn)的屬性信息,使得預(yù)測能力受到網(wǎng)絡(luò)結(jié)構(gòu)的限制。知識網(wǎng)絡(luò)中作者的合作預(yù)測固然是作者根據(jù)自身合作經(jīng)歷所做出的理性選擇,有來自以往合作的慣性動力,與此同時(shí),作者在選擇合作伙伴時(shí)也關(guān)注與自己研究領(lǐng)域相近的其他作者。新的鏈路產(chǎn)生是多方面共同作用的結(jié)果。以往的研究大多聚焦在一個方面,少有同時(shí)關(guān)注文本和結(jié)構(gòu)信息的知識網(wǎng)絡(luò)鏈路預(yù)測方法,或者尚未形成較為理想的模型。本研究提出的雙層知識網(wǎng)絡(luò)鏈路框架(圖4)通過引入節(jié)點(diǎn)屬性的特征向量,給單層合著網(wǎng)絡(luò)帶來額外的信息,減少知識網(wǎng)絡(luò)的混沌程度,有效且大幅度強(qiáng)化了網(wǎng)絡(luò)的預(yù)測能力。

        圖4 卷積神經(jīng)網(wǎng)絡(luò)鏈路預(yù)測框架

        本研究提出的框架主要借鑒了圖像視覺識別領(lǐng)域成熟的卷積神經(jīng)網(wǎng)絡(luò)機(jī)制。卷積神經(jīng)網(wǎng)絡(luò)有兩個突出的優(yōu)勢:一個是參數(shù)共享,降低了神經(jīng)網(wǎng)絡(luò)處理圖像時(shí)內(nèi)存和計(jì)算資源的開銷;另外一個是具有局部感知能力,與人類處理圖像的機(jī)制類似,局部感知機(jī)制使得每個神經(jīng)元不需要感知圖像中的全部信息,只對圖像的局部像素進(jìn)行感知,然后在全連接層進(jìn)行合并,從而得到圖像的總體表征。這種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者其他形式的變形具有高度不變性。

        卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)使其非常適合運(yùn)用到雙層知識網(wǎng)絡(luò)的鏈路預(yù)測中,但需要解決一個問題,即使用什么樣的輸入和輸出數(shù)據(jù)作為訓(xùn)練的樣本?在圖像處理中,往往使用圖片的像素矩陣;在自然語言處理中,往往是上下文詞語的one-hot 表示。顯然,在雙層知識網(wǎng)絡(luò)中,并沒有現(xiàn)成的數(shù)據(jù)來源,尤其是要結(jié)合兩層網(wǎng)絡(luò)的所有信息。因此,本研究提出了一種整合結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)和作者研究領(lǐng)域表示學(xué)習(xí)的數(shù)據(jù)整合方式,

        其中,Dinput和Doutput分別表示卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)和分類標(biāo)簽(即是否存在鏈接);f(vi)表示圖G中的節(jié)點(diǎn)vi通過node2vec 訓(xùn)練后得到的表示學(xué)習(xí);γ(ni)表示圖D中的節(jié)點(diǎn)ni通過word2vec 訓(xùn)練后得到的表示學(xué)習(xí);Aij表示在作者合著關(guān)系網(wǎng)絡(luò)中節(jié)點(diǎn)vi和vj的度;運(yùn)算符號◎表示對向量按行進(jìn)行疊加 操 作,例 如:的運(yùn)算結(jié)果構(gòu)成了雙層知識網(wǎng)絡(luò)中的作者vi的綜合向量,該向量聚合了網(wǎng)絡(luò)結(jié)構(gòu)信息和研究領(lǐng)域信息,應(yīng)當(dāng)注意的是,研究領(lǐng)域圖D中的節(jié)點(diǎn)ni須是作者節(jié)點(diǎn)vi對應(yīng)的研究領(lǐng)域。

        根據(jù)圖4,Dinput是卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入,即進(jìn)行◎操作后的節(jié)點(diǎn)對向量,框架主體包括2 個卷積層、1 個池化層和2 個全連接層,輸出Doutput是兩個節(jié)點(diǎn)間的鏈接情況,是2 分類變量。下文將使用hypernet2vec 代表基于卷積神經(jīng)網(wǎng)絡(luò)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測框架。

        2.4 模型評價(jià)

        為了驗(yàn)證鏈路預(yù)測的性能,通常將數(shù)據(jù)劃分為兩部分:一部分用于模型訓(xùn)練,一部分用于模型預(yù)測。本研究采用AUC(area under curve)作為評估模型的評價(jià)指標(biāo),通過比較雙層知識網(wǎng)絡(luò)的鏈路預(yù)測和其他鏈路預(yù)測指標(biāo)的AUC 值,判斷本模型與主流模型的性能優(yōu)劣。AUC 是從整體上衡量算法的性能,其在幾何上指的是ROC 曲線(receiver oper‐ating characteristic curve)下面積的大小,也可以理解為在測試集中隨機(jī)選擇一條連邊的預(yù)測分?jǐn)?shù)值,比隨機(jī)選擇一條不存在的邊的預(yù)測分?jǐn)?shù)值高的概率。假設(shè)獨(dú)立比較n次,如果有n'次測試集中的分?jǐn)?shù)大于不存在集合中的邊的分?jǐn)?shù),有n"次相等,那么AUC 的定義為

        本研究將利用這個指標(biāo)來衡量模型的性能,AUC值越高,表示模型更加優(yōu)越。

        3 數(shù)據(jù)來源與數(shù)據(jù)處理

        本研究采用Python 編程語言和TensorFlow 機(jī)器學(xué)習(xí)框架作為數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理和模型實(shí)現(xiàn)的開發(fā)工具。

        3.1 數(shù)據(jù)來源和數(shù)據(jù)抽樣

        3.1.1 數(shù)據(jù)來源

        本研究的基礎(chǔ)數(shù)據(jù)采集自CSSCI(Chinese Social Sciences Citation Index,中文社會科學(xué)引文索引)數(shù)據(jù)庫中2010—2018 年管理學(xué)核心期刊論文的基本信息,包括《管理世界》《南開管理評論》《中國行政管理》等10 種,論文基本信息包括論文名稱、論文作者、論文標(biāo)題和論文關(guān)鍵詞,共采集16523 篇論文,論文作者19650 名。

        3.1.2 數(shù)據(jù)抽樣

        與鏈路預(yù)測研究常見的抽樣方法不同,本研究不能直接采用隨機(jī)抽樣的方法生成訓(xùn)練集和測試集數(shù)據(jù)。這是由于一篇文章發(fā)表之后,作者、參考文獻(xiàn)和關(guān)鍵詞這些屬性信息就確定了,因此斷邊重連機(jī)制無法應(yīng)用其中[3]。具體來講,本研究加入了經(jīng)典鏈路預(yù)測指標(biāo)(如CN 指標(biāo)、RA 指標(biāo)、LP 指標(biāo)等)所不涉及的作者研究領(lǐng)域信息,如果在建立訓(xùn)練集和測試集時(shí),不區(qū)分同一作者在兩個數(shù)據(jù)集合中的研究領(lǐng)域信息,會導(dǎo)致訓(xùn)練集中的部分作者研究領(lǐng)域信息重合和其在訓(xùn)練集中的研究領(lǐng)域信息一致;如果直接使用本模型,可能導(dǎo)致錯誤的實(shí)驗(yàn)結(jié)果。

        例如,假設(shè)作者A、作者B 和作者C 共同發(fā)表了一篇文章,即作者A、B、C 相互間建立了連接關(guān)系,那么三位作者也共享基于該論文題目和關(guān)鍵詞的研究領(lǐng)域文檔。如果作者A 與作者B 的連邊和作者A 和作者C 的連邊被選擇進(jìn)入訓(xùn)練集,作者B和作者C 的連邊進(jìn)入測試集,很顯然,因?yàn)锽 和C有幾近相同的研究領(lǐng)域(即研究領(lǐng)域相似度約等于1),在預(yù)測B 和C 的連接時(shí),不管模型本身的預(yù)測效果如何,B 和C 幾乎能夠被預(yù)測。顯而易見,這種預(yù)測結(jié)果并不是因?yàn)槟P偷呢暙I(xiàn),而僅僅是因?yàn)橛?xùn)練集中已經(jīng)包含了測試集的信息,這不是本研究所希望看到的檢驗(yàn)?zāi)P偷男ЧR酝恍╊愃频难芯恐?,采用了上面隨機(jī)抽樣的方法,可能忽視或者低估這個問題對檢驗(yàn)結(jié)果的影響。

        要得到能夠適合本研究的訓(xùn)練集和測試集數(shù)據(jù),必須保證訓(xùn)練集和測試集中同一作者的研究領(lǐng)域不能采集自同一篇論文。一種可行的方法是采取時(shí)間分段抽樣,以某一時(shí)點(diǎn)為分界,將該時(shí)間點(diǎn)以前的所有論文用于建立訓(xùn)練集,該時(shí)點(diǎn)之后的所有論文用于建立測試集。

        3.2 數(shù)據(jù)處理

        本研究以2015 年為時(shí)間節(jié)點(diǎn),將2010—2014 年的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù)源,2015—2018 年的數(shù)據(jù)作為測試集數(shù)據(jù)源,測試集和訓(xùn)練集的論文量如表2所示。篩選出2 個數(shù)據(jù)源中共同出現(xiàn)過的作者,利用訓(xùn)練集數(shù)據(jù)源建立作者合著關(guān)系網(wǎng)絡(luò),選取其中最大連通子圖的節(jié)點(diǎn)作為最終訓(xùn)練和測試樣本的節(jié)點(diǎn)。

        表2 2010—2018年CSSCI管理學(xué)核心期刊論文數(shù)

        3.2.1 網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

        首先,建立訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)G。采用鄰接矩陣作為該網(wǎng)絡(luò)的表達(dá)形式,鄰接矩陣的每一行表示一個節(jié)點(diǎn)和其他節(jié)點(diǎn)的合作關(guān)系,關(guān)系值用0 和1 表示,0 代表沒有發(fā)生過合作,1 代表有過合作,網(wǎng)絡(luò)基本特征如表3 所示。

        表3 訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)的基本特征

        在作者合著關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上采用node2vec 計(jì)算得到網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí),向量的維度d=128,如表4 所示。

        表4 訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

        在表4 中,節(jié)點(diǎn){v1,v2,v3,…,v960}={吳曉波,楊力,高旭東,吳曉云,…,宿慧爽}∈V。表中的每一行代表從作者合著關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)中捕獲和學(xué)習(xí)到的信息,每一列代表該信息的一個維度。

        3.2.2 研究領(lǐng)域表示學(xué)習(xí)

        作者研究領(lǐng)域主要用作者發(fā)表過的論文標(biāo)題和關(guān)鍵詞來描述。從訓(xùn)練集提取出作者所發(fā)表的每一篇論文的關(guān)鍵詞和論文標(biāo)題,合并為一篇文檔;然后,對文檔進(jìn)行中文分詞,得到一個關(guān)鍵詞集合,該集合代表了作者的學(xué)術(shù)研究領(lǐng)域。

        {吳曉波:技術(shù)創(chuàng)新戰(zhàn)略 制造企業(yè) 阿里巴巴集團(tuán) 專利 綠色運(yùn)營模式 企業(yè)績效 政府作用 許可 二次創(chuàng)新 技術(shù)跨越……}

        {楊力:全要素能源效率 無效 影子價(jià)格 技術(shù)缺口比率 區(qū)域差異 能源技術(shù) 技術(shù)差距 改進(jìn) 決策單元 中國 共同技術(shù)率 非期望產(chǎn)出……}

        {高旭東:商業(yè)模式 探索型創(chuàng)新 企業(yè) 融資社會嵌入 低收入群體 利用型創(chuàng)新 多案例研究BOP 人力資本}

        {吳曉云:模式全球化組織結(jié)構(gòu) 戰(zhàn)略 營銷 顧客 服務(wù)營銷標(biāo)準(zhǔn)化 績效 前置因素 服務(wù)性全球營銷戰(zhàn)略 市場相似性 東道國 服務(wù)性跨國公司……}

        根據(jù)作者的學(xué)術(shù)研究領(lǐng)域,利用doc2vec 計(jì)算得到作者研究領(lǐng)域的向量表示,向量的維度d=128,如表5 所示。

        在表5 中,節(jié)點(diǎn){u1,u2,u3,…,u960}={吳曉波,楊力,高旭東,吳曉云,…,宿慧爽}∈N。表中的每一行代表從作者研究領(lǐng)域網(wǎng)絡(luò)中捕獲和學(xué)習(xí)到的信息,每一列代表該信息的一個維度。

        表5 訓(xùn)練集作者研究領(lǐng)域表示學(xué)習(xí)

        4 實(shí)證分析

        4.1 模型性能

        為了驗(yàn)證基于表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測模型hypernet2vec 的性能,本研究選取了3 種經(jīng)典的鏈路預(yù)測指標(biāo)作為比較參考,分別是基于節(jié)點(diǎn)結(jié)構(gòu)相似性的網(wǎng)絡(luò)資源分配(RA)指標(biāo)、基于路徑結(jié)構(gòu)相似性的局部路徑(LP)指標(biāo)和基于隨機(jī)游走的局部隨機(jī)游走(LRW)指標(biāo)。同時(shí),加入只使用單層網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測的相關(guān)指標(biāo),分別是基于合著網(wǎng)絡(luò)結(jié)構(gòu)的edge2vec 指標(biāo)和基于作者研究領(lǐng)域的doc2vec 指標(biāo)。除此之外,還加入綜合使用網(wǎng)絡(luò)結(jié)構(gòu)信息和研究領(lǐng)域信息進(jìn)行鏈路預(yù)測的基準(zhǔn)方法,即通過計(jì)算節(jié)點(diǎn)間的向量余弦相似性進(jìn)行鏈路預(yù)測,該算法公式是,其中,vi和vj分別是節(jié)點(diǎn)結(jié)構(gòu)向量和研究領(lǐng)域向量的橫向拼接,該指標(biāo)命名為hypernet_base。本研究使用AUC作為評估標(biāo)準(zhǔn),值越大說明模型越好。若AUC 值為0.5,則表示預(yù)測效果與隨機(jī)猜測相當(dāng)。各指標(biāo)的AUC 值取10 次結(jié)果的平均值,如表6 所示。

        表6 hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)的AUC值

        從表6 可知,幾種主要算法的AUC 值差異比較大,分布在0.66~0.78。RA 模型是基于共同鄰居的指標(biāo),僅利用一階相似性的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,算法比較簡單,但與其他指標(biāo)相比,效果最差?;诼窂叫畔⒌腖P 指標(biāo)在共同鄰居指標(biāo)的基礎(chǔ)上考慮了三階鄰居的貢獻(xiàn),利用了比基于共同鄰居指標(biāo)更多的網(wǎng)絡(luò)結(jié)構(gòu)信息,預(yù)測效果得到了明顯的提升,從0.6655 提升至0.7052。LRW 指標(biāo)的預(yù)測效果在局部路徑指標(biāo)的基礎(chǔ)上又有了一定的提升,在經(jīng)典的鏈路預(yù)測算法中取得了最好的預(yù)測效果。值得注意的是,使用基于合著網(wǎng)絡(luò)結(jié)構(gòu)的edge2vec 指標(biāo)的AUC 值是0.7039,使用基于作者研究領(lǐng)域的doc2vec指標(biāo)的AUC 值為0.6899,綜合使用合著網(wǎng)絡(luò)結(jié)構(gòu)信息和作者研究領(lǐng)域信息的hypernet_base 指標(biāo)的AUC值為0.7038,大致與LP 指標(biāo)相當(dāng),優(yōu)于基于共同鄰居的指標(biāo),但都比不上基于隨機(jī)游走的指標(biāo)。本研究所提出的hypernet2vec 框架的預(yù)測效果在所有指標(biāo)中表現(xiàn)最為優(yōu)秀,AUC 值與所有參考的指標(biāo)的平均值約提升了11.17%,比其中的最好值仍然能夠提高7.40%,這說明hypernet2vec 框架在鏈路預(yù)測方面優(yōu)于以往的指標(biāo),并取得顯著優(yōu)勢。

        4.2 模型穩(wěn)定性

        4.2.1 預(yù)測效果穩(wěn)定性

        本研究所提出的hypernet2vec 框架與其他算法分別進(jìn)行10 次實(shí)驗(yàn),得到的AUC 值如圖5 所示,AUC 值的數(shù)據(jù)差異如表7 所示。研究結(jié)果,hyper‐net2vec 與其他算法相比,AUC 值的極差和標(biāo)準(zhǔn)差偏大,預(yù)測效果存在一定的不穩(wěn)定性。就整體而言,hypernet2vec 模型就算取10 次中的最差值,仍然比其他指標(biāo)的最優(yōu)值大3.13%,性能提升仍然顯著。從圖5 中還可以看出,hypernet2vec 模型的不穩(wěn)定性一定程度上與作者研究領(lǐng)域網(wǎng)絡(luò)層doc2vec 的不穩(wěn)定性有關(guān),另外一個原因可能來自模型卷積神經(jīng)網(wǎng)絡(luò)本身,如本研究使用Adam 作為損失函數(shù)的優(yōu)化算法,可能導(dǎo)致得到局部優(yōu)化的參數(shù),造成訓(xùn)練結(jié)果的差異。

        圖5 hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)10次實(shí)驗(yàn)的AUC值

        表7 各鏈路預(yù)測指標(biāo)AUC值差異統(tǒng)計(jì)

        4.2.2 正樣本量對預(yù)測的影響

        模型訓(xùn)練的正樣本是指訓(xùn)練集數(shù)據(jù)中真實(shí)存在的作者合作關(guān)系,正樣本的數(shù)量對模型的性能起到重要的作用。本節(jié)將選擇5 個正樣本比例進(jìn)行實(shí)驗(yàn),分別是20%、40%、60%、80%和100%,每種樣本量計(jì)算10 次取平均AUC 值,結(jié)果如圖6 所示。從圖6 可知,當(dāng)入選正樣本量是全部正樣本的20%時(shí),所有的指標(biāo)預(yù)測效果都很差,跟隨機(jī)猜測類似;隨著樣本量的增加,各個指標(biāo)的AUC 值都不斷上升,但hypernet2vec 模型上升的幅度最大。這說明要提高作者合作關(guān)系的鏈路預(yù)測性能,在其他條件不變的情況下,必須提高正樣本量的大小。實(shí)際上,本實(shí)驗(yàn)集中數(shù)據(jù)節(jié)點(diǎn)共有960 個,可能存在的連邊達(dá)到920640 條,而實(shí)驗(yàn)集中的實(shí)際連邊僅有1405 條,占全部可能連邊的0.15%,這是個非常稀疏的網(wǎng)絡(luò),如果實(shí)際連邊數(shù)能夠再增加,hyper‐net2vec 框架的鏈路預(yù)測效果將會有比其他指標(biāo)更大幅度的提升。

        圖6 不同正樣本量下hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)的AUC值

        影響模型預(yù)測效果的另一個因素是正負(fù)樣本的比例。由于訓(xùn)練集數(shù)據(jù)正負(fù)樣本比例嚴(yán)重失衡,在這種情況下,常用的方案是過采樣和欠采用。在本實(shí)驗(yàn)中,兩種采樣方式差異不大,但是正負(fù)樣本比例須控制在1∶20 以內(nèi),才能保證較好的預(yù)測效果,如果負(fù)樣本占比過大,模型的預(yù)測AUC 值會出現(xiàn)快速下降。這也提示在模型訓(xùn)練時(shí)必須考慮到正負(fù)樣本的比例問題,否則可能存在比較嚴(yán)重的過擬合風(fēng)險(xiǎn)。

        5 結(jié)論與展望

        5.1 研究結(jié)論

        當(dāng)前知識網(wǎng)絡(luò)鏈路預(yù)測主要是基于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)相似性,很少考慮作者的研究領(lǐng)域等相關(guān)的文本信息,導(dǎo)致信息利用不充分等問題,本文提出了一種綜合采用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)文本信息的雙層知識網(wǎng)絡(luò)的鏈路預(yù)測框架hypernet2vec 算法。雙層知識網(wǎng)絡(luò),即作者合著關(guān)系網(wǎng)絡(luò)和學(xué)術(shù)領(lǐng)域關(guān)系網(wǎng)絡(luò),利用網(wǎng)絡(luò)表示學(xué)習(xí),分別將兩層網(wǎng)絡(luò)中的節(jié)點(diǎn)映射到低維的向量空間,再輸入到專門設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)中計(jì)算并進(jìn)行鏈路預(yù)測。通過在我國管理學(xué)領(lǐng)域的實(shí)際科研合著網(wǎng)絡(luò)中進(jìn)行實(shí)驗(yàn),研究結(jié)果表明,與經(jīng)典的鏈路預(yù)測指標(biāo)(如RA 指標(biāo)、LP 指標(biāo)、LRW 指標(biāo)和余弦相似性指標(biāo)等)相比,hyper‐net2vec 算法預(yù)測的AUC 值取得了顯著的提升,平均提升幅度達(dá)11.17%,并且隨著知識網(wǎng)絡(luò)密度的增加,hypernet2vec 算法的預(yù)測準(zhǔn)確性提升最為明顯。綜上所述,本文所提出的算法是一種新的且行之有效的鏈路預(yù)測算法,能夠在真實(shí)的知識網(wǎng)絡(luò)環(huán)境中表現(xiàn)出優(yōu)異的預(yù)測性能。

        5.2 研究貢獻(xiàn)

        5.2.1 進(jìn)一步明晰知識網(wǎng)絡(luò)鏈接的混合擇優(yōu)機(jī)制

        目前,有關(guān)知識網(wǎng)絡(luò)演化機(jī)制的提法較多,如富者愈富、好者變富、馬太效應(yīng)、累積優(yōu)勢等。這些演化機(jī)制都指向了BA 網(wǎng)絡(luò)的無標(biāo)度屬性,即網(wǎng)絡(luò)演化是度擇優(yōu)機(jī)制發(fā)生作用的結(jié)果,經(jīng)典的鏈路預(yù)測模型與這種優(yōu)先連接機(jī)制密切相關(guān)。經(jīng)典模型在很大程度上解釋了新連邊的來源,但由于受到單層網(wǎng)絡(luò)結(jié)構(gòu)特征的限制,難以描述真實(shí)知識網(wǎng)絡(luò)的連邊產(chǎn)生機(jī)制。這是因?yàn)橹R網(wǎng)絡(luò)新增連邊時(shí),節(jié)點(diǎn)除了傾向度大的節(jié)點(diǎn)合作外,還受到其他內(nèi)在因素的驅(qū)動,包括人際交往、知識交流等[21]。有些學(xué)者已經(jīng)意識到這個問題,通過研究提出了可能影響鏈路預(yù)測的額外機(jī)制,如認(rèn)為知識節(jié)點(diǎn)的外部屬性對連邊的形成也具有貢獻(xiàn)。但是目前的文獻(xiàn)大多是從理論上進(jìn)行闡述,在真實(shí)知識網(wǎng)絡(luò)中進(jìn)行檢驗(yàn)的研究很少,尤其是對加入作者興趣和研究領(lǐng)域后鏈路預(yù)測性能提升的定量研究幾乎沒有。hypernet2vec模型綜合利用了作者合著關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)信息和研究領(lǐng)域關(guān)系網(wǎng)絡(luò)的文本信息,實(shí)際上,是引入混合網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)屬性信息的擇優(yōu)機(jī)制,帶來了鏈路預(yù)測性能的大幅提升。研究表明,本模型比僅利用合著網(wǎng)絡(luò)結(jié)構(gòu)信息的edge2vec 模型的AUC 值由0.7039 提升至0.7766,比僅利用研究領(lǐng)域的doc2vec模型的AUC 值提升幅度達(dá)到12%。

        5.2.2 進(jìn)一步揭示知識網(wǎng)絡(luò)鏈路預(yù)測中神經(jīng)網(wǎng)絡(luò)發(fā)生作用的深層機(jī)理

        網(wǎng)絡(luò)表示學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)都是人工智能領(lǐng)域熱門研究方向,并且被不同的學(xué)科驗(yàn)證其有效性。本文首次在雙層知識網(wǎng)絡(luò)中引入表示學(xué)習(xí)技術(shù)和卷積神經(jīng)網(wǎng)絡(luò),取得了良好的效果,進(jìn)一步揭示了神經(jīng)網(wǎng)絡(luò)在知識網(wǎng)絡(luò)鏈路預(yù)測中發(fā)生作用的深層機(jī)理。

        正如文獻(xiàn)回顧和相關(guān)研究中指出,情報(bào)產(chǎn)生原理的理論基礎(chǔ)是相似性原理。雙層知識網(wǎng)絡(luò)的鏈路產(chǎn)生,即兩個作者建立合作關(guān)系,根本上由網(wǎng)絡(luò)結(jié)構(gòu)本身和作者研究領(lǐng)域決定。前者代表作者在整個網(wǎng)絡(luò)中的幾何結(jié)構(gòu)特征相似,在網(wǎng)絡(luò)中具有相似的網(wǎng)絡(luò)地位和功能;后者代表作者的屬性相似性,作者的研究領(lǐng)域相似的地方越多、越強(qiáng)烈,其合作關(guān)系的產(chǎn)生可能性越大。相似性是復(fù)雜系統(tǒng)重要的動力學(xué)機(jī)制,知識網(wǎng)絡(luò)節(jié)點(diǎn)連接的相似性原理是復(fù)雜系統(tǒng)自相似理論和分形理論的具體體現(xiàn)。從節(jié)點(diǎn)的角度看,具有潛在連接可能的節(jié)點(diǎn)之間具有相似的結(jié)構(gòu)和研究領(lǐng)域,從連邊的角度看,邊的產(chǎn)生與邊的結(jié)構(gòu)、功能、含義的相似性有關(guān)。知識網(wǎng)絡(luò)節(jié)點(diǎn)和連邊的相似性通過節(jié)點(diǎn)表示學(xué)習(xí)以及節(jié)點(diǎn)表示學(xué)習(xí)的綜合,來進(jìn)行抽象和計(jì)算。在節(jié)點(diǎn)表示學(xué)習(xí)的計(jì)算過程中,運(yùn)用了基于隨機(jī)游走的各種策略,如DFS、BFS 等,這些策略使得本文得到的節(jié)點(diǎn)表示學(xué)習(xí)向量不僅能包括節(jié)點(diǎn)小局部的結(jié)構(gòu)和功能,還包括更大范圍的局部甚至近乎整體的特征。而這正是自相似和分形理論“通過認(rèn)識部分來反映和認(rèn)識整體,以及通過認(rèn)識整體來把握和深化對部分的認(rèn)識”思想的具體實(shí)現(xiàn),其揭示了知識網(wǎng)絡(luò)系統(tǒng)看似雜亂、破碎的連邊現(xiàn)象內(nèi)部所蘊(yùn)含的規(guī)律,使知識網(wǎng)絡(luò)系統(tǒng)從無序中發(fā)現(xiàn)有序。另外,情報(bào)序化原理依據(jù)耗散結(jié)構(gòu)理論來闡述,即系統(tǒng)由無序走向有序的一個重要條件,是系統(tǒng)內(nèi)部要素之間存在非線性的相互作用。本文提出的鏈路預(yù)測模型基于卷積神經(jīng)網(wǎng)絡(luò),在激活網(wǎng)絡(luò)結(jié)點(diǎn)時(shí)引入非線性函數(shù)sig‐moid,該函數(shù)數(shù)學(xué)形式是,通過該激活函數(shù)將上層節(jié)點(diǎn)的輸入進(jìn)行非線性轉(zhuǎn)換,然后輸出到下一層神經(jīng)網(wǎng)絡(luò),這實(shí)際是對雙層知識網(wǎng)絡(luò)作者之間非線性相互作用機(jī)制的模擬,也是卷積神經(jīng)網(wǎng)絡(luò)能夠起作用的深層依據(jù)。

        5.3 研究展望

        作者合作關(guān)系的鏈路預(yù)測是多種因素共同驅(qū)動的結(jié)果。本文提出的基于網(wǎng)絡(luò)表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測模型綜合考慮了合著網(wǎng)絡(luò)本身的內(nèi)生動力、作者合作的歷史、作者的研究領(lǐng)域等信息,這些信息通過相互補(bǔ)充,降低了網(wǎng)絡(luò)的不確定性,增加了鏈路預(yù)測的成功率。然而,知識網(wǎng)絡(luò)作為科學(xué)知識積累和思想傳播的載體網(wǎng)絡(luò),知識的傳承與創(chuàng)新還通過學(xué)者之間的非正式網(wǎng)絡(luò)進(jìn)行聯(lián)系和溝通。這個非正式網(wǎng)絡(luò)包括學(xué)者的學(xué)術(shù)群體朋友圈、師徒關(guān)系等社會網(wǎng)絡(luò)。如果能夠?qū)W(xué)者的社會網(wǎng)絡(luò)層增加到雙層知識網(wǎng)絡(luò)中,擴(kuò)展知識網(wǎng)絡(luò)到三層,這對作者合作關(guān)系的預(yù)測無疑起到積極的作用,這也是將來值得研究的方向。另外,本模型沒有考慮到作者合作關(guān)系的權(quán)重,對加權(quán)網(wǎng)絡(luò)的研究也值得進(jìn)一步探索。

        无码一区二区三区不卡AV| 国产综合久久久久久鬼色| 丰满人妻被黑人猛烈进入| 亚洲色图视频在线| 台湾佬中文偷拍亚洲综合| 男人天堂亚洲天堂av| 国产欧美日韩一区二区三区| 久久天天躁夜夜躁狠狠躁2022| 久久无码高潮喷水抽搐| 中文字幕亚洲入口久久 | 人妻夜夜爽天天爽三区麻豆av网站| 中文字幕无码精品亚洲资源网久久| 4hu44四虎www在线影院麻豆 | 国产精品国产高清国产专区| 国产精品99精品一区二区三区∴| 亚洲天天综合色制服丝袜在线| 久久精品熟女亚洲av艳妇| 日本少妇熟女一区二区| 国产精品久久久久久福利| 天天躁日日躁狠狠躁av中文| 中国女人a毛片免费全部播放| 国产成人亚洲系列毛片| 特黄熟妇丰满人妻无码 | 国产精品精品国产色婷婷| 国产一区二区三区四区五区加勒比| 精品久久久久久久久免费午夜福利| 日本一极品久久99精品| 我要看免费久久99片黄色| 99精品人妻少妇一区二区| 精品囯产成人国产在线观看| 在线观看日本一区二区三区| 脱了老师内裤猛烈进入| 亚洲av无码男人的天堂在线| 无码av专区丝袜专区| 在线播放草猛免费视频| 国产精品成人久久电影| 无码毛片高潮一级一免费| 女同亚洲一区二区三区精品久久| 奶头又大又白喷奶水av| 六月婷婷国产精品综合| 一区二区三区在线视频爽|