基于表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測

2021-03-15 07:52:36曹志鵬潘啟亮

情報(bào)學(xué)報(bào) 2021年2期

曹志鵬，潘定，潘啟亮

（暨南大學(xué)，廣州 510632）

知識網(wǎng)絡(luò)是由創(chuàng)造、轉(zhuǎn)移、吸收和應(yīng)用知識的行為主體構(gòu)成，在知識傳播與交流過程中，彼此聯(lián)結(jié)而形成的復(fù)雜網(wǎng)絡(luò)。許多學(xué)者借助合著網(wǎng)絡(luò)、引證網(wǎng)絡(luò)和共詞網(wǎng)絡(luò)等對知識網(wǎng)絡(luò)的形成和演化進(jìn)行了深入的研究。從研究對象和立足點(diǎn)上看，這些研究體現(xiàn)出了兩種不同的研究思路：一種是基于物理統(tǒng)計(jì)的方法，側(cè)重于對實(shí)際知識網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和演化特征進(jìn)行客觀的描述及分析，其研究對象往往是文獻(xiàn)、書刊等；另一種是基于認(rèn)知的角度，與思維、語言等要素相結(jié)合，側(cè)重語義地圖、知識圖譜等，其研究對象往往是關(guān)鍵詞等情報(bào)單元[1]。不同的研究思路促進(jìn)了知識網(wǎng)絡(luò)研究的發(fā)展，但也在一定程度上造成了割裂。實(shí)際上，知識網(wǎng)絡(luò)的完整研究應(yīng)該兼具物理統(tǒng)計(jì)和認(rèn)知兩種角度，但是這方面的進(jìn)展卻相對緩慢，目前僅有的研究主要集中于二部圖網(wǎng)絡(luò)和異質(zhì)網(wǎng)絡(luò)。近年來，人工智能領(lǐng)域，尤其是網(wǎng)絡(luò)表示學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的技術(shù)突破，為知識網(wǎng)絡(luò)的研究帶來了新的方法，為融合知識網(wǎng)絡(luò)客觀主體和認(rèn)知文本提供了新的途徑。

本文將借助知識表示學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)，對合著主體及知識文本分別建立復(fù)雜網(wǎng)絡(luò)，形成雙層知識網(wǎng)絡(luò)結(jié)構(gòu)。利用網(wǎng)絡(luò)表示學(xué)習(xí)，分別將兩層網(wǎng)絡(luò)中的節(jié)點(diǎn)映射到低維的向量空間，然后輸入到專門設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行鏈路預(yù)測。該模型在進(jìn)行鏈路預(yù)測時(shí)，綜合利用合著網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征以及作者研究領(lǐng)域等文本內(nèi)容中的潛在信息，使預(yù)測準(zhǔn)確率得到大幅提升。

1 相關(guān)研究工作

1.1 情報(bào)學(xué)基本原理

隨著科學(xué)的發(fā)展，學(xué)科領(lǐng)域日益復(fù)雜，知識與信息呈幾何級增長，知識體系逐步演化為一個(gè)復(fù)雜的知識網(wǎng)絡(luò)。知識網(wǎng)絡(luò)屬于宏觀情報(bào)學(xué)的研究范疇，知識網(wǎng)絡(luò)中節(jié)點(diǎn)的鏈路產(chǎn)生機(jī)制受到情報(bào)學(xué)基礎(chǔ)理論的指導(dǎo)和約束。靖繼鵬教授在著作《情報(bào)學(xué)理論基礎(chǔ)》[2]中給出四個(gè)基本原理，即情報(bào)產(chǎn)生原理、情報(bào)序化原理、情報(bào)傳遞原理和情報(bào)吸收原理。

靖繼鵬教授認(rèn)為，“情報(bào)產(chǎn)生原理”的理論基礎(chǔ)是相似性原理，包括幾何相似、運(yùn)動(dòng)相似和動(dòng)力相似。只有相似單元、相似層次的構(gòu)造，才能產(chǎn)生相似；具備相似過程、相似環(huán)境，相似才能產(chǎn)生。如果客觀事物中相似屬性、相似特征越多、越強(qiáng)烈，那么這種相似的功能就越多、越大?！扒閳?bào)序化原理”指出，序化就是將雜亂無章、隨機(jī)的知識，加以整序、分析綜合成人們解決問題的形態(tài)。情報(bào)序化原理依據(jù)耗散結(jié)構(gòu)理論來闡述，因?yàn)楹纳⒔Y(jié)構(gòu)理論同樣是人類情報(bào)現(xiàn)象和行為的基本原理?！扒閳?bào)傳遞原理”研究情報(bào)傳遞交流的行為和過程，情報(bào)傳遞必須處于激發(fā)狀態(tài)，即I≥I0，傳遞情報(bào)所需的時(shí)間（T）與其自身的價(jià)值（I）和情報(bào)用戶對情報(bào)的需求強(qiáng)度（F）成正比，與傳遞環(huán)境阻力（f）成反比?！扒閳?bào)吸收原理”指出，“情報(bào)接受”是用戶與情報(bào)之間保持的一種關(guān)系，是接受主體能動(dòng)的行為，是情報(bào)主體為了追求和實(shí)現(xiàn)情報(bào)價(jià)值的一種合目的性和合規(guī)律性的行為，其實(shí)質(zhì)是情報(bào)價(jià)值的選擇性實(shí)現(xiàn)[2-3]。

情報(bào)學(xué)的基本原理為知識網(wǎng)絡(luò)的鏈路預(yù)測提供了理論支撐，指明了鏈路預(yù)測的努力方向。網(wǎng)絡(luò)結(jié)構(gòu)相似性是鏈路預(yù)測的重要切入點(diǎn)，尋找知識網(wǎng)絡(luò)中與某節(jié)點(diǎn)結(jié)構(gòu)和功能類似的節(jié)點(diǎn)，有助于分析該節(jié)點(diǎn)可能產(chǎn)生的鏈路。情報(bào)序化的基礎(chǔ)耗散結(jié)構(gòu)理論指出，系統(tǒng)由無序走向有序的一個(gè)重要條件是系統(tǒng)內(nèi)部要素之間存在非線性的相互作用，那么作為復(fù)雜系統(tǒng)的知識網(wǎng)絡(luò)，其鏈路預(yù)測應(yīng)基于非線性的作用，即預(yù)測函數(shù)要具有非線性的特征。情報(bào)傳遞和吸收原理則動(dòng)態(tài)解釋了信息在高維知識網(wǎng)絡(luò)向量場中的流動(dòng)方向和大小。這些都表明，用同樣符合這些特征的人工神經(jīng)網(wǎng)絡(luò)來擬合知識網(wǎng)絡(luò)，借鑒網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)能夠提升鏈路預(yù)測的效果。

1.2 知識網(wǎng)絡(luò)鏈路預(yù)測

鏈路預(yù)測是知識網(wǎng)絡(luò)的重要研究領(lǐng)域，處理的是信息科學(xué)中最基本的問題——缺失信息的還原與預(yù)測。鏈路預(yù)測通過網(wǎng)絡(luò)中已知的網(wǎng)絡(luò)節(jié)點(diǎn)、網(wǎng)絡(luò)結(jié)構(gòu)等信息，預(yù)測網(wǎng)絡(luò)中尚未產(chǎn)生的兩個(gè)結(jié)點(diǎn)之間產(chǎn)生鏈接的可能性[4]。鏈路預(yù)測可以分為兩類：未知鏈路預(yù)測和未來鏈路預(yù)測。未知鏈路（missing links）是指網(wǎng)絡(luò)中實(shí)際存在，但尚未被探測到的鏈路；未來鏈路（future links）是指網(wǎng)絡(luò)中目前不存在，但應(yīng)該存在或?qū)砗芸赡艽嬖诘逆溌贰烧邔?yīng)的數(shù)據(jù)集劃分方法也有所不同，前者多采用隨機(jī)抽樣，后者需要考慮時(shí)序狀態(tài)[5]。

經(jīng)典的鏈路預(yù)測方法主要有：①基于節(jié)點(diǎn)結(jié)構(gòu)相似性的方法，包括共同鄰居（common neighbors，CN）指標(biāo)、Adamic-Adar（AA）指標(biāo)、網(wǎng)絡(luò)資源分配（resource allocation，RA）指標(biāo)等；②基于路徑結(jié)構(gòu)相似性的方法，包括局部路徑（local path，LP）指標(biāo)、Katz 指標(biāo)和LHN-II（Leicht-Holme-Newman -II）指標(biāo)等；③基于隨機(jī)游走相似性的方法，包括平均通勤時(shí)間（average commute time，ACT）指標(biāo)、有重啟的隨機(jī)游走（random walk with restart，RWR）指標(biāo)、局部隨機(jī)游走（locally random walk，LRW）指標(biāo)等。此外，還有一些研究提出了基于似然分析和基于機(jī)器學(xué)習(xí)的鏈路預(yù)測方法。這些算法以及衍生出來的改進(jìn)算法，都是通過對已知數(shù)據(jù)結(jié)構(gòu)特征的刻畫來實(shí)現(xiàn)預(yù)測。雖然在科學(xué)合著網(wǎng)絡(luò)等實(shí)際網(wǎng)絡(luò)中取得了較好的預(yù)測效果，但是也存在明顯的不足，即這些指標(biāo)一般只能運(yùn)用到同質(zhì)性的復(fù)雜網(wǎng)絡(luò)中，不能用于包含異質(zhì)節(jié)點(diǎn)和異質(zhì)邊的網(wǎng)絡(luò)。

近年，有一些學(xué)者在經(jīng)典鏈路預(yù)測方法之外另辟蹊徑，嘗試提出二分網(wǎng)絡(luò)等異質(zhì)網(wǎng)絡(luò)的鏈路預(yù)測方法。張金柱等[6]在作者-關(guān)鍵詞二分網(wǎng)絡(luò)中，抽取多種路徑表示作者間的關(guān)聯(lián)，并計(jì)算多種合著連接預(yù)測指標(biāo)，最終通過機(jī)器學(xué)習(xí)方法組合這些指標(biāo)，構(gòu)建出一個(gè)二分網(wǎng)絡(luò)中基于路徑組合的合著關(guān)系預(yù)測模型。項(xiàng)欣等[7]以作者-關(guān)鍵詞網(wǎng)絡(luò)為例，基于相似連接、優(yōu)先連接等演化機(jī)制，構(gòu)建了二分屬性知識網(wǎng)絡(luò)上的鏈路預(yù)測模型。陳文杰等[8]以CNKI 引文數(shù)據(jù)集為例，結(jié)合引文網(wǎng)絡(luò)K階鄰近結(jié)構(gòu)和關(guān)鍵詞屬性，提出了基于向量共享的交叉學(xué)習(xí)機(jī)制，并運(yùn)用到鏈路預(yù)測中。整體上看，已有的關(guān)于異質(zhì)知識網(wǎng)絡(luò)或多層知識網(wǎng)絡(luò)的研究還很少，且已提出的算法僅是考慮到了節(jié)點(diǎn)的文本詞語，少有結(jié)合網(wǎng)絡(luò)表示學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)并進(jìn)行深入分析的成果。

1.3 網(wǎng)絡(luò)表示學(xué)習(xí)

網(wǎng)絡(luò)表示學(xué)習(xí)的目的是學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的潛在低維表示，同時(shí)保留網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、節(jié)點(diǎn)內(nèi)容、節(jié)點(diǎn)外部信息以及其他方面的信息。常見的基于網(wǎng)絡(luò)表示學(xué)習(xí)算法主要分成兩大類。

一是基于網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)。這類算法包括：基于矩陣分解和特征向量計(jì)算的方法、基于簡單神經(jīng)網(wǎng)絡(luò)的方法和基于深層神經(jīng)網(wǎng)絡(luò)的方法。具體算法包括譜聚類方法中的局部線性表示（locally linear embedding，LLE）、拉普拉斯特征映射（La‐placian eigenmap，LE）、有向圖表示（directed graph embedding，DGE）、GraRep 算法[9]及各類改進(jìn)算法。這類算法基于網(wǎng)絡(luò)的鄰接矩陣或者拉普拉斯矩陣，在時(shí)間復(fù)雜度和空間復(fù)雜度上都較高，難以應(yīng)用到大規(guī)模數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)中[10]。神經(jīng)網(wǎng)絡(luò)相關(guān)的網(wǎng)絡(luò)表示學(xué)習(xí)算法主要有DeepWalk 算法、word2vec 算法、LINE 算法和SDNE 算法等[11]。這類算法使用隨機(jī)游走序列而不是鄰接矩陣，雖然降低了計(jì)算時(shí)間和空間消耗，但是仍然專注于網(wǎng)絡(luò)結(jié)構(gòu)本身而無法處理節(jié)點(diǎn)結(jié)構(gòu)以外的額外信息。

二是結(jié)合外部信息的網(wǎng)絡(luò)表示學(xué)習(xí)。在真實(shí)世界的復(fù)雜網(wǎng)絡(luò)中，節(jié)點(diǎn)往往具有豐富的外部信息，如標(biāo)簽信息、地理位置信息、研究領(lǐng)域信息等。傳統(tǒng)網(wǎng)絡(luò)表示學(xué)習(xí)主要依賴網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息，而忽略了這些異質(zhì)的外部信息。增加外部信息有助于提高網(wǎng)絡(luò)表示的質(zhì)量，并增強(qiáng)表示向量在具體的網(wǎng)絡(luò)分析中的應(yīng)用。半監(jiān)督的網(wǎng)絡(luò)表示學(xué)習(xí)方法，如MMDW 算法[12]、node2vec 算法、GCN 算法[13]等；結(jié)合外部信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法主要是結(jié)合文本信息的方法，如TADW 算法[14]、CANE 算法[15]等；結(jié)合邊上標(biāo)簽信息的網(wǎng)絡(luò)表示學(xué)習(xí)，如TransNet 算法[16]等。

知識網(wǎng)絡(luò)表示學(xué)習(xí)是面向知識網(wǎng)絡(luò)中的實(shí)體和關(guān)系進(jìn)行表示學(xué)習(xí)，該方向逐漸成為知識網(wǎng)絡(luò)領(lǐng)域熱門研究話題，在知識網(wǎng)絡(luò)的節(jié)點(diǎn)分類、聚類分析和鏈路預(yù)測等領(lǐng)域有良好的運(yùn)用前景。

2 研究思路與研究設(shè)計(jì)

本研究的雙層知識網(wǎng)絡(luò)，由作者合著關(guān)系網(wǎng)絡(luò)和學(xué)術(shù)領(lǐng)域關(guān)系網(wǎng)絡(luò)構(gòu)成，是具有雙層網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)。首先，通過特定的網(wǎng)絡(luò)表示學(xué)習(xí)算法，分別計(jì)算得到兩層網(wǎng)絡(luò)中節(jié)點(diǎn)的低維向量表示；其次，將代表同一作者的向量按照特定規(guī)則運(yùn)算，得到該作者的綜合向量表示；最后，在進(jìn)行鏈路預(yù)測時(shí)，將兩個(gè)作者的綜合向量表示作為輸入，通過深層卷積神經(jīng)網(wǎng)絡(luò)計(jì)算，輸出作者間合作的概率。新的節(jié)點(diǎn)向量融合了作者合著關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)信息和作者學(xué)術(shù)領(lǐng)域信息，具有更優(yōu)秀的鏈接預(yù)測能力。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

作者合著關(guān)系網(wǎng)絡(luò)記作G=(V,E)，其中V表示節(jié)點(diǎn)集合，E表示邊的集合；邊e=(vi,vj) ∈E表示了節(jié)點(diǎn)vi到vj的一條邊，i,j≤|V|，|V|表示網(wǎng)絡(luò)節(jié)點(diǎn)的數(shù)量。網(wǎng)絡(luò)的鄰接矩陣定義為A∈R|V|×|V|。若(vi,vj)∈E，則Aij= 1；否則，Aij= 0。采用鄰接矩陣作為該網(wǎng)絡(luò)的表達(dá)形式，鄰接矩陣A的每一行，表示節(jié)點(diǎn)與所有其他節(jié)點(diǎn)的合作關(guān)系。

網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)，主要采用node2vec 算法。該算法以word2vec 算法為基礎(chǔ)，由Grover 等[17]在2016 年提出，其改進(jìn)了經(jīng)典的DeepWalk 算法的游走序列生成策略，引入將寬度優(yōu)先搜索（breadth-first sampling，BFS）和深度優(yōu)先搜索（depth-first sam‐pling，DFS）策略，DFS 注重鄰近的節(jié)點(diǎn)并刻畫了相對局部的一種網(wǎng)絡(luò)表示，BFS 則反映了更高層面上的節(jié)點(diǎn)間的同質(zhì)性。該算法通過兼顧BFS 的寬度和DFS 的廣度，讓隨機(jī)游走序列更完整的保存節(jié)點(diǎn)中所包含的網(wǎng)絡(luò)原始信息。具體如圖1 所示。

該算法將Skip-Gram 架構(gòu)擴(kuò)展到網(wǎng)絡(luò)，尋求優(yōu)化目標(biāo) 函數(shù)并使用隨機(jī)梯度上升來優(yōu)化模型參數(shù)[17]。其中，vi∈V，定義Ns(vi)?V為節(jié)點(diǎn)vi通過策略S得到的鄰居節(jié)點(diǎn)。在得到節(jié)點(diǎn)的表示學(xué)習(xí)向量后，Grover 等[17]通過bootstrapping 方法將單個(gè)節(jié)點(diǎn)的特征學(xué)習(xí)擴(kuò)展到節(jié)點(diǎn)對的特征學(xué)習(xí)中，并提出edge2vec 方法，以適用（于）網(wǎng)絡(luò)節(jié)點(diǎn)對的鏈路預(yù)測任務(wù)。具體如表1所示。

圖1 BFS和DFS的節(jié)點(diǎn)vi搜索策略（修改自文獻(xiàn)[17]）

表1 生成節(jié)點(diǎn)對向量的二元運(yùn)算方法（修改自文獻(xiàn)[17]）

2.2 研究領(lǐng)域表示學(xué)習(xí)

與網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)類似，將作者研究領(lǐng)域網(wǎng)絡(luò)記作D=(N,B)，其中N是節(jié)點(diǎn)集合，B是邊的集合，邊b=(ni,nj) ≤B表示節(jié)點(diǎn)ni到nj的一條邊，i,j∈|N|。網(wǎng)絡(luò)的鄰接矩陣定義為B∈R|N|×|N|，|N|表示網(wǎng)絡(luò)中節(jié)點(diǎn)的數(shù)量，若(ni,nj)∈B，則Bij= 1；否則，Bij= 0。

研究領(lǐng)域表示學(xué)習(xí)主要采用doc2vec 算法，該算法基于word2vec 算法，由Mikolov 等[18-19]提出。實(shí)際上，word2vec 是一個(gè)淺層神經(jīng)網(wǎng)絡(luò)模型，輸入是采用獨(dú)熱編碼的單詞，隱藏層不使用激活函數(shù)，用Softmax 回歸。當(dāng)模型訓(xùn)練好后，該模型通過訓(xùn)練數(shù)據(jù)所學(xué)得的隱藏層的權(quán)重矩陣即詞的向量表示。這個(gè)模型在定義數(shù)據(jù)的輸入和輸出時(shí)，一般分為CBOW（continuous bag-of-words）與Skip-Gram 兩種方法。CBOW 模型的訓(xùn)練輸入是某一個(gè)特征詞的上下文相關(guān)詞所對應(yīng)的詞向量，而輸出就是這個(gè)特定詞的詞向量。Skip-Gram 方法與CBOW 相反，即輸入是一個(gè)特定詞的詞向量，而輸出是特定詞對應(yīng)的上下文詞向量。具體如圖2 所示。

圖2 CBOW和Skip-Gram模型（修改自文獻(xiàn)[18]）

以word2vec 為基礎(chǔ)，Mikolov 在2013 年提出了句子和文檔的向量表示模型，即doc2vec，模型在輸入層引入了文檔向量，并將其看作輸入單詞所構(gòu)成的語境信息的補(bǔ)充[20]。與word2vec 的Skip-Gram和CBOW 方法對應(yīng)，doc2vec 在處理輸入向量和輸出向量時(shí)，也分為PV-DM（distributed memory ver‐sion of paragraph vector）和PV-DBOW （distributed bag of words version of paragraph vector）兩種方法，具體如圖3 所示。

在doc2vec 得到文檔的表示學(xué)習(xí)后，可以利用文檔的余弦相似性進(jìn)行作者間的鏈路預(yù)測。

圖3 PV-DM和PV-DBOW文檔表示學(xué)習(xí)框架（修改自文獻(xiàn)[19]）

2.3 雙層知識網(wǎng)絡(luò)鏈路預(yù)測

雙層知識網(wǎng)絡(luò)鏈路預(yù)測主要通過專門設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)完成，做到同時(shí)關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)節(jié)點(diǎn)向量和研究領(lǐng)域節(jié)點(diǎn)向量，更好的聚合網(wǎng)絡(luò)結(jié)構(gòu)和文本信息，大幅度提高鏈路預(yù)測的準(zhǔn)確性。這是由于該關(guān)注機(jī)制避免了傳統(tǒng)單層合著網(wǎng)絡(luò)表示學(xué)習(xí)的不足，即單層合著網(wǎng)絡(luò)的表示學(xué)習(xí)只能依靠節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)的特征，無法感知節(jié)點(diǎn)的屬性信息，使得預(yù)測能力受到網(wǎng)絡(luò)結(jié)構(gòu)的限制。知識網(wǎng)絡(luò)中作者的合作預(yù)測固然是作者根據(jù)自身合作經(jīng)歷所做出的理性選擇，有來自以往合作的慣性動(dòng)力，與此同時(shí)，作者在選擇合作伙伴時(shí)也關(guān)注與自己研究領(lǐng)域相近的其他作者。新的鏈路產(chǎn)生是多方面共同作用的結(jié)果。以往的研究大多聚焦在一個(gè)方面，少有同時(shí)關(guān)注文本和結(jié)構(gòu)信息的知識網(wǎng)絡(luò)鏈路預(yù)測方法，或者尚未形成較為理想的模型。本研究提出的雙層知識網(wǎng)絡(luò)鏈路框架（圖4）通過引入節(jié)點(diǎn)屬性的特征向量，給單層合著網(wǎng)絡(luò)帶來額外的信息，減少知識網(wǎng)絡(luò)的混沌程度，有效且大幅度強(qiáng)化了網(wǎng)絡(luò)的預(yù)測能力。

圖4 卷積神經(jīng)網(wǎng)絡(luò)鏈路預(yù)測框架

本研究提出的框架主要借鑒了圖像視覺識別領(lǐng)域成熟的卷積神經(jīng)網(wǎng)絡(luò)機(jī)制。卷積神經(jīng)網(wǎng)絡(luò)有兩個(gè)突出的優(yōu)勢：一個(gè)是參數(shù)共享，降低了神經(jīng)網(wǎng)絡(luò)處理圖像時(shí)內(nèi)存和計(jì)算資源的開銷；另外一個(gè)是具有局部感知能力，與人類處理圖像的機(jī)制類似，局部感知機(jī)制使得每個(gè)神經(jīng)元不需要感知圖像中的全部信息，只對圖像的局部像素進(jìn)行感知，然后在全連接層進(jìn)行合并，從而得到圖像的總體表征。這種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者其他形式的變形具有高度不變性。

卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)使其非常適合運(yùn)用到雙層知識網(wǎng)絡(luò)的鏈路預(yù)測中，但需要解決一個(gè)問題，即使用什么樣的輸入和輸出數(shù)據(jù)作為訓(xùn)練的樣本？在圖像處理中，往往使用圖片的像素矩陣；在自然語言處理中，往往是上下文詞語的one-hot 表示。顯然，在雙層知識網(wǎng)絡(luò)中，并沒有現(xiàn)成的數(shù)據(jù)來源，尤其是要結(jié)合兩層網(wǎng)絡(luò)的所有信息。因此，本研究提出了一種整合結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)和作者研究領(lǐng)域表示學(xué)習(xí)的數(shù)據(jù)整合方式，

其中，Dinput和Doutput分別表示卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)和分類標(biāo)簽（即是否存在鏈接）；f(vi)表示圖G中的節(jié)點(diǎn)vi通過node2vec 訓(xùn)練后得到的表示學(xué)習(xí)；γ(ni)表示圖D中的節(jié)點(diǎn)ni通過word2vec 訓(xùn)練后得到的表示學(xué)習(xí)；Aij表示在作者合著關(guān)系網(wǎng)絡(luò)中節(jié)點(diǎn)vi和vj的度；運(yùn)算符號◎表示對向量按行進(jìn)行疊加操作，例如：的運(yùn)算結(jié)果構(gòu)成了雙層知識網(wǎng)絡(luò)中的作者vi的綜合向量，該向量聚合了網(wǎng)絡(luò)結(jié)構(gòu)信息和研究領(lǐng)域信息，應(yīng)當(dāng)注意的是，研究領(lǐng)域圖D中的節(jié)點(diǎn)ni須是作者節(jié)點(diǎn)vi對應(yīng)的研究領(lǐng)域。

根據(jù)圖4，Dinput是卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入，即進(jìn)行◎操作后的節(jié)點(diǎn)對向量，框架主體包括2 個(gè)卷積層、1 個(gè)池化層和2 個(gè)全連接層，輸出Doutput是兩個(gè)節(jié)點(diǎn)間的鏈接情況，是2 分類變量。下文將使用hypernet2vec 代表基于卷積神經(jīng)網(wǎng)絡(luò)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測框架。

2.4 模型評價(jià)

為了驗(yàn)證鏈路預(yù)測的性能，通常將數(shù)據(jù)劃分為兩部分：一部分用于模型訓(xùn)練，一部分用于模型預(yù)測。本研究采用AUC（area under curve）作為評估模型的評價(jià)指標(biāo)，通過比較雙層知識網(wǎng)絡(luò)的鏈路預(yù)測和其他鏈路預(yù)測指標(biāo)的AUC 值，判斷本模型與主流模型的性能優(yōu)劣。AUC 是從整體上衡量算法的性能，其在幾何上指的是ROC 曲線（receiver oper‐ating characteristic curve）下面積的大小，也可以理解為在測試集中隨機(jī)選擇一條連邊的預(yù)測分?jǐn)?shù)值，比隨機(jī)選擇一條不存在的邊的預(yù)測分?jǐn)?shù)值高的概率。假設(shè)獨(dú)立比較n次，如果有n'次測試集中的分?jǐn)?shù)大于不存在集合中的邊的分?jǐn)?shù)，有n"次相等，那么AUC 的定義為

本研究將利用這個(gè)指標(biāo)來衡量模型的性能，AUC值越高，表示模型更加優(yōu)越。

3 數(shù)據(jù)來源與數(shù)據(jù)處理

本研究采用Python 編程語言和TensorFlow 機(jī)器學(xué)習(xí)框架作為數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理和模型實(shí)現(xiàn)的開發(fā)工具。

3.1 數(shù)據(jù)來源和數(shù)據(jù)抽樣

3.1.1 數(shù)據(jù)來源

本研究的基礎(chǔ)數(shù)據(jù)采集自CSSCI（Chinese Social Sciences Citation Index，中文社會(huì)科學(xué)引文索引）數(shù)據(jù)庫中2010—2018 年管理學(xué)核心期刊論文的基本信息，包括《管理世界》《南開管理評論》《中國行政管理》等10 種，論文基本信息包括論文名稱、論文作者、論文標(biāo)題和論文關(guān)鍵詞，共采集16523 篇論文，論文作者19650 名。

3.1.2 數(shù)據(jù)抽樣

與鏈路預(yù)測研究常見的抽樣方法不同，本研究不能直接采用隨機(jī)抽樣的方法生成訓(xùn)練集和測試集數(shù)據(jù)。這是由于一篇文章發(fā)表之后，作者、參考文獻(xiàn)和關(guān)鍵詞這些屬性信息就確定了，因此斷邊重連機(jī)制無法應(yīng)用其中[3]。具體來講，本研究加入了經(jīng)典鏈路預(yù)測指標(biāo)（如CN 指標(biāo)、RA 指標(biāo)、LP 指標(biāo)等）所不涉及的作者研究領(lǐng)域信息，如果在建立訓(xùn)練集和測試集時(shí)，不區(qū)分同一作者在兩個(gè)數(shù)據(jù)集合中的研究領(lǐng)域信息，會(huì)導(dǎo)致訓(xùn)練集中的部分作者研究領(lǐng)域信息重合和其在訓(xùn)練集中的研究領(lǐng)域信息一致；如果直接使用本模型，可能導(dǎo)致錯(cuò)誤的實(shí)驗(yàn)結(jié)果。

例如，假設(shè)作者A、作者B 和作者C 共同發(fā)表了一篇文章，即作者A、B、C 相互間建立了連接關(guān)系，那么三位作者也共享基于該論文題目和關(guān)鍵詞的研究領(lǐng)域文檔。如果作者A 與作者B 的連邊和作者A 和作者C 的連邊被選擇進(jìn)入訓(xùn)練集，作者B和作者C 的連邊進(jìn)入測試集，很顯然，因?yàn)锽和C有幾近相同的研究領(lǐng)域（即研究領(lǐng)域相似度約等于1），在預(yù)測B 和C 的連接時(shí)，不管模型本身的預(yù)測效果如何，B 和C 幾乎能夠被預(yù)測。顯而易見，這種預(yù)測結(jié)果并不是因?yàn)槟Ｐ偷呢暙I(xiàn)，而僅僅是因?yàn)橛?xùn)練集中已經(jīng)包含了測試集的信息，這不是本研究所希望看到的檢驗(yàn)?zāi)Ｐ偷男Ч?。以往一些類似的研究中，采用了上面隨機(jī)抽樣的方法，可能忽視或者低估這個(gè)問題對檢驗(yàn)結(jié)果的影響。

要得到能夠適合本研究的訓(xùn)練集和測試集數(shù)據(jù)，必須保證訓(xùn)練集和測試集中同一作者的研究領(lǐng)域不能采集自同一篇論文。一種可行的方法是采取時(shí)間分段抽樣，以某一時(shí)點(diǎn)為分界，將該時(shí)間點(diǎn)以前的所有論文用于建立訓(xùn)練集，該時(shí)點(diǎn)之后的所有論文用于建立測試集。

3.2 數(shù)據(jù)處理

本研究以2015 年為時(shí)間節(jié)點(diǎn)，將2010—2014 年的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù)源，2015—2018 年的數(shù)據(jù)作為測試集數(shù)據(jù)源，測試集和訓(xùn)練集的論文量如表2所示。篩選出2 個(gè)數(shù)據(jù)源中共同出現(xiàn)過的作者，利用訓(xùn)練集數(shù)據(jù)源建立作者合著關(guān)系網(wǎng)絡(luò)，選取其中最大連通子圖的節(jié)點(diǎn)作為最終訓(xùn)練和測試樣本的節(jié)點(diǎn)。

表2 2010—2018年CSSCI管理學(xué)核心期刊論文數(shù)

3.2.1 網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

首先，建立訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)G。采用鄰接矩陣作為該網(wǎng)絡(luò)的表達(dá)形式，鄰接矩陣的每一行表示一個(gè)節(jié)點(diǎn)和其他節(jié)點(diǎn)的合作關(guān)系，關(guān)系值用0 和1 表示，0 代表沒有發(fā)生過合作，1 代表有過合作，網(wǎng)絡(luò)基本特征如表3 所示。

表3 訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)的基本特征

在作者合著關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上采用node2vec 計(jì)算得到網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)，向量的維度d=128，如表4 所示。

表4 訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

在表4 中，節(jié)點(diǎn){v1,v2,v3,…,v960}={吳曉波,楊力,高旭東,吳曉云,…,宿慧爽}∈V。表中的每一行代表從作者合著關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)中捕獲和學(xué)習(xí)到的信息，每一列代表該信息的一個(gè)維度。

3.2.2 研究領(lǐng)域表示學(xué)習(xí)

作者研究領(lǐng)域主要用作者發(fā)表過的論文標(biāo)題和關(guān)鍵詞來描述。從訓(xùn)練集提取出作者所發(fā)表的每一篇論文的關(guān)鍵詞和論文標(biāo)題，合并為一篇文檔；然后，對文檔進(jìn)行中文分詞，得到一個(gè)關(guān)鍵詞集合，該集合代表了作者的學(xué)術(shù)研究領(lǐng)域。

{吳曉波：技術(shù)創(chuàng)新戰(zhàn)略制造企業(yè) 阿里巴巴集團(tuán) 專利綠色運(yùn)營模式企業(yè)績效政府作用許可二次創(chuàng)新技術(shù)跨越……}

{楊力：全要素能源效率無效影子價(jià)格技術(shù)缺口比率區(qū)域差異能源技術(shù) 技術(shù)差距改進(jìn) 決策單元中國共同技術(shù)率非期望產(chǎn)出……}

{高旭東：商業(yè)模式探索型創(chuàng)新企業(yè) 融資社會(huì)嵌入低收入群體利用型創(chuàng)新多案例研究BOP 人力資本}

{吳曉云：模式全球化組織結(jié)構(gòu) 戰(zhàn)略營銷顧客服務(wù)營銷標(biāo)準(zhǔn)化績效前置因素服務(wù)性全球營銷戰(zhàn)略市場相似性東道國服務(wù)性跨國公司……}

根據(jù)作者的學(xué)術(shù)研究領(lǐng)域，利用doc2vec 計(jì)算得到作者研究領(lǐng)域的向量表示，向量的維度d=128，如表5 所示。

在表5 中，節(jié)點(diǎn){u1,u2,u3,…,u960}={吳曉波,楊力,高旭東,吳曉云,…,宿慧爽}∈N。表中的每一行代表從作者研究領(lǐng)域網(wǎng)絡(luò)中捕獲和學(xué)習(xí)到的信息，每一列代表該信息的一個(gè)維度。

表5 訓(xùn)練集作者研究領(lǐng)域表示學(xué)習(xí)

4 實(shí)證分析

4.1 模型性能

為了驗(yàn)證基于表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測模型hypernet2vec 的性能，本研究選取了3 種經(jīng)典的鏈路預(yù)測指標(biāo)作為比較參考，分別是基于節(jié)點(diǎn)結(jié)構(gòu)相似性的網(wǎng)絡(luò)資源分配（RA）指標(biāo)、基于路徑結(jié)構(gòu)相似性的局部路徑（LP）指標(biāo)和基于隨機(jī)游走的局部隨機(jī)游走（LRW）指標(biāo)。同時(shí)，加入只使用單層網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測的相關(guān)指標(biāo)，分別是基于合著網(wǎng)絡(luò)結(jié)構(gòu)的edge2vec 指標(biāo)和基于作者研究領(lǐng)域的doc2vec 指標(biāo)。除此之外，還加入綜合使用網(wǎng)絡(luò)結(jié)構(gòu)信息和研究領(lǐng)域信息進(jìn)行鏈路預(yù)測的基準(zhǔn)方法，即通過計(jì)算節(jié)點(diǎn)間的向量余弦相似性進(jìn)行鏈路預(yù)測，該算法公式是，其中，vi和vj分別是節(jié)點(diǎn)結(jié)構(gòu)向量和研究領(lǐng)域向量的橫向拼接，該指標(biāo)命名為hypernet_base。本研究使用AUC作為評估標(biāo)準(zhǔn)，值越大說明模型越好。若AUC 值為0.5，則表示預(yù)測效果與隨機(jī)猜測相當(dāng)。各指標(biāo)的AUC 值取10 次結(jié)果的平均值，如表6 所示。

表6 hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)的AUC值

從表6 可知，幾種主要算法的AUC 值差異比較大，分布在0.66～0.78。RA 模型是基于共同鄰居的指標(biāo)，僅利用一階相似性的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息，算法比較簡單，但與其他指標(biāo)相比，效果最差。基于路徑信息的LP 指標(biāo)在共同鄰居指標(biāo)的基礎(chǔ)上考慮了三階鄰居的貢獻(xiàn)，利用了比基于共同鄰居指標(biāo)更多的網(wǎng)絡(luò)結(jié)構(gòu)信息，預(yù)測效果得到了明顯的提升，從0.6655 提升至0.7052。LRW 指標(biāo)的預(yù)測效果在局部路徑指標(biāo)的基礎(chǔ)上又有了一定的提升，在經(jīng)典的鏈路預(yù)測算法中取得了最好的預(yù)測效果。值得注意的是，使用基于合著網(wǎng)絡(luò)結(jié)構(gòu)的edge2vec 指標(biāo)的AUC 值是0.7039，使用基于作者研究領(lǐng)域的doc2vec指標(biāo)的AUC 值為0.6899，綜合使用合著網(wǎng)絡(luò)結(jié)構(gòu)信息和作者研究領(lǐng)域信息的hypernet_base 指標(biāo)的AUC值為0.7038，大致與LP 指標(biāo)相當(dāng)，優(yōu)于基于共同鄰居的指標(biāo)，但都比不上基于隨機(jī)游走的指標(biāo)。本研究所提出的hypernet2vec 框架的預(yù)測效果在所有指標(biāo)中表現(xiàn)最為優(yōu)秀，AUC 值與所有參考的指標(biāo)的平均值約提升了11.17%，比其中的最好值仍然能夠提高7.40%，這說明hypernet2vec 框架在鏈路預(yù)測方面優(yōu)于以往的指標(biāo)，并取得顯著優(yōu)勢。

4.2 模型穩(wěn)定性

4.2.1 預(yù)測效果穩(wěn)定性

本研究所提出的hypernet2vec 框架與其他算法分別進(jìn)行10 次實(shí)驗(yàn)，得到的AUC 值如圖5 所示，AUC 值的數(shù)據(jù)差異如表7 所示。研究結(jié)果，hyper‐net2vec 與其他算法相比，AUC 值的極差和標(biāo)準(zhǔn)差偏大，預(yù)測效果存在一定的不穩(wěn)定性。就整體而言，hypernet2vec 模型就算取10 次中的最差值，仍然比其他指標(biāo)的最優(yōu)值大3.13%，性能提升仍然顯著。從圖5 中還可以看出，hypernet2vec 模型的不穩(wěn)定性一定程度上與作者研究領(lǐng)域網(wǎng)絡(luò)層doc2vec 的不穩(wěn)定性有關(guān)，另外一個(gè)原因可能來自模型卷積神經(jīng)網(wǎng)絡(luò)本身，如本研究使用Adam 作為損失函數(shù)的優(yōu)化算法，可能導(dǎo)致得到局部優(yōu)化的參數(shù)，造成訓(xùn)練結(jié)果的差異。

圖5 hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)10次實(shí)驗(yàn)的AUC值

表7 各鏈路預(yù)測指標(biāo)AUC值差異統(tǒng)計(jì)

4.2.2 正樣本量對預(yù)測的影響

模型訓(xùn)練的正樣本是指訓(xùn)練集數(shù)據(jù)中真實(shí)存在的作者合作關(guān)系，正樣本的數(shù)量對模型的性能起到重要的作用。本節(jié)將選擇5 個(gè)正樣本比例進(jìn)行實(shí)驗(yàn)，分別是20%、40%、60%、80%和100%，每種樣本量計(jì)算10 次取平均AUC 值，結(jié)果如圖6 所示。從圖6 可知，當(dāng)入選正樣本量是全部正樣本的20%時(shí)，所有的指標(biāo)預(yù)測效果都很差，跟隨機(jī)猜測類似；隨著樣本量的增加，各個(gè)指標(biāo)的AUC 值都不斷上升，但hypernet2vec 模型上升的幅度最大。這說明要提高作者合作關(guān)系的鏈路預(yù)測性能，在其他條件不變的情況下，必須提高正樣本量的大小。實(shí)際上，本實(shí)驗(yàn)集中數(shù)據(jù)節(jié)點(diǎn)共有960 個(gè)，可能存在的連邊達(dá)到920640 條，而實(shí)驗(yàn)集中的實(shí)際連邊僅有1405 條，占全部可能連邊的0.15%，這是個(gè)非常稀疏的網(wǎng)絡(luò)，如果實(shí)際連邊數(shù)能夠再增加，hyper‐net2vec 框架的鏈路預(yù)測效果將會(huì)有比其他指標(biāo)更大幅度的提升。

圖6 不同正樣本量下hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)的AUC值

影響模型預(yù)測效果的另一個(gè)因素是正負(fù)樣本的比例。由于訓(xùn)練集數(shù)據(jù)正負(fù)樣本比例嚴(yán)重失衡，在這種情況下，常用的方案是過采樣和欠采用。在本實(shí)驗(yàn)中，兩種采樣方式差異不大，但是正負(fù)樣本比例須控制在1∶20 以內(nèi)，才能保證較好的預(yù)測效果，如果負(fù)樣本占比過大，模型的預(yù)測AUC 值會(huì)出現(xiàn)快速下降。這也提示在模型訓(xùn)練時(shí)必須考慮到正負(fù)樣本的比例問題，否則可能存在比較嚴(yán)重的過擬合風(fēng)險(xiǎn)。

5 結(jié)論與展望

5.1 研究結(jié)論

當(dāng)前知識網(wǎng)絡(luò)鏈路預(yù)測主要是基于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)相似性，很少考慮作者的研究領(lǐng)域等相關(guān)的文本信息，導(dǎo)致信息利用不充分等問題，本文提出了一種綜合采用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)文本信息的雙層知識網(wǎng)絡(luò)的鏈路預(yù)測框架hypernet2vec 算法。雙層知識網(wǎng)絡(luò)，即作者合著關(guān)系網(wǎng)絡(luò)和學(xué)術(shù)領(lǐng)域關(guān)系網(wǎng)絡(luò)，利用網(wǎng)絡(luò)表示學(xué)習(xí)，分別將兩層網(wǎng)絡(luò)中的節(jié)點(diǎn)映射到低維的向量空間，再輸入到專門設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)中計(jì)算并進(jìn)行鏈路預(yù)測。通過在我國管理學(xué)領(lǐng)域的實(shí)際科研合著網(wǎng)絡(luò)中進(jìn)行實(shí)驗(yàn)，研究結(jié)果表明，與經(jīng)典的鏈路預(yù)測指標(biāo)（如RA 指標(biāo)、LP 指標(biāo)、LRW 指標(biāo)和余弦相似性指標(biāo)等）相比，hyper‐net2vec 算法預(yù)測的AUC 值取得了顯著的提升，平均提升幅度達(dá)11.17%，并且隨著知識網(wǎng)絡(luò)密度的增加，hypernet2vec 算法的預(yù)測準(zhǔn)確性提升最為明顯。綜上所述，本文所提出的算法是一種新的且行之有效的鏈路預(yù)測算法，能夠在真實(shí)的知識網(wǎng)絡(luò)環(huán)境中表現(xiàn)出優(yōu)異的預(yù)測性能。

5.2 研究貢獻(xiàn)

5.2.1 進(jìn)一步明晰知識網(wǎng)絡(luò)鏈接的混合擇優(yōu)機(jī)制

目前，有關(guān)知識網(wǎng)絡(luò)演化機(jī)制的提法較多，如富者愈富、好者變富、馬太效應(yīng)、累積優(yōu)勢等。這些演化機(jī)制都指向了BA 網(wǎng)絡(luò)的無標(biāo)度屬性，即網(wǎng)絡(luò)演化是度擇優(yōu)機(jī)制發(fā)生作用的結(jié)果，經(jīng)典的鏈路預(yù)測模型與這種優(yōu)先連接機(jī)制密切相關(guān)。經(jīng)典模型在很大程度上解釋了新連邊的來源，但由于受到單層網(wǎng)絡(luò)結(jié)構(gòu)特征的限制，難以描述真實(shí)知識網(wǎng)絡(luò)的連邊產(chǎn)生機(jī)制。這是因?yàn)橹R網(wǎng)絡(luò)新增連邊時(shí)，節(jié)點(diǎn)除了傾向度大的節(jié)點(diǎn)合作外，還受到其他內(nèi)在因素的驅(qū)動(dòng)，包括人際交往、知識交流等[21]。有些學(xué)者已經(jīng)意識到這個(gè)問題，通過研究提出了可能影響鏈路預(yù)測的額外機(jī)制，如認(rèn)為知識節(jié)點(diǎn)的外部屬性對連邊的形成也具有貢獻(xiàn)。但是目前的文獻(xiàn)大多是從理論上進(jìn)行闡述，在真實(shí)知識網(wǎng)絡(luò)中進(jìn)行檢驗(yàn)的研究很少，尤其是對加入作者興趣和研究領(lǐng)域后鏈路預(yù)測性能提升的定量研究幾乎沒有。hypernet2vec模型綜合利用了作者合著關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)信息和研究領(lǐng)域關(guān)系網(wǎng)絡(luò)的文本信息，實(shí)際上，是引入混合網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)屬性信息的擇優(yōu)機(jī)制，帶來了鏈路預(yù)測性能的大幅提升。研究表明，本模型比僅利用合著網(wǎng)絡(luò)結(jié)構(gòu)信息的edge2vec 模型的AUC 值由0.7039 提升至0.7766，比僅利用研究領(lǐng)域的doc2vec模型的AUC 值提升幅度達(dá)到12%。

5.2.2 進(jìn)一步揭示知識網(wǎng)絡(luò)鏈路預(yù)測中神經(jīng)網(wǎng)絡(luò)發(fā)生作用的深層機(jī)理

網(wǎng)絡(luò)表示學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)都是人工智能領(lǐng)域熱門研究方向，并且被不同的學(xué)科驗(yàn)證其有效性。本文首次在雙層知識網(wǎng)絡(luò)中引入表示學(xué)習(xí)技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)，取得了良好的效果，進(jìn)一步揭示了神經(jīng)網(wǎng)絡(luò)在知識網(wǎng)絡(luò)鏈路預(yù)測中發(fā)生作用的深層機(jī)理。

正如文獻(xiàn)回顧和相關(guān)研究中指出，情報(bào)產(chǎn)生原理的理論基礎(chǔ)是相似性原理。雙層知識網(wǎng)絡(luò)的鏈路產(chǎn)生，即兩個(gè)作者建立合作關(guān)系，根本上由網(wǎng)絡(luò)結(jié)構(gòu)本身和作者研究領(lǐng)域決定。前者代表作者在整個(gè)網(wǎng)絡(luò)中的幾何結(jié)構(gòu)特征相似，在網(wǎng)絡(luò)中具有相似的網(wǎng)絡(luò)地位和功能；后者代表作者的屬性相似性，作者的研究領(lǐng)域相似的地方越多、越強(qiáng)烈，其合作關(guān)系的產(chǎn)生可能性越大。相似性是復(fù)雜系統(tǒng)重要的動(dòng)力學(xué)機(jī)制，知識網(wǎng)絡(luò)節(jié)點(diǎn)連接的相似性原理是復(fù)雜系統(tǒng)自相似理論和分形理論的具體體現(xiàn)。從節(jié)點(diǎn)的角度看，具有潛在連接可能的節(jié)點(diǎn)之間具有相似的結(jié)構(gòu)和研究領(lǐng)域，從連邊的角度看，邊的產(chǎn)生與邊的結(jié)構(gòu)、功能、含義的相似性有關(guān)。知識網(wǎng)絡(luò)節(jié)點(diǎn)和連邊的相似性通過節(jié)點(diǎn)表示學(xué)習(xí)以及節(jié)點(diǎn)表示學(xué)習(xí)的綜合，來進(jìn)行抽象和計(jì)算。在節(jié)點(diǎn)表示學(xué)習(xí)的計(jì)算過程中，運(yùn)用了基于隨機(jī)游走的各種策略，如DFS、BFS 等，這些策略使得本文得到的節(jié)點(diǎn)表示學(xué)習(xí)向量不僅能包括節(jié)點(diǎn)小局部的結(jié)構(gòu)和功能，還包括更大范圍的局部甚至近乎整體的特征。而這正是自相似和分形理論“通過認(rèn)識部分來反映和認(rèn)識整體，以及通過認(rèn)識整體來把握和深化對部分的認(rèn)識”思想的具體實(shí)現(xiàn)，其揭示了知識網(wǎng)絡(luò)系統(tǒng)看似雜亂、破碎的連邊現(xiàn)象內(nèi)部所蘊(yùn)含的規(guī)律，使知識網(wǎng)絡(luò)系統(tǒng)從無序中發(fā)現(xiàn)有序。另外，情報(bào)序化原理依據(jù)耗散結(jié)構(gòu)理論來闡述，即系統(tǒng)由無序走向有序的一個(gè)重要條件，是系統(tǒng)內(nèi)部要素之間存在非線性的相互作用。本文提出的鏈路預(yù)測模型基于卷積神經(jīng)網(wǎng)絡(luò)，在激活網(wǎng)絡(luò)結(jié)點(diǎn)時(shí)引入非線性函數(shù)sig‐moid，該函數(shù)數(shù)學(xué)形式是，通過該激活函數(shù)將上層節(jié)點(diǎn)的輸入進(jìn)行非線性轉(zhuǎn)換，然后輸出到下一層神經(jīng)網(wǎng)絡(luò)，這實(shí)際是對雙層知識網(wǎng)絡(luò)作者之間非線性相互作用機(jī)制的模擬，也是卷積神經(jīng)網(wǎng)絡(luò)能夠起作用的深層依據(jù)。

5.3 研究展望

作者合作關(guān)系的鏈路預(yù)測是多種因素共同驅(qū)動(dòng)的結(jié)果。本文提出的基于網(wǎng)絡(luò)表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測模型綜合考慮了合著網(wǎng)絡(luò)本身的內(nèi)生動(dòng)力、作者合作的歷史、作者的研究領(lǐng)域等信息，這些信息通過相互補(bǔ)充，降低了網(wǎng)絡(luò)的不確定性，增加了鏈路預(yù)測的成功率。然而，知識網(wǎng)絡(luò)作為科學(xué)知識積累和思想傳播的載體網(wǎng)絡(luò)，知識的傳承與創(chuàng)新還通過學(xué)者之間的非正式網(wǎng)絡(luò)進(jìn)行聯(lián)系和溝通。這個(gè)非正式網(wǎng)絡(luò)包括學(xué)者的學(xué)術(shù)群體朋友圈、師徒關(guān)系等社會(huì)網(wǎng)絡(luò)。如果能夠?qū)W(xué)者的社會(huì)網(wǎng)絡(luò)層增加到雙層知識網(wǎng)絡(luò)中，擴(kuò)展知識網(wǎng)絡(luò)到三層，這對作者合作關(guān)系的預(yù)測無疑起到積極的作用，這也是將來值得研究的方向。另外，本模型沒有考慮到作者合作關(guān)系的權(quán)重，對加權(quán)網(wǎng)絡(luò)的研究也值得進(jìn)一步探索。

情報(bào)學(xué)報(bào)2021年2期

情報(bào)學(xué)報(bào)的其它文章: 基于社會(huì)化問答社區(qū)涌現(xiàn)模式分析的領(lǐng)域熱點(diǎn)識別研究; 基于元分析的在線知識付費(fèi)意愿影響因素研究; 基于區(qū)塊鏈的網(wǎng)絡(luò)謠言甄別模型及仿真研究; 基于元數(shù)據(jù)的林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量評估; 基于細(xì)粒度評論挖掘的書評自動(dòng)摘要研究

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放