亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ORCID和加權(quán)跨層邊聚類系數(shù)的研究者社區(qū)發(fā)現(xiàn)①

        2021-06-28 06:27:34王毅蒙孫善鵬周園春
        計算機系統(tǒng)應(yīng)用 2021年6期
        關(guān)鍵詞:異質(zhì)研究者關(guān)聯(lián)

        王毅蒙,田 野,孫善鵬,周園春,杜 一

        1(中國科學(xué)院 計算機網(wǎng)絡(luò)信息中心,北京 100190)

        2(中國科學(xué)院大學(xué),北京 100049)

        3(中國工業(yè)互聯(lián)網(wǎng)研究院,北京 100102)

        4(中國科學(xué)院 軟件研究所,北京 100190)

        科研組織是學(xué)術(shù)創(chuàng)新的主體,在學(xué)術(shù)創(chuàng)新中科研合作及學(xué)術(shù)交流發(fā)揮著越來越重要的作用,研究者將自身的科研知識、經(jīng)驗和資源進(jìn)行共享,為其他研究者提供更多的靈感和思路,創(chuàng)造出更多更有價值的科研成果.因此,挖掘出研究者之間隱含的關(guān)聯(lián)關(guān)系,尋找相關(guān)學(xué)術(shù)社區(qū),是值得重點關(guān)注的問題.

        傳統(tǒng)的學(xué)術(shù)社區(qū)多是著眼于研究者科技成果產(chǎn)生的關(guān)聯(lián)進(jìn)行社區(qū)發(fā)現(xiàn),忽略了研究者自身學(xué)術(shù)活動產(chǎn)生的關(guān)聯(lián),如何獲取并利用相關(guān)學(xué)術(shù)信息進(jìn)行社區(qū)發(fā)現(xiàn)是本研究的重點.隨著科技信息的爆炸式增長,不同于傳統(tǒng)的論文數(shù)據(jù),科技信息數(shù)據(jù)種類更加豐富,包括科技成果數(shù)據(jù)、科技實體數(shù)據(jù)、科技活動數(shù)據(jù)等.在此背景下,越來越多的學(xué)術(shù)資源網(wǎng)絡(luò)平臺應(yīng)運而生,通過科研人員唯一身份標(biāo)識[1]將研究者及其學(xué)術(shù)活動信息進(jìn)行關(guān)聯(lián),如Researcher ID[2],幫助研究者對其出版文獻(xiàn)進(jìn)行管理,注重對研究者著作的展示;ISNI (International Standard Name Identifier,國際標(biāo)準(zhǔn)名稱標(biāo)識符)[3],將媒體內(nèi)容的貢獻(xiàn)者賦予唯一標(biāo)識,標(biāo)識相同參與者在媒體價值鏈上的不同身份;ORCID (Open Research and Contributor ID,開放研究者與貢獻(xiàn)者標(biāo)識)[4],將研究者及其學(xué)術(shù)活動精確關(guān)聯(lián),記錄研究者各項科研動態(tài),并與相關(guān)科研管理系統(tǒng)、文獻(xiàn)數(shù)據(jù)平臺、機構(gòu)數(shù)據(jù)庫相連接.通過這些標(biāo)識體系形成了一種底層連通的信息樞紐機制,促進(jìn)相關(guān)信息在不同系統(tǒng)中的流動,可以更為便捷的得到研究者的各項學(xué)術(shù)活動及學(xué)術(shù)資源的信息[5].

        因此,本文使用ORCID 獲取研究者相關(guān)學(xué)術(shù)信息,構(gòu)建學(xué)術(shù)信息網(wǎng)絡(luò),分析研究者通過不同學(xué)術(shù)活動產(chǎn)生的關(guān)聯(lián),并針對網(wǎng)絡(luò)中存在的異質(zhì)性和網(wǎng)絡(luò)層次帶來的挑戰(zhàn),提出一種基于加權(quán)跨層邊聚類系數(shù)的社區(qū)發(fā)現(xiàn)模型,挖掘出網(wǎng)絡(luò)背后隱藏的社區(qū)結(jié)構(gòu)[6],在提高劃分效果的同時對科技實體的推薦、評價、學(xué)科交叉和學(xué)科演化等相關(guān)研究均有重要意義[7].

        本文余下章節(jié)中,第1 節(jié)對涉及到的相關(guān)工作進(jìn)行概述,第2 節(jié)介紹基于ORCID 的社區(qū)發(fā)現(xiàn)模型,第3 節(jié)對所提方案進(jìn)行實現(xiàn)并對結(jié)果進(jìn)行分析,第4 節(jié)總結(jié)全文并對未來的發(fā)展與挑戰(zhàn)做出簡要分析.

        1 相關(guān)工作

        如何構(gòu)建學(xué)術(shù)信息網(wǎng)絡(luò)以及如何利用學(xué)術(shù)信息進(jìn)行社區(qū)發(fā)現(xiàn)是我們需要關(guān)注的重點.

        針對學(xué)術(shù)信息網(wǎng)絡(luò)的構(gòu)建,科研人員唯一標(biāo)識符發(fā)揮了重要的作用[8],科研人員唯一標(biāo)識符能夠?qū)崿F(xiàn)對科研人員的有效標(biāo)識,提升科研成果檢索效果,便于管理科研成果和個人檔案,也可以通過對其他科研人員的信息的追蹤達(dá)到尋找合作伙伴的目的,還能將科研人員及其所屬機構(gòu)、參與的科研項目甚至是其他學(xué)術(shù)內(nèi)容生產(chǎn)價值鏈中的潛在關(guān)聯(lián)實體相鏈接,從而實現(xiàn)科研生態(tài)系統(tǒng)中不同要素之間的緊密相連[9],也可以接入相關(guān)科技領(lǐng)域大數(shù)據(jù)知識圖譜平臺[10]實現(xiàn)對科研數(shù)據(jù)的有效利用.ORCID,開放研究者與貢獻(xiàn)者標(biāo)識,以人為中心,為全球每位研究者分配一個終生有效的唯一身份標(biāo)識,并以此為基礎(chǔ),把研究者所有相關(guān)的科研活動與成果都精確地匹配并連接起來,提高了科研人員檔案的準(zhǔn)確性.每一位研究者ORCID 記錄中可以關(guān)聯(lián)的信息包括教育經(jīng)歷、工作經(jīng)歷、發(fā)表論文、學(xué)協(xié)會會員、榮譽與獎勵、大會報告、審稿貢獻(xiàn)、科研基金等,如圖1所示.

        圖1中該編碼采用16 個數(shù)字表示,每個編碼分為4 組顯示,如0000-1234-5678-0000.目前ORCID注冊量已經(jīng)超過5000 000 個,有超過600 家學(xué)術(shù)圖書館、研究機構(gòu)、資助機構(gòu)和出版商會使用這些ID 來跟蹤數(shù)據(jù),也用于對研究者的研究成果進(jìn)行追蹤.因此,如何利用ORCID 獲取的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)的構(gòu)建是我們研究的第一個重點.

        圖1 ORCID 數(shù)據(jù)內(nèi)容

        針對如何利用學(xué)術(shù)信息進(jìn)行社區(qū)發(fā)現(xiàn),在傳統(tǒng)學(xué)術(shù)社區(qū)發(fā)現(xiàn)中大多通過分析合著網(wǎng)絡(luò)或引文網(wǎng)絡(luò)尋找研究者之間的關(guān)聯(lián)關(guān)系,如圖2,網(wǎng)絡(luò)中包含作者、論文、會議等異質(zhì)節(jié)點.

        圖2 合著網(wǎng)絡(luò)示例

        對于上述網(wǎng)絡(luò),NetClus 算法[11]針對以論文為中心的星型學(xué)術(shù)網(wǎng)絡(luò),利用排名提升聚類結(jié)果,迭代調(diào)整每個對象的類別,生成具有相同拓?fù)涞妮斎刖W(wǎng)絡(luò)的子網(wǎng)絡(luò)合集,每個聚類結(jié)果有相同的主題.PathSelClus 算法[12]提出一種將元路徑與聚類相結(jié)合的算法,通過預(yù)先為每個聚類提供一部分種子節(jié)點,系統(tǒng)學(xué)習(xí)到元路徑的權(quán)重,根據(jù)權(quán)重產(chǎn)社區(qū),疊加不同元路徑的聚類結(jié)果生產(chǎn)最終社區(qū).Lu 等提出了Hete_MESE 多維社區(qū)檢測算法[13],首先將異構(gòu)信息網(wǎng)絡(luò)中的多個實體類型之一指定為社區(qū)中心節(jié)點類型,并相應(yīng)地提取復(fù)用網(wǎng)絡(luò),然后,基于復(fù)用網(wǎng)絡(luò)檢測重疊的節(jié)點中心社區(qū),將其視為種子社區(qū),吸收其他實體類型以利用種子擴展產(chǎn)生異質(zhì)社區(qū).文獻(xiàn)[14]基于Salton 方法計算作者間相似度以評估合著關(guān)系強弱,將節(jié)點間的邊作為聚類對象,采用凝聚式層次聚類進(jìn)行學(xué)術(shù)社區(qū)發(fā)現(xiàn).文獻(xiàn)[15]以直接引用關(guān)系構(gòu)建顯性關(guān)聯(lián),以引文抽取出的興趣標(biāo)簽構(gòu)建隱性關(guān)聯(lián),用以衡量研究者之間關(guān)系的強弱從而進(jìn)行社區(qū)發(fā)現(xiàn).而面對大規(guī)模的學(xué)術(shù)信息網(wǎng)絡(luò),如圖3,網(wǎng)絡(luò)中節(jié)點種類更多,關(guān)聯(lián)關(guān)系更復(fù)雜,復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對社區(qū)發(fā)現(xiàn)帶來了新的挑戰(zhàn).

        圖3 復(fù)雜學(xué)術(shù)信息網(wǎng)絡(luò)

        針對異質(zhì)網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)研究已得到了學(xué)者的廣泛關(guān)注,本文重點闡述多層網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的相關(guān)研究成果.文獻(xiàn)[16]采用多目標(biāo)方法,在第一層應(yīng)用經(jīng)典社區(qū)發(fā)現(xiàn)算法,對其余的連續(xù)層,采用最大化當(dāng)前層模塊度和前一層劃分的社區(qū)結(jié)構(gòu)的相似性雙目標(biāo)優(yōu)化方法來發(fā)現(xiàn)社區(qū).文獻(xiàn)[17]對每一層網(wǎng)絡(luò)應(yīng)用經(jīng)典社區(qū)發(fā)現(xiàn)算法并用集成聚類方法合并劃分的社區(qū)來發(fā)現(xiàn)社區(qū).文獻(xiàn)[18]提出了一種基于元路徑嵌入的聚類方法MPEClus,將原始網(wǎng)絡(luò)轉(zhuǎn)換為具有由元路徑指定的擁有獨立語義的多個子網(wǎng),使用近似通勤嵌入學(xué)習(xí)節(jié)點的向量表示,并針對不同度量空間中學(xué)習(xí)的節(jié)點向量進(jìn)行社區(qū)發(fā)現(xiàn).文獻(xiàn)[19]使用基于頻譜聚類和低秩矩陣分解的方法組合多層網(wǎng)絡(luò)的多層信息來進(jìn)行社區(qū)發(fā)現(xiàn).文獻(xiàn)[20]通過使用跨層邊聚系數(shù)計算節(jié)點間相似度并通過不斷更新?lián)p失函數(shù)實現(xiàn)多層網(wǎng)絡(luò)社區(qū)劃分.因此,如何解決學(xué)術(shù)信息網(wǎng)絡(luò)中異質(zhì)性和網(wǎng)絡(luò)層次帶來的挑戰(zhàn),從而進(jìn)行社區(qū)發(fā)現(xiàn),也是我們需要研究的重點.

        2 基于ORCID和加權(quán)跨層邊聚類系數(shù)的社區(qū)發(fā)現(xiàn)模型

        本文基于ORCID 獲取的數(shù)據(jù)集,分析研究者及其學(xué)術(shù)活動信息構(gòu)建學(xué)術(shù)信息網(wǎng)絡(luò),尋找研究者之間多屬性的關(guān)聯(lián)關(guān)系并計算研究者之間的相似度,從而進(jìn)行學(xué)術(shù)社區(qū)的發(fā)現(xiàn),本文算法流程圖如圖4所示.

        圖4 基于ORCID 的學(xué)術(shù)社區(qū)發(fā)現(xiàn)算法流程

        2.1 構(gòu)建ORCID 異質(zhì)網(wǎng)絡(luò)

        通過分析ORCID 數(shù)據(jù)中包含的學(xué)術(shù)活動信息,可以發(fā)現(xiàn)研究者之間通過不同學(xué)術(shù)信息可以產(chǎn)生多種關(guān)聯(lián),將不同學(xué)術(shù)信息作為不同類型節(jié)點從而構(gòu)建異質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)中包含研究者節(jié)點P,教育經(jīng)歷節(jié)點E、工作經(jīng)歷節(jié)點W、受邀職位節(jié)點I、服務(wù)單位節(jié)點S、學(xué)術(shù)領(lǐng)域節(jié)點D,如圖5所示,同時,不同節(jié)點之間也存在不同類型的關(guān)聯(lián)關(guān)系.通過ORCID 異質(zhì)網(wǎng)絡(luò),不僅可以快速獲取研究者相關(guān)的學(xué)術(shù)活動信息,也可以通過某些學(xué)術(shù)活動查詢到相關(guān)聯(lián)的研究者,不同研究者通過中間學(xué)術(shù)活動節(jié)點也可以取得不同屬性的關(guān)聯(lián).

        圖5 ORCID 異質(zhì)網(wǎng)絡(luò)

        2.2 根據(jù)元路徑抽取研究者多維異質(zhì)網(wǎng)絡(luò)

        由于構(gòu)建的ORCID 異質(zhì)網(wǎng)絡(luò)中存在大量的學(xué)術(shù)活動節(jié)點,研究者之間并非直接相連,而是存在不同的路徑.不同路徑連接的研究者之間存在不同語義的關(guān)聯(lián)關(guān)系,構(gòu)成了多種元路徑,圖6展示了ORCID 異質(zhì)網(wǎng)絡(luò)中存在的部分元路徑,P為研究者節(jié)點、D為研究領(lǐng)域節(jié)點、W為工作單位節(jié)點,P3D2P4 表示P3和P4 有相同的研究領(lǐng)域,P1W1P2 表示P1和P2 在相同的單位工作過,P1W1D1W2P3 表示P1和P3 有相同領(lǐng)域內(nèi)的工作經(jīng)歷.

        圖6 ORCID 異質(zhì)網(wǎng)絡(luò)中的元路徑

        多種元路徑的存在既無法直觀發(fā)現(xiàn)研究者節(jié)點之間的關(guān)聯(lián)關(guān)系,也增加了計算研究者相似度的難度.因此,本文通過不同元路徑提取出研究者節(jié)點之間的多種直接關(guān)聯(lián)關(guān)系,從而構(gòu)成研究者多維異質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)中僅包含研究者節(jié)點一種節(jié)點和多種不同屬性的邊.元路徑選擇如表1所示,從而根據(jù)新的關(guān)聯(lián)關(guān)系重構(gòu)研究者多維異質(zhì)網(wǎng)絡(luò),解決了ORCID 異質(zhì)網(wǎng)絡(luò)中節(jié)點多樣性而產(chǎn)生的社區(qū)劃分問題.

        表1 ORCID 網(wǎng)絡(luò)元路徑語義表

        2.3 節(jié)點相似度計算

        基于研究者多維異質(zhì)網(wǎng)絡(luò),本文綜合考慮研究者節(jié)點間的多種屬性關(guān)聯(lián)關(guān)系來計算多維網(wǎng)絡(luò)中節(jié)點間的相似度.本文考慮使用Brodka 等提出的跨層邊聚類系數(shù)CLECC[20]可以用來計算多維網(wǎng)絡(luò)中節(jié)點間的相似度,但是在計算過程中,只能針對某一層次計算節(jié)點間相似度,通過多次嘗試選出最優(yōu)結(jié)果,可控性不足,尤其是在網(wǎng)絡(luò)層數(shù)較大的情況下,計算開銷和存儲開銷很大.因此,本文提出加權(quán)跨層邊聚類系數(shù)WCLECC,解決層次數(shù)不可控的問題,綜合考慮層次數(shù)的所有可能值,對于在所有層次數(shù)下取得的相似度值進(jìn)行權(quán)重處理,層次數(shù)越高權(quán)重越大,對計算相似度的影響越大.加權(quán)跨層邊聚類系數(shù)WCLECC計算公式如下:

        其中,|L|為最大網(wǎng)絡(luò)層數(shù).MN(x,a)為x節(jié)點的多層鄰居集合,是指與節(jié)點x有a層或a層以上關(guān)聯(lián)的鄰居節(jié)點的集合,z為歸一化因子.以此做為衡量節(jié)點間緊密度的指標(biāo),充分考慮了網(wǎng)絡(luò)中不同層的稀疏程度,且不需要進(jìn)行參數(shù)的調(diào)整,可以更準(zhǔn)確的衡量節(jié)點間的關(guān)系強度.

        2.4 社區(qū)發(fā)現(xiàn)

        通過使用WCLECC作為衡量節(jié)點間的相似度指標(biāo),將多維網(wǎng)絡(luò)轉(zhuǎn)化為同質(zhì)網(wǎng)絡(luò),然后運用社區(qū)發(fā)現(xiàn)算法進(jìn)行社區(qū)劃分.將節(jié)點i加入到節(jié)點j所在社區(qū)產(chǎn)生的模塊度增量如式(2):

        ∑in表示社區(qū)內(nèi)邊的權(quán)重之和,∑tot表示與社區(qū)內(nèi)節(jié)點相連的邊的權(quán)重之和,ki,in表示社區(qū)內(nèi)節(jié)點與節(jié)點i的邊權(quán)重之和.算法流程如下所示:

        1)構(gòu)建網(wǎng)絡(luò)節(jié)點鄰接矩陣A,且將值均置為null;

        2)遍歷網(wǎng)絡(luò)中的每一個節(jié)點x,并記錄該節(jié)點的所有鄰居節(jié)點Y{y:y∈MN(x)};

        3)計算每一對節(jié)點(x,y)的相似度WCLECC(x,y),并更新鄰接矩陣A(x,y)的值;

        4)在鄰接矩陣A中,當(dāng)A(x,y)!=null,在新的網(wǎng)絡(luò)中連接x節(jié)點與y節(jié)點并將WCLECC(x,y)作為邊的權(quán)重,重構(gòu)研究者同質(zhì)網(wǎng)絡(luò)G';

        5)將G'中每個節(jié)點作為一個單獨的社區(qū),社區(qū)數(shù)與節(jié)點數(shù)相同;

        6)對G'每一個節(jié)點x,依次將x加入其鄰居所在社區(qū)之中,計算加入前后的模塊度變化情況ΔQ,記錄ΔQ最大的鄰居節(jié)點n,如果maxΔQ>0,則把節(jié)點x加入到n所在社區(qū),否則不改變x所在社區(qū);

        7)重復(fù)步驟6),直到所有節(jié)點所屬社區(qū)不再變化;

        8)對產(chǎn)生的社區(qū)進(jìn)行壓縮,將每一個社區(qū)看作一個新的節(jié)點,社區(qū)內(nèi)邊的權(quán)重之和當(dāng)作社區(qū)自身環(huán)的權(quán)重,社區(qū)間邊的權(quán)重之和當(dāng)作新節(jié)點之間邊的權(quán)重;

        9)重復(fù)步驟5),直到全圖模塊度不再發(fā)生變化;

        10)選出模塊度最大時網(wǎng)絡(luò)的社區(qū)劃分結(jié)果,即為最終社區(qū)劃分情況.

        3 實驗與分析

        3.1 社區(qū)評價標(biāo)準(zhǔn)

        常用的評價無監(jiān)督社區(qū)劃分結(jié)果優(yōu)劣的指標(biāo)為模塊度(modularity)[21].其物理意義是社區(qū)內(nèi)節(jié)點的連邊數(shù)所占的比例與隨機放置情況下社區(qū)內(nèi)節(jié)點期望連邊數(shù)的比例的差值,定義如下:

        其中,Aij是節(jié)點i和節(jié)點j之間邊的權(quán)重,ki為所有與節(jié)點i相連的邊的權(quán)重之和,Ci為節(jié)點i所屬的社區(qū),m為圖中所有邊的權(quán)重之和.通常取值范圍在[?1/2,1]之間,其值越靠近1,表明網(wǎng)絡(luò)劃分結(jié)果越好.

        3.2 實驗結(jié)果及分析

        3.2.1 ORCID 學(xué)術(shù)信息網(wǎng)絡(luò)和研究者多維異質(zhì)網(wǎng)絡(luò)構(gòu)建結(jié)果

        本文通過對ORCID 數(shù)據(jù)集中研究者、教育經(jīng)歷、工作經(jīng)歷、受邀職位、服務(wù)單位的數(shù)據(jù)量進(jìn)行統(tǒng)計,如圖7所示.

        圖7 ORCID 不同屬性數(shù)據(jù)量統(tǒng)計

        本文樣本的選擇根據(jù)ORCID 標(biāo)識符的11 種尾號(0~9、X)分層選取,每種尾號的數(shù)據(jù)選取1 萬條,并去除掉未包含任何屬性信息的數(shù)據(jù),共選取3 組樣本,每組10 萬余名研究者的信息進(jìn)行實驗,構(gòu)建ORCID學(xué)術(shù)信息網(wǎng)絡(luò),網(wǎng)絡(luò)具體數(shù)據(jù)如表2和表3所示.

        表2 ORCID 學(xué)術(shù)信息網(wǎng)絡(luò)各節(jié)點數(shù)量統(tǒng)計

        表3 ORCID 學(xué)術(shù)信息網(wǎng)絡(luò)各屬性邊數(shù)量統(tǒng)計

        在構(gòu)建好的ORCID 異質(zhì)網(wǎng)絡(luò)中,通過表1中的元路徑抽取研究者節(jié)點間不同屬性的直接關(guān)聯(lián)關(guān)系,構(gòu)建研究者多維異質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)中只含有研究者節(jié)點及不同屬性連邊,網(wǎng)絡(luò)具體數(shù)據(jù)如表4所示.

        表4 研究者多維異質(zhì)網(wǎng)絡(luò)連邊數(shù)量統(tǒng)計

        通過元路徑的抽取,可以將ORCID 異質(zhì)網(wǎng)絡(luò)中多種類多屬性的節(jié)點和邊簡化為只存在研究者節(jié)點及其之間多屬性邊的多維網(wǎng)絡(luò),減少了網(wǎng)絡(luò)節(jié)點類型,避免了其余組織機構(gòu)節(jié)點對社區(qū)劃分產(chǎn)生的影響,降低了網(wǎng)絡(luò)的復(fù)雜性和計算的復(fù)雜性.

        3.2.2 社區(qū)劃分結(jié)果

        (1) 通過構(gòu)建人造稀疏網(wǎng)絡(luò)和稠密網(wǎng)絡(luò)對本文算法進(jìn)行實驗,測試WCLECC與CLECC 在取不同a值的情況下對網(wǎng)絡(luò)的劃分取得的效果,以此檢測是否通過WCLECC避免了CLECC參數(shù)的不確定性對實驗產(chǎn)生的影響且能取得優(yōu)于CLECC的實驗結(jié)果.

        ① 圖8為4 層稀疏網(wǎng)絡(luò)中每層的初始連邊情況.

        圖8 稀疏網(wǎng)絡(luò)各層初始情況

        實驗結(jié)果如表5所示,可以看出使用CLECC在a=2 時,網(wǎng)絡(luò)劃分可以取得最大模塊度Q,而使用WCLECC劃分的社區(qū)數(shù)量和成員與其相同且模塊度提高了1.85%,實驗效果更好.

        表5 稀疏網(wǎng)絡(luò)社區(qū)劃分結(jié)果表

        ② 圖9為4 層稠密網(wǎng)絡(luò)中每層的初始連邊情況.

        圖9 稠密網(wǎng)絡(luò)各層初始情況

        實驗結(jié)果如表6所示,可以看出使用CLECC在a=3 時,網(wǎng)絡(luò)劃分可以取得最大模塊度Q,而使用WCLECC劃分的社區(qū)數(shù)量和成員與其相同且模塊度提高了1.65%,實驗效果更好.

        表6 稠密網(wǎng)絡(luò)社區(qū)劃分結(jié)果表

        通過上述實驗可知,使用CLECC進(jìn)行社區(qū)劃分時,在稀疏網(wǎng)絡(luò)中a取較小值可以得到更優(yōu)的實驗結(jié)果,在稠密網(wǎng)絡(luò)中a取較大值可以得到更優(yōu)的實驗結(jié)果.究其原因,當(dāng)網(wǎng)絡(luò)稀疏時,高層次鄰居節(jié)點遠(yuǎn)少于低層次鄰居節(jié)點,當(dāng)a取較大值時會造成部分節(jié)點間相似度丟失,影響社區(qū)劃分的準(zhǔn)確性,a取較小值時會有更多的鄰居節(jié)點參與相似度的計算,提高計算準(zhǔn)確性.而當(dāng)網(wǎng)絡(luò)稠密時,高層次鄰居節(jié)點與低層次鄰居節(jié)點數(shù)量相近,a取較大值能更準(zhǔn)確計算出節(jié)點間的相似度,使網(wǎng)絡(luò)劃分更準(zhǔn)確.針對稀疏程度不確定的網(wǎng)絡(luò),使用CLECC進(jìn)行社區(qū)劃分必須要依次嘗試a取值的所有可能值才能找到最優(yōu)的實驗結(jié)果,而WCLECC針對CLECC參數(shù)不確定的問題,綜合考慮了a 參數(shù)的所有可能取值,簡化了參數(shù)選擇的過程,并且在取得相同劃分結(jié)果的同時能取得更優(yōu)的實驗結(jié)果.因此,當(dāng)網(wǎng)絡(luò)稀疏程度明確時,可以考慮使用CLECC進(jìn)行計算,也可以使用WCLECC進(jìn)行計算,當(dāng)網(wǎng)絡(luò)稀疏程度不明確時,為避免多次嘗試不同參數(shù)可以使用WCLECC進(jìn)行計算從而進(jìn)行社區(qū)劃分.

        同時,WCLECC對于CLECC的改進(jìn)主要在于參數(shù)選擇的優(yōu)化,針對稀疏程度不明的網(wǎng)絡(luò)可以減少對不同參數(shù)的嘗試并能得到更優(yōu)的結(jié)果,但WCLECC需要同時考慮各個層次的鄰居,增加了部分計算時間,但整體時間仍保持在同樣的量級,對時間開銷方面并未造成過大的影響.

        (2) 在構(gòu)建好的研究者多維異質(zhì)網(wǎng)絡(luò)中運行本文算法進(jìn)行社區(qū)發(fā)現(xiàn).圖10為3 次實驗過程中社區(qū)劃分中模塊度隨迭代次數(shù)的變化,選取模塊度最高時的劃分結(jié)果作為最終的實驗結(jié)果.表7為3 次實驗中劃分的社團數(shù)和模塊度結(jié)果的對比.

        表7 社區(qū)劃分結(jié)果

        圖10 社區(qū)劃分中模塊度隨迭代次數(shù)的變化

        由上述結(jié)果可以看到,a≥3時結(jié)果產(chǎn)生了突變,模塊度的值大幅提高同時劃分的社區(qū)數(shù)量過多,可能產(chǎn)生了大量孤立節(jié)點和小成員數(shù)的社區(qū),無法滿足社區(qū)發(fā)現(xiàn)的目的.針對上述情況,本文對所劃分的社區(qū)進(jìn)行了分析,統(tǒng)計所劃分社區(qū)中孤立節(jié)點社區(qū)的占比情況和擁有不同成員數(shù)的社區(qū)占比情況.圖11為3 次實驗中未被劃分進(jìn)社區(qū)的孤立節(jié)點數(shù)占總節(jié)點數(shù)的比例情況.

        圖11 孤立節(jié)點占比情況

        圖12展示了3 次實驗中社區(qū)成員數(shù)超過不同閾值的社區(qū)占比情況.

        圖12 成員數(shù)符合閾值的社區(qū)占比情況

        通過觀察上述結(jié)果,當(dāng)a=1 時,實驗結(jié)果中模塊度的值最低,劃分社區(qū)數(shù)最少,雖然所劃分的社區(qū)能覆蓋最多的節(jié)點,但整體來看劃分效果不佳;當(dāng)a=2 時,能取得較好的模塊度結(jié)果及適中的社區(qū)數(shù),孤立節(jié)點占比較低,雖然成員數(shù)超過不同閾值的社區(qū)數(shù)量較少,產(chǎn)生了大量的小社區(qū)團體,但整體來看取得了較好的實驗結(jié)果;當(dāng)a>2 時,雖然模塊度的值均能接近理論最優(yōu)值,但劃分的社區(qū)數(shù)量過多,a=3 時,孤立節(jié)點占比超過50%,且社區(qū)成員超過10 人的社區(qū)比例僅在樣本1 中達(dá)到20%以上,其余均低于10%,當(dāng)a>3 時,所劃分社區(qū)幾乎全是孤立節(jié)點社區(qū),未起到社區(qū)劃分的真正意義,實驗結(jié)果不佳.究其原因,由于不同層次的網(wǎng)絡(luò)稀疏程度不同,當(dāng)層數(shù)越深,節(jié)點間有多層關(guān)聯(lián)的鄰居越少,僅有少量節(jié)點間擁有多層次的關(guān)聯(lián)關(guān)系,忽略了低層次關(guān)聯(lián)產(chǎn)生的影響.WCLECC很好的解決了這一問題,充分考慮了所有層的關(guān)聯(lián)關(guān)系,模塊度的值和孤立節(jié)點的占比情況均優(yōu)于a=2 的結(jié)果,在成員數(shù)符合閾值的社區(qū)比例中也能取得最優(yōu)的結(jié)果,可見使用WCLECC減少了孤立節(jié)點和小成員數(shù)社區(qū)的產(chǎn)生,整體來看取得的效果最佳.

        綜上所述,通過使用研究者學(xué)術(shù)活動信息構(gòu)建ORCID 異質(zhì)網(wǎng)絡(luò),并使用WCLECC能取得最優(yōu)的社區(qū)劃分結(jié)果,既充分考慮了研究者節(jié)點間的多層關(guān)聯(lián)關(guān)系,又避免了參數(shù)的不可控,同時產(chǎn)生的社區(qū)覆蓋了較多的研究者節(jié)點,減少了孤立節(jié)點的出現(xiàn),也減少了小成員數(shù)社區(qū)的出現(xiàn),劃分出了高質(zhì)量的社區(qū),得到了較好的實驗結(jié)果.

        4 結(jié)語

        本文通過對ORCID 數(shù)據(jù)進(jìn)行分析,使用研究者學(xué)術(shù)活動構(gòu)建科研信息網(wǎng)絡(luò)進(jìn)行學(xué)術(shù)社區(qū)的發(fā)現(xiàn),通過元路徑抽取出研究者節(jié)點間的直接關(guān)聯(lián)關(guān)系,降低了異質(zhì)網(wǎng)絡(luò)的復(fù)雜度,避免了中間節(jié)點對社區(qū)劃分產(chǎn)生的影響,提出加權(quán)跨層邊聚類系數(shù)解決了多層網(wǎng)絡(luò)中節(jié)點相似度的度量問題,改善了跨層邊聚類系數(shù)的參數(shù)不可控性,充分利用研究者的學(xué)術(shù)信息去尋找其學(xué)術(shù)團體,對學(xué)術(shù)社區(qū)發(fā)現(xiàn)提出了一種新的思路.在人造網(wǎng)絡(luò)和真實數(shù)據(jù)集上進(jìn)行實驗,均取得了較好的實驗結(jié)果.同時,本文還存在一定的問題,如尚未對全部數(shù)據(jù)進(jìn)行實驗,不同屬性信息對劃分結(jié)果的影響等也值得更進(jìn)一步的考慮,后續(xù)的工作將針對這些問題進(jìn)行進(jìn)一步的研究.

        猜你喜歡
        異質(zhì)研究者關(guān)聯(lián)
        高等教育中的學(xué)生成為研究者及其啟示
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        研究者稱,經(jīng)CRISPR技術(shù)編輯過的雙胞胎已出生??茖W(xué)將如何回應(yīng)?
        英語文摘(2019年2期)2019-03-30 01:48:40
        研究者調(diào)查數(shù)據(jù)統(tǒng)計
        中華手工(2018年6期)2018-07-17 10:37:42
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        隨機與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
        醫(yī)生注定是研究者
        Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
        MoS2/ZnO異質(zhì)結(jié)的光電特性
        物理實驗(2015年10期)2015-02-28 17:36:52
        欧美人与动人物牲交免费观看| 久久天天躁夜夜躁狠狠85麻豆| 亚洲av成人噜噜无码网站| 99精品国产兔费观看久久99| 国产一区二区三区韩国| 中文字幕中文字幕三区| 亚洲熟女精品中文字幕| 国产成人综合色在线观看网站| 国产综合久久久久影院| 亚洲人妻精品一区二区三区| 人妻风韵犹存av中文字幕| 麻神在线观看免费观看| 成年女人黄小视频| 国产在线丝袜精品一区免费| 黑人一区二区三区啪啪网站| 女同精品一区二区久久| 中文字幕一区二区人妻性色| 亚洲AV一二三四区四色婷婷| 丰满熟女人妻一区二区三区| 亚洲乱码无人区卡1卡2卡3| 亚洲精品无码久久久久av麻豆| 日本a在线天堂| 99久久婷婷国产精品网| 欧美成人aaa片一区国产精品| 国产一区视频在线免费观看| av网页在线免费观看| 开心五月天第四色婷婷| 人妻夜夜爽天天爽一区| 欧美成人免费看片一区| 日本在线一区二区免费| 日本少妇浓毛bbwbbwbbw| 无码丰满少妇2在线观看| 亚洲精品二区在线观看| 在线免费观看黄色国产强暴av | 在线亚洲AV成人无码一区小说| 91乱码亚洲精品中文字幕| 妺妺窝人体色www看人体| 久久香蕉国产线看观看网| av资源在线播放网站| 无码熟妇人妻av在线网站| 久久精品国产亚洲av高清漫画|