亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖數(shù)據(jù)庫(kù)Neo4j的學(xué)者合作圖譜分析
        ——以數(shù)字人文領(lǐng)域?yàn)槔?/h1>
        2022-10-09 00:42:12熊回香黃曉捷陳子薇李昕然
        知識(shí)管理論壇 2022年4期
        關(guān)鍵詞:學(xué)者人文數(shù)據(jù)庫(kù)

        熊回香 黃曉捷 陳子薇 李昕然

        華中師范大學(xué)信息管理學(xué)院 武漢 430079

        數(shù)字人文作為計(jì)算機(jī)學(xué)科和人文學(xué)科交叉研究的一個(gè)跨學(xué)科領(lǐng)域,涉及的學(xué)科范圍較廣,包括語(yǔ)言學(xué)、文學(xué)、圖書(shū)情報(bào)學(xué)和計(jì)算機(jī)科學(xué)等,由人文計(jì)算領(lǐng)域發(fā)展而來(lái)[1]。在如今深度數(shù)字化時(shí)代,數(shù)字人文的研究熱度越來(lái)越高,雖然我國(guó)學(xué)術(shù)界對(duì)其研究起步稍晚,但發(fā)展勢(shì)頭迅猛,獲得了較好的發(fā)展前景[2]。目前,我國(guó)數(shù)字人文的研究主要集中在對(duì)國(guó)外數(shù)字人文項(xiàng)目的調(diào)查與分析、利用數(shù)字化技術(shù)對(duì)人文藝術(shù)等資源進(jìn)行可視化呈現(xiàn)及數(shù)字人文在圖情檔領(lǐng)域的應(yīng)用這三方面。此外,我國(guó)在數(shù)字人文的教育方面也取得了突破,上海圖書(shū)館、中國(guó)人民大學(xué)數(shù)字人文研究中心、武漢大學(xué)數(shù)字人文研究中心、北京大學(xué)信息管理系KVision實(shí)驗(yàn)室等科研機(jī)構(gòu)深入推進(jìn)數(shù)字人文和圖情檔的融合發(fā)展[3]。在這樣廣闊的發(fā)展平臺(tái)下,涌現(xiàn)出越來(lái)越多數(shù)字人文領(lǐng)域的學(xué)者,催生出龐大復(fù)雜的學(xué)術(shù)研究網(wǎng)絡(luò),主題多樣,合作頻繁。但是,如何在浩瀚無(wú)邊的學(xué)術(shù)資源、學(xué)者、機(jī)構(gòu)等信息中精準(zhǔn)地找到自身需要的相關(guān)研究方向的合作對(duì)象是近些年科研合作預(yù)測(cè)研究的重點(diǎn)。因此,對(duì)學(xué)者合作關(guān)系網(wǎng)絡(luò)進(jìn)行分析,有利于發(fā)掘?qū)W者合作的規(guī)律和趨勢(shì),了解核心科研團(tuán)隊(duì)及研究主題,對(duì)把握此領(lǐng)域的發(fā)展?fàn)顩r具有重要意義,進(jìn)而推動(dòng)數(shù)字人文研究的發(fā)展和創(chuàng)新。

        學(xué)者合作網(wǎng)絡(luò)是相關(guān)領(lǐng)域?qū)W者在科研創(chuàng)作中因合著或被引關(guān)系而形成的復(fù)雜關(guān)聯(lián)網(wǎng)絡(luò)。學(xué)者合作網(wǎng)絡(luò)可以加強(qiáng)學(xué)者之間的交流,對(duì)于知識(shí)共享、思維方式、科研創(chuàng)新等方面的進(jìn)步有著不容小覷的作用。因此,目前越來(lái)越多的學(xué)者開(kāi)始關(guān)注合作關(guān)系的研究,其中大多采用社會(huì)網(wǎng)絡(luò)分析方法,劉培[4]、劉志輝[5]、邱均平[6]等學(xué)者基于社會(huì)網(wǎng)絡(luò)分析法和關(guān)鍵詞耦合分析法挖掘分析作者潛在的合作關(guān)系并構(gòu)建合作網(wǎng)絡(luò)。具體到數(shù)字人文領(lǐng)域,徐晨飛等運(yùn)用文獻(xiàn)信息統(tǒng)計(jì)分析工具以及社會(huì)網(wǎng)絡(luò)分析方法對(duì)作者合著網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)特征、中心性、核心—邊緣結(jié)構(gòu)以及小型合著網(wǎng)絡(luò)展開(kāi)分析,總結(jié)該領(lǐng)域的科研合作特征[7];宮雪等通過(guò)高頻關(guān)鍵詞雙聚類(lèi)分析以及對(duì)合著網(wǎng)絡(luò)和合著機(jī)構(gòu)進(jìn)行社會(huì)網(wǎng)絡(luò)分析,從多角度探討了當(dāng)前國(guó)內(nèi)數(shù)字人文研究的整體狀況及研究熱點(diǎn)[8]。

        近年來(lái),開(kāi)源或商用的圖數(shù)據(jù)庫(kù)不斷涌現(xiàn),主流的圖數(shù)據(jù)庫(kù)包括國(guó)內(nèi)的GDB[9]、Huge Graph[10]以及國(guó)外的Neo4j[11]、Tiger Graph[12]等。這些圖數(shù)據(jù)庫(kù)集成了大量的社會(huì)網(wǎng)絡(luò)分析方法與應(yīng)用,主要包括中心性、路徑查找、鏈接預(yù)測(cè)、社區(qū)檢測(cè)和圖可視化等,有助于發(fā)現(xiàn)知識(shí)圖譜中的潛在知識(shí),也能更好地發(fā)現(xiàn)社會(huì)網(wǎng)絡(luò)中的合作關(guān)系[13]。學(xué)術(shù)界內(nèi)部分學(xué)者開(kāi)始嘗試使用圖數(shù)據(jù)庫(kù)開(kāi)展社會(huì)網(wǎng)絡(luò)分析研究。郭坤銘[14]利用Neo4j對(duì)異構(gòu)網(wǎng)絡(luò)中社會(huì)關(guān)系的分析優(yōu)勢(shì),存儲(chǔ)了百度百科上爬取的人物基本信息和關(guān)系,運(yùn)用Common Neighbors算法進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)相似度計(jì)算,并利用節(jié)點(diǎn)屬性相似度預(yù)測(cè)所構(gòu)建的異構(gòu)網(wǎng)絡(luò)中的人物社會(huì)關(guān)系。M. Kolomeets等[15]利用圖數(shù)據(jù)庫(kù)OrientDB構(gòu)建了VKontakte社交網(wǎng)絡(luò),使用 PageRank評(píng)估了社交群體中最具影響力的意見(jiàn)領(lǐng)袖。丁洪麗[16]基于人員信息和話單等數(shù)據(jù),采用Neo4j構(gòu)建了多維關(guān)系網(wǎng)絡(luò)并進(jìn)行可視化,利用Neo4j中的查詢分析功能挖掘人員關(guān)系,使得實(shí)驗(yàn)效率大幅提升。相較于傳統(tǒng)的社會(huì)網(wǎng)絡(luò)分析工具,圖數(shù)據(jù)庫(kù)能夠展示大規(guī)模實(shí)體之間不斷更新的龐大復(fù)雜關(guān)系,同時(shí)也能夠使得網(wǎng)絡(luò)節(jié)點(diǎn)和關(guān)系值間的查詢更加簡(jiǎn)單快捷,在映射真實(shí)實(shí)體和關(guān)系方面具有天然優(yōu)勢(shì)[17]。

        針對(duì)數(shù)字人文領(lǐng)域中日益錯(cuò)綜復(fù)雜的學(xué)術(shù)社交網(wǎng)絡(luò),如何對(duì)領(lǐng)域內(nèi)的學(xué)者合作關(guān)系進(jìn)行分析和挖掘逐漸成為該領(lǐng)域的一個(gè)研究重點(diǎn)。雖然傳統(tǒng)的社會(huì)網(wǎng)絡(luò)工具能夠在一定程度上對(duì)學(xué)者合作網(wǎng)絡(luò)進(jìn)行分析,但對(duì)異構(gòu)數(shù)據(jù)的處理仍有不足,且不具備圖數(shù)據(jù)庫(kù)的實(shí)時(shí)查詢、預(yù)測(cè)推理、因果關(guān)系分析等功能[13]。以Neo4j為主流的圖數(shù)據(jù)庫(kù)工具對(duì)多種關(guān)系數(shù)據(jù)的處理較為靈活,有望彌補(bǔ)這些不足。本文將在上述研究的基礎(chǔ)上,運(yùn)用Neo4j實(shí)現(xiàn)數(shù)字人文領(lǐng)域?qū)W者合作關(guān)系的構(gòu)建與存儲(chǔ),并利用其強(qiáng)大的查詢分析功能,快速便捷地查找相關(guān)學(xué)者并進(jìn)行其合作關(guān)系的圖譜分析,以期為相關(guān)領(lǐng)域的數(shù)字人文研究提供參考。

        1 圖數(shù)據(jù)庫(kù)Neo4j及其應(yīng)用優(yōu)勢(shì)

        1.1 圖數(shù)據(jù)庫(kù)Neo4j

        隨著互聯(lián)網(wǎng)的不斷發(fā)展,面對(duì)當(dāng)下高并發(fā)的海量大數(shù)據(jù)和實(shí)時(shí)應(yīng)用情景,圖數(shù)據(jù)庫(kù)以其易學(xué)、方便操作、高效處理復(fù)雜關(guān)系等獨(dú)特的優(yōu)勢(shì)備受企業(yè)和學(xué)者的關(guān)注,它以圖形數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)實(shí)體及其相互關(guān)系,由節(jié)點(diǎn)、屬性和邊構(gòu)成,其中節(jié)點(diǎn)表示數(shù)據(jù)實(shí)體,屬性是節(jié)點(diǎn)的附屬信息,邊表示節(jié)點(diǎn)之間的關(guān)系,適合對(duì)關(guān)聯(lián)關(guān)系復(fù)雜、動(dòng)態(tài)關(guān)系多變的龐大數(shù)據(jù)進(jìn)行存儲(chǔ)和管理[18]。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,圖數(shù)據(jù)庫(kù)處理的是非結(jié)構(gòu)化和不可預(yù)知的數(shù)據(jù),更符合現(xiàn)在數(shù)據(jù)爆炸式增長(zhǎng)與用戶個(gè)性化需求的特點(diǎn),并且有效支持實(shí)體間的關(guān)聯(lián)關(guān)系,當(dāng)加入新標(biāo)簽及新關(guān)系時(shí),不需要調(diào)整先前的結(jié)構(gòu),擁有多層關(guān)聯(lián)、最短路徑、集中度測(cè)量等多種擴(kuò)展功能,在社交網(wǎng)絡(luò)、推薦系統(tǒng)、關(guān)系圖譜等場(chǎng)景應(yīng)用廣泛,是大數(shù)據(jù)時(shí)代的新利器。

        常見(jiàn)的圖數(shù)據(jù)庫(kù)有Neo4j、Flock DB、Graph DB、AllegroGrap等類(lèi)型,其中,開(kāi)源的Neo4j以其高性能、高穩(wěn)定性、可擴(kuò)展性強(qiáng)等優(yōu)勢(shì)成為當(dāng)前應(yīng)用最為廣泛的原生圖數(shù)據(jù)庫(kù)之一[19]。它采用原生圖存儲(chǔ)和處理數(shù)據(jù),反映了關(guān)系網(wǎng)絡(luò)中實(shí)體聯(lián)系的本質(zhì),在查詢中能以快捷的路徑返回關(guān)聯(lián)數(shù)據(jù),表現(xiàn)出非常高效的查詢性能;支持非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與大規(guī)模數(shù)據(jù)的增長(zhǎng),能很好地適應(yīng)需求的變化,具有很大的靈活性。此外,它還可以對(duì)實(shí)體間復(fù)雜的關(guān)系進(jìn)行分析與推理,支持邏輯語(yǔ)言分析與面向約束的推理。Neo4j擁有自己的查詢語(yǔ)言——Cypher語(yǔ)言,它是一種面向圖分析、聲明式、表達(dá)能力強(qiáng)的描述性圖形查詢語(yǔ)言[20],對(duì)用戶十分友好,操作簡(jiǎn)便,主要使用的關(guān)鍵字有create(主要用于創(chuàng)建圖形節(jié)點(diǎn)、關(guān)系及屬性)、match(在已有圖形數(shù)據(jù)庫(kù)中匹配目標(biāo)信息)、where(是match功能的條件)、return(完成匹配后,返回指定值),基于這些查詢語(yǔ)句實(shí)現(xiàn)對(duì)圖形數(shù)據(jù)的分析與推理。

        1.2 Neo4j分析學(xué)者合作網(wǎng)絡(luò)的優(yōu)勢(shì)

        隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展以及跨學(xué)科研究的日益突出,學(xué)者之間的合作關(guān)系也呈現(xiàn)復(fù)雜多樣的特點(diǎn),產(chǎn)生了越來(lái)越多的非結(jié)構(gòu)化關(guān)聯(lián)網(wǎng)絡(luò)數(shù)據(jù),Neo4j圖數(shù)據(jù)庫(kù)正是一個(gè)能夠適應(yīng)異構(gòu)數(shù)據(jù)大規(guī)模增長(zhǎng)和需求不斷變化的數(shù)據(jù)庫(kù),它沒(méi)有模式結(jié)構(gòu)的定義,使用非結(jié)構(gòu)化的方式來(lái)存儲(chǔ)關(guān)聯(lián)數(shù)據(jù),不但適應(yīng)能力強(qiáng),而且自始至終都可以保持高效的查詢性能,因此在處理學(xué)者之間復(fù)雜關(guān)系時(shí)顯現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。

        1.2.1 反映學(xué)者之間復(fù)雜的合作關(guān)系

        合作關(guān)系是指學(xué)者們?cè)趯W(xué)術(shù)研究過(guò)程中所進(jìn)行的合作行為。常見(jiàn)的學(xué)者合作關(guān)系包括合著關(guān)系和引用關(guān)系。在學(xué)術(shù)網(wǎng)絡(luò)中,如果兩個(gè)學(xué)者的合著行為越頻繁,那么他們更有可能興趣相似且彼此信任,除此之外,學(xué)者的合著者也會(huì)與其他學(xué)者產(chǎn)生合著行為,基于這種學(xué)者間的合作關(guān)系便構(gòu)建了學(xué)者合著網(wǎng)絡(luò),這種關(guān)系可以采用圖結(jié)構(gòu)存儲(chǔ),在此基礎(chǔ)上,可以采取社會(huì)網(wǎng)絡(luò)分析法和圖挖掘算法對(duì)學(xué)者間的關(guān)系進(jìn)行分析與聚類(lèi),從而發(fā)現(xiàn)最為匹配的合作者及合作團(tuán)隊(duì)。另外,學(xué)者間的另一種合作關(guān)系為引用關(guān)系,其被分為引用與被引,基于這兩種引用行為,學(xué)者間構(gòu)成了引文網(wǎng)絡(luò),是施引文獻(xiàn)與被引成果的紐帶,反映了引用者的借鑒、肯定以及相關(guān)問(wèn)題的深層次研究。通常根據(jù)這樣的引用關(guān)系實(shí)現(xiàn)資源聚合與學(xué)者聚合,以學(xué)者為節(jié)點(diǎn),以文獻(xiàn)之間的引用關(guān)系作為節(jié)點(diǎn)之間的聯(lián)系邊,以此構(gòu)建相關(guān)引用文獻(xiàn)之間的引用網(wǎng)絡(luò),從而更好地從引文關(guān)系網(wǎng)絡(luò)中挖掘出核心學(xué)者或核心團(tuán)隊(duì)。不管是哪種合作關(guān)系,隨著相關(guān)問(wèn)題研究的多元化,學(xué)者間的合作關(guān)系也越來(lái)越復(fù)雜,而Neo4j恰好可以存儲(chǔ)并反映這種量大、復(fù)雜而又變化的關(guān)聯(lián)數(shù)據(jù),支持大規(guī)模數(shù)據(jù)的增長(zhǎng)與更新,且可清晰呈現(xiàn)各節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系。

        1.2.2 實(shí)時(shí)查詢目標(biāo)學(xué)者的合作關(guān)系

        除了存儲(chǔ)功能,圖數(shù)據(jù)庫(kù)Neo4j的檢索功能也非常強(qiáng)大,這依賴于Cypher查詢語(yǔ)言,它是一種聲明式圖數(shù)據(jù)庫(kù)查詢語(yǔ)言,用法簡(jiǎn)潔且表現(xiàn)力豐富,查詢效率高,擁有良好的擴(kuò)展性,用戶可以定制自己的查詢方式。在檢索功能中,Cypher語(yǔ)言由start、match、where、return 4個(gè)部分組成:①start表示在圖中指定一個(gè)或多個(gè)起始節(jié)點(diǎn),通過(guò)索引查找獲得,也可以通過(guò)節(jié)點(diǎn)的編號(hào)直接獲得;②match用于圖形的匹配模式,也是進(jìn)行實(shí)例具體化的重要部分;③where提供過(guò)濾模式匹配結(jié)果的條件;④return用來(lái)指明在已經(jīng)匹配查詢的數(shù)據(jù)中,哪些節(jié)點(diǎn)、關(guān)系和屬性是需要返回給客戶端的。通過(guò)這樣遍歷查找的過(guò)程,容易定位聚焦到想要了解的學(xué)者節(jié)點(diǎn),再利用條件的匹配,得到目標(biāo)學(xué)者的合作關(guān)系,從而進(jìn)行針對(duì)性分析。此外,Neo4j還支持實(shí)時(shí)更新圖數(shù)據(jù)庫(kù),且不影響已有的數(shù)據(jù)結(jié)構(gòu),這樣可以不斷地?cái)U(kuò)充現(xiàn)有關(guān)系圖譜,展示越來(lái)越完備復(fù)雜的合作關(guān)系網(wǎng)絡(luò)。

        1.2.3 預(yù)測(cè)學(xué)者之間潛在的合作趨勢(shì)

        目前人物關(guān)系推理的方法主要有兩種:基于本體的方法和基于圖數(shù)據(jù)庫(kù)的方法[21]。基于本體的人物關(guān)系推理時(shí)間復(fù)雜度較高,推理速度隨人物關(guān)系數(shù)據(jù)量的增多而迅速降低,難以滿足大數(shù)據(jù)時(shí)代下的人物關(guān)系推理需求,而基于圖數(shù)據(jù)庫(kù)的人物關(guān)系推理是人物關(guān)系數(shù)據(jù)分析的新趨勢(shì)。圖數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)和數(shù)據(jù)查詢方式都以圖論為基礎(chǔ),適用于含有大量聯(lián)系的人物關(guān)系數(shù)據(jù)的增刪查改(CRUD)?;趫D數(shù)據(jù)庫(kù)的人物關(guān)系推理方法,首先將人物關(guān)系數(shù)據(jù)轉(zhuǎn)換為圖數(shù)據(jù)庫(kù)的存儲(chǔ)方式,然后采用圖數(shù)據(jù)庫(kù)查詢語(yǔ)言進(jìn)行人物關(guān)系分析[22]。作為支持效率高、擴(kuò)展性強(qiáng)的聲明式圖查詢語(yǔ)言及具有豐富開(kāi)發(fā)模式的圖數(shù)據(jù)庫(kù)系統(tǒng),Neo4j存儲(chǔ)學(xué)者關(guān)系知識(shí)圖譜具有不可比擬的優(yōu)勢(shì),復(fù)雜的關(guān)系鏈接也使其具備了推理能力,從而預(yù)測(cè)學(xué)者潛在的合作趨勢(shì),為不同領(lǐng)域、不同學(xué)科的科研合作提供可能的研究方向。

        2 基于圖數(shù)據(jù)庫(kù)Neo4j的學(xué)者合作關(guān)系圖譜構(gòu)建

        2.1 數(shù)據(jù)的選擇與獲取

        本文選取中國(guó)知網(wǎng)學(xué)術(shù)資源總庫(kù)中的CSSCI期刊作為數(shù)據(jù)來(lái)源進(jìn)行數(shù)據(jù)獲取,以“數(shù)字人文”或“人文計(jì)算”為主題進(jìn)行檢索,截至2021年4月3日,共檢索到615篇文獻(xiàn)。通過(guò)NoteExpress文獻(xiàn)管理器對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,刪除重復(fù)文獻(xiàn)、會(huì)議征文、與數(shù)字人文主題不太相關(guān)的文獻(xiàn),最終獲得有效文獻(xiàn)334篇。對(duì)于多位作者署名的文獻(xiàn),本文統(tǒng)一選取前三位作者作為研究對(duì)象,經(jīng)過(guò)重復(fù)項(xiàng)去除后,獲得410個(gè)學(xué)者節(jié)點(diǎn),244個(gè)機(jī)構(gòu)節(jié)點(diǎn)和636個(gè)關(guān)鍵詞節(jié)點(diǎn),數(shù)據(jù)處理結(jié)果示例見(jiàn)圖1;然后利用Python獲取學(xué)者與學(xué)者之間的合著、被引關(guān)系,學(xué)者與機(jī)構(gòu)之間的工作關(guān)系和學(xué)者與關(guān)鍵詞之間的研究主題關(guān)系數(shù)據(jù),本文主要基于上述3種節(jié)點(diǎn)和4種關(guān)系對(duì)學(xué)者合作關(guān)系進(jìn)行圖譜構(gòu)建,數(shù)據(jù)模型見(jiàn)圖2。

        圖1 數(shù)據(jù)處理結(jié)果示例

        圖2 學(xué)者合作關(guān)系圖譜數(shù)據(jù)模型

        2.2 數(shù)據(jù)文件的導(dǎo)入

        圖數(shù)據(jù)要具體存儲(chǔ)到圖數(shù)據(jù)庫(kù)中,就涉及到了特定的圖數(shù)據(jù)模型,即關(guān)于采用什么實(shí)現(xiàn)方式來(lái)存圖數(shù)據(jù)的問(wèn)題。常見(jiàn)的圖數(shù)據(jù)模型有屬性圖、超圖和三元組。由于屬性圖模型直觀且易于理解,能夠描述絕大部分圖的使用場(chǎng)景,Neo4j采用的便是當(dāng)下最流行的屬性圖模型。首先,將節(jié)點(diǎn)和關(guān)系數(shù)據(jù)的Excel文件都另存為“.csv”文件;然后利用Cypher語(yǔ)言的create語(yǔ)句,將節(jié)點(diǎn)文件和關(guān)系文件按照代碼示例,見(jiàn)圖3,輸入到代碼編輯區(qū);最后運(yùn)行結(jié)果見(jiàn)圖4,清晰地展示了節(jié)點(diǎn)的個(gè)數(shù)、關(guān)系的對(duì)數(shù)以及學(xué)者合作關(guān)系圖譜。具體于某一節(jié)點(diǎn),以中國(guó)社會(huì)科學(xué)院文學(xué)研究所為例,通過(guò)此節(jié)點(diǎn)可查詢到在這個(gè)機(jī)構(gòu)工作的兩位學(xué)者,進(jìn)而其合作的學(xué)者、研究主題等相關(guān)關(guān)系得到清晰的呈現(xiàn),見(jiàn)圖5。

        圖3 導(dǎo)入數(shù)據(jù)代碼示例

        圖4 學(xué)者合作關(guān)系圖譜構(gòu)建樣例

        圖5 具體實(shí)例展示

        3 基于圖數(shù)據(jù)庫(kù)Neo4j的學(xué)者合作圖譜分析

        面對(duì)龐大復(fù)雜的非結(jié)構(gòu)化關(guān)系數(shù)據(jù),圖數(shù)據(jù)庫(kù)Neo4j為技術(shù)的應(yīng)用提供了有效的解決途徑,但是通過(guò)梳理國(guó)內(nèi)相關(guān)文獻(xiàn)可知,目前利用Neo4j的內(nèi)嵌圖算法和Cypher查詢語(yǔ)言進(jìn)行數(shù)據(jù)分析與處理的研究相對(duì)較少,本文將充分利用Neo4j強(qiáng)大的圖算法功能這一優(yōu)勢(shì),對(duì)數(shù)字人文研究領(lǐng)域的學(xué)者合作網(wǎng)絡(luò)進(jìn)行分析。Neo4j的算法庫(kù) Graph Data Science(GDS)可以實(shí)現(xiàn)各種復(fù)雜的社會(huì)網(wǎng)絡(luò)分析,包括centrality algorithms(中心性算法)、community detection algorithms(社區(qū)檢測(cè)算法)、path finding algorithms(路徑查找算法)、link prediction algorithms(鏈路預(yù)測(cè)算法)等。本文通過(guò)采用相關(guān)圖算法,實(shí)現(xiàn)學(xué)者合作社區(qū)的發(fā)現(xiàn)、核心學(xué)者的識(shí)別以及學(xué)者合作趨勢(shì)的預(yù)測(cè),從不同角度為數(shù)字人文領(lǐng)域?qū)W者尋找自己的合作對(duì)象和資源提供借鑒。

        3.1 合作社區(qū)發(fā)現(xiàn)

        近年來(lái),數(shù)字人文技術(shù)快速發(fā)展,吸引了越來(lái)越多的學(xué)者對(duì)相關(guān)問(wèn)題進(jìn)行廣泛而深入的研究,因而構(gòu)成了復(fù)雜的學(xué)者網(wǎng)絡(luò),社區(qū)結(jié)構(gòu)便是復(fù)雜網(wǎng)絡(luò)中的一個(gè)重要性質(zhì),體現(xiàn)為社區(qū)中的節(jié)點(diǎn)緊密相連且不同社區(qū)的節(jié)點(diǎn)稀疏連接[23]。它可以對(duì)有相似特征或共同屬性的學(xué)者進(jìn)行聚類(lèi),幫助學(xué)者發(fā)現(xiàn)并找到具有相似興趣的同行或可以相互交流的跨學(xué)科合作者。在Louvain、Label Propagation、infomap等社區(qū)檢測(cè)算法中,Louvain在效率和效果上都表現(xiàn)較好,并能夠發(fā)現(xiàn)層次性的社區(qū)結(jié)構(gòu)。郭理等[24]使用經(jīng)典數(shù)據(jù)集American College Football對(duì)Louvain算法與常用重疊社區(qū)發(fā)現(xiàn)算法CPM、LFM和COPRA進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明Louvain算法明顯優(yōu)于其他的算法。G. Drakopoulos等[25]針對(duì)Twitter上的社交信息,在Neo4j中構(gòu)建了爭(zhēng)議性話題和普通性話題兩個(gè)社交網(wǎng)絡(luò)圖,分別使用Lonvain、Edge Betweeness、Walktrap以及CNM等4種社區(qū)發(fā)現(xiàn)算法進(jìn)行評(píng)估,實(shí)證發(fā)現(xiàn)Louvain算法產(chǎn)生的社區(qū)聚集性較高,社區(qū)成員的聯(lián)系最為緊密。因此,本文選用Louvain方法在已構(gòu)建學(xué)者合作網(wǎng)絡(luò)中檢測(cè)社區(qū)以實(shí)現(xiàn)對(duì)學(xué)者的模塊化聚類(lèi),從而更好地分析學(xué)者聚集分區(qū)的特點(diǎn)以及它們加強(qiáng)或分散的趨勢(shì)。在GDS中應(yīng)用Louvain算法共發(fā)現(xiàn)100個(gè)學(xué)者合作社區(qū),部分結(jié)果見(jiàn)圖6,按社區(qū)規(guī)模降序呈現(xiàn)。其中最大的社區(qū)包含26個(gè)學(xué)者,學(xué)者鄧君、王阮、鐘楚依、宋先智和孫紹丹之間合著頻率較高,他們就數(shù)字人文視角下的歷史項(xiàng)目進(jìn)行分析研究;賀晨芝和徐孝娟對(duì)圖書(shū)館數(shù)字人文眾包項(xiàng)目進(jìn)行實(shí)踐研究;李道新從電影藝術(shù)的角度分析了數(shù)字人文的應(yīng)用路徑等。由此可見(jiàn),在模塊化的社區(qū)里有合著頻次較高的學(xué)者,也有跨學(xué)科相互引用的學(xué)者,同一社區(qū)的學(xué)者關(guān)聯(lián)緊密程度較高,他們有著相通的研究方向和研究熱點(diǎn),表現(xiàn)出高度相似性。與此同時(shí),圖7的學(xué)者合作關(guān)系圖譜也清晰地展現(xiàn)了不同社區(qū)學(xué)者的分布及其緊密程度,相同顏色的節(jié)點(diǎn)代表其處于同一個(gè)社區(qū),研究主題相似的同時(shí)不同學(xué)者之間相互引證,進(jìn)一步加強(qiáng)了學(xué)者之間的關(guān)聯(lián)程度,為知識(shí)的交流與共享提供學(xué)習(xí)平臺(tái)。

        圖7 學(xué)者合作社區(qū)部分關(guān)系圖譜

        3.2 核心學(xué)者識(shí)別

        核心學(xué)者是指在某個(gè)研究領(lǐng)域內(nèi)研究成果數(shù)量較多、學(xué)術(shù)影響力較大、為該領(lǐng)域發(fā)展做出貢獻(xiàn)的學(xué)者,他們是推動(dòng)該領(lǐng)域?qū)W術(shù)進(jìn)步的中堅(jiān)力量[26]。核心學(xué)者的分析為學(xué)者們開(kāi)展研究提供便利,幫助其全面地查詢到自己感興趣的核心學(xué)者群并快速查閱到該領(lǐng)域的核心科技文獻(xiàn),從而快速了解該領(lǐng)域研究的現(xiàn)狀與不足,為自己深入研究奠定堅(jiān)實(shí)的基礎(chǔ)。中介中心性(Betweenness Centrality)算法是網(wǎng)絡(luò)中心性衡量的經(jīng)典指標(biāo),本文利用GDS中的Betweenness Centrality算法來(lái)衡量學(xué)者網(wǎng)絡(luò)中不同節(jié)點(diǎn)的重要性,即檢測(cè)其中一個(gè)節(jié)點(diǎn)對(duì)圖中信息流的影響程度。該算法計(jì)算一個(gè)網(wǎng)絡(luò)中所有節(jié)點(diǎn)對(duì)之間的未加權(quán)最短路徑,每個(gè)節(jié)點(diǎn)根據(jù)通過(guò)該節(jié)點(diǎn)的最短路徑的數(shù)量得到一個(gè)分?jǐn)?shù),更頻繁地位于其他節(jié)點(diǎn)之間最短路徑上的節(jié)點(diǎn)的得分更高。

        在GDS中,Betweenness Centrality算法通過(guò)對(duì)410位學(xué)者的最短路徑進(jìn)行打分,按照分?jǐn)?shù)降序排列的同時(shí)給每位學(xué)者賦予一個(gè)編號(hào),識(shí)別結(jié)果見(jiàn)表1。學(xué)者劉煒得分最高,趙宇翔次之。得分越高,說(shuō)明這些學(xué)者在數(shù)字人文研究領(lǐng)域的活躍度較高,同時(shí)也說(shuō)明他們?cè)诖祟I(lǐng)域建樹(shù)頗豐并有著較高的學(xué)術(shù)影響力。根據(jù)識(shí)別結(jié)果數(shù)據(jù)繪制散點(diǎn)圖,如圖8所示,在節(jié)點(diǎn)16后出現(xiàn)了明顯的斷崖式下降,由此初步認(rèn)為前16位學(xué)者可被識(shí)別為數(shù)字人文領(lǐng)域研究的核心學(xué)者,在這些核心學(xué)者中,劉煒和夏翠娟工作于上海圖書(shū)館,朱學(xué)芳和葉鷹工作于南京大學(xué),趙宇翔工作于南京理工大學(xué),王曉光工作于武漢大學(xué)等,從一定程度上可以反映出這些學(xué)者的工作單位是其科學(xué)研究的主要陣地,以他們?yōu)榇頁(yè)碛兄擃I(lǐng)域研究的核心團(tuán)隊(duì),他們帶領(lǐng)自己的學(xué)生及合作者深入地開(kāi)展著數(shù)字人文的研究,成果頗多。其中,上海圖書(shū)館主持有關(guān)于數(shù)字人文的國(guó)家哲學(xué)社會(huì)科學(xué)基金項(xiàng)目,夏翠娟和劉煒學(xué)者是數(shù)字人文團(tuán)隊(duì)中的重要成員,其團(tuán)隊(duì)基于數(shù)字人文構(gòu)建了家譜知識(shí)服務(wù)平臺(tái)[27]、名人手稿檔案庫(kù)[28]、中文古籍聯(lián)合目錄及循證平臺(tái)[29]等,在國(guó)內(nèi)將數(shù)字人文的研究和應(yīng)用推向新的發(fā)展階段。為了進(jìn)一步清晰地反映核心學(xué)者,可利用Neo4j所呈現(xiàn)的圖譜中學(xué)者節(jié)點(diǎn)的大小來(lái)反映其在數(shù)字人文研究領(lǐng)域中所處的位置,如圖9所示,節(jié)點(diǎn)越大,其學(xué)術(shù)影響力越大。這對(duì)于相關(guān)研究者找尋領(lǐng)域內(nèi)核心學(xué)者具有重要參考意義,且更加方便快捷,清晰明了。

        圖9 部分核心學(xué)者關(guān)系圖譜

        表1 部分核心學(xué)者識(shí)別結(jié)果

        圖8 核心學(xué)者識(shí)別的得分散點(diǎn)圖

        3.3 合作趨勢(shì)預(yù)測(cè)

        在大數(shù)據(jù)時(shí)代,學(xué)術(shù)研究的合作化趨勢(shì)日益明顯,作為科研活動(dòng)的重要組成部分,合作形式在提升科研效率、促進(jìn)科研產(chǎn)出時(shí)發(fā)揮著極其重要的作用。研究表明,在過(guò)去的20多年里,各個(gè)學(xué)科中的合作研究的數(shù)量都呈顯著增長(zhǎng)趨勢(shì),具有相同研究領(lǐng)域、相似研究方向的學(xué)者更易于在未來(lái)進(jìn)行合作[30]。但是,由于時(shí)間、空間位置的阻礙,學(xué)者們很難在浩如煙海的學(xué)者群體里準(zhǔn)確找到與自身研究方向相近的學(xué)者,分析挖掘?qū)W者潛在的合作對(duì)象可以有效提高其科研效率。本文利用GDS中的鏈路預(yù)測(cè)算法對(duì)節(jié)點(diǎn)之間的接近度進(jìn)行計(jì)算,從而幫助學(xué)者找到潛在的合作機(jī)會(huì)。

        鏈路預(yù)測(cè)算法是指通過(guò)已知節(jié)點(diǎn)的特征信息以及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),預(yù)測(cè)尚未產(chǎn)生連接的節(jié)點(diǎn)對(duì)之間出現(xiàn)連邊的可能性。常見(jiàn)的鏈路預(yù)測(cè)算法包括基于鄰居節(jié)點(diǎn)的鏈路預(yù)測(cè)以及基于共有鄰居的鏈路預(yù)測(cè),其中基于鄰居節(jié)點(diǎn)的算法包括所有鄰居(total neighbors)以及連接偏好(preferential attachment)等,基于共有鄰居的算法包括共有鄰居(common neighbors)、資源優(yōu)化(resource allocation)以及AA(adamic adar)算 法 等[31]。D. Liben-Nowell等[32]、T. Zhou等[33]通過(guò)實(shí)驗(yàn)對(duì)多種鏈路預(yù)測(cè)算法對(duì)比分析發(fā)現(xiàn)AA算法效果相對(duì)較優(yōu)。AA算法基于共有鄰居的相鄰節(jié)點(diǎn)集合,并對(duì)集合數(shù)量進(jìn)行非線性歸一化處理,計(jì)算兩個(gè)節(jié)點(diǎn)的緊密度,其預(yù)測(cè)網(wǎng)絡(luò)中學(xué)者合作鏈接的公式如下所示:

        在該公式中,當(dāng)計(jì)算結(jié)果的值為0時(shí),表示兩個(gè)節(jié)點(diǎn)不靠近;當(dāng)值越大時(shí)則表示節(jié)點(diǎn)越靠近。

        在上述學(xué)者合作社區(qū)發(fā)現(xiàn)分析中,相較于不同社區(qū)來(lái)說(shuō),同一社區(qū)學(xué)者的合作關(guān)系更為緊密,但是盡管在同一社區(qū),他們的合作也存在疏密之分,本文選取第四大學(xué)者合作社區(qū),以核心學(xué)者“劉煒”為研究對(duì)象,利用上述公式和Cypher查詢語(yǔ)言“MATCH (s1:author{Author:‘劉煒’}),MATCH (s2:author{Author:‘*’}),RETURN gds. alpha. linkprediction. adamicAdar (s1, s2) AS score”計(jì)算并呈現(xiàn)劉煒與其同一社區(qū)中其他學(xué)者的可能鏈接程度,預(yù)測(cè)值分?jǐn)?shù)見(jiàn)表2。其中劉煒和趙宇翔可能產(chǎn)生鏈接關(guān)系的得分最高,說(shuō)明他們發(fā)生合作的可能性最大,而劉煒和汪莉進(jìn)行合作的可能性則最小。與此同時(shí),通過(guò)Cypher查詢語(yǔ)句將劉煒?biāo)诘纳鐓^(qū)的學(xué)者合作關(guān)系圖譜進(jìn)行呈現(xiàn),見(jiàn)圖10。這個(gè)圖表明了同一社區(qū)的學(xué)者關(guān)聯(lián)緊密,但其中也存在少部分學(xué)者之間未建立直接的合作關(guān)系,如劉煒與岑炅蓮、曾輝、劉洪、汪莉這4位學(xué)者,相對(duì)應(yīng)他們的合作鏈接預(yù)測(cè)值也較低。通過(guò)分析表2和圖10不難發(fā)現(xiàn),在已產(chǎn)生直接連接的學(xué)者中,宋士杰得分最低,此分?jǐn)?shù)可確定為產(chǎn)生新鏈接的最低閾值,即當(dāng)未發(fā)生直接連接的兩個(gè)學(xué)者得分大于這個(gè)閾值時(shí),則能說(shuō)明其更能產(chǎn)生鏈接,其合作的可能性更大。由此可以看出劉煒與岑炅蓮、曾輝、劉洪更能進(jìn)行有效的科研交流,合作趨勢(shì)較為明顯。

        圖10 學(xué)者劉煒?biāo)谏鐓^(qū)的學(xué)者合作關(guān)系圖譜

        表2 同一社區(qū)學(xué)者之間合作預(yù)測(cè)值得分表

        綜上所述,Neo4j的語(yǔ)句查詢和算法分析功能是學(xué)者合作趨勢(shì)預(yù)測(cè)的有效工具,為學(xué)者尋找自己的合作伙伴節(jié)省時(shí)間,提高合作效益。在學(xué)者交流活動(dòng)日趨頻繁的背景下,科研合作已然成為學(xué)者推動(dòng)學(xué)術(shù)研究發(fā)展的必要形式,學(xué)者間的合作越多樣多元,那么該領(lǐng)域的學(xué)術(shù)交流氛圍越活躍高效,不同的思維碰撞推動(dòng)數(shù)字人文領(lǐng)域的多元化、跨學(xué)科式發(fā)展。

        4 結(jié)語(yǔ)

        隨著數(shù)字時(shí)代的深入發(fā)展,“數(shù)字人文”對(duì)實(shí)施文獻(xiàn)搶救性保護(hù)、提供公共文化服務(wù)、弘揚(yáng)中華民族優(yōu)秀傳統(tǒng)文化等方面都具有重要的現(xiàn)實(shí)意義。在我國(guó),數(shù)字人文作為專業(yè)學(xué)術(shù)研究已開(kāi)始加速發(fā)展,而且由這種跨學(xué)科的研究范式孕育而生的研究成果也將通過(guò)更多的合作形式來(lái)呈現(xiàn)。對(duì)于科研工作者來(lái)說(shuō),合作能夠促使學(xué)者產(chǎn)生新的想法、新的研究思路,能夠提高合作者的產(chǎn)出量和影響力;對(duì)于學(xué)科發(fā)展來(lái)說(shuō),合作能夠促使新的知識(shí)體系的形成,開(kāi)闊學(xué)者的知識(shí)視野和更新學(xué)者的知識(shí)結(jié)構(gòu),在幫助學(xué)者們快速高效地尋找與自己研究興趣和方向高度關(guān)聯(lián)的跨學(xué)科學(xué)者、加強(qiáng)交流合作的同時(shí)推動(dòng)數(shù)字人文的多學(xué)科深度融合發(fā)展。本文利用處理復(fù)雜關(guān)聯(lián)數(shù)據(jù)的利器——圖數(shù)據(jù)庫(kù)Neo4j對(duì)我國(guó)數(shù)字人文的研究主體(即學(xué)者)及其間關(guān)系進(jìn)行存儲(chǔ)分析,利用GDS算法庫(kù)實(shí)現(xiàn)了學(xué)者合作社區(qū)的發(fā)現(xiàn)、核心學(xué)者的識(shí)別以及合作趨勢(shì)的預(yù)測(cè)。雖然社會(huì)網(wǎng)絡(luò)分析方法從中心性、凝聚子群、核心—邊緣等不同角度在各種關(guān)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)的分析中非常普遍,但是本文利用圖數(shù)據(jù)庫(kù)Neo4j實(shí)現(xiàn)了傳統(tǒng)的社會(huì)網(wǎng)絡(luò)分析方法能夠達(dá)成的功能外,還實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、實(shí)時(shí)更新、即查即得、預(yù)測(cè)推理等功能,這是對(duì)社會(huì)網(wǎng)絡(luò)分析方法的有力補(bǔ)充,為社會(huì)網(wǎng)絡(luò)分析提供了新的思路與方法。

        此外,本文的不足之處在于:①在獲取相關(guān)文獻(xiàn)時(shí)忽略了一些篇名沒(méi)有以“數(shù)字人文”或“人文計(jì)算”命名但研究?jī)?nèi)容為“數(shù)字人文”的研究成果,使得學(xué)者節(jié)點(diǎn)和關(guān)系數(shù)據(jù)量偏小,在完整性上稍有欠缺;②數(shù)據(jù)量越大,復(fù)雜度越高,圖數(shù)據(jù)庫(kù)Neo4j處理數(shù)據(jù)的優(yōu)勢(shì)就越明顯,但本文在研究圖數(shù)據(jù)庫(kù)Neo4j的功能應(yīng)用上較為簡(jiǎn)單,沒(méi)有很好地發(fā)揮出其數(shù)據(jù)分析的優(yōu)勢(shì)。因此,在未來(lái)的研究中,筆者將繼續(xù)深入學(xué)習(xí)Neo4j極其強(qiáng)大的數(shù)據(jù)分析功能,不斷擴(kuò)大更新學(xué)者的數(shù)據(jù)量,從而充分展現(xiàn)學(xué)者之間復(fù)雜的合作關(guān)系,為學(xué)者們進(jìn)行潛在科研合作提供借鑒。

        猜你喜歡
        學(xué)者人文數(shù)據(jù)庫(kù)
        人文
        學(xué)者介紹
        學(xué)者簡(jiǎn)介
        學(xué)者介紹
        人文紹興
        數(shù)據(jù)庫(kù)
        學(xué)者介紹
        人文社科
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)

        免费视频成人 国产精品网站 | 亚洲18色成人网站www| 久久综合九色综合久99| 免费人妻精品一区二区三区| 精品一区二区三区在线观看| 一级片久久| 亚洲av网一区天堂福利| 国产三级精品三级在线专区| 亚洲一区毛片在线观看| 免费观看a级片| 中国丰满人妻videoshd| av香港经典三级级 在线| 无限看片在线版免费视频大全| 亚洲另在线日韩综合色| 欧美亚洲国产丝袜在线| 美女被搞在线观看一区二区三区 | 女同欲望一区二区三区| 一本色综合网久久| 先锋影音av最新资源| 亚洲精品亚洲人成在线下载| 亚洲一区二区三区免费av在线| 中文字幕综合一区二区三区| 亚洲av成人精品日韩在线播放| 性色av无码一区二区三区人妻| 精品少妇一区一区三区| av在线免费播放网站| 中文字幕一区乱码在线观看| 极品一区二区在线视频观看| 婷婷五月深深久久精品| 玩50岁四川熟女大白屁股直播 | 狠狠色丁香婷婷综合潮喷| 亚洲精品久久国产高清情趣图文 | 99精品国产一区二区三区a片| 中文字幕av日韩精品一区二区| 乱人伦中文字幕在线不卡网站 | 亚洲粉嫩视频在线观看| 免费国产黄网站在线观看视频| 狠狠躁夜夜躁人人爽天天天天97| 亚洲阿v天堂网2021| 精品日本韩国一区二区三区| 加勒比东京热中文字幕|