亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙曲空間圖嵌入的科研熱點(diǎn)預(yù)測

        2022-12-02 05:28:54戴筠
        大數(shù)據(jù) 2022年6期
        關(guān)鍵詞:歐氏雙曲建模

        戴筠

        上海大學(xué),上海 200041

        0 引言

        科研熱點(diǎn)是指在某個(gè)時(shí)間段里許多研究者在探討的學(xué)問或?qū)n},它承載著科學(xué)研究各個(gè)領(lǐng)域的最新研究成果,對科學(xué)研究的發(fā)展具有指導(dǎo)意義[1]。傳統(tǒng)的科研熱點(diǎn)預(yù)測,是相關(guān)領(lǐng)域高級(jí)專業(yè)人員通過科技論文查閱與市場調(diào)研來確定的??萍颊撐陌l(fā)表數(shù)量日益增長,使專業(yè)人員快速了解研究內(nèi)容、跟進(jìn)研究熱點(diǎn)變得越來越困難。

        隨著大數(shù)據(jù)時(shí)代的到來和深度學(xué)習(xí)的崛起[1-3],數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用到科研熱點(diǎn)預(yù)測中。傳統(tǒng)的機(jī)器學(xué)習(xí)主要從兩方面對科研熱點(diǎn)進(jìn)行預(yù)測:一方面是基于論文文本內(nèi)容的主題模型建模,包括考慮摘要和全文的主題模型,通過算法將論文的文字設(shè)計(jì)成一個(gè)詞袋模型,通過對模型的統(tǒng)計(jì)分析,結(jié)合與時(shí)間相關(guān)的信息,得到出現(xiàn)頻率顯著增高的詞[4-6];另一方面是通過論文被引用數(shù)量的變化來預(yù)測科研熱點(diǎn)[7-10],即挖掘被引頻次顯著增加的論文,那些被引頻次居高不下甚至不斷增加的論文的研究內(nèi)容,通常就是這些研究領(lǐng)域的熱點(diǎn)。還有一種未被廣泛使用的方法[11],即通過分析論文關(guān)鍵詞來預(yù)測未來可能會(huì)被廣泛使用的詞,這些詞往往代表了科研熱點(diǎn)。這種方法相比于前兩種方法,優(yōu)點(diǎn)在于能更好地避免全文和引文中的噪聲,因?yàn)檫@些關(guān)鍵詞由作者提供,能更好地反映論文的主題。

        本文從論文關(guān)鍵詞中尋找科研熱點(diǎn),研究思路是構(gòu)建一個(gè)關(guān)鍵詞網(wǎng)絡(luò),網(wǎng)絡(luò)的節(jié)點(diǎn)為論文的關(guān)鍵詞,當(dāng)兩個(gè)關(guān)鍵詞出現(xiàn)在一個(gè)句子中時(shí),這兩個(gè)關(guān)鍵詞之間就形成一個(gè)鏈路,即網(wǎng)絡(luò)的邊。連接某個(gè)關(guān)鍵詞節(jié)點(diǎn)網(wǎng)絡(luò)的邊數(shù)量越多,這個(gè)關(guān)鍵詞就越有可能是未來的一個(gè)科研熱點(diǎn)。本文的研究目的是預(yù)測哪些關(guān)鍵詞節(jié)點(diǎn)會(huì)有較多的網(wǎng)絡(luò)邊。現(xiàn)有網(wǎng)絡(luò)邊預(yù)測算法雖然被廣泛應(yīng)用于社交和物流等網(wǎng)絡(luò)中,但它們并不能在關(guān)鍵詞網(wǎng)絡(luò)中得到好的效果[12],主要原因是關(guān)鍵詞網(wǎng)絡(luò)中的關(guān)鍵詞具有明顯的長尾效應(yīng)[13],即有大量的關(guān)鍵詞只有很少的邊,但同時(shí)又有少量的關(guān)鍵詞有大量的邊。另外,現(xiàn)有的這些算法只能關(guān)注到出現(xiàn)頻率高的關(guān)鍵詞,而完全忽略那些目前出現(xiàn)頻率低但在未來頻率顯著增高的關(guān)鍵詞,也就是這些算法只能關(guān)注到近期的科研熱點(diǎn),而無法預(yù)測未來的科研熱點(diǎn)。

        本文提出雙曲空間關(guān)鍵詞圖嵌入(Poincaré keywords graph embedding,PKGM)算法來預(yù)測科研熱點(diǎn)。與傳統(tǒng)的歐氏空間相比,雙曲空間能更好地處理具有長尾效應(yīng)的數(shù)據(jù)。雙曲空間以指數(shù)形式進(jìn)行建模,可以有足夠的空間來表示罕見的數(shù)據(jù)點(diǎn)。雙曲空間可以消除隨機(jī)噪聲對這些數(shù)據(jù)點(diǎn)的干擾,更好地處理長尾效應(yīng)的數(shù)據(jù)。PKGM算法在雙曲空間中進(jìn)行圖嵌入,而不在歐氏空間中進(jìn)行圖嵌入。首先構(gòu)造一個(gè)關(guān)鍵詞網(wǎng)絡(luò),然后將此網(wǎng)絡(luò)嵌入雙曲空間。即使兩個(gè)關(guān)鍵詞在原網(wǎng)絡(luò)中沒有邊連接,如果在雙曲空間中的距離非常近,就會(huì)認(rèn)為這兩個(gè)關(guān)鍵詞之間未來會(huì)有一條邊。對這些邊的尋找可以預(yù)測未來出現(xiàn)頻率高的關(guān)鍵詞,從而找到科研熱點(diǎn)。將PKGM算法在一個(gè)真實(shí)的數(shù)據(jù)集上進(jìn)行驗(yàn)證,構(gòu)建的關(guān)鍵詞網(wǎng)絡(luò)包括9 966個(gè)關(guān)鍵詞節(jié)點(diǎn)和18 976條網(wǎng)絡(luò)的邊。實(shí)驗(yàn)發(fā)現(xiàn),PKGM算法比7個(gè)基準(zhǔn)算法有更好的表現(xiàn),包括歐氏空間中的最佳算法。

        1 相關(guān)工作

        本節(jié)通過兩部分來回顧相關(guān)工作,分別是圖嵌入算法和雙曲空間嵌入算法。

        圖嵌入算法已在很多圖結(jié)構(gòu)中獲得應(yīng)用,并且取得較好的效果。一方面工作是通過圖嵌入進(jìn)行無監(jiān)督學(xué)習(xí),在低維空間還原高維空間的相似性[11,14-16]。例如,DeepWalk通過在網(wǎng)絡(luò)中隨機(jī)游走獲得低維空間的圖節(jié)點(diǎn)特征向量[17]。大規(guī)模信息網(wǎng)絡(luò)嵌入(large-scale information network embedding, LINE)采用二階相似性,利用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)對圖的離散結(jié)構(gòu)進(jìn)行分析[18]。另一方面,有監(jiān)督學(xué)習(xí)也在圖嵌入網(wǎng)絡(luò)中被廣泛應(yīng)用。例如,圖神經(jīng)網(wǎng)絡(luò)通過圖卷積網(wǎng)絡(luò)完成圖結(jié)構(gòu)的分類和回歸任務(wù)[5,19-23],還通過圖注意力機(jī)制進(jìn)行圖嵌入,從而能動(dòng)態(tài)地對圖的邊設(shè)置權(quán)重[24-25]。雖然這些算法都能夠獲得較好的結(jié)果,但它們無法在雙曲空間中進(jìn)行嵌入。

        雙曲空間嵌入算法是最近機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)新熱點(diǎn)算法[26-31]。它的思想是使用雙曲空間代替歐氏空間,從而能更好地對長尾效應(yīng)數(shù)據(jù)進(jìn)行建模。雙曲空間嵌入(Poincare embedding)是這方面的先驅(qū)工作,它通過將已有的數(shù)據(jù)映射到雙曲空間,并且在雙曲空間中找到一個(gè)潛在的層次結(jié)構(gòu)來建模數(shù)據(jù)[32]。PoincareGlo Ve[26]用雙曲空間嵌入算法對文本數(shù)據(jù)進(jìn)行建模,從而獲得文本的詞向量表示。雙曲圖卷積神經(jīng)網(wǎng)絡(luò)(hyperbolic graph convolutional neural network,HGCN)算法是另一個(gè)后續(xù)工作[12],它通過應(yīng)用基于圖網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)模型來學(xué)習(xí)邊的連接和點(diǎn)的分類。HGCN算法還指出,并不是所有圖都適合在雙曲空間中建模,只有雙曲曲率較小的圖才更適合在雙曲空間建模。與這些工作不同的是,本文首次將雙曲空間嵌入算法應(yīng)用到論文關(guān)鍵詞網(wǎng)絡(luò)中,解決了歐氏空間算法中關(guān)鍵詞存在長尾效應(yīng)問題。

        2 方法

        本節(jié)首先給出提出的PKGM算法框架,然后描述關(guān)鍵詞網(wǎng)絡(luò)的構(gòu)建,最后詳細(xì)介紹PKGM算法。

        2.1 算法框架

        首先對文本數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建一個(gè)關(guān)鍵詞網(wǎng)絡(luò),其次通過對數(shù)映射將關(guān)鍵詞連接嵌入雙曲空間,然后利用龐加萊球(Poincare sphere)模型在雙曲空間中計(jì)算兩個(gè)關(guān)鍵詞節(jié)點(diǎn)的距離,通過指數(shù)映射計(jì)算歐氏空間中新關(guān)鍵詞概率,最后對新科研熱點(diǎn)進(jìn)行預(yù)測??蒲袩狳c(diǎn)預(yù)測算法框架如圖1所示。

        圖1 科研熱點(diǎn)預(yù)測算法框架

        2.2 構(gòu)建關(guān)鍵詞網(wǎng)絡(luò)

        利用給定的關(guān)鍵詞表,以關(guān)鍵詞為節(jié)點(diǎn),出現(xiàn)在同一個(gè)句子中的兩個(gè)關(guān)鍵詞之間形成一個(gè)鏈路,構(gòu)成關(guān)鍵詞網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)的權(quán)重為鏈路出現(xiàn)的頻率。傳統(tǒng)的方法會(huì)對這個(gè)網(wǎng)絡(luò)直接建模,然而這個(gè)關(guān)鍵詞網(wǎng)絡(luò)具有長尾效應(yīng),即大量的以此關(guān)鍵詞為節(jié)點(diǎn)的鏈路出現(xiàn)頻率非常低,導(dǎo)致構(gòu)建此網(wǎng)絡(luò)時(shí),模型僅關(guān)注出現(xiàn)頻率高的關(guān)鍵詞。與此相對的是,未來科研熱點(diǎn)預(yù)測要捕獲的關(guān)鍵詞往往是更加新的詞,與這些詞相關(guān)的鏈路出現(xiàn)頻率往往很低,且不能被傳統(tǒng)模型捕捉到,導(dǎo)致傳統(tǒng)模型的算法效果比較差。究其原因,是傳統(tǒng)模型采用歐氏空間來建模,而歐氏空間不能對長尾效應(yīng)數(shù)據(jù)進(jìn)行有效的建模。因此,本文提出用雙曲空間來解決這個(gè)問題。

        2.3 雙曲空間關(guān)鍵詞圖嵌入算法

        本文用雙曲空間對圖中的節(jié)點(diǎn)進(jìn)行建模,任意兩個(gè)點(diǎn)的相似性和距離會(huì)用它們在雙曲空間中的點(diǎn)嵌入進(jìn)行計(jì)算,而不是傳統(tǒng)的歐氏空間中的點(diǎn)嵌入。雙曲空間有一些基本的空間模型,本文采用的是龐加萊球模型[32]。龐加萊球模型是一種更易于建模的多維空間模型,相比于歐氏空間模型,它常常僅需要少量的維度就能建模更復(fù)雜的數(shù)據(jù)。具體地說,所有在雙曲空間的點(diǎn)被定義在一個(gè)d維度的單元球內(nèi),,其中是歐幾里得范數(shù),d是龐加萊球的維度,x是龐加萊球模型空間中的一點(diǎn)。

        給定龐加萊球中的任意兩點(diǎn),PKGM算法計(jì)算它們在球內(nèi)的距離,如式(1)所示:

        隨著x越來越接近龐加萊球的邊緣,x和y之間的距離會(huì)趨向無限遠(yuǎn),這樣龐加萊球模型就能夠建模復(fù)雜層次結(jié)構(gòu)的數(shù)據(jù),并能夠?qū)哂虚L尾效應(yīng)的數(shù)據(jù)進(jìn)行建模。相比于歐氏空間,龐加萊球空間具有更小的擾動(dòng)性。

        定義gxB是黎曼空間中測度張量,可以被用來計(jì)算龐加萊空間中的梯度,這個(gè)張量可以通過歐氏空間的張量簡單表示為,其中是縮放參數(shù),用來進(jìn)行歐氏空間的梯度和龐加萊空間梯度的映射。gxE=Id是對應(yīng)的歐氏空間張量,也就是歐氏空間的點(diǎn)乘。

        許多神經(jīng)網(wǎng)絡(luò)無法被應(yīng)用到龐加萊空間中。為了解決這個(gè)問題,切空間被應(yīng)用到龐加萊空間中,即通過對數(shù)和指數(shù)轉(zhuǎn)換將龐加萊空間中的向量映射到歐氏空間。為了達(dá)到這個(gè)目的,PKGM算法通過對數(shù)映射和指數(shù)映射進(jìn)行雙曲空間和歐氏空間之間的轉(zhuǎn)換。對數(shù)映射logx(Bd→TxBd)被用來將x從龐加萊球映射到切空間的對應(yīng)切向量,指數(shù)映射expx(TxBd→Bd)被用來將切空間的切向量映射到龐加萊球中的點(diǎn)x。

        給定一個(gè)雙曲空間Bd和切空間TxBd,對數(shù)映射如式(2)所示,指數(shù)映射如式(3)所示:

        其中,x∈Bd和都是龐加萊球中的點(diǎn),是切空間中對應(yīng)x的切向量,定義了從y映射到切空間中的x,⊕代表莫比烏斯加法(歐氏空間中的向量加法)。

        龐加萊球中兩個(gè)點(diǎn)的歐氏空間PKGM算法如式(4)所示:

        計(jì)算雙曲空間中一個(gè)向量的線性變化,如式(5)所示:

        其中,O是龐加萊球的原點(diǎn),W和b是神經(jīng)網(wǎng)絡(luò)中的權(quán)重。

        根據(jù)這些定義,圖中兩個(gè)點(diǎn)u和v在雙曲空間中存在邊的概率如式(6)所示:

        其中,是點(diǎn)u在雙曲空間中的點(diǎn)嵌入,dB(·,·)是對應(yīng)的龐加萊球,r,t>0是對應(yīng)的超參數(shù)。

        至此,可以用梯度下降法對圖中每個(gè)點(diǎn)的點(diǎn)嵌入進(jìn)行迭代優(yōu)化,使圖中存在邊的兩個(gè)點(diǎn)的概率最高,而圖中不存在邊的兩個(gè)點(diǎn)的概率最低。在這個(gè)過程中,雙曲空間可以使點(diǎn)嵌入的效果更好。算法優(yōu)化結(jié)束后,可以根據(jù)圖中未連接成邊的點(diǎn)的距離判斷可能出現(xiàn)的新科研熱點(diǎn),即距離越近的兩個(gè)點(diǎn)之間的邊越有可能是潛在的科研熱點(diǎn)。

        PKGM算法使用了如下的超參數(shù):學(xué)習(xí)速率為1×10-5,降維維度d=16,r=2。這些超參數(shù)都是基于驗(yàn)證集合選取的。PKGM算法流程如算法1所示,第1行對龐加萊球模型中的點(diǎn)進(jìn)行初始化,第2~6行求解龐加萊球中的點(diǎn)嵌入,其中第3行隨機(jī)采樣一條邊進(jìn)行優(yōu)化,第4~5行對這條邊的概率進(jìn)行最大化。

        算法1PKGM算法

        輸入:圖G(V,E)

        龐加萊球的維度:d

        輸出:圖G中每一個(gè)點(diǎn)在龐加萊球模型中的點(diǎn)嵌入

        1. 初始化:隨機(jī)初始化圖G中每個(gè)點(diǎn)在龐加萊球模型中的點(diǎn)嵌入

        2. while 損失函數(shù)并不收斂

        3. 隨機(jī)采樣圖中一條邊(u,v)

        4. 根據(jù)式(1)計(jì)算兩點(diǎn)在雙曲空間中的距離

        5. 根據(jù)式(6)優(yōu)化u和v在雙曲空間中的點(diǎn)嵌入,使它們的距離減小

        6. end while

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集和評(píng)測指標(biāo)

        本文采用專用實(shí)體識(shí)別工具PubTator[33]從生物醫(yī)學(xué)論文數(shù)據(jù)庫PubMed中獲得了1940年以來所有被PubTator處理過的科技論文摘要和關(guān)鍵詞。不是所有論文都包含關(guān)鍵詞信息,采用PubTator對論文進(jìn)行處理,獲得專用實(shí)體,以這些實(shí)體為關(guān)鍵詞信息,共獲得33 548 974篇論文。PubTator為每一篇論文標(biāo)注出了多個(gè)關(guān)鍵詞,平均每篇論文12個(gè)關(guān)鍵詞,分別描述論文的類別、研究方法、研究方向、研究成果等。利用這些關(guān)鍵詞組成一個(gè)關(guān)鍵詞表,對所有論文的句子進(jìn)行遍歷。若一個(gè)句子中有兩個(gè)關(guān)鍵詞,這兩個(gè)關(guān)鍵詞之間就形成一個(gè)鏈路,即構(gòu)成關(guān)鍵詞網(wǎng)絡(luò)的邊。構(gòu)建關(guān)鍵詞網(wǎng)絡(luò)的算法流程如圖2所示。具體的是在33 548 974篇論文中,除去重復(fù)關(guān)鍵詞后,剩余392 522 996個(gè)關(guān)鍵詞,隨機(jī)抽取了10 000個(gè)關(guān)鍵詞構(gòu)建網(wǎng)絡(luò)。在此網(wǎng)絡(luò)中有34個(gè)節(jié)點(diǎn)由于與最大子圖不聯(lián)通被去除,最終獲得了一個(gè)有9 966個(gè)關(guān)鍵詞節(jié)點(diǎn)和18 976條鏈路的關(guān)鍵詞網(wǎng)絡(luò)。

        圖2 構(gòu)建關(guān)鍵詞網(wǎng)絡(luò)的算法流程

        如前所述,通過對關(guān)鍵詞網(wǎng)絡(luò)邊的研究預(yù)測不同關(guān)鍵詞之間是否存在邊,就能夠預(yù)測未來的科研熱點(diǎn)。具體地說,本文研究就變?yōu)橐粋€(gè)對網(wǎng)絡(luò)邊進(jìn)行預(yù)測的研究,即預(yù)測未來可能出現(xiàn)的網(wǎng)絡(luò)邊[30]。實(shí)驗(yàn)將整個(gè)數(shù)據(jù)分成測試集、訓(xùn)練集和驗(yàn)證集,并且根據(jù)訓(xùn)練集大小,分為實(shí)驗(yàn)1(85%訓(xùn)練集)和實(shí)驗(yàn)2(60%訓(xùn)練集)。數(shù)據(jù)集的統(tǒng)計(jì)信息見表1。

        表1 數(shù)據(jù)集的統(tǒng)計(jì)信息

        實(shí)驗(yàn)選取7個(gè)基準(zhǔn)算法來比較PKGM算法的效果,具體如下。

        ● Euclidean算法:歐氏空間嵌入算法是傳統(tǒng)的數(shù)據(jù)降維算法,它將數(shù)據(jù)降維到歐氏空間進(jìn)行后續(xù)的預(yù)測,本文用L2損失函數(shù)對歐氏空間進(jìn)行降維。

        ● MLP算法:多層感知機(jī)(multilayer perceptron,MLP)算法利用多層神經(jīng)網(wǎng)絡(luò)對目標(biāo)函數(shù)進(jìn)行非線性逼近。

        ● GCN算法:圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)算法額外考慮了數(shù)據(jù)中的圖結(jié)構(gòu),同時(shí)通過對圖和點(diǎn)向量進(jìn)行降維來獲得點(diǎn)的特征向量,從而進(jìn)行連接預(yù)測。

        ● GAT算法:圖注意力網(wǎng)絡(luò)(graph attention network,GAT)算法通過注意力機(jī)制對圖和點(diǎn)向量進(jìn)行降維,從而進(jìn)行連接預(yù)測。

        ● HNN算法:雙曲神經(jīng)網(wǎng)絡(luò)(hyperbolic neural network,HNN)算法是在雙曲空間中實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)算法,此算法比起傳統(tǒng)的歐氏空間神經(jīng)網(wǎng)絡(luò)算法能更好地對長尾效應(yīng)數(shù)據(jù)進(jìn)行建模。

        ● HGCN算法:HGCN算法通過增加曲率參數(shù)被推廣到雙曲空間,這個(gè)算法在節(jié)點(diǎn)分類和邊的連接預(yù)測上比GCN算法的效果更好。

        ● HGNN算法:雙曲圖神經(jīng)網(wǎng)絡(luò)(hyperbolic graph neural network,HGNN)算法以非卷積的形式對圖結(jié)構(gòu)進(jìn)行建模。

        上述算法中的Euclidean算法、MLP算法、GCN算法和GAT算法是歐氏空間嵌入算法,其余算法及PKGM算法是雙曲空間嵌入算法。

        實(shí)驗(yàn)將接受者操作特征曲線下面積(area under the receiver operating characteristic curve,AUROC)和平均精度(average precision,AP)作為算法的評(píng)價(jià)指標(biāo)[11]。AUROC和AP在最佳情況下趨近于1.0,而在隨機(jī)的預(yù)測下趨近于0.5。AUROC和AP越高,說明算法對網(wǎng)絡(luò)邊的預(yù)測越準(zhǔn)確。

        3.2 關(guān)鍵詞網(wǎng)絡(luò)特性驗(yàn)證

        在檢驗(yàn)算法的有效性前,先對本文的假設(shè)關(guān)鍵詞網(wǎng)絡(luò)存在長尾效應(yīng)進(jìn)行驗(yàn)證。關(guān)鍵詞數(shù)量與論文數(shù)量如圖3所示,從圖3中可以計(jì)算得到90%以上的關(guān)鍵詞出現(xiàn)的論文篇數(shù)小于13,這樣可以判斷關(guān)鍵詞網(wǎng)絡(luò)存在明顯的長尾效應(yīng)。而這個(gè)長尾效應(yīng)往往不能被傳統(tǒng)模型所處理[13],這也為本文提出的雙曲空間建模提供了實(shí)驗(yàn)基礎(chǔ)。

        圖3 關(guān)鍵詞數(shù)量與論文數(shù)量

        3.3 雙曲空間嵌入算法與歐氏空間嵌入算法比較

        本文用關(guān)鍵詞網(wǎng)絡(luò)中對連接的預(yù)測進(jìn)行科研熱點(diǎn)預(yù)測的驗(yàn)證。雙曲空間嵌入算法與歐氏空間嵌入算法對比實(shí)驗(yàn)結(jié)果見表2,可以看到雙曲空間嵌入要顯著好于歐氏空間嵌入。比如實(shí)驗(yàn)1將85%數(shù)據(jù)作為訓(xùn)練集時(shí),雙曲空間嵌入算法獲得了0.8822的AUROC和0.8906的AP,而基準(zhǔn)算法中效果最好的歐氏空間嵌入算法也只有0.8180的AUROC和0.8389的AP?;趫D神經(jīng)網(wǎng)絡(luò)的GCN算法和GAT算法的效果則更差,要比雙曲空間嵌入算法至少降低13.5%。在實(shí)驗(yàn)2使用更少的數(shù)據(jù)集作為訓(xùn)練集時(shí),雙曲空間嵌入算法也同樣獲得了很大的提升,比如雙曲空間嵌入算法獲得了0.8751的AUROC和0.8857的AP,而基準(zhǔn)算法中效果最好的歐氏空間嵌入算法也只有0.8062的AUROC和0.8276的AP。由此可見,雙曲空間嵌入算法要比歐氏空間中所有的基準(zhǔn)算法都要好,并且效果非常明顯,AUROC至少上升7.3%,AP增加5.8%以上。同時(shí),還可以看到基于嵌入的算法要優(yōu)于基于圖神經(jīng)網(wǎng)絡(luò)的算法,這也進(jìn)一步驗(yàn)證了嵌入算法的有效性。

        3.4 雙曲空間嵌入算法與雙曲空間圖神經(jīng)網(wǎng)絡(luò)算法比較

        雙曲空間嵌入算法與雙曲空間圖神經(jīng)網(wǎng)絡(luò)算法對比實(shí)驗(yàn)結(jié)果見表3,可以發(fā)現(xiàn)雙曲空間嵌入算法依然好于所有的雙曲空間圖神經(jīng)網(wǎng)絡(luò)算法。如使用85%訓(xùn)練集時(shí),雙曲空間嵌入算法獲得了0.8822的AUROC和0.8906的AP,而雙曲空間圖神經(jīng)網(wǎng)絡(luò)算法中最好的HGNN算法的AUROC和AP分別為0.7865和0.8264。也就是在實(shí)驗(yàn)評(píng)價(jià)指標(biāo)AUROC和AP上,雙曲空間嵌入算法比雙曲空間圖神經(jīng)網(wǎng)絡(luò)算法分別提升至少10.8%和7.2%。在較小的60%訓(xùn)練集上的實(shí)驗(yàn)也有相同的結(jié)論。同時(shí)還發(fā)現(xiàn),雖然雙曲圖神經(jīng)網(wǎng)絡(luò)算法不如雙曲空間嵌入算法效果好,但仍然好于歐氏空間嵌入算法,具體內(nèi)容見表2。

        表2 雙曲空間嵌入算法與歐氏空間嵌入算法對比實(shí)驗(yàn)結(jié)果

        表3 雙曲空間嵌入算法與雙曲空間圖神經(jīng)網(wǎng)絡(luò)算法對比實(shí)驗(yàn)結(jié)果

        上述實(shí)驗(yàn)結(jié)果表明,在科研熱點(diǎn)預(yù)測上,PKGM算法整體上要好于歐氏空間算法,因?yàn)殛P(guān)鍵詞網(wǎng)絡(luò)的長尾效應(yīng)更適合用雙曲空間建模。PKGM算法解決了關(guān)鍵詞網(wǎng)絡(luò)的長尾效應(yīng)問題,不但能夠關(guān)注到近期的熱點(diǎn)話題,還能預(yù)測到未來的科研熱點(diǎn)。

        3.5 算法性能分析

        關(guān)鍵詞網(wǎng)絡(luò)具有長尾效應(yīng),因此它不能被應(yīng)用到歐氏空間中,并且有更復(fù)雜且不直觀的數(shù)學(xué)模型,但是其在雙曲空間算法中所用的時(shí)間復(fù)雜度和空間復(fù)雜度并不比歐氏空間算法大。實(shí)驗(yàn)觀察到雙曲空間算法的運(yùn)行速度與歐氏空間嵌入算法相近,因?yàn)樗鼈兊膹?fù)雜度主要取決于網(wǎng)絡(luò)中邊的數(shù)量。更值得注意的是,雙曲空間嵌入算法的空間復(fù)雜度要遠(yuǎn)小于歐氏空間嵌入算法,實(shí)驗(yàn)中算法的超參數(shù)和維度是通過實(shí)驗(yàn)選定的。

        PKGM算法效果與學(xué)習(xí)速率超參數(shù)的關(guān)系如圖4所示,可以看到PKGM算法對學(xué)習(xí)速率這個(gè)超參數(shù)非常穩(wěn)定,學(xué)習(xí)速率超參數(shù)為0.005~0.350,AUROC和AP基本不變,這充分證明了PKGM算法的魯棒性。

        圖4 PKGM算法效果與學(xué)習(xí)速率超參數(shù)的關(guān)系

        PKGM算法效果和雙曲空間維度的關(guān)系如圖5所示,可以看到隨著雙曲空間維度的增加,AUROC和AP也在增加。從圖5可以發(fā)現(xiàn)曲線斜率起初比較大,也就是AUROC和AP值變化較快,當(dāng)維度為16時(shí),曲線斜率變小,AUROC和AP數(shù)值變化變緩。綜合考慮算法空間復(fù)雜度等方面因素,PKGM算法將16作為雙曲空間的維度,而歐氏空間維度為200。雙曲空間能夠通過更好地利用空間的位置節(jié)省維度,在較小的維度中嵌入更多的信息,繼而有效地模擬長尾效應(yīng)中的罕見詞??臻g復(fù)雜度的減少,有助于在有限的空間資源內(nèi)計(jì)算和存儲(chǔ)更多的論文數(shù)據(jù),更能適應(yīng)雙曲空間對科研熱點(diǎn)預(yù)測。

        圖5 PKGM算法效果與雙曲空間維度的關(guān)系

        4 結(jié)束語

        本文提出了一種新的PKGM算法來預(yù)測科研熱點(diǎn)。首先,利用論文關(guān)鍵詞來構(gòu)建一個(gè)關(guān)鍵詞網(wǎng)絡(luò),然后將這個(gè)網(wǎng)絡(luò)圖嵌入雙曲空間,通過計(jì)算雙曲空間中兩個(gè)節(jié)點(diǎn)的距離來判別兩個(gè)節(jié)點(diǎn)之間存在邊的概率,從而預(yù)測出未來科研熱點(diǎn)。實(shí)驗(yàn)發(fā)現(xiàn),PKGM算法比7種基準(zhǔn)方法效果有顯著提高,與效果最好的歐氏空間嵌入算法相比,有7.3%的AUROC和5.8%的AP提升;與雙曲空間圖神經(jīng)網(wǎng)絡(luò)算法相比,有10.8%的AUROC和7.2%的AP提升。其主要原因是雙曲空間以指數(shù)形式進(jìn)行建模,可以把數(shù)據(jù)點(diǎn)更均勻地分布于低維空間,有足夠的空間來表示罕見的數(shù)據(jù)點(diǎn)。對于出現(xiàn)次數(shù)很多的數(shù)據(jù)點(diǎn),指數(shù)運(yùn)算的逆運(yùn)算即對數(shù)運(yùn)算對次數(shù)的降低就較大;而對于出現(xiàn)次數(shù)很少的數(shù)據(jù)點(diǎn),指數(shù)運(yùn)算的逆運(yùn)算即對數(shù)運(yùn)算對次數(shù)的降低就較小。這樣就可以大大縮小數(shù)據(jù)點(diǎn)出現(xiàn)次數(shù)的差距,利用均勻的空間來表示出現(xiàn)次數(shù)多和出現(xiàn)次數(shù)少的數(shù)據(jù)點(diǎn),這些空間可以抵消隨機(jī)噪聲對這些數(shù)據(jù)點(diǎn)的干擾,能更好地處理長尾效應(yīng)的數(shù)據(jù)。

        未來有3個(gè)研究方向:在關(guān)鍵詞網(wǎng)絡(luò)中加入文本信息,通過共同訓(xùn)練獲得更高質(zhì)量的節(jié)點(diǎn)表示;在關(guān)鍵詞網(wǎng)絡(luò)中加入作者、期刊名等數(shù)據(jù),構(gòu)建異質(zhì)網(wǎng)絡(luò)以獲得更豐富的圖表示;在關(guān)鍵詞網(wǎng)絡(luò)中加入時(shí)序信息,通過不同時(shí)間點(diǎn)關(guān)鍵詞的差異獲得更精準(zhǔn)的關(guān)鍵詞網(wǎng)絡(luò)。

        猜你喜歡
        歐氏雙曲建模
        中國科學(xué)技術(shù)館之“雙曲隧道”
        軍事文摘(2021年22期)2022-01-18 06:22:48
        聯(lián)想等效,拓展建模——以“帶電小球在等效場中做圓周運(yùn)動(dòng)”為例
        雙曲型交換四元數(shù)的極表示
        基于PSS/E的風(fēng)電場建模與動(dòng)態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        不對稱半橋變換器的建模與仿真
        一階雙曲型偏微分方程的模糊邊界控制
        基于雙曲和代數(shù)多項(xiàng)式的HC-Bézier曲線
        三元組輻射場的建模與仿真
        基于多維歐氏空間相似度的激光點(diǎn)云分割方法
        麗江“思奔記”(上)
        探索地理(2013年5期)2014-01-09 06:40:44
        精品人妻av一区二区三区| 丰满少妇高潮惨叫正在播放 | 亚洲av无码专区亚洲av伊甸园 | 天天爽夜夜爽夜夜爽| 玩弄放荡人妻一区二区三区| 91极品尤物国产在线播放| 中文字幕一区乱码在线观看| 日韩女同精品av在线观看| 粉嫩av国产一区二区三区| 精品少妇一区二区三区免费观| 丰满人妻被中出中文字幕 | 国产让女高潮的av毛片| 亚洲精品天堂成人片av在线播放| 日韩乱码人妻无码中文字幕视频| 国产精品一区2区三区| 成人午夜视频在线观看高清| 亚洲中文字幕综合网站| 国产嫩草av一区二区三区| 亚洲av无码精品蜜桃| 欧美成人中文字幕| 亚洲一级无码AV毛片久久 | 久久中文字幕亚洲精品最新| 最新亚洲av日韩av二区一区| 国产高清在线精品一区二区三区| 亚洲一区二区三区四区五区黄| 久久人人爽人人爽人人片av麻烦 | 国产亚洲精品久久久久久久久动漫| 白白青青视频在线免费观看| 国产激情视频在线观看首页 | 亚洲乱码av一区二区蜜桃av| 一本色道久久88亚洲精品综合| 久久精品国产亚洲av大全| 国产精品黑色丝袜在线播放| 久久成人精品国产免费网站| 精品国产免费一区二区三区香蕉| 成人免费看片又大又黄| 国产v综合v亚洲欧美大天堂| 日韩人妻有码中文字幕| 国产69精品麻豆久久| 神马影院午夜dy888| 国产精品毛片完整版视频|