亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的網(wǎng)絡(luò)科學(xué)會(huì)議主題研究

        2018-02-27 06:09:10,,,,
        關(guān)鍵詞:文本模型研究

        ,, ,,

        (1.上海理工大學(xué)復(fù)雜系統(tǒng)研究中心,上海 200093;2.上海財(cái)經(jīng)大學(xué)金融科技研究院,上海 200433)

        0 引言

        網(wǎng)絡(luò)科學(xué)是一門極富交叉性又與互聯(lián)網(wǎng)前沿技術(shù)緊密相聯(lián)的學(xué)科,近年來(lái)有許多學(xué)者結(jié)合自己的專業(yè)背景在網(wǎng)絡(luò)科學(xué)中不同的分支領(lǐng)域做了相關(guān)研究[1-2],但沒(méi)有在宏觀層面對(duì)整個(gè)網(wǎng)絡(luò)科學(xué)的研究趨勢(shì)和研究熱點(diǎn)作出分析。全國(guó)復(fù)雜網(wǎng)絡(luò)大會(huì)是緊密圍繞復(fù)雜系統(tǒng)與復(fù)雜網(wǎng)絡(luò)展開(kāi)的國(guó)際性研討會(huì),是網(wǎng)絡(luò)科學(xué)學(xué)科最具權(quán)威性的會(huì)議之一,通過(guò)對(duì)該會(huì)議的摘要文本進(jìn)行主題挖掘能分析出會(huì)議的研究趨勢(shì)與研究熱點(diǎn),一定程度上能反映國(guó)內(nèi)網(wǎng)絡(luò)科學(xué)領(lǐng)域最新的研究態(tài)勢(shì)。在主題挖掘中,通常采用主題模型進(jìn)行主題研究。

        主題挖掘主要用于處理和分析海量信息,發(fā)現(xiàn)文檔中的核心主題,實(shí)現(xiàn)對(duì)信息的有效處理和深層次利用[3],通常應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)的處理。文獻(xiàn)[4-7]運(yùn)用主題挖掘模型研究科研文獻(xiàn)以及在線數(shù)據(jù)庫(kù)的研究熱點(diǎn)及發(fā)展趨勢(shì)。文獻(xiàn)[8-11]分別對(duì)新聞報(bào)道、在線論壇的文本進(jìn)行了主題發(fā)現(xiàn);文獻(xiàn)[12-16]則對(duì)于短文本如微博、推文、用戶評(píng)論等進(jìn)行主題提取發(fā)現(xiàn)熱門話題。

        文本主題挖掘有許多方法,如使用共詞分析進(jìn)行研究[17],或基于共詞分析結(jié)合社會(huì)網(wǎng)絡(luò)的方法進(jìn)行文本主題的挖掘[18],但共詞分析沒(méi)有考慮到文獻(xiàn)是由語(yǔ)義表達(dá)構(gòu)成的,故有學(xué)者提出LSA、PLSA和LDA模型來(lái)挖掘文檔的主題,并估算主題對(duì)應(yīng)詞的概率。其中,潛在語(yǔ)義分析LSA(latent semantic analysis)將詞和文檔映射到潛在語(yǔ)義空間[19],通過(guò)奇異值分解得到文本的主題,相比傳統(tǒng)的空間向量模型解決了一義多詞問(wèn)題,但缺乏可解釋的嵌入[20],表征效率低,需要大量的文件和詞匯來(lái)獲得準(zhǔn)確的結(jié)果。概率潛在語(yǔ)義分析PLSA(Probabilistic Latent Semantic Analysis)采用概率方法替代SVD以解決問(wèn)題,將概率模型引入LSA,用EM算法估計(jì)文檔-主題分布和主題-詞分布,但PLSA難為新數(shù)據(jù)分配概率,存在過(guò)擬合問(wèn)題[21]。LDA(Latent dirichlet allocatio)即潛在狄利克雷分布,是PLSA[22-23]的貝葉斯版本,它使用狄利克雷先驗(yàn)來(lái)處理文檔-主題和主題-詞分布,從而有助于更好地泛化[24]到新文檔中。通過(guò)使用LDA,可以從文檔語(yǔ)料庫(kù)中提取可解釋的主題[25],其中每個(gè)主題都以與之關(guān)聯(lián)度最高的詞語(yǔ)作為特征。在實(shí)際應(yīng)用中,LDA具有很好的適應(yīng)性[26],廣泛應(yīng)用于主題提取。

        本文的主要貢獻(xiàn)是:第一,實(shí)驗(yàn)使用LDA主題模型對(duì)網(wǎng)絡(luò)科學(xué)會(huì)議的摘要進(jìn)行主題挖掘,用困惑度確定最佳主題數(shù)目,以JS距離作為距離度量指標(biāo),對(duì)摘要進(jìn)行凝聚層次聚類,發(fā)現(xiàn)了10個(gè)研究主題以及不同研究方向的熱門程度,一定程度上能反映出網(wǎng)絡(luò)科學(xué)領(lǐng)域近期的研究態(tài)勢(shì),幫助從事網(wǎng)絡(luò)科學(xué)研究的學(xué)者以主題的相似度為參考指標(biāo),拓展自己的研究方向。該工作拓展了主題模型在學(xué)術(shù)會(huì)議研究態(tài)勢(shì)與研究熱點(diǎn)挖掘上的應(yīng)用范圍,豐富了學(xué)術(shù)會(huì)議主題挖掘與研究熱點(diǎn)分析的思路,能為其他學(xué)科學(xué)術(shù)會(huì)議挖掘研究態(tài)勢(shì)提供借鑒。第二,提出一種基于主題模型和社交網(wǎng)絡(luò)分析相結(jié)合來(lái)挖掘機(jī)構(gòu)關(guān)聯(lián)關(guān)系的研究方法。將機(jī)構(gòu)研究主題的相似性與社會(huì)網(wǎng)絡(luò)分析相結(jié)合,挖掘機(jī)構(gòu)間的關(guān)聯(lián)關(guān)系,構(gòu)建機(jī)構(gòu)關(guān)系網(wǎng)絡(luò)。以機(jī)構(gòu)研究主題相似度為參考指標(biāo),為機(jī)構(gòu)尋找合適的科研合作單位提供參考建議。

        1 模型與方法

        實(shí)驗(yàn)以第十三屆全國(guó)復(fù)雜網(wǎng)絡(luò)大會(huì)的會(huì)議摘要為研究對(duì)象,對(duì)摘要文本進(jìn)行主題建模,分析出復(fù)雜網(wǎng)絡(luò)科研領(lǐng)域的研究趨勢(shì),并基于機(jī)構(gòu)摘要主題的相似性,挖掘機(jī)構(gòu)間的關(guān)聯(lián)關(guān)系,為機(jī)構(gòu)推薦合適的科研合作單位。實(shí)驗(yàn)首先對(duì)會(huì)議文本進(jìn)行預(yù)處理,再建立自定義詞典和專用停用詞庫(kù),利用jieba對(duì)中文文本做切詞處理;然后使用LDA主題模型對(duì)會(huì)議摘要的主題進(jìn)行研究,并用困惑度作為評(píng)測(cè)指標(biāo)來(lái)確定最佳主題個(gè)數(shù);接著利用JS散度來(lái)計(jì)算摘要間的距離,基于距離進(jìn)行凝聚層次聚類,得到摘要主題分布結(jié)果。最后為了基于機(jī)構(gòu)研究主題的相似性為機(jī)構(gòu)推薦合適的科研合作單位,將JS散度做鄰接矩陣轉(zhuǎn)化,利用社會(huì)網(wǎng)絡(luò)分析工具構(gòu)建機(jī)構(gòu)主題關(guān)聯(lián)網(wǎng)絡(luò)。實(shí)驗(yàn)過(guò)程如圖1所示:

        圖1 實(shí)驗(yàn)流程圖Fig.1 Experimental flowchart

        圖2 LDA的圖模型表示Fig.2 LDA′s graph model representation

        1.1 LDA主題模型

        LDA是Blei基于PLSA算法提出的主題模型,該模型在學(xué)術(shù)領(lǐng)域衍生了大量的變體[27-29],它采用的是詞袋模型[30],由文檔、主題、詞三層結(jié)構(gòu)組成,該模型認(rèn)為一篇文章由多個(gè)主題構(gòu)成,主題服從一定的概率分布,而描述每個(gè)主題的詞也是以一定概率分布的。LDA的圖模型如圖2所示,通過(guò)使用聯(lián)合概率分布計(jì)算給定觀測(cè)變量值下的隱含變量的條件分布[31]。

        在訓(xùn)練的文檔集M中,主題數(shù)為K,一篇文檔的總詞數(shù)為N。LDA模型運(yùn)行過(guò)程如下:1)從中取樣生成文檔的主題分布;2)從主題的多項(xiàng)式分布中取樣生成文檔的第i個(gè)詞的主題;3)從中取樣生成主題對(duì)應(yīng)的詞語(yǔ)分布;4)從詞的多項(xiàng)式分布中采樣最終生成詞語(yǔ)。整個(gè)模型中所有已知變量和隱含變量的聯(lián)合分布如式(1)所示:

        (1)

        式(1)中,N代表一篇文檔的總詞數(shù)。最終一篇文檔的詞分布的最大似然函數(shù)估計(jì)可以通過(guò)將式(1)的θi以及φ進(jìn)行積分和對(duì)進(jìn)行求和得到:

        (2)

        在實(shí)驗(yàn)過(guò)程中,整個(gè)文檔集作為輸入內(nèi)容進(jìn)行LDA訓(xùn)練,但主題數(shù)K需要在模型訓(xùn)練前指定。

        1.2 困惑度評(píng)價(jià)

        在自然語(yǔ)言處理分析中,困惑度是衡量語(yǔ)言模型性能的主流評(píng)測(cè)指標(biāo)。困惑度取值越小,表明語(yǔ)言模型的泛化能力越強(qiáng),模型性能越好。在對(duì)文本做主題分析時(shí),主題數(shù)K的取值對(duì)LDA模型的文本提取和擬合性能影響較大。而困惑度可以從模型泛化能力衡量LDA主題模型對(duì)于新文本的預(yù)測(cè)能力,當(dāng)困惑度越小時(shí),模型的性能越好,通過(guò)多組對(duì)比實(shí)驗(yàn)找出困惑度最小時(shí)對(duì)應(yīng)的主題數(shù)[32-33]K,便為最佳主題個(gè)數(shù)。計(jì)算公式如式(3)所示:

        (3)

        其中,M為測(cè)試集,V為文檔集中的總詞數(shù),P(w)表示單詞Wij在所有主題的分布值與該詞所在文檔的主題分布的乘積。

        1.3 聚類分析

        1.3.1 距離測(cè)量

        實(shí)驗(yàn)對(duì)會(huì)議摘要語(yǔ)料進(jìn)行LDA訓(xùn)練后,得到每篇文檔的主題概率分布矩陣θ。統(tǒng)計(jì)學(xué)上常用JS距離(Jensen-Shannon divergence)來(lái)衡量?jī)蓚€(gè)不同的分布[34],故選擇它作為摘要距離的度量指標(biāo)。JS由KLD發(fā)展而來(lái),是基于信息熵的概念定義的,可以衡量相同時(shí)間空間里兩個(gè)概率分布的差異情況。JS的取值是對(duì)稱并且有界的,當(dāng)兩個(gè)分布相同時(shí),JS取值為0,當(dāng)兩個(gè)分布完全不同時(shí),JS取值為1。JS距離的計(jì)算公式如下所示:

        (4)

        (5)

        1.3.2 層次聚類

        層次聚類是一種無(wú)監(jiān)督聚類方法,初始對(duì)給定數(shù)據(jù)逐步進(jìn)行凝聚,距離越近越容易被聚為一類,直到滿足一定條件為止[35]。在文本分析中,最初將每個(gè)文檔看作單獨(dú)的一簇,然后依次根據(jù)距離最近的文檔進(jìn)行合并,直到與待合并的文檔距離大于給定的閾值為止。本文通過(guò)計(jì)算JS距離度量文檔之間的相似性,進(jìn)而對(duì)153篇摘要進(jìn)行凝聚層次聚類,并通過(guò)可視化的方式展示聚類結(jié)果。

        具體的算法步驟為:

        1) 將每篇摘要都看作一個(gè)簇;

        2) 計(jì)算摘要文檔兩兩之間的JS距離;

        3) 當(dāng)摘要i的文本文檔和摘要j的文本文檔之間的JS距離小于等于閾值時(shí),將兩篇摘要合并為一簇;

        4) 重復(fù)步驟2)、3),直到所有滿足該條件閾值的摘要合并完;

        5) 增大閾值,按上述方法繼續(xù)合并,直到所有的摘要都合并完成。在合并過(guò)程中,兩簇之間的距離取值為兩簇中文檔JS距離的平均值。

        1.3.3 聚類有效性評(píng)價(jià)

        基于凝聚層次聚類的原理分析,距離閾值的不斷增大才使得原本可能不被歸為一個(gè)簇的樣本歸屬于同一簇。有監(jiān)督分類學(xué)習(xí)算法的評(píng)價(jià)指標(biāo)將預(yù)測(cè)結(jié)果與原樣本對(duì)比,從而評(píng)價(jià)有監(jiān)督聚類算法的有效性,無(wú)監(jiān)督聚類算法聚類的有效性則以類內(nèi)相似度高、類間相似度低作為評(píng)價(jià)原則。實(shí)驗(yàn)選擇鄧恩指數(shù)[36]作為層次聚類的有效性評(píng)價(jià)指標(biāo),兩個(gè)簇的樣本容量分別為m和n時(shí),DVI的計(jì)算如式(6)所示:

        (6)

        其中,m和n分別為兩個(gè)類別的樣本容量,分子表示類間的最短距離,分母表示類內(nèi)的最大距離。對(duì)于無(wú)監(jiān)督聚類算法,類內(nèi)距離越小、類間距離越大,則聚類效果越好。在式(6)中,當(dāng)分子越大分母越小時(shí),即DVI的值最大,聚類效果最好。

        2 實(shí)驗(yàn)及分析

        2.1 文本預(yù)處理

        文本預(yù)處理工作主要是對(duì)原始數(shù)據(jù)集進(jìn)行篩選過(guò)濾,并將數(shù)據(jù)中的英文摘要翻譯為中文文本,然后分別整理為基于摘要的主題分析數(shù)據(jù)集和基于機(jī)構(gòu)的主題分析數(shù)據(jù)集,最后基于自建的自定義詞典和停用詞詞庫(kù),利用Python的Jieba模塊切詞處理。文本的預(yù)處理工作如圖3所示。

        2.1.1 數(shù)據(jù)準(zhǔn)備

        本文數(shù)據(jù)來(lái)源于2017年第十三屆全國(guó)復(fù)雜網(wǎng)絡(luò)大會(huì)中所投的155篇摘要,每條摘要字?jǐn)?shù)在200-450詞之間。會(huì)議摘要包含51篇中文摘要,103篇英語(yǔ)摘要和1篇內(nèi)容待定摘要。摘要的描述信息主要包括有論文標(biāo)題、科研機(jī)構(gòu)、作者和摘要內(nèi)容。我們先刪除了1篇內(nèi)容待定摘要,然后對(duì)剩余的154篇摘要進(jìn)行去重后,剩下102篇英文摘要和51篇中文摘要,合并整理成總文本文檔,得到153篇摘要作為本文的數(shù)據(jù)基礎(chǔ),數(shù)據(jù)的時(shí)間窗口為2017年11月24日至2017年11月27日。

        圖3 預(yù)處理流程圖Fig.3 Preprocessing flowchart of preprocessing

        會(huì)議摘要文本數(shù)據(jù)中包含了102篇英文摘要。由于摘要內(nèi)容存在大量的網(wǎng)絡(luò)科學(xué)研究方向的專用名詞,為了確保英文摘要翻譯的規(guī)范性與準(zhǔn)確性,本文的研究選用了5個(gè)來(lái)自網(wǎng)絡(luò)科學(xué)研究背景的志愿者,將英文摘要翻譯成中文。

        由于后續(xù)工作的研究主體分別是基于摘要的主題分析和基于機(jī)構(gòu)的主題分析,數(shù)據(jù)的預(yù)處理方法存在一些差異,具體體現(xiàn)如下:

        1)基于摘要的主題分析需要將翻譯后的102篇英文摘要與原始的51篇中文摘要合并成153條總文本數(shù)據(jù)。

        2)基于機(jī)構(gòu)的主題分析需要將同一機(jī)構(gòu)下的所有摘要合并為一行,從而得到61條文本數(shù)據(jù)。

        2.1.2 中文分詞

        由于中文詞間無(wú)間隙、語(yǔ)法結(jié)構(gòu)的特殊性,為了提取非結(jié)構(gòu)化文本數(shù)據(jù)中的有效信息,需要對(duì)文本做進(jìn)一步的分析處理。在開(kāi)始文本分析工作前,首先要利用中文分詞算法將這些非結(jié)構(gòu)化的描述性文本轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)。本文采用Python中Jieba分詞模塊的精確模式來(lái)對(duì)語(yǔ)料進(jìn)行分詞[37]。

        雖然jieba有新詞識(shí)別能力,但是由于使用的語(yǔ)料是網(wǎng)絡(luò)科學(xué)會(huì)議的摘要文本,文本內(nèi)容極為精簡(jiǎn)且專業(yè)術(shù)語(yǔ)較多,這將會(huì)給分詞工作帶來(lái)如下困難:1)歧義的消除問(wèn)題。如“神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)”是切分為“神經(jīng)/網(wǎng)絡(luò)結(jié)構(gòu)”或“神經(jīng)網(wǎng)絡(luò)/結(jié)構(gòu)”,還是將“神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)”這一整體作為一個(gè)專有名詞;2)jieba詞庫(kù)中未登錄詞的識(shí)別問(wèn)題。實(shí)驗(yàn)中發(fā)現(xiàn)語(yǔ)料中有很多專業(yè)術(shù)語(yǔ),這些需要通過(guò)結(jié)合實(shí)際情況和專業(yè)背景,建立貼合語(yǔ)料的自定義詞典,從而得到有效的分詞結(jié)果,提高分詞的準(zhǔn)確性。比如,對(duì)于“構(gòu)建網(wǎng)絡(luò)科學(xué)社區(qū)檢測(cè)的零模型”這個(gè)摘要標(biāo)題,不添加自定義詞典的情況下,會(huì)被分成“構(gòu)建/復(fù)雜/網(wǎng)絡(luò)/社區(qū)/檢測(cè)/的/零/模型”,可以看出“復(fù)雜”、“網(wǎng)絡(luò)”、“社區(qū)”、“檢測(cè)”、“零”、“模型”這些詞失去了在語(yǔ)境中的本來(lái)意義,而如果將“網(wǎng)絡(luò)科學(xué)”、“社區(qū)檢測(cè)”、“零模型”加入到自定義詞典并且在分詞的過(guò)程中讀取自定義詞典,這句話則會(huì)被切分成“構(gòu)建/網(wǎng)絡(luò)科學(xué)/社區(qū)檢測(cè)/的/零模型”,顯然這樣的分詞結(jié)果更有效。

        基于對(duì)原始語(yǔ)料的初步了解,首先建立了含有1 372個(gè)詞條的自定義詞典,并在實(shí)驗(yàn)中人工地逐條比較原始語(yǔ)料和分詞結(jié)果,然后不斷地?cái)U(kuò)充自定義詞典,使得分詞結(jié)果盡可能地準(zhǔn)確。最后,實(shí)驗(yàn)總共建立了含有1 670個(gè)詞條的自定義詞典?;谝呀⒑玫淖远x詞典,利用Python的Jieba分詞包,對(duì)會(huì)議的所有摘要進(jìn)行了分詞。

        2.1.3 停用詞過(guò)濾

        在分詞的過(guò)程中,發(fā)現(xiàn)了類似“大量的、準(zhǔn)確地、一次、并且、它、然而”等出現(xiàn)頻率太高卻沒(méi)有太大意義或者類別色彩不強(qiáng)的形容詞、副詞,量詞、連詞、介詞,語(yǔ)氣助詞等,需要被過(guò)濾掉從而減少存儲(chǔ)空間和計(jì)算時(shí)間。并且由于網(wǎng)絡(luò)科學(xué)領(lǐng)域的專業(yè)性,一些類似于“建立、嘗試、應(yīng)對(duì)、足夠”等與主題不相關(guān)的詞也需要被過(guò)濾以減少噪音影響。文本預(yù)處理階段的處理方法通常是添加停用詞庫(kù),對(duì)分詞結(jié)果進(jìn)行篩選過(guò)濾,從而得到質(zhì)量較高的分詞結(jié)果。

        使用停用詞庫(kù)之前,比如“基于啟發(fā)式算法的空間網(wǎng)絡(luò)最優(yōu)分解策略”這句話,會(huì)被分成“基于/啟發(fā)式算法/的/空間網(wǎng)絡(luò)/最優(yōu)分解策略”,而加入了停用詞庫(kù)以后的結(jié)果是“啟發(fā)式算法/空間網(wǎng)絡(luò)/最優(yōu)分解策略”,可以看出剔除掉了“基于”、“的”等無(wú)效信息后,分詞結(jié)果內(nèi)容顯得精煉集中。在實(shí)驗(yàn)中,除了加入通用的中文停用詞庫(kù)過(guò)濾無(wú)效信息以外,我們還針對(duì)語(yǔ)料的特點(diǎn)以及實(shí)際需求建立了貼合語(yǔ)料的專用停用詞庫(kù),對(duì)初步的分詞結(jié)果進(jìn)行減噪,最終所建的通用停用詞庫(kù)和專用停用詞庫(kù)共包含3 216個(gè)詞條。

        通過(guò)中文分詞和停用詞過(guò)濾,最終得到含有13 981個(gè)詞匯的語(yǔ)料庫(kù)。

        2.2 摘要主題挖掘與分析

        通過(guò)LDA主題模型訓(xùn)練,得到摘要不同主題數(shù)對(duì)應(yīng)的困惑度和機(jī)構(gòu)不同主題數(shù)對(duì)應(yīng)的困惑度,隨不同主題個(gè)數(shù)的變化趨勢(shì)如圖4和圖5所示:

        圖4中,困惑度最小時(shí)對(duì)應(yīng)的摘要主題個(gè)數(shù)為190,故設(shè)定摘要主題個(gè)數(shù)K=190。圖5中,困惑度最小時(shí)對(duì)應(yīng)的機(jī)構(gòu)主題個(gè)數(shù)為100,故設(shè)定機(jī)構(gòu)主題個(gè)數(shù)K=100。對(duì)于經(jīng)驗(yàn)參數(shù)α和β,參照文獻(xiàn)[32]設(shè)置為α=50/k,β=0.01。LDA主題建模需要分別對(duì)各主題下的詞語(yǔ)概率分布φ和各文檔下的主題概率分布θ[38]做估計(jì),這些估計(jì)值是LDA訓(xùn)練之后通過(guò)采樣得到的輸出結(jié)果。實(shí)驗(yàn)選用吉布斯抽樣的方法,每次選取概率向量的一個(gè)維度,給定其它維度的變量值抽樣確定當(dāng)前維度的值,不斷迭代,直至收斂后輸出待估參數(shù)[39]。

        設(shè)定迭代次數(shù)為2 000,最后得到的參數(shù)估計(jì)結(jié)果如下:

        一個(gè)K×V的矩陣φ,表示每個(gè)主題下生成每個(gè)詞的概率。K分別表示摘要的主題個(gè)數(shù)190和機(jī)構(gòu)的主題個(gè)數(shù)100,V表示文檔集去重后的詞匯個(gè)數(shù)。

        圖5 機(jī)構(gòu)不同主題數(shù)的困惑度Fig.5 Institutional confusion under different subject numbers

        一個(gè)M×K的矩陣θ,表示數(shù)據(jù)集中每個(gè)文檔生成主題的概率;M是文檔總數(shù),它的值分別為摘要文檔153篇和機(jī)構(gòu)文檔61篇,K是主題數(shù)。

        表1列出了LDA訓(xùn)練之后摘要主題得到的190個(gè)主題中的前4個(gè)主題,表2列出了機(jī)構(gòu)主題得到的100個(gè)主題中的前4個(gè)主題。表中的數(shù)值越大表示該主題產(chǎn)生該詞的概率越大。

        表1 基于摘要的前4個(gè)主題Tab.1 The first 4 topics based on abstract

        表2 基于機(jī)構(gòu)的Top4個(gè)主題Tab.2 The first 4 topics based on organization

        表1中,4個(gè)主題產(chǎn)生“同步性”、“復(fù)雜網(wǎng)絡(luò)”、“空間網(wǎng)絡(luò)”、“權(quán)重預(yù)測(cè)”的概率最大,即認(rèn)為基于摘要的4個(gè)主題與這4個(gè)詞最相關(guān)。表2中,4個(gè)主題產(chǎn)生“網(wǎng)絡(luò)模型”、“網(wǎng)絡(luò)科學(xué)”、“演化博弈”、“網(wǎng)絡(luò)節(jié)點(diǎn)”的概率最大,即認(rèn)為基于機(jī)構(gòu)的前4個(gè)主題與這4個(gè)詞最相關(guān)。

        2.3 摘要主題聚類分析

        2.3.1 層次聚類結(jié)果及有效性評(píng)價(jià)

        基于摘要的文檔-主題分布,用JS距離公式計(jì)算153篇摘要兩兩間的距離,并且利用凝聚層次聚類的方法將距離最近的摘要逐步聚合,最終所有摘要在距離為1.27時(shí)聚為一類。從圖6中可以看出,在合并過(guò)程中,隨著距離閾值的增大,簇與簇之間的合并變得遲緩、距離的跨度越來(lái)越大。

        實(shí)驗(yàn)從聚類的最后一步倒推,尋找最佳聚類效果的距離閾值。根據(jù)鄧恩指數(shù)對(duì)聚類的全過(guò)程進(jìn)行裁剪,圖6為最后14步的聚類結(jié)果。黑色的橫線是由DVI確定的距離閾值,當(dāng)距離閾值為0.56時(shí),聚類最有效。將距離小于0.56的過(guò)程裁剪掉,得到最后10步的聚類結(jié)果如圖7所示。

        圖6 摘要不同主題數(shù)的困惑度Fig.6 Clustering results of the last 14 steps

        圖7 機(jī)構(gòu)不同主題數(shù)的困惑度Fig.7 Clustering results of the last 10 steps

        2.3.2 主題聚類結(jié)果

        基于圖7的結(jié)果提取10簇所代表的主題,這10簇的樣本容量分別為90,3,51,1,1,1,2,2,1和1。使用關(guān)鍵詞提取的方法分別篩選出子簇內(nèi)摘要的特征詞中概率最大的關(guān)鍵詞作為該簇的主題,而對(duì)于橫線(距離閾值大于0.56)以上的聚類點(diǎn),根據(jù)特征詞匯人工概括為新的主題。子簇中若含有網(wǎng)絡(luò)同步性、博弈或傳播等關(guān)鍵詞的摘要被歸納為網(wǎng)絡(luò)動(dòng)力學(xué);含有鏈路預(yù)測(cè)、推薦算法和社團(tuán)檢測(cè)等的子簇被歸納為網(wǎng)絡(luò)應(yīng)用;結(jié)構(gòu)可控性和滲透閾值等被歸納為網(wǎng)絡(luò)控制;子簇中金融網(wǎng)絡(luò)分析被歸為網(wǎng)絡(luò)分析;編隊(duì)模型和評(píng)價(jià)模型被歸納為網(wǎng)絡(luò)建模。實(shí)驗(yàn)統(tǒng)計(jì)了每簇下包含子簇的百分比,其中網(wǎng)絡(luò)動(dòng)力學(xué)這一簇容量為90,說(shuō)明該主題下包含了90篇摘要,占比為58.8%;網(wǎng)絡(luò)應(yīng)用這一簇容量為51,占比為34%;網(wǎng)絡(luò)控制占比2%;網(wǎng)絡(luò)分析和網(wǎng)絡(luò)建模占比均為1%。

        本文列舉了排名前5的主題的組成成分如表3所示,可觀察出最熱門的研究方向是網(wǎng)絡(luò)動(dòng)力學(xué)和網(wǎng)絡(luò)應(yīng)用,其次是網(wǎng)絡(luò)控制、網(wǎng)絡(luò)分析和網(wǎng)絡(luò)建模。

        根據(jù)圖7的聚類結(jié)果,將10簇的主題和聚類過(guò)程相結(jié)合,得到主題發(fā)現(xiàn)的樹(shù)狀圖,如圖8所示。

        表3 排名前五的主題分布表Tab.3 Top five topic distribution

        圖8 主題發(fā)現(xiàn)結(jié)果Fig.8 Results of the topic discovery

        圖8主題發(fā)現(xiàn)結(jié)果圖中,來(lái)自于網(wǎng)絡(luò)科學(xué)大會(huì)的153篇摘要被劃分為10類,各個(gè)摘要所屬的主題依次為網(wǎng)絡(luò)動(dòng)力學(xué)、網(wǎng)絡(luò)控制、網(wǎng)絡(luò)應(yīng)用、合作行為、時(shí)間序列、網(wǎng)絡(luò)同步性、網(wǎng)絡(luò)分析、網(wǎng)絡(luò)建模、社區(qū)劃分和節(jié)點(diǎn)重要性,主題標(biāo)簽上的數(shù)值表示聚類到該主題下的摘要篇數(shù)。從圖中可以看到,最熱門的網(wǎng)絡(luò)動(dòng)力學(xué)和網(wǎng)絡(luò)控制、網(wǎng)絡(luò)應(yīng)用在一定的距離閾值下聚為一類,而社區(qū)劃分和節(jié)點(diǎn)重要性聚為一類后,又與網(wǎng)絡(luò)建模、分析、同步性等聚為一類,最終兩大類聚集到網(wǎng)絡(luò)科學(xué)大主題下?;趯哟尉垲惤Y(jié)果,發(fā)現(xiàn)網(wǎng)絡(luò)科學(xué)領(lǐng)域的各研究方向并不是獨(dú)立存在,而是彼此關(guān)聯(lián)。從事網(wǎng)絡(luò)科學(xué)領(lǐng)域的學(xué)者可以基于各研究方向間的關(guān)聯(lián)性,拓展自己的研究領(lǐng)域,提高學(xué)術(shù)創(chuàng)新,如將網(wǎng)絡(luò)應(yīng)用和網(wǎng)絡(luò)控制相聯(lián)系,網(wǎng)絡(luò)分析和網(wǎng)絡(luò)建模相融合。

        2.3.3 主題聚類結(jié)果準(zhǔn)確性檢驗(yàn)

        實(shí)驗(yàn)為了檢驗(yàn)會(huì)議研究主題聚類結(jié)果的科學(xué)性與準(zhǔn)確性,選用5名參與會(huì)議并從事復(fù)雜網(wǎng)絡(luò)研究的志愿者分別對(duì)153篇摘要按研究主題分類并貼標(biāo),然后基于主題分類結(jié)果計(jì)算聚類的準(zhǔn)確率、召回率和F1測(cè)度值。

        準(zhǔn)確率(P,precision):A/(A+B),表示在所有被判斷為正確的文檔中,有多大的比例是正確的。召回率(R,Recall):A/(A+C),表示在所有正確的文檔中,有多大的比例被我們判定為正確。F1測(cè)度(F-measure):2PR/(P+R),既衡量準(zhǔn)確率,又衡量召回率。其中,A表示系統(tǒng)檢索到的相關(guān)文檔;B表示系統(tǒng)檢索到的不相關(guān)文檔;C表示相關(guān)但是系統(tǒng)沒(méi)有檢索到的文檔;P表示準(zhǔn)確率;R表示召回率。表4是會(huì)議研究主題的準(zhǔn)確率、召回率和F1測(cè)度值檢測(cè)結(jié)果。

        表4 會(huì)議主題聚類的檢驗(yàn)結(jié)果Tab.4 Test results of conference topic clustering

        從表4可以看出,會(huì)議主題聚類結(jié)果的準(zhǔn)確率為78.5%,召回率為81.9%,F(xiàn)1測(cè)度值為80.2%,表明會(huì)議主題聚類結(jié)果較為有效。

        2.4 機(jī)構(gòu)關(guān)聯(lián)分析

        實(shí)驗(yàn)將主題模型和社交網(wǎng)絡(luò)分析相結(jié)合來(lái)挖掘機(jī)構(gòu)關(guān)聯(lián)關(guān)系?;跈C(jī)構(gòu)研究主題的相似性與社會(huì)網(wǎng)絡(luò)分析相結(jié)合,以研究主題相似度為參考指標(biāo),為機(jī)構(gòu)尋找合適的科研合作單位提供參考建議。

        社會(huì)網(wǎng)絡(luò)分析常將社會(huì)網(wǎng)絡(luò)的形式化轉(zhuǎn)換成鄰接矩陣來(lái)表達(dá)。鄰接矩陣[40]是表示頂點(diǎn)之間相鄰關(guān)系的矩陣,在無(wú)向圖中,是一個(gè)階方陣,第行和第列上的元素定義如下:

        首先將摘要語(yǔ)料按其所屬機(jī)構(gòu)合并為61條記錄,然后基于機(jī)構(gòu)研究主題間的相似性,當(dāng)機(jī)構(gòu)研究主題相似性較高時(shí),構(gòu)建機(jī)構(gòu)間的連邊,從而生成機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)。研究主題相似性越高時(shí),JS距離越小,統(tǒng)計(jì)JS距離頻次分布如圖9所示。

        圖9 摘要距離頻次分布圖Fig.9 Abstract distance frequency distribution

        從統(tǒng)計(jì)結(jié)果上看,JS距離頻次分布圖近似于正態(tài)分布,因此實(shí)驗(yàn)設(shè)定:當(dāng)JS距離大于0.27時(shí),判定機(jī)構(gòu)研究主題間的相似性較低,定義為無(wú)關(guān)系,統(tǒng)一取值為0;當(dāng)JS距離小于0.27時(shí),判定機(jī)構(gòu)研究主題間的相似性較高,定義為有關(guān)系,統(tǒng)一取值為1,生成摘要距離的機(jī)構(gòu)鄰接矩陣。

        基于機(jī)構(gòu)鄰接矩陣,用社會(huì)網(wǎng)絡(luò)分析工具Ucinet構(gòu)建機(jī)構(gòu)關(guān)聯(lián)關(guān)系,得到61所機(jī)構(gòu)基于研究主題相似性的關(guān)聯(lián)網(wǎng)絡(luò),整體上的機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)如圖10所示。

        在圖10中,顏色越深,代表機(jī)構(gòu)節(jié)點(diǎn)的度越大[41],即表明在此次會(huì)議中與該機(jī)構(gòu)研究?jī)?nèi)容相似的科研單位較多;而顏色越淺,代表機(jī)構(gòu)節(jié)點(diǎn)的度越小,表明在此次會(huì)議中與其研究?jī)?nèi)容相似的科研單位較少。從圖中可觀察得到:國(guó)防科技大學(xué)、華中科技大學(xué)、上海財(cái)經(jīng)大學(xué)、武漢大學(xué)、香港城市大學(xué)等24個(gè)機(jī)構(gòu)的鄰居節(jié)點(diǎn)較多,表明在網(wǎng)絡(luò)科學(xué)領(lǐng)域與這些機(jī)構(gòu)具有相似研究方向的科研單位數(shù)量較多;而佛羅里達(dá)大學(xué)、東北大學(xué)、安徽大學(xué)、上海交通大學(xué)這4個(gè)機(jī)構(gòu)的鄰居節(jié)點(diǎn)數(shù)量相對(duì)較少,表明在網(wǎng)絡(luò)科學(xué)領(lǐng)域與這4個(gè)機(jī)構(gòu)研究方向相似的科研單位數(shù)量較少。

        圖10 基于機(jī)構(gòu)研究主題相似性的關(guān)聯(lián)網(wǎng)絡(luò)Fig.10 Association network based on research topic similarity

        在社會(huì)網(wǎng)絡(luò)分析工具Gephi中,將光標(biāo)移至某一節(jié)點(diǎn),可顯示該節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)的連接關(guān)系。研究主題相似的機(jī)構(gòu)間存在一條連邊,研究主題差異大的機(jī)構(gòu)間沒(méi)有連邊且無(wú)關(guān)系的節(jié)點(diǎn)會(huì)隱去?;诖?,能找出各機(jī)構(gòu)在網(wǎng)絡(luò)科學(xué)研究領(lǐng)域的關(guān)聯(lián)關(guān)系。然后以機(jī)構(gòu)研究主題間的相似性為參考指標(biāo),為各機(jī)構(gòu)尋找合適的科研合作單位提供參考建議。

        圖11為北京大學(xué)及其鄰居節(jié)點(diǎn)基于會(huì)議研究主題相似性的關(guān)聯(lián)網(wǎng)絡(luò)圖,從圖11得知:在網(wǎng)絡(luò)科學(xué)研究領(lǐng)域中,與北京大學(xué)研究方向相近的機(jī)構(gòu)有:中國(guó)科技大學(xué)、國(guó)防科技大學(xué)、北京工業(yè)大學(xué)、西南大學(xué)等12個(gè)機(jī)構(gòu)。由于北京大學(xué)與該12個(gè)機(jī)構(gòu)的研究方向相近,則可以建議它與這些機(jī)構(gòu)建立科研合作關(guān)系來(lái)提高學(xué)術(shù)創(chuàng)新。

        圖11 北京大學(xué)鄰居節(jié)點(diǎn)網(wǎng)絡(luò)Fig.11 Network of neighbor nodes of Peking University

        3 結(jié)論

        本文通過(guò)對(duì)2017年第十三屆全國(guó)復(fù)雜網(wǎng)絡(luò)大會(huì)中的摘要進(jìn)行預(yù)處理,利用LDA主題模型對(duì)會(huì)議摘要的主題進(jìn)行研究,選用困惑度作為評(píng)測(cè)指標(biāo)確定最佳主題個(gè)數(shù);使用JS距離計(jì)算摘要間的距離,對(duì)距離進(jìn)行凝聚層次聚類得到摘要主題結(jié)果,實(shí)驗(yàn)挖掘出:網(wǎng)絡(luò)動(dòng)力學(xué)、網(wǎng)絡(luò)控制、網(wǎng)絡(luò)應(yīng)用、合作行為、時(shí)間序列、網(wǎng)絡(luò)同步性、網(wǎng)絡(luò)分析、網(wǎng)絡(luò)建模、社區(qū)劃分和節(jié)點(diǎn)重要性10個(gè)研究主題。根據(jù)摘要主題的層次聚類結(jié)果,可以清晰地看出復(fù)雜網(wǎng)絡(luò)會(huì)議當(dāng)前熱門的研究方向是網(wǎng)絡(luò)動(dòng)力學(xué)和網(wǎng)絡(luò)應(yīng)用,該會(huì)議的研究趨勢(shì)一定程度上能反映出網(wǎng)絡(luò)科學(xué)的研究態(tài)勢(shì),幫助相關(guān)科研人員了解網(wǎng)絡(luò)科學(xué)學(xué)科當(dāng)前的熱門領(lǐng)域,拓展他們的科研方向。同時(shí),將機(jī)構(gòu)摘要研究主題的相似性與社會(huì)網(wǎng)絡(luò)分析相結(jié)合,挖掘機(jī)構(gòu)間的關(guān)聯(lián)關(guān)系,基于機(jī)構(gòu)研究主題的相似性,以相似度為參考指標(biāo),為機(jī)構(gòu)尋找合適的科研合作單位提供參考建議。

        本文的工作拓展了主題模型在學(xué)術(shù)會(huì)議研究態(tài)勢(shì)與研究熱點(diǎn)挖掘上的應(yīng)用范圍,豐富了學(xué)術(shù)會(huì)議主題挖掘與研究熱點(diǎn)分析的思路,能為其他學(xué)術(shù)會(huì)議快速挖掘研究態(tài)勢(shì)提供借鑒;同時(shí)提出一種基于主題模型和社交網(wǎng)絡(luò)分析相結(jié)合來(lái)挖掘機(jī)構(gòu)關(guān)聯(lián)關(guān)系的研究方法,以機(jī)構(gòu)研究主題相似度為參考指標(biāo),為機(jī)構(gòu)尋找合適的科研合作單位提供參考建議。然而,本文的研究也存在以下不足:層次聚類后的摘要主題類別是由人工進(jìn)行歸納總結(jié),總結(jié)的好壞還未找到合適的評(píng)價(jià)指標(biāo),若未來(lái)能使用自動(dòng)化貼標(biāo)簽技術(shù)完善分析方法,相信能更好地提高實(shí)驗(yàn)效率和實(shí)驗(yàn)的科學(xué)性,挖掘出更準(zhǔn)確地網(wǎng)絡(luò)科學(xué)會(huì)議主題。

        致謝:感謝深圳大學(xué)豐建文教授提供2017年第十三屆全國(guó)復(fù)雜網(wǎng)絡(luò)會(huì)議摘要數(shù)據(jù)。

        猜你喜歡
        文本模型研究
        一半模型
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        在808DA上文本顯示的改善
        EMA伺服控制系統(tǒng)研究
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        人妻少妇精品系列一区二区| 男女下面进入的视频| 亚洲色欲在线播放一区| 深夜福利国产| 极品少妇人妻一区二区三区 | 日韩亚洲精品中文字幕在线观看| 欧美乱妇高清无乱码在线观看| 欧美巨大精品欧美一区二区| 少妇被爽到自拍高潮在线观看 | 国产人妖一区二区av| av中文字幕一区不卡| 老熟妇仑乱视频一区二区 | 亚洲午夜精品久久久久久人妖 | 伊人久久大香线蕉av五月| 国产喷水1区2区3区咪咪爱av| 日韩无码视频淫乱| 久久精品国产一区二区涩涩| 老熟女富婆激情刺激对白| 亚洲第一页综合图片自拍| 大陆一级毛片免费播放| 日本激情一区二区三区| 大尺度免费观看av网站| 国产成人免费一区二区三区| 国产精品白浆视频免费观看| h视频在线免费观看视频| 2019日韩中文字幕mv| 四虎成人精品无码永久在线 | 亚洲av狠狠爱一区二区三区| 99久久99久久久精品齐齐| 精品无码一区二区三区爱欲九九 | 中文字幕一区二区在线| 久久人人爽人人爽人人片av高请| 性色av无码不卡中文字幕| 亚洲免费毛片网| 少妇又色又爽又高潮在线看| 免费久久人人爽人人爽av| 亚洲AV无码成人品爱| 精品国产a毛片久久久av| 亚洲精品白浆高清久久久久久| 国产午夜成人久久无码一区二区 | 高清在线亚洲中文精品视频|