亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義關聯(lián)與模糊聚類的共詞分析方法

        2022-11-23 12:03:44陸泉曹越陳靜
        情報學報 2022年10期
        關鍵詞:類團共詞標引

        陸泉,曹越,陳靜

        (1.武漢大學信息資源研究中心,武漢 430072;2.武漢大學大數(shù)據(jù)研究院,武漢 430072;3.華中師范大學信息管理學院,武漢 430079)

        1 引言

        作為內容分析的基礎研究方法之一,共詞分析法主要通過高度表征文獻內容的特征詞共現(xiàn)的統(tǒng)計學特征來揭示研究成果的總體內容特征,進而分析學科領域的知識結構和研究熱點。經(jīng)過三十多年的發(fā)展,該方法已廣泛應用于圖書情報、人工智能和醫(yī)藥衛(wèi)生等學科,成為領域研究熱點探測等的重要定量分析方法[1]。

        目前共詞分析的主要方法是從限定的領域文獻集合里,按照一定的指標或方法[2-4]抽取核心詞匯,對由詞匯共現(xiàn)特征構建的共詞相關矩陣進行多維尺度分析和硬聚類分析。然而上述方法存在兩個主要的缺陷:一是共現(xiàn)和不共現(xiàn)的詞對都存在著一定的語義關聯(lián)性,但現(xiàn)有研究通常僅以共現(xiàn)頻次作為度量詞對相關性的依據(jù),缺乏對詞對語義相關關系的揭示;二是硬聚類方法自身具備的排斥性使一個詞匯只能歸入一個類團中,但對于學科領域的研究而言,一個特征詞會在與該詞有關聯(lián)的多個熱點主題下出現(xiàn),傳統(tǒng)的硬聚類方法使詞匯的主題歸屬單一化和絕對化[5]。

        為有效彌補上述缺陷,本文提出基于語義關聯(lián)與模糊聚類的共詞分析方法,以領域內的文獻集合為知識背景,利用fastText詞嵌入模型學習核心詞匯的語義特征向量,通過對向量空間的運算度量詞對的語義相關強度,結合共現(xiàn)相關強度構建語義加權的共詞相關矩陣,以改善詞對相關性度量的效果;引入模糊C均值聚類算法,結合因子降維對語義加權共詞矩陣進行模糊聚類分析,實現(xiàn)詞匯主題歸屬的多元化,能夠提高類團的信息質量并揭示類團的外部聯(lián)系,以克服硬聚類算法的不足,為改進共詞分析方法提供新的思路。

        2 相關研究工作

        法國文獻計量學家Callon等[6]在1983年首次提出了共詞分析方法,作為能夠快速揭示學科知識結構和領域研究熱點的經(jīng)典方法,幾十年來國內外學者對其進行了許多的研究和優(yōu)化。相關工作主要集中在分析單元的選擇、核心詞匯的確定、詞匯差異化處理、共詞矩陣的構建和共詞矩陣的分析等五個方面。下文對各個方面的研究工作進行闡述。

        2.1 分析單元的選擇

        在共詞分析方法中,分析單元通常從能夠有效揭示文獻主題的詞匯中進行選擇,主要包括作者自標引關鍵詞、統(tǒng)一標引主題詞、標題和摘要提取詞及正文特征詞等。作者自標引關鍵詞由于在語義概括上的靈活性、新穎性和研究實施時的便利性,已成為共詞分析最常用的分析單元,不過自標引關鍵詞的選擇存在一定的隨意性和主觀性,對最終的分析結果可能會產(chǎn)生影響。統(tǒng)一標引的主題詞一般由專業(yè)的標引專家所標引,具有更高的權威性和穩(wěn)定性。如鐘偉金[7]對比了關鍵詞和主題詞在共詞聚類分析中的效果,提出包括合并同義詞、去除貶義詞和通用詞以及保護新穎詞等多種提升自標引關鍵詞聚類效果的方法。

        有關研究者嘗試從標題、摘要及正文等途徑抽取特征詞,以彌補標引詞在數(shù)量上受到限制的缺陷。例如,唐曉波等[8]、趙國榮等[9]分別采用分詞技術和組塊分析法從標題中提取詞或短語對作者自標引關鍵詞進行補充,巴志超等[10]采用LDA(la‐tent Dirichlet allocation)模型從文獻正文中抽取表征能力較強的特征詞進行共現(xiàn)分析。

        2.2 核心詞匯的確定

        研究者通常只選取小部分詞匯作為核心詞匯進行共詞分析,最直接的方式是篩選高頻詞,其思路是假定在研究領域內出現(xiàn)次數(shù)越多的詞匯相對越重要。常用的高頻詞確定方法主要有三類:一是經(jīng)驗判定法[11],研究者基于研究內容結合學科經(jīng)驗確定高頻詞閾值;二是基于Donohue[12]結合齊普夫第二定律提出的高頻低頻詞界分公式;三是采用普賴斯公式法對高低頻詞進行界定[13]。楊愛青等[14]引入詞頻g指數(shù),安興茹[15]提出高頻詞閾值F計算公式,對高頻詞篩選方法進行了補充。

        不過Serrano等[16]研究認為,依據(jù)頻次閾值對復雜共詞網(wǎng)絡進行簡化,可能會導致網(wǎng)絡在整體多尺度上的特征信息被忽略,胡昌平等[17]也證明高頻詞矩陣會丟失大量重要的共現(xiàn)關系。為此,研究者從多個角度對核心詞匯的確定方法進行了改進:一是以傳統(tǒng)詞頻為基礎進行優(yōu)化[2,18-19];二是提出新的指標抽取核心詞匯,如基于詞語貢獻度[20]、詞匯領域度[21]、加權信息熵[22]和網(wǎng)絡節(jié)點中心性[23]等。Zhao等[24]還探討了基于頻次和網(wǎng)絡節(jié)點指標等不同度量選取核心詞匯對揭示領域研究熱點的影響,為研究者在不同環(huán)境下有效選取度量指標提供指導。

        2.3 詞匯差異化處理

        對于在文獻中出現(xiàn)頻次相同的詞匯,傳統(tǒng)共詞分析方法以相同的權值進行衡量,并未區(qū)分詞匯之間的差異性。但這種假定不符合客觀實際,例如,不同詞性、位置的詞匯對于表達文獻主題的貢獻程度顯然是不同的[25]。因而,許多研究者考慮詞匯間“同量不同質”現(xiàn)象,對詞匯加權以體現(xiàn)其不同的重要程度來改善共詞分析方法的效果。例如,馬續(xù)補等[26]基于詞匯在標題、正文等文本中的不同位置對詞匯進行加權處理;陸泉等[27]結合不同信息生產(chǎn)者的詞匯頻次及詞匯間語義依存關系進行差異化處理;李海林等[28]基于關鍵詞的先后順序,對關鍵詞進行重要度加權。近年來,有關研究者關注詞匯的“時間”屬性差異,例如,周鑫等[29]基于移動平均法構建詞頻變化率模型,奉國和等[30]引入Logistic函數(shù)設計時間賦權詞頻分析模型,以動態(tài)地揭示學科研究熱點及變化趨勢。

        2.4 共詞矩陣的構建

        傳統(tǒng)共詞分析方法通?;诠铂F(xiàn)頻次來反映詞對的相關強度,以此構建共詞矩陣。同時,為了提高共詞矩陣的信息含量,研究者一般采用Ochiia系數(shù)[26]、相互包容系數(shù)[31]或點互信息[32]等統(tǒng)計學指標對詞對共現(xiàn)頻次進行包容化處理。

        然而,從整個領域文獻集合來看,僅計算共現(xiàn)相關強度,會缺乏對詞對語義相關關系的揭示。因此,有研究者考慮在共詞網(wǎng)絡中融入詞對的語義信息。例如,Zhou等[33]利用word2vec模型將關鍵詞轉化為詞向量進行語義關聯(lián)度量;王玉林等[34]采用基于知識單元的細粒度共詞分析方法將語義信息結合到共詞分析中;Feng等[35]基于領域本體計算概念間的語義距離,生成語義矩陣;周萌等[36]則結合同義詞典和領域專家給定的關系詞,構建了融入語義關系類型的細粒度共詞網(wǎng)絡,從而更全面地揭示領域的整體、微觀知識結構和研究熱點。

        2.5 共詞矩陣的分析

        共詞矩陣分析是共詞分析的核心環(huán)節(jié),研究者通常采用因子分析[37]、多維尺度分析[38]、聚類分析[28]和復雜網(wǎng)絡分析[39]等方法對共詞矩陣做進一步處理,以提取學科領域的研究熱點。其中聚類分析應用最廣泛,比較常用的做法是基于SPSS[34]、VOSviewer[19]和gCLUTO[40]等軟件內嵌的聚類算法進行共詞聚類。有關研究者還引入了新的聚類方法,如AP(affinity propagation)聚類算法[41]和關聯(lián)規(guī)則挖掘模型[42],霍朝光等[43]則綜合node2vec表示學習和t-SNE聚類算法,實現(xiàn)了細粒度的關鍵詞集群發(fā)現(xiàn)。

        但是,以上聚類方法均屬于硬聚類,忽略了詞匯歸屬的多元性,一定程度上會造成類團內部信息和外部聯(lián)系的丟失。針對此問題,目前研究者大多停留在理論探討層面,典型的方法研究有邵作運等[44]引入的懲罰性矩陣分解算法(penalized matrix decomposition,PMD)和孫海生[5]采用的連邊社團檢測算法。不過上述方法涉及大量的數(shù)學運算和復雜的參數(shù)調整,計算成本較高。

        鑒于傳統(tǒng)共詞分析中未考慮詞對的語義關聯(lián)以及忽視了詞對主題歸屬多元性等方面的不足,本文提出基于語義關聯(lián)與模糊聚類的共詞分析方法。不同于傳統(tǒng)共詞分析基于共現(xiàn)頻次反映詞對的相關強度,本文利用詞嵌入模型從標題和摘要中學習關鍵詞的語義信息,構建語義加權共詞矩陣,以綜合共現(xiàn)特征與語義關聯(lián)來改善詞對相關性的度量效果;通過因子降維與模糊C均值聚類對加權共詞矩陣進行模糊聚類分析,實現(xiàn)詞匯主題歸屬的多元化,避免硬聚類分析造成類團內部信息和外部聯(lián)系丟失的問題。

        3 基于語義關聯(lián)與模糊聚類的共詞分析方法

        本文提出的基于語義關聯(lián)與模糊聚類的共詞分析方法以作者自標引關鍵詞為分析單元。在選取高頻關鍵詞和次高頻關鍵詞作為核心詞匯后,借助深度學習思想和模糊理論,首先利用fastText模型學習關鍵詞的詞向量表征;挖掘詞對的語義關聯(lián)信息后,結合共現(xiàn)相關信息構建語義加權的共詞相關矩陣;之后對加權共詞矩陣進行因子降維,依據(jù)提取的因子數(shù)獲取粗類數(shù)作為聚類數(shù)的范圍上限[45];采用模糊C均值聚類算法對降維矩陣進行聚類分析,得到關鍵詞與聚類簇團的隸屬度矩陣;通過截取隸屬度閾值將單個詞匯歸入與之相關的一個或多個類團中,實現(xiàn)關鍵詞模糊聚類,更加客觀合理地揭示領域研究熱點及熱點間的聯(lián)系。本文提出的基于語義關聯(lián)與模糊聚類的共詞分析方法的基本流程如圖1所示。

        圖1 基于語義關聯(lián)與模糊聚類的共詞分析方法的基本流程

        3.1 關鍵詞預處理

        由于作者自標引關鍵詞是對文獻內容的濃縮和提煉,本文采用自標引關鍵詞作為分析單元。經(jīng)過合并同義詞、停用詞刪除等處理后,根據(jù)高頻低頻詞界分公式、詞頻g指數(shù)篩選高頻關鍵詞和次高頻關鍵詞,選取這兩類關鍵詞作為核心關鍵詞構建共詞矩陣。

        高頻低頻詞界分公式是Donohue[12]根據(jù)齊普夫第二定律提出的高頻詞閾值確定方法,具體計算方法為

        其中,T為高頻詞的詞頻閾值;I1表示詞頻為1的關鍵詞數(shù)量。根據(jù)此界分公式提取領域文獻的高頻關鍵詞。不過作者自標引關鍵詞的選擇存在隨意性和不確定性,所以詞頻為1的關鍵詞數(shù)量較多[46],代入界分公式得到的閾值T較大,導致篩選出的高頻關鍵詞往往較少,難以對學科領域的研究熱點開展深入有效的分析。

        因此,為了在一定程度上克服數(shù)據(jù)對象自身存在的缺陷,本文借鑒徐坤等[47]引入的次高頻詞概念,在基于界分公式提取高頻關鍵詞后,對剩余關鍵詞采用詞頻g指數(shù)選取次高頻關鍵詞,將高頻關鍵詞和次高頻關鍵詞合并作為領域核心關鍵詞開展研究,以增強核心關鍵詞選擇的合理性。詞頻g指數(shù)[14]的定義為,將關鍵詞按照頻次降序排列,選取前g個關鍵詞,使前g個關鍵詞的累計詞頻大于等于g2,前(g+1)個關鍵詞的累計詞頻小于(g+1)2。具體計算方法為

        其中,F(xiàn)i表示關鍵詞i的出現(xiàn)頻次。

        3.2 語義加權共詞相關矩陣構建

        立足語義關聯(lián)視角,本文結合共現(xiàn)相關關系和語義相關關系對核心詞對的相關強度進行度量,構建語義加權的共詞相關矩陣。對于共現(xiàn)相關關系的度量,首先根據(jù)3.1節(jié)中獲取的N個領域核心關鍵詞構建詞頻共現(xiàn)矩陣,之后采用Ochiia系數(shù)方法[48]對詞對頻次進行包容處理,得到共現(xiàn)相關矩陣E,計算公式為

        其中,Eij表示關鍵詞i和關鍵詞j之間的共現(xiàn)相關強度;Ci表示關鍵詞i的出現(xiàn)頻次,Cj表示關鍵詞j的出現(xiàn)頻次,Cij表示關鍵詞i和關鍵詞j共同出現(xiàn)的頻次。

        對于詞對語義相關關系的度量,本文采用大規(guī)模文本語料庫的方法,借助關鍵詞在文本中的上下文信息來挖掘語義知識。由于標題和摘要是文獻內容的梗概,且題錄信息的結構化數(shù)據(jù)易于獲取,因此本文抽取領域文獻的標題和摘要文本構建語料庫,基于fastText詞嵌入模型生成核心關鍵詞的詞向量表征,通過計算詞向量之間的余弦相似度度量關鍵詞之間的語義相關性。fastText模型[49]是Face‐book在2016年開源的用于生成詞向量和文本分類的技術,該模型在skip-gram模型的基礎上加以改進,在訓練中文詞向量的場景下融入了子字信息,對輸入上下文的每一個詞采用基于詞n-gram格式進行分解,實現(xiàn)字向量建模,并將分解處理后得到的所有n-gram向量和原詞的詞向量通過average-pool‐ing方式進行融合,以學習獲得更加精細的詞向量。fastText模型與Zhou等[33]采用的word2vec模型相比,在生成詞向量表征時速度更快,并且可以解決OOV(out of vocabulary)問題,尤其在罕見詞向量生成方面,fastText能夠訓練出語義更準確、質量更高的詞向量。對于關鍵詞i和關鍵詞j的詞向量vi、vj,本文采用余弦相似度算法[50]度量詞對的語義相關性,

        其中,Pij表示關鍵詞i與關鍵詞j的語義相關強度;||vi||、||vj||分別是向量vi和向量vj的歐幾里得范數(shù)。計算得到的Pij值越大,表示關鍵詞i和關鍵詞j之間的語義相關性越高。

        為了在共詞分析中考慮語義關聯(lián)信息,本文引入依賴集中度參數(shù)λ將詞對的語義相關強度和共現(xiàn)相關強度進行結合,構建語義加權共詞矩陣S。具體計算公式為

        其中,N表示所有的領域核心關鍵詞;Cik表示關鍵詞i與關鍵詞k的共現(xiàn)頻次。通過上述方法對關鍵詞進行語義關聯(lián)分析,將語義知識融入共詞矩陣中,彌補僅以共現(xiàn)特征難以準確度量詞對相關強度的缺陷。

        3.3 關鍵詞模糊聚類

        模糊C均值聚類(fuzzy C-means,F(xiàn)CM)算法[51]是在k-means算法的基礎上引入模糊理論所形成的模糊聚類算法。不同于硬聚類下樣本對象與類簇間非此即彼的隸屬性質,F(xiàn)CM算法采用柔性劃分的策略,通過隸屬度函數(shù)來描述樣本對象和類簇間的不確定性關系,不僅能夠提升聚類算法的魯棒性,也可以提高聚類結果劃分的彈性。隸屬度函數(shù)是表示元素隸屬于集合的程度的函數(shù),在模糊理論中該函數(shù)的值域由集合{0,1}擴展為連續(xù)區(qū)間[0,1],因此在模糊聚類時各樣本對象能夠以不同的隸屬度同時隸屬于不同的類簇。通過設置隸屬度閾值,可將各樣本劃分到與其相關的多個類簇中。

        給定樣本對象集合X=(x1,x2,…,xn),其中每個樣本對象xi包含d維特征,n是集合中樣本對象的數(shù)目。FCM算法將X劃分為c個類,U為樣本對象與類團間的隸屬度矩陣,[k1,k2,…,kc]為c個聚類中心。FCM聚類算法的目標優(yōu)化函數(shù)為

        其中,m是模糊控制參數(shù);uij表示樣本對象xi在第j類團中的隸屬度;||xi-kj||表示樣本對象xi和聚類中心kj之間的歐幾里得距離。在滿足約束條件的情況下使用拉格朗日乘數(shù)法對目標優(yōu)化函數(shù)進行求解,推算得到FCM迭代更新隸屬度矩陣和聚類中心的公式,

        為了在一定程度上解決FCM算法的聚類數(shù)目需要人為預先設定的問題,本文對3.2節(jié)中N×N維的語義加權共詞矩陣S進行因子降維,依據(jù)提取到的因子數(shù)Q獲取粗類數(shù)作為聚類數(shù)目的范圍上限。

        同時,經(jīng)過因子降維得到的N×Q維的關鍵詞旋轉成分矩陣,其特征維度由高維的領域核心關鍵詞轉化為低維的公共因子,抽取出了語義加權共詞矩陣的本質結構,并且提高了特征的解釋能力,因此本文選擇降維后的旋轉成分矩陣作為模糊C均值聚類算法的輸入。FCM算法的具體步驟如下。

        算法1模糊C均值聚類

        輸入:聚類數(shù)c(c≤Q),初始聚類中心,初始隸屬度矩陣,核心關鍵詞旋轉成分矩陣,模糊控制參數(shù)m,終止誤差ε。

        輸出:隸屬度矩陣。

        Step1.根據(jù)式(7)更新隸屬度矩陣。

        Step2.根據(jù)式(8)更新聚類中心。

        Step3.根據(jù)式(6)計算目標函數(shù)的值,若|J(μ)-J(μ-1)|<ε,則算法終止;否則,返回Step1,繼續(xù)迭代更新。

        通過對輸出的隸屬度矩陣進行分析,合理截取隸屬度閾值,將關鍵詞劃分到與之相關的一個或多個類團中,實現(xiàn)關鍵詞模糊聚類;通過對聚類簇團進行主題歸納,揭示領域的研究熱點及聯(lián)系。

        4 實驗與結果分析

        4.1 數(shù)據(jù)來源與處理

        為了驗證本文提出的基于語義關聯(lián)與模糊聚類的共詞分析方法的效果,選擇“感染性疾病學和傳染病學”為研究領域,選定相關文獻進行實證分析。為保證收集文獻的權威性,本文以《中國科技核心期刊目錄》(2020版)中該學科領域下的8種學術期刊為文獻來源刊,8種核心期刊分別是《新發(fā)傳染病電子雜志》《傳染病信息》《微生物與感染》《中國感染控制雜志》《中國感染與化療雜志》《中華傳染病雜志》《中華臨床感染病雜志》和《中華實驗和臨床感染病雜志電子版》。以中國生物醫(yī)學文獻數(shù)據(jù)庫(China Biology Medicine,CBM)為檢索平臺,限定年限為2015—2020年,檢索到5684篇文獻。人工去除通訊稿、征文稿以及會議記錄等非學術類期刊文獻并去重后,共獲取5373篇有效期刊文獻,提取文獻題錄數(shù)據(jù)中的作者自標引關鍵詞、標題和摘要等內容開展后續(xù)分析。

        4.2 關鍵詞抽取

        針對題錄數(shù)據(jù)中的作者自標引關鍵詞,通過同義詞合并、停用詞刪除等預處理操作,共得到8275個唯一自標引關鍵詞,經(jīng)過詞頻統(tǒng)計,繪制關鍵詞詞頻對數(shù)分布圖,如圖2所示。關鍵詞詞頻對數(shù)分布符合線性分布(R2=0.8065,p<5×10-30),表明關鍵詞的詞頻分布總體具有冪律分布特性,即存在一小部分關鍵詞是該領域的核心概念,并且領域研究主題的集中性比較明顯[52]。

        圖2 作者自標引關鍵詞詞頻對數(shù)分布

        將I1=5844代入高頻低頻詞界分公式(公式(1)),計算得到高頻詞閾值T約為107,根據(jù)此閾值只抽取到20個高頻關鍵詞,詞量較少。針對余下的關鍵詞,采用公式(2)抽取到54個次高頻關鍵詞。將高頻關鍵詞和次高頻關鍵詞合并,共獲取74個領域核心關鍵詞,其累計詞頻占比為27.59%,滿足二八定律,表明將兩類關鍵詞合并作為核心關鍵詞是客觀合理的。核心關鍵詞及其詞頻如表1所示。

        4.3 結果與分析

        根據(jù)獲取的領域核心關鍵詞構建詞頻共現(xiàn)矩陣,按照公式(3),利用Ochiia系數(shù)方法將詞頻共現(xiàn)矩陣轉化為共現(xiàn)相關矩陣E(74×74),當兩個關鍵詞不共現(xiàn)時,共現(xiàn)相關強度為0。將全部自標引關鍵詞作為自定義詞典,采用python語言的jieba庫對文獻題錄數(shù)據(jù)中的標題和摘要進行分詞,構建文本語料庫;利用fastText模型在該語料庫上訓練詞向量,模型訓練的相關參數(shù)設定:無監(jiān)督訓練模式為skipgram,詞嵌入維度dim=200,學習率lr=0.05,循環(huán)次數(shù)epoch=5。經(jīng)過訓練,獲取74個核心關鍵詞的詞向量,如關鍵詞“醫(yī)院感染”轉化為實值分布[-0.322946,0.24874386,-0.01921216,-0.0047568,0.12811267,…,-0.02404686]。之后按照公式(4)度量詞對的語義相關強度,基于公式(5)將詞對的共現(xiàn)相關強度和語義相關強度進行結合,構建語義加權共詞相關矩陣S(74×74)。

        利用SPSS 25.0,選擇主成分方法、協(xié)方差矩陣和最大方差法對語義加權共詞矩陣進行因子降維,并基于特征值數(shù)提取因子數(shù),設置最大收斂迭代次數(shù)為25。最終經(jīng)過18次迭代,提取出13個公共因子,累計方差貢獻率為86.916%。降維得到的關鍵詞旋轉成分矩陣(74×13)的一部分如表2所示,表中數(shù)值代表對應行的關鍵詞在相應因子下的載荷值。

        表2 關鍵詞旋轉成分矩陣(部分)

        將關鍵詞旋轉成分矩陣輸入FCM聚類算法中進行關鍵詞模糊聚類,相關參數(shù)設定:模糊控制參數(shù)m=1.5,終止誤差ε=10-7,最大更新迭代次數(shù)maxiter=10000。由于選擇提取到的因子數(shù)作為粗類數(shù)來代表聚類數(shù)目的上限,因此本文將FCM算法的聚類數(shù)目c(c≤13)設置為10。經(jīng)過234次更新迭代后,算法停止,圖3是FCM算法目標函數(shù)的迭代數(shù)值折線圖,算法在迭代40次左右時趨于穩(wěn)定。

        圖3 FCM算法目標函數(shù)優(yōu)化結果

        為了清晰地展現(xiàn)模糊聚類下詞匯主題歸屬的多元性,本文針對輸出的隸屬度矩陣(74×10)采用python的seaborn庫繪制熱力圖進行可視化呈現(xiàn),如圖4所示,橫軸方向代表74個核心關鍵詞,縱軸方向代表10個聚類簇團。各個關鍵詞在10個類團中的隸屬度有大有小,且總和為1,圖中單元格顏色越深,表明對應關鍵詞在相應類團中的隸屬度越大。通過繪制熱力圖,各關鍵詞在10個類團中的隸屬度分布一目了然,且有所側重,較好地解決了硬聚類算法下詞匯與類團的隸屬單一化和絕對化問題。

        表1 領域核心關鍵詞序號及詞頻

        通過分析各個關鍵詞的隸屬度分布,并結合圖4中10個類團下的隸屬度分段集中情況,在劃分模糊聚類結果時本文將隸屬度閾值設置為0.3,即各個類團取隸屬度大于等于0.3的關鍵詞作為該類團下的元素;若某個關鍵詞在10個類團下的隸屬度都小于0.3,則將該關鍵詞歸入擁有最大隸屬度的類團。

        圖4 關鍵詞隸屬度矩陣熱力圖

        根據(jù)上述步驟,本文將提取到的“感染性疾病學和傳染病學”領域近5年的研究熱點歸納為10類,具體如表3所示:①醫(yī)務人員感染預防與控制;②細菌性感染和炎癥;③醫(yī)院獲得性感染;④疾病診療和預防醫(yī)學;⑤新發(fā)突發(fā)傳染病和疑難感染?。虎弈退幈硇图盎蛐头治?;⑦細菌耐藥性;⑧條件致病菌;⑨急慢性肝??;⑩結核病及其病原體。通過FCM算法模糊聚類所提取出的10個類團,覆蓋了感染性疾病學科近些年來所表現(xiàn)出的新發(fā)再現(xiàn)傳染病威脅、不斷出現(xiàn)的細菌耐藥問題以及病毒性肝炎防治成效等方面[53-54],能夠有效反映“感染性疾病學、傳染病學”領域的研究熱點。

        表3 “感染性疾病學和傳染病學”領域的研究熱點

        4.4 對比實驗與分析

        為了進一步檢驗本文提出的基于語義關聯(lián)與模糊聚類的共詞分析方法的有效性和優(yōu)越性,將傳統(tǒng)共詞分析方法[55]與本文所提方法從詞對相關性度量和關鍵詞聚類效果等兩方面進行對比。

        4.4.1 詞對相關性度量對比

        傳統(tǒng)共詞分析方法通常采用Equivalence系數(shù)或者Ochiia系數(shù)等基于共現(xiàn)頻次的統(tǒng)計學指標來反映詞對的相關強度[56],因此繪制同一類團下的關鍵詞Ochiia系數(shù)共現(xiàn)網(wǎng)絡和語義加權共詞網(wǎng)絡對詞對相關性度量進行對比分析。圖5是表3中類團9“急慢性肝病”主題的知識圖譜,該類團中關鍵詞個數(shù)最多且詞匯間語義關系較復雜,能夠更加直觀地凸顯出語義加權對于改善詞對相關性度量的效果。圖5中節(jié)點間有無連線代表關鍵詞之間是否存在相關性,連線的粗細則代表關鍵詞對相關強度的大小。

        在揭示詞對相關關系方面,傳統(tǒng)共詞分析方法以關鍵詞的共現(xiàn)性建立相關關系,如圖5a所示,關鍵詞“丙型肝炎”“慢性丙型肝炎”和“慢性乙型肝炎”兩兩不共現(xiàn),關鍵詞“肝細胞癌”和“肝功能衰竭”之間也不共現(xiàn),所以,在傳統(tǒng)共詞分析方法中,關鍵詞“丙型肝炎”“慢性丙型肝炎”和“慢性乙型肝炎”三者之間,以及關鍵詞“肝細胞癌”和“肝功能衰竭”之間不存在相關性(圖5中節(jié)點之間沒有連線),但這種結果顯然是不合理的。而在圖5b的語義加權共詞網(wǎng)絡中,盡管上述關鍵詞之間沒有直接的共現(xiàn)相關關系,但仍然具有一定的語義相關強度,表明語義加權共詞網(wǎng)絡能夠更加充分、客觀地反映關鍵詞之間的相關關系。

        在計算詞對相關強度方面,Ochiia系數(shù)共現(xiàn)網(wǎng)絡中,與關鍵詞“肝功能衰竭”相關強度最高的前3個關鍵詞分別是(乙型肝炎病毒,慢性乙型肝炎,慢性丙型肝炎);而在語義加權共詞網(wǎng)絡中,關鍵詞“肝功能衰竭”相關強度最高的前3個關鍵詞是(肝細胞癌,肝硬化,乙型肝炎),顯然后者更加準確。

        以上分析表明,與傳統(tǒng)的基于共現(xiàn)頻次的度量方法相比,本文所提出的將語義關聯(lián)信息和共現(xiàn)相關信息進行結合的方法更能充分、準確地度量關鍵詞之間的相關性,為改善共詞分析效果提供了支撐。

        4.4.2 關鍵詞聚類效果對比

        層次聚類是共詞分析中使用最多、研究最為充分的聚類算法之一[57],近年來也常被作為經(jīng)典的共詞聚類方法開展對比實驗[10]。將4.3節(jié)中構建的核心關鍵詞共現(xiàn)相關矩陣E(74×74)轉化為相異矩陣,導入SPSS 25.0,采用層次聚類法進行聚類分析,聚類方法選擇“組間連接”,度量標準選擇“區(qū)間:平方歐幾里得距離”,最終將74個關鍵詞聚成了8類。生成的聚類樹狀圖如圖6所示。

        從圖6層次聚類結果來看,其聚類粒度過粗,一方面導致類團信息質量較差,以類團1為例,該類團下的關鍵詞“手衛(wèi)生”“多重耐藥菌”和“呼吸機相關肺炎”等內涵差異較大,導致難以準確解讀類團的具體研究主題,類團6和類團8也存在類似的問題;另一方面造成不同類團下的詞匯數(shù)量極度不平衡問題,導致存在一些不必要或無意義的聚類簇團,例如,類團7下的關鍵詞“慢性丙型肝炎”和“基因型”并不具備成團含義。此外,層次聚類結果中一個關鍵詞只能屬于特定的一類,這種硬聚類方法無法揭示類團之間的聯(lián)系。

        在FCM模糊聚類結果中,本文采用UCIENT和NetDraw軟件繪制模糊聚類結果的網(wǎng)絡拓撲圖,來直觀地揭示研究熱點及其之間的聯(lián)系,如圖7所示。圖中箭頭的指向為各個聚類中心,箭頭上的數(shù)字代表該關鍵詞與所指向類團的隸屬度大小。

        從圖7可以看出,F(xiàn)CM模糊聚類下每個類團主題清晰,不同類團下詞匯數(shù)量均衡,類團內部信息質量高、含義充分,且不同類團間存在主題上的關聯(lián)。例如,類團4和類團5通過關鍵詞“流行病學”建立了聯(lián)系,表明針對以新型冠狀病毒肺炎、艾滋病及手足口病等為代表的新發(fā)突發(fā)傳染病和疑難感染病進行有效的診療和預防,是近年來該領域研究的著力點[54];同時,類團6、類團7和類團8通過關鍵詞“藥敏試驗”“病原菌”建立了聯(lián)系,表明針對條件致病菌進行耐藥表型及基因型分析是目前檢測病原菌耐藥機制的重要方法[58]。

        圖7 FCM關鍵詞模糊聚類網(wǎng)絡拓撲圖

        相比于傳統(tǒng)的層次聚類算法,F(xiàn)CM模糊聚類下10個聚類簇團的研究主題不僅具體準確,而且彼此之間具有較好的區(qū)分性。同時,類團之間通過關鍵詞的主題歸屬多元性建立了的聯(lián)系,豐富了類團所能表達的含義,進一步凸顯了模糊聚類方法的優(yōu)越性。

        5 結語

        針對已有共詞分析方法中存在的度量詞對相關性時忽略詞匯間的語義關聯(lián)、硬聚類算法使詞匯主題歸屬單一化等問題,本文提出基于語義關聯(lián)與模糊聚類的共詞分析方法。通過引入深度學習思想和模糊理論,一方面,基于fastText詞嵌入模型對抽取的領域核心關鍵詞學習語義向量表征,將詞對的語義關聯(lián)信息和共現(xiàn)相關信息進行結合構建語義加權共詞矩陣,彌補僅以共現(xiàn)頻次難以準確度量詞對相關強度的不足;另一方面,采用模糊C均值聚類算法,結合因子降維對語義加權共詞矩陣進行關鍵詞模糊聚類,實現(xiàn)詞匯主題歸屬的多元性,進而提高聚類結果劃分的質量,揭示聚類簇團之間的聯(lián)系。最后,本文以“感染性疾病學和傳染病學”類期刊文獻開展實證分析,從多個方面驗證了本文所提方法的有效性和優(yōu)越性,揭示了感染性疾病學科近5年的10個研究熱點及其聯(lián)系。

        本文的不足之處在于,因為FCM聚類算法的效果依賴于隨機選擇的初始聚類中心,所以如何選定初始聚類中心以避免聚類結果的不穩(wěn)定性是后續(xù)研究重點。另外,還可以探索不同語義關聯(lián)分析方法是否有助于提升語義加權共詞矩陣的構建效果。

        猜你喜歡
        類團共詞標引
        基于PubMed數(shù)據(jù)庫病人報告結局研究熱點的共詞聚類分析
        全科護理(2023年22期)2023-08-11 05:17:46
        檔案主題標引與分類標引的比較分析
        基于突變檢測與共詞分析的深閱讀新興趨勢分析
        圖書館建設(2018年5期)2018-07-10 09:46:40
        本刊對來稿中關鍵詞標引的要求
        本刊對來稿中關鍵詞標引的要求
        基于共詞知識圖譜技術的國內VLC可視化研究
        基于關鍵詞共詞分析的我國親子關系熱點研究
        基于共詞分析和可視化的我國神經(jīng)病學領域熱點監(jiān)測
        國際電子學習研究主題演化分析*
        圖書館論壇(2015年2期)2015-01-03 01:43:00
        基于共詞分析的近十年國內網(wǎng)絡團購研究熱點分析
        亚洲午夜狼人综合影院| 无码8090精品久久一区| 国产99久久久国产精品免费| 偷拍夫妻视频一区二区| 极品少妇被猛的白浆直喷白浆| 先锋影音人妻啪啪va资源网站| 亚洲日韩一区二区一无码| 在线精品国产一区二区| 日韩美女av二区三区四区| 久久精品国产亚洲av影院毛片| 午夜男女很黄的视频| 一本加勒比hezyo无码人妻| 精品国产AⅤ一区二区三区4区| av二区三区在线观看| 包皮上有一点一点白色的| 九九精品国产亚洲av日韩| 国产精品一区二区av片| 国产一区二区三区亚洲精品| 亚洲乱码中文字幕综合久久| 国产农村妇女精品一二区| 欧美精品一级| 国产av大片久久中文字幕| 久久久久亚洲精品男人的天堂| 欧美性开放bbw| 国产福利美女小视频| 国产高清视频在线不卡一区| 极品少妇小泬50pthepon| 欧美末成年videos在线观看 | 国产成人综合久久精品免费| 99RE6在线观看国产精品| 亚洲国产天堂久久综合网| 亚洲国产精品无码专区影院| 中文字幕久无码免费久久| 久久视频在线视频精品| 2020国产在视频线自在拍| 婷婷中文字幕综合在线| 亚洲国产日韩在线人成蜜芽| 国产精品夜色视频久久| 国产成人亚洲综合无码品善网 | 国产亚洲日韩欧美一区二区三区| 精品人妻一区二区蜜臀av|