亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于熱詞語義聚類的領(lǐng)域特征挖掘方法

        2019-08-13 07:11:16莊建昌顧興全洪彩鳳
        中國計量大學(xué)學(xué)報 2019年2期
        關(guān)鍵詞:熱詞語料聚類

        莊建昌,武 嬌,顧興全,洪彩鳳

        (1.中國計量大學(xué) 理學(xué)院,浙江 杭州 310018;2.中國計量大學(xué) 標(biāo)準(zhǔn)化學(xué)院,浙江 杭州 310018)

        一個充分發(fā)展的領(lǐng)域必然充斥著大量的文本數(shù)據(jù),對于關(guān)注領(lǐng)域現(xiàn)狀和未來發(fā)展的人們,需要對領(lǐng)域內(nèi)海量文本數(shù)據(jù)進(jìn)行分析。然而,領(lǐng)域內(nèi)的信息往往具有冗余性,并且具有各個子領(lǐng)域分布不平衡的特點。因此,復(fù)雜領(lǐng)域內(nèi)的關(guān)鍵詞提取并不容易[1]。

        領(lǐng)域關(guān)鍵詞的研究大致可分為領(lǐng)域關(guān)鍵詞提取技術(shù)以及領(lǐng)域關(guān)鍵詞的應(yīng)用。領(lǐng)域關(guān)鍵詞的應(yīng)用研究廣泛,存在于領(lǐng)域主題提取[2-3]、醫(yī)學(xué)腫瘤領(lǐng)域[4-5]、納米技術(shù)領(lǐng)域[6]、情報學(xué)領(lǐng)域[7]以及交叉學(xué)科領(lǐng)域[8-9]。這反映出研究領(lǐng)域關(guān)鍵詞提取技術(shù)的重要意義。高繼平等人[10]提出使用多詞共現(xiàn)技術(shù)提取領(lǐng)域關(guān)鍵詞,并用關(guān)鍵詞的共現(xiàn)技術(shù)刻畫領(lǐng)域的研究熱點。潘瑋等人[11]提出一種數(shù)據(jù)清洗方法,結(jié)合詞共現(xiàn)技術(shù)提取領(lǐng)域關(guān)鍵詞。詞共現(xiàn)技術(shù)提取領(lǐng)域關(guān)鍵詞能夠反映出關(guān)鍵詞的耦合性,但是其多以詞頻為特征,在多文本中提取關(guān)鍵詞的效果并不好。Luo[12]等人提出了一種基于詞頻逆文檔頻率的多文本域關(guān)鍵字提取方法TDDF,該方法比以詞頻逆文檔頻率作為特征項的關(guān)鍵詞提取方法更有效。

        然而,上述方法還存在以下問題:1)提取的關(guān)鍵詞不含有語義信息,這不利于進(jìn)一步分析領(lǐng)域特征。為此,文獻(xiàn)[13]和文獻(xiàn)[14]提出了基于word2vec模型[15]的領(lǐng)域關(guān)鍵詞提取方法。由于word2vec模型能夠表征語義信息,因此這些方法提取的領(lǐng)域關(guān)鍵詞的可解釋性得到了提高。2)沒有考慮領(lǐng)域語料分布的不平衡造成的影響。語料分布不平衡可能導(dǎo)致關(guān)鍵詞分布不平衡,進(jìn)而影響關(guān)鍵詞對領(lǐng)域的代表性。3)這些方法大多用于對標(biāo)注有“關(guān)鍵詞”的學(xué)術(shù)類文本語料的領(lǐng)域關(guān)鍵詞提取,而通常文本是不標(biāo)注“關(guān)鍵詞”的,這影響了方法的推廣應(yīng)用。由此,文獻(xiàn)[16]提出了一種基于Wikipedia的提取領(lǐng)域關(guān)鍵詞的方法進(jìn)行文本過濾,雖然該方法不依賴于帶有“關(guān)鍵詞”標(biāo)簽的文本,但仍依賴于外部的文本資源。綜上所述,研究能夠在未標(biāo)注“關(guān)鍵詞”的文本中提取具有語義信息的領(lǐng)域關(guān)鍵詞,并能克服語料分布不平衡帶來的負(fù)面影響的領(lǐng)域關(guān)鍵詞提取方法具有重要的應(yīng)用價值。

        為了解決上述問題,本文提出一種基于局部熱詞模型(Local buzzword model, LBM)的領(lǐng)域特征挖掘方法。該方法由多種機(jī)器學(xué)習(xí)技術(shù)集成。首先,本文提出二次關(guān)鍵詞提取策略(Two-step keyword extraction strategy, TKES)提取領(lǐng)域關(guān)鍵詞。其次,結(jié)合word2vec模型獲得領(lǐng)域的熱詞;最后,基于熱詞的語義進(jìn)行聚類得到LBM。利用LBM,能夠挖掘領(lǐng)域特征并且實現(xiàn)領(lǐng)域特征可視化。在實驗部分,本文將該方法應(yīng)用于旅游評論語料的特征挖掘和可視化,以驗證方法的有效性。

        1 LBM構(gòu)建

        1.1 LBM構(gòu)建流程

        LBM構(gòu)建流程如圖1。從圖1可得,LBM的構(gòu)建比較復(fù)雜,我們將之分為4個步驟進(jìn)行說明:1)獲取領(lǐng)域語料庫;2)訓(xùn)練word2vec模型;3)基于TKES和word2vec模型提取領(lǐng)域的熱詞;4)熱詞聚類獲得LBM。

        圖1 LBM構(gòu)建流程Figure 1 Constructing process of LBM

        1.1.1 獲取領(lǐng)域語料庫

        領(lǐng)域語料庫是指在某一領(lǐng)域內(nèi),包含著眾多子領(lǐng)域的語料庫,而各個子領(lǐng)域包含著數(shù)量不均的語料。針對不同的研究對象,人們需要從不同的途徑去獲取相應(yīng)的領(lǐng)域語料。領(lǐng)域語料的結(jié)構(gòu)如圖2所示。其中Θ={A,B,C}表示某個研究領(lǐng)域,A、B、C分別代表Θ的三個子領(lǐng)域,Ai、Bi、Ci(i=1,2,…)為各子領(lǐng)域的語料。設(shè)|A|為領(lǐng)域A的語料個數(shù),則圖2中,|A|>|B|且|C|>|B|,這表明領(lǐng)域語料分布是不均衡的。

        圖2 領(lǐng)域語料結(jié)構(gòu)Figure 2 Corpus structure of the research field

        1.1.2 訓(xùn)練word2vec模型

        Word2vec模型,是一種基于Bayes假設(shè),通過w相鄰詞的集合C(w)的信息預(yù)測w的信息,或者通過w的信息預(yù)測w相鄰詞的集合C(w)的信息的模型。其通過某種訓(xùn)練將語料中的每一個詞映射成一個固定長度的向量,所有的詞向量組成一個向量空間,這樣就可以把詞向量對應(yīng)成空間中的一個點。

        一般的,根據(jù)不同的目的,word2vec優(yōu)化目標(biāo)為(1)或(2):

        (1)

        (2)

        其中,C(w)={vi(w)∈Rm|i=-c,-c-1,…,-1,1,2,…,c},vi(w)是離w距離為i的詞的初始向量,且i為正數(shù)是w右側(cè)第i個詞;反之,i為負(fù)數(shù)是w左側(cè)第i個詞,D是語料字典,由領(lǐng)域語料Θ通過預(yù)處理得到,m是用于訓(xùn)練的詞向量vi的維度。

        求解(1)、(2)的兩種常用的網(wǎng)絡(luò)結(jié)構(gòu)分別為CBOW模型和Skip-gram模型,更具體的求解可參考文獻(xiàn)[15]。本文中使用gensim[17]包所提供的方法訓(xùn)練word2vec模型。

        1.1.3 提取領(lǐng)域熱詞

        關(guān)鍵詞提取方法有許多種,大多是對特征進(jìn)行基于規(guī)則的排序,本文將詞頻-逆文檔詞頻[18](Term frequency inverse document frequency,TFIDF)作為權(quán)值,通過對權(quán)值的排序提取關(guān)鍵詞。其數(shù)學(xué)表示如公式(3):

        δ(wij)=δTFIDF(wij)=TF(wij)×IDF(wij),

        (3)

        其中wij表示第i個文檔的第j個詞,δ(wij)是wij的權(quán)重函數(shù),δTFIDF(wij)表示使用TFIDF計算wij的權(quán)重,TF(wij)表示wij的詞頻,n(wij)表示wij的頻數(shù),IDF(wij)表示wij的逆文檔數(shù);di表示第i篇文檔,M表示Θ中的文檔個數(shù)。

        需要注意的是,無論選擇哪一種關(guān)鍵詞提取方法,都不能直接作用在語料上。上文已經(jīng)提到,領(lǐng)域語料分布是不平衡的,如果對領(lǐng)域語料直接提取關(guān)鍵詞,會導(dǎo)致在較大的子領(lǐng)中獲取的關(guān)鍵詞的權(quán)值較大,而較小的子領(lǐng)域中獲取的關(guān)鍵詞的權(quán)值較小,而最終導(dǎo)致較大的子領(lǐng)域中提取的關(guān)鍵詞占比大,如圖3。

        圖3 直接提取關(guān)鍵詞Figure 3 Direct extraction of keywords

        這種大的子領(lǐng)域關(guān)鍵詞“吃掉”小的子領(lǐng)域的關(guān)鍵詞的問題如何解決呢?本文提出二次關(guān)鍵詞提取策略(Two-step keyword extraction strategy,TKES)來解決此問題,其提取步驟如圖4所示。圖4中A,B,C,表示原始領(lǐng)域Θ的三個子領(lǐng)域,其各個子領(lǐng)域元素大小的排名是|A|>|B|>|C|,如圖4(a)。

        TKES經(jīng)過以下三個步驟實現(xiàn)對領(lǐng)域關(guān)鍵詞的提取。

        1)如圖4(b)所示,使用(3)式計算子領(lǐng)域H(H∈Θ)中的詞的權(quán)重并進(jìn)行排序,

        δ(wH1)≥δ(wH2)≥…≥δ(wH|H|)。

        (4)

        得到按(4)式,排序的詞集KH,

        KH={wHj|j=1,2,…,|H|}。

        (5)

        其中wHj表示子領(lǐng)域H中的第j個詞。

        圖4 二次關(guān)鍵詞提取策略Figure 4 Two-step keyword extraction strategy

        (6)

        其中wHj表示子領(lǐng)域H的第j個關(guān)鍵詞,N滿足N≤minH∈Θ|H|。

        (7)

        (8)

        G={aj={n(wj),v(wj)}|j=1,2,…,T}。

        (9)

        其中n(wj)表示熱詞aj的頻數(shù),v(wj)是aj對應(yīng)的詞向量。

        一般情況下,在模型G中熱詞數(shù)量T較大,人們難以直接對領(lǐng)域的特征進(jìn)行分析。因此,下面對熱詞向量進(jìn)行聚類,進(jìn)一步構(gòu)造能夠刻畫領(lǐng)域局部特征的局部熱詞模型。

        1.1.4 熱詞聚類獲得LBM

        通過上面的方法對熱詞向量進(jìn)行聚類,就得到LBM,其數(shù)學(xué)模型如下:

        GL={aij={n(wij),v(wij)}|i=1,2,…,l;
        j=1,2,…,|Li|}。

        (10)

        其中,aij是第i個簇的第j個熱詞,n(wij)表示aij的頻數(shù),v(aij)是aij對應(yīng)的詞向量。

        通過上述方法構(gòu)建的LBM,模型中的每一個簇的熱詞在體現(xiàn)領(lǐng)域的整體特征的同時,具有表征領(lǐng)域局部特征的能力。

        1.2 LBM的應(yīng)用

        在獲得局部熱詞模型之后,我們可以將其應(yīng)用于領(lǐng)域特征的進(jìn)一步分析與挖掘。本文主要考慮以下兩種應(yīng)用:

        1.2.1 基于熱詞頻率劃分的領(lǐng)域特征挖掘

        通過GL中aij的頻數(shù)n(wij),可以計算aij在每個簇Li中的熱詞頻率pi(wij)。

        (11)

        pi(wij)越大,表示aij出現(xiàn)在簇Li的頻數(shù)越大。于是可以規(guī)定滿足t1≤pi(wij)≤1的詞aij為Li的高頻詞,滿足t2≤pi(wij)

        高頻詞與中頻詞更能夠反映Li的整體特征,而低頻詞可能反映了Li較新的或部分的特征[19]。因此通過對熱詞頻率的劃分,可以更加清楚地了解每個簇中熱詞的分布,進(jìn)而推斷熱詞在領(lǐng)域中的作用。

        1.2.2 領(lǐng)域特征可視化

        使用主成分分析(Principal component analysis,PCA)[20]對GL中的詞向量進(jìn)行降維,以實現(xiàn)領(lǐng)域特征可視化。

        對GL所有元素的詞向量vij(i=1,2,…,l;j=1,2,…,|Li|)計算均值和協(xié)方差矩陣。

        (12)

        (13)

        (14)

        其中,zij∈Rn是降維后的向量。

        取n=2,由公式(14),可以將原m維的詞向量降至2維,繪制熱詞在二維空間中的分布圖,實現(xiàn)領(lǐng)域特征可視化,從而更加清楚地表現(xiàn)領(lǐng)域內(nèi)各個特征之間的聯(lián)系。

        2 基于LBM的旅游評論挖掘

        2.1 語料概況

        本文使用了旅游評論數(shù)據(jù)作為領(lǐng)域語料進(jìn)行LBM的實驗。旅游語料是基于爬蟲技術(shù)從“貓途鷹”旅游網(wǎng)站爬取,語料數(shù)據(jù)統(tǒng)計量見表1。從表1中可以發(fā)現(xiàn),最大評論數(shù)的景區(qū)與最小評論數(shù)的景區(qū)評論數(shù)量差距很大,而語料的標(biāo)準(zhǔn)差達(dá)到了859.74,這說明語料中各景區(qū)評論數(shù)量的分布非常不均衡。

        表1 景區(qū)數(shù)據(jù)統(tǒng)計

        2.2 實驗環(huán)境及工具

        實驗運行在CPU型號為Intel(R)Core(TM)i7-7500U,內(nèi)存為8 GB,操作系統(tǒng)為Windows 10企業(yè)版的筆記本電腦上。

        實驗涉及的所有程序代碼均采用Python 3.6.5進(jìn)行實現(xiàn),并在Spyder 3下進(jìn)行編譯與運行。程序中主要使用的軟件包以及相應(yīng)的版本如下:機(jī)器學(xué)習(xí)包scikit-learn[21](0.19.1),數(shù)值運算包numpy(1.14.3),數(shù)據(jù)處理包pandas(0.23.0),斯坦福自然語言處理工具包stanfordcorenlp(3.9.1.1)。

        本文根據(jù)圖1所示的流程構(gòu)建旅游語料的局部熱詞模型,其中所用的停用詞(該停用詞表已經(jīng)上傳到了網(wǎng)上,網(wǎng)址:https://pan.baidu.com/s/1l61_rAh1XLxB4WfnKdyK2g。)是由多個停用詞詞集結(jié)合而得。

        2.3 熱詞提取和聚類

        得到熱詞之后,為了解領(lǐng)域的局部特征,接下來對熱詞進(jìn)行聚類,構(gòu)造局部熱詞模型。

        本文使用幾種基于不同距離測度的聚類算法進(jìn)行實驗,包括Kmeans算法[22](歐式距離)、超球Kmeans算法[23](余弦距離)、Agglomerative算法[24](各種鏈接模式和距離測度),通過比較聚類Calinski-Harabaz Index(CHI)[25]得分,最終確定使用K-means算法對名詞詞向量進(jìn)行簇為3的聚類,對動詞詞向量進(jìn)行簇為2的聚類。聚類結(jié)果見表5和表6。

        2.4 領(lǐng)域特征挖掘

        2.4.1 熱詞詞頻分布

        本文取t1=70%,t2=30%,對于每個簇i,i=1,2,…,l,滿足pi(wij)≥70%的熱詞aij為該簇的高頻詞,滿足70%>pi(wij)≥30%的熱詞aij為該簇的中頻詞,滿足pi(wij)<30%的熱詞aij為該簇的低頻詞。由于本文的目標(biāo)是挖掘領(lǐng)域特征,因此本文主要考慮中頻詞和高頻詞,同時為了保證熱詞在整個領(lǐng)域中具有代表性,本文還要求aij滿足n(wij)≥0.3×max{n(wij)|aij∈GL}。所提取的旅游熱詞的詞頻分布見表4。

        表2 旅游領(lǐng)域名詞

        注:由于數(shù)據(jù)過多,表格只展示部分結(jié)果。

        表3 旅游領(lǐng)域動詞

        注:由于數(shù)據(jù)過多,表格只展示部分結(jié)果。

        表4 熱詞分布

        2.4.2 熱詞聚類結(jié)果分析

        對于熱詞的聚類結(jié)果,我們選擇部分高頻詞和中頻詞進(jìn)行分析,見表5和表6。

        2.4.3 領(lǐng)域特征可視化

        本文構(gòu)建LBM模型后,對GL中高頻詞和中頻詞的詞向量vij使用PCA降維到2維,并在二維空間中繪制vij的分布圖,見圖5。

        表5 旅游領(lǐng)域名詞-熱詞聚類分析

        續(xù)表5

        注:表5和表6中,括號內(nèi)的數(shù)表示該詞出現(xiàn)在子領(lǐng)域中的次數(shù),其中加粗的詞表示該簇的高頻熱詞。

        圖中不同顏色的圓點表示不同的簇,小圓點表示中頻詞,大圓點表示高頻詞。通過圖5可以得到:

        1)圖5(a)中名詞的三個簇被明顯的區(qū)分開。從整體上看,第一簇位于圖的左上角(黑色圓點),主要是描述游覽要素的名詞;第二簇位于圖右側(cè)(紅色圓點),主要是描述景區(qū)景色的名詞;第三簇位于左下角(藍(lán)色圓點),主要是描述自然和人文景觀的名詞。說明游客的關(guān)注點主要集中在這三個方面。由此,旅游管理者不僅可以通過游客評論對旅游景區(qū)總體服務(wù)水平進(jìn)行評價,而且可對旅游景區(qū)的游覽要素,景區(qū)景色,旅游景觀屬性三個方面的服務(wù)水平進(jìn)行評價。這將為提高管理者監(jiān)測和改進(jìn)旅游景區(qū)服務(wù)水平的針對性提供了一種有效途徑。

        圖5 旅游熱詞聚類分布Figure 5 Cluster distribution of buzzwords

        2)圖5(b)中第一簇?zé)嵩~(紅色圓點)描述的主要是游客行為,而第二簇?zé)嵩~(藍(lán)色圓點)描述的主要是游客體驗。景區(qū)服務(wù)人員借助于此可有重點地改善景區(qū)服務(wù)過程質(zhì)量,提高游客對景區(qū)的滿意度。

        3)如果圖中的兩個圓點距離相近,那么它們對應(yīng)的語義相近。例如,圖5(a)的“景色”和“風(fēng)景”,圖5(b)中的“優(yōu)美”和“美”。這說明LBM繼承了詞向量模型能夠刻畫詞的語義信息的能力。

        4)通過周邊詞的分布縮小關(guān)注范圍。通過圖5(a),可以看到“門票”一詞周邊緊密分布著“景點”“景區(qū)”,再遠(yuǎn)一點是“游客”“導(dǎo)游”“路”“小時”“時間”這說明“門票”與這些因素有較強(qiáng)的關(guān)聯(lián)性。通過圖5(b),發(fā)現(xiàn)“喜歡”周圍分布著“舒服”“漂亮”“壯觀”“美”“優(yōu)美”。這反映出景區(qū)可以通過建設(shè)更加舒適的基礎(chǔ)設(shè)施和更加優(yōu)美的景區(qū)環(huán)境來提高游客對景區(qū)的喜歡程度。

        3 結(jié) 論

        本文提出二次關(guān)鍵詞提取策略(TKES)來提取熱詞。TKES可降低由領(lǐng)域語料分布不平衡帶來的負(fù)面影響,只要保證最小子領(lǐng)域語料的數(shù)量足夠大,就能使提取出來的熱詞對整個領(lǐng)域具有代表性。

        局部熱詞模型LBM是依據(jù)TKES結(jié)合word2vec模型和文本聚類技術(shù)得到。將其應(yīng)用于:1)基于熱詞頻率劃分的領(lǐng)域挖掘特征,2)領(lǐng)域特征可視化。通過對旅游評論語料挖掘的應(yīng)用,驗證了LBM在1),2)兩種場景下的有效性,以及使用TKES所提取的熱詞在體現(xiàn)領(lǐng)域共性特征的同時,具有表征領(lǐng)域局部特征的能力。

        提出的LBM也可作為其它文本挖掘工作的基礎(chǔ),比如自動文本摘要、文本分類。LBM與其它文本挖掘技術(shù)相結(jié)合,處理更加復(fù)雜的文本挖掘任務(wù),是進(jìn)一步的研究工作。

        猜你喜歡
        熱詞語料聚類
        熱詞
        時代郵刊(2021年8期)2021-11-26 12:48:48
        熱詞
        熱詞
        十九大熱詞 我踐行
        少先隊活動(2018年8期)2018-12-29 12:15:54
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        基于改進(jìn)的遺傳算法的模糊聚類算法
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        《苗防備覽》中的湘西語料
        久久精品国产亚洲AV高清y w| 激情综合色综合啪啪五月丁香| 久久乐国产精品亚洲综合| 国产麻豆一精品一AV一免费软件| 国产极品嫩模大尺度在线播放| 日韩精品在线视频一二三 | 中文字幕在线日韩| 久久国产精品av在线观看| 日本一区二区三区视频国产| 日韩亚洲欧美中文在线| 亚洲AV无码国产永久播放蜜芽| 久草视频在线视频手机在线观看 | 国产日韩一区二区精品| 日韩中文字幕素人水野一区| 最近中文字幕免费完整版| 中文字幕一区二区三区久久网站| AV无码系列一区二区三区| 风韵人妻丰满熟妇老熟| 久久精品夜色国产亚洲av| 国产草草视频| 久久久精品国产亚洲av网不卡| 美女视频在线观看亚洲色图 | 久草热8精品视频在线观看| 亚洲无码美韩综合| 偷拍美女上厕所一区二区三区| a级毛片100部免费观看| 2021国产最新在线视频一区| 亚洲中文字幕乱码免费看| 久久婷婷五月综合色高清| 亚洲粉嫩高潮的18p| 中文人妻av大区中文不卡| 熟女肥臀白浆一区二区| 国产一区二区内射最近更新| 亚洲午夜无码AV不卡| 隔壁人妻欲求不满中文字幕| 四虎影视久久久免费观看| 八区精品色欲人妻综合网| 国产激情视频免费观看| 国产精品激情自拍视频| 性高朝久久久久久久| 中文字幕大乳少妇|