亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義加權的引文網(wǎng)絡社區(qū)劃分研究

        2021-04-08 02:27:00劉璐蔡永明
        新世紀圖書館 2021年1期
        關鍵詞:文本挖掘

        劉璐 蔡永明

        摘 要 為提高引文網(wǎng)絡社區(qū)劃分的準確性,以文檔之間的語義關系以及引文之間的引用關系為基礎,結合詞匯在文檔中的位置關系等信息,構建基于詞匯語義加權的引文網(wǎng)絡。通過GloVe模型對詞匯向量化以充分利用詞匯語義信息,結合WMD模型度量文獻之間的相似度,把文檔相似度的計算轉變?yōu)樵诩s束條件下求線性規(guī)劃最優(yōu)解的問題,結合文本的內容及結構特征對網(wǎng)絡中的邊進行賦權,以Louvain社區(qū)發(fā)現(xiàn)算法對加權后的引文網(wǎng)絡進行社區(qū)劃分,并對劃分后的社區(qū)進行分析與檢驗,實驗證明GloVe-WMD模型可提高引文網(wǎng)絡社區(qū)劃分的準確度。

        關鍵詞 引文網(wǎng)絡? 語義加權? 社區(qū)劃分 文本挖掘 自然語言處理 詞嵌入

        Abstract To improve the accuracy of citation network community division, citation network with lexical semantic weighting was constructed based on the semantic relationship between documents and the reference relationship between citations and the location relationship of words in documents and other information. The GloVe model was used to vectorize the words in order to make full use of the semantic information of the words. The WMD model was used to measure the similarity between literatures, and the calculation of the similarity of documents was transformed into the problem of finding the optimal solution of linear programming under the constraint condition. The edges in the network were weighted according to the similarity, content and structural features of the text. The citation network was divided into communities by the Louvain community discovery algorithm. The divided community is analyzed and tested. The results show that GloVe-WMD model can improve the accuracy of community division of Citation Network.

        Keywords Citation network. Semantic weighting. Community discovery. Text mining. Natural language processing. Word embedding.

        0 引言

        學術文獻是科研領域客觀存在的知識載體,而參考文獻作為學術文獻的重要組成部分,不僅反映了學術研究的背景和依據(jù),而且在知識生產(chǎn)和傳播過程發(fā)揮著重要的作用。引文網(wǎng)絡是文獻間引用與被引用關系的集合[1],網(wǎng)絡中的節(jié)點表示一篇文章,連邊則表示文獻間的引用關系[2]。隨著知識的爆炸增長,引文網(wǎng)絡已經(jīng)形成了一個超大規(guī)模的網(wǎng)絡系統(tǒng),對指數(shù)級增長的文獻,僅憑人力已經(jīng)無法精確提取出人們所需要的有效信息。如何快速準確地提取出人們所需要的信息是知識管理人員以及相關研究人員需要思考的問題。聚類分析法是信息檢索領域的一種重要應用[3],通過對引文網(wǎng)絡進行聚類分析可以發(fā)現(xiàn)網(wǎng)絡中的社區(qū)結構,從而揭示學術領域的傳承與發(fā)展,也能夠為學術研究評價提供不同的視角。為了提高引文網(wǎng)絡劃分的準確性,筆者在傳統(tǒng)的One-Hot-Representation模型上,綜合考慮文獻之間的語義關系以及引用關系,結合文檔的內容及結構特征,提出一種基于GloVe-WMD語義加權的引文網(wǎng)絡社區(qū)劃分方法,并以相關數(shù)據(jù)為例驗證了改進模型的效果。

        1 引文網(wǎng)絡的社區(qū)劃分研究概述

        引文網(wǎng)絡的社區(qū)劃分主要利用文獻的標題、摘要及關鍵詞作為主要信息源組成短文本對引文網(wǎng)絡進行處理,目前大都采用BOW→TF-IDF→VSM/LSA的體系來實現(xiàn),也就是俗稱的One-Hot-Representation,又被稱為0-1編碼或者獨熱編碼,它把所有的文檔表示為向量形式,通過計算向量之間余弦值作為相似度對引文網(wǎng)絡的邊進行賦權。

        BOW(Bag-Of-Words)[4],也稱為詞袋模型,是自然語言處理和信息檢索領域的重要模型之一,它省略了文本的語法、語序等要素,把文本當成若干個詞匯的集合,使用詞匯來表示文本;Gerard Salton等[5]提出的向量空間模型(Vector Space Model,VSM)是一種經(jīng)典的機器學習模型,一篇文本被表示為一個向量,向量的維度表示文本特征詞的權重,所有的文本向量構成一個向量空間,文本內容即可轉換為易于數(shù)學處理的向量形式,文本內容的處理轉化為向量空間中的數(shù)學運算;TF-IDF(Term Frequency- Inverse Document Frequency)算法是自然語言處理領域中使用最廣泛的特征詞權重賦值方法之一,它利用TF和IDF可以剔除文本中高頻但區(qū)分度較低的詞。魏建香等[6]基于此利用關鍵詞和摘要提出加權引文網(wǎng)絡聚類的方法;謝翠香 、劉勘等[7-8]根據(jù)上述體系進行改進,對文本進行區(qū)域劃分,根據(jù)詞匯出現(xiàn)的不同位置分布分別賦予權重,給出了含有位置關系的新的權重計算方法;肖雪等[9]在前者的基礎上提出了一種基于樣本加權的引文網(wǎng)絡社區(qū)發(fā)現(xiàn)方法,結合了文本的內容及位置結構對引文網(wǎng)絡進行劃分。

        上述加權引文網(wǎng)絡都旨在強調特征詞對文本的代表能力及提取方法,而忽略了詞匯本身包含的語義。由此,廖開際等[10] 考慮了特征項在文本中的重要程度以及特征項之間的語義關系,提出基于文本特征項的加權語義網(wǎng)模型計算文本之間的相似度。該方法雖然包含了文本的語義聯(lián)系,但對短文本分析時無法避免矩陣的稀疏性造成的信息丟失及維度災難[11],也沒有考慮到文獻之間的引用關系,并不適用于引文網(wǎng)絡。目前對引文網(wǎng)絡的加權研究著重改進特征詞權重的計算,強調更準確地提取特征詞或者改進特征詞對于文獻的表示能力,而對于詞匯本身的聯(lián)系關注甚少。而且,上述體系在對短文本分析時存在一個弊端,短文本的“文檔-詞匯”矩陣通常是高度稀疏的[12],如果文本特征詞選擇不當,隨后在使用余弦相似度計算文本相似性時,文獻經(jīng)過向量化,兩個文獻沒有重復詞語,則會被認定為完全不相關?;诖耍芯空邆冃枰环N詞向量技術來處理詞匯語義關系,從而發(fā)現(xiàn)詞語之間的內在聯(lián)系。

        詞向量表示技術是將自然語言中的每一個詞語通過編碼方式轉換為稠密向量形式,也稱作詞嵌入(Word Embedding)。1998年Hisao Tamaki[13]提出了LSA(Latent Semantic Analysis)模型,利用詞匯的潛在語義進行分析,可有效收集詞匯的全局統(tǒng)計信息,但LSA模型不能捕捉到詞的上下文信息,導致詞匯語義表達能力欠缺;Mikolov [14]等在2013年提出了 Word2Vec 模型, 精簡了神經(jīng)網(wǎng)絡的隱藏層[15],使詞向量訓練效率比傳統(tǒng)的神經(jīng)網(wǎng)絡模型得到了大幅的提升, 但此模型基于局部窗口信息訓練詞匯,并沒有考慮詞匯全局的統(tǒng)計信息;斯坦福NLP(Natural Language Processing)小組[16]在2014年提出一種新的詞匯表征方法——GloVe(Global Vectors for Word Representation)模型, 它結合了Word2Vec以及LSA模型的優(yōu)點,訓練出的詞匯向量不僅可以有效捕捉到詞匯的語義特性,比如詞語間的相似性、類比性等,而且能兼顧詞匯在全局的統(tǒng)計信息,使得表達更加準確。

        聚類是尋找社會網(wǎng)絡中社團結構的算法,它基于各個節(jié)點之間連接的相似性或者強度,把網(wǎng)絡自然地劃分為各個子群[2],目前聚類分析的主要方法可以概括為兩大類:一類是層次聚類算法和派系過濾算法,如Newman快速算法[17]和GN分裂算法[18],另一類是基于圖論的算法,如隨機游走算法、譜評分法等。在復雜網(wǎng)絡的社區(qū)劃分中,應用最為廣泛的是基于模塊度優(yōu)化的社區(qū)發(fā)現(xiàn)算法,Newman快速算法和GN分裂算法為其中經(jīng)典的代表,但這兩種算法在處理大規(guī)模社區(qū)網(wǎng)絡時,效率往往不高。Vincent D. Blondel等[19]在2008年基于Newman快速算法進行修改,提出了基于模塊度優(yōu)化的啟發(fā)式Louvain算法,有效提高了社區(qū)劃分的效率和準確性,該算法也成為大多數(shù)知識圖譜網(wǎng)絡分析軟件的基礎算法。

        2 基于GloVe-WMD語義加權的引文網(wǎng)絡社區(qū)劃分基本思想

        引文網(wǎng)絡假設是一個多學科交叉的大型社區(qū)網(wǎng)絡,不同領域的文獻雖然存在著引用關系,但內容相似度較低,而同領域的文獻內容相似度較高。傳統(tǒng)的引文網(wǎng)絡把文獻之間的鏈接關系看作是等價的,利用文獻之間的相似度并結合它們之間的鏈接關系對網(wǎng)絡中的邊進行賦權,通過社區(qū)發(fā)現(xiàn)算法可以提煉出有價值的簇。

        基本思路可以分為以下4個階段:①搜集原始數(shù)據(jù),把文獻的標題、摘要及關鍵詞組成短文本并進行文本預處理。②利用Glove模型得出全局詞匯的n維詞向量(度量詞匯之間的相似性);由BOW(詞袋模型)匯總每一篇文檔詞匯的詞頻,利用TF-IDF以及文本的內容及結構特征對詞匯賦權(表示其重要性程度),構建VSM(向量空間模型)。③通過WMD計算出文獻的相似度作為權重代入引文網(wǎng)絡。④利用Louvain算法對加權后的網(wǎng)絡進行社區(qū)發(fā)現(xiàn)與評估。具體流程如圖1所示。

        3 GloVe-WMD語義加權模型的實現(xiàn)

        GloVe詞匯模型結合了全局“文檔-詞匯”矩陣分解方法(LSA算法為代表)以及局部文本框捕捉方法(word2vec為代表)二者的優(yōu)點,利用全局詞匯共現(xiàn)矩陣作為訓練數(shù)據(jù),將每個詞映射成 n維實數(shù)向量,通過設置文本信息框的寬度,可獲得詞匯數(shù)據(jù)更加深層次的特征表示[20]。其GloVe模型的核心思想是利用詞與詞之間共現(xiàn)的統(tǒng)計數(shù)據(jù)來構造詞向量。

        3.1 GloVe全局詞匯向量模型

        3.2 詞匯賦權方法

        在構造向量空間(VSM)時需要對詞匯進行賦權,傳統(tǒng)的布爾值賦權法選擇用詞頻信息作為詞匯的權重,但會忽略詞匯的內在性質,無法區(qū)分出對文檔真正具有代表性的詞匯。本研究選擇時下流行的TF-IDF(Term Frequency–Inverse Document Frequency)加權方法,它可以有效衡量詞匯對文檔的區(qū)分能力。TF表示詞匯在文檔中出現(xiàn)的頻率,IDF表示詞匯對文檔的重要程度,其方法的基本思想為,詞匯的重要程度與它在文檔中出現(xiàn)的頻率呈正比,但同時與其在全局詞匯庫中出現(xiàn)的次數(shù)呈反比。TF-IDF權重法能夠有效過濾掉生活中的常用噪聲詞匯,而給真正對文檔具有代表能力的詞匯賦予更高的權重。TF-IDF權重值由兩部分乘積所得,目前常用的有效公式為:

        在學術文獻中,詞匯的重要程度與其出現(xiàn)的位置關系十分緊密,文獻的標題、摘要及關鍵詞在某種程度上可以表達文獻的核心內容,為了簡化計算,提升模型效率,只考慮詞匯在這三種位置不同的重要程度。研究表明,標題是文獻內容的高度概括,重要程度一般為最高,關鍵詞是作者對整篇文獻核心的提煉,重要程度次之,摘要為文獻內容的簡練表達,重要程度放在最后,綜上所述,對三個位置出現(xiàn)的詞匯分別進行如下加權處理:

        3.3 構建語義加權引文網(wǎng)絡

        引文網(wǎng)絡是根據(jù)文獻之間的引用關系構建,而網(wǎng)絡中邊的關系權重是由文獻之間的相似度確定的。DOI(Digital Object Unique Identifier,DOI)為文獻的唯一標識符,在收集的原始數(shù)據(jù)集中,對每篇文獻的DOI及引用的參考文獻的DOI進行匹配,從而可以確定文獻之間的引用關系,而文獻之間的引用關系涉及到知識流動的方向,故本研究默認引文網(wǎng)絡為有向的加權網(wǎng)絡。

        文獻間的相似度的主要計算方式為WMD模型,WMD(Word Movers Distance)是Matt J. Kusner[21]在2015年提出的一種文本相似度量方法,通過計算一篇文檔所有的詞匯“移動”到另一篇文檔所有詞匯的最小距離總和表示詞移距離,轉移示意圖如圖2所示。

        利用上節(jié)中得到的詞匯向量計算詞匯之間的距離,記為distance,根據(jù)示意圖,文檔1到文檔2的距離為:distance(詞匯1->詞匯5)+distance(詞匯2->詞匯7)+…但實際情況中,詞匯往往不是一一對應的,為了解決這一問題,WMD采用文檔的每個詞匯以不同的權重轉移到另一篇文檔中的所有詞匯中的方式,由另一篇文檔中的所有詞負責分配該詞的權重,那么“詞匯1”轉移到文檔2的距離則變?yōu)椋?/p>

        4 社區(qū)劃分方法及評估

        Louvain社區(qū)發(fā)現(xiàn)算法[19]是基于Newman快速算法改進而來,其核心是層次聚類,目標是最大化社區(qū)網(wǎng)絡的模塊度。社區(qū)網(wǎng)絡的模塊度是衡量社區(qū)劃分優(yōu)劣的一個重要指標,其取值在[-1,1]區(qū)間內,在實際應用中模塊度的取值一般在0.3~0.7之間,其主要思想是測量社區(qū)內節(jié)點的鏈接密度與社區(qū)之間的鏈接密度。其公式定義為:

        Lovain算法的基本流程如下:①所有的節(jié)點視為一個社區(qū);②依次嘗試把節(jié)點i劃分到相鄰的社區(qū),分別計算前后的模塊度值,用分配后的模塊度值與分配之前的模塊度做差得到? ? ? ,如果? ? ? ? ? ? ?,即差為正值時,則接受此次劃分,否則拒絕;③重復第二步直至所有的節(jié)點不再變化;④把第三步劃分的社區(qū)重新視為一個節(jié)點,繼續(xù)執(zhí)行②-③,直至社區(qū)結構不再改變。

        5 數(shù)據(jù)驗證及測評結果分析

        5.1 獲取原始數(shù)據(jù)及文本預處理

        為了驗證基于GloVe-WMD語義加權的引文網(wǎng)絡的社區(qū)劃分效果,本文選取WOS(Web Of Science)核心庫中收錄的期刊文獻作為原始數(shù)據(jù),檢索以“5G”為關鍵詞的論文,以“領域中的高被引論文”及“領域中的熱點論文”為過濾條件,時間跨度為2011—2019年,共檢索出有相互引用關系的論文2095篇。保留文獻記錄文件的DI(DOI),TI(題目),DE(關鍵詞),AB(摘要),CR(參考文獻)五個字段,DI與CR中的DOI依次匹配可得到論文的引用關系,TI、DE和AB三個字段組成短文本,作為文獻的信息來源。剔除無摘要,無關鍵詞及無引用關系的孤立點,剩余文獻1591篇,共存在11 519條引用關系。

        在進行文本分析之前,首先建立詞袋模型(Bag Of Words,BOW),然后對文本進行預處理,包括分詞、大寫轉小寫、去停用詞以及詞干提取。部分處理結果如表1所示。

        5.2 訓練詞匯向量及文本相似度計算

        通過詞袋模型建立“文檔-詞匯”矩陣和詞匯共現(xiàn)矩陣,然后利用GloVe模型訓練詞匯向量,研究表明,詞匯向量的維度在100~280維之間,可以高效準確的表達詞匯的語義,但隨著維度的增大,模型的效率會大幅下降,故在考慮準確性的同時,兼顧模型的計算效率,本文設定詞匯向量的維度為200維,經(jīng)過50次迭代計算得出詞匯向量。

        文本相似度的計算同樣是借助“文檔-詞匯”矩陣,根據(jù)矩陣構建VSM模型,結合“TFIDF-位置參數(shù)”對VSM模型加權,每個文檔組成一個向量空間,利用WMD模型計算文獻之間的相似度,并作為權重對引文網(wǎng)絡中的邊賦值。

        5.3 社區(qū)劃分結果及分析

        5.3.1 文本相似度分析

        在相同的數(shù)據(jù)集上,分別采用傳統(tǒng)的基于TF-IDF加權的One-Hot-Representation模型(圖3a)以及基于GloVe-WMD語義加權模型(圖3b)計算文本之間的相似度。

        由分布圖可以看出基于TF-IDF加權的One-Hot-Representation模型求出的文檔之間的相似度大部分集中在0~0.2之間,相似度為0的成對論文在1500對以上。經(jīng)過分析,主要是由于短文本的“文檔-詞匯”矩陣的高度稀疏性,在利用該模型計算文本之間的相似度時,如果兩篇文檔之間詞匯重復度非常低或者沒有重復詞匯,即使表達的是相同的語義,也會被認為完全不相似。而基于GloVe-WMD語義加權模型求得的相似度分布大多集中在0.3~0.6之間,接近正態(tài)分布,由于原始文本數(shù)據(jù)通過檢索某一關鍵詞所得,所以后者的文獻相似度分布更接近實際情況。

        5.3.2 社區(qū)劃分分析

        Gephi是基于JVM開發(fā)的一款開源免費的社區(qū)網(wǎng)絡分析工具,基于Louvain算法,適用于各種網(wǎng)絡和復雜系統(tǒng)的社區(qū)劃分和可視化。為了進一步驗證模型的有效性,利用Gephi分別對無權重的引文網(wǎng)絡、基于TF-IDF的One-Hot-Representation的引文網(wǎng)絡以及基于GloVe-WMD語義加權引文網(wǎng)絡進行社區(qū)劃分,并比較三者的模塊度(Q函數(shù)值),對比結果如表2所示。

        由表2可知,OneHotRepresentation-TFIDF模型社區(qū)劃分與其他兩個差別明顯,社區(qū)個數(shù)達到30個,主要是因為該模型在計算文本相似度的過程中,沒有重復詞匯的文檔之間相似度為0,而把相似度作為權重代入引文網(wǎng)絡,則會造成大量的權重為0的引用關系被忽略。對比發(fā)現(xiàn),原始的無權網(wǎng)絡與基于GloVe-WMD的語義加權網(wǎng)絡在社區(qū)劃分的個數(shù)上沒有變化,但模塊度值由0.572上升到0.653,聚類效果提升明顯。

        為了深入驗證模型具體效果,選取具有代表性的節(jié)點觀察前后變化。度,代表網(wǎng)絡中與節(jié)點直接相連的邊的數(shù)目,是衡量單個節(jié)點重要性的指標。為了便于觀察分析,本研究選取度為30以上的節(jié)點進行展現(xiàn),OneHotRepresentation-TFIDF模型造成大量引用關系丟失,不具有參考價值,故只對無權引文網(wǎng)絡和基于GloVe-WMD語義加權引文網(wǎng)絡進行對比。加權前后的社區(qū)劃分如圖4所示。

        圖4中每個節(jié)點代表一篇文獻,密集的節(jié)點組團代表一個社區(qū),由圖4可以看出社團大致結構基本相似,但具體的節(jié)點在社區(qū)歸屬上產(chǎn)生了改變,由于截選了度大于30的節(jié)點展現(xiàn)網(wǎng)絡圖,所以圖4中每個點的變化都會引起全局網(wǎng)絡圖中大量與該點相連的節(jié)點社團歸屬發(fā)生相應的改變。為了驗證模型的可靠性,通過主題、關鍵詞共現(xiàn)得出每個社團的高頻詞分布,并隨機選取5個前后變化的節(jié)點進行分析,部分展示結果如表3、表4所示。

        再進一步通過人工分析,發(fā)現(xiàn)節(jié)點n73、n183、n302、n480和n642在兩種不同的網(wǎng)絡模型所處社區(qū)發(fā)生改變。由表3得知,社區(qū)1主要涉及領域為5G通信、毫米波、信道以及移動網(wǎng)絡;社區(qū)2為物聯(lián)網(wǎng)和智能設備的應用和可靠性研究;社區(qū)3的主題為云計算、霧計算和邊緣計算等相關技術;社區(qū)4是對第五代通信技術NOMA(非正交多址接入)的技術研究;社區(qū)5主要集中了第五代通信技術的應用,包括NOMA、中繼網(wǎng)絡、中繼選擇和功率傳遞等技術的優(yōu)化,社區(qū)6為5G編碼及相關算法優(yōu)化的集合。對比表3和表4不難發(fā)現(xiàn),文獻n73和n480的主題是移動邊緣計算的優(yōu)化及應用,理應劃分到第3個社區(qū);文獻n183和n642是關于邊緣計算、云計算等技術在物聯(lián)網(wǎng)及智慧家居方面的應用,應該劃分為社區(qū)2;n302是關于毫米波在非正交多址系統(tǒng)中的應用,側重于毫米波的研究,故應劃分為社區(qū)1。

        綜上所述,基于GloVe-WMD語義加權模型在進行社區(qū)劃分時更加準確,模塊度也有所提高,而且不受文本長短的制約,適用范圍更廣泛,無論從定量分析和定性分析兩方面都比傳統(tǒng)的模型更有優(yōu)勢。

        6 結語

        基于GloVe-WMD語義加權模型對比傳統(tǒng)的無權引文網(wǎng)絡以及基于OneHotRepresentation-TFIDF模型加入了詞匯語義這一重要信息,并綜合考慮了詞匯的位置信息,提高了模型在短文本分析中的適用性以及社區(qū)劃分的準確度。

        引文網(wǎng)絡可以很好地反映學科的研究背景、熱門領域以及未來的學術發(fā)展方向,隨著社會的發(fā)展,技術及知識更新日新月異,引文網(wǎng)絡的應用將變得更加廣泛。當前涉及到引文網(wǎng)絡的社區(qū)劃分仍然存在很多值得探討的問題,比如,本文提出的GloVe-WMD語義加權模型僅僅局限于詞匯這一層面,但一篇文獻詞匯、句子與段落的語義關系都是相互關聯(lián)的,如何更好地處理三者之間的關系也是值得探討的研究方向;其次,文獻作者在知識圖譜中也包含豐富的信息,如果能對文獻作者進行準確的劃分并與引文網(wǎng)絡相結合,不僅可以提高準確度,而且有利于對學科發(fā)展進行更深層次的研究。

        CHUNG F.Graph theory in the information age[J]. Noticesof the American Mathematical Society,2010,57(6):726-732.

        BOWER D F.Six degrees:the science of a connected age[J]. Reflections,2005,61(1):93.

        章成志,師慶輝,薛德軍. 基于樣本加權的文本聚類算法研究[J]. 情報學報,2008,27(1):42-48.HINRICH SCHüTZE. Automatic word sense discrimination[J]. Computational Linguistics,1998,24(1):97-123.SALALTON G . Automatic text analysis.[J]. Science,1970,168(3929):335-343.

        魏建香,蘇新寧.基于關鍵詞和摘要相關度的文獻聚類研究[J]. 情報學報, 2009, 28(2):220-224.

        謝翠香.基于改進向量空間模型的學術論文相似性辨別系統(tǒng)設計[J]. 電腦知識與技術,2009,5(19):5103-5105.

        劉勘,周麗紅,陳譞.基于關鍵詞的科技文獻聚類研究[J]. 圖書情報工作,2012,56(4):6-11.

        肖雪,王釗偉,陳云偉,等.基于樣本加權的引文網(wǎng)絡的社團劃分[J].圖書情報工作,2016,60(20):86-93.

        廖開際,楊彬彬.基于加權語義網(wǎng)的文本相似度計算的研究[J].情報雜志,2012,31(7):182-186.

        RUMELHERT D E , HINTON G E , WILLIAMS R J . Learning representations by back propagating errors[J]. Nature, 1986, 323(10):533-536.

        蔡永明,長青.共詞網(wǎng)絡LDA模型的中文短文本主題分析[J].情報學報,2018,37(3):305-317.LANDAUER T K , FOLTZ? P W , LAHAM D.An introductionto latent semantic analysis[J]. Discourse Processes, 1998, 25(2):259-284.

        MIKOLOV T,CHEN K,CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science,2013,65(9):78-94.

        吉久明, 施陳煒,李楠,等. 基于GloVe詞向量的“技術:應用”發(fā)現(xiàn)研究[J]. 現(xiàn)代情報, 2019, 39(4):14-23.

        PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]// Conference on Empirical Methods in Natural Language Processing,2014: 1532-1543.

        NEWMAN M E J . Fast algorithm for detecting community structure in networks[J]. Phys Rev E Stat Nonlin Soft Matter Phys, 2003, 69(6 ):66-87.

        GIVAN M, NEWMAN M E J. Community structure in social and biological networks[J]. Proc Natl Acad Sci USA,2002,99(1),21-26.

        BLONDEL V D , GUILLAUME J L , LAMBIOTTE R , et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 78(10):56-69.

        林江豪,周詠梅,陽愛民,等.結合詞向量和聚類算法的新聞評論話題演進分析[J].計算機工程與科學,2016,38(11):2368-2374.

        KUSNER M J, SUN Y, KOLKIN N I, et al. From word embeddings to document distances[C]// International Conference on International Conference on Machine Learning. 2015.

        猜你喜歡
        文本挖掘
        基于貝葉斯分類器的中文垃圾短信辨識
        科技資訊(2017年5期)2017-04-12 15:18:52
        基于潛在特征的汽車評論要素挖掘
        基于評論信息的淘寶服裝類評分體系優(yōu)化
        商情(2016年32期)2017-03-04 00:27:28
        數(shù)據(jù)挖掘技術在電站設備故障分析中的應用
        軟件導刊(2016年12期)2017-01-21 15:55:21
        基于LDA模型的95598熱點業(yè)務工單挖掘分析
        文本數(shù)據(jù)挖掘在電子商務網(wǎng)站個性化推薦中的應用
        商(2016年34期)2016-11-24 16:28:51
        從《遠程教育》35年載文看遠程教育研究趨勢
        基于文獻的中西醫(yī)結合治療腦梗死藥物使用情況分析
        基于改進Hadoop云平臺的海量文本數(shù)據(jù)挖掘
        慧眼識璞玉,妙手煉渾金
        亚洲第一狼人天堂网亚洲av| 女女同性av一区二区三区免费看| 中国黄色偷拍视频二区| 亚洲精品乱码久久久久久 | 青青草97国产精品免费观看| 人妻无码一区二区在线影院| 国产精品丝袜一区二区三区在线| 久久av粉嫩一区二区| 巨人精品福利官方导航| 狠狠爱无码一区二区三区| 太大太粗太爽免费视频| 人妖国产视频一区二区| 蜜臀av午夜一区二区三区| chinesefreexxxx国产麻豆| 蜜桃av多人一区二区三区| 亚洲精品久久蜜桃av| 国内精品人妻无码久久久影院| 亚洲欧美日韩中文天堂| 国产精品国产三级国产一地 | 亚洲色图综合免费视频| 成人性生交大片免费看i| 国产成人无码精品久久久免费| 男男受被攻做哭娇喘声视频| 91久久精品无码人妻系列| 欧美日韩人妻| 亚洲熟妇网| 日韩精品一区二区三区免费观影| 日韩精品人妻久久久一二三 | 欧美亚洲另类 丝袜综合网| 麻婆视频在线免费观看| 亚洲人成77777在线播放网站| 久久6国产| 日本高清在线一区二区| 亚洲综合欧美色五月俺也去| 国产高潮国产高潮久久久| 日韩欧美亚洲国产一区二区三区| 亚洲第一女人的天堂av| 无码国产69精品久久久久孕妇| 日韩成人免费一级毛片| 久久老熟女乱色一区二区| 久久国产人妻一区二区|