亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Canopy+K-means的中文文本聚類算法*

        2018-06-06 08:42:19牟向偉
        圖書(shū)館論壇 2018年6期
        關(guān)鍵詞:文本模型

        張 琳,牟向偉

        0 引言

        互聯(lián)網(wǎng)的普及使得在線電子文本資源劇增,也使文本成為信息傳播的主要載體。文本數(shù)據(jù)是一種半結(jié)構(gòu)化數(shù)據(jù),具有高維、數(shù)據(jù)量大、與上下文相關(guān),甚至存在一詞多義或多詞一義等特點(diǎn)。所以,與結(jié)構(gòu)化數(shù)據(jù)相比,文本數(shù)據(jù)大大增加了數(shù)據(jù)處理和知識(shí)發(fā)現(xiàn)的難度。因此,如何對(duì)網(wǎng)上的文本數(shù)據(jù)進(jìn)行快速、有效的分析,并挖掘其中隱藏的價(jià)值是一個(gè)亟待解決的問(wèn)題。文本聚類是解決這個(gè)問(wèn)題的一種可行方法。

        文本聚類是文本挖掘過(guò)程的一項(xiàng)關(guān)鍵技術(shù),它根據(jù)一定的標(biāo)準(zhǔn)通過(guò)將文本劃分到有意義的幾個(gè)簇中,使同一個(gè)簇中文本之間的相似度高于不同簇間文本之間的相似度[1],從而實(shí)現(xiàn)對(duì)文本信息的有效組織和管理。有效的文本聚類可以幫助人們更好地理解和導(dǎo)航信息檢索工具的檢索結(jié)果[2],例如在信息檢索領(lǐng)域,Scatter/Gather[3]系統(tǒng)通過(guò)采用非監(jiān)督式的聚類方法(如K-m eans)對(duì)搜索結(jié)果進(jìn)行劃分來(lái)幫助用戶理解和消化檢索結(jié)果;可以為用戶根據(jù)實(shí)際需要深入挖掘某一特定主題提供自由[4];可以促進(jìn)引文分析,自動(dòng)文摘,科技信息檢索等研究的發(fā)展[5],等等。

        文本聚類技術(shù)發(fā)展迅速,相應(yīng)地產(chǎn)生了很多聚類算法。這些算法大致可分為兩類:基于劃分的方法和基于層次的方法[6]。在這些聚類方法中,應(yīng)用最廣泛的是以劃分為基礎(chǔ)的K-m eans算法。K-m eans算法在聚類時(shí)需要事先指定簇的個(gè)數(shù)k和k個(gè)初始中心點(diǎn),但往往我們無(wú)法預(yù)先確定簇的個(gè)數(shù)并選擇合適的初始聚類中心,這會(huì)導(dǎo)致K-m eans聚類的誤差很大,甚至可能陷入局部最優(yōu)。針對(duì)K-m eans算法這兩方面的不足,不同學(xué)者從不同角度對(duì)其進(jìn)行了改進(jìn)。

        例如,針對(duì)K-m eans初始聚類中心隨機(jī)選擇的問(wèn)題,文獻(xiàn)[7]提出了一種基于LDA主題概率模型的初始聚類中心選擇算法,即先從文本集中選擇m個(gè)主題,并在這m個(gè)主題所在的維度上對(duì)文本集進(jìn)行初步聚類,得到k個(gè)聚類中心后,再以這k個(gè)聚類中心為初始聚類中心對(duì)文本集在所有維度上進(jìn)行聚類;文獻(xiàn)[8]通過(guò)不斷尋找最大聚類(即包含數(shù)據(jù)對(duì)象最大的一個(gè)類),并利用最大聚類中距離最大的兩個(gè)數(shù)據(jù)對(duì)象作為聚類中心對(duì)數(shù)據(jù)集進(jìn)行劃分,如此反復(fù),直到找出k個(gè)聚類中心為止;文獻(xiàn)[9]則通過(guò)引入密度和最近鄰的思想,提出了初始聚類中心選擇算法,該算法提高了K-m eans算法的聚類質(zhì)量和穩(wěn)定性。針對(duì)K-m eans無(wú)法預(yù)先確定k值的問(wèn)題,文獻(xiàn)[10]通過(guò)樣本數(shù)據(jù)分層來(lái)確定算法的聚類范圍,并利用類內(nèi)、類間夾角余弦值的比值作為聚類有效性指標(biāo),從而在聚類數(shù)范圍內(nèi)獲得最佳聚類數(shù)。與同類算法相比,該算法的運(yùn)行效率較高,能夠得到良好的聚類效果;文獻(xiàn)[11]根據(jù)類內(nèi)相似度最大差異度最小和類間差異度最大相似度最小的原則,提出了一種基于距離評(píng)價(jià)函數(shù)的k值檢驗(yàn)方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了算法的有效性;文獻(xiàn)[12]利用二分思想遞歸分裂簇內(nèi)相似度大于給定閾值的簇,通過(guò)合并簇間相似度小于給定閾值的簇來(lái)獲得最終聚類數(shù)目。

        上述研究都是針對(duì)K-m eans某一方面的問(wèn)題進(jìn)行的改進(jìn)。為了提高K-m eans算法的聚類效果,本文在對(duì)中文文本進(jìn)行聚類時(shí),采用Canopy和K-m eans相結(jié)合的聚類算法,將Canopy聚類作為K-m eans聚類的前奏,為K-m eans提供k值和初始聚類中心點(diǎn)。

        1 文本預(yù)處理

        1.1 基于Word2vec的詞語(yǔ)相似度計(jì)算

        W ord2vec是谷歌在2013年開(kāi)源的一款語(yǔ)言建模工具,它以文本集為輸入,通過(guò)訓(xùn)練生成每個(gè)詞對(duì)應(yīng)的詞向量。這些詞向量可以作為詞的特征應(yīng)用到一些自然語(yǔ)言處理問(wèn)題中,比如中文分詞、尋找同義詞、進(jìn)行詞性分析,等等[13]。W ord2vec實(shí)現(xiàn)了兩種訓(xùn)練模型CBOW(Continuous Bag-O f-W ords)和Skip-gram模型[14],如圖1所示。其中,CBOW模型是通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞出現(xiàn)的概率;Skip-gram模型與CBOW模型相反,它是通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)其上下文詞語(yǔ)出現(xiàn)的概率。為了提高詞向量的訓(xùn)練效率,W ord2vec提供了兩種詞向量?jī)?yōu)化模型,分別是Hierarchy Softm ax模型和Negative Sam pling模型。

        本文采用搜狗實(shí)驗(yàn)室提供的全網(wǎng)新聞?wù)Z料(http://www.sogou.com/labs/resource/ca.php,該語(yǔ)料包含若干新聞?wù)军c(diǎn)2012年6~7月間國(guó)內(nèi)、國(guó)際、體育、社會(huì)和娛樂(lè)等18個(gè)頻道的新聞數(shù)據(jù))訓(xùn)練Word2vec模型,并利用訓(xùn)練好的模型獲得某一個(gè)詞語(yǔ)的同義詞或近義詞。具體步驟包括:

        (1)獲取所有新聞<content></content>標(biāo)簽之間的內(nèi)容。

        (2)采用 NLPIR2016工具(http://ictclas.nlpir.org/)進(jìn)行分詞,并對(duì)分詞結(jié)果進(jìn)行停用詞過(guò)濾和詞性標(biāo)注,保留名詞、動(dòng)詞和形容詞,同時(shí)刪除分詞結(jié)果中僅有一個(gè)字的詞語(yǔ),最后將得到的所有詞語(yǔ)以空格隔開(kāi)。

        (3)執(zhí)行w ord2vec-train命令,采用Skipgram訓(xùn)練模型和Hierarchy Softm ax優(yōu)化模型對(duì)分好詞的訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,得到詞向量,進(jìn)而得到詞典D的詞匯相似矩陣。

        (4)利用訓(xùn)練好的Word2vec模型,獲得某一個(gè)詞語(yǔ)的同義詞或近義詞。方法是:輸入詞語(yǔ),獲得該詞語(yǔ)在詞典D中的詞向量表征,然后遍歷詞典D,通過(guò)向量夾角余弦公式計(jì)算該詞向量與詞典D中其他詞向量之間的相似度,從而可以得到詞典D中與該詞語(yǔ)最相似的top N個(gè)詞語(yǔ)。

        1.2 特征詞權(quán)重計(jì)算

        TF-IDF(Term Frequency-Inverse Docum ent Frequency)[15]是一種應(yīng)用較為廣泛的權(quán)值計(jì)算方法。其中,TF指的是詞頻,IDF指的是逆向文檔頻率。TF-IDF的基本思想是:如果某個(gè)詞項(xiàng)或短語(yǔ)在某篇文檔中頻繁出現(xiàn)(TF很高),但是在文本集的其他文檔中甚少出現(xiàn)(IDF很高),那么這個(gè)詞項(xiàng)或短語(yǔ)對(duì)這篇文檔具有很好的辨識(shí)能力。對(duì)于這樣的詞項(xiàng)、短語(yǔ),我們應(yīng)該賦予較高的權(quán)重。相反,如果某個(gè)詞項(xiàng)或短語(yǔ)在文本集的大多數(shù)文檔中出現(xiàn)的頻率都很高,那么根據(jù)這個(gè)詞項(xiàng)或短語(yǔ)很難將包含它的多篇文檔區(qū)分開(kāi)來(lái)。因此,對(duì)于這樣的詞項(xiàng)或短語(yǔ),我們應(yīng)該賦予較低的權(quán)重。

        TF-IDF的基本形式如式(1)所示:

        其中,wt,D表示詞項(xiàng)t在文檔D中的權(quán)重;tft,D表示詞項(xiàng)t在文檔D中出現(xiàn)的頻次;N表示文檔集的大??;dft表示包含詞項(xiàng)t的文檔總數(shù)。本文根據(jù)式(2)對(duì)出現(xiàn)頻次tf進(jìn)行歸一化表示,其中,doc_length表示文檔長(zhǎng)度。

        1.3 文本表示

        最常用的文本表示方法是基于向量空間模型的方法。向量空間模型的基本思想[16]是:每一篇文檔都可以被表示成一個(gè)由預(yù)先規(guī)定好詞序的多個(gè)詞項(xiàng)組成的高維空間的一個(gè)向量。規(guī)定好次序的詞項(xiàng)可以看作是向量空間的維度,詞項(xiàng)的個(gè)數(shù)決定向量的維數(shù),詞項(xiàng)的權(quán)重則表示詞項(xiàng)在文檔中的重要程度,可以看作是向量在高維空間某一維上的取值。

        基于向量空間模型可以將每一篇文檔表示成如式(3)所示的向量形式:

        其中,D表示一篇文檔;m表示向量的維數(shù),其大小由文本集中不同的詞項(xiàng)個(gè)數(shù)決定;ti表示文本集中的一個(gè)詞項(xiàng);W ti,D表示詞項(xiàng)ti在文檔D中的權(quán)重(即重要性)。

        2 Canopy+K-means算法

        2.1 Canopy算法

        Canopy算法是一種快速近似的聚類技術(shù)。它的優(yōu)勢(shì)在于得到簇的速度非常快,只需遍歷一次數(shù)據(jù)即可得到結(jié)果,正因?yàn)槿绱耍珻anopy算法無(wú)法給出精準(zhǔn)的簇結(jié)果[17]。

        Canopy算法的基本流程如下[18]:

        (1)確定Canopy的兩個(gè)距離閾值,即T1和T2,其中T1>T2。

        (2)從數(shù)據(jù)集中任取一個(gè)數(shù)據(jù)對(duì)象,計(jì)算它與所有Canopy中心之間的距離。

        (3)如果當(dāng)前不存在Canopy,則把該數(shù)據(jù)對(duì)象作為一個(gè)Canopy中心,并將它從數(shù)據(jù)集中刪除。否則,轉(zhuǎn)(4)。

        (4)如果該數(shù)據(jù)對(duì)象到某個(gè)Canopy中心的距離在T2以內(nèi),則把它添加到這個(gè)Canopy中,同時(shí)將它從數(shù)據(jù)集中刪除。因?yàn)樵摂?shù)據(jù)對(duì)象與此Canopy距離很近,因此它不可以再作為其他 Canopy中心。

        (5)如果該數(shù)據(jù)對(duì)象到某個(gè)Canopy中心的距離在T2以外T1以內(nèi),同樣把該數(shù)據(jù)對(duì)象添加到這個(gè)Canopy中,但是此時(shí)并不從數(shù)據(jù)集中刪除這個(gè)數(shù)據(jù)對(duì)象。也就是說(shuō),這個(gè)數(shù)據(jù)對(duì)象將參與下一輪的聚類過(guò)程。

        (6)如果該數(shù)據(jù)對(duì)象到所有Canopy中心的距離都在T1以外,則把它作為一個(gè)Canopy中心,同時(shí)將它從數(shù)據(jù)集中刪除。

        (7)重復(fù)迭代(2)到(6),直到數(shù)據(jù)集中所有數(shù)據(jù)對(duì)象都劃分到了相應(yīng)的Canopy。

        2.2 K-means算法

        K-m eans算法的核心思想是,通過(guò)迭代把所有數(shù)據(jù)對(duì)象劃分到k個(gè)不同的簇中,以使簇內(nèi)對(duì)象具有較高的相似度,而各個(gè)簇之間的對(duì)象具有較低的相似度。

        K-m eans算法的基本流程如下[19]:

        (1)輸入數(shù)據(jù)集D和要?jiǎng)澐值拇氐臄?shù)目k。

        (2)從D中任意選擇k個(gè)對(duì)象作為初始簇中心。

        (3)計(jì)算簇中任一對(duì)象到各個(gè)簇中心的距離,將其分配到距離最近的簇中心所在的簇。

        (4)重新計(jì)算每個(gè)簇中所有數(shù)據(jù)對(duì)象的平均值,將其作為新的簇中心。

        (5)重復(fù)(3)(4),直到簇心不發(fā)生改變或者達(dá)到最大迭代次數(shù)。

        2.3 Canopy+K-means算法

        圖2 Canopy+K-means算法的聚類流程

        在基于向量空間模型將文本表示成一個(gè)由特征詞TF-IDF權(quán)值表示的特征向量后,本文采用余弦公式衡量文本之間的相似度。在進(jìn)行Canopy“粗”聚類時(shí),設(shè)定T1<T2,且設(shè)置T1和T2的取值都與文本集中所有文本的平均相似度相關(guān)。另外,為了防止Canopy中心點(diǎn)選取過(guò)密而導(dǎo)致算法陷入局部最優(yōu),本文選擇離所有樣本點(diǎn)的中心最近的一個(gè)樣本作為第一個(gè)Canopy中心。Canopy+K-m eans算法的聚類流程如圖2所示。

        總的來(lái)說(shuō),在對(duì)中文文本進(jìn)行聚類時(shí),為了解決K-m eans算法無(wú)法預(yù)先確定聚類數(shù)目和隨機(jī)選擇初始聚類中心點(diǎn)的問(wèn)題,本文先使用Canopy算法對(duì)數(shù)據(jù)集進(jìn)行“粗”聚類,在得到k值后,再使用K-m eans算法進(jìn)行“細(xì)”聚類,并且將Canopy算法選擇出來(lái)的每個(gè)Canopy的近似中心位置作為K-m eans的初始中心點(diǎn),以此來(lái)提高K-m eans算法的聚類效果。

        3 文本聚類結(jié)果評(píng)價(jià)

        對(duì)聚類算法進(jìn)行評(píng)價(jià)主要可以采用三類有效性評(píng)價(jià)準(zhǔn)則[20]:內(nèi)部準(zhǔn)則、外部準(zhǔn)則和相對(duì)準(zhǔn)則。本文主要采用四種外部評(píng)價(jià)準(zhǔn)則[21]對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià)。

        (1)純度(purity):是一個(gè)簡(jiǎn)單、明晰的評(píng)價(jià)指標(biāo),它將每個(gè)簇分配給該簇中出現(xiàn)數(shù)目最多的文檔所在的類別,并通過(guò)正確分配的文檔數(shù)除以文檔總數(shù)N得到聚類的精度。purity的計(jì)算方法如式(4)所示。

        其中,Ω={W1,W2,…,WK}是聚類的結(jié)果,C={C1,C2,…,CJ}是類別集合,Wk(k=1,2,…,K)和Cj(j=1,2,…,J)是由文檔組成的文檔集合。

        (2)準(zhǔn)確率(precision):衡量的是每個(gè)簇中某一特定類別的對(duì)象所占的比例。其計(jì)算方法如式(5)所示。

        其中,TP(True-positive,真陽(yáng)性)指的是將兩篇相似文檔正確歸入同一個(gè)簇的決策;FP(False-positive,假陽(yáng)性)指的是將兩篇不相似文檔錯(cuò)誤歸入同一簇的決策。

        (3)召回率(recall):衡量的是每個(gè)簇包含某個(gè)特定類別的所有對(duì)象的程度。其計(jì)算方法如式(6)所示。

        其中,F(xiàn)N(False-negative,假陰性)指的是將兩篇相似文檔歸入不同簇的決策。

        (4)F-M easure:是一種綜合準(zhǔn)確率和召回率的聚類評(píng)價(jià)指標(biāo),其計(jì)算方法如式(7)所示。

        其中,β為調(diào)和系數(shù),一般取β=1。

        4 基于Canopy+K-means的中文文本聚類流程

        本文采用NLPIR2016對(duì)中文文本集進(jìn)行分詞和詞性標(biāo)注,并剔除了分詞結(jié)果中對(duì)文檔主旨沒(méi)有任何提示作用的停用語(yǔ),如“為何”“與其”“人們”等,以及一些數(shù)字和符號(hào)。一般而言,名詞、動(dòng)詞和形容詞是句子的重要組成成分。因此,為了抽取能夠表征文檔主要內(nèi)容的詞語(yǔ),對(duì)于停用詞過(guò)濾后的分詞結(jié)果,本文只保留名詞、動(dòng)詞和形容詞三種詞性的詞語(yǔ),去重之后將它們作為候選特征詞。

        中文詞語(yǔ)之間有時(shí)會(huì)存在“多詞一義”的情況,因此,為了降低文本向量的維度,避免給文本向量的計(jì)算造成困難,本文基于W ord2vec生成詞向量,獲得候選特征詞之間的同義詞或近義詞,同時(shí)合并同義詞或近義詞在同一篇文檔中出現(xiàn)的詞頻及在文本集中出現(xiàn)的文檔列表。

        在對(duì)文本集進(jìn)行上述預(yù)處理之后,采用向量空間模型將每一篇文檔表示成一個(gè)由特征詞TFIDF權(quán)重組成的向量形式;然后使用Canopy+K-m eans算法對(duì)文本集進(jìn)行類別劃分;最后基于純度、準(zhǔn)確率、召回率和Fvalue對(duì)聚類效果進(jìn)行評(píng)價(jià)?;贑anopy+K-m eans的中文文本聚類流程如圖3所示。

        5 實(shí)驗(yàn)

        為了驗(yàn)證Canopy+K-m eans算法的有效性,本文選取了兩個(gè)文本數(shù)據(jù)集,分別利用Canopy+K-m eans和K-m eans算法對(duì)它們進(jìn)行類別劃分,并基于purity、precision、recall和F值對(duì)這兩種算法的聚類結(jié)果進(jìn)行評(píng)價(jià)。

        圖3 基于Canopy+K-means中文文本聚類流程

        在基于Canopy+K-m eans算法進(jìn)行文本聚類時(shí),本文設(shè)置T2為文本集中所有文本的平均相似度,T1=1/2*T2。在基于傳統(tǒng)K-m eans算法進(jìn)行文本聚類時(shí),由于K-m eans算法需要預(yù)先確定k值,在實(shí)驗(yàn)中本文設(shè)定k為文本集的實(shí)際類別數(shù)。另外,由于K-m eans算法的聚類效果與初始中心點(diǎn)的選取有關(guān),因此為了更好地體現(xiàn)K-m eans算法的性能,本文在基于傳統(tǒng)K-m eans算法進(jìn)行文本聚類時(shí),重復(fù)運(yùn)行該算法100次,取100次聚類評(píng)價(jià)指標(biāo)的平均值作為K-m eans算法的性能評(píng)價(jià)。

        實(shí)驗(yàn)一:搜狗文本分類語(yǔ)料(http://www.sogou.com/labs/resource/tce.php)是一個(gè)包含汽車(chē)、財(cái)經(jīng)、IT、健康、體育等18類新聞的數(shù)據(jù)集。本文從該數(shù)據(jù)集中選取了汽車(chē)、娛樂(lè)、體育、教育、IT和財(cái)經(jīng)六個(gè)類別3600篇新聞(每個(gè)類別各600篇)作為實(shí)驗(yàn)數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)集中每篇新聞的字?jǐn)?shù)在300~2000之間,較多集中于500字左右。Canopy+K-m eans算法和K-m eans算法對(duì)該數(shù)據(jù)集的聚類結(jié)果評(píng)價(jià)如表1所示。

        表1 搜狗文本分類語(yǔ)料Canopy+K-m eans算法和K-means算法的聚類效果評(píng)價(jià)

        實(shí)驗(yàn)二:網(wǎng)易分類文本數(shù)據(jù)(http://www.datatang.com/data/11965)是一個(gè)包含運(yùn)動(dòng)、汽車(chē)、經(jīng)濟(jì)、醫(yī)藥、體育和文化六個(gè)類別的文本數(shù)據(jù)集,該數(shù)據(jù)集的每一個(gè)文本為一篇新聞,字?jǐn)?shù)在300~3000之間,較多集中于1000字左右。本文從該數(shù)據(jù)集每一個(gè)類別的新聞中各選取100條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。兩種算法對(duì)該數(shù)據(jù)集的聚類結(jié)果評(píng)價(jià)如表2所示。

        表2 網(wǎng)易分類文本數(shù)據(jù)Canopy+K-m eans算法和K-means算法的聚類效果評(píng)價(jià)

        上述兩個(gè)實(shí)驗(yàn)在設(shè)置了T1和T2后,Canopy算法將數(shù)據(jù)集劃分成了六類,為K-m eans算法提供了k值和初始聚類中心點(diǎn)。從表1和表2可以看出,無(wú)論是purity、precision、recall,還是F值,Canopy+K-m eans算法的聚類效果要明顯優(yōu)于K-m eans算法。這說(shuō)明,相比于傳統(tǒng)的K-m eans算法,Canopy+K-m eans算法除了可以自動(dòng)產(chǎn)生k值外,Canopy聚類也可以為K-m eans提供較好的初始聚類中心點(diǎn),從而使Canopy+K-m eans算法的聚類結(jié)果更接近文本的真實(shí)類別。

        6 結(jié)論

        本文針對(duì)傳統(tǒng)K-m eans算法在聚類時(shí)需要預(yù)先確定k值和聚類效果受初始聚類中心影響的問(wèn)題,將Canopy算法和K-m eans算法進(jìn)行結(jié)合得到Canopy+K-m eans算法,并將其應(yīng)用于中文文本分類中;闡述了Canopy+K-m eans算法的實(shí)現(xiàn)流程及基于Canopy+K-m eans算法的中文文本聚類步驟,并通過(guò)具體的實(shí)驗(yàn)分析了基于該算法進(jìn)行中文文本聚類的可行性。由于Canopy算法在聚類時(shí)需要確定閾值T1和T2,而T1和T2的大小會(huì)直接影響分類的準(zhǔn)確率,因此如何更好地確定T1和T2取值是本文接下來(lái)的研究重點(diǎn)。另外,實(shí)驗(yàn)也將選取更大的數(shù)據(jù)集并基于Hadoop平臺(tái)實(shí)現(xiàn)對(duì)大規(guī)模文本集的類別劃分。

        [1]曹曉.文本聚類研究綜述[J].情報(bào)探索,2016(1):131-134.

        [2]Zeng,H J,He,Q C,Chen,Z,et al.Learning to cluster web search results[C]//Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2004:210-217.

        [3]Cutting,D R,Karger,D R,Pedersen JO,etal.Scatter/gather:A cluster-based approach to browsing large document collections[C]//Proceedingsof the 15th annual international ACM SIGIR conference on Research and development in information retrieval,1992:318-329.

        [4]王小華,徐寧,諶志群.基于共詞分析的文本主題詞聚類與主題發(fā)現(xiàn)[J].情報(bào)科學(xué),2011,29(11):1621-1624.

        [5]劉遠(yuǎn)超,王曉龍,徐志明,等.文檔聚類綜述[J].中文信息學(xué)報(bào),2006,20(3):55-62.

        [6]趙世奇,劉挺,李生.一種基于主題的文本聚類方法[J].中文信息學(xué)報(bào),2007,21(2):58-62.

        [7]王春龍,張敬旭.基于LDA的改進(jìn)K-means算法在文本聚類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2014,34(1):249-254.

        [8]陳光平,王文鵬,黃俊.一種改進(jìn)初始聚類中心選擇的K-means算法[J].小型微型計(jì)算機(jī)系統(tǒng),2012,33(6):1320-1323.

        [9]張文明,吳江,袁小蛟.基于密度和最近鄰的K-means文本聚類算法[J].計(jì)算機(jī)應(yīng)用,2010,30(7):1933-1935.

        [10]王勇,唐靖,饒勤菲,等.高效率的K-means最佳聚類數(shù)確定算法[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1331-1335.

        [11]韓凌波.K-均值算法中聚類個(gè)數(shù)優(yōu)化問(wèn)題研究[J].四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2012,25(2):77-80.

        [12]張忠平,王愛(ài)杰,柴旭光.簡(jiǎn)單有效的確定聚類數(shù)目算法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(15):166-168.

        [13]李躍鵬,金翠,及俊川.基于word2vec的關(guān)鍵詞提取算法[J].科研信息化技術(shù)與應(yīng)用,2015,6(4):54-59.

        [14]周練.W ord2vec的工作原理及應(yīng)用探究[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2015,25(2):145-148.

        [15]Salton,G Buckley,C.Term-weighting approachesin automatic text retrieval[J].Information Processing&Management,1988,24(5):513-523.

        [16]郭慶琳,吳克河,吳慧芳,等.基于文本聚類的多文檔自動(dòng)文摘研究[J].計(jì)算機(jī)研究與發(fā)展,2007,44(2):140-144.

        [17]Sean O,Robin A,Ted D,etal.Mahout實(shí)戰(zhàn)[M].北京:人民郵電出版社,2014:134-138.

        [18]M cCallum A, Nigam K, Ungar L H.Efficient clustering ofhigh-dimensionaldata setswith application to reference matching[C]//Proceedings of the sixth ACM SIGKDD international conference on Know ledge discovery and datam ining,2000:169-178.

        [19]Han JW,Kamber M,Pei J.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012:293-295.

        [20]Xu R,W unsch D C.C lustering[M].IEEE Press,2008:265-277.

        [21]Manning C D,Raghavan P,Schütze H.信息檢索導(dǎo)論[M].北京:人民郵電出版社,2010:246-249.

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲va欧美va| 男人的天堂av一二三区| 久久偷拍国内亚洲青青草| 国产在线观看91一区二区三区| 亚洲av无码一区二区三区乱子伦| 国产午夜影视大全免费观看| 香蕉亚洲欧洲在线一区| 国产成人精品一区二区三区av| 国产成人a∨激情视频厨房| 欧美人妻精品一区二区三区 | 人妻无码人妻有码不卡| 亚洲中文字幕乱码在线观看| 亚洲s色大片在线观看| 精品国内自产拍在线观看| 久久久国产不卡一区二区| 国产精品一区二区久久蜜桃| 亚洲av首页在线| 欧美丰满大爆乳波霸奶水多| 人妻少妇喷水意淫诱惑| 精品国产亚洲级一区二区| 色综合视频一区中文字幕| 久久无码人妻一区=区三区| 日本中文字幕人妻精品| 极品少妇xxxx精品少妇偷拍 | 国产精品理人伦国色天香一区二区 | 色综合久久丁香婷婷| 中文字幕一区二区三区喷水| 老鲁夜夜老鲁| 欧美日韩中文国产一区发布 | 久久久中文字幕日韩精品| 亚洲精品无amm毛片| 8av国产精品爽爽ⅴa在线观看| 白色白色白色在线观看视频 | 奶头又大又白喷奶水av| 九九99无码精品视频在线观看| 久久精品女人天堂AV一个| 美女人妻中出日本人妻| аⅴ资源天堂资源库在线| 国产精品每日更新在线观看 | 中文字幕无码av激情不卡| 日韩国产有码在线观看视频|