亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于高斯混合模型和自適應(yīng)簇?cái)?shù)的文本聚類

        2023-11-30 10:23:48程宏兵王本安陳友榮張旭東吳前鋒
        關(guān)鍵詞:文本

        程宏兵,王本安,陳友榮,張旭東,吳前鋒

        (1.浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023;2.浙江樹(shù)人學(xué)院 信息技術(shù)學(xué)院,浙江 杭州 310015; 3.浙江省經(jīng)濟(jì)信息中心,浙江 杭州 310006)

        隨著互聯(lián)網(wǎng)的快速普及與發(fā)展,日常生活中會(huì)產(chǎn)生海量文本數(shù)據(jù)。面對(duì)海量的文本數(shù)據(jù),如何有效將與日俱增的文本數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息成為一個(gè)重中之重的研究方向。因此,文本數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,在大量文本數(shù)據(jù)處理分析方面產(chǎn)生越來(lái)越重要的作用,受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。在早期文本數(shù)據(jù)挖掘發(fā)展階段中,主要采用數(shù)據(jù)庫(kù)管理方式實(shí)現(xiàn)數(shù)據(jù)的分析,然而存在管理不規(guī)范和效率低下等問(wèn)題。現(xiàn)階段,主要采用深度學(xué)習(xí)、信息抽取和基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)等文本數(shù)據(jù)挖掘方法[1-3]。深度學(xué)習(xí)方法訓(xùn)練所有文本信息并分類導(dǎo)致計(jì)算復(fù)雜度較高,同時(shí)需要通過(guò)人工進(jìn)行標(biāo)簽標(biāo)注,時(shí)間成本較高。信息抽取方法雖然能對(duì)每段文本進(jìn)行信息提取,但是沒(méi)有充分考慮文本語(yǔ)義表達(dá),會(huì)抽取出一些無(wú)關(guān)信息,影響文本處理效果。機(jī)器學(xué)習(xí)中的部分方法雖然具有效率高的優(yōu)點(diǎn),但存在無(wú)法確定分簇?cái)?shù),準(zhǔn)確度低,未考慮樣本相似度導(dǎo)致離散樣本無(wú)法有效劃分等問(wèn)題。而文本聚類是根據(jù)文本的相似度將海量文本進(jìn)行聚類分析[4],其由于無(wú)需訓(xùn)練過(guò)程及手工標(biāo)注類別,自動(dòng)化處理能力較強(qiáng)。文本聚類作為處理和管理海量數(shù)據(jù)的一項(xiàng)關(guān)鍵技術(shù),不僅在數(shù)據(jù)分析與挖掘當(dāng)中承擔(dān)著重要的角色,而且與主題歸類、信息檢索以及文本挖掘等其他數(shù)據(jù)挖掘基礎(chǔ)任務(wù)密切聯(lián)系。目前,國(guó)內(nèi)外研究學(xué)者提出基于劃分、密度和層次的聚類等聚類算法實(shí)現(xiàn)文本聚類,然而基于劃分的聚類算法非常依賴初始聚類中心的選擇,同時(shí)針對(duì)大數(shù)據(jù)的情況下未能找到全局最優(yōu);基于密度的聚類算法對(duì)于設(shè)定的半徑及其最小包含點(diǎn)數(shù)非常敏感,若選擇不當(dāng)會(huì)直接影響聚類的效果;基于層次的聚類算法雖然較靈活,但是計(jì)算量及其時(shí)間復(fù)雜度較高,大量數(shù)據(jù)集會(huì)對(duì)簇內(nèi)相似度的判斷存在較大的誤差。其他聚類算法不僅仍存在無(wú)法確定具體分簇?cái)?shù)量,聚類準(zhǔn)確度低等問(wèn)題,而且存在未考慮樣本相似度導(dǎo)致分散文本無(wú)法有效劃分等問(wèn)題。

        針對(duì)上述問(wèn)題,為了自動(dòng)和準(zhǔn)確地進(jìn)行文本聚類,考慮文本中的關(guān)鍵詞頻率和普適性,并權(quán)衡條件概率和相似度,提出一種基于改進(jìn)高斯混合模型和自適應(yīng)簇?cái)?shù)的文本聚類算法(Text clustering algorithm based on improved gaussian mixture model and self-adaptive number of clusters,TCA)。首先,提出一種權(quán)衡關(guān)鍵詞頻率和普適性的關(guān)鍵詞提取方法,包括采用無(wú)意義符號(hào)去除,基于齊次馬爾科夫假設(shè)的文本分詞和停用詞去除等數(shù)據(jù)分詞和清洗方法,同時(shí)結(jié)合關(guān)鍵詞頻率和普適性的情況,提取文本有效關(guān)鍵詞;然后,提出基于改進(jìn)高斯混合模型的文本聚類算法,包括計(jì)算衡量文本相似度與條件概率的文本權(quán)重,獲取適用于當(dāng)前分簇?cái)?shù)量的最優(yōu)模型參數(shù),從而提高文本聚類準(zhǔn)確率;最后,提出分簇?cái)?shù)量的自適應(yīng),根據(jù)特定領(lǐng)域數(shù)據(jù)集,計(jì)算每個(gè)分簇?cái)?shù)量所對(duì)應(yīng)的最大隨機(jī)文本損失與實(shí)際文本損失的差值,確定差值最大的分簇?cái)?shù)量作為最優(yōu)分簇?cái)?shù)量,將相似度較高的文本結(jié)合關(guān)鍵詞特征被聚類到同一個(gè)簇中心,使得簇內(nèi)文本更加靠攏,不同簇之間差別更大,提高真實(shí)標(biāo)簽中被正確聚類的文本個(gè)數(shù),提高TCA的召回率。

        1 相關(guān)工作

        目前,為實(shí)現(xiàn)文本聚類,許多學(xué)者對(duì)劃分、密度和分層等聚類算法展開(kāi)一系列的研究。其中,部分學(xué)者側(cè)重于研究基于劃分的文本聚類,如Yuan等[5]通過(guò)在每次迭代中刪除一個(gè)簇(減號(hào))、劃分另一個(gè)簇(加號(hào)),并迭代應(yīng)用聚類提高K-means的求解質(zhì)量,從而實(shí)現(xiàn)快速、準(zhǔn)確的文本聚類;Chen等[6]針對(duì)常見(jiàn)協(xié)同過(guò)濾推薦方法中不能充分利用所有用戶評(píng)分信息的問(wèn)題,提出一種基于K-medoids的聚類推薦算法,從項(xiàng)目評(píng)分概率分布的角度利用基于散度的所有評(píng)分信息實(shí)現(xiàn)目標(biāo)聚類;Jia等[7]采用高斯混合模型聚類算法(Gaussian mixture model,GMM)對(duì)自行車站點(diǎn)進(jìn)行分簇,并分析每個(gè)簇群在未來(lái)一段時(shí)間內(nèi)的租金和回報(bào)數(shù)量;Yuan等[5]、Chen等[6]和Jia等[7]的研究雖然都能夠高效劃分出簇,但是初始聚類中心的選擇仍需要改進(jìn),且在大數(shù)據(jù)的情況下未能找出全局最優(yōu)。因此部分學(xué)者側(cè)重于研究基于密度的聚類算法,如Li等[8]針對(duì)基于密度的聚類算法沒(méi)有先驗(yàn)知識(shí),自動(dòng)準(zhǔn)確識(shí)別聚類中心困難的問(wèn)題,提出一種基于改進(jìn)的密度值算法的兩階段聚類方法,首先使用基于蝙蝠優(yōu)化的改進(jìn)密度值算法生成初始聚類,然后通過(guò)密度峰值與確定的聚類中心來(lái)實(shí)現(xiàn)密度聚類;Jin等[9]提出一種用于社區(qū)檢測(cè)的聚類算法,結(jié)合密度聚類算法并選擇各類參數(shù)進(jìn)行聚類,從而提升算法的有效性。然而Li等[8]和Jin等[9]的研究對(duì)設(shè)定的半徑及其最小包含點(diǎn)數(shù)非常敏感,若選擇不當(dāng)會(huì)直接影響聚類的效果。部分學(xué)者側(cè)重于研究基于分層的和其他聚類算法,如Fedoryszak等[10]設(shè)計(jì)用于實(shí)時(shí)事件聚類系統(tǒng),實(shí)現(xiàn)事件動(dòng)態(tài)聚類更新;李鼎宇等[11]提出短文本的跨域情感分類算法(Cross-domain sentiment classification algorithm for short Text,CSCA),利用譜聚類方法依次對(duì)兩個(gè)領(lǐng)域的共享特征和特有特征進(jìn)行聚類,根據(jù)所得的聚類信息進(jìn)行特征擴(kuò)展來(lái)提高準(zhǔn)確率;Wang等[12]提出改進(jìn)的層次聚類算法進(jìn)行主題發(fā)現(xiàn),并對(duì)短文本內(nèi)容的微博進(jìn)行短文本擴(kuò)展,解決微博內(nèi)容較短,基于傳統(tǒng)話題模型的微博話題發(fā)現(xiàn)效果較差等問(wèn)題;Janani等[13]提出一種具有粒子群優(yōu)化的譜聚類算法來(lái)改進(jìn)文本聚類。通過(guò)考慮全局和局部?jī)?yōu)化函數(shù),對(duì)初始種群進(jìn)行隨機(jī)化,將譜聚類與群優(yōu)化相結(jié)合,以處理海量文本文檔實(shí)現(xiàn)文本聚類。Fedoryszak等[10]、李鼎宇等[11]、Wang等[12]和Janani等[13]研究的聚類算法雖然較靈活,但是計(jì)算量及時(shí)間復(fù)雜度較高,針對(duì)大量數(shù)據(jù)集進(jìn)行基于簇內(nèi)相似度的聚類會(huì)存在較大的誤差。綜上,目前的聚類算法仍存在無(wú)法確定具體分簇?cái)?shù)量、聚類準(zhǔn)確度較低等問(wèn)題,難以準(zhǔn)確且高效地實(shí)現(xiàn)文本聚類。

        2 TCA原理

        TCA原理如圖1所示。首先獲取數(shù)據(jù)服務(wù)中心的文本數(shù)據(jù),并進(jìn)行數(shù)據(jù)分詞和清洗;其次,提取文本信息的關(guān)鍵詞并進(jìn)行文本向量化操作,獲取關(guān)鍵詞的詞向量;再次,通過(guò)分簇?cái)?shù)量固定的文本聚類和最優(yōu)分簇?cái)?shù)量確定,將所有文本進(jìn)行聚類;最后,輸出聚類結(jié)果,為工作人員的服務(wù)提供準(zhǔn)確數(shù)據(jù)。TCA需要解決以下3個(gè)問(wèn)題:1) 如何對(duì)獲取到的反饋數(shù)據(jù)進(jìn)行預(yù)處理和關(guān)鍵詞信息抽取;2) 如何合理確定最優(yōu)分簇?cái)?shù)量;3) 如何結(jié)合關(guān)鍵詞等信息,提出一種權(quán)衡條件概率和相似度的文本聚類算法。

        圖1 TCA原理Fig.1 TCA principle

        2.1 TCA數(shù)據(jù)分詞和清洗

        由于數(shù)據(jù)服務(wù)中心所提供的信息存在數(shù)據(jù)格式不一致的情況,因此會(huì)造成額外的復(fù)雜度開(kāi)銷以及算法效果等問(wèn)題。首先,剔除非文本數(shù)據(jù),避免無(wú)意義符號(hào)的影響;然后,采用基于齊次馬爾科夫假設(shè)[14]的分詞方法對(duì)文本進(jìn)行分詞;最后,對(duì)分詞后的結(jié)果進(jìn)行停用詞去除,獲得最優(yōu)分詞集合,進(jìn)而節(jié)省存儲(chǔ)空間和保證文本聚類的效果。

        2.1.1 去除非文本數(shù)據(jù)

        前期通過(guò)語(yǔ)音識(shí)別得到的投訴文本數(shù)據(jù)是非常雜亂的,包含大量沒(méi)有任何有用信息的符號(hào),如果不進(jìn)行數(shù)據(jù)清洗,會(huì)增加計(jì)算的復(fù)雜度和計(jì)算開(kāi)銷,并對(duì)后續(xù)的算法實(shí)現(xiàn)結(jié)果產(chǎn)生一定的影響。因此需要去除語(yǔ)音轉(zhuǎn)文本數(shù)據(jù)集中無(wú)意義的符號(hào),如無(wú)用數(shù)字和標(biāo)點(diǎn)符號(hào)等,類似“@#$%^&*()_+,./?”。

        2.1.2 文本分詞

        剔除非文本數(shù)據(jù)過(guò)后,令Q={Q1,Q2,…,Qz},其中Q為文本數(shù)據(jù)集合,將每條文本Qz分詞得到{w11,w12,…,w1n1;…;wm1,wm2,…,wmnm},m為第m種分詞形式,nm,wmni分別為采用分詞形式m時(shí)的分詞數(shù)量和第ni個(gè)分詞。由于涉及ni個(gè)分詞的聯(lián)合分布,需要統(tǒng)計(jì)所有分詞結(jié)果,考慮分詞概率計(jì)算時(shí)參數(shù)維度過(guò)多和條件概率較多,會(huì)導(dǎo)致計(jì)算復(fù)雜、難以提升精度等問(wèn)題,因此引入齊次馬爾科夫假設(shè),并結(jié)合標(biāo)準(zhǔn)語(yǔ)料庫(kù),計(jì)算所有分詞形式m的二元條件概率,計(jì)算式為

        (1)

        式中:wm(ni-1)為采用分詞形式m時(shí)的第ni-1個(gè)分詞;P(wmni|wm(ni-1))為已知第ni-1個(gè)分詞前提下第ni個(gè)詞出現(xiàn)的概率;freq(wmni,wm(ni-1)),freq(wm(ni-1))分別為在語(yǔ)料庫(kù)中分詞wmni與wm(ni-1)中相同分詞和分詞wm(ni-1)出現(xiàn)的總頻數(shù)??紤]每一個(gè)分詞出現(xiàn)的概率只與前面一個(gè)分詞相關(guān),計(jì)算文本數(shù)據(jù)Qz的第m種分詞形式的概率P(wm),計(jì)算式為

        P(wm)=P(wm1)×…×P(wmni|wm(ni-1))× …×P(wmnz|wm(nz-1))

        (2)

        式中:P(wm1)為采用分詞形式m下的分詞概率,循環(huán)計(jì)算文本數(shù)據(jù)Qz的所有分詞概率,構(gòu)成文本數(shù)據(jù)Qz所對(duì)應(yīng)的概率集合P(z)={P(w1),P(w2),…,P(wz)}。通過(guò)argmax函數(shù)輸出P(z)最大時(shí)所對(duì)應(yīng)的分詞形式,并獲取對(duì)應(yīng)的第z條最優(yōu)文本分詞集合Wzbest,計(jì)算式為

        R=argmaxP(z)

        (3)

        式中R為P(z)最大時(shí)所對(duì)應(yīng)的分詞形式。若所有文本數(shù)據(jù)計(jì)算完成,則獲得最優(yōu)文本分詞集合Wallbest={W1best,W2best,…,Wzbest},否則返回上述步驟重新計(jì)算最優(yōu)文本分詞集合。

        2.1.3 去除文本停用詞

        文本分詞結(jié)果集合R中會(huì)存在如“了”“的”“是”等使用頻率過(guò)高、無(wú)意義的語(yǔ)氣助詞和副詞等,會(huì)浪費(fèi)存儲(chǔ)空間與計(jì)算資源。為了縮減內(nèi)存消耗和提升文本聚類的效果,通常將這些文本中的停用詞進(jìn)行去除,更新文本分詞結(jié)果集合R。

        2.2 關(guān)鍵詞提取和文本向量化

        針對(duì)處理大量文本信息存在時(shí)間復(fù)雜度、泛化性能力和冗余等問(wèn)題,需要對(duì)上述一系列預(yù)處理后的詞語(yǔ)進(jìn)行關(guān)鍵詞提取,盡可能提高后續(xù)分簇算法的準(zhǔn)確性。目前,基于主題模型的關(guān)鍵詞抽取方法存在抽取的關(guān)鍵詞較寬泛,未能良好地反映文本主題信息等問(wèn)題。TextRank等算法涉及復(fù)雜的網(wǎng)絡(luò)構(gòu)建和隨機(jī)的迭代算法,導(dǎo)致效率較低。有的學(xué)者雖然根據(jù)詞頻進(jìn)行關(guān)鍵詞提取,但是一些通用詞匯不能體現(xiàn)關(guān)鍵詞,反而一些頻率出現(xiàn)較少的詞能夠表達(dá)文本的主要含義。由于單純使用詞頻進(jìn)行關(guān)鍵詞效果較差,需要考慮關(guān)鍵詞中的普適性,因此提出基于詞頻和普適性的關(guān)鍵詞抽取統(tǒng)計(jì)方法,進(jìn)行文本分詞后的關(guān)鍵詞提取。令根據(jù)2.1.2節(jié)處理后的最優(yōu)文本分詞集合中的第z條文本集合為Wzbest={r1,r2,…,ru,…,rz},其中ru表示集合Wzbest中第u個(gè)分詞。權(quán)衡關(guān)鍵詞頻率和普適性的關(guān)鍵詞權(quán)重TFIDFu的計(jì)算式為

        (4)

        式中:TFu為第u個(gè)分詞在文本數(shù)據(jù)Qz中出現(xiàn)的頻率;NW為所有分詞數(shù)量;IDF為第u個(gè)分詞的普適性;L為標(biāo)準(zhǔn)語(yǔ)料庫(kù)總量;L(ru)為標(biāo)準(zhǔn)語(yǔ)料庫(kù)包含關(guān)鍵詞ru的文本總量。通過(guò)式(4)進(jìn)行權(quán)重降序輸出,選擇前j個(gè)分詞作為文本數(shù)據(jù)Qz的關(guān)鍵詞信息。若最優(yōu)分詞集合計(jì)算完成,得到所有文本數(shù)據(jù)的前j個(gè)關(guān)鍵詞信息;否則,返回重新計(jì)算關(guān)鍵詞權(quán)重。通過(guò)word2vec將所有關(guān)鍵詞信息轉(zhuǎn)為維度為dim的詞向量。

        2.3 基于改進(jìn)高斯混合模型的文本聚類

        (5)

        式中:Sc為第c個(gè)簇的文本相似度信息熵;σtc為第t個(gè)文本在第c個(gè)簇下高斯混合模型生成的條件概率;τ為文本數(shù)量;Btc為第t個(gè)文本在第c個(gè)簇中的基礎(chǔ)概率,可表示為

        (6)

        (7)

        式中τ為文本數(shù)量。由于fc的更新需要對(duì)簇的平均條件概率和文本相似度進(jìn)行權(quán)衡,即修改為

        (8)

        步驟1初始化最大迭代次數(shù)Emax,確定分簇?cái)?shù)量K,當(dāng)前迭代次數(shù)count=0等算法參數(shù)。任意選取一條文本信息作為第一個(gè)簇中心,并放入聚類集合CS。

        步驟4通過(guò)式(6)計(jì)算簇中每個(gè)文本信息的基礎(chǔ)概率,從而結(jié)合權(quán)重fc得到每個(gè)文本信息由高斯混合模型生成的條件概率σtc,計(jì)算式為

        (9)

        (10)

        (11)

        步驟6若當(dāng)前迭代次數(shù)未達(dá)到最大,則跳到步驟4重新執(zhí)行模型參數(shù)更新;否則,跳到步驟7。

        2.4 最優(yōu)分簇?cái)?shù)量確定

        考慮到未來(lái)社區(qū)中文本聚類數(shù)量不確定且2.3節(jié)的文本聚類方法需要對(duì)分簇?cái)?shù)量進(jìn)行確定,才能提高算法的分簇效果,因此通過(guò)最優(yōu)分簇?cái)?shù)量的確定來(lái)自適應(yīng)文本聚類。肘部法則是在觀察分簇?cái)?shù)量增大的過(guò)程中,確定每個(gè)簇中心與簇內(nèi)樣本點(diǎn)的平方距離誤差和下降幅度最大的位置為肘部對(duì)應(yīng)的值,然而其存在需要人工觀察每個(gè)分簇?cái)?shù)量的變化曲線,有一定的滯后性等問(wèn)題。因此在肘部法則的基礎(chǔ)上,尋找每個(gè)分簇?cái)?shù)量所對(duì)應(yīng)的最大隨機(jī)文本損失與實(shí)際文本損失的差值。即依次選擇分簇?cái)?shù)量Ω=1,2,…,K,…,ξ,執(zhí)行2.3節(jié)中基于改進(jìn)高斯混合模型的文本聚類,通過(guò)式(12)依次計(jì)算分簇?cái)?shù)量Ω=1,2,…,K,…,ξ中的損失函數(shù)εK,計(jì)算式為

        (12)

        G(Ω)=E{log(εΩ)}-log(εΩ)Ω=1,2,…,K,…,ξ

        (13)

        式中:E{log(εK)}為log(εK)的期望值;ξ為分簇?cái)?shù)量的最大值。從Ω=1,2,…,K,…,ξ中尋找G(Ω)值最大對(duì)應(yīng)的分簇?cái)?shù)量Ωbest,最終獲得最優(yōu)聚類數(shù)量Ωbest和最優(yōu)聚類集合G(Ωbest)。

        3 實(shí)驗(yàn)分析

        實(shí)驗(yàn)采用Windows 10(64bit)操作系統(tǒng),處理器為Intel?CoreTMi7-10700 CPU@2.90 GHz*2,內(nèi)存為32 GB、顯卡為NVIDIA GeForce GTX 1080TI默認(rèn)超頻版。

        3.1 數(shù)據(jù)集和算法參數(shù)

        為了驗(yàn)證TCA的有效性,采用2.1節(jié)文本數(shù)據(jù)獲取方法采集某物業(yè)公司的社區(qū)業(yè)主與客服對(duì)話的線上音頻數(shù)據(jù)和線下文本數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),通過(guò)語(yǔ)音識(shí)別將音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),獲得共4 200條文本數(shù)據(jù)。根據(jù)每條文本中的漏水、樓道垃圾和電梯等關(guān)鍵詞信息進(jìn)行場(chǎng)景分類,從而獲得TS1(漏水場(chǎng)景)、TS2(垃圾場(chǎng)景)、TS3(電梯場(chǎng)景)、TS4(漏水與垃圾場(chǎng)景)、TS5(漏水與電梯場(chǎng)景)、TS6(垃圾與電梯場(chǎng)景)和TS7(漏水、垃圾與電梯場(chǎng)景)共7組群訴事件的數(shù)據(jù)集。通過(guò)仿真實(shí)驗(yàn)計(jì)算算法的評(píng)價(jià)指標(biāo),其中算法參數(shù)如表1所示。

        表1 仿真參數(shù)表

        3.2 評(píng)價(jià)指標(biāo)

        為了分析和比較文本聚類的效果,將聚類準(zhǔn)確率和召回率作為模型評(píng)價(jià)指標(biāo)。其中,聚類準(zhǔn)確率的表達(dá)式為

        (14)

        式中:τ為文本數(shù)量;Mρ為算法結(jié)合文本xρ分配到的簇標(biāo)簽;yρ為文本xρ的真實(shí)標(biāo)簽;cluster(Mρ)為TCA得到的簇標(biāo)簽;δ(a,b)為判斷函數(shù),用于判斷算法得到的類別標(biāo)簽與真實(shí)標(biāo)簽是否相同,若相同則為1,不同則為0。聚類準(zhǔn)確率表示聚類出的結(jié)果與真實(shí)標(biāo)簽一致的比例,準(zhǔn)確率越高,聚類效果越好。

        召回率的表達(dá)式為

        (15)

        3.3 參數(shù)分析選擇

        分析7個(gè)場(chǎng)景下詞向量維度、分簇?cái)?shù)量和權(quán)重參數(shù)對(duì)TCA性能的影響,并以場(chǎng)景TS7為例說(shuō)明算法的有效性。

        首先,選擇詞向量維度分別為20,30,40,50,60,70以及表1中實(shí)驗(yàn)參數(shù),分析詞向量維度對(duì)文本聚類的聚類準(zhǔn)確率和召回率的影響,具體情況如圖2所示。隨著詞向量維度的不斷增加,TCA的準(zhǔn)確率和召回率逐漸提高,且當(dāng)詞向量維度為40時(shí),TCA的聚類效果優(yōu)于其他維度的聚類效果。這是因?yàn)?隨著詞向量維度不斷增加,詞向量模型能夠更好地體現(xiàn)文本關(guān)鍵詞特征,促使文本聚類更加準(zhǔn)確。然而當(dāng)詞向量超過(guò)一定維度時(shí),算法需要處理更多的向量且詞向量信息出現(xiàn)一定的冗余,從而影響算法的時(shí)間復(fù)雜度,導(dǎo)致聚類準(zhǔn)確率和召回率2個(gè)指標(biāo)出現(xiàn)一定程度的下降,因此超過(guò)一定維度的詞向量設(shè)置均會(huì)影響文本聚類的有效性。總之,當(dāng)TCA選擇詞向量維度為40時(shí),具有較好的時(shí)間復(fù)雜度與聚類效果。

        圖2 不同維度下的聚類指標(biāo)值Fig.2 Clustering index values in different dimensions

        然后,選擇文本分簇?cái)?shù)量分別為1,2,3,4,5,6以及表1中的實(shí)驗(yàn)參數(shù),分析文本分簇?cái)?shù)量對(duì)隨機(jī)文本損失與實(shí)際文本損失差值G的影響,具體情況如圖3所示。當(dāng)分簇?cái)?shù)量為3時(shí),其值符合TS7的漏水、垃圾與電梯這3類場(chǎng)景,因此實(shí)際文本的損失相對(duì)較小,隨機(jī)文本的損失與實(shí)際文本損失之差達(dá)到最大,即G達(dá)到最大。這是因?yàn)?當(dāng)分簇?cái)?shù)量小于3時(shí),隨著分簇?cái)?shù)量的不斷增加,每個(gè)樣本能夠更好地通過(guò)關(guān)鍵詞特征被聚類到同一個(gè)簇中心,G不斷上升。當(dāng)分簇?cái)?shù)量為3時(shí),符合TS7的實(shí)際場(chǎng)景,G達(dá)到最大,有利于相似的文本最大化被聚類到同一個(gè)簇中心,從而提升后續(xù)文本聚類的召回率。當(dāng)分簇?cái)?shù)量大于3時(shí),由于事件發(fā)生域較為狹窄,過(guò)多的分簇?cái)?shù)量劃分會(huì)導(dǎo)致細(xì)粒度較少,造成聚類特征稀疏、丟失等情況,因此會(huì)影響文本聚類的有效性,G逐漸下降,導(dǎo)致相似文本被誤判,從而影響后續(xù)文本聚類的召回率。因此3.5節(jié)確定最優(yōu)分簇?cái)?shù)量,是符合分簇?cái)?shù)量對(duì)G影響的規(guī)律,可自適應(yīng)尋找到最優(yōu)分簇?cái)?shù)量。同時(shí),針對(duì)3.1節(jié)中所提到的7個(gè)場(chǎng)景,TCA通過(guò)最優(yōu)分簇?cái)?shù)量方法可正確聚類出7個(gè)場(chǎng)景的分簇?cái)?shù)量,具有較好的普適性。

        圖3 不同維度下的GFig.3 G values in different dimensions

        最后,選擇權(quán)重參數(shù)βu分別為0.2,0.4,0.6,0.8,1.0,權(quán)重參數(shù)βa分別為0.2,0.4,0.6,0.8,1.0以及表1的實(shí)驗(yàn)參數(shù),分析權(quán)重參數(shù)對(duì)聚類準(zhǔn)確率的影響,具體情況如圖4所示。當(dāng)βa=0.6,βu=0.6時(shí),文本聚類的聚類準(zhǔn)確率達(dá)到最大值。這是因?yàn)?隨著βu不斷增加,簇內(nèi)樣本相似度的權(quán)重值會(huì)不斷增加,在文本聚類過(guò)程中可有效結(jié)合簇內(nèi)關(guān)鍵詞樣本的相似度和關(guān)鍵詞信息,使其聚類準(zhǔn)確率逐漸提高。隨著βa不斷增加,簇的平均樣本條件概率的權(quán)重值逐漸增加,TCA可充分綜合簇的平均文本條件概率與簇內(nèi)文本的相似度信息進(jìn)行分簇,從而提高文本聚類的有效性,使其聚類準(zhǔn)確率逐漸提高。然而,當(dāng)βa>0.6或βu>0.6時(shí),簇內(nèi)文本相似度的權(quán)重值與在聚類權(quán)重參數(shù)的更新中所占比重相對(duì)較少,分簇過(guò)程過(guò)于側(cè)重簇的平均文本條件概率權(quán)重值,無(wú)法確保文本聚類的效果,導(dǎo)致出現(xiàn)文本聚類準(zhǔn)確率有一定的下降。因此TCA選擇βu=0.6和βa=0.6,可較好地實(shí)現(xiàn)文本聚類。

        圖4 權(quán)重參數(shù)對(duì)聚類準(zhǔn)確率的影響Fig.4 Effect of weight parameters on clustering accuracy

        3.4 算法對(duì)比

        選擇表1的實(shí)驗(yàn)參數(shù),分析7個(gè)場(chǎng)景下TCA,K-means,GMM和CSCA的聚類準(zhǔn)確率,具體情況如圖5所示。由圖5可知:無(wú)論文本數(shù)據(jù)如何變化,TCA均能夠準(zhǔn)確聚類文本,不僅聚類準(zhǔn)確率變化較小,而且明顯高于K-means,GMM,CSCA的聚類準(zhǔn)確率。這是因?yàn)?TCA綜合考慮每個(gè)簇的平均文本條件概率和文本相似度,能夠根據(jù)文本的最大條件概率完成分簇,同時(shí)引入文本相似度使得同一個(gè)簇中的文本內(nèi)容非常接近,不同簇中的文本內(nèi)容相似度較低,因此不論文本數(shù)據(jù)如何變化,都能夠聚類出文本,其聚類準(zhǔn)確率始終高于91%。而GMM算法僅考慮文本屬于某類的概率,雖然生成新的聚類中心點(diǎn),但是未權(quán)衡每個(gè)簇的文本條件概率和相似度,其聚類準(zhǔn)確率略差于TCA。K-means算法無(wú)法給出一個(gè)文本屬于某類的概率,且無(wú)法結(jié)合條件概率生成新的聚類中心點(diǎn),因此聚類效果不穩(wěn)定,其聚類準(zhǔn)確率變化較大。CSCA對(duì)于文本聚類不具有良好的泛化能力,當(dāng)數(shù)據(jù)類型存在簇之間元素個(gè)數(shù)相差懸殊時(shí),無(wú)法正確聚類,因此其聚類準(zhǔn)確率最差。

        圖5 聚類準(zhǔn)確率比較Fig.5 Comparison of clustering accuracy

        選擇表1的實(shí)驗(yàn)參數(shù),比較7個(gè)場(chǎng)景下TCA,K-means,GMM和CSCA的召回率,具體情況如圖6所示。由圖6可知:不管文本數(shù)據(jù)如何變化,TCA的召回率不僅變化較小,而且明顯高于K-means,GMM,CSCA的召回率。這是因?yàn)?TCA結(jié)合文本的最大條件概率與相似度,且采用輪盤賭的方式選擇下一類聚類中心,有效提升了在文本分簇中對(duì)正確關(guān)鍵詞文本的聚類。同時(shí),通過(guò)判定G能夠確定文本的最優(yōu)聚類個(gè)數(shù),使得簇內(nèi)文本更加靠攏,不同簇之間差別更大,利于聚類出正確的文本,從而提高算法的召回率,因此其召回率不受場(chǎng)景影響,能夠保持在90%以上。而GMM算法針對(duì)文本中權(quán)重更新時(shí)僅考慮到簇內(nèi)文本數(shù),忽視了簇內(nèi)文本相似度,并不能有效聚類正確樣本。K-means算法不僅需要不斷地進(jìn)行文本聚類調(diào)整并計(jì)算調(diào)整后的新聚類中心,而且無(wú)法實(shí)現(xiàn)自適應(yīng)確定文本分簇?cái)?shù)量,導(dǎo)致時(shí)間復(fù)雜度較高和聚類效果差。當(dāng)文本數(shù)量變化很大時(shí),CSCA聚類效果會(huì)大幅度降低,從而影響簇中正確文本的聚類。

        圖6 召回率比較Fig.6 Comparison of recall

        4 結(jié) 論

        提出一種基于改進(jìn)高斯混合模型和自適應(yīng)簇?cái)?shù)的文本聚類算法。首先,獲取相關(guān)文本數(shù)據(jù),結(jié)合文本的相關(guān)特點(diǎn),提出一種數(shù)據(jù)預(yù)處理方法,實(shí)現(xiàn)文本的數(shù)據(jù)分詞和清洗;其次,提出一種權(quán)衡關(guān)鍵詞頻率和普適性的關(guān)鍵詞提取方法,進(jìn)行關(guān)鍵詞選擇和文本向量化;再次,在高斯混合模型的基礎(chǔ)上,引入文本相似度,提出權(quán)衡條件概率和相似度的文本權(quán)重方法和一種最優(yōu)分簇?cái)?shù)量的確定方法,實(shí)現(xiàn)分簇?cái)?shù)量確定的文本分簇并確定最優(yōu)分簇?cái)?shù)量,從而獲得分簇?cái)?shù)量和其分布情況;最后,分析關(guān)鍵參數(shù)對(duì)文本聚類的影響,并比較TCA,K-Means,GMM和CSCA的性能。由于在聚類過(guò)程中部分關(guān)鍵詞匯出現(xiàn)頻率較低,從而影響聚類準(zhǔn)確率,未來(lái)將探索一種基于關(guān)鍵詞匯的數(shù)據(jù)增強(qiáng)方法以提高算法的聚類準(zhǔn)確率。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點(diǎn):論述類文本閱讀
        重點(diǎn):實(shí)用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開(kāi)對(duì)具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        久久精品国产69国产精品亚洲| 久久久亚洲av午夜精品| 国产免费一区二区三区精品视频 | 欧美亚洲高清日韩成人| 成人影院免费视频观看| 青青草高中生在线视频| 一本久道综合在线无码人妻| 亚洲第一网站免费视频| 国产精品一区二区三区色| 国产亚洲精品av一区| 玩50岁四川熟女大白屁股直播| 在线综合网| 日韩精品成人一区二区在线观看| 丰满人妻猛进入中文字幕| 久久精品国产亚洲av麻豆| 久久天天躁狠狠躁夜夜2020!| 色视频日本一区二区三区| 国产精品激情自拍视频| 白又丰满大屁股bbbbb| 国产精品美女AV免费观看| 青青草手机在线免费视频| 久久理论片午夜琪琪电影网| 免费精品无码av片在线观看| 涩涩国产在线不卡无码| 中文av字幕一区二区三区| 人妻夜夜爽天天爽三区| 69av视频在线观看| 大又黄又粗又爽少妇毛片| 日本边添边摸边做边爱| 国内精品久久久久久中文字幕| 99久久这里只精品国产免费| 日韩女优视频网站一区二区三区| 色欲综合一区二区三区| 一级免费毛片| 亚洲精品国产精品系列| 国产成人综合久久久久久| 国产精品无码一区二区三区免费| 无码91 亚洲| 亚洲日本精品国产一区二区三区| 亚洲av无码xxx麻豆艾秋| 日本口爆吞精在线视频|