亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        短文本聚類方法研究綜述

        2022-01-24 08:04:32和志強(qiáng)王夢(mèng)雪
        關(guān)鍵詞:短文聚類向量

        和志強(qiáng),王夢(mèng)雪,馬 寧,陳 萌

        (河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050061)

        0 引言

        隨著信息傳播速度的提高與網(wǎng)絡(luò)空間的不斷擴(kuò)大,互聯(lián)網(wǎng)信息量呈指數(shù)級(jí)快速增長(zhǎng),非結(jié)構(gòu)化文本數(shù)據(jù)量不斷增大[1]。為有效利用文本數(shù)據(jù)中所蘊(yùn)含的有價(jià)值信息,通過(guò)聚類算法依據(jù)文本數(shù)據(jù)間的共性特征構(gòu)建文本聚簇來(lái)完成后續(xù)的信息處理與分析,是有價(jià)值信息提取的重要一環(huán)。短文本數(shù)據(jù)主要分為社交媒體類、新聞?lì)?、觀點(diǎn)評(píng)論類、問(wèn)答類、摘要類等,通常應(yīng)用于事件檢測(cè)[2-3]、信息檢索[4]、信息推薦[5]等方面。短文本數(shù)據(jù)呈現(xiàn)語(yǔ)義稀疏、表意歧義和噪聲較多的特點(diǎn)[6]。因此對(duì)低詞匯量的短文本提取其有效特征進(jìn)行低維稠密向量化表示,是影響聚類結(jié)果好壞的關(guān)鍵步驟。此外在不同應(yīng)用場(chǎng)景下,應(yīng)根據(jù)數(shù)據(jù)特點(diǎn)來(lái)計(jì)算文本間相似度,以達(dá)到聚簇內(nèi)部相似性高與簇間相似性低的聚類要求。

        本文從短文本向量化表示方法和聚類評(píng)價(jià)兩方面對(duì)短文本聚類研究進(jìn)行綜述,在不同類別的聚類算法的基礎(chǔ)上,對(duì)基于文本離散化表示與分布式表示的聚類方法的優(yōu)化、改進(jìn)與應(yīng)用進(jìn)行研究,并對(duì)聚類效果的常用評(píng)價(jià)方法進(jìn)行總結(jié)。

        1 短文本聚類方法研究概述

        短文本聚類算法是一種無(wú)監(jiān)督分析算法,能夠定量化描述數(shù)據(jù)中的集聚現(xiàn)象,挖掘非結(jié)構(gòu)化短文本數(shù)據(jù)中隱含的重要信息。文本聚類方法主要分為基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法和基于模糊的聚類算法[7],其主要思想、典型算法與特點(diǎn)如表1所示。文本的向量化表示是短文本間相似度計(jì)算與聚類分析的基礎(chǔ),文本向量化是將文本表示成為計(jì)算機(jī)可識(shí)別與計(jì)算的結(jié)構(gòu)化實(shí)數(shù)向量。文本表示方法依據(jù)其粒度大小分為基于字、基于詞、基于句子和基于篇章四種層次,方法包括文本數(shù)據(jù)的離散化表示與分布式表示。

        表1 文本聚類算法類別

        1.1 基于文本離散化表示的聚類方法

        文本的離散化表示以字、詞匯之間相互獨(dú)立為基礎(chǔ),構(gòu)成不考慮關(guān)聯(lián)性的獨(dú)立詞典,通過(guò)詞頻統(tǒng)計(jì)的方式對(duì)文本進(jìn)行表示,常用離散化文本表示方法及其特點(diǎn)如表2所示。One-Hot Representation作為最簡(jiǎn)單的詞向量化表示方法,目前主要應(yīng)用于其他語(yǔ)言模型中文本的輸入編碼。在此基礎(chǔ)上的詞袋模型是基于句子與篇章級(jí)的文本編碼模型,其根據(jù)一段文本中包含詞的出現(xiàn)次數(shù)來(lái)對(duì)文本進(jìn)行編碼。N-gram算法常應(yīng)用于相似度計(jì)算與歧義切分。王賢明[8]等提出了一種基于隨機(jī)N-gram的長(zhǎng)文本相似度計(jì)算方法,充分利用粗粒度與細(xì)粒度的上下文特征對(duì)文本進(jìn)行編碼表示。鳳麗洲[9]等利用N-gram能獲取雙向局部特征的特性,來(lái)實(shí)現(xiàn)最優(yōu)分詞序列的選擇,有效解決長(zhǎng)詞歧義切分問(wèn)題。

        Salton G[10]等提出的TF-IDF算法常作為基礎(chǔ)表示向量的特征權(quán)重計(jì)算方法與其他特征屬性提取算法相結(jié)合使用。黃承慧[11]等在使用TF-IDF提取重要詞項(xiàng)的基礎(chǔ)上,借助外部詞典擴(kuò)充語(yǔ)義信息來(lái)計(jì)算文本間相似度。王少鵬[12]等把LDA主題模型與TF-IDF結(jié)合,依據(jù)主題與特征權(quán)重兩方面來(lái)計(jì)算相似度,利用K-means進(jìn)行聚類實(shí)現(xiàn)輿情分析。陳朔鷹[13]等在TF-IDF的基礎(chǔ)上利用詞語(yǔ)的時(shí)間屬性來(lái)計(jì)算增長(zhǎng)速度,將詞語(yǔ)的動(dòng)態(tài)屬性融入編碼特征中,利用CURE來(lái)進(jìn)行聚類實(shí)現(xiàn)話題檢測(cè)。葉雪梅[14]等使用NLPIR PARSE中文分詞工具對(duì)文檔新詞的TF-IDF權(quán)重進(jìn)行優(yōu)化,在保證提取文本中有效特征的同時(shí),降低其特征向量維度。張蕾[15]等將已有學(xué)科分類信息加入至TF-IDF特征權(quán)重的計(jì)算中,來(lái)解決一詞多義的編碼問(wèn)題,并通過(guò)K-mean++依據(jù)論文關(guān)鍵詞進(jìn)行學(xué)科聚類。

        表2 離散化文本表示方法

        1.2 基于文本分布式表示的聚類方法

        針對(duì)文本的離散化表示中存在的維度災(zāi)難、向量稀疏、不能捕捉長(zhǎng)距離信息、不能表示文本潛在的語(yǔ)法與語(yǔ)義信息的問(wèn)題,產(chǎn)生了將高維向量映射為更加低維、稠密的連續(xù)向量的分布式表示方法[16],該方法利用語(yǔ)言模型依據(jù)上下文信息來(lái)對(duì)詞匯進(jìn)行表示,充分考慮詞之間的聯(lián)系。常用分布式文本表示方法及特點(diǎn)如表3所示。其中NNML[17]和Word2Vec[18]屬于靜態(tài)詞向量表示,Word2Vec因?yàn)槠溆?xùn)練的高效性與表示的低維性常作為原始特征向量,來(lái)進(jìn)行后續(xù)特征提取與融合運(yùn)算。孫昭穎[19]等針對(duì)短文本特征稀疏的特點(diǎn),在Word2Vec的基礎(chǔ)上利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取形成稠密向量,再通過(guò)K-means進(jìn)行分析驗(yàn)證其有效性。蔡慶平[20]等同樣將Word2Vec與卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合使用,對(duì)產(chǎn)品評(píng)論進(jìn)行縮短分割,依據(jù)提取的特征詞實(shí)現(xiàn)產(chǎn)品與評(píng)論的聚類。顏端武[21]等利用LDA主題模型提取的淺層特征與加權(quán)Word2Vec提取的語(yǔ)義特征融合構(gòu)建文本表示向量,再使用K-means實(shí)現(xiàn)微博的主題聚類。

        屬于動(dòng)態(tài)詞向量的表示方法ELMo[22]、GPT[23]和BERT[24]是在基礎(chǔ)語(yǔ)言模型訓(xùn)練得到詞向量的基礎(chǔ)上,再在實(shí)際應(yīng)用場(chǎng)景中對(duì)其進(jìn)行動(dòng)態(tài)調(diào)整,解決了靜態(tài)詞向量表示中的一詞多義問(wèn)題[25]。2018年由Google發(fā)布的基于雙向Transformer的BERT模型在各項(xiàng)NLP任務(wù)中表現(xiàn)出驚人成績(jī),BERT模型利用大規(guī)模無(wú)標(biāo)注語(yǔ)料進(jìn)行訓(xùn)練,來(lái)獲取包含豐富語(yǔ)義信息的表示特征。程思偉[26]等利用BERT的預(yù)訓(xùn)練詞向量和圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)強(qiáng)化特征表示。朱良奇[27]等在BERT預(yù)訓(xùn)練的文本表示基礎(chǔ)上利用自編碼器與K-means聯(lián)合訓(xùn)練,優(yōu)化特征提取與聚類模塊,實(shí)現(xiàn)短文本聚類。唐曉波[28]等在LDA主題聚類的基礎(chǔ)上,通過(guò)Sentence-BERT 預(yù)訓(xùn)練模型編碼問(wèn)題的語(yǔ)義表示,實(shí)現(xiàn)輔助問(wèn)答系統(tǒng)。

        表3 分布式文本表示方法

        2 聚類結(jié)果的無(wú)監(jiān)督評(píng)價(jià)方法

        對(duì)無(wú)標(biāo)簽數(shù)據(jù)的聚類結(jié)果進(jìn)行評(píng)價(jià),是引導(dǎo)聚類算法優(yōu)化與改進(jìn)的重要依據(jù),采用人工評(píng)價(jià)方法存在低效、高主觀性與高成本的問(wèn)題,無(wú)監(jiān)督聚類評(píng)價(jià)指標(biāo)的構(gòu)建在一定程度上解決了這些問(wèn)題。聚類結(jié)果的無(wú)監(jiān)督評(píng)價(jià)是基于聚類自身進(jìn)行評(píng)估,即保證聚類的結(jié)果是類間相似性低,類內(nèi)相似性高。常用指標(biāo)及其計(jì)算方法如下。

        2.1 誤差平方和(SSE)

        通過(guò)計(jì)算擬合數(shù)據(jù)與原始數(shù)據(jù)對(duì)應(yīng)點(diǎn)的誤差平方和來(lái)判斷聚類效果,其在K-means中應(yīng)用的計(jì)算公式如式(1)。其中p代表預(yù)測(cè)值,m代表原始樣本點(diǎn),SSE值越接近于0,則說(shuō)明模型與數(shù)據(jù)擬合度越好。

        (1)

        2.2 輪廓系數(shù)(SC)

        輪廓系數(shù)由評(píng)價(jià)簇內(nèi)樣本點(diǎn)差異的聚合度和評(píng)價(jià)簇間差異的分離度兩部分組成,聚合度由樣本點(diǎn)到其他樣本點(diǎn)的平均距離,聚合度a(k)計(jì)算如式(2),簇內(nèi)樣本點(diǎn)的緊密程度由所有樣本點(diǎn)聚合度的均值表示。

        (2)

        分離度由簇內(nèi)樣本點(diǎn)到其他簇外樣本點(diǎn)的最小平均距離,分離度b(k)計(jì)算如式(3),簇間樣本點(diǎn)的緊密程度由同簇內(nèi)所有樣本點(diǎn)分離度的均值表示。

        (3)

        簇內(nèi)樣本點(diǎn)Xk的輪廓系數(shù)計(jì)算如式(4),聚類的輪廓系數(shù)由簇內(nèi)所有樣本點(diǎn)的輪廓系數(shù)的均值表示,當(dāng)輪廓系數(shù)趨近于1時(shí)表示聚類效果越好。輪廓系數(shù)適用于類別未知的情況,不適用于不同聚類算法之間的比較。

        (4)

        2.3 Calinski-Harabasz(CH)指數(shù)

        CH指數(shù)通過(guò)最小化簇內(nèi)數(shù)據(jù)協(xié)方差,最大化類別之間協(xié)方差來(lái)評(píng)價(jià)聚類效果,其計(jì)算如式(5),其中m為訓(xùn)練樣本數(shù),k為聚簇?cái)?shù),Bk為簇間協(xié)方差矩陣,Wk為簇內(nèi)協(xié)方差矩陣,CH指數(shù)越大表示聚類效果越好。CH指數(shù)不適用于基于密度的聚類算法評(píng)價(jià)。

        (5)

        2.4 Davies-Bouldin(DB)指數(shù)

        DB指數(shù)通過(guò)計(jì)算任意兩聚簇的簇內(nèi)所有點(diǎn)到中心的平均距離和,除以兩聚簇中心距離,求最大值,計(jì)算如式(6)。其中n為聚簇?cái)?shù),ci表示第i個(gè)聚簇的中心,σi表示簇內(nèi)樣本點(diǎn)到聚簇中心的平均距離,DB指數(shù)越小代表聚類效果越好。DB指數(shù)不適用于環(huán)狀分布聚類評(píng)價(jià)。

        (6)

        3 總結(jié)與展望

        本文根據(jù)短文本數(shù)據(jù)特點(diǎn)解釋了文本的向量化表示與特征提取對(duì)其聚類分析與處理的關(guān)鍵性,并分別闡述了基于文本離散化表示與基于文本分布式表示的短文本聚類方法及其優(yōu)化、改進(jìn)與應(yīng)用。介紹了常用聚類評(píng)價(jià)算法原理及其應(yīng)用特點(diǎn)。經(jīng)過(guò)對(duì)現(xiàn)有算法與研究的總結(jié)與分析,得出在短文本聚類分析過(guò)程中,首先應(yīng)該對(duì)文本進(jìn)行基礎(chǔ)詞向量編碼,再對(duì)其特征向量進(jìn)行賦權(quán)調(diào)整,融合深層語(yǔ)義與文本結(jié)構(gòu)信息,使其映射至低維稠密向量,最后根據(jù)聚類評(píng)價(jià)指標(biāo)來(lái)訓(xùn)練優(yōu)化聚類模型。

        短文本數(shù)據(jù)爆炸式增長(zhǎng)的態(tài)勢(shì)下,提取其中有效信息仍然是研究的重點(diǎn)。針對(duì)短文本稀疏性特點(diǎn),識(shí)別短文本中關(guān)鍵信息與關(guān)鍵信息的強(qiáng)化,對(duì)后續(xù)的聚類聚類分析實(shí)現(xiàn)與聚類效果的提高具有極高的促進(jìn)作用,因此后續(xù)工作應(yīng)圍繞其進(jìn)行研究與開(kāi)發(fā)。

        猜你喜歡
        短文聚類向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        KEYS
        Keys
        基于DBSACN聚類算法的XML文檔聚類
        向量垂直在解析幾何中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        日韩欧美国产自由二区| 中文字幕人妻在线中字| 日本乱偷人妻中文字幕在线| 久青草国产在线观看| 国产精品国产三级国产an| 极品夫妻一区二区三区 | 国产又大又黑又粗免费视频| 免费无码毛片一区二区三区a片| 亚洲色图综合免费视频| 日本在线观看三级视频| 无套内内射视频网站| 夫妇交换刺激做爰视频| 久久综合给合久久狠狠狠9| 日本高清一区二区不卡| 国产精品办公室沙发| 国产一区二区三区av在线无码观看| 超级碰碰人妻中文字幕 | 久久人妻av无码中文专区| 99精品欧美一区二区三区| 亚洲中文字幕久久精品蜜桃 | 美腿丝袜在线观看视频| 樱桃视频影院在线播放| 日韩无码无播放器视频| 国产三级国产精品国产专区| 可免费观看的av毛片中日美韩| 丰满人妻熟妇乱又伦精品软件| 久久无码人妻一区=区三区| 国产一级自拍av播放| 激情内射人妻1区2区3区| 亚洲老妇色熟女老太| 亚洲国产高清美女在线观看| 亚洲色图偷拍自拍在线| 先锋中文字幕在线资源| 日韩在线看片免费人成视频| 成人在线视频自拍偷拍| 日韩人妻无码精品一专区二区三区| 又粗又硬又黄又爽的免费视频| 亚洲综合日韩中文字幕| 免费精品人妻一区二区三区| 欧美成免费a级毛片| 国产欧美一区二区成人影院|