張 濤, 翁康年, 顧小敏, 張玥杰
(1. 上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院, 上海 200433;2. 上海市金融信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室(上海財(cái)經(jīng)大學(xué)), 上海 200433;3. 復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院, 上海 200433; 4. 上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室(復(fù)旦大學(xué)), 上海 200433)
我國(guó)證券市場(chǎng)的發(fā)展歷史短,各項(xiàng)機(jī)制還不夠健全,因此交易行為常常受到市場(chǎng)信息和傳聞的影響.特別是2015年我國(guó)股票市場(chǎng)在52個(gè)交易日內(nèi)呈現(xiàn)股災(zāi)式暴跌,整體跌幅高達(dá)40.31%,年內(nèi)A股市場(chǎng)驚現(xiàn)17次千股跌停,這暴露出我國(guó)證券市場(chǎng)發(fā)展的不成熟和股民們的非理性投資決策行為,股市的頻繁劇烈波動(dòng)已超出傳統(tǒng)金融學(xué)理論的解釋范圍.研究表明,投資者情緒可顯著影響股票市場(chǎng)的表現(xiàn),如何通過(guò)相關(guān)論壇股評(píng)信息的主題挖掘來(lái)度量投資者情緒對(duì)股市表現(xiàn)的影響,已成為金融領(lǐng)域的重要研究方向.
網(wǎng)絡(luò)論壇積累了大量短文本,短文本攜帶著豐富的用戶信息,成為極具價(jià)值的新型信息資源[1].因此,從論壇的豐富信息中挖掘出用戶真正關(guān)心的主題[2],不僅有助于管理層及時(shí)了解網(wǎng)絡(luò)熱點(diǎn)信息,還便于對(duì)網(wǎng)絡(luò)輿情的監(jiān)管[3-4].然而,網(wǎng)絡(luò)論壇的文本數(shù)據(jù)具有低質(zhì)、簡(jiǎn)短和冗余等問(wèn)題,使得在基于現(xiàn)有向量空間模型的文本聚類方法處理時(shí)陷入高維稀疏、語(yǔ)義缺失的困境.對(duì)此,基于深度學(xué)習(xí)的方法效率較高,但需要依賴大量數(shù)據(jù)集進(jìn)行訓(xùn)練,而實(shí)際應(yīng)用中很難獲取龐大的數(shù)據(jù)集.機(jī)器學(xué)習(xí)方法易于解釋和理解,便于進(jìn)行參數(shù)調(diào)整和模型改進(jìn),本文中提出的主題發(fā)現(xiàn)方法就是利用改進(jìn)的機(jī)器學(xué)習(xí)算法進(jìn)行短文本篩選和頻繁項(xiàng)集的聚類.
選取新浪財(cái)經(jīng)股吧論壇版塊的評(píng)論作為數(shù)據(jù)集,利用基于頻繁項(xiàng)集與潛在語(yǔ)義相結(jié)合的短文本聚類(STC_FL)框架和TSC-SN (text soft classifying based on similarity threshold and non-overlapping)算法對(duì)論壇數(shù)據(jù)進(jìn)行深層次主題分析與挖掘,實(shí)現(xiàn)在線股評(píng)文本的自動(dòng)聚類.
一般從以下兩個(gè)方面對(duì)投資者情緒進(jìn)行考量:從隱性情緒指數(shù)的視角,選擇公認(rèn)可測(cè)變量來(lái)衡量;從顯性指數(shù)的角度,通過(guò)實(shí)際調(diào)查來(lái)獲取投資者的情緒[5].面向股評(píng)論壇的主題發(fā)現(xiàn)是通過(guò)對(duì)股評(píng)文本進(jìn)行挖掘來(lái)獲得潛在的主題和熱點(diǎn),然后分析用戶發(fā)帖行為和情緒指標(biāo),并將其用于股市表現(xiàn)分析,以支持投資者的合理投資決策[6].
利用概率模型進(jìn)行各類文本熱點(diǎn)主題挖掘的方法已在信息處理領(lǐng)域得到廣泛應(yīng)用[7].常見的主題發(fā)現(xiàn)模型涵蓋概率潛在語(yǔ)義索引(PLSI)模型、隱含狄利克雷分配主題(LDA)模型和潛在語(yǔ)義索引(LSI)模型等.其中,LDA模型最為經(jīng)典,可用于從大量文檔集中挖掘潛在的主題信息[8].Shams等[9]將共生關(guān)系作為先驗(yàn)領(lǐng)域知識(shí)應(yīng)用到LDA模型中,自動(dòng)從共生關(guān)系等方面的相關(guān)主題提取相關(guān)的先驗(yàn)知識(shí),提高模型效果.Kim等[10]采用LDA模型,并結(jié)合基于變分期望最大化(EM)算法的學(xué)習(xí)模型參數(shù)推理算法,實(shí)現(xiàn)Twitter朋友和內(nèi)容的推薦.Zhang等[11]提出基于群體LDA模型的受眾檢測(cè)方法,將圖書模塊和圖書章節(jié)信息融入到模型中.李揚(yáng)等[12]基于LDA模型將由文本提取的潛在主題用作分類特征,提出基于主題模型的閾值調(diào)整半監(jiān)督文本情感分類模型.然而,基于概率模型的主題發(fā)現(xiàn)方法在訓(xùn)練過(guò)程中對(duì)語(yǔ)料依賴程度較高[13],應(yīng)用于短文本數(shù)據(jù)效果不佳,主題中常出現(xiàn)高頻重復(fù)詞而無(wú)法直觀看出主題,并且容易出現(xiàn)過(guò)擬合[14].
基于詞頻統(tǒng)計(jì)的主題挖掘方法也得到一定的關(guān)注與應(yīng)用,最具代表性的是K-means算法.該算法在處理大規(guī)模數(shù)據(jù)時(shí)效率較高,不足之處在于初始聚簇中心容易選擇不當(dāng)而導(dǎo)致文本聚類結(jié)果為局部最優(yōu).針對(duì)該算法的不足,Laszlo等[15]利用遺傳算法改進(jìn)K-means算法對(duì)初始聚簇中心敏感的問(wèn)題,嘗試將該算法應(yīng)用于高維數(shù)據(jù)聚類中.Sun等[16]引進(jìn)Bradley和Fayyad的初始點(diǎn)迭代算法,提高了K-means算法聚類結(jié)果的準(zhǔn)確性.然而,基于詞頻統(tǒng)計(jì)的主題發(fā)現(xiàn)方法是基于距離來(lái)度量文本之間和文本與聚簇類別間的相似度大小,而現(xiàn)實(shí)中文本特征項(xiàng)常常具有高維性.
基于頻繁項(xiàng)集的熱點(diǎn)主題挖掘方法的基本假設(shè)是:同一個(gè)主題聚簇中的文檔集應(yīng)共享更多的頻繁項(xiàng)集,而不同主題聚簇間的文檔集則共享較少的頻繁項(xiàng)集.在此假設(shè)下按照頻繁項(xiàng)集將文本劃分至不同主題類別下[17].該方法得到了廣泛的研究和應(yīng)用.Chen等[18]提出了基于模糊頻繁項(xiàng)集挖掘的層次文檔聚類.Wang等[19]將頻繁項(xiàng)集的概念用于數(shù)據(jù)庫(kù)中的事務(wù)聚類和文本聚類,提出基于頻繁項(xiàng)集的文本聚類算法.在應(yīng)用中,學(xué)者們也對(duì)基于頻繁項(xiàng)集的聚類算法不斷改進(jìn).Zhang等[20]提出MC (maximum capturing)算法,利用文檔所包含的頻繁項(xiàng)集來(lái)度量文檔間相似度,并將文檔集劃分至相似度高的聚簇中.Sethi等[21]提出混合頻繁項(xiàng)集挖掘方法,通過(guò)對(duì)數(shù)據(jù)集進(jìn)行垂直布局來(lái)解決迭代中數(shù)據(jù)集掃描的問(wèn)題,提高算法效率.Djenouri等[22]提出頻繁項(xiàng)集挖掘仿生方法,考慮頻繁項(xiàng)集的遞歸性質(zhì),并引入粒子群優(yōu)化算法.
基于頻繁項(xiàng)集的方法從文本中挖掘頻繁出現(xiàn)的詞集合,可有效降低文本特征維度,又可對(duì)聚簇結(jié)果的聚類主題進(jìn)行基本描述.然而,針對(duì)面向股評(píng)論壇中短文本比例較高的特殊情形,依然需要考慮以下三個(gè)問(wèn)題:① 聚類過(guò)程中忽略文本所包含的潛在語(yǔ)義關(guān)系,造成語(yǔ)義缺失和不合理聚類;② 聚類中仍涉及初始聚簇中心選擇與聚類數(shù)確定的問(wèn)題;③ 采用的聚類算法仍屬于文本硬聚類,僅將文本劃分至唯一聚簇中.為解決這三個(gè)問(wèn)題,有必要建立一種頻繁項(xiàng)集和潛在語(yǔ)義的融合機(jī)制,有效結(jié)合兩種方法的優(yōu)勢(shì),以實(shí)現(xiàn)對(duì)短文本深層次信息的挖掘和主題歸類.
為解決現(xiàn)有主題挖掘方法處理網(wǎng)絡(luò)股評(píng)論壇中短文本數(shù)據(jù)所存在的困難,構(gòu)建一種面向股評(píng)論壇主題發(fā)現(xiàn)的短文本聚類框架.利用頻繁項(xiàng)集與潛在語(yǔ)義相結(jié)合的STC_FL框架從在線股評(píng)抽取主題詞,再使用TSC-SN算法基于主題詞進(jìn)行文本檢索,從而實(shí)現(xiàn)特有的股評(píng)文本聚類,如圖1所示.知網(wǎng)(HowNet)是以揭示概念與概念之間和概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù).針對(duì)文本中所蘊(yùn)含的潛在語(yǔ)義關(guān)系,引入知網(wǎng)作為背景知識(shí)庫(kù)建立基于概念的向量空間,并在文本集相似度計(jì)算的基礎(chǔ)上,采用基于統(tǒng)計(jì)和潛在語(yǔ)義相結(jié)合的度量模式.通過(guò)較長(zhǎng)頻繁項(xiàng)集預(yù)估主題個(gè)數(shù),以解決聚類結(jié)果數(shù)目的最優(yōu)設(shè)定.針對(duì)融合頻繁項(xiàng)集與潛在語(yǔ)義關(guān)系的文本軟聚類,在文本檢索階段對(duì)TSC-SN算法設(shè)置短文本與主題簇間相似度閾值與簇間非重疊度參數(shù),靈活選擇和控制文本與主題間的對(duì)應(yīng)關(guān)系.采用頻繁項(xiàng)集和概念映射來(lái)降低向量空間維度,彌補(bǔ)基于向量空間的聚類所存在的語(yǔ)義缺失問(wèn)題;融合頻繁項(xiàng)集與潛在語(yǔ)義,有效降低特征空間維度的同時(shí)充分考慮潛在語(yǔ)義關(guān)系;在對(duì)主題詞相關(guān)文本進(jìn)行檢索時(shí)控制短文本與主題簇間相似度閾值,同時(shí)引入簇間非重疊度概念,利用新型文本集劃分策略實(shí)現(xiàn)文本軟聚類.
圖1 基于頻繁項(xiàng)集和潛在語(yǔ)義的短文本聚類基本框架
為了使具有潛在語(yǔ)義關(guān)系的詞能夠表達(dá)同一主題,引入語(yǔ)義知識(shí)源——知網(wǎng)作為背景知識(shí)庫(kù)來(lái)加強(qiáng)語(yǔ)義間關(guān)聯(lián),在關(guān)鍵詞向量空間中,將關(guān)鍵詞映射至知識(shí)庫(kù)中的某個(gè)概念,以概念來(lái)代替關(guān)鍵詞特征項(xiàng),在更高的概念層面上實(shí)現(xiàn)文本相似度度量,從而使同一主題的文本更容易聚集在一起.
2.1.1詞義消岐
當(dāng)某個(gè)語(yǔ)義場(chǎng)與文本中的語(yǔ)境相符時(shí),語(yǔ)義場(chǎng)中的詞也有可能出現(xiàn)在文本中,可通過(guò)對(duì)比文本中的詞和語(yǔ)義場(chǎng)中的詞來(lái)實(shí)現(xiàn)語(yǔ)義消岐.通過(guò)計(jì)算各語(yǔ)義場(chǎng)中詞在文本中的重要程度來(lái)選取概念定義式(DEF),采用語(yǔ)義場(chǎng)密度進(jìn)行度量,表現(xiàn)為語(yǔ)義場(chǎng)中詞在文本中出現(xiàn)的頻率之和.對(duì)于一個(gè)多義詞w,其第i個(gè)DEF的語(yǔ)義場(chǎng)密度定義如下所示:
式中:tj表示第i個(gè)語(yǔ)義場(chǎng)中第j個(gè)詞;f(tj)表示多義詞w的語(yǔ)義場(chǎng)中第j個(gè)詞在文本中出現(xiàn)的頻率;qi為第i個(gè)語(yǔ)義場(chǎng)中所有詞的個(gè)數(shù).語(yǔ)義場(chǎng)密度越大,語(yǔ)義場(chǎng)中的詞對(duì)文本就越重要,針對(duì)詞義消歧的DEF由下式確定:
2.1.2義原抽取
由知網(wǎng)的概念層次樹特點(diǎn)可知,義原在概念樹中的層次越深,所表達(dá)的含義就越具體,其描述能力就越強(qiáng)[23].可以認(rèn)為,義原離概念樹根節(jié)點(diǎn)越遠(yuǎn),同時(shí)下位義原個(gè)數(shù)越少,該義原的描述能力就越強(qiáng).義原權(quán)值計(jì)算如下所示:
式中:W(ZDEF,wj)為DEF中第j個(gè)義原ZDEF,wj的權(quán)值;Wtree為所在概念樹的權(quán)重;droot,j為義原j在概念樹中的層次;mj為義原j的下位義原數(shù);a、b、c為控制權(quán)值W(ZDEF,wj)取值的因子.最終,義原的選取由下式確定:
2.1.3概念向量空間構(gòu)建
在對(duì)文本、關(guān)鍵詞進(jìn)行概念抽取后,即可構(gòu)建基于概念的向量空間.假設(shè)分詞和預(yù)處理后的文本d={t1,f1(d), …,ti,fi(d), …,tn,fn(d)},ti表示文本d中的第i個(gè)關(guān)鍵詞,fi(d)表示文本d中ti的詞頻,概念向量空間表示的生成算法如圖2所示.
針對(duì)所構(gòu)建的概念向量空間,利用頻繁模式增長(zhǎng)(FP-growth)算法進(jìn)行頻繁項(xiàng)集挖掘,但得到的頻繁項(xiàng)集存在冗余度高的問(wèn)題.為此,采用相似度過(guò)濾獲取重要頻繁項(xiàng)集.首先剔除所有頻繁項(xiàng)集的子集,然后對(duì)剩余頻繁項(xiàng)集計(jì)算相似度.將頻繁項(xiàng)集相似度定義為Jaccard系數(shù)形式,如下所示:
式中:Ii表示頻繁項(xiàng)集i;J(Ii,Ij)表示Ii與Ij的
輸入:文本d的關(guān)鍵詞向量空間Vt(d)= (t1, f1(d), …, ti, fi(d), …, tn, fn(d)),閾值為θwhile d≠?且i≤n從d中依次取出關(guān)鍵詞ti;判斷關(guān)鍵詞ti在知網(wǎng)中是否存在;if ti為未登錄詞if fi(d)<θ去除;else ti的概念zi={ti},并將概念zi和詞頻fi(d)加到概念向量空間Vc(d)中;else 查詢知網(wǎng),獲取ti的概念if ti只有一個(gè)DEF定義計(jì)算每個(gè)義原的權(quán)值W(ZDEF,wj),選擇權(quán)值最大者作為ti的概念zi,并統(tǒng)計(jì)zi頻率,將zi加入至概念向量空間Vc(d)中;else 通過(guò)詞義消岐選擇ti的語(yǔ)義場(chǎng)密度最大的DEF,再選擇其中權(quán)值最大的義原計(jì)算頻率,作為ti的向量加入至概念向量空間Vc(d)中;i=i+1;endreturn 文本d的概念向量空間Vc(d)= {z1, f1(d), …, zi, fi(d), …, zk, fk(d)}
圖2 概念向量空間表示的生成算法
Fig.2 Generation algorithms for conceptual vectorspace representation
Jaccard系數(shù);|Ii∩Ij|表示Ii與Ij的交集元素個(gè)數(shù);|Ii∪Ij|表示Ii與Ij的并集元素個(gè)數(shù).若頻繁項(xiàng)集相似度大于設(shè)定值,則剔除,否則保留.將每一頻繁項(xiàng)集作為一個(gè)檢索詞串,從文本中查詢出相關(guān)文本集合.因此,兩個(gè)頻繁項(xiàng)集間的相似度計(jì)算就可由其相關(guān)文本集間相似度來(lái)替代,如下所示:
(1)
式中:Di和Dj分別為包含頻繁項(xiàng)集Ii和Ij的文本集;gi為頻繁項(xiàng)集Ii中詞的個(gè)數(shù);Wj為每個(gè)詞的權(quán)重;fjk為詞tj在文本dk中出現(xiàn)的次數(shù).設(shè)ζ為頻繁項(xiàng)集與文本間最小相似度,當(dāng)Sim1(Ii,dk)≥ζ時(shí),將文本dk劃分至頻繁項(xiàng)集Ii的相關(guān)文本集Di中.由此,即可得到頻繁項(xiàng)集相似度較高的文本集.
2.2.1文本潛在語(yǔ)義分析
潛在語(yǔ)義分析(LSA)是Scott等于1990年提出的一種索引與檢索方法[7].基于該方法的表示過(guò)程為矩陣奇異值分解(SVD)與降維,具體步驟如下所示:
(1) 分析文檔集,建立詞-帖子矩陣.假設(shè)帖子數(shù)量為n,涵蓋m個(gè)詞,Xm×n=(Xij)=(c1,c2, …,cn),Xij表示詞i在帖子j中出現(xiàn)的頻數(shù).
(2) 運(yùn)用SVD將Xm×n分解為三個(gè)矩陣的乘積,Xm×n=USVT.其中,U和V分別為m×m與n×n的正交矩陣,S為對(duì)角矩陣,S的非零對(duì)角元素δi(i=1, 2, …,r)為矩陣Xm×n的奇異值,r為非零對(duì)角元素的個(gè)數(shù).
(3) 對(duì)SVD后的矩陣進(jìn)行降維,剔除較小奇異值.計(jì)算得到原矩陣的相似矩陣X′,構(gòu)建潛在語(yǔ)義空間,將文檔向量與查詢向量映射至一個(gè)子空間,該空間中來(lái)自文檔矩陣的語(yǔ)義關(guān)系被保留,從而計(jì)算出帖子間的相似度.
2.2.2文本語(yǔ)義相關(guān)度度量
為充分考慮自然語(yǔ)言中所蘊(yùn)涵的語(yǔ)義問(wèn)題,提出將語(yǔ)義和統(tǒng)計(jì)相結(jié)合的文本語(yǔ)義相關(guān)度度量方法.在考察頻繁項(xiàng)集相關(guān)的文本集間相關(guān)度時(shí)采用以下兩種計(jì)算方式:基于Jaccard系數(shù)和基于SVD相似矩陣.基于Jaccard系數(shù)和基于SVD相似矩陣計(jì)算式如下所示:
(2)
式中:ci為文本集Di中所有文本合并生成的長(zhǎng)向量;xir(r=1,2,…,R)為ci中的元素;Sim2(Di,Dj)和Sim3(Di,Dj)分別為基于Jaccard系數(shù)和基于SVD相似矩陣的潛在語(yǔ)義分析所計(jì)算的文本集語(yǔ)義相關(guān)度;Seqcom(*, *)為最終文本集之間的語(yǔ)義相關(guān)度.設(shè)η為文本集之間Jaccard系數(shù)最小語(yǔ)義相關(guān)度,ω為文本集間的潛在語(yǔ)義最小相似度,則Seqcom(*, *)計(jì)算按照以下策略進(jìn)行:
步驟1計(jì)算度量文本集Di和Dj間語(yǔ)義相關(guān)度的Jaccard系數(shù).若J(Di,Dj)≥η,則Di和Dj語(yǔ)義相關(guān),否則執(zhí)行步驟2.
步驟2計(jì)算相關(guān)文本集Di和Dj間的潛在語(yǔ)義相關(guān)度cos(ci,cj),若cos(ci,cj)≥ω,則Di和Dj語(yǔ)義相關(guān),否則兩者不相關(guān).
2.2.3基于潛在語(yǔ)義分析的聚類
字符較多的頻繁項(xiàng)集表達(dá)完整且明確的主題,利用較長(zhǎng)頻繁項(xiàng)集進(jìn)行聚類所得到聚類數(shù)可作為總體頻繁項(xiàng)集V的初始聚類數(shù).選取較長(zhǎng)頻繁項(xiàng)集集合I*={vi|vi∈V, |vi|>2},設(shè)定初始簇C1={v1|v1∈I*},初始簇集C={C1},初始簇?cái)?shù)目K=1,則對(duì)?vi∈I*,依次比較vi與當(dāng)前所有簇Ck∈C間的相似度.對(duì)較長(zhǎng)頻繁項(xiàng)集聚類后將簇按大小排序,依次累計(jì)簇的元素個(gè)數(shù),直至累計(jì)之和大于集合I*長(zhǎng)度的80%為止,此時(shí)已累計(jì)簇的數(shù)量即為預(yù)估的聚類數(shù)K.為此,頻繁項(xiàng)集與簇間的相似度計(jì)算如下所示:
對(duì)任一頻繁項(xiàng)集vi與簇Ck間的相似度,可利用vi與Ck中所有頻繁項(xiàng)集的平均相似度來(lái)計(jì)算.
輸入:重要頻繁項(xiàng)集集合V′={vi|vi=Ii, i=1, 2, …, N},用于挖掘頻繁項(xiàng)集的文本集D?={dj|j=1, 2, …, M},詞權(quán)重集W={Wp|p=1, 2, …, P},參數(shù)η、ω、ζ以及簇與頻繁項(xiàng)集間最小相似度γ初始化:初始化每個(gè)頻繁項(xiàng)集vi的相關(guān)文本集Di=?,?vi∈V′, dj∈D?,根據(jù)式(1)計(jì)算Sim1(vi, dj);if Sim1(vi, dj)≥ζ將dj加入至vi的相關(guān)文本集Di中;建立相似度矩陣X?,元素Wij由式(2)中的Sim2(Di, Dj)和Sim3(Di, Dj)比較得到;if Sim2(Di, Dj)=J(Di, Dj)≥ηWij=Sim2(Di, Dj);else if Sim3(Di, Dj)=cos(c1, c2)≥ωWij=Sim3(Di, Dj);else Wij=min{Sim2(Di, Dj), Sim3(Di, Dj)};endreturn 相似度矩陣X?;預(yù)估的聚類數(shù)K按照譜聚類算法對(duì)頻繁項(xiàng)集進(jìn)行聚類
圖3 基于頻繁項(xiàng)集和潛在語(yǔ)義的聚類算法
Fig.3 Clustering algorithm based on frequent item-sets and latent semantics
基于主題簇的主題詞抽取,主要從詞性、詞頻、詞的簇內(nèi)支持度以及詞的簇間區(qū)分度綜合考慮.有關(guān)詞tki的主題詞分值計(jì)算式如下所示:
式中:fi為詞tki在高質(zhì)量文本集中出現(xiàn)的頻率;Sk(i)為簇Ck中包含詞tki的頻繁項(xiàng)集的個(gè)數(shù);IKey為重要頻繁項(xiàng)集集合;|Ii| (Ii∈IKey)為包含詞tki的頻繁項(xiàng)集個(gè)數(shù);|Ci|為包含詞tki的聚類數(shù);|C|為總聚類數(shù);W(i)為詞tki的詞性權(quán)重.
短文本聚類可看作在主題詞基礎(chǔ)上進(jìn)行信息檢索,尋找出與短文本di(di∈D)相似度較大的聚簇Ck(Ck∈C),簇與短文本相似度度量依據(jù)式(1)計(jì)算.TSC-SN算法允許同一文本劃分至多個(gè)主題.設(shè)文本與聚簇間的相似度閾值為λ,簇間非重疊度參數(shù)pnol的臨界值為δ.主題詞集Tk與短文本di間的相似度Sim1(Tk,di)>λ時(shí),將文本劃分至相似度大于λ的若干個(gè)聚簇中,實(shí)現(xiàn)文本與主題間一對(duì)多的對(duì)應(yīng)關(guān)聯(lián).pnol的計(jì)算式如下所示:
式中:N為文本總數(shù);|Cij|為初始簇Ci經(jīng)過(guò)第j次文本劃分后所包含的文本數(shù);K′為主題簇個(gè)數(shù).基于TSC-SN算法的文本軟聚類算法的具體步驟如下所示:
步驟1計(jì)算短文本di∈D與簇Ck∈C的主題詞Tk={tk1,tk2, …,tks}間的相似度,將短文本di劃分到相似度最大的簇,即argmax(Sim1(Tk,di)).
步驟2降低相似度閾值θ,θ∈[0, 1],可從1開始逐漸下調(diào).選定θ后將Sim1(Tk,di)>θ時(shí)的文本劃分至相似度大于θ的若干簇中.
步驟3計(jì)算在選定θ下的pnol,若pnol≤δ,則聚類結(jié)束.
步驟4重復(fù)步驟2和步驟3,直至pnol≤δ.
在對(duì)主題詞相關(guān)的文本進(jìn)行檢索時(shí),控制短文本與主題簇之間的θ,不斷降低θ,計(jì)算每次降低后的總體文本pnol,直到滿足pnol≤δ為止.由此,既可控制總體文本重疊度,又可實(shí)現(xiàn)文本軟劃分.
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于新浪財(cái)經(jīng)股吧論壇,涵蓋2015年5月至2015年12月期間與七個(gè)股市熱點(diǎn)事件相關(guān)的64 286條評(píng)論數(shù)據(jù),日均股評(píng)發(fā)帖量262條.該期間內(nèi)國(guó)內(nèi)股市行情波動(dòng)較大,經(jīng)歷比較明顯的上漲和下跌,并且引發(fā)股民熱烈討論,有利于論壇中多樣化主題和熱點(diǎn)的挖掘.基于在線股評(píng)數(shù)據(jù),根據(jù)知網(wǎng)中所蘊(yùn)含的概念上下位關(guān)系,知網(wǎng)中的義原共構(gòu)成“事件樹”、“實(shí)體樹”、“專有名詞樹”、“屬性樹”、“次特征樹”等九棵概念樹.鑒于名詞與動(dòng)詞更能體現(xiàn)文本的語(yǔ)義內(nèi)涵,賦予“實(shí)體樹”和“事件樹”更高的權(quán)重,分別設(shè)置為1.00和0.25.“次特征樹”中“領(lǐng)域”分支下的義原能加強(qiáng)文本的主題區(qū)分度,將其權(quán)重設(shè)置為0.15.“專有名詞樹”主要涵蓋國(guó)家名稱義原,但這些詞本身已是不可再分的語(yǔ)義單位,因此這類義原不參與概念抽取,將其權(quán)重設(shè)為0.其他概念樹中所包含的概念對(duì)文本類別區(qū)分的貢獻(xiàn)都比較小,相應(yīng)權(quán)重均設(shè)置為0.1.針對(duì)義原權(quán)值W(ZDEF,wi)計(jì)算中所涉及的三個(gè)參數(shù)a、b、c,分別設(shè)置為1.50、5.00和0.15.經(jīng)過(guò)文本預(yù)處理后所得到的關(guān)鍵詞數(shù)為46 382,特征空間的概念數(shù)為19 075,特征空間維度縮減58.9%,有效緩解概念向量空間表示中所存在的高維度問(wèn)題.
3.1.1重要頻繁項(xiàng)集數(shù)的參數(shù)分析
為通過(guò)頻繁項(xiàng)集過(guò)濾策略獲得比較完整與冗余性低的重要頻繁項(xiàng)集集合,特別分析最小支持度min_sup和頻繁項(xiàng)集間的Jaccard系數(shù)最大相似度α與重要頻繁項(xiàng)集個(gè)數(shù)的關(guān)系,分別設(shè)置α的不同取值,觀測(cè)每個(gè)取值下過(guò)濾后的重要頻繁項(xiàng)集數(shù)與最小支持度min_sup之間的變化規(guī)律,如圖4所示.
由圖4可知,在α的不同設(shè)置中,過(guò)濾后的頻繁項(xiàng)集占頻繁項(xiàng)集總數(shù)的百分比均不超過(guò)20%,有利于提高頻繁項(xiàng)集聚類的效率.為挖掘出更多的頻繁項(xiàng)集,這里將min_sup設(shè)置較低,由此可得到大量包含主題信息的頻繁項(xiàng)集,再通過(guò)過(guò)濾策略得到高質(zhì)量的重要頻繁項(xiàng)集.過(guò)濾策略的方法復(fù)雜度低,不會(huì)增加過(guò)多的時(shí)間消耗.α設(shè)置越高,過(guò)濾后的重要頻繁項(xiàng)集所占百分比越高.當(dāng)α取值為0.4與0.5時(shí),重要頻繁項(xiàng)集的百分比相差較小;當(dāng)α取值為0.6時(shí),重要頻繁項(xiàng)集的百分比顯著增大.這主要是因?yàn)榛贔P-growth算法挖掘獲取的頻繁項(xiàng)集中包含大量3-項(xiàng)集.當(dāng)α取值為0.4或0.5時(shí),兩個(gè)3-項(xiàng)集中若有兩個(gè)重疊項(xiàng),則被過(guò)濾掉;當(dāng)α取值為0.6時(shí),兩個(gè)3-項(xiàng)集都會(huì)被保留.這說(shuō)明α取值為0.6是不合理的,會(huì)造成大量冗余頻繁項(xiàng)集未被過(guò)濾.另外,過(guò)濾后頻繁項(xiàng)集的比例與min_sup成反比關(guān)系,這是因?yàn)閙in_sup越高就會(huì)產(chǎn)生越多的1-項(xiàng)集和2-項(xiàng)集,這些項(xiàng)集幾乎是其他頻繁項(xiàng)集的子集,很容易被過(guò)濾掉,使得重要頻繁項(xiàng)集的比例降低.
圖4 過(guò)濾后頻繁項(xiàng)集所占百分比與最小支持度的關(guān)系
Fig.4 Relationship between frequent item-sets proportion and minimum support degree after filtering
3.1.2聚類數(shù)的參數(shù)分析
為進(jìn)一步分析min_sup與α、頻繁項(xiàng)集與頻繁項(xiàng)集簇間最小相似度β對(duì)預(yù)估聚類數(shù)的影響,選取min_sup∈{20, 25, 30, 40, 50, 60}、α∈{0.4, 0.5, 0.6}以及β∈{0.2, 0.4, 0.6}時(shí)來(lái)預(yù)估聚類數(shù),實(shí)驗(yàn)結(jié)果如表1所示.
表1 針對(duì)不同參數(shù)的預(yù)估聚類數(shù)比較
由表1可知,聚類數(shù)隨著min_sup和α的增加而逐漸減小,主要因?yàn)閙in_sup增加時(shí)一些話題無(wú)法產(chǎn)生較長(zhǎng)頻繁項(xiàng)集,在預(yù)估聚類數(shù)時(shí)直接將其忽略.另外,當(dāng)α增加時(shí),新增加的頻繁項(xiàng)集往往被分配到規(guī)模較大的前幾個(gè)頻繁項(xiàng)集簇中,而在估計(jì)聚類數(shù)時(shí)選擇頻繁項(xiàng)集累計(jì)總數(shù)占總頻繁項(xiàng)集數(shù)80%以上的簇個(gè)數(shù)作為聚類數(shù).因此,當(dāng)更多頻繁項(xiàng)集劃入較大規(guī)模的簇中時(shí),聚類數(shù)會(huì)減少.此外,β對(duì)預(yù)估聚類數(shù)影響較大.當(dāng)β設(shè)置為0.2或0.4時(shí),針對(duì)α和min_sup的不同設(shè)置,聚類數(shù)相近并且比較穩(wěn)健.當(dāng)β設(shè)置為0.6時(shí),原來(lái)比較相似的簇會(huì)被劃分成更小的簇,聚類數(shù)也明顯增多.
綜合上述分析,考慮效率與準(zhǔn)確性的平衡,設(shè)定min_sup=25、α=0.6以及β=0.4.
3.2.1主題詞提取
將名詞、動(dòng)詞與形容詞的權(quán)重分別設(shè)定為1.00、0.25和0.15,按前文方法對(duì)主題詞簇中每個(gè)詞打分后,選擇排序在前τ位的詞為該簇主題詞,這里設(shè)定τ=4.針對(duì)聚類數(shù)K不同設(shè)置的各事件主題詞提取結(jié)果如表2所示.
由表2可知:當(dāng)聚類數(shù)K=7時(shí),股市暴跌這一事件分裂為兩個(gè)子主題,一類討論股市暴跌時(shí)國(guó)家是否會(huì)及時(shí)出臺(tái)救市政策,另一類討論暴跌所帶來(lái)的恐慌情緒與投資者信心受挫,通過(guò)股吧論壇原文數(shù)據(jù)分析可發(fā)現(xiàn),對(duì)于股市暴跌這一事件的討論詞區(qū)分度較大,一定程度上說(shuō)明股市暴跌時(shí)投資者情緒波動(dòng)較大,意見分歧明顯;當(dāng)聚類數(shù)K=8時(shí),救市事件也被分裂為兩個(gè)子主題,一類討論國(guó)家出臺(tái)相關(guān)救市政策及影響,另一類討論為防止大盤崩盤央行緊急制定各種政策;當(dāng)聚類數(shù)K=6時(shí),這些分裂簇會(huì)消失,其他簇則幾乎不變.這說(shuō)明本文所選取的聚類方法在主題抽取方面比較穩(wěn)定且準(zhǔn)確.
表2 針對(duì)聚類數(shù)K不同設(shè)置的各事件主題詞提取結(jié)果
注:ETF為交易型開放式指數(shù)基金; IPO為首次公開募股.
3.2.2文本聚類
通過(guò)計(jì)算文本與頻繁項(xiàng)集簇中主題詞之間的相似度,將文本劃分至相似度最高的主題詞簇下,圍繞2015年股市大幅下跌前后的評(píng)論數(shù)據(jù)進(jìn)行文本聚類,部分聚類結(jié)果如圖5所示.
圖5 基于頻繁項(xiàng)集的短文本聚類部分結(jié)果
首先根據(jù)argmax(Sim1(Tk,di))將短文本di劃分至相似度最大的簇中,此時(shí)pnol=1,對(duì)應(yīng)圖5中第一次聚類結(jié)果;若設(shè)定δ=0.8,則降低θ(θ∈[0, 1]).選定θ=0.6,將符合Sim1(Tk,di)>0.6的文本劃分至相似度大于0.6的若干簇中,對(duì)應(yīng)圖5中第二次聚類結(jié)果,此時(shí)再次計(jì)算θ=0.6下的pnol(0.916).因pnol>δ,需重復(fù)調(diào)低θ值,將文本進(jìn)行軟劃分之后再計(jì)算pnol.隨著θ值增大,pnol呈現(xiàn)緩慢上升趨勢(shì),這是因?yàn)榫垲愇谋鹃L(zhǎng)度較短,大部分僅表達(dá)一個(gè)主題,少數(shù)文本與多個(gè)主題簇之間相似度均較高.有關(guān)pnol隨文本與θ變化情況,如圖6所示.
圖6 聚類簇間非重疊度與文本-簇相似度閾值關(guān)系
Fig.6 Relationship between non-overlapping degree of clusters and text-cluster similarity threshold
通過(guò)重復(fù)對(duì)θ進(jìn)行取值與文本軟劃分,發(fā)現(xiàn)將θ取值為0.4時(shí)所計(jì)算出的pnol=0.762,滿足終止條件pnol<δ=0.8.
針對(duì)頻繁項(xiàng)集聚類效果的評(píng)估,選擇聚類后簇內(nèi)平均緊密度c與簇間平均分離度s作為比較對(duì)象,計(jì)算式如下所示:
式中:uk為聚類簇Ck的中心向量;ui與uj分別為不同聚類簇的中心向量;l為歐氏距離.高質(zhì)量的聚類算法應(yīng)具有低簇內(nèi)緊密度和高簇間分離度.整體性能評(píng)估采用涵蓋準(zhǔn)確率、召回率及F值,F(xiàn)值為準(zhǔn)確率與召回率的加權(quán)平均.考慮到當(dāng)α∈{0.4, 0.6}與β∈{0.2, 0.4}時(shí),所估計(jì)的聚類數(shù)集中分布在{6, 7, 8},因此將聚類數(shù)K值設(shè)置為6、7、8.
3.3.1頻繁項(xiàng)集聚類性能對(duì)比分析
為驗(yàn)證基于知網(wǎng)獲取概念向量空間TSC-SN算法的性能,選取基于關(guān)鍵詞向量空間的V_SC譜聚類算法、V_K-means算法、V_TSC-SN算法進(jìn)行比較.因四種聚類算法并非都在歐氏空間進(jìn)行聚類,無(wú)法直接比較算法的簇內(nèi)平均緊密度c與簇間平均分離度s,因而選擇比值c/s作為評(píng)價(jià)指標(biāo).四種算法的參數(shù)設(shè)置均相同,對(duì)比結(jié)果如表3所示.
表3 四種聚類算法的性能對(duì)比
由表3可知,針對(duì)不同聚類數(shù),TSC-SN算法和V_TSC-SN算法的c/s值小于V_SC與V_K-means算法,相比于基于歐氏空間的距離度量法,TSC-SN算法的頻繁項(xiàng)集聚類效果更優(yōu).TSC-SN算法的c/s值也小于V_TSC-SN算法,說(shuō)明基于知網(wǎng)獲取概念向量空間的聚類結(jié)果優(yōu)于基于關(guān)鍵詞向量空間的聚類結(jié)果,驗(yàn)證了本文算法的有效性.
3.3.2主題發(fā)現(xiàn)性能對(duì)比分析
為評(píng)估本文算法所獲取的主題類別效果,計(jì)算出相應(yīng)的最大F值,如表4所示.
表4 不同事件的文本聚類整體性能
由表4可知,在本文所提出的基于頻繁項(xiàng)集和潛在語(yǔ)義相結(jié)合的論壇主題發(fā)現(xiàn)算法框架下,不同事件的最大F值整體上均較高.當(dāng)K為7時(shí),大部分事件的最大F值優(yōu)于K取6與8時(shí)的情況.另外,K為6與7時(shí),不同事件的最大F值相差較小,因?yàn)椤按蟊P暴跌”和“投資者恐慌”這兩個(gè)主題經(jīng)常同時(shí)出現(xiàn),文本軟劃分時(shí)這兩個(gè)主題簇重疊度較高.
為進(jìn)一步驗(yàn)證本文算法在基于文本聚類的主題發(fā)現(xiàn)上的整體性能,選取基于關(guān)鍵詞向量空間的V_EM算法、V_K-means算法、V_TSC-SN算法以及基于概念向量空間但未考慮潛在語(yǔ)義的C_TSC-SN算法進(jìn)行比較,結(jié)果如圖7所示.
由圖7可知,TSC-SN算法的整體性能最優(yōu),F(xiàn)值最大.V_EM和V_K-means算法的整體性能F值均低于其他三種算法.這主要是因?yàn)榇蟛糠治谋据^短,從而造成向量空間的稀疏性,使得僅從歐氏距離度量相似度比較低效,由此得到聚類中心向量所表達(dá)的主題不集中,聚類結(jié)果不理想.TSC-SN算法與V_TSC-SN算法相比,前者略優(yōu)于后者,兩種算法效果優(yōu)于C_TSC-SN算法,說(shuō)明結(jié)合潛在語(yǔ)義進(jìn)行相似度分析后所得到的主題簇更為全面.
圖7 不同聚類算法F值對(duì)比
Fig.7 Comparison ofF-measure values among different clusting algorithms
3.3.3時(shí)間性能對(duì)比分析
為驗(yàn)證TSC-SN算法的時(shí)間性能,選取基于概念向量空間的C_K-means算法、V_SC算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖8所示.
圖8 不同聚類算法時(shí)間性能對(duì)比
由圖8可知,TSC-SN算法在時(shí)間性能上表現(xiàn)最優(yōu),并且隨著文本數(shù)量的增加運(yùn)行時(shí)間增加較為緩慢.比較TSC-SN和V_SC的運(yùn)行時(shí)間可見,基于知網(wǎng)獲取概念向量空間后可有效緩解短文本高維度問(wèn)題,降低算法運(yùn)行時(shí)間.
針對(duì)股評(píng)論壇主題發(fā)現(xiàn)問(wèn)題,提出利用頻繁項(xiàng)集和潛在語(yǔ)義相結(jié)合的框架從在線股評(píng)抽取主題詞,使用TSC-SN算法基于主題詞進(jìn)行文本檢索以實(shí)現(xiàn)文本軟聚類,進(jìn)而獲取股評(píng)論壇相關(guān)文本的主題.實(shí)驗(yàn)結(jié)果表明,該方法具有明顯優(yōu)勢(shì).利用潛在語(yǔ)義信息與多層次聚類優(yōu)化策略,是提高大規(guī)模短文本聚類效果以獲取文本主題的有效方式.未來(lái)研究將進(jìn)一步拓展目前的整體框架與文本情感傾向性分析的融合,考慮短文本中修飾詞、專有詞項(xiàng)的詞法層檢測(cè)和語(yǔ)義層分析,充分利用短文本中的多樣性信息,延伸更為深層次的主題發(fā)現(xiàn)與情感獲取.