亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法

2016-11-08 08:33:44馬慧芳曾憲桃李曉紅

計算機(jī)應(yīng)用與軟件 2016年10期

關(guān)鍵詞：詞項短文文檔

馬慧芳　曾憲桃　李曉紅　贠　寧

(西北師范大學(xué)計算機(jī)科學(xué)與工程學(xué)院　甘肅蘭州 730070)

一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法

馬慧芳曾憲桃李曉紅贠寧

(西北師范大學(xué)計算機(jī)科學(xué)與工程學(xué)院甘肅蘭州 730070)

傳統(tǒng)文本表示方法通常基于詞袋模型,而詞袋模型是基于文本中詞項之間是相互獨立的假設(shè)。最近也提出一些通過詞共現(xiàn)來獲取詞項之間關(guān)系的統(tǒng)計分析方法，卻忽略了詞項之間的隱含語義。為了解決傳統(tǒng)文本表示方法詞袋模型對文本語義的忽略問題，提出一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法。通過詞語之間的內(nèi)聯(lián)及外聯(lián)關(guān)系耦合得到詞語關(guān)聯(lián)關(guān)系，充分挖掘了顯示和隱含的語義信息；同時以關(guān)聯(lián)關(guān)系作為初始詞語相似度，迭代計算詞語之間及文本之間的相似度，改善了短文本的表示。實驗證明，該方法顯著地提高了短文本聚類的性能。

內(nèi)聯(lián)關(guān)系外聯(lián)關(guān)系詞語相似度文本相似度短文本相似度

0　引　言

近年來隨著社交網(wǎng)絡(luò)的興起，短信、微博等短文本形式的信息量急劇增長。短文本的出現(xiàn)給文本的研究也帶來了新的挑戰(zhàn)：首先，短文本篇幅短小，往往不能提供足夠的統(tǒng)計信息；其次，在社交網(wǎng)絡(luò)中，縮寫詞廣泛地使用，新單詞不斷地創(chuàng)建，這也給獲取短文本的語義信息帶來很大的挑戰(zhàn)。傳統(tǒng)的文本表示方法詞袋模型忽略文本詞語間的上下文聯(lián)系，將文本表示成一個空間向量VSM(VectorSpaceModel)[1]，用TF-IDF(詞頻及逆文檔頻率)作為其權(quán)值，該方法在長文本的研究中取得了不錯的效果。但若將此方法簡單地運用在短文本上，得到的數(shù)據(jù)集矩陣往往出現(xiàn)高維稀疏的問題。

為了更多地獲取詞語間的語義信息，近年來提出了各種改進(jìn)的方法，主要分為兩大類：一類是擴(kuò)充短文本特征空間，代表性的工作包括基于統(tǒng)計分析挖掘語義信息的上下文向量模型[2,3]；還有通過外部知識庫來加強短文本語義信息的，如使用Wordnet[4]、維基百科[5]等。這些方法僅僅簡單地考慮文本中詞語的共現(xiàn)關(guān)系，同時還存在外部知識庫與文本內(nèi)容間不匹配的問題，也仍將忽略大量隱含的語義信息。另一類是通過關(guān)鍵詞技術(shù)來提煉短文本語義信息。有利用很少的詞提升短文本分類的方法[6]，但是如何獲取關(guān)鍵詞卻是非常困難的。同時，雖然關(guān)鍵詞在語義上能精簡短文本表示，但從統(tǒng)計學(xué)的角度看，關(guān)鍵詞技術(shù)將短文本短小的特征進(jìn)一步加劇，同樣不利于短文本模型的構(gòu)建。

為了克服傳統(tǒng)文本模型的缺陷，本文在耦合詞項關(guān)系[7,8]及語義信息和統(tǒng)計分析相結(jié)合[9]的啟發(fā)下，提出一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法。具體地，首先利用詞語間內(nèi)聯(lián)及外聯(lián)關(guān)系計算耦合關(guān)系作為初始詞語相似度；然后迭代計算詞語以及文本之間的相似度，直到其結(jié)果收斂為止；最后由詞語間相似度構(gòu)造出相似性矩陣。本文方法不僅通過耦合關(guān)系充分挖掘文本詞語間的語義信息，同時迭代計算詞語之間以及文本之間的相似度，改善了短文本的表示。因此，構(gòu)造的短文本模型能顯著提高短文本聚類的性能。流程如圖1所示。

圖1　程序流程

1　相關(guān)工作

1.1文本表示模型

文本集D通常被表示成D={d1,d2,…,dM}，其中di表示文檔集中的一個文檔，并且每個文檔di都被表示成一個空間向量：

(1)

其中：ti是文檔集中出現(xiàn)的某個詞語，M是文本集D中的文本的總數(shù)，N是文本集D中所有不重復(fù)出現(xiàn)的單詞的總數(shù)。TF是詞頻，它是指單詞在給定文檔中出現(xiàn)的次數(shù)。IDF以出現(xiàn)某個單詞的文本數(shù)為參數(shù)來構(gòu)建單詞的權(quán)重，可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目，再將得到的商取對數(shù)得到。公式如下：

(2)

其中：ni表示出現(xiàn)單詞ti的文檔數(shù)目。為了綜合考慮詞對單篇文檔的重要程度及其在整個文檔集中的區(qū)分能力，通常將TF和IDF綜合起來作為空間向量的權(quán)值。

文本集D就被表示成一個M×N維的矩陣W。W的行代表文本集D中的文檔，列代表文檔集中的詞項。

1.2關(guān)聯(lián)詞信息

傳統(tǒng)向量空間模型忽略詞語間的上下文關(guān)系，但是詞語間關(guān)系對充分挖掘文本蘊含的內(nèi)容、擴(kuò)充文本表示模型具有至關(guān)重要的作用。本文將關(guān)聯(lián)詞信息定義為兩種，如圖2所示。

圖2　關(guān)聯(lián)詞類型

圖中分別表示兩篇文檔，黑色點表示兩篇文檔中共有的詞項，實線框內(nèi)表示關(guān)聯(lián)詞關(guān)系的兩種模式。左圖表示詞項在同一篇文檔中的關(guān)聯(lián)關(guān)系，稱之為詞語的內(nèi)聯(lián)關(guān)系；右圖表示詞項在不同文檔中的關(guān)聯(lián)關(guān)系，稱為詞語的外聯(lián)關(guān)系。詳細(xì)的關(guān)聯(lián)關(guān)系定義如下：

定義1(內(nèi)聯(lián)關(guān)系)若兩個詞語在同一篇文檔中共現(xiàn)，則這兩個詞語具有內(nèi)聯(lián)關(guān)系，如圖3左部所示。

圖3　內(nèi)聯(lián)及外聯(lián)關(guān)系示意圖

圖中詞ti和tk在d1中共現(xiàn)，tj和tk在d2中共現(xiàn),因此ti和tk、tj和tk之間是有內(nèi)聯(lián)關(guān)系的。根據(jù)Jaccard相似度[10]計算得出ti和tk的共現(xiàn)關(guān)系：

(3)

其中：ti、tk和tj都是文檔集中的某個詞項，i、j、k均小于N；W表示文本集D的矩陣，Wxi和Wxk分別代表詞ti和tk在文檔dx中的TF-IDF的權(quán)值。|H|表示集合H={x|(Wxi≠0)∪(Wxk≠0)}中的元素個數(shù)，如果集合H為空則CoR(ti,tk)=0。

為了得出實際需要的內(nèi)聯(lián)關(guān)系，利用條件概率將共現(xiàn)關(guān)系規(guī)范化到[0,1]之間，公式如下：

(4)

定義2(外聯(lián)關(guān)系)在兩篇不同文檔中，若d1和d2中的詞與共有詞中的同一個詞共現(xiàn)，則這兩個詞具有外聯(lián)關(guān)系，如圖3右部所示。

圖中詞ti和詞tk在d1中共現(xiàn),詞tj和詞tk在d2中共現(xiàn)，通過詞tk可以把詞ti和詞tj關(guān)聯(lián)起來。詞ti和詞tj通過關(guān)聯(lián)詞tk聯(lián)系的外聯(lián)關(guān)系定義如下：

R_IeR(ti,tj|tk)=min(IaR(ti,tk),IaR(tj,tk))

(5)

其中：IaR(ti,tk)和IaR(tj,tk)分別代表詞ti和詞tk、詞tj和詞tk的內(nèi)聯(lián)關(guān)系。

考慮數(shù)據(jù)集中所有能將詞ti和詞tj聯(lián)系起來的關(guān)聯(lián)詞，求得詞ti和詞tj的最終外聯(lián)關(guān)系并將其規(guī)范化到[0,1]之間，公式如下：

(6)

其中：|L|是集合L={tk|(IaR(tk,ti)>0)∩(IaR(tk,tj)>0)}中的元素個數(shù)，如果L為空則定義IeR(ti,tj)=0。

2　文本相似度

2.1耦合詞項關(guān)系

上文中詞語間內(nèi)聯(lián)關(guān)系表征兩個詞在同一篇文檔中的相關(guān)性大小，而詞語的外聯(lián)關(guān)系挖掘出兩個詞不在同一篇文檔中出現(xiàn)但可能相關(guān)的特性。所以，通過綜合詞語的內(nèi)外聯(lián)關(guān)系，可以充分挖掘出詞語間全部的語義信息，得出耦合詞項關(guān)系(CR)：

(7)

其中：α∈[0,1]是決定內(nèi)聯(lián)關(guān)系權(quán)重的參數(shù)，IaR(ti,tj)和IeR(ti,tj)分別代表詞ti和詞tj的內(nèi)聯(lián)和外聯(lián)關(guān)系。

詞語間初始相似度矩陣SCR(i,j)=CR(ti,tj)，SCR(i,j)的值在0～1之間，0表明兩個詞之間是完全沒有關(guān)系的，1表示兩個詞是完全一樣的。SCR(i,j)的值越高，兩個詞之間的相似度越高。

2.2迭代計算詞項之間，文本之間的相似度

基于耦合詞項關(guān)系得出的詞語之間的相似度，對于文檔集中的任意兩個短文本片段d1和d2的相似度被定義成：

(8)

其中：

sim(wj,wk)=SCR(j,k)

同樣地，基于兩個短文本片段的相似度，可以重新定義兩個詞之間的相似度：

(9)

其中：

由上面的計算可以看出，如果兩個詞在多篇文檔中共現(xiàn)或者在相似的文檔中出現(xiàn)，則認(rèn)為它們在概念上很相似。

前面的式(8)、式(9)中，Sjk由詞語之間的相似度得到，Tik則由文本片段之間的相似度得到?？梢钥闯?，文本之間的相似度和詞語之間的相似度是相互依賴并且循環(huán)計算的，因此文本之間相似度和詞語之間相似度的計算可以通過迭代算法來求解，迭代的函數(shù)定義如下：

sim(l)(d1,d2)=(1-λ)sim(l-1)(d1,d2)+

(10)

sim(l)(w1,w2)=(1-λ)sim(l-1)(w1,w2)+

(11)

其中：參數(shù)λ是阻尼系數(shù)，取值在 0～1之間，l表示第l次迭代計算，式(10)和式(11)中的λ可以取不同的值(在本文的實驗中為了簡便計算就取了相同的值，都為0.5)。

迭代計算詞語及文本相似度直到它們的值收斂。理論上是無法保證式(10)和式(11)是收斂的，因此在實際求解時，每次迭代后都把參數(shù)λ的值減少20%以加快迭代速度。

2.3構(gòu)建相似性矩陣

(12)

(13)

(14)

由于每個詞和它本身肯定是相似的，因此上式中加號左邊的結(jié)果包含的所有元素都是非零的。此外，假設(shè)語料庫中至少存在兩個詞是相似的，這就可以保證加號右邊的結(jié)果是一個非零的矩陣。由于短文本片段中出現(xiàn)的所有詞都存在一定的語義相似性，所以文本向量中的元素都是非零的。因此，映射之后，每個短文本的空間向量都將不再那么稀疏。

(15)

其中：dnew是新來文本的空間向量，di是文本庫中已經(jīng)存在的文本向量。

3　實　驗

3.1數(shù)據(jù)集

本部分實驗數(shù)據(jù)采用20個新聞組的共20 000篇短文本片段[11]。由于是網(wǎng)頁數(shù)據(jù)，所以首先對其進(jìn)行去標(biāo)簽處理，然后去除停用詞，最終得到實驗可用的數(shù)據(jù)。依據(jù)本文提出的方法對實驗數(shù)據(jù)進(jìn)行建模，最后使用k-means[12]聚類算法和hardmo-VMF[9]算法對實驗數(shù)據(jù)進(jìn)行聚類處理。其中k-means算法是聚類中最經(jīng)典的方法，而hardmo-VMF是文獻(xiàn)[9]中使用的一種較為高效的算法，所以本文選取這兩種算法進(jìn)行實驗。并且對照原始數(shù)據(jù)的類別屬性分析短文本模型的性能。

3.2評價指標(biāo)

本文將采用三個指標(biāo)來評價聚類的性能：純度(Purity)[13]、F值、歸一化互信息NMI(NormalizedmutualInformation)[14]。

(16)

其中：k表示k個聚類。

F值是綜合準(zhǔn)確率(precision)和召回率(recall)的一個綜合評價指標(biāo)，定義如下：

(17)

其中precision表示所有聚類中正確聚類的比例，recall表示所有相似文本中正確聚類的比例。

NMI是聚類與數(shù)據(jù)集標(biāo)簽之間互信息和聚類與預(yù)先存在類別的熵值的平均值的比值：

(18)

其中C表示聚類的隨機(jī)變量，L表示數(shù)據(jù)集中預(yù)先存在類的隨機(jī)變量。I(C;L)是聚類與數(shù)據(jù)集標(biāo)簽之間互信息：

(19)

H(C)和H(L)分別是C和L的信息熵值：

(20)

|Ci|、|lj|和|Ci|∩|lj|分別是簇Ci和類別lj的數(shù)量，以及Ci和lj中共同的文檔數(shù)。

上面的三個聚類指標(biāo)的取值都規(guī)范化在[0,1]之間，并且可以發(fā)現(xiàn)其值都是越高越好。

3.3實驗結(jié)果及分析

實驗比較了關(guān)聯(lián)關(guān)系融合迭代計算方法(本文方法)與傳統(tǒng)的TF-IDF方法、文獻(xiàn)[7]耦合詞項關(guān)系(關(guān)聯(lián)關(guān)系)方法、文獻(xiàn)[8]中提出的TSemSim算法和文獻(xiàn)[9]中提出的迭代計算的方法。

其中TF-IDF方法是最經(jīng)典的文本建模方法，忽略了詞項之間的語義信息；文獻(xiàn)[7]耦合詞項考慮詞語之間的內(nèi)外聯(lián)關(guān)系，較充分地挖掘了短文本語義信息；文獻(xiàn)[8]在TF-IDF的基礎(chǔ)上結(jié)合語義信息，并對短文本集進(jìn)行一定程度的降維處理；文獻(xiàn)[9]則是在Wordnet單詞網(wǎng)絡(luò)的基礎(chǔ)上求初始詞語相似度，再結(jié)合統(tǒng)計信息。

如表1和表2所示，是TF-IDF、關(guān)聯(lián)關(guān)系、TSemSim算法、迭代計算方法以及本文方法五種不同方法的聚類結(jié)果。分別統(tǒng)計出兩種不同的聚類算法在純度、F值、歸一化互信息上的實驗結(jié)果。

表1　k-means聚類算法結(jié)果

表2　hard mo-VMF聚類算法結(jié)果

從表1中可以看出，傳統(tǒng)的TF-IDF方法無論是在純度、F值、還是歸一化互信息上的實驗結(jié)果都明顯地低于其他方法。主要的原因在于詞頻及逆文檔頻率把文本詞語都假定為相互獨立的，僅僅簡單地考慮詞語在文檔中出現(xiàn)的頻率，此外也沒有添加其他任何信息，所以聚類的結(jié)果相對較差。接下來是關(guān)聯(lián)關(guān)系的方法，它在詞袋模型的基礎(chǔ)上考慮了文本詞語的內(nèi)外聯(lián)關(guān)系，較充分地挖掘了短文本顯示的和隱含的語義信息，所以聚類的性能提升了，但還是要比其他三種方法的性能低。原因在于其他三種方法不僅考慮了短文本的語義信息，還或多或少地結(jié)合或者使用統(tǒng)計學(xué)的方法。雖然關(guān)聯(lián)關(guān)系較詞頻逆文檔的方法已經(jīng)顯示出了一定的優(yōu)越性，但該方法表示出的短文本仍然還存在文本矩陣高維稀疏的問題。

接下來分析另外三種方法的聚類結(jié)果。TSemSim算法和迭代計算方法的結(jié)果相近，但總體來說迭代計算的方法要比TSemSim算法的性能稍好一些。這是由于TSemSim算法雖然對文本集進(jìn)行降維處理，使用了一定的統(tǒng)計學(xué)方法，但是迭代計算的方法通過迭代函數(shù)使得短文本的特征空間不再稀疏，這對短文本相似度的計算是非常有用的。而本文的方法在性能上要比其他方法都好，這是由于在語義挖掘方面使用詞項關(guān)系，將短文本的語義信息表示得較充分。同時融合迭代計算的統(tǒng)計信息，改善了短文本的特征空間，優(yōu)化其表示。這樣在計算短文本相似性上能夠更加準(zhǔn)確，自然地，聚類的性能得到了提高。

表2用hardmo-VMF聚類算法比較各種不同方法的性能。從表中可以看出，雖然各種方法在不同算法下的結(jié)果不一樣，但是三種不同方法的優(yōu)劣性是不變的。這也可以看出本文方法在性能上的優(yōu)勢。

總結(jié)來說，短文本由于其短小的固有特性，在對短文本的建模處理中，不僅要考慮短文本的語義，更需要使用統(tǒng)計學(xué)的方法解決短文本集矩陣高維稀疏的問題。本文提出的融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的方法將兩者結(jié)合得較好，所以相對于其他方法表現(xiàn)出更好的性能。

接下來實驗驗證了α參數(shù)不同取值對本文方法的影響。

如圖4所示是參數(shù)α取不同值時，本文方法的短文本模型在三個不同聚類指標(biāo)上的性能變化曲線圖。

圖4　α取值和本文方法的性能

α參數(shù)表征的是詞語關(guān)聯(lián)關(guān)系中內(nèi)聯(lián)關(guān)系所占的權(quán)重。從圖中可以看到，三個不同評價指標(biāo)的曲線走勢差不多都是先隨著α的增大而增大，然后隨著α的增大而減小。在α的某一個中間取值時會取得峰值。這說明內(nèi)外聯(lián)關(guān)系的不同權(quán)重會對詞語間的關(guān)聯(lián)關(guān)系產(chǎn)生較大的影響。當(dāng)α取值為0時，完全忽略了詞語的內(nèi)聯(lián)關(guān)系，而當(dāng)α取值為1時又完全忽略了詞語的外聯(lián)關(guān)系，所以在曲線的兩端都表現(xiàn)出短文本模型較差的性能。因此，選取合適的參數(shù)α對本文的短文本模型也顯得至關(guān)重要。

4　結(jié)　語

針對短文本研究帶來的一些挑戰(zhàn)，本文將詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息相結(jié)合用于短文本建模。方法主要分三步：首先由詞項之間的耦合關(guān)系求出初始詞語相似度，然后迭代計算詞語之間及短文本之間的相似度，最后構(gòu)造相似性矩陣。實驗證明，本文的方法在短文本聚類的性能上明顯優(yōu)于其他方法。

同時解決偶然詞共現(xiàn)情況對詞語內(nèi)外聯(lián)關(guān)系的影響，以及如何決定內(nèi)外聯(lián)關(guān)系在詞語關(guān)聯(lián)關(guān)系中各占的權(quán)重可以成為后續(xù)工作的研究點。

[1]GuptaV,LehalGS.Asurveyoftextminingtechniquesandapplications[J].JournalofEmergingTechnologiesinWebIntelligence,2009,1(1):60-76.

[2]BillhardtH,BorrajoD,MaojoV.Acontextvectormodelforinformationretrieval[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2002,53(3):236-249.

[3]KalogeratosA,LikasA.Textdocumentclusteringusingglobaltermcontextvectors[J].KnowledgeandInformationSystems,2012,31(3):455-474.

[4]HothoA,StaabS,StummeG.Wordnetimprovestextdocumentclustering[C]//ProceedingsoftheSemanticWebWorkshopatthe26thAnnualInternationalSpecialInterestGrouponInformationRetrieva(SIGIR)Conference,Toronto,Canada,2003.NewYork:AssociationforComputingMachinery,2003:541-544.

[5]HuJ,FangLJ,CaoY,etal.EnhancingtextclusteringbyleveragingWikipediasemantics[C]//Proceedingsofthe31stAnnualInternationalACMSpecialInterestGrouponInformationRetrieva(ACMSIGIR)ConferenceonResearchandDevelopmentinInformationRetrieval,Singapore,2008.NewYork:AssociationforComputingMachinery,2008:179-186.

[6]AixinSun.ShortTextClassificationUsingVeryFewWords[C]//Proceedingsofthe35thAnnualInternationalACMSpecialInterestGrouponInformationRetrieva(ACMSIGIR)ConferenceonResearchandDevelopmentinInformationRetrieval,Portland,Oregon,USA,2012.NewYork:AssociationforComputingMachinery,2012:1145-1146.

[7]ChengX,MiaoDQ,WangC,etal.CoupledTerm-TermRelationAnalysisforDocumentClustering[C]//Proceedingsofthe2013InternationalJointConferenceonNeuralNetworks,Dallas,TXUSA,2013:1-8.

[8] 黃承慧,印鑒,侯昉.一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J].計算機(jī)學(xué)報,2011,34(5):856-864.

[9]LiuWY,QuanXJ,FengM,etal.Ashorttextmodelingmethodcombiningsemanticandstatisticalinformation[J].InformationSciences,2010,180(20):4031-4041.

[10]BollegalaD,MatsuoY,IshizukaM.Measuringsemanticsimilaritybetweenwordsusingwebsearchengines[C]//Proceedingsofthe16thInternationalConferenceonWorldWideWeb(WWW2007),Banff,Canada.NewYork:ACM,2007:757-766.

[11]LangK.Newsweeder,Learningtofilternetnews[C]//ProceedingsoftheTwelfthInternationalConferenceonMachineLearning,TahoeCity,California,USA.USA:MorganKaufmann,1995:331-339.

[12]MacQueenJ.Somemethodsforclusteringandanalysisofmultivariateobservations[C]//ProceedingsofthefifthBerkeleySymposiumonMathematicalStatisticsandProbability,1967.Berkeley:UniversityofCaliforniaPress,1967,1:281-297.

[13]ZhaoY,KarypisG.Criterionfunctionsfordocumentclustering:Experimentsandanalysis[R].TechnicalreportUniversityofMinnesota,2001.

[14]AlexanderStrehl,JoydeepGhosh.Clusterensemblesaknowledgereuseframeworkforcombiningmultiplepartitions[J].JournalofMachineLearningResearch,2003,3(3):583-617.

ASHORTTEXTMODELLINGMETHODFUSINGCORRELATIONOFLEXICALITEMSANDSTATISTICINFORMATION

MaHuifangZengXiantaoLiXiaohongYunNing

(CollegeofComputerScienceandEngineering,NorthwestNormalUniversity,Lanzhou730070,Gangsu,China)

Traditionaltextrepresentationmethodsareusuallybasedonthemodelofbagofwords,whilethismodelisbasedontheassumptionthatthelexicalitemsareindependenteachotherinthetext.Recentlythestatisticalanalysismethodsarealsopresentedwhichobtaintherelationsbetweenlexicalitemsbywordco-occurrences,butignoretheimpliedsemanticsbetweenlexicalitems.Inordertoovercometheneglectingproblemofthebagofwordsmodeloftraditionaltextrepresentationmethodsontextsemantics,thispaperpresentsashorttextsmodellingmethodwhichfusesthelexicalitemscorrelationandthestatisticsinformation.Itobtainstermscorrelationthroughcouplingtheintra-relationandinter-relationbetweenterms,whichfullyinvestigatestheexplicitandimpliedsemanticinformation;meanwhileitemploysthecorrelationastheinitialtermssimilarity,anditerativelycalculatesthesimilaritiesbetweentermsandtexts,thusimprovestherepresentationoftheshorttext.Experimentsshowthatthismethodsignificantlyimprovestheperformanceofshorttextclustering.

Intra-relationInter-relationTermsimilarityTextsimilarityShorttextsimilarity

2015-05-18。國家自然科學(xué)基金項目(61363058，6116 3039)；甘肅省自然科學(xué)基金青年科技基金項目(145RJZA232)；中國科學(xué)院計算技術(shù)研究所智能信息處理重點實驗室開放基金項目(IIP2014-4)。馬慧芳，副教授，主研領(lǐng)域：人工智能，數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。曾憲桃，本科生。李曉紅，講師。贠寧，本科生。

ADOI:10.3969/j.issn.1000-386x.2016.10.007

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種融合詞項關(guān)聯(lián)關(guān)系和統(tǒng)計信息的短文本建模方法

0 引 言

1 相關(guān)工作

2 文本相似度

3 實 驗

4 結(jié) 語

0　引　言

1　相關(guān)工作

2　文本相似度

3　實　驗

4　結(jié)　語