亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于主題和特征的文本相似度算法研究

2016-09-03 08:41:30藥珍妮

軟件 2016年10期

關(guān)鍵詞：卡德卡方余弦

藥珍妮

(北京郵電大學(xué) 網(wǎng)絡(luò)技術(shù)研究院，北京市 100088)

基于主題和特征的文本相似度算法研究

藥珍妮

(北京郵電大學(xué) 網(wǎng)絡(luò)技術(shù)研究院，北京市 100088)

本文提出了結(jié)合主題和各主題下關(guān)鍵特征的文本相似度算法，目的在于更準(zhǔn)確的挖掘被描述對象的近鄰對象集。本文首先介紹卡方統(tǒng)檢驗特征統(tǒng)計法，并利用改進(jìn)的卡方檢驗，計算訓(xùn)練集中已知主題的文本的特征；而后介紹了最小編輯距離算法、余弦相似度算法和杰卡德相似系數(shù)，在論證了主題對文本相似度的重要性后，又針對難提取主題的文本加以改進(jìn)，最終提出了基于主題和特征的文本相似度算法；然后對各個算法在測試集上的相似度計算結(jié)果進(jìn)行分析，證明本文提出的算法在速度和精確度上明顯優(yōu)于其他算法；最后將該算法應(yīng)用于股票的概念股題材標(biāo)注上，分析結(jié)果并提出改進(jìn)空間和不足之處。

數(shù)據(jù)挖掘；文本相似度；主題；特征

0 引言

文本相似度的計算已經(jīng)深入到互聯(lián)網(wǎng)發(fā)展的各個領(lǐng)域；如：在QA系統(tǒng)中，快而準(zhǔn)的判斷問題之間的相似度，決定了QA系統(tǒng)回答的響應(yīng)速度和準(zhǔn)確度；在各大門戶網(wǎng)站中，文本相似度的挖掘，是用戶個性化推薦系統(tǒng)和編輯系統(tǒng)的關(guān)鍵工作。

在文本分類的問題上，由于有本數(shù)量過多、描述篇幅過大或內(nèi)容部分缺失等問題，導(dǎo)致想完全依賴標(biāo)注好的訓(xùn)練集判斷新樣本的屬性越來越難。針對這類問題，本文提出了從文本所描述主題和的各個主題下描述內(nèi)容的特征入手，對于一個文和其相似度高的幾個文本，他們之間不論主題還是對應(yīng)的主要特征都存在相關(guān)性，這樣，既不會導(dǎo)致同名但內(nèi)容不符被判定為一類，也不會導(dǎo)致內(nèi)容高度相符但被判定成不同類的情況。

在文本分類訓(xùn)練中，之前的實驗里，運(yùn)用了卡方分布和信息熵（Entropy）來計算每個特征詞在相應(yīng)概念下的權(quán)重，然后根據(jù)這個權(quán)重來判斷個文本最可能描述的幾個概念，然而計算結(jié)果并不讓人滿意，導(dǎo)致結(jié)果準(zhǔn)確率低的主要原因有兩個，其一是因為已標(biāo)注好概念的股票不到5分之一，另一個是，實際上，對這些股票的原始概念標(biāo)注并非來源于其對應(yīng)公司的經(jīng)營范圍概述，而是更多更詳細(xì)的對其各個從事領(lǐng)域的描述。

1 基于卡方檢驗的特征統(tǒng)計

1.1 卡方檢驗算法

假設(shè)，兩個分類變量X（特征）和T（主題），它們的值域分別為{x1 x2}和{t1, t2}，x1表示包含特征x，x2表示不包含特征x，t1表示屬于特征T，t2表示不屬于特征T，其樣本頻數(shù)列聯(lián)表為：

表1 卡方統(tǒng)計特征分布表

設(shè)：H1表示X與T相互獨(dú)立，考慮到當(dāng)特征與主體完全不相關(guān)時相關(guān)系數(shù)為0，這種情況時有AD-BC<=0，則卡方統(tǒng)計特征與主題的相關(guān)系數(shù)公式為：

1.2 對基于卡方檢驗的特征統(tǒng)計的優(yōu)化

1.2.1 特征的歸一化處理

用傳統(tǒng)的卡方檢驗得到的，不同主題下的特征權(quán)重是不同的，這樣在會導(dǎo)致計算結(jié)果傾向于在樣本空間中文本數(shù)量相對多的主題，為了解決這一問題，可以對數(shù)據(jù)進(jìn)行歸一化的處理，得：

其中max(T( x))為主題T下，所有特征中權(quán)值的最大值。

1.2.2 對頻繁項特征的懲罰

通過卡方檢驗可以得到，一個主題概念下有若干個特征，但一個特征若屬于多個主題，那么該特征并不能代表作為這個主題下獨(dú)一無二的特征。所以，本文利用TF_IDF的思想，再次對特征的在某主題下的權(quán)值作出現(xiàn)頻度上的懲罰，最終得到較優(yōu)化的特征。

2 文本相似度計算算法

2.1 最小編輯距離算法

最小編輯距離的概念由俄羅斯科學(xué)家Vladimir Leven Shtein在1965年提出。最小編輯距離（LevenShtein距離）指：由一個字符串轉(zhuǎn)成另一個字符串所需的最少編輯操作次數(shù)；編輯操作次數(shù)包括：插入或刪除一個字符和將一個字符替換成另一個字符，其算法描述為：輸入兩個任意長度的字符串，str1和str2，其中str1的長度為m，用字母i表示str1中長度為i的子串，str2的長度為n，用字母j表示str2中長度為j的子串，len(i)和len(j)分別表示字串i，j的長度；edit(i,j)表示由str1的子串i到str2的子串j的最小編輯距離。

在對文本相似度的計算中，該算法的局限性體現(xiàn)在，僅可以找出句子結(jié)構(gòu)上最相似的兩段描述，并非語義上的相似，其過分強(qiáng)調(diào)編輯距離上的改動最小，導(dǎo)致忽略了被文本描述的對象主題。舉例如下：

1. 某環(huán)保有限公司：從事環(huán)保設(shè)備領(lǐng)域內(nèi)的技術(shù)開發(fā)、技術(shù)服務(wù)、技術(shù)咨詢、技術(shù)轉(zhuǎn)讓。

2. 某醫(yī)療集團(tuán)：從事醫(yī)療發(fā)展領(lǐng)域內(nèi)的技術(shù)開發(fā)、技術(shù)服務(wù)、技術(shù)咨詢、技術(shù)轉(zhuǎn)讓。

因此，最小編譯距離并不能有效地表示兩個句子之間的語義的相似度。

2.2 余弦相似度和杰卡德系數(shù)

2.2.1 余弦相似度計算

余弦相似度是求兩個向量之間夾角對應(yīng)的余弦值，此余弦值可以用來表征這兩個向量的相似性。夾角越小，余弦值越接近于1，它們的方向更加吻合，則越相似。

用這一概念來衡量樣本向量之間的差異余弦相似度的公式為：

其中，x1、x2為維度相同的兩個向量。在機(jī)器學(xué)習(xí)中，文本常由向量表示，訓(xùn)練集中所涉及的詞量相對龐大，維度通常會維持在8000到15000，但對于短文本來說，且這個向量是高維且稀疏的。

2.2.2 杰卡德（Jaccard）相似系數(shù)計算

杰卡德相似系數(shù)是衡量兩個集合相似度一種指標(biāo)。在短文本中，其包含的詞可以用一個集合來表示，計算兩個文本的相似度時，用杰卡德相似系數(shù)表示要比用高維詞向量計算余弦相似度快得多。杰卡德相似系數(shù)的公式為：

其中，S(i)，S(j)分別表示第i和第j個句子中詞的集合。

2.3 基于主題和特征的文本相似度計算

在杰卡德相似系數(shù)的基礎(chǔ)上，加上主題對文本間整體相似度的影響權(quán)重，首先分析主題對文本相似度的影響，本文分三種情況去闡述，以兩段文本為例：

1. 僅一方可以提取到有效的主題，或兩方都提取不到有效主題。

2. 兩方提取到的有效主題不一致。3. 兩方提取到的主題一致。上述過程用公式表示為：

帶入式(4)，得：

其中x1，x2為相關(guān)系數(shù)，在實際計算中，可以通過不斷嘗試，最終確定x1和x2的值，本文初始化時默認(rèn)x1=0.5,x2=1.5。

在實際操作中，對主題的提取通常來源于標(biāo)題（或被描述對象的名稱），但并不是所有的文章標(biāo)題、物品名稱都可以容易地得到主題，在這種情況下，由3.3.1中提到相似相度的關(guān)系系數(shù)為1，起不到懲罰或鼓勵的做用，基于上述問題，本文通過如下方法進(jìn)行近一步的改進(jìn)。

1. 利用改進(jìn)的卡方檢驗提取待計算文本的特征。

2. 對相似度的計算公式，增加特征權(quán)重這一參數(shù)，特征權(quán)重用公式如下：

x(i)、x(j)分別表示第i個樣本和第j個樣本的特征，本文取改進(jìn)的卡方檢驗中，計算結(jié)果中權(quán)重最大的前五個座位特征集，若不滿5個則以較小的為基準(zhǔn)，保持?jǐn)?shù)量上的一致，x( i)-x( j)表示特征集合i與特征集合j的差集，（3.8）中的公式表示，差集的模越大，權(quán)值越小，若完全一致，則權(quán)值為1。

下面給出基于主題相關(guān)系數(shù)和特征權(quán)重的文本相似度計算公式：

該算法的優(yōu)勢在于，即考慮到主題對文本內(nèi)容的影響，又可以使文本內(nèi)容不完全依賴于主題之間的相似，模型相對簡單且易于理解。

3 實驗結(jié)果及對比分析

本文將該算法應(yīng)用于對股票題材概念的提取，通過上市公司提取股票的經(jīng)營主題；再從上市公司的經(jīng)營范圍描述中。

3.1 最小編輯距離算法實驗結(jié)果

如圖3.1比對短句：從事環(huán)保設(shè)備領(lǐng)域內(nèi)的技術(shù)開發(fā)、技術(shù)服務(wù)、技術(shù)咨詢、技術(shù)轉(zhuǎn)讓。

圖3.1 最小編輯距離下計算結(jié)果

3.2 杰卡德文本相似度計算實驗結(jié)果

如圖3.2分析：沒有強(qiáng)調(diào)行業(yè)主題詞的作用，誤差主要產(chǎn)生于與主題相關(guān)性小的特征也都有機(jī)會參與計算，直接造成較長的文本占盡優(yōu)勢。

3.3 基于行業(yè)主題詞的文本相似度計算實驗結(jié)果

如圖3.3分析：結(jié)果集的相似度很高，但局限住了很多符合某一行業(yè)特征，但文本比較短，且缺失行業(yè)主題的描述。

圖3.2 基于文本內(nèi)容的相似度計算結(jié)果

圖3.3 基于行業(yè)主題的相似度計算結(jié)果

3.4 基于行業(yè)主題詞的文本相似度計算實驗結(jié)果

如圖3.4分析：最終結(jié)果考慮到了文章內(nèi)容、主題詞權(quán)重和文本的特征權(quán)重，得到了優(yōu)于上述三種方法的計算結(jié)果。

4 總結(jié)

在用改進(jìn)的卡方分布提取特征詞權(quán)重比較文本相似的實驗中，誤差的來源于，拋開主題的影響后，文本的相似性過分依賴于分詞系統(tǒng)；在用最小編輯距離計算文本相似度中，誤差來源于過分強(qiáng)調(diào)文本中字的排列，忽略了主題詞本身的意義。

本文提出的方法很好的適用于段文本中，關(guān)鍵詞比較集中的（大多數(shù)相同行業(yè)的描述比較相似）本文相似度分析中，然而在此之后的的工作中，在面對100G這樣的大文本時，計算速度將成文一個必須解決的問題，所以還可以使用局部敏感哈希來對海量數(shù)據(jù)進(jìn)行處理。

最后，本算法還存在的在于泛化能力不強(qiáng)，很難將潛在的概念全部挖掘出來。在實驗中，取最相似的10個文本對其概念進(jìn)行標(biāo)注，若取其中概念交集的前三個，準(zhǔn)確率僅有74.43%，但其中概念交集的第一個，準(zhǔn)確高達(dá)有98.87%。

圖3.4 加入行業(yè)權(quán)重主題詞的實驗結(jié)果

[1] 李凡, 魯明羽, 陸玉昌. 關(guān)于文本特征抽取新方法的研究[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2001, 41(7): 98-101.

[2] 劉濤. 用于文本分類和文本聚類的特征選擇和特征抽取方法的研究[D]. 南開大學(xué), 2004.

[3] 周水庚, 關(guān)佶紅, 胡運(yùn)發(fā). 隱含語義索引及其在中文文本處理中的應(yīng)用研究[J]. 小型微型計算機(jī)系統(tǒng), 2001, 22(2): 239-243.

[4] 孫爽, 章勇. 一種基于語義相似度的文本聚類算法[J]. 南京航空航天大學(xué)學(xué)報, 2006, 38(6): 712-716.

[5] 劉群, 李素建. 基于知網(wǎng)的詞匯語義相似度的計算[C]. 第三屆漢語詞匯語義學(xué)研討會, 臺北, 2002: 59-76.

[6] 陳龍, 范瑞霞, 高琪. 基于概念的文本表示模型[J]. 計算機(jī)工程與應(yīng)用, 2008, 44(20): 162-164.

[7] 單麗莉, 劉秉權(quán), 孫承杰. 文本分類中特征選擇方法的比較與改進(jìn)[J]. 哈爾濱工業(yè)大學(xué)學(xué)報, 2011(s1): 319-324.

[8] 柴加加, 張德賢, 耿瑞煥. 基于TF-CA-CI算法的互信息特征選擇改進(jìn)研究[J]. 計算機(jī)應(yīng)用與軟件, 2013, 30(3): 255-257.

[9] Fragoudis D, Meretakis D, Likothanassis S. Best terms: an efficient feature-selection algorithm for text categorization[J]. Knowledge & Information Systems, 2005, 8(1): 16-33.

[10] Zheng D F, Shi B. Inductive learning algorithms and representations.

[11] 鄭世卓, 崔曉燕. 基于半監(jiān)督LDA的文本分類應(yīng)用研究[J].軟件, 2014, 35(1): 46-48.

[12] 鄭曉健. 面向領(lǐng)域主題的智能搜索引擎設(shè)計[J]. 軟件, 2014, 35(3): 4-5.

[13] 趙旭劍, 鄧思遠(yuǎn), 李波, 等. 互聯(lián)網(wǎng)新聞話題特征選擇與構(gòu)建[J]. 軟件, 2015, 36(7): 17-20.

The Research of Texts’ Similarity Algorithm Based on Topic and Features

YAO Zhen-ni
(Dept. Network Technology Research Institute, Beijing University of Posts and Telecommunications, Beijing, 100088, China)

In this paper, we proposes a texts’ similarity algorithm based on the topic and features of each text, the purpose is to accurately mine the nearest neighbor texts of a given text. Firstly, we introduces the characteristics of CHI Square Statistics and gives improvement to features selection of training text which have known topic; and then compare the minimum edit distance algorithm (LevenShtein Distance), Cosine Similarity Algorithm and Jaccard Similarity Coefficient, analyze principal defect of each algorithm and propose a new text similarity algorithm based on features and topic; after that we use the new algorithm on real data set and prove no matter in speed or accuracy the new one is better than others; In the end, the new algorithm is applied to stocks’ subject tagging, from the analysis of results, we expound recent shortage and put forward the improvement.

Data mining; The similarity between texts; Topic; Feature

TP391.1

10.3969/j.issn.1003-6970.2016.10.028

本文著錄格式：藥珍妮. 基于主題和特征的文本相似度算法研究[J]. 軟件，2016，37（10）：123-126