亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題和特征的文本相似度算法研究

        2016-09-03 08:41:30藥珍妮
        軟件 2016年10期
        關(guān)鍵詞:卡德卡方余弦

        藥珍妮

        (北京郵電大學(xué) 網(wǎng)絡(luò)技術(shù)研究院,北京市 100088)

        基于主題和特征的文本相似度算法研究

        藥珍妮

        (北京郵電大學(xué) 網(wǎng)絡(luò)技術(shù)研究院,北京市 100088)

        本文提出了結(jié)合主題和各主題下關(guān)鍵特征的文本相似度算法,目的在于更準(zhǔn)確的挖掘被描述對象的近鄰對象集。本文首先介紹卡方統(tǒng)檢驗特征統(tǒng)計法,并利用改進(jìn)的卡方檢驗,計算訓(xùn)練集中已知主題的文本的特征;而后介紹了最小編輯距離算法、余弦相似度算法和杰卡德相似系數(shù),在論證了主題對文本相似度的重要性后,又針對難提取主題的文本加以改進(jìn),最終提出了基于主題和特征的文本相似度算法;然后對各個算法在測試集上的相似度計算結(jié)果進(jìn)行分析,證明本文提出的算法在速度和精確度上明顯優(yōu)于其他算法;最后將該算法應(yīng)用于股票的概念股題材標(biāo)注上,分析結(jié)果并提出改進(jìn)空間和不足之處。

        數(shù)據(jù)挖掘;文本相似度;主題;特征

        0 引言

        文本相似度的計算已經(jīng)深入到互聯(lián)網(wǎng)發(fā)展的各個領(lǐng)域;如:在QA系統(tǒng)中,快而準(zhǔn)的判斷問題之間的相似度,決定了QA系統(tǒng)回答的響應(yīng)速度和準(zhǔn)確度;在各大門戶網(wǎng)站中,文本相似度的挖掘,是用戶個性化推薦系統(tǒng)和編輯系統(tǒng)的關(guān)鍵工作。

        在文本分類的問題上,由于有本數(shù)量過多、描述篇幅過大或內(nèi)容部分缺失等問題,導(dǎo)致想完全依賴標(biāo)注好的訓(xùn)練集判斷新樣本的屬性越來越難。針對這類問題,本文提出了從文本所描述主題和的各個主題下描述內(nèi)容的特征入手,對于一個文和其相似度高的幾個文本,他們之間不論主題還是對應(yīng)的主要特征都存在相關(guān)性,這樣,既不會導(dǎo)致同名但內(nèi)容不符被判定為一類,也不會導(dǎo)致內(nèi)容高度相符但被判定成不同類的情況。

        在文本分類訓(xùn)練中,之前的實驗里,運(yùn)用了卡方分布和信息熵(Entropy)來計算每個特征詞在相應(yīng)概念下的權(quán)重,然后根據(jù)這個權(quán)重來判斷個文本最可能描述的幾個概念,然而計算結(jié)果并不讓人滿意,導(dǎo)致結(jié)果準(zhǔn)確率低的主要原因有兩個,其一是因為已標(biāo)注好概念的股票不到5分之一,另一個是,實際上,對這些股票的原始概念標(biāo)注并非來源于其對應(yīng)公司的經(jīng)營范圍概述,而是更多更詳細(xì)的對其各個從事領(lǐng)域的描述。

        1 基于卡方檢驗的特征統(tǒng)計

        1.1 卡方檢驗算法

        假設(shè),兩個分類變量X(特征)和T(主題),它們的值域分別為{x1 x2}和{t1, t2},x1表示包含特征x,x2表示不包含特征x,t1表示屬于特征T,t2表示不屬于特征T,其樣本頻數(shù)列聯(lián)表為:

        表1 卡方統(tǒng)計特征分布表

        設(shè):H1表示X與T相互獨(dú)立,考慮到當(dāng)特征與主體完全不相關(guān)時相關(guān)系數(shù)為0,這種情況時有AD-BC<=0,則卡方統(tǒng)計特征與主題的相關(guān)系數(shù)公式為:

        1.2 對基于卡方檢驗的特征統(tǒng)計的優(yōu)化

        1.2.1 特征的歸一化處理

        用傳統(tǒng)的卡方檢驗得到的,不同主題下的特征權(quán)重是不同的,這樣在會導(dǎo)致計算結(jié)果傾向于在樣本空間中文本數(shù)量相對多的主題,為了解決這一問題,可以對數(shù)據(jù)進(jìn)行歸一化的處理,得:

        其中max(T( x))為主題T下,所有特征中權(quán)值的最大值。

        1.2.2 對頻繁項特征的懲罰

        通過卡方檢驗可以得到,一個主題概念下有若干個特征,但一個特征若屬于多個主題,那么該特征并不能代表作為這個主題下獨(dú)一無二的特征。所以,本文利用TF_IDF的思想,再次對特征的在某主題下的權(quán)值作出現(xiàn)頻度上的懲罰,最終得到較優(yōu)化的特征。

        2 文本相似度計算算法

        2.1 最小編輯距離算法

        最小編輯距離的概念由俄羅斯科學(xué)家Vladimir Leven Shtein在1965年提出。最小編輯距離(LevenShtein距離)指:由一個字符串轉(zhuǎn)成另一個字符串所需的最少編輯操作次數(shù);編輯操作次數(shù)包括:插入或刪除一個字符和將一個字符替換成另一個字符,其算法描述為:輸入兩個任意長度的字符串,str1和str2,其中str1的長度為m,用字母i表示str1中長度為i的子串,str2的長度為n,用字母j表示str2中長度為j的子串,len(i)和len(j)分別表示字串i,j的長度;edit(i,j)表示由str1的子串i到str2的子串j的最小編輯距離。

        在對文本相似度的計算中,該算法的局限性體現(xiàn)在,僅可以找出句子結(jié)構(gòu)上最相似的兩段描述,并非語義上的相似,其過分強(qiáng)調(diào)編輯距離上的改動最小,導(dǎo)致忽略了被文本描述的對象主題。舉例如下:

        1. 某環(huán)保有限公司:從事環(huán)保設(shè)備領(lǐng)域內(nèi)的技術(shù)開發(fā)、技術(shù)服務(wù)、技術(shù)咨詢、技術(shù)轉(zhuǎn)讓。

        2. 某醫(yī)療集團(tuán):從事醫(yī)療發(fā)展領(lǐng)域內(nèi)的技術(shù)開發(fā)、技術(shù)服務(wù)、技術(shù)咨詢、技術(shù)轉(zhuǎn)讓。

        因此,最小編譯距離并不能有效地表示兩個句子之間的語義的相似度。

        2.2 余弦相似度和杰卡德系數(shù)

        2.2.1 余弦相似度計算

        余弦相似度是求兩個向量之間夾角對應(yīng)的余弦值,此余弦值可以用來表征這兩個向量的相似性。夾角越小,余弦值越接近于1,它們的方向更加吻合,則越相似。

        用這一概念來衡量樣本向量之間的差異余弦相似度的公式為:

        其中,x1、x2為維度相同的兩個向量。在機(jī)器學(xué)習(xí)中,文本常由向量表示,訓(xùn)練集中所涉及的詞量相對龐大,維度通常會維持在8000到15000,但對于短文本來說,且這個向量是高維且稀疏的。

        2.2.2 杰卡德(Jaccard)相似系數(shù)計算

        杰卡德相似系數(shù)是衡量兩個集合相似度一種指標(biāo)。在短文本中,其包含的詞可以用一個集合來表示,計算兩個文本的相似度時,用杰卡德相似系數(shù)表示要比用高維詞向量計算余弦相似度快得多。杰卡德相似系數(shù)的公式為:

        其中,S(i),S(j)分別表示第i和第j個句子中詞的集合。

        2.3 基于主題和特征的文本相似度計算

        在杰卡德相似系數(shù)的基礎(chǔ)上,加上主題對文本間整體相似度的影響權(quán)重,首先分析主題對文本相似度的影響,本文分三種情況去闡述,以兩段文本為例:

        1. 僅一方可以提取到有效的主題,或兩方都提取不到有效主題。

        2. 兩方提取到的有效主題不一致。3. 兩方提取到的主題一致。上述過程用公式表示為:

        帶入式(4),得:

        其中x1,x2為相關(guān)系數(shù),在實際計算中,可以通過不斷嘗試,最終確定x1和x2的值,本文初始化時默認(rèn)x1=0.5,x2=1.5。

        在實際操作中,對主題的提取通常來源于標(biāo)題(或被描述對象的名稱),但并不是所有的文章標(biāo)題、物品名稱都可以容易地得到主題,在這種情況下,由3.3.1中提到相似相度的關(guān)系系數(shù)為1,起不到懲罰或鼓勵的做用,基于上述問題,本文通過如下方法進(jìn)行近一步的改進(jìn)。

        1. 利用改進(jìn)的卡方檢驗提取待計算文本的特征。

        2. 對相似度的計算公式,增加特征權(quán)重這一參數(shù),特征權(quán)重用公式如下:

        x(i)、x(j)分別表示第i個樣本和第j個樣本的特征,本文取改進(jìn)的卡方檢驗中,計算結(jié)果中權(quán)重最大的前五個座位特征集,若不滿5個則以較小的為基準(zhǔn),保持?jǐn)?shù)量上的一致,x( i)-x( j)表示特征集合i與特征集合j的差集,(3.8)中的公式表示,差集的模越大,權(quán)值越小,若完全一致,則權(quán)值為1。

        下面給出基于主題相關(guān)系數(shù)和特征權(quán)重的文本相似度計算公式:

        該算法的優(yōu)勢在于,即考慮到主題對文本內(nèi)容的影響,又可以使文本內(nèi)容不完全依賴于主題之間的相似,模型相對簡單且易于理解。

        3 實驗結(jié)果及對比分析

        本文將該算法應(yīng)用于對股票題材概念的提取,通過上市公司提取股票的經(jīng)營主題;再從上市公司的經(jīng)營范圍描述中。

        3.1 最小編輯距離算法實驗結(jié)果

        如圖3.1比對短句:從事環(huán)保設(shè)備領(lǐng)域內(nèi)的技術(shù)開發(fā)、技術(shù)服務(wù)、技術(shù)咨詢、技術(shù)轉(zhuǎn)讓。

        圖3.1 最小編輯距離下計算結(jié)果

        3.2 杰卡德文本相似度計算實驗結(jié)果

        如圖3.2分析:沒有強(qiáng)調(diào)行業(yè)主題詞的作用,誤差主要產(chǎn)生于與主題相關(guān)性小的特征也都有機(jī)會參與計算,直接造成較長的文本占盡優(yōu)勢。

        3.3 基于行業(yè)主題詞的文本相似度計算實驗結(jié)果

        如圖3.3分析:結(jié)果集的相似度很高,但局限住了很多符合某一行業(yè)特征,但文本比較短,且缺失行業(yè)主題的描述。

        圖3.2 基于文本內(nèi)容的相似度計算結(jié)果

        圖3.3 基于行業(yè)主題的相似度計算結(jié)果

        3.4 基于行業(yè)主題詞的文本相似度計算實驗結(jié)果

        如圖3.4分析:最終結(jié)果考慮到了文章內(nèi)容、主題詞權(quán)重和文本的特征權(quán)重,得到了優(yōu)于上述三種方法的計算結(jié)果。

        4 總結(jié)

        在用改進(jìn)的卡方分布提取特征詞權(quán)重比較文本相似的實驗中,誤差的來源于,拋開主題的影響后,文本的相似性過分依賴于分詞系統(tǒng);在用最小編輯距離計算文本相似度中,誤差來源于過分強(qiáng)調(diào)文本中字的排列,忽略了主題詞本身的意義。

        本文提出的方法很好的適用于段文本中,關(guān)鍵詞比較集中的(大多數(shù)相同行業(yè)的描述比較相似)本文相似度分析中,然而在此之后的的工作中,在面對100G這樣的大文本時,計算速度將成文一個必須解決的問題,所以還可以使用局部敏感哈希來對海量數(shù)據(jù)進(jìn)行處理。

        最后,本算法還存在的在于泛化能力不強(qiáng),很難將潛在的概念全部挖掘出來。在實驗中,取最相似的10個文本對其概念進(jìn)行標(biāo)注,若取其中概念交集的前三個,準(zhǔn)確率僅有74.43%,但其中概念交集的第一個,準(zhǔn)確高達(dá)有98.87%。

        圖3.4 加入行業(yè)權(quán)重主題詞的實驗結(jié)果

        [1] 李凡, 魯明羽, 陸玉昌. 關(guān)于文本特征抽取新方法的研究[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2001, 41(7): 98-101.

        [2] 劉濤. 用于文本分類和文本聚類的特征選擇和特征抽取方法的研究[D]. 南開大學(xué), 2004.

        [3] 周水庚, 關(guān)佶紅, 胡運(yùn)發(fā). 隱含語義索引及其在中文文本處理中的應(yīng)用研究[J]. 小型微型計算機(jī)系統(tǒng), 2001, 22(2): 239-243.

        [4] 孫爽, 章勇. 一種基于語義相似度的文本聚類算法[J]. 南京航空航天大學(xué)學(xué)報, 2006, 38(6): 712-716.

        [5] 劉群, 李素建. 基于知網(wǎng)的詞匯語義相似度的計算[C]. 第三屆漢語詞匯語義學(xué)研討會, 臺北, 2002: 59-76.

        [6] 陳龍, 范瑞霞, 高琪. 基于概念的文本表示模型[J]. 計算機(jī)工程與應(yīng)用, 2008, 44(20): 162-164.

        [7] 單麗莉, 劉秉權(quán), 孫承杰. 文本分類中特征選擇方法的比較與改進(jìn)[J]. 哈爾濱工業(yè)大學(xué)學(xué)報, 2011(s1): 319-324.

        [8] 柴加加, 張德賢, 耿瑞煥. 基于TF-CA-CI算法的互信息特征選擇改進(jìn)研究[J]. 計算機(jī)應(yīng)用與軟件, 2013, 30(3): 255-257.

        [9] Fragoudis D, Meretakis D, Likothanassis S. Best terms: an efficient feature-selection algorithm for text categorization[J]. Knowledge & Information Systems, 2005, 8(1): 16-33.

        [10] Zheng D F, Shi B. Inductive learning algorithms and representations.

        [11] 鄭世卓, 崔曉燕. 基于半監(jiān)督LDA的文本分類應(yīng)用研究[J].軟件, 2014, 35(1): 46-48.

        [12] 鄭曉健. 面向領(lǐng)域主題的智能搜索引擎設(shè)計[J]. 軟件, 2014, 35(3): 4-5.

        [13] 趙旭劍, 鄧思遠(yuǎn), 李波, 等. 互聯(lián)網(wǎng)新聞話題特征選擇與構(gòu)建[J]. 軟件, 2015, 36(7): 17-20.

        The Research of Texts’ Similarity Algorithm Based on Topic and Features

        YAO Zhen-ni
        (Dept. Network Technology Research Institute, Beijing University of Posts and Telecommunications, Beijing, 100088, China)

        In this paper, we proposes a texts’ similarity algorithm based on the topic and features of each text, the purpose is to accurately mine the nearest neighbor texts of a given text. Firstly, we introduces the characteristics of CHI Square Statistics and gives improvement to features selection of training text which have known topic; and then compare the minimum edit distance algorithm (LevenShtein Distance), Cosine Similarity Algorithm and Jaccard Similarity Coefficient, analyze principal defect of each algorithm and propose a new text similarity algorithm based on features and topic; after that we use the new algorithm on real data set and prove no matter in speed or accuracy the new one is better than others; In the end, the new algorithm is applied to stocks’ subject tagging, from the analysis of results, we expound recent shortage and put forward the improvement.

        Data mining; The similarity between texts; Topic; Feature

        TP391.1

        A

        10.3969/j.issn.1003-6970.2016.10.028

        本文著錄格式:藥珍妮. 基于主題和特征的文本相似度算法研究[J]. 軟件,2016,37(10):123-126

        猜你喜歡
        卡德卡方余弦
        卡方檢驗的應(yīng)用條件
        卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
        卡方檢驗的應(yīng)用條件
        兩個含余弦函數(shù)的三角母不等式及其推論
        想要什么禮物
        妻子想要的禮物
        故事會(2016年6期)2016-03-23 21:59:01
        分?jǐn)?shù)階余弦變換的卷積定理
        圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
        妻子想要的禮物
        中外文摘(2015年3期)2015-11-22 23:36:25
        離散余弦小波包變換及語音信號壓縮感知
        日本妇人成熟免费2020| 亚洲www视频| 手机在线免费av网址| 最新国产熟女资源自拍| 少妇厨房愉情理伦bd在线观看| 97精品伊人久久大香线蕉app| 国产亚洲视频在线观看播放| 国产精品美女主播一区二区| 国产精品女同久久久久电影院| 国产精品成人国产乱| 产国语一级特黄aa大片| 亚洲av大片在线免费观看| 亚洲男女内射在线播放| 性一交一乱一伦一色一情孩交 | 国产精品女人呻吟在线观看| 精品午夜福利1000在线观看| 亚洲一区二区三区在线中文| 亚洲视频免费在线观看| 久久精品国产精油按摩| 99精品久久这里只有精品| 色偷偷亚洲av男人的天堂| 国产一级一片内射视频播放| 国产办公室沙发系列高清| 国产午夜亚洲精品理论片不卡| 亚洲精品女同在线观看| 国产精品美女久久久免费| 亚洲乱亚洲乱少妇无码99p| 成人免费无码a毛片| av天堂亚洲另类色图在线播放| 色欲综合一区二区三区| 日本a级特黄特黄刺激大片| 国产高清亚洲精品视频| 干日本少妇一区二区三区| 无人高清电视剧在线观看| 夜夜爽无码一区二区三区| av在线资源一区二区| 真实的国产乱xxxx在线| 欧美黑人乱大交| 日本五十路熟女在线视频| 久久天堂精品一区二区三区四区| 欧美粗大猛烈老熟妇|