亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于類別特征改進(jìn)的KNN短文本分類算法*

        2018-01-26 02:46:08黃賢英熊李媛劉英濤李沁東
        關(guān)鍵詞:特征詞測試數(shù)據(jù)類別

        黃賢英,熊李媛,劉英濤,李沁東

        (重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)

        1 引言

        K-最近鄰KNN(K-Nearest Neighbor)分類[1]作為一種經(jīng)典的分類方法,由于其直接利用樣本間的相似關(guān)系,有效地減少了類別特征選取不當(dāng)對分類準(zhǔn)確率的影響;同時(shí),KNN分類的樣本相似度拆分處理方式,使得KNN分類算法更利于大數(shù)據(jù)的并行化處理,而且其在不平衡數(shù)據(jù)集上也表現(xiàn)有良好的分類性能,更適用于現(xiàn)實(shí)的文本分類情況。但是,KNN分類在找K最近鄰的過程中,要與整個(gè)訓(xùn)練空間的每個(gè)樣本進(jìn)行相似度的計(jì)算,KNN分類的效率會隨著訓(xùn)練空間的增大而大幅度下降。同時(shí),文本分類算法在進(jìn)行分類時(shí)存在待分類文本中關(guān)鍵詞稀疏、難以充分表征文本特性的問題[2],在短文本中關(guān)鍵詞特征更加稀疏,同時(shí)存在樣本高度不均衡等特點(diǎn)[3]。KNN文本分類算法通過各種輔助方式擴(kuò)展測試文本來提高短文本分類的準(zhǔn)確性,適用到短文本分類,增加了KNN分類算法相似度計(jì)算的時(shí)間復(fù)雜度,使得在短文本分類方面,KNN分類算法運(yùn)行效率進(jìn)一步下降。

        目前針對KNN分類器效率提升主要是有兩種方法。一種是通過降維來降低相似度計(jì)算復(fù)雜性,文獻(xiàn)[4]依據(jù)概念進(jìn)行特征選取,降低特征空間維數(shù),提高KNN分類效率;文獻(xiàn)[5]通過優(yōu)化特征和分類器的結(jié)合,提升了KNN分類算法的性能;文獻(xiàn)[6]通過自編碼網(wǎng)絡(luò)重構(gòu)文本得到流形映射,提取短文本的流形特征,提升分類效果;文獻(xiàn)[7]提出基于最大邊緣相關(guān)的特征選擇方法減少大量的冗余特征,提升分類效率;文獻(xiàn)[8]運(yùn)用熵特征變換指標(biāo)設(shè)計(jì)相互類別差異量的相似度計(jì)算,來降低特征參數(shù),提高KNN算法效率。另一種是通過樣本間關(guān)聯(lián)縮減訓(xùn)練空間,文獻(xiàn)[9]利用擴(kuò)展能力GC(Generalization Capability)算法使用案例維護(hù)學(xué)習(xí)減少訓(xùn)練空間,從而提高近鄰檢索效率;文獻(xiàn)[10,11]利用粗糙集上下近似概念,對訓(xùn)練樣本進(jìn)行核心和邊界區(qū)域劃分,減少分類代價(jià),以提高KNN分類效率;文獻(xiàn)[12,13]利用聚類方法對訓(xùn)練集進(jìn)行裁剪,解決傳統(tǒng)KNN算法在訓(xùn)練集過大時(shí)速度慢的問題。但是,這些都是針對長文本分類的效率提升,針對短文本分類算法效率優(yōu)化的文獻(xiàn)較少。

        結(jié)合不同算法的特點(diǎn),本文采用卡方提取的方法在每個(gè)類別中提取各個(gè)類別的類別特征詞項(xiàng),利用類別特征詞項(xiàng)結(jié)合hownet詞典對訓(xùn)練空間進(jìn)行二次拆分,將與類別特征詞項(xiàng)相似的樣本歸到一個(gè)子集中,并以類別特征詞項(xiàng)定義這個(gè)子集。這樣,就將整個(gè)訓(xùn)練空間的每個(gè)類別拆分成為更小的訓(xùn)練子集。然后,根據(jù)測試數(shù)據(jù)的關(guān)鍵詞項(xiàng)從拆分后的訓(xùn)練空間中,提取與測試數(shù)據(jù)相關(guān)的訓(xùn)練子集重構(gòu)測試數(shù)據(jù)的訓(xùn)練集,依據(jù)KNN算法判定測試數(shù)據(jù)類別。通過這種方法來降低基于語義的KNN短文本分類算法在短文本相似度計(jì)算時(shí)的訓(xùn)練空間大小,提高KNN分類在短文本分類上的性能。

        2 相關(guān)工作

        2.1 卡方統(tǒng)計(jì)

        依據(jù)卡方統(tǒng)計(jì)量的卡方提取是一種最常用的文本特征詞項(xiàng)選擇方法,通過計(jì)算類別ci和詞項(xiàng)wj的相互獨(dú)立性來表示類別ci與詞項(xiàng)wj的相關(guān)程度??ǚ街档挠?jì)算公式如下:

        (1)

        其中,A表示在類別ci中包含詞項(xiàng)wj的樣本數(shù),B表示不在類別ci中但包含詞項(xiàng)wj的樣本數(shù),C表示在類別ci中不包含詞項(xiàng)wj的樣本數(shù),D表示不在類別ci中且不包含詞項(xiàng)wj的樣本數(shù)。

        卡方值越大,則類別ci和詞項(xiàng)wj的相關(guān)程度越大,詞項(xiàng)wj也就越能表示類別ci;反之,詞項(xiàng)wj越無法表示類別ci。傳統(tǒng)的卡方提取是在整個(gè)訓(xùn)練空間中提取卡方值最大的前K個(gè)特征,但這種方法提取不平衡訓(xùn)練空間時(shí)可能造成個(gè)別類別特征詞項(xiàng)過少,影響分類準(zhǔn)確性。本文采用申紅等[14]的特征提取改進(jìn)方法,在每個(gè)類別中分別提取在該類別中卡方值最大前K個(gè)作為該類別的類別特征,然后將所有類別的類別特征組合起來形成訓(xùn)練空間的特征詞集。

        在公式(1)中,(A+C)表示類別ci中的樣本總數(shù),(B+D)表示訓(xùn)練空間中除類別ci外的樣本總數(shù),(A+B+C+D)表示訓(xùn)練空間的樣本總數(shù)。在一個(gè)類別中,上述3個(gè)值是恒定的,所以公式(1)可簡化為:

        (2)

        2.2 基于hownet的語義相似度算法

        基于hownet的短文本相似度算法主要是依賴hownet詞典來計(jì)算兩個(gè)短文本中關(guān)鍵詞的相似度值來計(jì)算短文本的相似程度?;趆ownet詞典的詞語相似度計(jì)算主要是劉群的相似度算法[15]及一些基于此改進(jìn)的相似度算法,文本選取李峰的中文詞語語義相似度算法[16]作為短文本語義相似度算法中基礎(chǔ)的詞語語義相似度算法,公式如下:

        sim(w1,w2)=

        (3)

        其中,min(depthw1,depthw2)表示在知網(wǎng)中w1與w2的最小深度,distance(w1,w2)表示在知網(wǎng)中w1與w2的路徑長度,α是一個(gè)調(diào)節(jié)參數(shù),表示詞語相似度為0.5時(shí)的路徑長度。

        假設(shè)兩個(gè)短文本預(yù)處理后的結(jié)果為:

        d1=(w11,w12,…,w1n)

        d2=(w21,w22,…,w2m)

        則d1和d2的語義相似度計(jì)算公式如下:

        Sim(d1,d2) =

        (4)

        其中,mi= min(m,n),ma=max(m,n),delta是一個(gè)調(diào)節(jié)參數(shù),定義一個(gè)非空值與空值的相似度。

        本文中依據(jù)李峰的中文詞語語義相似度算法定義文檔與詞語相似度值如下:

        (5)

        其中,wi文檔d中的第i關(guān)鍵詞。

        3 基于特征語義的短文本分類算法

        本文算法的重點(diǎn)在于利用類別特征詞項(xiàng)對訓(xùn)練空間的拆分細(xì)化,根據(jù)測試數(shù)據(jù)構(gòu)建近鄰計(jì)算訓(xùn)練空間,以此來縮減訓(xùn)練空間,提升算法效率,其流程圖如圖1所示。

        Figure 1 Flow chart of the KNN short text classificactionalgorithm based on category feature words圖1 基于類別特征的KNN短文本分類算法流程圖

        Step1數(shù)據(jù)預(yù)處理。對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行預(yù)處理,主要包括:無效字符剔除、文本分詞(采用ICTCLAS[17])、停用詞處理等,將文本數(shù)據(jù)用詞項(xiàng)向量表示,得到處理后的訓(xùn)練空間和測試數(shù)據(jù)。

        Step2類別特征詞項(xiàng)提取。采用公式(2)在訓(xùn)練空間每個(gè)類別中提取相同數(shù)量的類別特征詞項(xiàng)。為避免在Step 3的拆分過程中產(chǎn)生太多同名集,并保證特征的有效性,此處對取得的所有類別特征詞項(xiàng)進(jìn)行約減,去掉同時(shí)出現(xiàn)在3個(gè)及以上類別的類別特征詞項(xiàng)。

        Step3訓(xùn)練空間樣本拆分細(xì)化。對于每個(gè)類別的每個(gè)樣本,采用公式(5)的方法與該類別的類別特征詞項(xiàng)做相似度計(jì)算。若相似度值大于相似度拆分閾值thresholdsplit,則將該樣本加入對應(yīng)的類別特征詞項(xiàng)樣本子集,若最后該樣本未加入任何類別特征詞集,則將其加入非類別特征集中。

        為保證訓(xùn)練空間細(xì)化后的類別特征詞項(xiàng)樣本子集的樣本數(shù)量的大小,防止大量樣本被分入非類別特征詞項(xiàng)樣本子集,相似度拆分閾值不能太大;但如果相似度拆分閾值太小,細(xì)化后的類別特征詞項(xiàng)樣本子集的樣本太多,訓(xùn)練集的重構(gòu)過程會很耗時(shí),且樣本重復(fù)量太大,因此,本文定義相似度拆分閾值thresholdsplit為0.6,以類別Auto為例,類別Auto中包含“保養(yǎng)”“改裝”“奔馳”等等多個(gè)類別特征詞項(xiàng)樣本子集,原訓(xùn)練空間類別Auto中有樣本di:“成品油/n,價(jià)/n,漲/vi,部分/n,城市/n,汽車/n,排隊(duì)/vn,加油/vi,”。按照式(5)計(jì)算文本“優(yōu)惠/vn,元/m,部分/n,顏色/n,缺貨/vi,手動擋/nz,奔騰/vi,詳情/n,”與類別特征詞項(xiàng)“保養(yǎng)”的相似度值為0.65,因此將樣本di加入到類別特征詞項(xiàng)“保養(yǎng)”所對應(yīng)的樣本子集中。

        Step4訓(xùn)練集重構(gòu)。根據(jù)測試數(shù)據(jù)提取對應(yīng)的訓(xùn)練子集,將測試數(shù)據(jù)文本與所有類別的類別特征詞項(xiàng)采用公式(5)進(jìn)行相似度計(jì)算,將相似度值大于提取相似度閾值的類別特征詞項(xiàng)所對應(yīng)的類別特征詞項(xiàng)樣本子集中的數(shù)據(jù)提取到該測試數(shù)據(jù)的訓(xùn)練集。同時(shí),對得到的訓(xùn)練集合進(jìn)行去重處理,去掉重復(fù)的訓(xùn)練樣本。具體流程如圖2所示。

        Figure 2 Flow chart of the training set recontruction圖2 訓(xùn)練集重構(gòu)流程圖

        Step5KNN文本分類。應(yīng)用重構(gòu)后的訓(xùn)練集使用KNN文本分類算法對測試文本進(jìn)行分類處理,這里采用多數(shù)研究統(tǒng)計(jì)得到的傳統(tǒng)KNN分類算法的K優(yōu)值,取K值為10。文本相似度的計(jì)算采用基于知網(wǎng)的短文本相似度算法,利用公式(4)的方法計(jì)算測試文本dtest與重構(gòu)得到的訓(xùn)練集中的每個(gè)樣本的短文本語義相似度值,并取與測試文本dtest相似度最大的前10個(gè)樣本作為K近鄰集。

        Step6判定類別。根據(jù)得到的相似度值最大的前10個(gè)樣本的歸屬類別判斷測試數(shù)據(jù)所屬的類別。分類類別中對應(yīng)前10個(gè)樣本數(shù)目最大的即為測試數(shù)據(jù)的歸屬類別,若有多個(gè)最大,則取其中相似度和值最大的為測試數(shù)據(jù)的歸屬類別。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)選取從數(shù)據(jù)堂下載的搜狗新聞?wù)Z料庫[18],以其中的新聞標(biāo)題作為實(shí)驗(yàn)語料數(shù)據(jù)源,從中提取出可確定類別的數(shù)據(jù),剔除類別中數(shù)據(jù)條數(shù)小于10條的類別及數(shù)據(jù)。對于剩下的數(shù)據(jù),對每條數(shù)據(jù)只提取其中的標(biāo)題及所屬類別。對提取得到的數(shù)據(jù)按照9∶1的比例提取訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù),并進(jìn)行標(biāo)題去重處理。

        4.2 類別特征數(shù)量確定

        類別特征數(shù)量的大小對本文算法的性能有較大影響,特征詞項(xiàng)個(gè)數(shù)太少,訓(xùn)練集拆分程度過少,對效率的提升效果太弱;反之,若特征詞項(xiàng)個(gè)數(shù)太多,則訓(xùn)練集合重構(gòu)過程耗時(shí)太長,影響分類效率。

        本文選取測試文本數(shù)量為100,對選取不同數(shù)目的類別特征詞項(xiàng)時(shí)的KNN短文本分類算法進(jìn)行實(shí)驗(yàn)。

        圖3是在不同特征詞項(xiàng)數(shù)量下對100條測試文本進(jìn)行KNN短文本分類的平均運(yùn)行時(shí)間。從圖3中可以看出,類別特征詞項(xiàng)數(shù)量小于400時(shí),改進(jìn)的KNN短文本分類算法的測試文本的平均運(yùn)行時(shí)間隨類別特征詞項(xiàng)數(shù)量的增加而減少。這是由于此時(shí)類別特征詞項(xiàng)數(shù)量較小,訓(xùn)練空間樣本重新拆分時(shí)根據(jù)類別特征詞項(xiàng)數(shù)量拆分得到的樣本數(shù)量少,拆分后每個(gè)類別內(nèi)保留的樣本數(shù)量過少,訓(xùn)練空間中的大部分樣本被分入非類別特征集。一部分測試文本重構(gòu)后的訓(xùn)練集中樣本數(shù)量少于100,要加入非類別特征集中的樣本,測試文本重構(gòu)后的訓(xùn)練集較原訓(xùn)練空間樣本數(shù)量減小有限,加上訓(xùn)練集重構(gòu)過程的耗時(shí),使得測試文本的平均運(yùn)行時(shí)間較長。隨著類別特征詞項(xiàng)數(shù)量的增大,拆分后每個(gè)類別內(nèi)保留的樣本數(shù)量也在逐漸增加,非類別特征集的樣本數(shù)量也會隨之減少,重構(gòu)后的訓(xùn)練集中樣本數(shù)量小于100的測試文本數(shù)量也逐步減小,無需非類別特征集的樣本的測試文本增多,測試文本的重構(gòu)訓(xùn)練集的樣本數(shù)量得到有效減少,測試文本的平均運(yùn)行時(shí)間越來越短。

        Figure 3 Running time of the algorithm under different numbers of feature words圖3 不同特征詞項(xiàng)數(shù)目下算法的運(yùn)行時(shí)間

        當(dāng)類別特征詞項(xiàng)數(shù)量大于400后,改進(jìn)的KNN短文本分類算法的測試文本的平均運(yùn)行時(shí)間隨類別特征詞項(xiàng)數(shù)量的增加而增加。根據(jù)類別特征詞項(xiàng)數(shù)量拆分后的訓(xùn)練空間的樣本子集數(shù)量已經(jīng)足夠,基本上所有測試文本在訓(xùn)練集重構(gòu)時(shí),無需非類別特征詞項(xiàng)樣本子集中的樣本,此時(shí)測試文本的訓(xùn)練集重構(gòu)過程隨類別特征詞項(xiàng)數(shù)量的增加,添加的類別特征詞項(xiàng)所對應(yīng)的類別特征詞項(xiàng)樣本子集就越多,重構(gòu)后的訓(xùn)練集樣本數(shù)量越來越多,測試文本的平均運(yùn)行時(shí)間也越來越長。

        但圖3中,當(dāng)類別特征詞項(xiàng)數(shù)量為900時(shí)的測試文本的平均運(yùn)行時(shí)間要低于類別特征詞項(xiàng)數(shù)量為800時(shí)。這是由于實(shí)驗(yàn)的測試文本是隨機(jī)提取的,當(dāng)對測試文本進(jìn)行訓(xùn)練集重構(gòu)時(shí),存在訓(xùn)練空間的15個(gè)類別抽取完樣本去重后,訓(xùn)練集中樣本數(shù)量都小于100的情況,此時(shí)測試文本的訓(xùn)練集需要加入非類別特征集中的樣本,這樣測試文本的運(yùn)行時(shí)間就很長,當(dāng)這種測試文本較多時(shí),測試文本的平均運(yùn)行時(shí)間就會較長。

        表1是不同特征詞項(xiàng)數(shù)目下優(yōu)化后的KNN短文本分類算法的準(zhǔn)確率。類別特征詞項(xiàng)數(shù)目不大于700時(shí),優(yōu)化后算法的準(zhǔn)確率隨著類別特征詞項(xiàng)數(shù)目的增加而提高,隨著類別特征詞項(xiàng)數(shù)目的增加,訓(xùn)練空間的拆分逐漸細(xì)化,測試文本重構(gòu)的訓(xùn)練集合樣本與測試文本的相關(guān)程度越來越高,優(yōu)化后的算法的準(zhǔn)確率也越來越高。類別特征詞項(xiàng)數(shù)目大于700后,優(yōu)化后的算法的準(zhǔn)確率隨著類別特征詞項(xiàng)數(shù)目的增加反而有所降低。這是由于類別特征詞項(xiàng)數(shù)目大于700后隨著類別特征詞項(xiàng)數(shù)目的增加,訓(xùn)練空間的拆分細(xì)化程度提高,類別特征詞項(xiàng)集合中樣本的數(shù)量減少,在測試文本訓(xùn)練集合重構(gòu)時(shí)將一部分相關(guān)樣本剔除,未加入到測試文本的訓(xùn)練集合中,使得算法的準(zhǔn)確率下降。

        Table 1 Algorithm accuracy underdifferent numbers of feature words

        綜合分析后,本文選取類別特征詞項(xiàng)數(shù)目為400,此時(shí)優(yōu)化算法的運(yùn)行時(shí)間短,且準(zhǔn)確率也相對較高。

        4.3 實(shí)驗(yàn)過程與結(jié)果

        實(shí)驗(yàn)從整個(gè)測試數(shù)據(jù)集中,按照不同的選取比率來隨機(jī)抽取不同數(shù)量的測試數(shù)據(jù),比較在不同測試數(shù)據(jù)下算法的性能。圖4顯示的是傳統(tǒng)KNN算法與本文改進(jìn)后的KNN算法的運(yùn)行時(shí)間對比。

        Figure 4 Comparison of running time圖4 運(yùn)行時(shí)間結(jié)果比較

        從圖4的對比結(jié)果中可以看出,在相同測試數(shù)據(jù)量下,改進(jìn)后算法的運(yùn)行時(shí)間約為傳統(tǒng)KNN算法的一半,有的運(yùn)行時(shí)間更少,這表明本文算法對測試數(shù)據(jù)提取出的訓(xùn)練集的樣本數(shù)據(jù)有明顯的減少,使得相似度計(jì)算的文本對數(shù)大量減少,運(yùn)行效率有明顯的提升。但是,由于不同測試數(shù)據(jù)提取訓(xùn)練樣本所對應(yīng)的樣本數(shù)量不同,提取過程相似的類別特征詞集合數(shù)不同,造成對于不同的測試數(shù)據(jù),運(yùn)行效率不同。特別是在測試數(shù)據(jù)量為91時(shí),改進(jìn)后的算法運(yùn)行時(shí)間偏高,這是由于提取出的類別特征詞項(xiàng)與隨機(jī)選取的測試數(shù)據(jù)進(jìn)行相似度計(jì)算時(shí),相似度值大于提取相似度閾值的特征詞項(xiàng)過多,使得提取到的訓(xùn)練集中的樣本數(shù)量較多,比之原訓(xùn)練空間的樣本數(shù)量減少量較少;同時(shí),由于訓(xùn)練集合重構(gòu)過程所需要的時(shí)間耗費(fèi),這樣在對這些測試數(shù)據(jù)進(jìn)行分類時(shí),算法的運(yùn)行時(shí)間就相對延長,效率提升就不會很大。但總體上,本文算法的運(yùn)行時(shí)間還是要低于傳統(tǒng)KNN算法。

        改進(jìn)后算法的準(zhǔn)確率的宏平均與傳統(tǒng)KNN算法的對比如表2所示,改進(jìn)后算法的準(zhǔn)確率的微平均與傳統(tǒng)KNN算法的對比如表3所示。除去測試數(shù)據(jù)量為91時(shí),準(zhǔn)確率低于傳統(tǒng)KNN,其他的情況下,本文算法的準(zhǔn)確率較傳統(tǒng)的KNN算法均有所提高。這是由于針對性的訓(xùn)練數(shù)據(jù)的提取,有效地將相關(guān)性較高的訓(xùn)練樣本提取出來,減少由于知網(wǎng)語義相似度計(jì)算時(shí),知網(wǎng)拓展引入冗余特征對相似度計(jì)算的影響,在一定程度上,提高了分類算法的準(zhǔn)確率。但是,在隨機(jī)提取的91條測試數(shù)據(jù)中,根據(jù)測試數(shù)據(jù)提取的訓(xùn)練集樣本數(shù)量多,且非類別特征集樣本未加入訓(xùn)練集,造成分類性能有小幅度下降。但總體而言,本文算法的準(zhǔn)確率相對于傳統(tǒng)KNN算法是有所提升的。

        Table 2 Comparison of the accurary of macro average results

        Table 3 Comparison of the accurary of micro average results

        4.4 實(shí)驗(yàn)結(jié)果分析

        從實(shí)驗(yàn)結(jié)果中可以看出,本文算法在效率上要明顯好于傳統(tǒng)KNN分類算法,主要是由于在本文算法中測試數(shù)據(jù)的訓(xùn)練集合是根據(jù)測試數(shù)據(jù)動態(tài)重構(gòu)的。訓(xùn)練集合的選取是根據(jù)測試數(shù)據(jù)的特征來動態(tài)提取的,在整個(gè)訓(xùn)練空間中提取出與測試數(shù)據(jù)相關(guān)的樣本重組訓(xùn)練集合。這樣,就會對訓(xùn)練集合進(jìn)行縮減,在相似度值的計(jì)算時(shí),只需要跟縮減后訓(xùn)練集中的樣本進(jìn)行比較即可,大大提高了分類的效率。同時(shí),結(jié)合了語義因素,避免由于短文本過短,信息量少而造成的分類準(zhǔn)確率下降。

        在準(zhǔn)確率的比較上,本文算法的準(zhǔn)確率要略高于結(jié)合知網(wǎng)的KNN分類算法,這是由于改進(jìn)后的算法提取的測試數(shù)據(jù)訓(xùn)練集合都是與測試數(shù)據(jù)最相近的數(shù)據(jù),一定程度上減少了因?yàn)樘厥鈽颖镜钠疃斐傻姆诸悳?zhǔn)確率下降。

        5 結(jié)束語

        本文在結(jié)合知網(wǎng)的KNN分類算法的基礎(chǔ)上,通過類別特征詞集,結(jié)合知網(wǎng)語義信息,對訓(xùn)練空間進(jìn)行二次拆分,實(shí)現(xiàn)測試數(shù)據(jù)相似度計(jì)算時(shí)訓(xùn)練集合的動態(tài)重構(gòu),縮減訓(xùn)練集合樣本數(shù)目。與傳統(tǒng)KNN分類算法相比,該算法可以根據(jù)測試數(shù)據(jù)自適應(yīng)地提取訓(xùn)練集合,實(shí)驗(yàn)表明,該算法可以在保證準(zhǔn)確率的情況下,有效地提高KNN短文本分類效率。

        但是,本文算法在分類的準(zhǔn)確率上還有待改進(jìn),如何結(jié)合短文本的語義特征提高短文本相似度計(jì)算的準(zhǔn)確性,還有待進(jìn)一步研究。

        [1] Cover T,Hart P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.

        [2] Li Bo, Shi Hui-xia,Wang Yi.A test extension algorithm based on synonymy discovery[J].Journal of Chongqing University of Technology(Natural Science),2014,28(2):76-81.(in Chinese)

        [3] Yan Rui,Cao Xian-bin,Li Kai.Dynamic assembly classification algorithm for short text[J].Acta Electronica Sinica,2009,37(5):1019-1024.(in Chinese)

        [4] Ding Ze-ya, Zhang Quan. Text categorization based on concept knowledge[J].Journal of Applied Sciences,2013,31(2):197-203.(in Chinese)

        [5] Kacur J,Varga M,Rozinaj G.Speaker identification in a multimodal interface [C]∥Proc of the 2013 55th International Symposium on ELMAR,2013:191-194.

        [6] Wei Chao,Luo Sen-lin,Zhang Jing,et al.Short text manifold representation based on AutoEncoder network[J].Journal of Zhejiang University (Engineering Science),2015,49(8):1591-1599.(in Chinese)

        [7] Liu He,Zhang Xiang-hong,Liu Da-you,et al.A feature selection method based on maximal marginal relevance[J].Journal of Computer Research and Development,2012,49(2):354-360.(in Chinese)

        [8] Liu Jin-sheng.On KNN algorithm based on optimizing similarity distance with entropy noise reduction[J].Computer Applications and Software,2015,32(9):254-256.(in Chinese)

        [9] Zhan Yan, Chen Hao.Short text categorization based on theme ontology feature extended[J].Journal of Hebei University(Natural Science Edition),2014,34(3):307-311.(in Chinese)

        [10] Wang Yuan,Liu Ye-zheng,Jiang Yuan-chun.Method of text classification based on roughk-nearest neighbor algorithm[J].Journal of Hefei University of Technology(Natural Science),2014,37(12):1513-1517.(in Chinese)

        [11] Yu Ying, Miao Duo-qian, Liu Cai-hui,et al.An improved KNN algorithm based on variable precision rough sets[J].PR & AI,2012,25(4):617-623.(in Chinese)

        [12] Ren Li-fang.Speeding K-NN classification method based on clustering [J].Computer Applications and Software,2015,32(10):298-301.(in Chinese)

        [13] Luo Xian-feng, Zhu Sheng-lin,Chen Ze-jian,et al.Improved KNN text categorization algorithm based on K-Medoids algorithm[J].Computer Engineering and Design,2014,35(11):3864-3867.(in Chinese)

        [14] Shen Hong,Lü Bao-liang,Utiyam a Masao,et al.Comparison and improvments of feature extraction methods for text categorization[J].Computer Simulation,2003,23(3):222-224.(in Chinese)

        [15] Liu Qun, Li Su-jian.Word similarity computing based on How-net[J].Computational Linguistics & Chiese Language Processiong,2002,7(2):59-76.(in Chinese)

        [16] Li Feng,Li Fang.An new approach measuring semantic similarity in Hownet 2000[J].Journal of Chinese Information Processing,2007,21(3):99-105.(in Chinese)

        [17] Zhang H P, Yu H K, Xiong D Y, et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]∥Proc of the 2nd SIGHAN Workshop on Chinese Language Processing:Association for Computational Linguistics,2003:758-759.

        [18] http://www.datatang.com/data/43723.(in Chinese)

        附中文參考文獻(xiàn):

        [2] 李波,石慧霞,王毅.一種基于同義詞發(fā)現(xiàn)的文本擴(kuò)充算法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,28(2):76-81.

        [3] 閆瑞,曹先彬,李凱.面向短文本的動態(tài)組合分類算法[J].電子學(xué)報(bào),2009,37(5):1019-1024.

        [4] 丁澤亞,張全.利用概念知識的文本分類[J].應(yīng)用科學(xué)學(xué)報(bào),2013,31(2):197-203.

        [6] 魏超,羅森林,張競,等.自編碼網(wǎng)絡(luò)短文本流形表示方法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2015,49(8):1591-1599.

        [7] 劉赫,張相洪,劉大有,等.一種基于最大邊緣相關(guān)的特征選擇方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(2):354-360.

        [8] 劉晉勝.基于熵降噪優(yōu)化相似性距離的KNN算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(9):254-256.

        [9] 湛燕,陳昊.基于主題本體擴(kuò)展特征的短文本分類[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,34(3):307-311.

        [10] 王淵,劉業(yè)政,姜元春.基于粗糙KNN算法的文本分類方法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,37(12):1513-1517.

        [11] 余鷹,苗奪謙,劉財(cái)輝,等.基于變精度粗糙集的KNN分類改進(jìn)算法[J].模式識別與人工智能,2012,25(4):617-623.

        [12] 任麗芳.基于聚類的加速k-近鄰分類方法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(10):298-301.

        [13] 羅賢峰,祝勝林,陳澤健,等.基于K-Medoids聚類的改進(jìn)KNN文本分類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(11):3864-3867.

        [14] 申紅,呂寶糧,內(nèi)山將夫,等.文本分類的特征提取方法比較與改進(jìn)[J].計(jì)算機(jī)仿真,2006,23(3):222-224.

        [15] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計(jì)算[J].中文計(jì)算語言學(xué),2002,7(2):59-76.

        [16] 李峰,李芳.中文詞語語義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.

        [18] http://www.datatang.com/data/43723.

        猜你喜歡
        特征詞測試數(shù)據(jù)類別
        測試數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        基于自適應(yīng)粒子群優(yōu)化算法的測試數(shù)據(jù)擴(kuò)增方法
        空間co-location挖掘模式在學(xué)生體能測試數(shù)據(jù)中的應(yīng)用
        體育科技(2016年2期)2016-02-28 17:06:21
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        面向文本分類的特征詞選取方法研究與改進(jìn)
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
        漂亮人妻被强了中文字幕| 人妻无码AⅤ不卡中文字幕| 东京热加勒比日韩精品| 国产精品亚洲一二三区| 无套内内射视频网站| 欧美猛男军警gay自慰| 2021av在线| 国产精品久久一区二区蜜桃| 久久久极品少妇刺激呻吟网站| 又大又紧又粉嫩18p少妇| 色综合自拍| 日本一区二区三区的免费视频观看| 视频一区二区三区黄色| 北条麻妃国产九九九精品视频| 亚洲熟妇无码av不卡在线播放| 亚洲精品2区在线观看| 久久伊人亚洲精品视频| 毛片免费视频在线观看| 一级免费毛片| 精品蜜桃视频在线观看| av日韩一区二区三区四区| 免费在线视频亚洲色图| 日韩少妇内射免费播放18禁裸乳| av人摸人人人澡人人超碰小说| 成美女黄网站18禁免费| 国产一区二区三区在线男友| 久久久久国产综合av天堂| 五月婷一本到五月天| 精品国产乱码一区二区三区| 天堂视频在线观看一二区| 久久久久久亚洲精品中文字幕| 五月婷婷激情六月| 91人妻一区二区三区蜜臀| 国产综合色在线精品| 久久综合给合久久狠狠狠97色69 | 欧美一性一乱一交一视频| 亚洲成人免费观看| 亚洲另类国产精品中文字幕| 精品亚洲成a人在线观看| 丰满爆乳一区二区三区| 中文字幕乱码中文乱码毛片|