亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征擴展的半監(jiān)督協(xié)同短文本分類方法研究

        2018-01-04 12:02:04付學敏
        電腦知識與技術 2018年29期

        付學敏

        摘要:短文本分類是數據挖掘的一個重要方面,半監(jiān)督學習可以有效的解決標簽數據不足的問題。然而,短文本數據的稀疏性極大的限制了半監(jiān)督學習算法的應用。因此本文提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法。該方法能改善文本的稀疏性問題,實驗結果表明,本文所提方法可以有效的提高已有半監(jiān)督算法的分類精度。

        關鍵詞:稀疏性;分類精度;半監(jiān)督算法;短文本分類

        中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)29-0205-03

        Abstract:Short text classification is an important aspect of data mining. Semi-supervised learning can effectively solve the problem of insufficient label data. However, the sparsity of short text data greatly limits the application of semi-supervised learning algorithms. Therefore, this paper proposes a semi-supervised collaborative short text classification method based on feature extension. This method can improve the sparsity of texts. The experimental results show that the proposed method can effectively improve the classification accuracy of existing semi-supervised algorithms.

        1引言

        隨著互聯網的發(fā)展,網絡文本如博客、微博、產品評論等也隨之大量涌現,這類數據包含了大量有價值的信息,然而這類數據往往缺失標簽信息,因此,研究半監(jiān)督的文本分類算法具有十分重要的意義。

        半監(jiān)督算法旨在利用少量的標簽數據和大量無標簽數據構建高性能分類器,解決標簽數據不足的問題。當前的半監(jiān)督算法主要分為增量式半監(jiān)督學習算法和基于圖的半監(jiān)督學習算法。增量式半監(jiān)督學習算法[1][2],以迭代方式根據某種選擇方法選擇部分較為信任的樣本加入標簽數據集來對分類器進行重新訓練。而基于圖的半監(jiān)督學習算法如[3],將樣本表示成圖中的頂點,樣本間的相似性表示成頂點間的邊,迭代的將樣本的標簽通過圖傳遞給未標記文本。這些方法一定程度上解決了樣本標簽數據不足問題,提高了最終的分類精度。

        然而在文本分類中,數據普遍具有的稀疏性,從而極大的限制了半監(jiān)督算法的運用[4],這在網絡文本上尤其明顯。在增量式半監(jiān)督學習算法中,數據的稀疏性使得特征出現的頻率不高,在標簽文本中訓練的分類器很容易出現過擬合現象,導致分類精確度較低,影響了增量式半監(jiān)督學習算法的后續(xù)迭代過程[5]。

        本文提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法,該方法首先利用無標簽文本數據統(tǒng)計特征間的共現關系,根據該共現關系計算特征間的相似度,然后針對文本中未出現的特征,計算特征與該文本中所有特征的相似性,用相似性較高的部分特征擴充原有特征空間,最后分別在原始數據和擴展數據上訓練分類器,迭代的選擇預測標簽一致的無標簽文本加入訓練集。

        2 基于特征擴展的半監(jiān)督協(xié)同短文本分類方法(co-self-training svm)原理

        2.1基本思想

        給定僅包含少量標簽的文本數據[L=xi,yimi=1]和大量無標簽數據[U=(xi)ni=m+1],(m<

        首先,利用特征在文本中的頻率作為權重對x進行向量化表示,[x=],其中[tffi,x]為特征[fi]在文本[x]中出現的次數。文本數據普遍具有一定的高維稀疏性,即大多數[tffi,x]值為0,從而影響分類精度。因此,本文通過擴充樣本的特征空間來改善文本的稀疏性,然后利用半監(jiān)督算法訓練得到一個高效的分類器。

        2.2特征擴展方法

        3.3方法準確率對比

        表1列出了算法的實驗結果對比,從表中可以看出,modified self-training svm算法和modified LP算法實驗結果平均都大于基本的self-training svm算法和LP算法一個百分點,這證明了本文頻率擴展方法可以有效的改善文本的稀疏性,提高半監(jiān)督學習算法的效率,同時,本文提出的co-self-training svm算法實驗結果高于所有的其他算法的實驗結果,這顯示了本文算法的有效性。

        4 本文小結

        針對半監(jiān)督環(huán)境下短文本數據的稀疏性問題,本章提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法,首先使用頻率擴展方法改善文本的稀疏性,并使用擴展后文本和原始文本協(xié)同訓練半監(jiān)督算法。實驗表明,在相同的數據集上,本章提出的算法在文本上分類性能優(yōu)于所有其他基本算法。

        參考文獻:

        [1] 鄭文靜,李雷. 基于聚類核的半監(jiān)督情感分類算法研究[J].計算機技術與發(fā)展,2016(12):87-91.

        [2] 蘇艷,居勝峰,王中卿,等.基于隨機特征子空間的半監(jiān)督情感分類方法研究[J].中文信息學報. 2012(04):85-90.

        [3] 郭濤,李貴洋,蘭霞.基于圖的半監(jiān)督協(xié)同訓練算法[J].計算機工程與設計.2012(09):3584-3587.

        [4] 孫學琛,高志強.基于半監(jiān)督學習的短文本分類方法[J].山東理工大學學報(自然科學版).2012(01):1-4.

        [5] 王玨,周志華,周傲英.機器學習及其應用[M].北京:清華大學出版社,2006.

        [6] 黃建校,邵曦. 一種改進的SVM增量學習算法研究[J].無線互聯科技,2017(03):46-49.

        [7] 劉家辰.集成單類分類算法及其應用研究[D].西安電子科技大學,2015.

        [8] 馮愛民.結構驅動的單類分類器設計及拓展研究[D].南京航空航天大學,2011.

        【通聯編輯:唐一東】

        亚洲av福利院在线观看| 亚洲欧美成人久久综合中文网| 永久免费看黄在线观看| 亚洲av高清一区二区三| 人人爽久久涩噜噜噜av| 国产精品自产拍在线18禁| 亚洲av男人免费久久| 精品人无码一区二区三区| 亚洲综合区图片小说区| 亚洲日韩中文字幕在线播放 | 在线免费欧美| 白白色日韩免费在线观看| 无码无套少妇毛多18p| 国产无套护士在线观看| 国产精品色内内在线播放| 亚洲天堂av一区二区三区不卡| 成人特黄a级毛片免费视频| 99re6热在线精品视频播放6| 久久人妻少妇中文字幕| 一二三区无线乱码中文在线| 中文字幕一区二区三区日韩精品| 无码Av在线一区二区三区| 国产黄色一区二区三区,| 国产亚洲精品成人aa片新蒲金| 美女高潮无遮挡免费视频| 亚洲一区二区三在线播放| 男人的天堂一区二av| 国产熟妇人妻精品一区二区动漫 | 国产精品白浆免费观看| 亚洲永久国产中文字幕| 亚洲成av人片在线观看ww| 日韩亚洲中文图片小说| 日韩一二三四区在线观看| av无码av天天av天天爽| 国产jk在线观看| 亚洲国产精品嫩草影院久久av| 亚洲av中文无码乱人伦在线咪咕| 欧美真人性做爰一二区| av免费网站在线免费观看| 久久无码高潮喷水抽搐| 99久久精品国产成人综合|