亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征擴展的半監(jiān)督協(xié)同短文本分類方法研究

        2018-01-04 12:02:04付學敏
        電腦知識與技術 2018年29期

        付學敏

        摘要:短文本分類是數據挖掘的一個重要方面,半監(jiān)督學習可以有效的解決標簽數據不足的問題。然而,短文本數據的稀疏性極大的限制了半監(jiān)督學習算法的應用。因此本文提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法。該方法能改善文本的稀疏性問題,實驗結果表明,本文所提方法可以有效的提高已有半監(jiān)督算法的分類精度。

        關鍵詞:稀疏性;分類精度;半監(jiān)督算法;短文本分類

        中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)29-0205-03

        Abstract:Short text classification is an important aspect of data mining. Semi-supervised learning can effectively solve the problem of insufficient label data. However, the sparsity of short text data greatly limits the application of semi-supervised learning algorithms. Therefore, this paper proposes a semi-supervised collaborative short text classification method based on feature extension. This method can improve the sparsity of texts. The experimental results show that the proposed method can effectively improve the classification accuracy of existing semi-supervised algorithms.

        1引言

        隨著互聯網的發(fā)展,網絡文本如博客、微博、產品評論等也隨之大量涌現,這類數據包含了大量有價值的信息,然而這類數據往往缺失標簽信息,因此,研究半監(jiān)督的文本分類算法具有十分重要的意義。

        半監(jiān)督算法旨在利用少量的標簽數據和大量無標簽數據構建高性能分類器,解決標簽數據不足的問題。當前的半監(jiān)督算法主要分為增量式半監(jiān)督學習算法和基于圖的半監(jiān)督學習算法。增量式半監(jiān)督學習算法[1][2],以迭代方式根據某種選擇方法選擇部分較為信任的樣本加入標簽數據集來對分類器進行重新訓練。而基于圖的半監(jiān)督學習算法如[3],將樣本表示成圖中的頂點,樣本間的相似性表示成頂點間的邊,迭代的將樣本的標簽通過圖傳遞給未標記文本。這些方法一定程度上解決了樣本標簽數據不足問題,提高了最終的分類精度。

        然而在文本分類中,數據普遍具有的稀疏性,從而極大的限制了半監(jiān)督算法的運用[4],這在網絡文本上尤其明顯。在增量式半監(jiān)督學習算法中,數據的稀疏性使得特征出現的頻率不高,在標簽文本中訓練的分類器很容易出現過擬合現象,導致分類精確度較低,影響了增量式半監(jiān)督學習算法的后續(xù)迭代過程[5]。

        本文提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法,該方法首先利用無標簽文本數據統(tǒng)計特征間的共現關系,根據該共現關系計算特征間的相似度,然后針對文本中未出現的特征,計算特征與該文本中所有特征的相似性,用相似性較高的部分特征擴充原有特征空間,最后分別在原始數據和擴展數據上訓練分類器,迭代的選擇預測標簽一致的無標簽文本加入訓練集。

        2 基于特征擴展的半監(jiān)督協(xié)同短文本分類方法(co-self-training svm)原理

        2.1基本思想

        給定僅包含少量標簽的文本數據[L=xi,yimi=1]和大量無標簽數據[U=(xi)ni=m+1],(m<

        首先,利用特征在文本中的頻率作為權重對x進行向量化表示,[x=],其中[tffi,x]為特征[fi]在文本[x]中出現的次數。文本數據普遍具有一定的高維稀疏性,即大多數[tffi,x]值為0,從而影響分類精度。因此,本文通過擴充樣本的特征空間來改善文本的稀疏性,然后利用半監(jiān)督算法訓練得到一個高效的分類器。

        2.2特征擴展方法

        3.3方法準確率對比

        表1列出了算法的實驗結果對比,從表中可以看出,modified self-training svm算法和modified LP算法實驗結果平均都大于基本的self-training svm算法和LP算法一個百分點,這證明了本文頻率擴展方法可以有效的改善文本的稀疏性,提高半監(jiān)督學習算法的效率,同時,本文提出的co-self-training svm算法實驗結果高于所有的其他算法的實驗結果,這顯示了本文算法的有效性。

        4 本文小結

        針對半監(jiān)督環(huán)境下短文本數據的稀疏性問題,本章提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法,首先使用頻率擴展方法改善文本的稀疏性,并使用擴展后文本和原始文本協(xié)同訓練半監(jiān)督算法。實驗表明,在相同的數據集上,本章提出的算法在文本上分類性能優(yōu)于所有其他基本算法。

        參考文獻:

        [1] 鄭文靜,李雷. 基于聚類核的半監(jiān)督情感分類算法研究[J].計算機技術與發(fā)展,2016(12):87-91.

        [2] 蘇艷,居勝峰,王中卿,等.基于隨機特征子空間的半監(jiān)督情感分類方法研究[J].中文信息學報. 2012(04):85-90.

        [3] 郭濤,李貴洋,蘭霞.基于圖的半監(jiān)督協(xié)同訓練算法[J].計算機工程與設計.2012(09):3584-3587.

        [4] 孫學琛,高志強.基于半監(jiān)督學習的短文本分類方法[J].山東理工大學學報(自然科學版).2012(01):1-4.

        [5] 王玨,周志華,周傲英.機器學習及其應用[M].北京:清華大學出版社,2006.

        [6] 黃建校,邵曦. 一種改進的SVM增量學習算法研究[J].無線互聯科技,2017(03):46-49.

        [7] 劉家辰.集成單類分類算法及其應用研究[D].西安電子科技大學,2015.

        [8] 馮愛民.結構驅動的單類分類器設計及拓展研究[D].南京航空航天大學,2011.

        【通聯編輯:唐一東】

        亚洲成av人最新无码| 国产亚洲一区二区在线观看| 丰满少妇作爱视频免费观看| 国产白丝无码视频在线观看| 狠狠躁狠狠躁东京热无码专区| 久久国产精品国产精品久久| 丝袜美腿高清在线观看| 加勒比久久综合久久伊人爱| 亚洲欧美v国产一区二区| а天堂中文在线官网| 亚洲国际无码中文字幕| 谁有在线观看av中文| 美女视频在线观看网址大全| aa片在线观看视频在线播放| 亚洲一区二区三区日本久久九| 欧美成人网视频| 日韩精品中文字幕一区二区| 亚洲人成网77777色在线播放| 久久久久久亚洲精品中文字幕| 色综合另类小说图片区| 亚洲精品在线观看自拍| 国产精品偷窥熟女精品视频| 全部孕妇毛片丰满孕妇孕交| 久久这里只精品国产2| 一区二区三区在线乱码| 中文字幕日韩人妻在线视频| 永久免费无码av在线网站| 亚洲一区二区情侣| 国产精品亚洲av高清二区| 成人美女黄网站色大免费的| 国产精品短视频| 日本顶级片一区二区三区| 亚洲国产精品成人久久| 小12萝8禁在线喷水观看| 国产精品一区二区三区不卡| 国产一级二级三级在线观看av | 亚洲av无码精品色午夜在线观看| 97中文字幕在线观看| 亚洲av成人一区二区三区不卡| 国产在线一区二区三区乱码| 中国农村熟妇性视频|