亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中文微博的產(chǎn)品評(píng)價(jià)分類(lèi)算法

        2016-04-12 00:00:00張燕
        現(xiàn)代電子技術(shù) 2016年14期

        摘 要: 在中文微博產(chǎn)品評(píng)價(jià)分類(lèi)算法中,由于常規(guī)SVM分類(lèi)器在對(duì)少量標(biāo)記數(shù)據(jù)的樣本進(jìn)行訓(xùn)練時(shí),泛化能力無(wú)法滿(mǎn)足要求,無(wú)法直接應(yīng)用于微博文本的數(shù)據(jù)挖掘中,而傳統(tǒng)的半監(jiān)督TSVM算法的改造是通過(guò)對(duì)未標(biāo)記數(shù)據(jù)增加懲罰函數(shù)完成的,這樣會(huì)產(chǎn)生非凸函數(shù)優(yōu)化問(wèn)題。因此該文研究一種半監(jiān)督高斯混合模型核的支持向量機(jī)分類(lèi)算法。使用高斯混合模型對(duì)已標(biāo)記和未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,求取概率分布。最后通過(guò)一個(gè)對(duì)于iPhone手機(jī)的評(píng)價(jià)實(shí)例進(jìn)行分析,驗(yàn)證了該文研究方法的優(yōu)勢(shì)。

        關(guān)鍵詞: 微博; 產(chǎn)品評(píng)價(jià); 數(shù)據(jù)挖掘; 支持向量機(jī); 半監(jiān)督學(xué)習(xí)

        中圖分類(lèi)號(hào): TN911?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)14?0077?03

        Product evaluation and classification algorithm based on Chinese micro blog

        ZHANG Yan

        (College of Educational Science, Xinjiang Normal University, Urumqi 830017, China)

        Abstract: The evaluation and classification algorithm of Chinese microblog products is studied in this paper. Because the conventional support vector machine (SVM) classifier cannot satisfy the requirement of the generalization ability when the samples are trained with a small amount of labeled data, it cannot be directly applied to the data mining of the micro blog text. And the improvement of the traditional semi supervised TSVM algorithm is accomplished by increasing the penalty function to the unlabeled data, but this will produce a non convex function optimization problem. Therefore, a semi?supervised kernel SVM classification algorithm based on Gauss mixture model is studied in this paper. The Gauss mixture model is used to train labeled and unlabeled data to obtain the probability distribution. SVM classification algorithm can make use of the clustering information with unlabeled data as far as possible. Finally, the advantages of this research method are verified by analyzing an example of evaluation for iPhone mobile phone.

        Keywords: microblog; product evaluation; data mining; support vector machine; semi?supervised learning

        0 引 言

        隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的普及,人們?cè)絹?lái)越多的在網(wǎng)絡(luò)中分享、交流、獲取信息。互聯(lián)網(wǎng)社交平臺(tái)的出現(xiàn)豐富了人們分析、獲取信息的途徑。人們可以在互聯(lián)網(wǎng)社交平臺(tái)上真實(shí)地表達(dá)自己對(duì)于某種產(chǎn)品的觀點(diǎn)、評(píng)價(jià)和立場(chǎng)等,這些觀點(diǎn)評(píng)價(jià)等信息涵蓋了大量的情感信息;因此對(duì)于這些情感信息進(jìn)行挖掘,能夠幫助企業(yè)商家分析人們對(duì)于產(chǎn)品的評(píng)價(jià),了解產(chǎn)品動(dòng)態(tài),及時(shí)做出有效整改,幫助監(jiān)管部門(mén)進(jìn)行監(jiān)督和民意調(diào)查等[1?3]。

        微博是近幾年快速興起的互聯(lián)網(wǎng)社交平臺(tái),其特點(diǎn)是信息傳播速度快,范圍廣,用戶(hù)量大等。人們?cè)絹?lái)越依賴(lài)微博,越來(lái)越愿意在微博中發(fā)布自己對(duì)于購(gòu)買(mǎi)商品的評(píng)價(jià),因此通過(guò)微博對(duì)于產(chǎn)品情感評(píng)價(jià)信息的數(shù)據(jù)挖掘,能夠獲取大量有意義的產(chǎn)品評(píng)價(jià)信息[4?6]。

        1 基于中文微博的產(chǎn)品評(píng)價(jià)方法

        在對(duì)產(chǎn)品評(píng)價(jià)和情感分析的數(shù)據(jù)挖掘領(lǐng)域中,使用比較廣泛的方法之一是機(jī)器學(xué)習(xí)方法。機(jī)器學(xué)習(xí)方法主要包括神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等監(jiān)督學(xué)習(xí)方法,對(duì)于已標(biāo)記數(shù)據(jù)能夠達(dá)到極高的分類(lèi)準(zhǔn)確率,但是數(shù)據(jù)的標(biāo)記過(guò)程是限制其應(yīng)用的主要因素。非監(jiān)督學(xué)習(xí)方法不需要大量的標(biāo)記數(shù)據(jù)進(jìn)行分類(lèi),但是技術(shù)不夠成熟,因此本文使用一種半監(jiān)督型機(jī)器學(xué)習(xí)方法:半督導(dǎo)SGSVM算法,進(jìn)行微博中對(duì)產(chǎn)品評(píng)價(jià)信息的挖掘和分類(lèi)[7?9]。

        對(duì)于微博中對(duì)產(chǎn)品評(píng)價(jià)信息的挖掘和分類(lèi)流程如圖1所示。

        首先,需要對(duì)微博、評(píng)論及轉(zhuǎn)發(fā)的文本進(jìn)行分詞、標(biāo)注詞性等預(yù)處理。然后以特征向量形式表示文本,將數(shù)據(jù)分為訓(xùn)練樣本集和測(cè)試樣本集,使用訓(xùn)練樣本對(duì)分類(lèi)模型進(jìn)行訓(xùn)練。之后使用訓(xùn)練后得到的分類(lèi)器對(duì)測(cè)試樣本集進(jìn)行測(cè)試。最后對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)價(jià)[10?11]。

        2 基于半監(jiān)督高斯混合模型核的支持向量機(jī)分

        類(lèi)算法

        SVM分類(lèi)器是一種性能優(yōu)良的分類(lèi)模型,但是僅限于訓(xùn)練樣本為已標(biāo)記數(shù)據(jù)樣本,對(duì)于未標(biāo)記或部分標(biāo)記的訓(xùn)練樣本集,SVM分類(lèi)性能仍有待提高。使用高斯函數(shù)生產(chǎn)樣本中心分別在(1,1)和(-1,-1)的兩類(lèi)測(cè)試樣本,對(duì)其中10個(gè)樣本進(jìn)行標(biāo)記,剩余190個(gè)樣本未進(jìn)行標(biāo)記,使用SVM分類(lèi)器進(jìn)行分類(lèi)得到分類(lèi)界面如圖2所示。

        可以看出,由于標(biāo)記數(shù)據(jù)樣本過(guò)少,使用這樣訓(xùn)練樣本訓(xùn)練后得到的SVM分類(lèi)器的泛化能力很弱,因此無(wú)法使用這類(lèi)督導(dǎo)機(jī)器學(xué)習(xí)算法直接應(yīng)用于微博文本的數(shù)據(jù)挖掘中[12]。督導(dǎo)學(xué)習(xí)算法優(yōu)化問(wèn)題如下:

        式中:[C]是懲罰函數(shù);[fH]是H范數(shù),能夠表示f在再生核希爾伯特空間H上的光滑程度;[Ω]是正則化函數(shù),主要對(duì)待求函數(shù)進(jìn)行假設(shè)空間約束;

        為了同時(shí)對(duì)已標(biāo)記和未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,將優(yōu)化問(wèn)題轉(zhuǎn)變?yōu)椋?/p>

        式中:[H]是同時(shí)涵蓋已標(biāo)記和未標(biāo)記數(shù)據(jù)的再生核希爾伯特空間。

        傳統(tǒng)的半監(jiān)督TSVM算法的改造是通過(guò)對(duì)未標(biāo)記數(shù)據(jù)增加懲罰函數(shù)完成的。這樣會(huì)產(chǎn)生非凸函數(shù)優(yōu)化問(wèn)題,因此本文研究一種半監(jiān)督高斯混合模型核的支持向量機(jī)分類(lèi)算法。

        定義可見(jiàn)變量[x,x′]的核[Kx,x′]:

        式中:[v∈V]表示隱含變量,[V]表示隱含變量集合;[Kzz,z′]為核函數(shù);[Pvx],[Pv′x′]為后驗(yàn)概率。

        高斯混合模型能夠較好在概率空間上對(duì)樣本矢量分布特征進(jìn)行描述,因此使用高斯混合模型對(duì)已標(biāo)記和未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,求取概率分布??臻g結(jié)構(gòu)概率模型表示為:

        式中:[qxv,μv,Av]表示[μv]為第[v]個(gè)中心,[A-1v]為協(xié)方差矩陣的高斯分布,有:

        可將聯(lián)合核重新表示為:

        式中:[I·]表示標(biāo)記函數(shù)。

        可以得到半監(jiān)督高斯混合模型核為:

        定義式(8)表示半監(jiān)督高斯混合模型的再生核希爾伯特空間距離為:

        [Dx,x′=Kx,x+Kx′,x′-2Kx,x′] (8)

        通過(guò)上述改進(jìn),可以使SVM分類(lèi)算法盡可能使用未標(biāo)示數(shù)據(jù)的聚類(lèi)信息[13]。

        定義核函數(shù)負(fù)荷Mercer核條件,那么會(huì)有一個(gè)再生希爾伯特核空間和[x→Φx]映射函數(shù),滿(mǎn)足:

        為了減小樣本中噪聲樣本的干擾,使用下面的懲罰因子對(duì)各個(gè)已標(biāo)記樣本的懲罰因子進(jìn)行計(jì)算:

        式中:[C]是懲罰因子值;[Ex]是后驗(yàn)概率熵。

        本文研究的半督導(dǎo)SGSVM算法的流程[14]:

        Step1:對(duì)高斯混合模型中成分?jǐn)?shù)進(jìn)行確定,建立高斯混合模型,選取模型初始參數(shù)。

        Step2:對(duì)于輸入樣本,求出其后驗(yàn)概率[pvx]及核函數(shù)。

        Step3:將Step1中得到初始模型的核函數(shù)以及由標(biāo)記數(shù)據(jù)得到的懲罰因子共同輸入SVM模型中訓(xùn)練,最終得出SVM模型的決策函數(shù)。

        Step4:對(duì)于新輸入的樣本,首先求出核函數(shù)值,之后使用決策函數(shù)進(jìn)行分類(lèi)。

        3 實(shí)例分析

        本文使用200條對(duì)于iPhone 6手機(jī)的相關(guān)感情評(píng)價(jià)的微博、轉(zhuǎn)發(fā)以及評(píng)論的文本構(gòu)建評(píng)價(jià)單元7 235條,通過(guò)特征項(xiàng)提取,人工標(biāo)記為強(qiáng)積極、積極、弱積極、弱消極、消極以及強(qiáng)消極6類(lèi)。隨機(jī)抽取其中140條微博,共計(jì)5 162個(gè)評(píng)價(jià)單元用于對(duì)分類(lèi)模型的訓(xùn)練,剩余60條微博,共計(jì)2 073條評(píng)價(jià)單元用于對(duì)分類(lèi)模型的測(cè)試。本文使用常規(guī)SVM算法和半督導(dǎo)TSVM算法與本文研究的半督導(dǎo)SGSVM算法進(jìn)行比較研究。

        3.1 實(shí)驗(yàn)1:比較不同標(biāo)記數(shù)量對(duì)分類(lèi)的影響

        首先通過(guò)第一個(gè)實(shí)驗(yàn)來(lái)比較對(duì)不同數(shù)量數(shù)據(jù)標(biāo)記的情況下,不同算法的分類(lèi)正確率。分別將訓(xùn)練數(shù)據(jù)中20%,40%,60%,80%,100%的數(shù)據(jù)作為已標(biāo)記數(shù)據(jù),使用三種算法進(jìn)行訓(xùn)練,得到三種算法在不同標(biāo)記數(shù)據(jù)個(gè)數(shù)下的分類(lèi)正確率如圖3所示。

        從圖3可以看出,三種算法在具有較少的標(biāo)記數(shù)據(jù)量時(shí)分類(lèi)正確率均較低,隨著標(biāo)記數(shù)據(jù)量的增多,分類(lèi)正確率逐漸升高,并且SVM算法的分類(lèi)正確率要低于另外兩種半監(jiān)督SVM算法,當(dāng)達(dá)到100%的標(biāo)記數(shù)據(jù)量時(shí),三種算法的分類(lèi)正確率達(dá)到一致。說(shuō)明半監(jiān)督SVM算法在有較少標(biāo)記數(shù)量情況下,具有相對(duì)較好的分類(lèi)性能。

        3.2 實(shí)驗(yàn)2:使用測(cè)試數(shù)據(jù)對(duì)不同算法進(jìn)行測(cè)試

        隨后通過(guò)第二個(gè)實(shí)驗(yàn)驗(yàn)證三種不同測(cè)試數(shù)據(jù)的分類(lèi)效果。使用測(cè)試數(shù)據(jù)對(duì)以訓(xùn)練的常規(guī)SVM算法和半督導(dǎo)TSVM算法與本文研究的半督導(dǎo)SGSVM算法模型進(jìn)行分類(lèi)實(shí)例分析,其中用于訓(xùn)練的數(shù)據(jù)中已有60%為已標(biāo)記數(shù)據(jù)。使用綜合評(píng)價(jià)指標(biāo)F1作為評(píng)價(jià)標(biāo)準(zhǔn),表示為:

        式中:[Pj]表示查準(zhǔn)率;[Rj]表示查全率。

        使用三種算法得到的F1比較見(jiàn)表1??梢钥闯鯯VM算法的分類(lèi)效果最弱,而兩種半監(jiān)督SVM算法對(duì)于不同分類(lèi)各具優(yōu)勢(shì),但總的來(lái)說(shuō),本文研究的半督導(dǎo)SGSVM算法的分類(lèi)效果最好。

        4 結(jié) 論

        本文研究一種半監(jiān)督高斯混合模型核的支持向量機(jī)分類(lèi)算法對(duì)微博中產(chǎn)品評(píng)價(jià)信息進(jìn)行挖掘和分類(lèi)。使用常規(guī)SVM算法和半監(jiān)督TSVM算法與本文研究的半督導(dǎo)SGSVM算法進(jìn)行比較研究。研究結(jié)果表明:本文研究的半監(jiān)督方法算法能夠較好地進(jìn)行信息分類(lèi),有效降低對(duì)標(biāo)記數(shù)據(jù)樣本的要求,提高了算法效率。

        參考文獻(xiàn)

        [1] 張學(xué)超.基于中文微博的產(chǎn)品評(píng)價(jià)分類(lèi)及推薦算法研究[D].大連:大連理工大學(xué),2014.

        [2] 萬(wàn)丹琳.基于中文微博的用戶(hù)傾向挖掘與分析[D].北京:北京郵電大學(xué),2015.

        [3] 田耕.基于關(guān)系和內(nèi)容的推薦算法研究[D].北京:北京交通大學(xué),2015.

        [4] 楊東輝.基于情感相似度的社會(huì)化推薦系統(tǒng)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.

        [5] 紀(jì)雪梅.特定事件情境下中文微博用戶(hù)情感挖掘與傳播研究[D].天津:南開(kāi)大學(xué),2014.

        [6] 杜愛(ài)玲.基于混合推薦算法的微博網(wǎng)絡(luò)廣告推薦研究[D].青島:中國(guó)海洋大學(xué),2014.

        [7] 劉楠.面向微博短文本的情感分析研究[D].武漢:武漢大學(xué),2013.

        [8] 溫源.互聯(lián)網(wǎng)文本信息挖掘與個(gè)性化推薦的研究[D].北京:北京交通大學(xué),2014.

        [9] 劉紅玉.網(wǎng)絡(luò)輿情情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2013.

        [10] 康浩.微博文本情感分類(lèi)方法與應(yīng)用研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2012.

        [11] 彭蔚喆.面向中文微博文本的情感識(shí)別與分類(lèi)技術(shù)研究[D].武漢:華中師范大學(xué),2014.

        [12] 陶新民,曹盼東,宋少宇,等.基于半監(jiān)督高斯混合模型核的支持向量機(jī)分類(lèi)算法[J].信息與控制,2013,42(1):18?26.

        [13] 曹盼東.基于圖模型的半監(jiān)督SVM分類(lèi)算法研究與應(yīng)用[D].哈爾濱:哈爾濱工程大學(xué),2012.

        [14] 周文剛,趙宇,朱海.基于混合高斯模型和空間模糊度的支持向量機(jī)算法研究[J].計(jì)算機(jī)應(yīng)用研究,2015(5):1319?1321.

        麻豆成人精品国产免费| 亚洲国产一区二区,毛片| 尤物无码一区| 国产精品白浆视频一区| 初尝人妻少妇中文字幕在线| 男女互舔动态视频在线观看| 精品乱色一区二区中文字幕| 一区二区亚洲精品国产精| 中文字幕综合一区二区| 国产亚洲aⅴ在线电影| 国产精品久久国产精品99| 中国人妻被两个老外三p| 乱码精品一区二区三区| 亚洲日本在线va中文字幕| 久久久一本精品久久久一本| 穿着白丝啪啪的av网站| 情人伊人久久综合亚洲| 蜜桃无码一区二区三区| 国产精品亚洲一区二区无码 | 扒开女性毛茸茸的视频| 国产三级精品三级在线专区| 亚洲精品电影院| 国产精品嫩草影院av| 中文字幕无码免费久久9一区9| 色av色婷婷18人妻久久久| 一级内射免费观看视频| 国产草逼视频免费观看| 色费女人18毛片a级毛片视频| 台湾佬娱乐中文22vvvv| 亚洲五月七月丁香缴情| 日本精品熟妇一区二区三区| 中文字幕人乱码中文字幕乱码在线 | 欧美尺寸又黑又粗又长| 亚洲中文一本无码AV在线无码| 久草国产手机视频在线观看| 精品人妻日韩中文字幕| 久久精品网站免费观看| 777米奇色8888狠狠俺去啦| 大胆欧美熟妇xxbbwwbw高潮了| 中文字幕日产人妻久久| 我的极品小姨在线观看|