亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MKL-SVM的網(wǎng)絡(luò)購物評論分類方法

        2012-04-29 00:44:03胡瀚
        計算機時代 2012年4期
        關(guān)鍵詞:文本分類

        胡瀚

        摘要: 購物網(wǎng)站在線評論系統(tǒng)收集了大量的顧客評價。支持向量機(SVM)是一種有效的文本分類方法,可以用于跟蹤和管理顧客意見,但是SVM存在訓(xùn)練收斂速度慢,分類精度難以提高等缺點。文章提出利用異質(zhì)核函數(shù)性的不同特性,解決支持向量機(SVM)數(shù)據(jù)泛化學(xué)習(xí)能力弱的問題,提高SVM的分類精度,通過對顧客購物評論進行分類,解決購物網(wǎng)站海量顧客評論分析的問題,幫助企業(yè)及時進行顧客反饋,提升服務(wù)水平。

        關(guān)鍵詞: 網(wǎng)絡(luò)購物評論; 文本分類; SVM; 多核學(xué)習(xí)

        中圖分類號:F406.2文獻標(biāo)識碼:A 文章編號:1006-8228(2012)04-43-03

        A classification method of online reviews based on MKL-SVM

        Hu Han

        (Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)

        Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVMs problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.

        Key words: customer review; text classification; SVM; multiple kernel learning

        0 引言

        購物網(wǎng)站都建立有顧客評論系統(tǒng),收集顧客對于商品及網(wǎng)站服務(wù)的體驗感受。由于購物評論表達形式繁雜、內(nèi)容隨意、句型多樣,給企業(yè)有效跟蹤和管理用戶評論意見,帶來了很大的難度。

        文本分類(text categorization)應(yīng)用分類函數(shù)或分類模型,把文本映射到多個類別中的某一類,使檢索或查詢的速度更快,準(zhǔn)確率更高。文本分類在自然語言處理與理解、信息組織與管理、內(nèi)容信息過濾等領(lǐng)域有著廣泛的應(yīng)用。主要分類方法有:貝葉斯、決策樹、支持向量機(Support Vector Machines, SVM)、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。其中SVM通過分隔面模式擺脫了樣本分布、冗余特征以及過度擬合等因素的影響,具有很好的泛化學(xué)習(xí)能力[1]。但是SVM存在訓(xùn)練收斂速度慢,分類精度難以提高等缺點。

        核函數(shù)是SVM解決非線性問題的方法,受限于單個核函數(shù)性能,使得SVM泛化學(xué)習(xí)能力有限,分類精度難以提升。多核學(xué)習(xí)(Multiple Kernel Learning,MKL)利用對同質(zhì)(homogeneous)或異質(zhì)(heterogeneous)核函數(shù)優(yōu)化整合,提高了SVM的學(xué)習(xí)能力和泛化性能。在處理大量異質(zhì)數(shù)據(jù)時,MKL具有很好的靈活性,且分類結(jié)果更清晰,便于解決現(xiàn)實應(yīng)用問題[2],但MKL涉及較多的相關(guān)參數(shù)的優(yōu)化。對MKL研究目前主要集中在圖像識別領(lǐng)域[3,4]。本文通過校準(zhǔn)算法確定MKL異質(zhì)核函數(shù)的優(yōu)化權(quán)系數(shù)和核參數(shù),建立基于多核學(xué)習(xí)的支持向量機(Multiple Kernel Learning SVM, MKL-SVM)文本分類模型,提升SVM在評論分類中的應(yīng)用效果。

        1 MKL-SVM方法描述

        1.1 SVM核函數(shù)

        SVM是基于統(tǒng)計學(xué)理論中的結(jié)構(gòu)風(fēng)險最小化原理,具有高泛化性能的通用學(xué)習(xí)機。設(shè)分割面,樣本集線性可分時,SVM通過一個分割超平面,把訓(xùn)練樣本點分類,使兩類訓(xùn)練點到分割面的最小距離之和分類間隔(margin)最大[5]。分類間隔margin=2/||ω||,使間隔最大等價于使||ω||2最小。最優(yōu)分類面的求解可以轉(zhuǎn)化為優(yōu)化問題:

        s.t.

        利用Lagrange優(yōu)化可將上述問題轉(zhuǎn)為其對偶問題:求解下列函數(shù):

        max:

        s.t.和。

        最優(yōu)分類函數(shù)是

        。

        上述式中a:為Lagrange非負(fù)乘子

        將低維的輸入空間數(shù)據(jù)通過非線性映射函數(shù)映射到高維屬性空間,輸入空間線性不可分問題在屬性空間將轉(zhuǎn)化為線性可分問題。這種非線性映射函數(shù)稱之為核函數(shù)[6]。設(shè)x在χ對應(yīng)一個映射到高緯空間,φ(x)為核映射函數(shù),K核函數(shù)為,,SVM尋找的超平面胃。此時目標(biāo)函數(shù)變?yōu)椋?/p>

        考慮最大分割和訓(xùn)練誤差,優(yōu)化公式為:

        s.t.

        1.2 多核學(xué)習(xí)

        設(shè)函數(shù)集合M由多個核函數(shù)K1…Km組成,核函數(shù)對應(yīng)的映射函數(shù)是φ1…φM。MKL[7]公式:

        s.t.

        其中ωk表示φk在整個學(xué)習(xí)機中的權(quán)重。

        其中00, k=1,2….M;多核學(xué)習(xí)核函數(shù)KMKL是Ki的凸線性組合:;最終的分類函數(shù)。

        1.3 MKL-SVM及優(yōu)化參數(shù)計算

        MKL-SVM核函數(shù)的選擇取決于對數(shù)據(jù)處理的要求。具有全局性的核函數(shù)和局部性的核函數(shù)的分類性能互補,可以使用不同核函數(shù)組成多核核函數(shù)[8],但是如果MKL異質(zhì)核函數(shù)種類過多,會使SVM訓(xùn)練過于復(fù)雜。因此,本研究選用M=2,核函數(shù)選擇了:Gaussian徑向基核函數(shù)RBF (Radial Basis Function)。局部核函數(shù)具有較好的學(xué)習(xí)能力,而泛化推廣能力較弱。多項式核函數(shù)(Polynomial Function, PF)是一個全局性核函數(shù),具有較好的泛化推廣能力,而學(xué)習(xí)能力則要弱些。Sigmoid核函數(shù)在神經(jīng)網(wǎng)絡(luò)的應(yīng)用中,具有良好的全局分類性能。對有下面2種實現(xiàn)形式:

        MKL-SVM計算中核參數(shù)σ、d、β0、β需要尋找合適的值使得SVM測試錯誤率最小。權(quán)系數(shù)λ對MKL-SVM起著關(guān)鍵作用也需要進行尋優(yōu)。核參數(shù)和權(quán)系數(shù)的確定是MKL-SVM非常重要的環(huán)節(jié)。本文利用核函數(shù)之間的關(guān)系等價于核矩陣之間的關(guān)系,結(jié)合交叉驗證技術(shù)LOO和核校準(zhǔn)(kernelalignment)[9],建立如下優(yōu)化求解步驟:

        ①,表示兩個核矩陣之間的內(nèi)積。

        核校準(zhǔn)度量k1與k2在樣本集S上的差異。核校準(zhǔn)是一個標(biāo)量值,體現(xiàn)了不同核函數(shù)之間的差異關(guān)系。

        ② 對k1,k2使用LOO方法,求出核參數(shù),使達到最大的核參數(shù)。

        ③ 定義函數(shù)

        ④ 構(gòu)造一個權(quán)參數(shù)λ和乘子αi的拉格朗日方程,構(gòu)造二次規(guī)劃子問題:

        ⑤ 重復(fù)步驟④直到誤差最小,算法收斂到最優(yōu)的λ值。

        2 實例分析

        2.1 評估標(biāo)準(zhǔn)和分類維度

        表1購物評論分類維度

        [[評論對象&編號&維度&解釋&售前服務(wù)&A1&購買咨詢&是否提供在線問答解決顧客疑問&A2&信息提供全面性&網(wǎng)站商品信息是否滿足顧客需求&商品&B1&定價&價格浮動給顧客帶來的影響&B2&商品特征&對商品使用感受&網(wǎng)站服務(wù)&C1&支付方式&網(wǎng)站方便、種類多、安全&C2&內(nèi)部配貨、調(diào)貨&企業(yè)內(nèi)部訂單處理速度&C3&信息溝通&及時傳遞商品處理信息給顧客&物流服務(wù)&D1&及時性&物流時間是否合理&D2&態(tài)度&快遞服務(wù)、送貨上門態(tài)度&D3&質(zhì)量&外包裝磨損、安全&售后服務(wù)&E1&換、退貨&問題商品的處理&]]

        對于需要分類的n個狀態(tài),我們以ce表示對第i個狀態(tài)分類出的正確信息個數(shù),te表示沒有分類出的正確信息個數(shù),fe為錯誤信息個數(shù)。以精確度P(Precision)表示系統(tǒng)正確分類信息占所有分類信息的比例,;召回率R(Recall)表示系統(tǒng)分類出的正確信息占所有可能正確信息的比例,。評論模型性能需要同時考慮P和R,為此引入,其中β是P和R的相對權(quán)重,決定對P側(cè)重還是對R側(cè)重,通常設(shè)定為1。F值越大,說明分類性能越好。

        圍繞購物網(wǎng)站服務(wù)流程,本研究結(jié)合顧客購物評論中的常見主題,總結(jié)出了評論的分類維度(表1)。

        2.2 方法評估與應(yīng)用

        本文從卓越亞馬遜、當(dāng)當(dāng)網(wǎng)等購物網(wǎng)站,下載了不同商品的3000條購物評論。隨機抽取2000條作為訓(xùn)練集,其余作為測試集,對比幾種方法F值。從圖1可以看出,單核SVM中Gaussian RBF優(yōu)于Polynomial;而MKL-GP和MKL-GS分類性能都優(yōu)于單核SVM。其中MKL-GP效果好于MKL-SG,這是由于Sigmoid函數(shù)在某些特定條件下,才滿足核函數(shù)對稱、半正定的要求,因此影響了其分類的性能。

        圖1不同方法分類F值

        表2數(shù)據(jù)集實驗結(jié)果

        [[樣本量&Polynomial

        SVM (F值)&Gaussian RBF

        SVM(F值)&MKL-GS

        SVM(F值)&MKL-GP

        SVM(F值)&300&0.6573&0.6639&0.5081&0.6047&600&0.6894&0.7429&0.7026&0.7493&1000&0.7047&0.7579&0.8081&0.8169&2000&0.7715&0.8040&0.8559&0.8621&3000&0.7745&0.8037&0.8551&0.8676&]]

        本文使用不同的樣本量對兩種算法進行對比,其中F值使用均值。從表2可以看出,在樣本量不夠大時,MKL-GS受Sigmoid函數(shù)特性影響性能較差;隨著樣本數(shù)量的增加,MKL優(yōu)勢逐漸明顯,表現(xiàn)出優(yōu)于單核SVM的分類性能;樣本量到2000之后,SVM分類性能的提升就不明顯,有待更進一步優(yōu)化。

        3 結(jié)束語

        網(wǎng)絡(luò)購物評論分析需要多種技術(shù)的結(jié)合。MKL-SVM方法通過集成學(xué)習(xí)發(fā)揮異質(zhì)核函數(shù)不同特性,實現(xiàn)了購物評論分類性能的提升。本文所做的工作僅僅是購物評論分析的第一步,還需要結(jié)合文本挖掘、情感分析、營銷分析等方法,才能幫助企業(yè)掌握消費者的感受,給予更多智能化的決策建議。網(wǎng)絡(luò)上存在各類評論、新聞、博客、微博,對這些文本的分類分析,只要通過優(yōu)選核函數(shù)以及相關(guān)參數(shù),可以參照MKL-SVM方法獲取更好的分類性能。

        參考文獻:

        [1] 蘇金樹,張博鋒,徐昕.基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J].軟件學(xué)報,2006.17(9):1848~1859

        [2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14

        [3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565

        [4] Koji Tsuda, Gunnar R?tsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338

        [5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790

        [6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782

        [7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12

        [8] 劉向東,駱斌,陳兆乾.支持向量機最優(yōu)模型選擇的研究[J].計算機研究與發(fā)展,2005.42(4):576~581

        [9] N. Cristianini, J. Shawe-Taylor, J. Kandola. On kernel target alignment [C].Neural Information Processing Systems Cambridge, 2002:367~373

        猜你喜歡
        文本分類
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術(shù)研究
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        国产成人自产拍免费视频| 亚洲AV成人片色在线观看高潮| 久久免费视频国产| 中文字幕大屁股熟女乱| 91久久国产自产拍夜夜嗨| 久久se精品一区二区国产| av一区二区三区有码| 日本最新一区二区三区在线| 亚洲福利av一区二区| 亚洲国产精品久久性色av| 精品福利一区二区三区| 久久久精品国产性黑人 | 很黄很色很污18禁免费| 亚洲精品无码国产| 在线va免费看成| 久久这里只有精品9| 久久中文字幕av第二页| 国产av天堂一区二区二区| 国产黄色av一区二区三区| 中文字幕色av一区二区三区| 精产国品一二三产品蜜桃| 色av综合av综合无码网站| 久久久精品456亚洲影院| 精品女同一区二区三区在线播放器 | 久久亚洲av成人无码电影a片| 色爱无码av综合区| 青草国产精品久久久久久| 亚洲aⅴ久久久噜噜噜噜| 性一交一乱一乱一视频亚洲熟妇| 国产肥熟女免费一区二区| 日本高清h色视频在线观看| 无码专区久久综合久中文字幕| 精品国产AⅤ一区二区三区4区| av无码特黄一级| 精品一区2区3区4区| 亚洲日韩精品无码av海量| 成片免费观看视频大全| 尤物无码一区| 日本视频一区二区这里只有精品| 人妻少妇精品视频一区二区三 | 91网红福利精品区一区二|