亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Mixed-Fisher特征云模型聚類在文本情感分類中的應用*

        2016-09-20 09:00:48邢玉娟
        計算機與生活 2016年9期
        關鍵詞:文檔準確率聚類

        邢玉娟,郭 顯,譚 萍,李 明

        1.蘭州文理學院 數(shù)字媒體學院,蘭州 7300002.蘭州理工大學 計算機與通信學院,蘭州 730050

        Mixed-Fisher特征云模型聚類在文本情感分類中的應用*

        邢玉娟1+,郭顯2,譚萍1,李明2

        1.蘭州文理學院 數(shù)字媒體學院,蘭州 730000
        2.蘭州理工大學 計算機與通信學院,蘭州 730050

        海量網絡信息的出現(xiàn),使得提取文本信息情感觀點成為研究的熱點。針對文本情感分類中文本信息模糊及分類準確率低的問題,提出了一種基于Mixed-Fisher特征選擇的文本云向量模型聚類算法。該算法首先分別計算文檔中各個詞性特征項的Fisher判別比,根據Fisher判別比越大特征向量判別性越強的Fisher準則,選擇Fisher比值較大的前q個特征,并按照詞性進行組合生成文檔的Mixed-Fisher特征向量。然后在Mixed-Fisher特征向量集上構建文檔的云向量模型,根據云向量模型間的差異度對模型進行聚類和合并。將該算法應用于文本情感觀點的分類,選擇核Fisher判別技術用于最終文本觀點的判定。仿真實驗結果表明,基于Mixed-Fisher特征的云向量聚類模型的分類準確率明顯優(yōu)于傳統(tǒng)向量空間模型,從而驗證了核Fisher判別技術的有效性。

        文本情感分類;Fisher判別比;詞性特征;云向量模型;核Fisher判別

        1 引言

        互聯(lián)網的出現(xiàn)改變了人類表達觀點的方式,用戶多以博客、微博、論壇等作為表達個人觀點和愛好的平臺。隨著網絡技術的迅猛發(fā)展,用戶的評論資源也在飛速地增加。作為文本傾向性分析和挖掘基礎工作的文本情感分類,是在海量的網絡評論資源中,對用戶所表達的觀點(肯定或否定)進行判定的過程,在電影評論、產品質量與服務評價、社會輿情分析、有害信息過濾、Blog評價、新聞報道評述、股票評論、圖書推薦、敵對信息檢測等領域具有廣闊的應用前景和市場價值[1-2]。在文本情感分類中有效情感關鍵信息的提取以及判決技術的選擇是關鍵,直接影響到情感分類的準確率。

        Salton等人[3]提出的向量空間模型(vector space model,VSM)為文本情感分類技術的研究開辟了新的途徑。隨著VSM的提出,多種機器學習算法,如支持向量機(support vector machine,SVM)、經典樸素貝葉斯(na?ve Bayes,NB)、最大熵(maximum entropy,ME)和人工神經網絡(artificial neural network,ANN)等廣泛地應用于文本情感分類領域。文獻[4]采用NB和ME對新聞及評論文本的情感觀點進行判定,實驗結果驗證了兩種機器學習方法的有效性,并指出具有正負面情感語義傾向的詞語以及特征項權重對文本的分類性能具有重要的作用。文獻[5]在基于“詞-文檔”的語義距離向量空間上,采用SVM進行文檔情感極性的分類,在測試Web語料集上的分類準確率接近88%。Chen等人[6]將神經網絡應用于商業(yè)博客產品評論觀點的判定,獲得了良好的實驗結果。以上多種機器學習分類算法的應用都是基于文檔的VSM,將文檔映射為一高維的特征向量進行處理。然而,文檔的初始特征向量具有驚人的維數(shù),使得判定算法計算復雜度較高,因此特征向量的約簡處理是文本挖掘中必不可少的環(huán)節(jié)。同時,在文檔的原始特征集上,剔除與分類無關的冗余、噪聲信息,可以大大地提高機器學習的精度和速度。

        目前,特征選擇的方法大多基于對特征貢獻的獨立評估,選取評估值最大的預定數(shù)目的特征作為最終特征子集。常用的評估特征分類貢獻量的方法主要有信息增益(information gain,IG),期望交叉熵(expected cross entropy,ECE),互信息(mutual information,MI)等。Wang等人[7]提出了一種基于改進的Fisher判別比的文本特征選擇方法,通過計算文本特征詞頻的Fisher判別比來衡量特征項的貢獻程度。實驗結果表明,基于詞頻的Fisher比特征選擇具有較高的分類準確率,然而在該文獻中只采用布爾值和詞頻計算特征的權值,忽略了特征項在整體文檔集上所具有的重要性。

        同時,文本信息的模糊性和隨機性,同樣也會影響文本情感觀點的判決[8]。如人類對氣溫、味道、天氣、顏色等的描述,以及語句中出現(xiàn)的“可能”、“也許”等詞都具有模糊性和隨機性。如何將這些定性的語言值概念表示轉換為定量的描述,是自然語言處理的難題。李德毅院士針對信息的模糊性和隨機性,提出云模型概念[9-11],用于表示不確定因素,被廣泛地應用于數(shù)據挖掘和智能控制等方面。文獻[12]提出一種基于云模型的模糊混合量子人工免疫聚類算法,用于解決數(shù)據隨機性問題。文獻[13]采用云模型構造詞的區(qū)間值精簡表示模型,該模型具有計算復雜度低且存儲空間小的優(yōu)點。文獻[14]將云模型理論應用于軟件可靠性的度量。文獻[15]在監(jiān)控系統(tǒng)中采用云模型理論將影響系統(tǒng)的可靠性因子轉換為環(huán)境因子,構建了一種新的可靠性預判方法。文獻[16]利用云模型中云滴的分布對不確定性數(shù)據建模,并通過云綜合與云相似度計算來實現(xiàn)不確定性數(shù)據的分類。基于云模型在描述數(shù)據模糊性和隨機性方面的優(yōu)勢,研究者將其推廣到文本情感分類領域。Sui等人[17]提出基于云模型的用戶網絡評論情感傾向性對比判定算法,采用云模型計算文本的情感傾向性特征向量,并根據云模型向量間的最鄰近距離判定情感傾向性,獲得了較好的實驗結果。文獻[18]利用云模型對文本情感詞進行定性定量表示的轉換,并根據正態(tài)云模型的逆向云算法構建情感分類器。仿真實驗結果表明,該算法可以有效地處理語言值概念本身的模糊性和隨機性,使得情感分類準確率提高了9%。

        在以上研究工作的啟發(fā)下,本文提出了一種基于Mixed-Fisher特征選擇的文本云向量模型聚類算法,在保證特征向量高判別性的情況下,對文檔的特征向量在維度和規(guī)模上進行了約簡,同時解決了文本數(shù)據的不確定性問題。由于核Fisher判別(kernel Fisher discriminant,KFD)方法在求解中使用了所有的訓練樣本而不僅僅是一些特殊樣本即“支持向量”,KFD的性能在某些方面優(yōu)于SVM[18],因此本文選擇KFD判定文檔觀點。

        2 相關研究基礎

        2.1向量空間模型

        向量空間模型[3]是基于統(tǒng)計的文本表示模型,將文本文檔映射為高維空間中的一個向量,文檔的每一個特征項對應向量的一維,而每一維的權值表示該特征項在文本中的重要程度。假設文檔集D={D1,D2,…,DN},N表示文檔集中文本的篇數(shù),Di表示第i篇文本,則采用向量空間模型可將Di數(shù)字化表示為向量矩陣di=(w1,i,w2,i,…,wn,i),其中wji(j=1, 2,…,n)表示文檔Di中出現(xiàn)特征項tj的權重,n表示特征項的個數(shù)。權重值的計算方法主要有二值(binary)法、絕對詞頻(term frequency,TF)法、逆文檔頻率(inversedocument frequency,IDF)法和詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)法。

        (1)二值法

        二值法是最簡單的權重計算方法,如果文檔中出現(xiàn)詞tj,其權重為1,否則為0。

        (2)TF

        TF統(tǒng)計特征項tj在文檔Di中出現(xiàn)的次數(shù),是一種局部文本信息加權方法。計算公式為:

        其中,N表示文檔集的數(shù)目;nj表示文檔集中特征項tj出現(xiàn)的文檔數(shù)。

        (4)TF-IDF

        TF-IDF將詞頻法和逆文檔頻率法相結合,同時考慮到特征項的局部和全局的重要程度,因此該方法是目前使用最廣泛的權重計算方法。計算公式如下:

        IDF是一種全局信息特征加權方法,通過計算特征在不同文檔中出現(xiàn)的次數(shù),來衡量其重要程度,即特征同時出現(xiàn)在多個文檔中,其分類貢獻較低。計算公式如下:

        其中,freqji表示特征項tj在文檔Di中出現(xiàn)的次數(shù);|Di|表示文檔Di中特征項的數(shù)目。

        2.2云模型

        云模型是在概率論與模糊集的基礎上提出的一種定性定量轉換模型。假設U是精確數(shù)值表示的定量論域,C是U上的定性表示。若定量值x∈U是定性表示C的某次隨機實現(xiàn),則穩(wěn)定傾向隨機數(shù)μ(x)∈[0,1]是x對C的確定度,x在U上的分布稱為云C(X),而每一個x稱為云滴。若U是一個n維空間,則可將其延伸至n維云。

        云概念的整體性可通過云的期望值Ex、熵En和超熵He來表示,記為云向量C(Ex,En,He)。期望值Ex表示云滴x在論域U上分布的期望,是定性概念量化后的樣本點;熵En反應了云滴樣本的離散程度和范圍;超熵He用于度量En的不確定性,反應云的厚度和離散度。定性概念“青年”的云模型例子如圖1所示[19]。文獻[18]以打靶為例詳細闡述了云模型的定量數(shù)據到定性概念的轉換過程。

        Fig.1 Cloud model of youth圖1“青年”云模型

        云模型的建立算法主要分為正向云算法和逆向云算法。正向云算法主要實現(xiàn)定性概念到定量數(shù)據的映射,而逆向云算法主要實現(xiàn)定量數(shù)據到定性概念的轉換。本文主要用到的是逆向云算法,其算法步驟如下:

        輸入:論域U上云滴xi(i=1,2,…,n,其中n是云滴的數(shù)量)。

        輸出:云向量C(Ex,En,He)。

        3 基于Mixed-Fisher特征選擇的文本云向量模型聚類算法

        為了選擇高判別性的文本特征,提高文本情感觀點判定的準確率,本文提出了基于Mixed-Fisher特征選擇的文本云向量聚類算法,算法流程如圖2所示。

        Fig.2 Flow chart of Mixed-Fisher cloud vector clustering圖2 Mixed-Fisher特征云向量模型聚類流程圖

        3.1Mixed-Fisher特征選擇

        文本的詞性特征如名詞(N)、動詞(V)、形容詞(A)、副詞(D)、代詞(R)、介詞(P)、成語(I)、習慣語(L)和連詞(C)等,以其出色的多義詞匯消岐特性,廣泛地應用于情感分析和觀點挖掘。若選擇所有的詞性特征作為候選特征,將會導致文檔數(shù)字模型高維度的問題,不利于后續(xù)分類模型的訓練。在文本的詞性中,名詞(N)表示語句主體,副詞(D)可以直接決定語子的情感態(tài)度,形容詞(A)的作用是對描述對象的評價,這3種詞性具有較強的情感色彩,因此本文只選擇名詞、形容詞和副詞。將詞性組合“N+D+A”定義為一類特征,標記為 f1;“D+A”定義為二類特征,標記為 f2;“A”定義為三類特征,標記為 f3。通過權重函數(shù)分別計算名詞(N)、副詞(D)、形容詞(A)的權重值,根據這3種詞性權重值的組合將文檔集數(shù)字化為原始輸入特征向量集。由于這3類特征在文檔中出現(xiàn)的次數(shù)較多,使得特征空間具有較高的維度。在Wang[7]提出的特征選擇算法中,特征項權重的計算基于二值法和詞頻法。然而,二值法只考慮特征項是否在文檔中出現(xiàn),詞頻法只計算特征項在文檔中出現(xiàn)的次數(shù),過度依賴高頻特征,從而忽略一些帶有大量類別信息的低頻特征。同時這兩種計算方法都是基于文檔的局部信息,忽略了特征項在文檔集上的全局分布信息。為了更好地選擇高判別性特征詞并對其加權,本文提出基于TF-IDF法的Mixed-Fisher特征選擇方法。

        將式(6)、(7)、(8)和(9)帶入式(5)可得:

        中出現(xiàn)的全局頻率。對于特征項tk來說,E(tk|P)和在式(10)中,特征項tk的F(tk)值越大,表明該特征項對分類的貢獻越大,因此可根據該公式分別對文檔集中名詞(N)、形容詞(A)和副詞(D)的TF-IDF權重值計算其Fisher判別比值,并由大到小排序,選擇值最大的前q個特征項構建文檔特征向量,將詞性組合 f1構成的混合Fisher(Mixed-Fisher)特征記為,將 f2構成的Mixed-Fisher特征記為,基于 f3的Mixed-Fisher特征記為。式(10)的時間復雜度為O(m+n)。

        3.2云向量模型生成

        將每個文檔的特征項當作云滴,則根據逆向云算法計算Di的3個數(shù)字特征:

        根據式(11)、(12)、(13)和(14),文檔Di可以表示為云向量Ci=(Edi,Eni,Hei),則文檔集D數(shù)字化為云向量模型(cloud vector model,CVM)集合C={C1, C2,…,CN}。

        3.3聚類

        在VSM中,向量間的余弦值用于度量文本間的差異程度,文中將該差異度度量推廣至CVM,則文檔Di和Dj之間的差異度度量公式如下所示:

        由于文檔集中文檔數(shù)量較大且存在相似文檔,影響后續(xù)分類算法的計算復雜度,本文受到K均值聚類算法的啟發(fā),將文檔CVM間的余弦值作為閾值,設計如下CVM聚類算法。

        步驟1設定類別數(shù)為K,隨機指定K個文檔初始化聚類中心,Rs=0(s=1,2,…,K)用于記錄當前類別s中聚類的文檔數(shù)目。

        步驟2根據式(15)計算文檔云向量Ci(i=1,2,…, N)和聚類中心向量Cs(s=1,2,…,K)之間的差異度。

        步驟3將與當前聚類中心差異度最小的文檔云模型向量劃分到當前的類中,Rs=Rs+1,重新計算文檔聚類中心云向量Cs。

        步驟4重復執(zhí)行步驟2和步驟3,直到聚類中心云向量不再變化為止。

        在上述算法中,文檔云模型與聚類中心模型的合并是關鍵[20]。假定將云模型Ci=(Edi,Eni,Hei)合并到聚類中心模型Cs=(Eds,Ens,Hes),成為新的聚類中心云模型Csn=(Edsn,Ensn,Hesn),模型合并計算公式如下:

        4 文本觀點判定

        KFD在Fisher線性判別(Fisher linear discriminant,F(xiàn)LD)的基礎上,通過非線性映射Φ將原始特征空間映射到一個新的特征空間H,在新的特征空間根據最大化類間離散度最小化類內離散度的準則,確定特征向量的投影方向,使各類之間最大程度地分離,從而達到正確的分類。經過上述的特征選擇及模型聚類,假設原N個文檔CVM聚類為K個C={C1,C2,…,CK},Cs=(Eds,Ens,Hes),s=1,2,…,K,表示第s個云向量,R1={K1個肯定觀點文檔云向量},R2= {K2個否定觀點文檔云向量},K1+K2=K。

        在空間H中,目標函數(shù)可定義為:

        求解式(20)即可得到測試云向量Φ(C)的最佳投影方向。最后采用式(21)判斷文本觀點(正面/負面)。

        5 仿真實驗與分析

        5.1語料庫及預處理

        仿真實驗采用中國科學院計算技術研究所譚松波博士提供的中文文本情感分析語料庫[21]?;谠撜Z料庫中的酒店評論數(shù)據,隨機選取數(shù)據中正面和負面評論各1 200篇,總共2 400篇評論用于模型的訓練,選取1 600篇用于測試。實驗樣本信息如表1所示。

        Table 1 Experimental samples表1 實驗樣本信息

        采用ICTCLAS漢語分析系統(tǒng)對所有的語料文本進行分詞,標記詞性。本文不考慮標點符號和助詞如“的”對語料情感的影響,將其去除。常見的語義傾向詞的表示如表2所示。

        5.2實驗結果及對比分析

        實驗結果以分類準確率、正面查準率(PP)、正面召回率(RP)、負面查準率(PN)、負面召回率(RN)、正面綜合準確率(FP)和負面綜合準確率(FN)為評價指標。為了提高實驗結果的可靠性,以5階交叉檢驗的方法對測試結果進行統(tǒng)計,5次統(tǒng)計結果的平均值作為最終分類結果。系統(tǒng)框圖如圖3所示。

        Table 2 Presentation of common part of speech表2 常見詞性標記表示

        實驗1詞性特征組合分析比較。

        由于不同的詞性對分類性能的影響不同,本實驗將不同的詞性組合特征應用于KFD、傳統(tǒng)SVM和經典樸素貝葉斯方法中,以測試詞性特征組合對分類準確率的影響,特征項權重計算采用TF-IDF法,實驗結果如表3和圖4所示。

        由表3中的實驗數(shù)據可知,在3種特征組合中“D+A”的性能最佳,且其特征維數(shù)遠遠小于“N+D+A”組合特征。“A”特征雖然維數(shù)較低,但是其數(shù)量太少,且其語義傾向一般和名詞共同體現(xiàn),或與不同的名詞體現(xiàn)不同的語義傾向,因此導致分類準確率低。在3種分類算法中,KFD的分類準確率最高。在“D+A”特征組合中,KFD分類準確率達到89.31%,比SVM的分類準確率高10.12%。主要由于KFD在訓練過程中采用所有的特征參數(shù)而不是部分“支持向量”,其分類性能優(yōu)于SVM。同時KFD和NB算法相比,在最優(yōu)特征組合“D+A”中,分類準確率提高23.75%。在其他詞性特征組合中KFD的分類準確率同樣優(yōu)于其他算法。

        Fig.3 Text sentiment classification system based on Mixed-Fisher cloud vector clustering圖3 基于Mixed-Fisher特征云向量模型聚類的文本情感分類系統(tǒng)

        Table 3 Performance comparison of different part of speech combinations表3 不同詞性組合和分類算法性能比較

        Table 4 Performance comparison of 3 Fisher feature selection algorithms表43種Fisher特征選擇算法性能比較 %

        Fig.4 Comparison of different part of speech combinations圖4 不同詞性組合和分類算法性能比較

        實驗2 Fisher特征選擇性能分析。

        該實驗采用Fisher準則提取低維高判別性TFIDF特征(記為tTF-IDF)。首先將其與文獻[6]提出的基于二值法的Fisher特征(記為tBinary)和基于詞頻法的Fisher特征(記為tTF)進行對比分析,測試本文提出的Fisher特征選擇算法的性能,實驗結果如表4所示。緊接著,將tTF-IDF與原始TF-IDF特征(記為tOriginal)進行對比,測試Fisher特征選擇算法的降維性能,實驗結果如表5所示。

        Table 5 Performance testing of proposed Fisher feature selection algorithm in this paper表5 本文Fisher特征選擇算法降維性能測試

        在表4中,tTF-IDF的各項性能指標均優(yōu)于文獻[6]提出的兩種Fisher特征選擇算法。表5數(shù)據顯示本文提出的特征選擇算法的分類準確率相比于原始TF-IDF特征提高將近10個百分點,且文檔特征的維數(shù)降低52.27%。因此本文算法不僅具有較好的分類性能,同時具有顯著的降維特性。

        實驗3 Mix-Fisher特征分析比較。

        由實驗1可知,KFD具有良好的分類性能,然而隨著訓練樣本數(shù)量增大以及特征項維數(shù)的增加,會導致KFD陷入高計算復雜度的問題,因此在混合詞性特征組合的基礎上采用Fisher判別準則對文檔的特征向量進行選擇,盡可能提取對分類貢獻大的特征作為輸入特征。本實驗主要測試本文提出的Mixed-Fisher特征的性能,分類算法采用KFD,實驗結果如表6所示。

        Table 6 Performance comparison of Mixed-Fisher features表6Mixed-Fisher特征性能比較 %

        實驗4聚類算法性能分析比較。

        該實驗將CVM和VSM分別應用于本文提出的聚類算法(特征參數(shù)選擇),在分類準確率和分類時間T上對二者的性能進行對比分析,以測試本文提出的聚類算法的性能。實驗結果如表7所示。

        Table 7 Performance comparison of clustering algorithms表7 聚類性能比較

        由表7可知,CVM和VSM的分類準確率在聚類數(shù)目K=1 500時均達到最優(yōu),CVM的分類準確率為94.75%,相比于VSM提高3.19%。主要因為CVM模型考慮到文本信息的模糊性和隨機性,所以具有較高的分類準確率。同時,隨著聚類數(shù)目的減少,訓練樣本數(shù)據會隨之減少,出現(xiàn)訓練數(shù)據“不足”的問題,影響KFD模型的訓練,導致分類準確率的下降。然而,隨著聚類數(shù)目的增加,輸入樣本數(shù)據也隨之增加,進而同樣會影響KFD的建模及訓練速度。并且用于訓練的2 400篇文本聚類為1 500篇,數(shù)目約簡率為37.5%。因此,云向量模型聚類(cloudvectormodel cluster,CVMC)算法不僅具有較高的分類性能,同時可以有效地節(jié)約存儲空間,降低KFD的計算復雜度。圖5為CVM和VSM在不同聚類數(shù)目下的分類準確率比較。

        Fig.5 Classification accuracy curve of CVM and VSM圖5CVM和VSM聚類分類準確率曲線比較

        在分類時間方面,隨著聚類數(shù)目的遞減,輸入樣本數(shù)據隨之減少,使得CVM和VSM的分類時間也都隨之降低。由于VSM的計算復雜度低于CVM,在K=2 400,K=2 000和K=1 800時,VSM的分類時間略低于CVM。然而,隨著樣本數(shù)的減少,CVM和VSM建模復雜度的差異越來越小,當K=1 500時,CVM的分類時間為2 106 ms,反而比VSM減少97 ms。圖6為兩種模型在分類時間方面的比較。

        Fig.6 Classification time curve of CVM and VSM圖6CVM和VSM分類時間比較

        當K=1 500時,CVM和VSM的性能相比于K= 2 400(未聚類)時都有顯著的提高,分類準確率分別提高7.00%和6.06%,同時分類時間分別降低2.998 s 和2.578 s。主要是因為經過聚類和Fisher混合特征的選擇,有效地縮小了未聚類前輸入文檔特征向量規(guī)模,并減少了噪聲樣本數(shù)量,且云向量模型可以抑制模糊文本數(shù)據對分類的影響。因此本文提出的聚類算法是高效的、可行的。

        實驗5特征詞數(shù)量對聚類算法的影響。

        本實驗測試數(shù)據集中特征詞數(shù)目變化對本文聚類算法的影響。設置聚類數(shù)目K=1 500,采用KFD判定最終觀點。實驗結果如圖7所示。

        Fig.7 Influence on the number of features to classification accuracy圖7 特征詞數(shù)量對分類準確率的影響

        在圖7中,當特征詞數(shù)目在2 000~600之間時,分類準確率呈上升趨勢,直到特征詞數(shù)目為600時,聚類算法的分類準確率達到最高,緊接著隨著特征詞數(shù)目的減少,分類準確率也隨之減少。因此,在酒店評論數(shù)據15 000個特征詞中,真正對分類有用的特征詞只有600個左右。

        6 結束語

        本文提出了一種基于Mixed-Fisher特征選擇的云向量模型聚類算法,應用于文本情感分類。選擇情感色彩較強的名詞、形容詞、副詞的不同組合構成候選特征集。利用TF-IDF表現(xiàn)特征項全局分布信息的優(yōu)勢,對特征項加權并采用Fisher準則選擇高判別性特征,構建Mixed-Fisher特征集。借助于云模型處理文本不確定性的特性,將Mixed-Fisher特征集中的每個特征項作為一個云滴,采用逆向云算法建立文檔的云向量模型,并根據模型之間的差異度,對相似文檔進行聚類。該算法中的特征選擇和聚類有效地減少了文檔云向量的維度和數(shù)量,解決了KFD在大規(guī)模數(shù)據下訓練速度慢的問題。實驗結果表明,本文算法的分類準確率為94.75%,明顯優(yōu)于向量空間模型,且特征選擇算法以及詞性的選擇對系統(tǒng)的分類準確率影響較大。其中由于形容詞和副詞對情感傾向性的影響較大,使得基于該組合提取的特征的性能最優(yōu),且具有低維高判別性的特點。同時云模型有效地解決了文本信息中的模糊性和隨機性,提高了系統(tǒng)分類準確率。然而,在本文工作的研究過程中發(fā)現(xiàn),TF-IDF特征的Fisher提取方法和云向量模型聚類的計算復雜度隨著輸入測試文檔數(shù)量的增加而提高,因此在后續(xù)的研究工作中,將側重于研究相關算法計算復雜度的約簡問題。

        References:

        [1]Yang Zhen,Lai Yingxu,Duan Lijuan,et al.Short text sentiment classification based on context reconstruction[J].Acta Automatica Sinica,2012,38(1):55-67.

        [2]Wang Suge,Li Deyu,Zhao Lidong,et al.Sample cutting method for imbalanced text sentiment classification based on BRC[J].Knowledge-Based Systems,2013,37(2):451-461.

        [3]Salton G,WangA,Yang C S.Avector space model for automatic indexing[J].Communication of the ACM,1975,18 (11):613-620.

        [4]Xu Jun,Ding Yuxin,Wang Xiaolong.Sentiment classification for Chinese news using machine learning methods[J]. Journal of Chinese Information Processing,2007,21(6):95-100.

        [5]Xiao Zheng,Liu Hui,Li Bing.SVM sentiment classifier based on semantic distance for Web comments[J].Computer Science,2014,41(9):248-252.

        [6]Zhu Jian,Xu Chen,Wang Hanshi.Sentiment classification using the theory of ANNs[J].Journal of China Universities of Posts&Telecommunications,2010,17(9):58-62.

        [7]Wang Suge,Li Deyu,Song Xiaolei,et al.A feature selection method based on improved fisher?s discriminant ratiofor text sentiment classification[J].Expert Systems with Application,2011,38(7):8696-8702.

        [8]Jiang J Y,Tsai S C,Lee S J.FSKNN:multi-label text categorization based on fuzzy similarity and k nearest neighbors [J].Expert Systems withApplication,2012,39(3):2813-2821.

        [9]Hu Shiyuan,Li Deren,Liu Yaolin,et al.Mining weights of land evaluation factors based on cloud model and correlation analysis[J].Geo-Spatial Information Science,2007,10 (3):218-222.

        [10]Li Deyi,Liu Changyu,Gan Wenyan.A new cognitive model: cloud model[J].International Journal of Intelligent Systems,2009,24(3):357-375.

        [11]Zhao Junmin,Zhang Kai,Wan Jian.Research of feature selection for text clustering based on cloud model[J].Journal of Software,2013,8(12):3246-3252.

        [12]Zhang Renlong,Shan Miyuan,Liu Xiaohong,et al.A novel fuzzy hybrid quantum artificial immune clustering algorithm based on cloud model[J].Engineering Applications ofArtificial Intelligence,2014,35(2):1-13.

        [13]Yang Xiaojun,Yan Liaoliao,Peng Hui,et al.Encoding words into cloud models from interval-valued data via fuzzy statistics and membership function fitting[J].Knowledge-Based Systems,2014,55:114-124.

        [14]Chen Si,Wang Shuyan,Sun Jiaze.Trusted software reliability measures based on cloud model[J].Application Research of Computers,2014,31(9):2729-2740.

        [15]Shao Ying,Yuan Lijun,Zhuang Biao.Simulation research of monitoring system reliability based on cloud model[J]. Computer Engineering&Science,2014,36(8):1430-1434.

        [16]Qin Li,Li Bing.Novel method of uncertain data modeling and classification based on cloud model[J].Computer Science,2014,41(8):233-240.

        [17]Geng Sui,Hong Qiao.Emotional tendency contrast recommendation algorithm based on cloud model[J].Journal of Networks,2014,9(2):437-442.

        [18]Sun Jinguang,Ma Zhifang,Meng Xiangfu.Classification method of texts sentiment based on sentiment word attributes and cloud model[J].Computer Engineering,2013,39 (12):211-215.

        [19]Dai Jin.Research on key problems in text mining based on cloud method[D].Chongqing:Chongqing University,2011.

        [20]Zhang Yufang,Xie Juan,Xiong Zhongyang.Text classification approach with cloud model[J].Computer Engineering andApplications,2014,50(15):117-119.

        [21]Tan Songbo.The corpus of Chinese sentiment mining—ChnSentiCorp[EB/OL].(2012-08-10)[2015-05-24].http:// www.searchforum.org.cn/tansongbo/corpus-senti.htm.

        附中文參考文獻:

        [4]徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007,21(6):95-100.

        [5]肖正,劉輝,李兵.一種基于語義距離的Web評論SVM情感分類方法[J].計算機科學,2014,41(9):248-252.

        [14]陳思,王曙燕,孫家澤.基于云模型的可信軟件可靠性度量模型[J].計算機應用研究,2014,31(9):2729-2740.

        [15]邵英,袁立軍,莊飚.基于云模型的監(jiān)控系統(tǒng)可靠性仿真分析研究[J].計算機工程與科學,2014,36(8):1430-1434.

        [16]秦麗,李兵.一種基于云模型的不確定性數(shù)據的建模與分類方法[J].計算機科學,2014,41(8):233-240.

        [18]孫勁光,馬志芳,孟祥福.基于情感詞屬性和云模型的文本情感分類方法[J].計算機工程,2013,39(12):211-215.

        [19]代勁.云模型在文本挖掘應用中的關鍵問題研究[D].重慶:重慶大學,2011.

        [20]張玉芳,謝娟,熊忠陽.一種結合云模型的文本分類方法[J].計算機工程與應用,2014,50(15):117-119.

        [21]譚松波.中文情感挖掘語料——ChnSentiCorp[EB/OL]. (2012-08-10)[2015-05-24].http://www.searchforum.org.cn/ tansongbo/corpus-senti.htm.

        XING Yujuan was born in 1981.She received the M.S.degree in computer software and theory from Lanzhou University of Technology in 2009.Now she is an associate professor at Lanzhou University of Arts and Science,and the member of CCF.Her research interests include text sentiment classification and machine learning,etc.

        邢玉娟(1981—),女,甘肅天水人,2009年于蘭州理工大學獲得碩士學位,現(xiàn)為蘭州文理學院副教授,CCF會員,主要研究領域為文本情感分類,機器學習等。發(fā)表學術論文20余篇,參與完成國家級、省級自然科學基金項目和甘肅省教育廳科研項目多項,主持甘肅省教育廳科研項目1項。

        GUO Xian was born in 1971.He received the Ph.D.degree in network and information security from Lanzhou University of Technology in 2011.Now he is an associate professor at Lanzhou University of Technology.His research interests include network and information security and text mining,etc.

        郭顯(1971—),男,甘肅定西人,2011年于蘭州理工大學獲得博士學位,現(xiàn)為蘭州理工大學副教授,主要研究領域為網絡信息安全,文本挖掘等。主持國家自然科學基金項目、甘肅省高?;A研究項目多項。

        TAN Ping was born in 1973.She received the M.S.degree in computer software and theory from Lanzhou University of Technology in 2008.Now she is an associate professor at Lanzhou University of Arts and Science.Her research interests include text sentiment classification and machine learning,etc.

        譚萍(1973—),女,陜西寶雞人,2008年于蘭州理工大學獲得碩士學位,現(xiàn)為蘭州文理學院副教授,主要研究領域為文本情感分類,機器學習等。

        LI Ming was born in 1959.He is a professor at Lanzhou University of Technology.His research interests include database theory and application,data mining,knowledge engineering,pattern recognition,image processing and software engineering,etc.

        李明(1959—),男,河北辛集人,蘭州理工大學計算機與通信學院教授,主要研究領域為數(shù)據庫理論與應用,數(shù)據挖掘,知識工程,模式識別,圖像處理,軟件工程等。

        Text Sentiment Classification Based on Cloud Model Clustering and Mixed-Fisher Feature?

        XING Yujuan1+,GUO Xian2,TAN Ping1,LI Ming2
        1.School of Digital Media,Lanzhou University ofArts and Science,Lanzhou 730000,China
        2.School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China
        +Corresponding author:E-mail:xyj19811010@126.com

        XING Yujuan,GUO Xian,TAN Ping,et al.Text sentiment classification based on cloud model clustering and Mixed-Fisher feature.Journal of Frontiers of Computer Science and Technology,2016,10(9):1320-1331.

        The appearance of massive Web information turns the view extraction from documents into research hotspots.Aiming at the ambiguity in natural language and lower classification precision in text sentiment classification, this paper proposes a novel text sentiment classification algorithm based on Mixed-Fisher feature selection and cloud vector model clustering.In this algorithm,the Fisher?s discriminant ratio of different part-of-speech features is computed firstly.The q larger values of Fisher?s discriminant ratio features are selected as the candidate features to form Mixed-Fisher feature vector according to the Fisher criterion.These features are combined according to the parts of speech to generate the Mixed-Fisher feature set.And then,cloud vector model is generated based on this Mixed-Fisher feature set for each document.Immediately following,documents are clustered according to their similarity between cloud vector models.Finally,kernel Fisher discriminant(KFD)is adopted as the classifier to judge views.The experimental results demonstrate that the classification precision of the proposed algorithm outperforms traditional vector spacemodel,and the effectiveness of KFD is verified.

        2015-07,Accepted 2015-11.

        text sentiment classification;Fisher discriminant ratio;part-of-speech feature;cloud vector model;kernel Fisher discriminant

        *The National Natural Science Foundation of China under Grant No.61461027(國家自然科學基金);the Research Program of Education Department of Gansu Province under Grant No.2014A-125(甘肅省教育廳科研項目).

        CNKI網絡優(yōu)先出版:2015-11-12,http://www.cnki.net/kcms/detail/11.5602.TP.20151112.1621.008.html

        A

        TP181

        猜你喜歡
        文檔準確率聚類
        有人一聲不吭向你扔了個文檔
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
        高速公路車牌識別標識站準確率驗證法
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于RI碼計算的Word復制文檔鑒別
        基于改進的遺傳算法的模糊聚類算法
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        亚洲无码夜夜操| 精品少妇一区二区三区免费| 人妻丰满熟妇av无码区app| 骚片av蜜桃精品一区| 一级片久久| 亚洲欧洲综合有码无码| 亚洲女同人妻在线播放| 国产在线视频一区二区天美蜜桃| 伊人久久大香线蕉综合网站| 国产又色又爽又刺激视频| 国产内射视频免费观看| 亚洲av综合国产av日韩| 国产精品ⅴ无码大片在线看 | 蜜臀av无码人妻精品| 国产黑色丝袜在线观看下| 丰满人妻中文字幕乱码| 伊人久久大香线蕉av色婷婷色| 久久精品国产成人| 欧洲极品少妇| 亚洲高潮喷水中文字幕| 久久青青草原一区网站| 亚洲国产精品久久久久秋霞小说 | 日本天堂免费观看| 成人免费视频在线观看| 国产精品自在在线午夜出白浆| 日本一区二区三区视频免费在线 | 人妻少妇精品中文字幕专区| 青草视频在线播放| 女同中的p是什么意思| 国产人妖伦理视频在线观看| 蜜臀性色av免费| 日韩一级特黄毛片在线看| 在线一区二区三区免费视频观看| 欧美性猛交xxx嘿人猛交| 好吊色欧美一区二区三区四区| 午夜爽毛片| 日韩人妻系列在线观看| 久久久久国产一区二区| 91精品久久久久含羞草| 久久夜色精品国产噜噜噜亚洲av| 秘书边打电话边被躁bd视频|