亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多示例學(xué)習(xí)框架的文本分類(lèi)算法

        2020-04-24 08:53:14徐建國(guó)肖海峰
        關(guān)鍵詞:特征向量示例分類(lèi)器

        徐建國(guó),肖海峰,趙 華

        (山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590)

        0 引 言

        SVM(support vector machine)算法在處理文本分類(lèi)問(wèn)題時(shí)有著較好的應(yīng)用。張華鑫等[1]通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)在處理短文本時(shí),SVM使用多項(xiàng)式核函數(shù)的分類(lèi)準(zhǔn)確度普遍高于采用KNN(K-nearest neighbor)算法的分類(lèi)準(zhǔn)確率。董放等[2]利用SVM模型提出了一種基于時(shí)間序列的新興技術(shù)預(yù)測(cè)方法,通過(guò)對(duì)文本摘要的分類(lèi),預(yù)測(cè)了技術(shù)驅(qū)動(dòng)力新興技術(shù)發(fā)展趨勢(shì)。上述SVM算法在處理短文本內(nèi)容時(shí)有著較好的表現(xiàn),但是在處理較大規(guī)模文本分類(lèi)問(wèn)題時(shí),分類(lèi)的準(zhǔn)確率存在不足。傳統(tǒng)的機(jī)器學(xué)習(xí)算法在處理具有特殊結(jié)構(gòu)的本文時(shí),已經(jīng)不能滿(mǎn)足對(duì)準(zhǔn)確率的要求。針對(duì)以上問(wèn)題,本文從一個(gè)新的解決文本分類(lèi)問(wèn)題的角度,綜合考慮文本的特征結(jié)構(gòu),充分利用多示例學(xué)習(xí)框架的優(yōu)點(diǎn),結(jié)合支持向量機(jī)中的多類(lèi)分類(lèi)算法,對(duì)具有特殊結(jié)構(gòu)的文本分類(lèi)問(wèn)題展開(kāi)研究,最后通過(guò)實(shí)驗(yàn)驗(yàn)證本文提出算法的有效性。

        1 相關(guān)研究

        多示例學(xué)習(xí)(multi instance learning,MIL)源于20世紀(jì)90年代Dietterich等在研究藥物分子活性(drug activity prediction)檢測(cè)問(wèn)題時(shí)提出的一種新的學(xué)習(xí)方法[3]。多示例學(xué)習(xí)方法作為機(jī)器學(xué)習(xí)中從監(jiān)督式學(xué)習(xí)演變出的一種新方法,自提出以來(lái),一直是學(xué)者研究的熱點(diǎn)之一[4-6]。在多示例學(xué)習(xí)框架中,訓(xùn)練集中的每個(gè)正包被定義為一個(gè)有標(biāo)記的對(duì)象,負(fù)包由沒(méi)有標(biāo)記的示例組成,訓(xùn)練器對(duì)包中的示例進(jìn)行學(xué)習(xí),從而對(duì)示例進(jìn)行預(yù)測(cè)。將所有正包的示例視為正示例,如果一個(gè)正包中的所有示例都被判斷為負(fù),那么則將該包中具有最大函數(shù)決策值的示例標(biāo)記為正;支持向量機(jī)再對(duì)這些被標(biāo)記為正的示例和所有負(fù)包中的示例不斷進(jìn)行訓(xùn)練和標(biāo)記,直到訓(xùn)練集中所有示例的類(lèi)別標(biāo)簽不再發(fā)生變化[7],多示例學(xué)習(xí)的目標(biāo)是預(yù)測(cè)新的包,這些包是事先沒(méi)有標(biāo)記的標(biāo)簽。

        多示例學(xué)習(xí)方法的應(yīng)用場(chǎng)景和應(yīng)用領(lǐng)域非常豐富,突出表現(xiàn)是在目標(biāo)識(shí)別與圖像檢索領(lǐng)域[8]。由于多示例學(xué)習(xí)能夠基于圖像的局部?jī)?nèi)容,對(duì)字塊進(jìn)行學(xué)習(xí),而不是整個(gè)圖片,對(duì)圖像進(jìn)行分部處理,將圖像不同的部分作為示例,因此多示例學(xué)習(xí)能夠有效處理圖片的二義性。文獻(xiàn)[9]利用在線多示例目標(biāo)跟蹤算法,根據(jù)數(shù)據(jù)的特性在深度圖中提取多尺度特征,利用多示例學(xué)習(xí)策略將多尺度特征融合;文獻(xiàn)[10]將圖像看作是多示例包,將包中的示例訓(xùn)練成特征空間,利用訓(xùn)練的包構(gòu)造字典,提出基于稀疏表示的分類(lèi)方法,有效地利用多示例學(xué)習(xí)框架解決了圖像分類(lèi)問(wèn)題。

        多示例學(xué)習(xí)的優(yōu)點(diǎn)是可以通過(guò)多示例的方法充分得到目標(biāo)對(duì)象的多特征,而不是對(duì)象的單一特征[11]。因此能夠更加精確地描述目標(biāo)對(duì)象的屬性,提高分類(lèi)的準(zhǔn)確性,比如圖像識(shí)別、文本分類(lèi)。現(xiàn)實(shí)情況下,我們遇到的許多文本都是有特定結(jié)構(gòu)的,例如科技通報(bào)文章、微博數(shù)據(jù)、網(wǎng)頁(yè)評(píng)論、網(wǎng)絡(luò)輿情數(shù)據(jù)等。因此,在文本識(shí)別中可以運(yùn)用多示例學(xué)習(xí)的框架,將整篇文本作為一個(gè)由多個(gè)示例組成的包,將文本內(nèi)容分割映射為多個(gè)示例,每個(gè)文本對(duì)應(yīng)一個(gè)分類(lèi)主題。

        基于以上研究基礎(chǔ),本文將使用多示例學(xué)習(xí)框架,結(jié)合支持向量機(jī)算法對(duì)采集的新聞文本數(shù)據(jù)集進(jìn)行分類(lèi)研究。將每個(gè)文本作為一個(gè)示例包,每個(gè)文本中的標(biāo)題和正文作為包的兩個(gè)示例。將這兩個(gè)具有標(biāo)記的樣本稱(chēng)為正包,同時(shí)將包映射到高維特征空間中,然后構(gòu)建基于一類(lèi)分類(lèi)的多類(lèi)分類(lèi)支持向量機(jī)算法,利用高斯核函數(shù)訓(xùn)練分類(lèi)器,最終實(shí)現(xiàn)對(duì)實(shí)驗(yàn)數(shù)據(jù)集文本內(nèi)容的自動(dòng)分類(lèi)。

        2 基于多示例學(xué)習(xí)框架的文本分類(lèi)算法

        2.1 定義多示例學(xué)習(xí)

        給定集合X表示示例空間,其中的一個(gè)數(shù)據(jù)集為 {(x1,y1),…,(xi,yi),…(xn,yn)},xi={xi1,…,xij,…xi,ni}∈X,n是訓(xùn)練集中包的個(gè)數(shù),xij∈Rn,j=1,…,li;i=1,…,l, 輸出yi是對(duì)xi的類(lèi)別標(biāo)記,xi∈{-1,1},yi∈{-1,1},i=1,…l, 目的是根據(jù)這個(gè)規(guī)則建立分類(lèi)器,從而實(shí)現(xiàn)對(duì)為標(biāo)記包的分類(lèi)。其中xij∈X, 是一個(gè)示例, {xij1,…xijl,…xijk} 中xijk是示例xij中的第k個(gè)特征值,ni表示的是包Xi中示例的個(gè)數(shù),k表示的是示例中特征值的個(gè)數(shù)。如果存在f∈(1,…,ni), 使得定義的示例xij是一個(gè)正示例,那么包Xi就是一個(gè)正包,即yi=+1, 否則,yi=-1[12]。通過(guò)上述定義可知,多示例分類(lèi)問(wèn)題就是通過(guò)已經(jīng)標(biāo)記過(guò)的正包和負(fù)包,然后構(gòu)建分類(lèi)器來(lái)預(yù)測(cè)一個(gè)新的包是正包還是負(fù)包[4]。圖1表示空間R2中多示例的分類(lèi)情況,其中的每一個(gè)圈表示一個(gè)包,“”和“”表示包中的示例;用“”表示的示例視作正包,用“”表示的示例視作負(fù)包。需要解決的問(wèn)題是,預(yù)測(cè)平面上的集合是正包還是負(fù)包。

        圖1 多示例學(xué)習(xí)兩類(lèi)分類(lèi)

        以圖像分類(lèi)為例,我們希望可以根據(jù)圖像看見(jiàn)的內(nèi)容了解圖像所屬的目標(biāo)類(lèi)。例如,目標(biāo)類(lèi)可能是“海灘”,其中的圖像包含“沙子”和“水”。在多示例學(xué)習(xí)中,此圖像被描述為包X={X1,…,XN} 每個(gè)Xi是從圖像中相應(yīng)的第i個(gè)區(qū)域提取的特征向量(稱(chēng)為示例),N是分割圖像的總區(qū)域(實(shí)例)。如果包中包含“沙子”區(qū)域示例和“水”區(qū)域示例,則將包標(biāo)記為正(“海灘”),否則為負(fù)圖像。

        2.2 支持向量機(jī)文本分類(lèi)方法

        本文運(yùn)用支持向量機(jī)算法構(gòu)建分類(lèi)器對(duì)文本進(jìn)行分類(lèi)。SVM本質(zhì)上是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,被廣泛應(yīng)用于函數(shù)估計(jì)(回歸)、模式識(shí)別(分類(lèi))等數(shù)據(jù)挖掘問(wèn)題,并在很多領(lǐng)域,如數(shù)字識(shí)別、人臉圖像識(shí)別、時(shí)間序列預(yù)測(cè)等方面得到成功應(yīng)用。支持向量機(jī)算法的基本思想是:通過(guò)非線性變化將進(jìn)入空間中的樣本特征映射到一個(gè)高維的特征空間,并在新空間中尋找到最優(yōu)超平面,使得樣本之間的間隔達(dá)到最大[13]。面對(duì)非線性分類(lèi)問(wèn)題時(shí),支持向量機(jī)首先是在低維度空間中計(jì)算,然后通過(guò)選擇合適的核函數(shù)k(xi,yi) 將輸入的數(shù)據(jù)映射到高維空間中,最終原空間中的非線性分類(lèi)就變成了高維特征空間中的線性可分問(wèn)題[14],圖2表示非線性分類(lèi)時(shí),通過(guò)核函數(shù)方法將數(shù)據(jù)映射到高維空間之中。

        圖2 核函數(shù)方法將非線性可分?jǐn)?shù)據(jù)映射到高維空間

        2.3 構(gòu)造多類(lèi)分類(lèi)算法

        構(gòu)造多類(lèi)分類(lèi)的方法算法的復(fù)雜度很高,所以需要找到一種簡(jiǎn)單實(shí)用的多類(lèi)分類(lèi)算法。本文以一類(lèi)分類(lèi)算法為基礎(chǔ)建立一種多類(lèi)分類(lèi)算法。首先在高維特征空間上對(duì)每一類(lèi)樣本求出它們的超球體中心,然后計(jì)算出后續(xù)樣本和超球體中心之間的距離,再根據(jù)它們之間的最小距離來(lái)判斷該點(diǎn)所屬的類(lèi),算法的具體步驟如下:定義樣本為 {(x1,y1),…,(xl,yl)}?Rn×Y,Y={1,2,…,M}, 其中,n為測(cè)試樣本向量的維數(shù),M為類(lèi)別數(shù)目。將樣本分為M類(lèi),每個(gè)類(lèi)分開(kāi)寫(xiě)成: {(x1(s),y1(s)),…,(xl(s),yl(s)),s=1,…,M} 其中, {(xi(s),yi(s)),i=1,…,ls} 代表第s類(lèi)訓(xùn)練樣本,l1+…+lM=l。 為了得到包含每類(lèi)樣本的最小超球體距離,構(gòu)造下面的二次規(guī)劃

        (1)

        約束為

        si≥0,s=1,…,M,i=1,…,ls

        該優(yōu)化問(wèn)題轉(zhuǎn)換成對(duì)偶形式為

        (2)

        約束為

        同時(shí)引入核函數(shù)方法,本文通過(guò)核函數(shù)k(xi,xj) 來(lái)代替高維特征空間中的內(nèi)積運(yùn)算。采用高斯核函數(shù)kG, 給定兩個(gè)包含多示例的包xi,xj, 則在多示例情況下高斯核函數(shù)可以表示為

        (3)

        其中,γ是高斯核函數(shù)的參數(shù),本文采取麥克勞林展開(kāi)式來(lái)確定γ的取值[6]。將多示例包所處的原空間映射到高維特征空間,并對(duì)這個(gè)多示例包在高維特征空間中做優(yōu)化處理,最終得到核方法下的優(yōu)化方程為

        (4)

        約束為

        最終優(yōu)化為

        (5)

        式(5)是多類(lèi)分類(lèi)問(wèn)題最終的優(yōu)化方程,需要優(yōu)化的參數(shù)個(gè)數(shù)是樣本的總數(shù)l,可以通過(guò)調(diào)整參數(shù)c的值來(lái)抑制噪聲的影響。該優(yōu)化方程的算法計(jì)算復(fù)雜度受樣本數(shù)量影響較大,而數(shù)據(jù)集的類(lèi)別數(shù)量對(duì)算法計(jì)算復(fù)雜度影響較小。因此,可以利用基于一類(lèi)分類(lèi)的多類(lèi)分類(lèi)算法解決多分類(lèi)問(wèn)題。

        2.4 示例間距離計(jì)算方法

        對(duì)于多示例學(xué)習(xí)問(wèn)題的研究,國(guó)內(nèi)外學(xué)者做出了深入研究,提出了很多優(yōu)秀的算法,例如:多示例核方法、多示例K近鄰算法、多示例圖方法[15]等。

        其中,多示例K近鄰算法利用最大或者最小Hausdorff距離搜索鄰近的包來(lái)度量示例之間的距離,是一種利用近鄰規(guī)則的多示例學(xué)習(xí)算法,在應(yīng)用中取得了比較優(yōu)異的表現(xiàn)。

        dmax H(A,B)=max{d(A,B),d(B,A)}

        (6)

        (7)

        式(6)中的d(A,B),d(B,A) 表示距離,分別表示為

        (8)

        (9)

        通過(guò)分析,發(fā)現(xiàn)最大Hausdorff距離容易受到噪聲的干擾,受到異常示例的影響非常大,下面通過(guò)一個(gè)實(shí)際例子加以說(shuō)明。首先設(shè)置每個(gè)示例D=1, 即示例為標(biāo)量。假設(shè)包A={-2,-3,-4,-5}, 包B={2,3,4,40} 都是由4個(gè)示例構(gòu)成,其中包B中的示例40為一個(gè)噪聲數(shù)據(jù),定義為異常示例。由式(8)、式(9)可知,d(A,B)=max{4,5,6,7},d(B,A)=max{4,5,6,42}, 根據(jù)式(6)可知dmax H(A,B)=max{7,42} 很突出,B包中的噪聲示例40會(huì)對(duì)最大Hausdorff距離的產(chǎn)生影響。再根據(jù)式(7),可知dmin H(A,B)=4, 包A,B之間的最小Hausdorff距離沒(méi)有受到噪聲示例的干擾。因此最小Hausdorff距離(minimum Hausdorff distance)對(duì)于異常示例并不敏感,可以使用最小Hausdorff距離作為度量多示例包之間的距離。

        對(duì)于本文處理的文本示例來(lái)說(shuō),所有的屬性值都是非數(shù)值的,所以不能直接使用最小Hausdorff距離來(lái)計(jì)算。為了使MIL-SVM算法能夠適用多示例學(xué)習(xí)框架,就必須給出兩個(gè)包之間距離的度量方法,多示例學(xué)習(xí)中兩個(gè)示例之間的距離我們可以通過(guò)計(jì)算兩個(gè)包之間特征向量的距離。一個(gè)文本中出現(xiàn)頻率較高的詞能夠從某一方面代表這個(gè)文本的主題,但是對(duì)于一些“的”、“啊”、“呵”等停用詞可以不作為文本的特征詞考慮。所以,我們選取文本中的高頻詞作為文本的特征詞語(yǔ)來(lái)對(duì)文本進(jìn)行表示。

        本文使用文本中出現(xiàn)的一系列高頻詞匯組成一個(gè)q維特征向量用w=[w1,…,wq]T來(lái)表示文本代表的主要內(nèi)容,其中wi(i=1,2,…,q) 是對(duì)應(yīng)的文本中詞匯出現(xiàn)次數(shù)第i高的高頻詞。在本文中,一個(gè)包含有n個(gè)文本的數(shù)據(jù)集就可以表示為一個(gè)含有n個(gè)示例的包Bag={[w11,w12,…,w1q],[w21,w22,…,w2q],…,[wn1,wn2,…,wnq]}, 通過(guò)這種方式就能夠?qū)⑽谋局械奈谋咎卣魍ㄟ^(guò)提取高頻詞的方式表示出來(lái)。每一個(gè)包通過(guò)一個(gè)q維特征向量來(lái)表示,第i維的屬性值是文本中對(duì)應(yīng)的第i高詞頻的詞匯。如果兩個(gè)文本之間的內(nèi)容越相近,那么文本中出現(xiàn)相同高頻詞的概率也就越大,因此兩個(gè)特征向量之間包含的相同詞匯越多,那么它們之間的距離也就越小,根據(jù)這個(gè)啟發(fā)式原則,可以定義以下距離計(jì)算方法。

        假設(shè)兩個(gè)示例a=[x1,x2,…,xq]T,b=[y1,y2,…,yq]T是q維的文本特征向量,那么a和b之間的距離為

        (10)

        其中,δ(x,y)=1當(dāng)且僅當(dāng)x=y。

        這樣,就可以通過(guò)式(10)代替式(7)中計(jì)算兩個(gè)示例之間的距離,從而可以得到適合多示例學(xué)習(xí)中示例之間距離計(jì)算的方法。MIL-SVM算法使用時(shí),訓(xùn)練數(shù)據(jù)來(lái)自具有標(biāo)記的“正示例”和“負(fù)示例”,將所有正包的示例看作是“正示例”,加上負(fù)包中的“負(fù)示例”即可訓(xùn)練出一個(gè)SVM分類(lèi)器。利用SVM分類(lèi)器重新標(biāo)記訓(xùn)練集中的所有包,并對(duì)示例進(jìn)行標(biāo)記,只有當(dāng)一個(gè)正包中的所有示例都被判定為負(fù),才能夠?qū)⑦@個(gè)包中擁有最小距離的示例標(biāo)記為正。利用被標(biāo)記為正的示例和負(fù)包中的示例不斷標(biāo)記和訓(xùn)練,當(dāng)全部數(shù)據(jù)集中包的示例標(biāo)簽穩(wěn)定下來(lái),不再發(fā)生改變時(shí),SVM便被重新訓(xùn)練完畢。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        為了檢驗(yàn)MIL-SVM算法在文本分類(lèi)領(lǐng)域的有效性,本文采用來(lái)自Python程序爬取的語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)分析。數(shù)據(jù)來(lái)源于新浪、微博、知乎等知名中文網(wǎng)站的新聞以及評(píng)論數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)預(yù)處理,刪去不滿(mǎn)足要求的文本之后,最終數(shù)據(jù)集包括8個(gè)分類(lèi),每個(gè)分類(lèi)6000條數(shù)據(jù),訓(xùn)練集30 000條,測(cè)試集18 000條。類(lèi)別如下:時(shí)政、體育、房產(chǎn)、財(cái)經(jīng)、旅游、教育、科技、健康,并對(duì)數(shù)據(jù)集標(biāo)記為(U1-U8)。隨機(jī)對(duì)8個(gè)分類(lèi)中的數(shù)據(jù)進(jìn)行標(biāo)記,每個(gè)數(shù)據(jù)集中的正示例與反示例分布情況見(jiàn)表1。

        文本分詞采用jieba中文分詞工具,通過(guò)多進(jìn)程分詞,對(duì)訓(xùn)練集、測(cè)試集進(jìn)行分詞,特征值提取階段通過(guò)詞頻統(tǒng)計(jì)工具,將文本中的高頻詞統(tǒng)計(jì)出來(lái)后構(gòu)建特征向量。將實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,通過(guò)上述分類(lèi)算法對(duì)訓(xùn)練集構(gòu)建模型,然后對(duì)測(cè)試集進(jìn)行分類(lèi)預(yù)測(cè)。

        表1 數(shù)據(jù)集中正例和反例分布情況

        3.2 實(shí)驗(yàn)過(guò)程及評(píng)價(jià)指標(biāo)

        本文使用兩種常用的監(jiān)督式學(xué)習(xí)經(jīng)典文本分類(lèi)算法與多示例學(xué)習(xí)MIL-SVM算法進(jìn)行對(duì)比實(shí)驗(yàn),支持向量機(jī)(SVM)算法和KNN算法。SVM算法是一個(gè)經(jīng)久不衰的算法,具有高準(zhǔn)確率特性,在線性不可分的情況下,只要給定一個(gè)合適的核函數(shù),就可以發(fā)揮出很好的效果;KNN算法思想簡(jiǎn)單,既可以用來(lái)做分類(lèi)也可以用來(lái)做回歸分析,可用于非線性分類(lèi),KNN是一種在線技術(shù),新數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必進(jìn)行重新訓(xùn)練。由于這兩種非多示例學(xué)習(xí)算法不需要運(yùn)用多示例學(xué)習(xí)方法,所以將標(biāo)題和正文視作一個(gè)整體。其中SVM算法采用LIBSVM實(shí)現(xiàn),本實(shí)驗(yàn)中核函數(shù)采取高斯核函數(shù),參數(shù)c=5; KNN算法由Matlab內(nèi)置集成的fitcknn函數(shù)實(shí)現(xiàn)。

        本文使用能對(duì)數(shù)據(jù)集進(jìn)行充分利用的K-折交叉驗(yàn)證法驗(yàn)證數(shù)據(jù)集上算法對(duì)文本分類(lèi)的準(zhǔn)確性。該方法的步驟為:①將數(shù)據(jù)分為隨機(jī)的k個(gè)包;②不重復(fù)地從k個(gè)包中選一個(gè)包當(dāng)作測(cè)試集,剩余的k-1個(gè)包作訓(xùn)練集;③重復(fù)步驟②,直到k個(gè)包均被選擇1次。這樣經(jīng)過(guò)N次循環(huán)驗(yàn)證,對(duì)每次的評(píng)價(jià)指標(biāo)數(shù)據(jù)進(jìn)行平均,得到分類(lèi)算法的準(zhǔn)確性。本文采取常用的10-折交叉驗(yàn)證法,選取準(zhǔn)確率(Precision,P)、召回率(Recall,R)和綜合評(píng)價(jià)指標(biāo)(F1-Measure,F(xiàn)1)值作為文本分類(lèi)的評(píng)測(cè)指標(biāo)。其中準(zhǔn)確率表示模型對(duì)于正樣本的區(qū)分程度,召回率表示模型對(duì)負(fù)樣本的區(qū)分程度,F(xiàn)值是兩者的平均值。準(zhǔn)確率、召回率、F值的計(jì)算公式如式(11)-式(13)所示

        (11)

        (12)

        (13)

        其中,實(shí)驗(yàn)測(cè)試集中包含X個(gè)正示例和Y個(gè)負(fù)示例,正示例中包含能夠被分類(lèi)器正確分類(lèi)的Xa個(gè)樣本和被分類(lèi)器錯(cuò)誤分類(lèi)的Yb個(gè)樣本,負(fù)示例中包含被分類(lèi)器正確分類(lèi)的正示例的Xa個(gè)樣板和錯(cuò)誤識(shí)別的負(fù)示例樣本Yb。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)中,由于特征向量中高頻詞的個(gè)數(shù)對(duì)示例的表征能力有直接的影響,所以,實(shí)驗(yàn)需要在不同的高頻詞個(gè)數(shù)下比較3種算法的分類(lèi)效果。在高頻詞個(gè)數(shù)相同的情況下,得到了KNN,SVM,MIL-SVM這3種算法在對(duì)應(yīng)數(shù)據(jù)集上的準(zhǔn)確率P、召回率R和綜合評(píng)價(jià)指標(biāo)F1值,然后計(jì)算出3種評(píng)價(jià)指標(biāo)在對(duì)應(yīng)數(shù)據(jù)集上的平均值。如圖3-圖5所示,分別對(duì)應(yīng)高頻詞為5,10,15時(shí)的評(píng)價(jià)指標(biāo)實(shí)驗(yàn)結(jié)果。

        圖3 3種分類(lèi)算法在5維特征向量下的分類(lèi)比較結(jié)果

        圖4 3種分類(lèi)算法在10維特征向量下的分類(lèi)比較結(jié)果

        圖5 3種分類(lèi)算法在15維特征向量下的分類(lèi)比較結(jié)果

        從圖3-圖5可以看出,在實(shí)驗(yàn)中選擇的特征向量數(shù)量相同的情況下,多示例學(xué)習(xí)MIL-SVM算法在數(shù)據(jù)集上的平均準(zhǔn)確率明顯好于其它兩種傳統(tǒng)的非多示例學(xué)習(xí)算法。并且MIL-SVM算法在所有數(shù)據(jù)集上的分類(lèi)效果都比較平均,沒(méi)有出現(xiàn)特別大的評(píng)價(jià)標(biāo)準(zhǔn)值異常波動(dòng)的情況,例如SVM算法在5維特征向量下對(duì)于數(shù)據(jù)集U1的分類(lèi)就出現(xiàn)異常波動(dòng)。如圖6所示,多示例學(xué)習(xí)MIL-SVM算法的準(zhǔn)確率比較平均,沒(méi)有出現(xiàn)異常波動(dòng)的情況,且準(zhǔn)確率優(yōu)于其它兩種對(duì)比算法的分類(lèi)準(zhǔn)確率。

        圖6 KNN,SVM和MIL-SVM不同特征向量個(gè)數(shù)下的準(zhǔn)確率對(duì)比

        從召回率角度看,多示例學(xué)習(xí)MIL-SVM算法在3種不同的特征向量情況下,分類(lèi)效果比KNN和SVM算法好。從圖3-圖5的數(shù)據(jù)中可以計(jì)算出MIL-SVM算法的平均召回率為82.8%,而KNN和SVM算法的平均召回率分別是68.4%和66.9%。從綜合評(píng)價(jià)指標(biāo)F1值來(lái)看,多示例學(xué)習(xí)MIL-SVM算法在3種不同的特征向量情況下表現(xiàn)的分類(lèi)數(shù)據(jù)更加穩(wěn)定。因此,多示例學(xué)習(xí)MIL-SVM算法相比于實(shí)驗(yàn)中的其它兩種算法有更加優(yōu)越的分類(lèi)效果。

        綜合3項(xiàng)評(píng)價(jià)指標(biāo)來(lái)分析,采用多示例學(xué)習(xí)框架的MIL-SVM算法分類(lèi)的效果明顯優(yōu)于非多示例學(xué)習(xí)框架KNN和SVM算法。這說(shuō)明,在使用多示例學(xué)習(xí)框架的SVM分類(lèi)算法,對(duì)于具有特殊結(jié)構(gòu)文本分類(lèi)問(wèn)題能夠提升其分類(lèi)的準(zhǔn)確率。

        通過(guò)實(shí)驗(yàn)驗(yàn)證分析,我們可以發(fā)現(xiàn)本文提出的基于多示例學(xué)習(xí)框架的支持向量機(jī)分類(lèi)算法相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)算法有比較大的優(yōu)勢(shì)。不同于只考慮了一種示例特征結(jié)構(gòu)的傳統(tǒng)機(jī)器學(xué)習(xí)方法,本文提出的方法將實(shí)驗(yàn)數(shù)據(jù)集的特征結(jié)構(gòu)進(jìn)行充分細(xì)致的考慮,作為分類(lèi)的特征項(xiàng)的示例源于多角度的選擇,因此原始數(shù)據(jù)集的利用率和分類(lèi)器的分類(lèi)精度得以顯著提高。同時(shí),本文提出的多示例學(xué)習(xí)框架算法適用性很好,只要數(shù)據(jù)集有特定的文本結(jié)構(gòu),并且合理定義包中的示例,就能很好解決很多文本分類(lèi)問(wèn)題。但是,我們提出的多示例學(xué)習(xí)MIL-SVM分類(lèi)算法在時(shí)間復(fù)雜度的表現(xiàn)上比實(shí)驗(yàn)中的其它兩種算法差,存在劣勢(shì),需要進(jìn)一步優(yōu)化模型。

        4 結(jié)束語(yǔ)

        本文提出的基于多示例學(xué)習(xí)框架的支持向量機(jī)文本分類(lèi)方法,借鑒機(jī)器學(xué)習(xí)領(lǐng)域的多示例學(xué)習(xí)方法和支持向量機(jī)算法。針對(duì)數(shù)據(jù)集具有的特殊結(jié)構(gòu),將每個(gè)文本當(dāng)作一個(gè)示例包,文本中的標(biāo)題和正文視作為示例包的兩個(gè)示例,將示例包映射到高維特征空間中,利用高斯核函數(shù)訓(xùn)練分類(lèi)器,有效地提高了分類(lèi)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該算法相較于傳統(tǒng)的KNN算法和SVM算法在分類(lèi)的準(zhǔn)確率上有明顯的提高。在今后的研究中,將繼續(xù)優(yōu)化模型算法的時(shí)間復(fù)雜度,使其適應(yīng)海量數(shù)據(jù)的文本分類(lèi)需求。

        猜你喜歡
        特征向量示例分類(lèi)器
        大還是小
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        2019年高考上海卷作文示例
        常見(jiàn)單位符號(hào)大小寫(xiě)混淆示例
        山東冶金(2019年5期)2019-11-16 09:09:22
        “全等三角形”錯(cuò)解示例
        一類(lèi)特殊矩陣特征向量的求法
        BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
        亚洲高清在线天堂精品| 九九久久精品大片| 黄色三级一区二区三区| 日本最新一区二区三区在线视频 | 国精产品推荐视频| 伊人网综合在线视频| 熟女丝袜美腿亚洲一区二区三区 | 中文字幕麻豆一区二区| 国产亚洲精品一区在线| 肉色欧美久久久久久久免费看| 蜜桃av噜噜一区二区三区| 国产乱子伦视频一区二区三区| 亚洲一区二区三区福利久久蜜桃| 国产爆乳美女娇喘呻吟| 亚洲精品网站在线观看你懂的| 久久天天躁狠狠躁夜夜中文字幕| 黄片免费观看视频播放| 久久久噜噜噜久久中文福利| 3d动漫精品啪啪一区二区下载 | 玖玖资源站无码专区| 色琪琪一区二区三区亚洲区| 青青草小视频在线观看| 97久久超碰国产精品旧版| 欧美一级在线全免费| 成人性生交大片免费看7| 亚洲av天堂在线视频| 97成人碰碰久久人人超级碰oo| 久久成人永久免费播放| 最新日本女优中文字幕视频| 亚洲人成欧美中文字幕| 亚洲av国产av综合av| 国产91精品丝袜美腿在线| 国产av综合网站不卡| 欧美金发尤物大战黑人| 99精品欧美一区二区三区美图| 白白色免费视频一区二区在线| 亚洲av无码成人精品区狼人影院| 亚洲欧美国产日韩天堂在线视| 日本熟女人妻一区二区三区| 日本a级片免费网站观看| 国产成人精品av|