亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于SV-NN的哈薩克語(yǔ)文本分類方法

2018-06-27 06:59:40古麗娜孜艾力木江乎西旦居馬洪孫鐵利梁義

東北師大學(xué)報(bào)(自然科學(xué)版) 2018年2期

古麗娜孜·艾力木江，乎西旦·居馬洪，孫鐵利，梁義

( 1.伊犁師范學(xué)院電子與信息工程學(xué)院，新疆伊寧 835000；2.東北師范大學(xué)地理科學(xué)學(xué)院，吉林長(zhǎng)春 130024； 3.東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院，吉林長(zhǎng)春 130117)

隨著企業(yè)與數(shù)字圖書館的快速增長(zhǎng)，文本分類已成為文本數(shù)據(jù)組織與處理的關(guān)鍵技術(shù).文本分類(Text Classification，TC)是基于機(jī)器學(xué)習(xí)的學(xué)習(xí)任務(wù)[1]，它是信息檢索技術(shù)非?；钴S的研究領(lǐng)域.TC的任務(wù)是為一個(gè)文檔自動(dòng)分配一組預(yù)定義的類別或應(yīng)用主題.數(shù)字化數(shù)據(jù)有不同的形式，它可以是文字、圖像、空間形式等，其中最常見(jiàn)和應(yīng)用最多的是文本數(shù)據(jù)，我們閱讀的新聞、社交媒體上的帖子和信息主要以文本形式出現(xiàn).文本自動(dòng)分類在網(wǎng)站分類[2-3]、自動(dòng)索引[4-5]、電子郵件過(guò)濾[6]、垃圾郵件過(guò)濾[7-9]、本體匹配[10]、超文本分類[11-12]和情感分析[13-14]等許多信息檢索應(yīng)用中起到了重要的作用.數(shù)字化時(shí)代，在線文本文檔及其類別的數(shù)量越來(lái)越巨大，而文本分類是從數(shù)據(jù)海洋中挖掘出具有參考價(jià)值數(shù)據(jù)的應(yīng)用程序.[15-16]文本挖掘工作是許多應(yīng)用領(lǐng)域里書面文本的分析過(guò)程，樸素貝葉斯、K緊鄰、支持向量機(jī)、決策樹、最大熵和神經(jīng)網(wǎng)絡(luò)等基于統(tǒng)計(jì)與監(jiān)督的模式分類算法在文本分類研究中已被廣泛應(yīng)用.針對(duì)迅速發(fā)展的Web數(shù)據(jù)的開(kāi)發(fā)應(yīng)用，提高文本分類效率的算法研究具有重要意義.

一般來(lái)說(shuō)，合理的詞干有助于提高文本分類的性能和效率[17-18]，特別是對(duì)像哈薩克語(yǔ)這樣構(gòu)詞和詞性變化較復(fù)雜語(yǔ)言的文本分類而言詞干的準(zhǔn)確提取極其重要.由于從同一個(gè)詞干可以派生許多單詞，因此通過(guò)詞干提取還可以對(duì)語(yǔ)料庫(kù)規(guī)模進(jìn)行降維.文本文檔數(shù)量的巨大化和包含特征的多樣化給文本挖掘工作帶來(lái)一定的困難.目前，眾多文本分類研究都是基于英文或中文，而基于少數(shù)民族語(yǔ)言為基礎(chǔ)的文本分類研究相對(duì)較少.[19]然而國(guó)外阿拉伯語(yǔ)的文本分類工作相對(duì)于中國(guó)少數(shù)民族語(yǔ)言文本分類較成熟.[20-21]

哈薩克語(yǔ)言屬于阿爾泰語(yǔ)系突厥語(yǔ)族的克普恰克語(yǔ)支，中國(guó)境內(nèi)通用的哈薩克文借用了阿拉伯語(yǔ)和部分波斯文字母，而哈薩克斯坦等國(guó)家用的哈薩克文是斯拉夫文字.哈薩克文本跟中文不同的是哈薩克文文本單詞以空格分開(kāi)的，而這點(diǎn)類似于英文，但由于兩種語(yǔ)言語(yǔ)法體系不一樣，英文詞干提取規(guī)則不能直接用到哈薩克語(yǔ)文本分類問(wèn)題上，需要研究適合哈薩克語(yǔ)語(yǔ)法體系的詞干提取規(guī)則之后才能實(shí)現(xiàn)哈薩克語(yǔ)文本的分類工作.哈薩克語(yǔ)具有豐富的形態(tài)和復(fù)雜的拼字法，所以實(shí)現(xiàn)哈薩克語(yǔ)文本分類系統(tǒng)并不是一件容易的事.為了實(shí)現(xiàn)文本分類任務(wù)需要一定規(guī)模的語(yǔ)料庫(kù)，而語(yǔ)料庫(kù)里語(yǔ)料的質(zhì)量直接影響文本分類的精度.但是，到目前為止還沒(méi)有一個(gè)公認(rèn)的哈薩克文語(yǔ)料庫(kù)，也有不少人認(rèn)為新疆日?qǐng)?bào)(哈文版)上的文本可以當(dāng)做文本分類語(yǔ)料.本文為了保證文本分類語(yǔ)料的規(guī)范化和文本分類工作的標(biāo)注化，經(jīng)過(guò)認(rèn)真挑選中文標(biāo)準(zhǔn)語(yǔ)料庫(kù)里的部分語(yǔ)料文檔并對(duì)其進(jìn)行翻譯和挑選新疆日?qǐng)?bào)(哈文版)上的部分文檔來(lái)自行搭建了本文研究的語(yǔ)料.在之前研究[22-23]進(jìn)行優(yōu)化改善的基礎(chǔ)上，本文給出新的樣本測(cè)度指標(biāo)與距離公式，并結(jié)合SVM與KNN分類算法實(shí)現(xiàn)了哈薩克語(yǔ)文本分類.

1 文本特征提取

1.1 文本預(yù)處理

文本預(yù)處理在整個(gè)文本分類工作中扮演最重要的角色，其處理程度直接影響到后期進(jìn)行的文本分類精度.因?yàn)樗菑奈臋n中抽取關(guān)鍵詞集合的過(guò)程，而關(guān)鍵詞的單獨(dú)抽取因語(yǔ)言語(yǔ)法規(guī)則的不同而不同，所以這是屬于技術(shù)含量較高的基礎(chǔ)性工作，需要設(shè)計(jì)人員熟練掌握語(yǔ)言語(yǔ)法規(guī)則和計(jì)算機(jī)編程能力.

哈薩克語(yǔ)文字由24個(gè)輔音字母和9個(gè)元音字母組成.哈薩克語(yǔ)文本詞與詞之間有空格分開(kāi)，所以不需要用分詞處理，但要用詞干提取.由于哈薩克語(yǔ)語(yǔ)法形式由在單詞原形的前后附加一定的成分來(lái)完成，所以哈薩克語(yǔ)言屬于黏著語(yǔ)，即跟英文類似，一個(gè)哈薩克語(yǔ)單詞對(duì)應(yīng)多種鏈接形式，因此對(duì)其一定要進(jìn)行詞干提取.

我們前期基本完成了哈薩克語(yǔ)文本詞干提取以及詞性標(biāo)注工作，完成了哈薩克語(yǔ)文本詞干表的構(gòu)建.該表收錄了由新疆人民出版社出版的《哈薩克語(yǔ)詳解詞典》中的6萬(wàn)多個(gè)哈薩克語(yǔ)文本詞干(見(jiàn)圖1)和438個(gè)哈薩克語(yǔ)文本詞干附加成分(見(jiàn)圖2).

圖1 哈薩克語(yǔ)詞干

本文給出3種詞性的有限狀態(tài)自動(dòng)機(jī)，并采用詞法分析和雙向全切分相結(jié)合的改進(jìn)方法實(shí)現(xiàn)哈薩克語(yǔ)文本詞干的提取和單詞構(gòu)形附加成分的細(xì)切分.改進(jìn)逐字母二分詞典查詢機(jī)制對(duì)詞干表進(jìn)行搜索，提高詞干提取的效率.以概率統(tǒng)計(jì)的方法對(duì)歧義詞和未登陸詞進(jìn)行切分.在此基礎(chǔ)上，設(shè)計(jì)實(shí)現(xiàn)了哈薩克語(yǔ)文本的詞法自動(dòng)分析程序，完成哈薩克語(yǔ)文本的讀取預(yù)處理.處理結(jié)果如圖3所示，上半部顯示的是待切分的文檔原文，下半部顯示的是詞干切分后的結(jié)果.

1.2 特征處理

特征就是文本分類時(shí)判別類別的尺度.模式識(shí)別的不同分類問(wèn)題有不同的特征選擇方法，而在文本分類問(wèn)題中常用到的方法有互信息(MI)、X2統(tǒng)計(jì)量(CHI)、信息增益(IG)、文檔頻率(DF)等幾種.[24]這些方法各具特色和不足.MI、IG和CHI傾向于低頻詞的處理，而DF則傾向于高頻詞的處理.目前，也有許多優(yōu)化改進(jìn)方法[25-27]，其中，文本頻率比值法DFR(Document Frequency Ratio，DFR)以簡(jiǎn)單、快捷等優(yōu)點(diǎn)克服了以上幾種方法存在的問(wèn)題，綜合考慮了類內(nèi)外文本頻率，其計(jì)算公式為

(1)

通過(guò)對(duì)詞頻統(tǒng)計(jì)、詞權(quán)重計(jì)算和文檔向量化表示等一系列的預(yù)處理之后才能運(yùn)用分類算法，所以對(duì)于文本分類而言這些都是非常重要的階段性基礎(chǔ)工作.每類文檔里(如體育類文檔中)每一個(gè)單詞(如“排球”詞)的總出現(xiàn)次數(shù)見(jiàn)圖4.詞的權(quán)重計(jì)算結(jié)果見(jiàn)圖5，即統(tǒng)計(jì)某詞在判別文檔類別所屬關(guān)系中的隸屬度，隸屬度越高說(shuō)明該詞在文檔分類時(shí)的貢獻(xiàn)越大.最后對(duì)文檔進(jìn)行形式向量化表示(見(jiàn)圖6)，生成分類問(wèn)題的文檔向量，即“XX號(hào)特征詞：該特征詞的特征向量”形式向量化表示.

圖3 哈薩克語(yǔ)文本詞干切分結(jié)果示例

2 SVM與KNN方法

2.1 SVM方法

SVM是由C.Cortes等[28]在1995 年首次提出來(lái)的一種模式識(shí)別分類技術(shù).它是在統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Leaning Theory，SLT)原理的基礎(chǔ)上發(fā)展起來(lái)的機(jī)器學(xué)習(xí)算法.SVM方法的重點(diǎn)是在高維特征空間中構(gòu)造函數(shù)集VC維盡可能小的最優(yōu)分類面，使不同類別樣本通過(guò)超平面在分類風(fēng)險(xiǎn)上界最小化，從而保證分類算法的最優(yōu)推廣能力.在有限訓(xùn)練樣本情況下，SVM在學(xué)習(xí)機(jī)復(fù)雜度和學(xué)習(xí)機(jī)泛化能力之間找到一個(gè)平衡點(diǎn)[29]，從而保證學(xué)習(xí)機(jī)的推廣能力.

SVM方法模型見(jiàn)圖7，圖7b是線性可分的，圖7c是線性不可分的，即根據(jù)樣本分布情況與樣本集維數(shù)，SVM分類算法的判別函數(shù)原理大致可由圖7(b，c)2種形式表示.

圖7 SVM分類原理示意圖

2.1.1 線性可分

訓(xùn)練樣本集的SVM線性可分分類問(wèn)題的數(shù)學(xué)模型為

S={(xi·yi)，i=1，2，…，r}，xi∈Rn，yi∈{+1，-1}.

(2)

(2)式還可表達(dá)為

(3)

(4)

其中對(duì)應(yīng)ai≠0時(shí)的樣本點(diǎn)就是支持向量.因?yàn)樽顑?yōu)化問(wèn)題解ai的每一個(gè)分量都與一個(gè)訓(xùn)練點(diǎn)相對(duì)應(yīng)，顯然所求得的劃分超平面，僅僅與對(duì)應(yīng)ai≠0時(shí)的訓(xùn)練點(diǎn)(xi·x)相關(guān)，而跟ai=0時(shí)的訓(xùn)練點(diǎn)無(wú)關(guān).相應(yīng)于ai≠0時(shí)的訓(xùn)練點(diǎn)(xi·x)輸入點(diǎn)xi就是支持向量，通常是全體樣本中的很少一部分.最終分類分界面的法向量ω只受支持向量的影響，與非支持向量訓(xùn)練點(diǎn)的無(wú)關(guān).

2.1.2 非線性可分

SVM通過(guò)運(yùn)用合適的非線性映射，如φ：xi→φ(xi)把分類問(wèn)題原訓(xùn)練樣本點(diǎn)轉(zhuǎn)變(映射)到新特征空間中，使得原樣本在這新特征空間(目標(biāo)高維空間)中能夠線性可分，然后利用線性可分問(wèn)題求出最終的最優(yōu)分類超面.

為此，需要在(3)式中增加一個(gè)松弛變量ξi和懲罰因子C，從而(3)式變?yōu)?/p>

(4)

s.t.yi[ωxi+b]-1+ξi≥0，ξi≥0，i=1，2，…，n.

(5)

其中C為控制樣本對(duì)錯(cuò)分程度的調(diào)整因子，通常稱為懲罰因子.C越大，懲罰越重.

分類問(wèn)題的訓(xùn)練樣本不充足或不能保證訓(xùn)練樣本質(zhì)量情形下，確定非線性映射是很困難的，SVM通過(guò)運(yùn)用核函數(shù)概念解決這些困難.

SVM通過(guò)引入一個(gè)核函數(shù)K(xi，x)，將原低維的分類問(wèn)題空間映射到高維的新問(wèn)題空間中，讓核函數(shù)代替ω·φ(x)內(nèi)積運(yùn)算，這個(gè)高維的新問(wèn)題空間就稱Hilbert空間.引入核函數(shù)以后的最優(yōu)分類函數(shù)為

(6)

2.2 KNN方法

KNN(K Nearest Neighbor，KNN)分類法是基于實(shí)例的學(xué)習(xí)算法，它需要所有的訓(xùn)練樣本都參與分類.[30]在分類階段，利用歐氏距離公式，將每個(gè)測(cè)試樣本與和鄰近的k個(gè)訓(xùn)練樣本進(jìn)行比較，然后將測(cè)試樣本歸屬到票數(shù)最多的那一類里.[31]KNN方法是根據(jù)測(cè)試樣本最近的k個(gè)樣本點(diǎn)的類別信息來(lái)對(duì)該測(cè)試樣本類型進(jìn)行判別，所以k值的選定非常重要.k值太小，測(cè)試樣本特征不能充分體現(xiàn)；k值太大，與測(cè)試樣本并不相似的個(gè)別樣本也可能被包含進(jìn)來(lái)，這樣反而對(duì)分類不利.在分類決策上只依據(jù)最鄰近的k個(gè)樣本的類別來(lái)決定待分樣本的所屬類.目前，對(duì)于k值的選取還沒(méi)有一個(gè)全局最優(yōu)的篩選方法，這也是KNN方法的弊端，具體操作時(shí)，只好根據(jù)先驗(yàn)知識(shí)先給出一個(gè)初始值，然后根據(jù)仿真分類實(shí)驗(yàn)結(jié)果重新調(diào)整，而重復(fù)調(diào)整k值的操作一直到進(jìn)行到分類結(jié)果滿足用戶需求為止.該方法原理可表示為

(7)

(7)式表明將測(cè)試樣本di劃入到k個(gè)鄰近類別中成員最多的那個(gè)類里.

在使用KNN算法時(shí)，還可利用其他策略生成測(cè)試樣本的歸屬類，其函數(shù)為

(8)

其中：di是測(cè)試樣本，而xj是k個(gè)最近鄰之一；y(xj，ck)∈{0，1}表明xj是否屬于ck類，即當(dāng)xj∈ci時(shí)，y(xj，ci)=1，當(dāng)xj?ci時(shí)，y(xj，ci)=0；Sim(di，xj)是測(cè)試樣本di和它最近鄰xj之間的余弦相似度.余弦相似度測(cè)量是由一個(gè)向量空間中2個(gè)向量之間夾角余弦值來(lái)定義的.(8)式說(shuō)明測(cè)試樣本di被歸屬到k個(gè)最近鄰類里相似性最大的那個(gè)類里.

一般情況下，不同類別訓(xùn)練樣本的分布是不均勻的，同樣不同類別的樣本個(gè)數(shù)也可能不一樣.所以，在分類任務(wù)中，KNN中k值可能會(huì)導(dǎo)致不同類別之間的偏差.例如，對(duì)于(7)式，一個(gè)較大的k值使得方法過(guò)擬合，反過(guò)來(lái)一個(gè)較小的k值使得方法模型不穩(wěn)定.實(shí)際上，k值通常由交叉驗(yàn)證技術(shù)來(lái)獲取.然而，像在線分類等某些情況下，不能用交叉驗(yàn)證技術(shù)，只能給出經(jīng)驗(yàn)值，總之k值的選定很重要.

KNN雖然是簡(jiǎn)單有效的分類方法，但不能忽略以下兩方面的問(wèn)題：一方面，由于KNN需要保留分類過(guò)程中的所有相似性計(jì)算實(shí)例，隨著訓(xùn)練集規(guī)模的增多，方法計(jì)算量也會(huì)增長(zhǎng)，在處理較大規(guī)模數(shù)據(jù)集的分類時(shí)方法的時(shí)間復(fù)雜度會(huì)達(dá)到不可接受的程度[32]，這也是KNN方法的一個(gè)很大缺點(diǎn)；另一方面，KNN方法分類的準(zhǔn)確性可能受到訓(xùn)練數(shù)據(jù)集中特性的無(wú)關(guān)性和噪聲數(shù)據(jù)的影響，若考慮這些因素分類效果也許更好.

3 基于SV-NN的哈薩克語(yǔ)文本分類算法

3.1 SV-NN算法描述

假設(shè)共有n個(gè)類，每個(gè)類別含有m個(gè)支持向量.

訓(xùn)練集：T1={x1，x2，…，xt}；

測(cè)試集：T2={x1，x2，…，xl}，且T=T1∪T2.

SV-NN分類算法描述：

Start：

{integeri，j，k，l；

i=1；j=1；k=1；//i=1，2，…，n；j=1，2，…，m；

SVM：T1→svij；//通過(guò)使用SVM定義每個(gè)類的支持向量.

while(k

{ 輸入xk；

計(jì)算xk與svij之間的距離(Dk)；

計(jì)算xk與svij之間的平均距離(averDk)；

k=k+1；

}

End.

3.2 SV-NN算法實(shí)現(xiàn)

步驟1：將所有訓(xùn)練點(diǎn)映射到向量空間，并通過(guò)傳統(tǒng)SVM確定每一個(gè)類別的支持向量.

(9)

其中支持向量svij是從輸入文檔中提取的(共有n個(gè)類，每個(gè)類別含有m個(gè)支持向量).確定每一類的支持向量svs之后，其余的訓(xùn)練點(diǎn)可以消除.

步驟2：使用歐氏距離公式

(10)

計(jì)算測(cè)試樣本xk與由步驟1生成的每一類支持向量svij之間的距離.

步驟3：計(jì)算測(cè)試樣本xk與每一類支持向量svij之間的平均距離，公式為

(11)

步驟4：計(jì)算最短平均距離minD，并將測(cè)試樣本xk劃入到最短平均距離對(duì)應(yīng)的一類中，公式為

(12)

即輸入點(diǎn)被確認(rèn)為輸入點(diǎn)與svij之間最短平均距離值對(duì)應(yīng)的正確類.

重復(fù)步驟2～4，直到所有的測(cè)試樣本分類完為止.

4 實(shí)驗(yàn)結(jié)果與評(píng)價(jià)

通常語(yǔ)料庫(kù)里語(yǔ)料的質(zhì)量與數(shù)量直接影響文本分類算法的分類性能.本文考慮到文本分類工作的規(guī)范性和語(yǔ)料的標(biāo)準(zhǔn)性，由中文標(biāo)準(zhǔn)語(yǔ)料庫(kù)里的部分文檔的翻譯和新疆日?qǐng)?bào)(哈文版)上的部分文檔的篩選搭建了本文研究的語(yǔ)料庫(kù).這次是對(duì)前期語(yǔ)料集的補(bǔ)充和優(yōu)化完善.原來(lái)的語(yǔ)料集語(yǔ)料文檔只有5類文檔，這次擴(kuò)充到8類文檔.通過(guò)語(yǔ)言學(xué)專家們的多次溝通，選擇了具有代表性的文檔，同時(shí)對(duì)詞干提取程序解析規(guī)則上也做了些適當(dāng)?shù)恼{(diào)整.對(duì)于本文研究所構(gòu)建語(yǔ)料庫(kù)上還不能用得上“標(biāo)準(zhǔn)”這詞語(yǔ)，但現(xiàn)階段對(duì)哈薩克語(yǔ)文本分類任務(wù)的完成具有實(shí)際應(yīng)用價(jià)值.

本文在前期系列研究的基礎(chǔ)上，把以前的語(yǔ)料集規(guī)模擴(kuò)大到由計(jì)算機(jī)、經(jīng)濟(jì)、教育、法律、醫(yī)學(xué)、政治、交通、體育等8類共1 400個(gè)哈薩克語(yǔ)文檔組成的小型語(yǔ)料數(shù)據(jù)集(見(jiàn)表1).數(shù)據(jù)集被分為2個(gè)部分.880個(gè)文檔(63%)用于訓(xùn)練數(shù)，520個(gè)文檔用于測(cè)試(37%).

表1 8類小型語(yǔ)料數(shù)據(jù)集

本文文本分類實(shí)驗(yàn)評(píng)價(jià)指標(biāo)采用了分類精度、召回率和F13種評(píng)價(jià)方法.期望獲得較高的分類精度和召回率.在前期系列研究中所搭建的哈薩克文語(yǔ)料集的補(bǔ)充完善和詞干提取程序提取規(guī)則細(xì)節(jié)的優(yōu)化改善基礎(chǔ)上實(shí)現(xiàn)了哈薩克語(yǔ)文本的分類.運(yùn)用SVM、KNN與本文提出的SV-NN算法，并對(duì)3種算法分類精度進(jìn)行了較全面的對(duì)比分析，分析結(jié)果見(jiàn)圖8.通過(guò)對(duì)圖8的仿真實(shí)驗(yàn)數(shù)字的對(duì)比分析，發(fā)現(xiàn)SVM算法優(yōu)于KNN算法，而SV-NN算法優(yōu)于SVM 算法.SV-NN方法F1指標(biāo)除了教育類和法律類以外在其他類上的F1指標(biāo)都高于SVM、KNN.SVM、KNN和SV-NN平均分類精度分別為0.754，0.731和0.778，說(shuō)明本文提出的算法對(duì)所有類別文檔詞的召回率和區(qū)分度較穩(wěn)定.在有限樣本情況下，該算法模型已繼承SVM算法，獲得較好分類精度，而且沒(méi)有定義KNN算法的k參數(shù)，也沒(méi)有跟所有類全部訓(xùn)練樣本進(jìn)行距離運(yùn)算.所以，本文提出的算法無(wú)論從算法復(fù)雜度的分析還是算法收斂速度的分析都是有效的.當(dāng)然，總體精度沒(méi)有中英文等其他語(yǔ)言文本分類精度高，但是目前獲得的分類精度比較理想，本文算法的文本分類性能和召回率有了很大的提升，對(duì)于影響分類精度的以上幾方面的問(wèn)題將繼續(xù)研究，并努力爭(zhēng)取得到滿意的分類精度.

(a)SVM分類精度

(c)SV-NN分類精度

5 結(jié)論

本文在前期系列研究的基礎(chǔ)上實(shí)現(xiàn)了哈薩克語(yǔ)文本的分類.運(yùn)用了模式識(shí)別的3種分類算法，并對(duì)3種算法分類精度進(jìn)行了較全面的對(duì)比分析.通過(guò)仿真實(shí)驗(yàn)，證明本文提出方法具有一定的優(yōu)越性.本文算法對(duì)所有類別文檔詞的召回率和區(qū)分度較穩(wěn)定.不需要設(shè)置k參數(shù)，保證了分類算法的收斂速度，獲得了較高的分類精度和召回率.

[參考文獻(xiàn)]

[1] SEBASTIANI F.Machine learning in automated text categorization[J].ACM Computing Surveys，2002，34(1)：1-47.

[2] AHMADI A，F(xiàn)OTOUHI M，KHALEGHI M.Intelligent classification of web pages using contextual and visual features[J].Applied Soft Computing，2011，11(2)：1638-1647.

[3] MARTINEZ CAMARA E，MARTIN VALDIVIA MT，URENA LOPEZ LA，et al.Polarity classification for Spanish tweets using the COST corpus[J].Journal of Information Science，2015，41(3)：263-272.

[4] PERCANELLA G，SORRENTINO D，VENTO M.Automatic indexing of news videos through text classification techniques[C]// Proceedings of the 3rd International Conference on Pattern Recognition and Image Analysis (Part II).Berlin：Springer，2005：512-521.

[5] RONG HU，BRIAN MAC NAMEE，SARAH JANE DELANY.Active learning for text classification with reusability[J].Expert Systems With Applications，2016，45(3)：438-449.

[6] SAKURAI S，SUYAMA A.An e-mail analysis method based on text mining techniques[J].Applied Soft Computing，2006，6(1)：62-71.

[7] ALKABI M，WAHSHEH H，ALSMADI I，etal.Content-based analysis to detect Arabic web spam[J].Journal of Information Science，2012，38(3)：284-296.

[8] ADEL HAMDAN，RAED ABUZITAR.Spam detection using assisted artificial immune system[J].International Journal of Pattern Recognition and Artificial Intelligence，2011，25(8)：1275-1295.

[9] RAED ABUZITAR，ADEL HAMDAN.Application of genetic optimized artificial immune system and neural networks in spam detection[J].Applied Soft Computing，2011，11(4)：3827-3845.

[10] MING M，YEFEI P，MICHAEL S.Ontology mapping：as a binary classification problem[J].Concurrency and Computation：Practice and Experience，2011，23(9)：1010-1025.

[11] YANG Y，SLATTERY S，GHANI R.A study of approaches to hypertextcategorization[J].Journal of Intelligent Information Systems，2002，18(2/3)：219-241.

[12] REN FUJI，LI CHAO.Hybrid Chinese text classification approach using general knowledge from Baidu Baike[J].IEEJ Transaction on Electrical and Electronic Engineering，2016，11(4)：488-498.

[13] DUWAIRI R，ELORFALI M.A study of the effects of preprocessing strategies on sentiment analysis for Arabic text[J].Journal of Information Science，2014，40(4)：501-513.

[14] 張冬梅.文本情感分類及觀點(diǎn)摘要關(guān)鍵問(wèn)題研究[D].濟(jì)南：山東大學(xué)，2012.

[15] 楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].長(zhǎng)春：吉林大學(xué)，2013.

[16] CNNIC.第37次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京：中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心，2016.

[17] SYIAM MM，F(xiàn)AYED ZT，HABIB MB.An intelligent system for Arabic text categorization[J].Journal of Intelligent Computing and Information Sciences，2006，6(1)：1-19.

[18] DUWAIRI R，ALREFAI M，KHASAWNEH N.Stemming versus light stemming as feature selection techniques for Arabic text categorization[J].International Conference on Innovations in Information Technology，2008，25(9)：446-450.

[19] HE HUI，WANG JUNYI.Study of active learning support vector machine and its application on mongolian text classification[J].Acta Sientiarum Naturalium Universitatis NeiMongol，2006，37(5)：560-563.

[20] ABDULLAHI O ADELEKE，NOOR A SAMSUDIN，AIDA MUSTAPHA，et al.Comparative analysis of text classification algorithms forautomated labelling of quranicverses[J].International Journal on Advanced Science Engineering Information Technology，2017，7(4)：119-1427.

[21] ADEL HAMDAN MOHAMMAD，TARIQ ALWADA’N，OMAR AL MOMANI.Arabic text categorization using supportvector machine，na?ve bayes and neural network[J].GSTF Journal on Computing (JOC)，2016，5(1)：108-115.

[22] GULINAZI，SUN TIE LI，YILIYAER，et al.Research into text categorization of kazakh based on support vector machine[J].CAAI Transaction on Intelligent Systems，2011，6(3)：261-267.

[23] GULNAZ，SUN TIE LI，YILIYAR.Text categorization of Kazakh text based on SVM-modified KNN[J].Journal of Northwest Normal University，2014，50(5)：48-53.

[24] 旺建華.中文文本分類技術(shù)研究[D].長(zhǎng)春：吉林大學(xué)，2007.

[25] JOACHIMS T.Text categorization with support vector machines：Learning with many relevant features[C]//In Proceedings of The 10th European Conference on Machine Learning(ECML).Berlin：Springer，1998：137-142.

[26] WANG ZIQIANG，SUN XIA，ZHANG DEXIAN，et al.An optimal svm-based text classification algorithm[C]//5th International Conference on Machine Learning and Cybernetics.Dalian：IEEE，2006：13-16.

[27] MONTANES E，F(xiàn)ERANDEZ J，DIAZ I，et al. Measures of rule quality for feature selection in text categorization[C]// 5th International Symposium on Intelligent Data Analysis.Berlin：Springer，2003：589-598.

[28] CORTES C，VAPNIK V.Support-vector networks[J].Machine Learning，1995，20(3)：273-297.

[29] WANG XUESONG，HUANG FEI，CHENG YUHU.Computational performance optimization of support vector machine based on support vectors[J].Neurocomputing，2016，211：66-71.

[30] COVER T M，HART P E.Nearest neighbor pattern classification[J].IEEE Transactionson Information Theory，1967，13(1)：21-27.

[31] HASTIE T，TIBSHIRANI R，F(xiàn)RIEDMAN J H.The elements of statistical learning：data mining，inference and prediction[J].Journal of the Royal Statistical Society，2009，173(3)：693-694.

[32] QING MIN MENG，CHRIS J，CIESZEWSKI，et al.Knearest neighbor method for forest inventory using remote sensing data[J].GIS Science and Remote Sensing，2007，44(2)：149-165.