亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        樸素Bayes分類器文本特征向量的參數(shù)優(yōu)化

        2019-11-28 11:41:20方秋蓮王培錦鄭涵穎呂春玥王艷彤
        關(guān)鍵詞:樸素特征向量分類器

        方秋蓮,王培錦,隋 陽(yáng),鄭涵穎,呂春玥,王艷彤

        (中南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)沙 410083)

        隨著互聯(lián)網(wǎng)的迅猛發(fā)展,產(chǎn)生了大量的文本數(shù)據(jù),處理文本數(shù)據(jù)的基礎(chǔ)是文本分類.在文本數(shù)據(jù)中多數(shù)為新聞數(shù)據(jù),目前新聞文本數(shù)據(jù)的分類仍采用由編輯者進(jìn)行人工分類的方法,這種方法不僅耗費(fèi)了大量人力、物力,而且可能存在分類結(jié)果不一致的情況[1],因此急需建立一個(gè)自動(dòng)文本分類器解決上述問(wèn)題.

        一個(gè)文本分類器的實(shí)現(xiàn)主要包括下列3個(gè)步驟:1) 特征提取;2) 建立分類器;3) 結(jié)果輸出.在特征提取方面,常用的方法有文檔頻率(document frequency,DF)法、信息增益(information gain,IG)法、互信息(mutual information,MI)法以及TFIDF(term frequency-inverse document frequency)算法等[2].DF法、IG法和MI法都假設(shè)信息量較少的詞對(duì)文本的分類過(guò)程沒(méi)有影響,但這種假設(shè)在分類問(wèn)題中通常并不成立,所以在實(shí)際應(yīng)用中其很少被單獨(dú)使用.而TFIDF算法的優(yōu)勢(shì)是其能同時(shí)考慮到低頻詞和高頻詞對(duì)分類過(guò)程的影響,因此其特征向量提取的效果相對(duì)較好.在建立分類器方面,目前較流行的分類算法有最小距離分類器、K-最近鄰分類器和樸素Bayes分類器等.最小距離分類器適用于類間間距大、類內(nèi)間距小的樣本[3];K-最近鄰分類器中K的選擇存在較大的主觀性;而樸素Bayes分類器適用于一般分類樣本且不受主觀因素影響,所以被廣泛應(yīng)用.在結(jié)果輸出方面,通常用準(zhǔn)確率或查全率評(píng)價(jià)分類器的優(yōu)劣,而為了更全面地研究分類器的輸出結(jié)果,龐劍鋒等[4]將兩者結(jié)合提出了檢測(cè)結(jié)果更精準(zhǔn)的F1測(cè)試值指標(biāo).

        本文考慮樸素Bayes文本分類器對(duì)中文新聞文本的分類問(wèn)題,使用N-gram算法和TFIDF算法提取文本的特征向量,通過(guò)Python軟件實(shí)現(xiàn)對(duì)中文新聞文本的自動(dòng)分類.在參數(shù)選擇方面,本文討論了N-gram算法的參數(shù)N、特征向量長(zhǎng)度及特征項(xiàng)詞性等對(duì)文本分類效果的影響,并得到了參數(shù)的最佳取值.

        1 特征向量提取

        在處理中文文本時(shí),為了增加文本對(duì)計(jì)算機(jī)的可讀性,通常選擇對(duì)文本進(jìn)行向量化處理,如將文本d用向量V表示,記為V=(v1,v2,…,vn),其中vi是第i個(gè)特征項(xiàng).在提取特征項(xiàng)時(shí),需選擇一個(gè)合適的特征項(xiàng),使其既能體現(xiàn)所屬類別的特點(diǎn),又能區(qū)別于其他類別.由于中文文本沒(méi)有像英文文本一樣的自然分詞,所以在提取特征向量前需先對(duì)文本進(jìn)行分詞處理,再用N-gram算法提取文本特征向量.在選擇特征項(xiàng)時(shí),還可以考察低頻詞和高頻詞對(duì)文本分類結(jié)果產(chǎn)生的不同影響,即使用TFIDF算法提取特征向量.

        1.1 N-gram算法

        當(dāng)分析文中一個(gè)詞出現(xiàn)的概率時(shí),通常假設(shè)該詞出現(xiàn)的概率僅與其前若干個(gè)詞相關(guān),所以可以用條件概率表示該詞的出現(xiàn)概率,于是一個(gè)文本出現(xiàn)的概率可用每個(gè)詞出現(xiàn)概率的乘積表示:

        P(S)=P(w1,w2,…,wn)=P(w1)P(w2|w1)…P(wn|wn-1,…,w1),

        其中:S表示一個(gè)文本;wi(i=1,2,…,n)表示文本中的第i個(gè)詞.

        基于Markov假設(shè)[5]的N-gram算法認(rèn)為在文本中第n個(gè)詞出現(xiàn)的概率僅與其前(N-1)個(gè)詞相關(guān),其中N

        (1)

        同理可得3-gram和4-gram模型.3-gram模型表示為

        P(S)≈P(w1)P(w2)P(w3|w1,w2)…P(wn|wn-1,wn-2);

        4-gram模型表示為

        P(S)≈P(w1)P(w2)P(w3)P(w4|w1,w2,w3)…P(wn|wn-1,wn-2,wn-3).

        在使用N-gram算法對(duì)文本進(jìn)行特征提取時(shí),需主觀賦值N.

        1.2 TFIDF基本原理

        TFIDF算法的基本思想是對(duì)于一個(gè)在數(shù)據(jù)集中較少見(jiàn)的詞,若其在某文本中頻繁出現(xiàn),則其很可能反映該文本的重要特征[6].

        1.2.1 特征項(xiàng)頻率 特征項(xiàng)頻率(term frequency,TF)用于表示某詞i在文本j中的頻率,記為

        (2)

        1.2.2 反文本頻率 反文本頻率(inverse document frequency,IDF)表示如果一個(gè)詞普遍存在于各類文本中,則該詞對(duì)于分類過(guò)程不重要[7],詞i的反文本頻率可記為

        (3)

        其中:N表示測(cè)試集中總文本數(shù);ni表示包含詞i在測(cè)試集中的文本個(gè)數(shù).為使式(3)有意義,引入一個(gè)極小的常數(shù)c[8].于是,TFIDF算法的經(jīng)典計(jì)算公式為

        TFIDFij=TFij×IDFi,

        (4)

        其中,TFIDFij值越大表示詞i對(duì)文本j越重要.

        2 Bayes算法

        樸素Bayes分類器在文本分類領(lǐng)域應(yīng)用廣泛,其主要利用文本類別的先驗(yàn)概率和特征向量對(duì)類別的條件概率計(jì)算未知文本屬于某一類別的概率.Bayes分類器基于文本特征項(xiàng)間相互獨(dú)立的假設(shè)[9].

        2.1 Bayes基本理論

        給定一個(gè)文本d,特征向量為V=(v1,v2,…,vn),于是d被分類到類別ck的概率為

        (5)

        其中:P(ck)表示類別ck的概率,為避免P(ck)=0,采用Laplace估計(jì)定義概率[8]為

        (6)

        |C|表示訓(xùn)練集中類的數(shù)目,Nck表示類別ck中的文本數(shù)目,Nc表示訓(xùn)練集中總文本數(shù)目;P(d)表示未知文本d屬于某一類別的概率是一個(gè)不變的常數(shù),

        (7)

        P(vi|ck)表示類別ck中文本含有vi的概率,

        (8)

        2.2 樸素Bayes算法

        樸素Bayes算法是基于Bayes基本原理對(duì)已有文本的訓(xùn)練算法,其基本思想是計(jì)算未知文本d屬于各類的概率,然后將其歸類于c1,c2,…,cn這n個(gè)類別中的一個(gè),步驟如下:

        1) 利用特征向量提取算法處理待分類文本d,得到特征向量V=(v1,v2,…,vn),由式(8)計(jì)算類別ck中的文本含有vi的概率P(vi|ck),其中:i=1,2,…,|V|;k=1,2,…,Nck;

        2) 根據(jù)式(7)和式(8),計(jì)算先驗(yàn)概率P(ck)和P(d);

        3) 根據(jù)式(5)計(jì)算分類的后驗(yàn)概率,即未知文本屬于各類的概率P(ck|d),并比較其大小,選擇將其劃分到概率最大的一個(gè)類別,公式為

        (9)

        2.3 樸素Bayes分類器設(shè)計(jì)

        圖1 文本分類器流程Fig.1 Flow chart of text classifier

        在建立文本分類器時(shí),通常把工作分為兩部分:第一部分是訓(xùn)練過(guò)程,包括訓(xùn)練文本的預(yù)處理和特征抽取;第二部分是新文本的分類過(guò)程,包括新文本預(yù)處理和結(jié)果輸出.文本分類器流程如圖1所示.

        在訓(xùn)練文本預(yù)處理階段,先用Python的 jieba分詞組件對(duì)訓(xùn)練集文本進(jìn)行分詞處理,同時(shí)去除停用詞和可能存在的空格或標(biāo)點(diǎn)符號(hào);然后將文本打亂,隨機(jī)分成訓(xùn)練集和測(cè)試集.在訓(xùn)練集特征抽取時(shí),本文選擇N-gram算法,提取出現(xiàn)詞頻前(N-1)個(gè)詞作為特征項(xiàng)組成各類文本的特征向量.

        在分類過(guò)程中,首先對(duì)新文本進(jìn)行預(yù)處理,使用TFIDF算法將文本轉(zhuǎn)化成向量的形式,然后利用樸素Bayes文本分類器對(duì)新文本進(jìn)行分類.

        3 實(shí) 驗(yàn)

        在樸素Bayes文本分類器中,除數(shù)據(jù)集的容量會(huì)影響分類的準(zhǔn)確性外,還有一些相關(guān)參數(shù)的設(shè)定也會(huì)對(duì)分類效果產(chǎn)生較大影響.本文通過(guò)實(shí)驗(yàn)分析以下3個(gè)參數(shù)的取值問(wèn)題:

        1)N-gram算法中參數(shù)N;

        2) 各類別特征向量長(zhǎng)度n;

        3) 特征項(xiàng)的詞性.

        3.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        本文選取近年各大新聞網(wǎng)站的新聞文本,該數(shù)據(jù)集包括汽車、娛樂(lè)、軍事、體育、科技等5個(gè)新聞?lì)悇e,每個(gè)類別選取20 000個(gè)新聞文本,隨機(jī)選取66 446個(gè)樣本作為訓(xùn)練集,用于分析gram的長(zhǎng)度及特征向量長(zhǎng)度對(duì)分類結(jié)果的影響.本文重新搜集了80個(gè)測(cè)試樣本(新測(cè)試樣本與上述數(shù)據(jù)集交集為空),用于分析文本特征項(xiàng)詞性對(duì)分類結(jié)果的影響.

        在分析樸素Bayes文本分類器的結(jié)果輸出階段,為同時(shí)考慮準(zhǔn)確率和查全率,本文采用F1指標(biāo)度量分類結(jié)果[3]:

        (10)

        3.2 實(shí)驗(yàn)結(jié)果與分析

        3.2.1 gram長(zhǎng)度及特征向量長(zhǎng)度 將數(shù)據(jù)集分成由66 446個(gè)文本組成的訓(xùn)練集和33 554個(gè)文本組成的測(cè)試集.通過(guò)設(shè)置不同的gram長(zhǎng)度和特征向量長(zhǎng)度,研究相關(guān)參數(shù)的最優(yōu)設(shè)置,所得結(jié)果列于表1.

        表1 不同gram長(zhǎng)度及特征向量長(zhǎng)度下的分類準(zhǔn)確性

        圖2 不同gram長(zhǎng)度和特征向量長(zhǎng)度下的分類準(zhǔn)確率Fig.2 Classification accuracy under different gram lengths and feature vector lengths

        由表1可見(jiàn),對(duì)于任意的N-gram模型,如果特征向量的長(zhǎng)度小于10 000,則分類器的準(zhǔn)確率都小于0.85.為保證分類器的準(zhǔn)確率,本文僅研究特征向量長(zhǎng)度大于10 000的情形.當(dāng)gram長(zhǎng)度固定時(shí),特征向量越長(zhǎng)分類準(zhǔn)確率越高,但在實(shí)際應(yīng)用中還需考慮時(shí)間成本,因此特征向量不宜過(guò)長(zhǎng).

        圖2為不同gram長(zhǎng)度和特征向量長(zhǎng)度下的分類準(zhǔn)確率.由圖2可見(jiàn),當(dāng)特征向量的長(zhǎng)度從10 000增加到15 000或從20 000增加到25 000時(shí),分類準(zhǔn)確率的增加最明顯,分別提高了0.009 3和0.007 9.

        3.2.2 特征向量詞性 在使用TFIDF算法時(shí),適當(dāng)?shù)剡x擇特征項(xiàng)詞性可在很大程度上降低文本分類的時(shí)間成本,并提高分類準(zhǔn)確率.本文考察了特征項(xiàng)既有名詞和又有動(dòng)詞、僅為名詞、僅為動(dòng)詞這3種情況對(duì)分類的影響,結(jié)果列于表2.由表2可見(jiàn):當(dāng)未知文本特征項(xiàng)詞性為動(dòng)詞和名詞時(shí),樸素Bayes文本分類器的文本正確分類數(shù)量最多,為53個(gè);僅為名詞時(shí)次之,為49個(gè);僅為動(dòng)詞時(shí)最差,為34個(gè).這主要是因?yàn)樾侣勵(lì)愇谋镜奶卣黜?xiàng)大多數(shù)為名詞,去掉動(dòng)詞特征項(xiàng)對(duì)特征向量影響較小,所以當(dāng)特征項(xiàng)僅為名詞時(shí),正確分類數(shù)量下降不明顯;但若去掉名詞特征項(xiàng)將對(duì)特征向量產(chǎn)生巨大影響,進(jìn)而使分類錯(cuò)誤概率極大增加.

        表2 樸素Bayes文本分類器的分類結(jié)果

        表3列出了樸素Bayes文本分類器的分類準(zhǔn)確率、查全率及F1指標(biāo)值.由表3可見(jiàn),當(dāng)未知文本特征項(xiàng)詞性為動(dòng)詞和名詞時(shí),F1指標(biāo)值最大為0.662 5,說(shuō)明分類效果最好;僅為名詞時(shí),分類效果與為動(dòng)詞和名詞的情況相差較小,達(dá)0.612 5;僅為動(dòng)詞時(shí)分類效果最差,僅為0.425.所以,在對(duì)F1指標(biāo)的大小要求不嚴(yán)格但對(duì)訓(xùn)練時(shí)間限制嚴(yán)格的情況下,可以僅選擇名詞作為特征項(xiàng).

        表3 樸素Bayes分類器分類結(jié)果的相關(guān)指標(biāo)

        綜上所述,本文建立了用于處理中文新聞文本分類問(wèn)題的樸素Bayes文本分類器,在訓(xùn)練階段采用N-gram算法提取各類文本的特征向量,在實(shí)驗(yàn)階段使用TFIDF算法提取未知文本的特征向量.由于N-gram算法處理訓(xùn)練集的速度比TFIDF算法快,所以本文針對(duì)不同數(shù)量級(jí)的數(shù)據(jù)集采取不同的特征提取算法,即對(duì)訓(xùn)練集使用N-gram算法,對(duì)未知文本使用TFIDF算法.在此基礎(chǔ)上,本文還考察了構(gòu)建文本分類器中抽取特征向量階段的參數(shù)選擇問(wèn)題,即N-gram模型中的N、特征向量長(zhǎng)度n和特征向量詞性等3個(gè)參數(shù),得出結(jié)論如下:

        1) 對(duì)于新聞?lì)愇谋?2-gram模型和4-gram模型的分類準(zhǔn)確性較高;

        2) 在N確定的條件下,特征向量長(zhǎng)度與分類準(zhǔn)確率成正比;特別地,當(dāng)向量的長(zhǎng)度從10 000增加到15 000和從20 000增加到25 000時(shí),分類器準(zhǔn)確率增幅最大;

        3) 對(duì)于TFIDF算法,特征項(xiàng)詞性為動(dòng)詞和名詞時(shí)分類準(zhǔn)確率最高,特征項(xiàng)僅為名詞時(shí)準(zhǔn)確率降低,僅為動(dòng)詞時(shí)準(zhǔn)確率最低,所以在選擇詞性時(shí)應(yīng)避免僅選擇動(dòng)詞.

        猜你喜歡
        樸素特征向量分類器
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        隔離樸素
        樸素的安慰(組詩(shī))
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書
        一類特殊矩陣特征向量的求法
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        精品熟女视频一区二区三区国产| 久久精品亚洲牛牛影视| 日本一区二区三区中文字幕最新| 亚洲在中文字幕乱码熟女| 国产精品一区二区三区在线免费 | 国产放荡对白视频在线观看| 无码人妻精品一区二区三区免费| 青春草在线视频精品| 精品一区二区三区国产av| 国产精品二区一区二区aⅴ污介绍| 黑人玩弄人妻中文在线| 妺妺窝人体色www聚色窝| 日本一区二区三区激视频| 人妻丰满熟妇av无码区app| 无遮挡边摸边吃奶边做视频免费| 亚洲国产一区二区三区在线视频| 中文字幕亚洲永久精品| 暖暖 免费 高清 日本 在线| 亚洲欧美日韩综合久久| 人妻无码ΑV中文字幕久久琪琪布 尤物AV无码色AV无码麻豆 | 亚洲另类无码专区首页| 欧美最猛黑人xxxx黑人表情| 亚洲中文字幕av天堂| sm免费人成虐漫画网站| 麻豆蜜桃av蜜臀av色欲av| 午夜亚洲www湿好大| 久久精品国产亚洲av热一区| 就爱射视频在线视频在线| 蜜桃久久精品成人无码av| 国产白丝网站精品污在线入口| 久久伊人久久伊人久久| 美女扒开大腿让男人桶| 男女肉粗暴进来120秒动态图| 色窝综合网| 在线免费看91免费版.| 日本久久高清一区二区三区毛片| 未满十八勿入av网免费| 少妇我被躁爽到高潮在线影片| 久久精品国产亚洲av麻豆色欲| 天天躁人人躁人人躁狂躁| 亚洲日本在线中文字幕|