亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Adaboost與樸素貝葉斯的農(nóng)業(yè)短文本信息分類

        2020-11-30 09:02:22陳鵬郭小燕
        軟件 2020年9期
        關(guān)鍵詞:貝葉斯分類

        陳鵬 郭小燕

        摘? 要: 樸素貝葉斯分類器過(guò)分依賴分類數(shù)據(jù)的質(zhì)量,當(dāng)待分類數(shù)據(jù)呈現(xiàn)復(fù)雜多元屬性時(shí),其分類的效果急劇下降,利用adaboost算法組合多個(gè)樸素貝葉斯分類器設(shè)計(jì)A_B模型。將3600份原始數(shù)據(jù)經(jīng)過(guò)中文分詞、句法分析、文本向量化后將A_B模型訓(xùn)練成一個(gè)A_B分類器。解決了分類器對(duì)于待分類數(shù)據(jù)敏感的問(wèn)題,兩個(gè)A_B分類器協(xié)同工作將二分類器轉(zhuǎn)換為三分類器,解決了將原始農(nóng)業(yè)文本信息分為農(nóng)業(yè)新聞?lì)悾r(nóng)業(yè)技術(shù)類,農(nóng)業(yè)經(jīng)濟(jì)類三種類型的問(wèn)題。分別利用600份標(biāo)準(zhǔn)數(shù)據(jù)與加了30%干擾信息的復(fù)雜數(shù)據(jù)測(cè)試分類器的分類效果,實(shí)驗(yàn)結(jié)果表明A_B分類器不僅對(duì)標(biāo)準(zhǔn)分類數(shù)據(jù)具有良好的分類效果,面對(duì)復(fù)雜多元的分類數(shù)據(jù)是仍然表現(xiàn)出較好的分類性能。利用不同的測(cè)試數(shù)據(jù)對(duì)A_B分類器測(cè)試發(fā)現(xiàn):A_B分類器均具有良好的收斂性,其分類效果不依賴分類數(shù)據(jù)特征,具有分類效果的穩(wěn)定性。

        關(guān)鍵詞: 貝葉斯;Adaboost;農(nóng)業(yè)短文本;分類

        中圖分類號(hào): S24;TP3? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.09.004

        本文著錄格式:陳鵬,郭小燕. 基于Adaboost與樸素貝葉斯的農(nóng)業(yè)短文本信息分類[J]. 軟件,2020,41(09):1318

        【Abstract】: Naive Bayes classifier relies too much on the quality of classification data. When the classified data presents complex multivariate attributes, whose classification effect decreases sharply. Adaboost algorithm is used to combine multiple Naive Bayesian classifiers to design A_B model. After Chinese word segmentation, parsing and text vectorization, the A_B model is trained as an A_B classifier based the 3600 sets of original data. The problem that classifier is sensitive to data to be classified is solved. Two A_B classifiers work together to convert two two-category classifiers into one three-category classifiers, and solve the problem that the original agricultural text information is divided into three types: agricultural news, agricultural technology and agricultural economy. Using 600 sets of standard data and complex data with 30% disturbed information to test the classification effect of the classifier, the experimental results show that the A_B classifier not only has a good classification effect on the standard classification data, but also has a good classification performance to complex and multivariate classification data. Using different test data to test A_B classifier, it is found that A_B classifier has good convergence, whose classification effect does not depend on the characteristics of classification data, and has the stability of classification effect.

        【Key words】: Bayes; Adaboost; Agricultural short text; Classification

        0? 引言

        隨著農(nóng)業(yè)信息化進(jìn)程的加快,農(nóng)業(yè)新聞網(wǎng)站,農(nóng)產(chǎn)品銷售網(wǎng)站,農(nóng)業(yè)技術(shù)網(wǎng)站和農(nóng)業(yè)數(shù)據(jù)庫(kù)等農(nóng)業(yè)信息平臺(tái)也隨之出現(xiàn),農(nóng)業(yè)數(shù)據(jù)隨時(shí)間呈爆發(fā)式增長(zhǎng),海量的農(nóng)業(yè)類數(shù)據(jù)需要處理。文本是網(wǎng)絡(luò)信息的主要載體、BBS、博客、新聞評(píng)論中往往包含著諸如農(nóng)業(yè)政策法規(guī),農(nóng)民的消費(fèi)需求以及農(nóng)村的發(fā)展趨勢(shì)等數(shù)據(jù)信息。為了洞察農(nóng)村、農(nóng)業(yè)的發(fā)展規(guī)律,以及農(nóng)民的消費(fèi)規(guī)律,對(duì)這些文本信息進(jìn)行合理地分析與挖掘顯得非常必須。文本自動(dòng)分類技術(shù)能夠?qū)⒑A糠墙Y(jié)構(gòu)化文本信息規(guī)范歸類,幫助人們更好地管理、利用和挖掘信息[1],為農(nóng)業(yè)信息的服務(wù)對(duì)象提供更加精準(zhǔn)的信息,把分散在網(wǎng)絡(luò)中的信息進(jìn)行整合,為用戶提供個(gè)性化信息推送服務(wù)[2]。

        近年來(lái),國(guó)內(nèi)許多研究機(jī)構(gòu)對(duì)文本分類工作開(kāi)展了研究工作,其中有代表性的有:中科院的史忠植、李曉黎把網(wǎng)絡(luò)概念推理植入到文本分析中[3]。上海交通大學(xué)王永成將神經(jīng)網(wǎng)絡(luò)模型運(yùn)用到了中文自動(dòng)分類系統(tǒng)[4],山西大學(xué)劉開(kāi)瑛開(kāi)發(fā)金融自動(dòng)分類系統(tǒng)[5],南京大學(xué)計(jì)算機(jī)系的劉靜等對(duì)文本分類進(jìn)行了研究,將分類規(guī)則和貝葉斯方法相結(jié)合放寬了貝葉斯對(duì)強(qiáng)獨(dú)立性假設(shè)條件的要求[6]。目前文本分類的主要研究方法主要有:機(jī)器學(xué)習(xí)方法[7]和深度學(xué)習(xí)[8] 方法。對(duì)于高維數(shù)據(jù)以及抽象數(shù)據(jù),已經(jīng)有許多學(xué)者開(kāi)始嘗試使用深度

        學(xué)習(xí)的方法并取得了一定的成果[9]。研究發(fā)現(xiàn),深度學(xué)習(xí)在圖像數(shù)據(jù)及語(yǔ)音數(shù)據(jù)中的優(yōu)勢(shì)表現(xiàn)明顯,但是在短文本分析與計(jì)算中還未見(jiàn)突破性成果[10]。相比之下,傳統(tǒng)的深度學(xué)習(xí)則表現(xiàn)出優(yōu)越的性能[11]。傳統(tǒng)機(jī)器學(xué)習(xí)常用模型有樸素貝葉斯模型(Naive Bayes)[12]、支持向量機(jī)模型(Support Vector Machine)[13]、邏輯回歸模型(Logistic Regression)[14]和K近鄰模型(K Nearest Neighbors)[15]等。樸素貝葉斯模型在文本特征提取,文本分類方面優(yōu)勢(shì)明顯[16],傳統(tǒng)的貝葉斯分類模型由于采用單分類器分類,使得分類的效果不理想[17]。通過(guò)Adaboost訓(xùn)練若干個(gè)弱分類器組合成強(qiáng)分類器,可大幅提升分類的準(zhǔn)確率。楊麗麗利用Adaboost創(chuàng)建SVM分類器,解決棉葉螨危害的等級(jí)識(shí)別問(wèn)題[18],胡祝華采用Adaboost進(jìn)行魚眼識(shí)別[19],顧玉萍將Ada boost應(yīng)用于不平衡數(shù)據(jù)的分類問(wèn)題中,以上研究都取得了較好的效果[20]。本文采用Adaboost算法將多個(gè)貝葉斯分類器(弱分類器)組合訓(xùn)練成一個(gè)強(qiáng)分類器(A_B分類器),解決農(nóng)業(yè)網(wǎng)絡(luò)短文本分類問(wèn)題,分別使用規(guī)范數(shù)據(jù)以及加入干擾數(shù)據(jù)的復(fù)雜多元數(shù)據(jù)對(duì)A_B分類器測(cè)試發(fā)現(xiàn),A_B分類器可以有效地進(jìn)行農(nóng)業(yè)短文本分類,對(duì)于待分類數(shù)據(jù)有一定的包容性,解決了復(fù)雜多元文本數(shù)據(jù)的分類問(wèn)題,目前在國(guó)內(nèi)尚未有這方面的研究探索成果發(fā)現(xiàn)。

        1? 材料與方法

        1.1? 原始語(yǔ)料預(yù)處理

        采用網(wǎng)絡(luò)爬蟲技術(shù)分別從農(nóng)業(yè)新聞網(wǎng),農(nóng)業(yè)技術(shù)網(wǎng),和農(nóng)業(yè)經(jīng)濟(jì)網(wǎng),抓取4000份數(shù)據(jù)組成原始語(yǔ)料。由于html頁(yè)面中抓取的原始語(yǔ)料存在干擾詞組或者符號(hào),為保證數(shù)據(jù)的有效性與準(zhǔn)確性、降低冗余,需要對(duì)原始數(shù)據(jù)進(jìn)行清洗,這主要包括:刪除無(wú)效或者冗余信息、對(duì)缺失值進(jìn)行處理(刪除/填補(bǔ))、對(duì)離群值進(jìn)行處理(刪除/均值填補(bǔ))。為了降低數(shù)據(jù)的維度、提高分類的效率需對(duì)清洗后的數(shù)據(jù)進(jìn)行中文分詞和句法分析。

        (1)中文分詞

        中文語(yǔ)法中單個(gè)的字往往沒(méi)有特定的含義,為有效獲取文本信息,需對(duì)清洗后的文本進(jìn)行分詞處理,即把連續(xù)的字序分解成詞序。中文分詞結(jié)果的好壞直接影響最后分類的結(jié)果,本文采用GitHub上開(kāi)源的jieba分詞技術(shù)進(jìn)行分詞處理[21-22],采用停用詞庫(kù)過(guò)濾技術(shù)去除無(wú)效詞匯對(duì)待分類文本的干擾,從而對(duì)分詞后所得的稀疏矩陣進(jìn)行降維,提高分類的效率。

        (2)句法分析與泛化

        在對(duì)農(nóng)業(yè)文本進(jìn)行分詞處理的基礎(chǔ)上,為了統(tǒng)計(jì)高頻詞語(yǔ),簡(jiǎn)化文本結(jié)構(gòu),降低分析的復(fù)雜度,需要對(duì)文本分詞后的結(jié)果進(jìn)行句法分析與泛化。本文利用哈工大社會(huì)計(jì)算與信息檢索研究中心的語(yǔ)言技術(shù)平臺(tái)()進(jìn)行句法分析,并基于句法路徑進(jìn)行精確匹配[23],為了更準(zhǔn)確地分析句子結(jié)構(gòu),本文歸納出常用的程度副詞及常用詞,如表2所示,利用該表能快速有效地泛化原始句法,重構(gòu)網(wǎng)絡(luò)短文本的句法結(jié)構(gòu)。

        將“蔬菜/價(jià)格/很快/回落”泛化后的結(jié)果為“蔬菜/價(jià)格/回落”,“很快”增強(qiáng)了“回落”得程度,但對(duì)分類結(jié)果沒(méi)有影響,因此可以刪除。

        通過(guò)對(duì)原始語(yǔ)料進(jìn)行清洗、中文分詞、句法分析等預(yù)處理操做,消除了原始文本中的無(wú)效數(shù)據(jù),空白數(shù)據(jù),冗余數(shù)據(jù),將短文分解成立離散的分詞序列,以提高數(shù)據(jù)的有效性以及可操作性,降低數(shù)據(jù)的維度,原始語(yǔ)料預(yù)處理示例數(shù)表3所示。

        1.2? 文本向量化

        (1)建立特征空間

        經(jīng)過(guò)數(shù)據(jù)清洗,文本分詞技術(shù),停用詞過(guò)濾,句法分析后,將連續(xù)原始語(yǔ)料轉(zhuǎn)換成離散的有效詞匯信息,這些離散的有效詞匯信息將作為文本分類的基礎(chǔ)數(shù)據(jù)其中n為每份基礎(chǔ)數(shù)據(jù)有效分詞的個(gè)數(shù),為有效詞匯,。在基礎(chǔ)數(shù)據(jù)中尋找具有代表性的特征詞匯構(gòu)成特征空間D(d1,d2…dm)作為分類的依據(jù), 其中,m為特征空間中特征詞的個(gè)數(shù),為特征空間中詞匯,。在本文中選取基礎(chǔ)數(shù)據(jù)詞頻在前20%的詞匯組成特征空間。

        (2)向量化

        對(duì)于每一份基礎(chǔ)數(shù)據(jù),映射到特征空間,形成m(m為特征詞個(gè)數(shù))維的向量空間,若基礎(chǔ)文本中的某一個(gè)詞在D中出現(xiàn)(一次或多次),在相應(yīng)的位置的值設(shè)置為1,否則設(shè)置為0,如下式所示。

        經(jīng)過(guò)向量化后,每一份基礎(chǔ)數(shù)據(jù)轉(zhuǎn)換為一個(gè)與特征空間相應(yīng)的m維0,1向量,所有的樣本基礎(chǔ)數(shù)據(jù)組成樣本數(shù)據(jù)空間,在本文中數(shù)據(jù)空間分為:農(nóng)業(yè)新聞?lì)?,農(nóng)業(yè)技術(shù)類,農(nóng)業(yè)經(jīng)濟(jì)類三種類型。

        2? 文本分類模型

        將樣本數(shù)據(jù)空間的數(shù)據(jù)分為兩部分:訓(xùn)練空間和測(cè)試空間,其中為訓(xùn)練樣本數(shù)量,為測(cè)試樣本數(shù)量。對(duì)于訓(xùn)練空間中的數(shù)據(jù)做好類別標(biāo)記,表示新聞?lì)?,農(nóng)業(yè)技術(shù)類,農(nóng)業(yè)經(jīng)濟(jì)類三種類別。樣本數(shù)據(jù)用于訓(xùn)練分類模型,測(cè)試數(shù)據(jù)用來(lái)檢測(cè)訓(xùn)練好的效果。

        2.1? 樸素貝葉斯文本分類器

        貝葉斯分類器是基于貝葉斯定理,依據(jù)統(tǒng)計(jì)學(xué)實(shí)現(xiàn)分類的方法。將貝葉斯分類器用于文本分類時(shí),其主要思想是將文章看做獨(dú)立的單詞集合,通過(guò)訓(xùn)練集,得到每個(gè)單詞在不同類的概率大小,從而實(shí)現(xiàn)分類的效果。本文利用訓(xùn)練樣本以及其所屬的類別,計(jì)算每一個(gè)類別在訓(xùn)練空間中出現(xiàn)的概率,以及每一個(gè)訓(xùn)練樣本中特征詞在每個(gè)類別中出現(xiàn)的概率?,如公式2,3所示。

        式(2),(3)中,表示類在測(cè)試樣本所有類別中所出現(xiàn)的頻次,表示特征詞在中出現(xiàn)的頻次。為避免,本文采用轉(zhuǎn)換,如式(3)所示,并取,V取所有詞的權(quán)值總和。

        訓(xùn)練完成后,利用測(cè)試樣本測(cè)試所屬的類別,計(jì)算方法為:

        式中,為測(cè)試樣本屬于類的概率,為樣本屬于類的概率最大時(shí)的取值,即所屬的類別。

        2.2? AdaBoost算法

        Adaboost是一種迭代算法[24],其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),將多個(gè)弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)[25],算法流程如下。

        2.3? ?AdaBoost-Bayes分類器

        (1)A_B分類模型

        為提升單個(gè)Bayes分類器的分類性能,本文設(shè)計(jì)A_B分類模型,利用Adaboost算法將多個(gè)Bayes分類器訓(xùn)練成強(qiáng)分類器(A_B分類器),其基本思想是對(duì)于同一個(gè)訓(xùn)練樣本空間訓(xùn)練出T個(gè)有不同權(quán)值的Bayes分離器,這些分類器協(xié)同工作以照顧每一個(gè)樣本的特征,從而達(dá)到提高分類效果的作用。A_B強(qiáng)分類器生成原理為:將標(biāo)記好類別的訓(xùn)練樣本輸入到第一個(gè)Bayes分類器T1,輸出分類結(jié)果,根據(jù)分類結(jié)果,得出此Bayes分類器的權(quán)值,從而計(jì)算每個(gè)訓(xùn)練樣本的權(quán)值(分錯(cuò)的樣本權(quán)值增大以便下一個(gè)分類器對(duì)其特別關(guān)注,分對(duì)的樣本權(quán)值會(huì)減?。?,使原始的訓(xùn)練集變成一個(gè)帶權(quán)訓(xùn)練集,利用帶權(quán)訓(xùn)練集再次訓(xùn)練出下一個(gè)新的Bayes分類器T2并計(jì)算其權(quán)重,更新訓(xùn)練集中每個(gè)樣本的權(quán)重產(chǎn)生新的訓(xùn)練集,再訓(xùn)練出新的Bayes分類器T3,一直往復(fù),直到總誤差率小于一定的值則訓(xùn)練結(jié)束,原理如果圖2所示。

        (2)多分類問(wèn)題

        在本文中,將樣本空間分為3種類別,農(nóng)業(yè)發(fā)展類(I類),農(nóng)業(yè)技術(shù)類(II類),農(nóng)業(yè)經(jīng)濟(jì)類(III類),傳統(tǒng)的Adaboost分類器是一個(gè)將樣本分為正類和負(fù)類的二分類器[18],為將二分類問(wèn)題轉(zhuǎn)化成三分類問(wèn)題,設(shè)計(jì)以下轉(zhuǎn)換方案進(jìn)行二級(jí)分類的策略,將一個(gè)二分類問(wèn)題轉(zhuǎn)換為一個(gè)三分類問(wèn)題,如圖3所示。

        2.4? 分類流程

        (1)設(shè)計(jì)分類詞典,構(gòu)建特征空間。

        (2)將分類樣本和分類詞典進(jìn)行比對(duì),形成特征向量,從而產(chǎn)生樣本空間。

        (3)將樣本空間劃分為訓(xùn)練空間和測(cè)試空間。

        (4)利用訓(xùn)練樣本訓(xùn)練A_B模型,獲得模型的參數(shù)值:Bayes分類器個(gè)數(shù)n,每個(gè)Bayes分類器的權(quán)重whi(i=1,2…,n),生成A_B分類器。

        (5)將測(cè)試樣本輸入到訓(xùn)練好的A_B分類器,獲得分類輸出。

        3? 實(shí)驗(yàn)及結(jié)果分析

        實(shí)驗(yàn)環(huán)境為intel i7處理器,12 GB機(jī)器內(nèi)存。操作系統(tǒng)采用Windows 10企業(yè)版。軟件開(kāi)發(fā)環(huán)境為python2.7,PyCharm,采用sklearn的模型庫(kù)進(jìn)行算法的實(shí)現(xiàn)[17],采用scrapy爬蟲框架爬取4000份數(shù)據(jù)組成原始語(yǔ)料,如表4所示。

        其中,是分類為并且正確的文檔數(shù),是屬于的文檔數(shù),為分類為的文檔數(shù)。

        本文首先利用樸素bayes,SVM,決策樹(shù)對(duì)4000份經(jīng)過(guò)預(yù)處理的標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行30次分類實(shí)驗(yàn),分類結(jié)果如表5所示。

        從表5可以看出,使用樸素Bayes進(jìn)行分類時(shí)準(zhǔn)確率,召回率,F(xiàn)1檢測(cè)值分別為92.01%,91.12%,91.62%,相比于SVM和決策樹(shù)分類,樸素Bayes有一定的優(yōu)勢(shì)。為了測(cè)試以上算法對(duì)于多樣性數(shù)據(jù)的魯棒性,在測(cè)試數(shù)據(jù)中加入30%的干擾數(shù)據(jù),使得數(shù)據(jù)中出現(xiàn)較多的離群值,從而增加測(cè)試數(shù)據(jù)的復(fù)雜性與多樣性。實(shí)驗(yàn)結(jié)果表明,用Bayes,SVM,決策樹(shù)進(jìn)行復(fù)雜文本數(shù)據(jù)的分類時(shí),其準(zhǔn)確率、召回率、F1值都有大幅下降,證明基本Bayes,SVM,決策樹(shù)在分類中對(duì)于待分類數(shù)據(jù)質(zhì)量有很大程度的依賴,如果有離群數(shù)據(jù)或者不規(guī)范數(shù)據(jù)出現(xiàn)時(shí)分類的效果并不理想。

        利用A_B分類器,以及A_S分類器(弱分類器采用SVM的Adaboost分類器),A_J分類器(弱分類器采用決策樹(shù)的Adaboost分類器)分別采用規(guī)范數(shù)據(jù)與加30%干擾數(shù)據(jù)進(jìn)行30次分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。從實(shí)驗(yàn)結(jié)果來(lái)看,采用標(biāo)準(zhǔn)規(guī)范測(cè)試數(shù)據(jù)測(cè)試發(fā)現(xiàn)分類的準(zhǔn)確率、召回率、F1值都有所提升,其中表現(xiàn)最為明顯的是A_J分類器,其準(zhǔn)確率和基本決策樹(shù)分類器相比提升了39.18%,召回率提升了33.12%,F(xiàn)1值提升了31.44%,說(shuō)明利用Adaboost將弱分類器優(yōu)化成強(qiáng)分類器對(duì)于文本分類有效可行。為測(cè)試分類器的魯棒性,仍然加入30%的干擾數(shù)據(jù)測(cè)試發(fā)現(xiàn),分類準(zhǔn)確率、召回率,F(xiàn)1仍然有所下降,但下降的幅度和基本分類器相比已經(jīng)有所降低,說(shuō)明優(yōu)化后的分類器對(duì)于測(cè)試數(shù)據(jù)質(zhì)量已經(jīng)有了某種程度的免疫性。對(duì)于復(fù)雜多樣文本數(shù)據(jù)的分類結(jié)果發(fā)現(xiàn),A_B分類器分類的準(zhǔn)確率為89.12%,和普通bayes相比提升了9.01%,A_S分類器分類準(zhǔn)確率為87.17%,和普通SVM相比提升了3.83%,A_J分類器準(zhǔn)確率82.13%,和普通決策樹(shù)分類相比提升了33.57%,從提升的幅度來(lái)看,A_J分類器表現(xiàn)明顯,從分類的效果和準(zhǔn)確率來(lái)看,A_B分類器占一定的優(yōu)勢(shì),如圖7所示。

        通過(guò)加入干擾測(cè)試數(shù)據(jù)的實(shí)驗(yàn)結(jié)果來(lái)看,普通的分類器過(guò)分依賴數(shù)據(jù)的質(zhì)量,如果數(shù)據(jù)中出現(xiàn)離群值等多元數(shù)據(jù),則對(duì)分類效果有較大的影響。當(dāng)利用Adaboost將多個(gè)普通分類器優(yōu)化成強(qiáng)分類器后,分類準(zhǔn)確率有一定的提升,從加入干擾數(shù)據(jù)對(duì)于分類效果的影響來(lái)看,利用Adaboost優(yōu)化普通分類器,可以增加分類器的魯棒性。從圖7所示的實(shí)驗(yàn)結(jié)果來(lái)看,A_B分類器對(duì)分文本數(shù)據(jù)質(zhì)量有較強(qiáng)的獨(dú)立性,不會(huì)過(guò)分依賴待分類文本數(shù)據(jù)的質(zhì)量以及特征,因此具有較好的普遍適用性。

        為了測(cè)試A_B分類器對(duì)于不同質(zhì)量數(shù)據(jù)分類的穩(wěn)定性,跟蹤利用不同待分類數(shù)據(jù)訓(xùn)練不同強(qiáng)分類器的過(guò)程發(fā)現(xiàn),隨著bayes基本分類器數(shù)目的增加,A_B分類器的分類準(zhǔn)確率,召回率,F(xiàn)1值均在逐漸增加,通過(guò)30次試驗(yàn)取平均值發(fā)現(xiàn),當(dāng)bayes基本的數(shù)目達(dá)到15個(gè)左右時(shí),分類準(zhǔn)確率,召回率,F(xiàn)1值開(kāi)始收斂,到達(dá)18個(gè)左右時(shí)分類準(zhǔn)確率,召回率,F(xiàn)1值開(kāi)始趨于一個(gè)穩(wěn)定值,如圖8a所示。跟蹤A_S分類器的訓(xùn)練過(guò)程發(fā)現(xiàn),基本分類器的個(gè)數(shù)對(duì)整個(gè)分類器的分類效果并沒(méi)有很大的影響,隨著基本SVM分類器個(gè)數(shù)的增加,A_S分類器并沒(méi)有出現(xiàn)明顯收斂的趨勢(shì)如圖8b所示。跟蹤A_J分類器則發(fā)現(xiàn),基本決策樹(shù)分類器的個(gè)數(shù)增加到3個(gè)的時(shí)候,A_J分離器出現(xiàn)收斂程度趨勢(shì),因此其訓(xùn)練速度和A_B分類器相比占有一定的優(yōu)勢(shì),但是觀察其收斂值發(fā)現(xiàn),A_B分類器分類準(zhǔn)率、召回率、F1值發(fā)現(xiàn),A_B分類效果優(yōu)勢(shì)明顯。

        從圖8中可以看出,A_B分類器在經(jīng)過(guò)訓(xùn)練后可以穩(wěn)定地收斂,將其應(yīng)用于農(nóng)業(yè)文本類以及其他短文本分類時(shí)針對(duì)不同質(zhì)量的數(shù)據(jù)均可以獲得穩(wěn)定的分類結(jié)果,同時(shí)A_B分類器對(duì)于待分?jǐn)?shù)據(jù)有一定的包容性,多元復(fù)雜數(shù)據(jù)仍然可以獲得較好分類效果。

        4? 結(jié)論

        (1)設(shè)計(jì)了一種基于Adaboost算法的多個(gè)樸素貝葉斯分類模型A_B模型,提取樣本數(shù)據(jù)出現(xiàn)頻次前20%的詞匯創(chuàng)建特征空間,3600份原始語(yǔ)料通過(guò)預(yù)處理,中文結(jié)巴分詞,句法分析向量化為訓(xùn)練空間,將A_B模型訓(xùn)練為A_B分類器,將兩個(gè)A_B分類器組合來(lái)解決三分類問(wèn)題,實(shí)現(xiàn)將待分類文本分為農(nóng)業(yè)新聞?lì)?,農(nóng)業(yè)技術(shù)類,農(nóng)業(yè)經(jīng)濟(jì)類三種類型分類的準(zhǔn)確率,召回率F1值分別為:94.33%,91.27%,91.92%。

        (2)將標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)加入30%的干擾數(shù)據(jù)發(fā)現(xiàn),和樸素貝葉斯分類器相比,A_B分類器對(duì)于數(shù)據(jù)質(zhì)量有較大的包容性,對(duì)于復(fù)雜的多元數(shù)據(jù)而言仍然表現(xiàn)出較好的分類性能。將A_B分類器與A_S分類器,A_J分類器相比表現(xiàn)出較好的分類性能。

        (3)通過(guò)30次試驗(yàn)測(cè)試發(fā)現(xiàn),當(dāng)在訓(xùn)練過(guò)程中當(dāng)樸素貝葉斯分離器的數(shù)目增加到18個(gè)左右時(shí),分類效果趨于穩(wěn)定,證明A_B分類器具有良好的收斂性能,利用不同質(zhì)量的測(cè)試數(shù)據(jù)測(cè)試分類器效果,均得到穩(wěn)定的分類效果。但和A_J分類器相比,其收斂的速度較慢,今后可以從樸素貝葉斯權(quán)重更新算法等方面尋找突破。

        參考文獻(xiàn)

        [1]趙明, 杜會(huì)芳, 董翠翠. 基于word2vec和LSTM的飲食健康文本分類研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017(10): 207-213.

        [2]徐朝輝, 施叢叢, 呂超賢, 等. 基于結(jié)構(gòu)化支持向量機(jī)的泄洪聯(lián)動(dòng)設(shè)計(jì)[J]. 軟件, 2015, 36(9): 62-65.

        [3]李志欣, 鄭永哲, 張燦龍, 等. 結(jié)合深度特征與多標(biāo)記分類的圖像語(yǔ)義標(biāo)注[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2018, 30(02): 318-326.

        [4]刁倩, 王永成, 張惠惠. 基于神經(jīng)網(wǎng)絡(luò)的中文信息概念聯(lián)想構(gòu)造算法[J]. 情報(bào)學(xué)報(bào), 2000(02): 170-175.

        [5]谷波, 李濟(jì)洪, 劉開(kāi)瑛. 基于COSA算法的中文文本聚類[J]. 中文信息學(xué)報(bào), 2007(06): 65-70.

        [6]劉靜, 尹存燕, 陳家駿. 一種規(guī)則和貝葉斯方法相結(jié)合的文本自動(dòng)分類策略[J]. 計(jì)算機(jī)應(yīng)用研究, 2005(07): 84- 86+89.

        [7]Lewis D D. Challenges in machine learning for text classification[C]//Conference on Computational Learning Theory. 1996.

        [8]Liu J, Chang W C, Wu Y, et al. Deep Learning for Extreme Multi-label Text Classification[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. ACM, 2017.

        [9]Shen F, Luo X, Chen Y. Text classification dimension reduction algorithm for Chinese web page based on deep learning[C]// International Conference on Cyberspace Technology. IET, 2014.

        [10]He Y, Xie J, Xu C. An improved naive Bayesian algorithm for web page text classification[C]//Eighth International Conference on Fuzzy System & Knowledge Discovery. 2011.

        [11]Tong S, Koller D. Support Vector Machine Active Learning with Applications to Text Classification[J]. Journal of Machine Learning Research, 2002, 2(1): 999-1006.

        [12]張潔琳. 試論貝葉斯網(wǎng)絡(luò)在用戶信用評(píng)估中的應(yīng)用[J]. 軟件, 2018, 39(12): 194-197.

        [13]Manne S, Kotha S K, Hyderabad O. A Query based Text Categorization using K-Nearest Neighbor Approach[J]. International Journal of Computer Applications, 2013, 32(7): 16-21.

        [14]李曉燃. 基于深度學(xué)習(xí)的傾斜車牌矯正識(shí)別[J]. 軟件, 2018, 39(10): 215-219.

        [15]王子牛, 吳建華, 高建瓴, 等. 基于深度神經(jīng)網(wǎng)絡(luò)和 LSTM 的文本情感分析[J]. 軟件, 2018, 39(12): 19-22.

        [16]Yang G, Lin Z Y, Chang Y X, et al. Comparative analysis on feature selection based Bayesian text classification[C]// International Conference on Computer Science & Network Technology. IEEE, 2013.

        [17]吳文俊, 殷恒輝, 陳麟. 基于 AdaBoost 算法的人臉檢測(cè)系統(tǒng)設(shè)計(jì)[J]. 軟件, 2018, 39(10): 145-149.

        [18]楊麗麗, 張大衛(wèi), 羅君. 基于SVM和AdaBoost的棉葉螨危害等級(jí)識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2019. 50(2): 14-20.

        [19]胡祝華, 張逸然, 趙瑤池, 等. 權(quán)重約束AdaBoost魚眼識(shí)別及改進(jìn)Hough圓變換瞳孔智能測(cè)量[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33(23): 226-232.

        [20]顧玉萍, 程龍生. 基于MTS-AdaBoost的不平衡數(shù)據(jù)分類研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(02): 346-348+353.

        [21]張永軍. 一種改進(jìn)的高效貝葉斯短信文本分類器[J], 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版), 2014, 14(3):

        [22]林江豪. 一種基于樸素貝葉斯的微博情感分類[J], 計(jì)算機(jī)工程與科學(xué), 2012, 34(9):

        [23]張潔琳. 試論貝葉斯網(wǎng)絡(luò)在用戶信用評(píng)估中的應(yīng)用[J]. 軟件, 2018, 39(12): 194-197.

        [24]徐凱, 陳平華, 劉雙印. 基于AdaBoost-Bayes算法的中文文本分類系統(tǒng)[J]. 微電子學(xué)與計(jì)算機(jī), 2016, 33(6): 63-67.

        [25]Iwakura T, Saitou T, Okamoto S. An AdaBoost for Efficient Use of Confidences of Weak Hypotheses on Text Categorization[C]// Pacific Rim International Conference on Artificial Intelligence. Springer International Publishing, 2014.

        猜你喜歡
        貝葉斯分類
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        給塑料分分類吧
        国产成人精品久久二区二区91| 50岁熟妇的呻吟声对白| 成人亚洲性情网站www在线观看| 91情侣视频| av毛片一区二区少妇颜射| 国产人妻久久精品二区三区老狼| 亚洲国产精品亚洲一区二区三区| 欧美狠狠入鲁的视频777色| 成人看片黄a免费看那个网址| 99热国产在线| 日美韩精品一区二区三区| 日韩女同在线免费观看| 国产精品女同久久久久电影院| 337p西西人体大胆瓣开下部| 欧美va亚洲va在线观看| 亚洲精品白浆高清久久| 日韩中文字幕熟女人妻| 少妇真人直播免费视频| 又大又粗又爽的少妇免费视频| 荡女精品导航| 亚洲妇女av一区二区| 丝袜美腿国产一区二区| 久久99国产精品久久| 无码成人aaaaa毛片| 丝袜美腿网站一区二区| 日本高清在线一区二区| 亚洲最好看的中文字幕| 粗大的内捧猛烈进出视频| 亚洲 欧美 国产 日韩 精品| 东京热加勒比日韩精品| 男女啪啪在线视频网站| 欧美亚洲一区二区三区| 怡红院a∨人人爰人人爽| 色综合久久久久综合999| 日本高清免费播放一区二区| 亚洲一区二区三区综合免费在线| 高清偷自拍亚洲精品三区| 性饥渴艳妇性色生活片在线播放| 蜜臀av中文人妻系列| 亚洲第一女人的天堂av| 免费人成年激情视频在线观看|