亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于上下文語義的樸素貝葉斯文本分類算法

        2018-06-28 03:30:04鄭開雨
        關(guān)鍵詞:貝葉斯詞典語義

        鄭開雨,竹 翠

        (北京工業(yè)大學(xué)信息學(xué)部,北京 100124)

        0 引 言

        隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,用戶規(guī)模呈現(xiàn)爆發(fā)式增長,互聯(lián)網(wǎng)已經(jīng)步入大數(shù)據(jù)時(shí)代,隨之而來的挑戰(zhàn)也尤為突出,其中文本類數(shù)據(jù)增長異常迅猛,挖掘文本類信息的知識,實(shí)現(xiàn)文本的分類也一直是近年來數(shù)據(jù)挖掘領(lǐng)域內(nèi)研究的熱點(diǎn)。

        現(xiàn)在常用的文本分類技術(shù)有很多,比如K近鄰(KNN)、樸素貝葉斯(Naive Bayes,NB)、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(Neural Network)等,其中樸素貝葉斯基于古典數(shù)學(xué)貝葉斯理論,假設(shè)樣本各屬性相互條件獨(dú)立,判定文本屬于哪個(gè)類別,是根據(jù)文本屬于哪個(gè)類別的條件概率越大,就判定為哪類,其中類別的條件概率是依據(jù)貝葉斯公式計(jì)算樣本的關(guān)鍵詞屬于各類別的條件概率乘積[1]。根據(jù)文本分類的特點(diǎn),一般文本中出現(xiàn)的關(guān)鍵詞大多屬于哪類,文本判定為哪類的可能性就比較大。所以,傳統(tǒng)的樸素貝葉斯算法忽略詞條相互依賴關(guān)系也能達(dá)到比較好的效果,在計(jì)算上也避免了維數(shù)災(zāi)難和過度擬合。然而傳統(tǒng)的樸素貝葉斯分類首先在計(jì)算詞的條件概率時(shí)忽略了同義詞的影響,將有可能出現(xiàn)在關(guān)鍵詞詞典里的同義詞也視為相互獨(dú)立的詞分別計(jì)算,這會造成在計(jì)算時(shí)大大降低這類詞對分類的影響,并且也不符合常理上的認(rèn)知。比如在教育類別下提取的關(guān)鍵詞,分別出現(xiàn)了2個(gè)詞“教師”和“老師”這2種不同的表達(dá)方式,傳統(tǒng)的樸素貝葉斯在計(jì)算時(shí)往往分別計(jì)算2個(gè)詞在各類別下的條件概率,而忽略了這2個(gè)詞實(shí)質(zhì)上是同一概念。其次提取文本關(guān)鍵詞構(gòu)建關(guān)鍵詞詞典可能由于訓(xùn)練集的參差不齊導(dǎo)致比較稀疏,密度不均,為了降低語料差異對訓(xùn)練的影響,本文使用神經(jīng)概率語言模型word2vec動態(tài)地?cái)U(kuò)展詞典。

        為了解決以上問題,文獻(xiàn)[2]采用結(jié)合同義詞詞林的方式或者引用外來的知識庫擴(kuò)展來降低假設(shè)前提對同義詞的影響。但這種方式適應(yīng)性比較差,隨著語言表達(dá)的多樣化,引用靜態(tài)的知識庫更新緩慢,不能取得很好的效果。在特征詞典處理方面,文獻(xiàn)[3]使用搜索引擎對詞典進(jìn)行擴(kuò)充,通過引擎搜索關(guān)鍵詞得到相關(guān)的近義詞,但搜索結(jié)果往往不盡人意。文獻(xiàn)[4]采用WordNet結(jié)合詞向量對詞典擴(kuò)展,然后進(jìn)行分類,并取得了比較好的效果,其中WordNet是由一個(gè)覆蓋范圍寬廣的詞匯語義網(wǎng)構(gòu)成,各個(gè)詞性被分別組織成一個(gè)同義詞網(wǎng)絡(luò),每個(gè)同義詞集合都代表了一個(gè)基本的語義概念,這些集合之間由各種關(guān)系連接。但使用WordNet的缺點(diǎn)是對詞的語義相似度很難去準(zhǔn)確度量,只能給出是否同義的二分類結(jié)果,而且人工定義的方式顯然已跟不上時(shí)代變化的步伐,此外標(biāo)注和維護(hù)WordNet也需要消耗大量的人力和時(shí)間[5]。文獻(xiàn)[6]采用背景知識來擴(kuò)展文本的特征,但這個(gè)方式過度依賴知識經(jīng)驗(yàn),不能全面準(zhǔn)確地找到相關(guān)特征。

        以上這些研究大多是基于規(guī)則或者基于知識庫,而不是基于統(tǒng)計(jì)概率完成改進(jìn)?;诮y(tǒng)計(jì)概率最大的優(yōu)勢是建立在大規(guī)模數(shù)據(jù)之上習(xí)得普遍規(guī)律,適應(yīng)時(shí)代的發(fā)展,也成為主流的機(jī)器學(xué)習(xí)算法。為此,本文提出基于上下文語義的樸素貝葉斯分類算法(Context Semantic-based Naive Bayesian Algorithm,CSNB),針對以上指出的傳統(tǒng)的樸素貝葉斯問題提出相似詞的概念,使用擴(kuò)展后的相似詞詞簇代替?zhèn)鹘y(tǒng)的關(guān)鍵詞詞典,每個(gè)相似詞詞簇就代表一個(gè)意群。在計(jì)算詞條后驗(yàn)概率時(shí)使用其相似詞頻數(shù)總和代替該詞出現(xiàn)的頻數(shù),旨在改變樸素貝葉斯基于獨(dú)立詞條的粒度上進(jìn)行文本分類,衡量特征意群對文本分類的影響,可以減小由于獨(dú)立性的假設(shè)前提降低同義詞特征的權(quán)重帶來的影響。

        在文本分類中,方差(variance)是在各個(gè)不同的訓(xùn)練集上分類模型預(yù)測的差異變化,偏差(bias)是預(yù)測的結(jié)果和實(shí)際值之間的差異程度[7]。傳統(tǒng)的樸素貝葉斯分類器是個(gè)比較簡單的分類模型,容易造成欠擬合,導(dǎo)致出現(xiàn)低方差高偏差的問題[8],通過引進(jìn)相似詞的概念,對關(guān)鍵詞詞典語義合并達(dá)到減小偏差的目的,同時(shí)結(jié)合word2vec訓(xùn)練的結(jié)果擴(kuò)展關(guān)鍵詞詞典可以減小訓(xùn)練語料的差異對分類的影響,從而進(jìn)一步減小方差。

        1 相關(guān)理論

        1.1 數(shù)據(jù)預(yù)處理

        1.1.1 分詞

        分詞是文本預(yù)處理最基礎(chǔ)也是最重要的步驟,分詞的好壞對接下來的任務(wù)處理有著直接的影響。在分詞時(shí),分析了現(xiàn)有的幾種分詞方法,機(jī)械分詞法以及基于統(tǒng)計(jì)模型的序列標(biāo)注法,前者是通過將文本中的文字片段和現(xiàn)有的詞典匹配,能匹配到的作為分詞的一個(gè)結(jié)果,其缺點(diǎn)是無法通過語義的特征切分詞語,并且對詞典的依賴較大,對于未登錄詞和歧義詞的識別不好[9]。而序列標(biāo)注法里典型的是隱馬爾可夫模型(HMM),通過維特比算法動態(tài)規(guī)劃得到最優(yōu)分詞結(jié)果,既可以消除一些歧義詞,又提高了分詞的準(zhǔn)確性。所以本文采用隱馬爾可夫模型對訓(xùn)練語料進(jìn)行分詞,得到詞的集合。然后使用停用詞詞庫過濾掉一些影響不大的詞,包括語氣詞、副詞、介詞、連詞、虛詞等。

        1.1.2 特征選擇

        目前文本分類領(lǐng)域比較常用的特征選擇有TF-IDF(Term Frequency-Inverse Document Frequency)、互信息、期望交叉熵、信息增益和卡方統(tǒng)計(jì)量等,其中互信息方法被統(tǒng)計(jì)語言模型廣泛使用,而且大多數(shù)的研究表明使用互信息算法特征選擇效果顯著,優(yōu)于其他的算法[10]。互信息是信息論里的一種信息度量,是衡量2個(gè)隨機(jī)變量之間的相關(guān)度,用于特征提取時(shí)基于假設(shè):詞條在某個(gè)類別下出現(xiàn)的頻率高,但在其他的類別下出現(xiàn)的頻率較低,那詞條與該類的相關(guān)性就大,相關(guān)性越大互信息就越大。

        設(shè)隨機(jī)變量(X,Y)的聯(lián)合分布為p(x,y),邊際分布分別為p(x)、p(y),互信息I(X,Y)的定義如公式(1):

        (1)

        當(dāng)應(yīng)用到文本特征選擇時(shí),如公式(2):

        (2)

        其中,W和C是二值隨機(jī)變量,W取值為et,文檔包含詞條t時(shí),et=1,否則et=0。C取值為ec,文檔屬于類別c時(shí),ec=1,否則ec=0。公式中的概率值通過統(tǒng)計(jì)文檔中的詞條和類別來計(jì)算。

        1.2 傳統(tǒng)的樸素貝葉斯算法

        設(shè)訓(xùn)練樣本集分為k類,記為C={C1,C2,…,Ck},則每個(gè)類的先驗(yàn)概率為P(Ci),i=1,2,…,k,其值為Ci類的樣本數(shù)除以訓(xùn)練集總樣本數(shù)。對于新樣本d,其屬于Ci類的條件概率是P(Ci|d),根據(jù)貝葉斯定理,得到公式(3):

        (3)

        P(d)對于所有類均為同一常數(shù),可以忽略。為避免P(Ci)等于0,采用拉普拉斯概率估計(jì):

        (4)

        其中,|C|為訓(xùn)練集中類的數(shù)目,|DCi|為訓(xùn)練集中屬于類Ci的文檔數(shù),|DC|為訓(xùn)練集包含的總文檔數(shù)。

        對于待分類文本文檔d,本文采用向量空間模型,其基本思想是將每一個(gè)文本表示為一個(gè)向量d=(w1,…,wm),m是d的關(guān)鍵詞個(gè)數(shù),wm代表關(guān)鍵詞[11]。

        (5)

        樸素貝葉斯分類器將未知樣本歸于哪類,如下:

        (6)

        1.3 相似詞

        本文依據(jù)同義詞提出相似詞的概念,即廣義上的同義詞,不再嚴(yán)格限制必須是相同語義。詞的向量化表示需要憑借上下文語境來量化,所以在給定上下文的情境下最大可能同時(shí)出現(xiàn)的詞,也就是同一類的詞,本文稱其為相似詞,這樣就相對放松了同義詞的條件。因?yàn)橄嗨圃~和同義詞相比能更好地表達(dá)類別中意群的概念,而意群是基于概率模型的文本分類的關(guān)鍵,文本中出現(xiàn)哪個(gè)意群比較多,文本就很大可能會分到相應(yīng)的類別。因此本文選用相似詞代替同義詞。同時(shí),相似詞可以通過給定語料統(tǒng)計(jì)得出,突破了同義詞必須通過人工定義的局限性,這在大數(shù)據(jù)背景下的優(yōu)勢很明顯,大大減少了人力的浪費(fèi)??梢愿鶕?jù)社會潮流的發(fā)展以及語言的多樣性來動態(tài)地訓(xùn)練相似詞。所以本文使用相似詞詞簇代替?zhèn)鹘y(tǒng)的關(guān)鍵詞詞典,通過合并相似詞詞頻參與模型的訓(xùn)練,降低條件獨(dú)立性假設(shè)前提帶來的影響。

        1.4 word2vec簡介

        word2vec是一種淺層的神經(jīng)網(wǎng)絡(luò)算法,主要包括2個(gè)模型,分別是CBOW模型(Continuous Bag-of-Word Model)和Skip-gram模型(Continuous Skip-gram Model),CBOW模型通過詞的上下文對當(dāng)前詞預(yù)測來學(xué)習(xí)詞向量,而Skip-gram是根據(jù)當(dāng)前詞對它的上下文詞進(jìn)行預(yù)測來學(xué)習(xí)的[12]。

        word2vec常用來訓(xùn)練詞向量,它將詞映射到多維的向量空間中,將詞表征為一組低維實(shí)數(shù)向量,被稱為分布式表征(Distributed Representation),通常也被稱作“Word Representation”或者“Word Embedding”,這與普遍使用的詞表示方式的“One-hot Representation”不一樣的是,這種表示方式不僅解決了維數(shù)災(zāi)難的問題,同時(shí)語義相近或者相關(guān)性大的詞向量在距離上也更為接近,常用來做很多自然語言處理工作,比如聚類、詞性分析等[13]。

        本文通過訓(xùn)練word2vec得到詞向量。將用來訓(xùn)練分類算法的關(guān)鍵詞詞典通過詞向量表示后進(jìn)行層次聚類,構(gòu)建相似詞詞簇。然后利用word2vec的訓(xùn)練結(jié)果遍歷詞簇獲取每簇簇中心的相似詞擴(kuò)展相似詞詞簇,以實(shí)現(xiàn)詞典的動態(tài)構(gòu)建。

        2 基于上下文語義的樸素貝葉斯算法

        2.1 word2vec訓(xùn)練描述

        2.1.1 相似度閾值

        這里的相似度主要使用余弦距離計(jì)算來表示,取值范圍是[0,1],距離越近的詞相似度越接近于1。相似度的取值非常關(guān)鍵,過高使相似詞起不到作用,過低反而導(dǎo)致分類效果下降,因?yàn)橛性胍魯?shù)據(jù)干擾影響分類。所以本文采取的策略是首先從同義詞詞典中抽取幾組同義詞,通過訓(xùn)練好的模型獲取相應(yīng)的詞向量,求出相似度的均值作為改進(jìn)算法中的相似度閾值。

        2.1.2 訓(xùn)練過程

        將word2vec的訓(xùn)練語料進(jìn)行結(jié)巴分詞,然后去除停用詞。調(diào)用gensim包的word2vec模塊進(jìn)行訓(xùn)練,接口參數(shù)是文件名以及經(jīng)過實(shí)驗(yàn)確定好的模型參數(shù)window、size、min_count等。最后持久化模型,模型提供給定詞的詞向量以及指定閾值的相似詞的常用接口。本文主要通過訓(xùn)練該模型生成詞向量,然后使用詞向量來表示關(guān)鍵詞詞典并將其進(jìn)行層次聚類以構(gòu)建詞簇詞典。另外,詞向量還用于獲取關(guān)鍵詞指定閾值內(nèi)的相似詞以進(jìn)一步擴(kuò)展詞簇詞典。需要注意的是分類算法和訓(xùn)練詞向量的模型是基于不同的語料分別訓(xùn)練的,訓(xùn)練詞向量的語料最好對應(yīng)分類算法數(shù)據(jù)集的特定領(lǐng)域,采集盡量全面豐富的信息。

        2.2 基于上下文語義的樸素貝葉斯算法描述

        基于上下文語義的樸素貝葉斯算法在傳統(tǒng)的樸素貝葉斯方法基礎(chǔ)上,結(jié)合word2vec模型訓(xùn)練的詞向量來改進(jìn)。分類算法在構(gòu)建關(guān)鍵詞詞典方面,提取的關(guān)鍵詞存在語義冗余的現(xiàn)象[14],本文首先通過word2vec訓(xùn)練的詞向量將詞典的關(guān)鍵詞向量化表示,給定相似度閾值使用余弦距離層次聚類,構(gòu)建詞簇詞典。

        接下來考慮另一種情況,測試文本中如果有詞因表達(dá)方式不同沒有出現(xiàn)在關(guān)鍵詞詞典中,被過濾掉不參與計(jì)算,但語義上和關(guān)鍵詞詞典某個(gè)詞相似,基于這種情況的考慮,本文結(jié)合語言模型word2vec的訓(xùn)練結(jié)果,遍歷詞簇詞典獲取簇中心的相似詞擴(kuò)展到詞簇詞典中。避免了詞簇詞典因?yàn)橛?xùn)練文本的差異而不同所造成的局限性,擴(kuò)展后的詞簇詞典更加全面穩(wěn)定,從而提高文本分類的準(zhǔn)確率。

        在訓(xùn)練word2vec語言模型時(shí),依據(jù)分類算法的數(shù)據(jù)集采集對應(yīng)領(lǐng)域的具有完備性和平衡性的語料庫[15-16],按照上述的描述訓(xùn)練word2vec生成詞向量文件。

        基于上下文語義的樸素貝葉斯文本分類的流程:

        1)將分類算法的數(shù)據(jù)集分詞,去除停用詞后,使用互信息提取訓(xùn)練文本中的關(guān)鍵詞構(gòu)建關(guān)鍵詞詞典。

        2)將詞典中的關(guān)鍵詞用詞向量表示進(jìn)行層次聚類,實(shí)現(xiàn)從上下文語義的角度對關(guān)鍵詞詞典語義合并,相似度比較大的關(guān)鍵詞歸為一簇表示相似詞詞簇,構(gòu)建詞簇詞典代替?zhèn)鹘y(tǒng)的字典。

        3)遍歷詞簇中的每個(gè)簇中心,獲取給定相似度閾值的相似詞擴(kuò)展到詞簇中,達(dá)到根據(jù)上下文語境動態(tài)地?cái)U(kuò)展詞簇詞典的目的。

        4)將詞簇詞典中相似詞的詞頻合并參與訓(xùn)練樸素貝葉斯分類模型。

        基于上下文語義的樸素貝葉斯文本分類的系統(tǒng)結(jié)構(gòu)如圖1所示。

        圖1 改進(jìn)后算法系統(tǒng)結(jié)構(gòu)圖

        3 實(shí) 驗(yàn)

        本文提出的算法主要針對二分類問題進(jìn)行分類。為了更能說明CSNB的分類效果,本文通過對比CSNB、NB、fastText這3種模型的實(shí)驗(yàn)結(jié)果進(jìn)一步分析各分類器優(yōu)缺點(diǎn)。其中fastText模型由word2vec衍生出來,其網(wǎng)絡(luò)架構(gòu)和word2vec中CBOW模型類似[17],是Facebook在2016年開源的文本分類算法。fastText分類器相比較其他文本分類模型,例如SVM、Logistic Regression和neural network,在保證分類效果的同時(shí),大大縮短了模型的訓(xùn)練時(shí)間[17]。本文通過調(diào)用封裝好的fastText包進(jìn)行文本分類。

        先使用NB算法在數(shù)據(jù)集上進(jìn)行兩兩組合分類,選取分類效果較好的數(shù)據(jù)集和較差的數(shù)據(jù)集分別訓(xùn)練這3種模型,比較分類結(jié)果。

        3.1 word2vec實(shí)驗(yàn)研究

        3.1.1 訓(xùn)練詞向量的數(shù)據(jù)采集

        訓(xùn)練word2vec模型使用的語料庫主要是從網(wǎng)上采集的新聞?wù)Z料、百度百科、公眾號以及一些中文平衡語料,大概有100 GB左右。這里的語料和訓(xùn)練分類算法所用的訓(xùn)練語料是不一樣的,訓(xùn)練word2vec的語料庫最好包含分類算法數(shù)據(jù)集對應(yīng)的特定領(lǐng)域里盡量全面的信息。本文使用搜狗新聞?wù)Z料作為改進(jìn)樸素貝葉斯算法的數(shù)據(jù)集,所以訓(xùn)練word2vec的語料庫是包含新聞?lì)I(lǐng)域在內(nèi)的盡可能全面的數(shù)據(jù)。

        3.1.2 模型參數(shù)

        訓(xùn)練模型時(shí)窗口參數(shù)window大小分別設(shè)置為8、12,這里的窗口概念也就是當(dāng)前詞的上下文詞,隨機(jī)選擇該詞的前后window個(gè)詞作為上下文參與到模型的訓(xùn)練中。詞向量的維度分別選擇180、240,選用CBOW模型的哈夫曼樹策略,本文嘗試了2個(gè)參數(shù)的不同組合,并且使用同義詞詞典檢驗(yàn)集檢驗(yàn)?zāi)慕M模型參數(shù)得到的詞向量最佳,采取的策略是用訓(xùn)練的詞向量結(jié)果表示檢驗(yàn)集中的同義詞詞組,計(jì)算每組同義詞之間的相似度求平均,選擇結(jié)果值最大的模型作為最終的模型,參數(shù)最終分別設(shè)定為window=8,詞維度size=240,最小詞頻min_count=60,迭代10次。

        3.2 分類算法實(shí)驗(yàn)數(shù)據(jù)

        首先選取公開的搜狗新聞?wù)Z料作為實(shí)驗(yàn)數(shù)據(jù)集,其中教育和體育在NB算法上二分類效果較好,稱作數(shù)據(jù)集一。股票和經(jīng)濟(jì)相對分類較差,稱作數(shù)據(jù)集二。本文主要使用這2個(gè)數(shù)據(jù)集分別訓(xùn)練CSNB、NB、fastText模型,從數(shù)據(jù)集一、數(shù)據(jù)集二中對2個(gè)類別分別隨機(jī)抽取5500條作為訓(xùn)練集、2500條作為測試集。

        3.3 分類評價(jià)標(biāo)準(zhǔn)

        文本分類算法常見的評價(jià)標(biāo)準(zhǔn)有查準(zhǔn)率(Precision)、召回率(Recall)以及F1測試值[18]。本文針對二分類問題進(jìn)行分類,給出對應(yīng)的分類結(jié)果混淆矩陣,如表1所示。

        表1 分類結(jié)果混淆矩陣

        預(yù)測結(jié)果 +1預(yù)測結(jié)果 -1真實(shí)類別 +1真正例(TP)偽反例(FN)真實(shí)類別 -1偽正例(FP)真反例(TN)

        1)召回率:分類器真實(shí)類別為正例的樣本中真正例的比例,如公式(7):

        (7)

        2)查準(zhǔn)率:分類器預(yù)測為正例的樣本中真正例的比例,如公式(8):

        (8)

        3)F1測試值:考慮到查準(zhǔn)率和召回率是相互影響關(guān)系,追求這2個(gè)值都比較高時(shí),就可以用公式(9)的F1值:

        (9)

        3.4 實(shí)驗(yàn)結(jié)果和分析

        主要使用3.3節(jié)介紹的3個(gè)指標(biāo)比對CSNB、NB、fastText這3個(gè)模型的分類效果。3個(gè)評價(jià)指標(biāo)取值范圍都是[0,1],取值越高的分類器相對效果就越好。實(shí)驗(yàn)50次分別統(tǒng)計(jì)在2個(gè)數(shù)據(jù)集上3個(gè)指標(biāo)查準(zhǔn)率、召回率和F1測試值的取值情況。

        圖2~圖4分別是在數(shù)據(jù)集一上3個(gè)算法的查準(zhǔn)率、召回率、F1值綜合指標(biāo)的對比情況。從數(shù)據(jù)集一結(jié)果對比圖可以看出,NB的F1綜合指標(biāo)均值是0.95,CSNB算法的F1綜合指標(biāo)均值是0.99,相對比提升了4%。而和fastText的F1指標(biāo)的均值0.96相比相差甚微,平均只提升了3%。CSNB的標(biāo)準(zhǔn)差是0.001,而NB和fastText的標(biāo)準(zhǔn)差分別是0.003、0.004,相對比波動較小。

        圖2 教育和體育查準(zhǔn)率對比

        圖3 教育和體育召回率對比

        圖4 教育和體育F1值對比

        圖5~圖7分別是在數(shù)據(jù)集二上3個(gè)算法的查準(zhǔn)率、召回率、F1值綜合指標(biāo)的對比情況。從數(shù)據(jù)集二對比圖可以看出NB的F1綜合指標(biāo)均值是0.92,CSNB算法的F1綜合指標(biāo)均值是0.99,相對比提升了7%。CSNB相對比fastText的F1指標(biāo)均值0.96提升效果較小。CSNB的標(biāo)準(zhǔn)差是0.002,對比NB的標(biāo)準(zhǔn)差0.005和fastText標(biāo)準(zhǔn)差0.004,波動較小。

        圖5 股票和經(jīng)濟(jì)查準(zhǔn)率對比

        圖6 股票和經(jīng)濟(jì)召回率對比

        圖7 股票和經(jīng)濟(jì)F1值對比

        從2個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果可以看出,隨著分類次數(shù)的增多,3個(gè)模型的取值對比越明顯。CSNB分類效果在這3個(gè)指標(biāo)取值上普遍比NB高,從而可以總結(jié)出CSNB分類效果相對較好。但和fastText相比效果相差不大。由標(biāo)準(zhǔn)差對比得出,CSNB和其他2個(gè)模型相比3個(gè)指標(biāo)取值波動較小,分類結(jié)果更加穩(wěn)定。并且在數(shù)據(jù)集二上的實(shí)驗(yàn)相對比數(shù)據(jù)集一,明顯比NB分類效果提升得多,這是因?yàn)閿?shù)據(jù)集二在CSNB算法上,經(jīng)過關(guān)鍵詞詞典合并后擴(kuò)展詞簇,使得其中2類的關(guān)鍵詞更加全面,語義冗余小,更有利于分類。而數(shù)據(jù)集一中2個(gè)類別相關(guān)度比較小,所以在NB算法上關(guān)鍵詞詞典冗余相對較小,進(jìn)行聚類擴(kuò)展改進(jìn)后對分類的影響比較小。

        本文實(shí)驗(yàn)采取隨機(jī)選取訓(xùn)練集的策略,經(jīng)過分析NB算法分錯(cuò)的樣本,發(fā)現(xiàn)分錯(cuò)的原因是訓(xùn)練樣本空間并不能真正體現(xiàn)真實(shí)的數(shù)據(jù)空間,構(gòu)建的關(guān)鍵詞詞典不全面,不準(zhǔn)確,以至于有的測試樣本識別出的關(guān)鍵詞太少,導(dǎo)致分類錯(cuò)誤。所以本文通過關(guān)鍵詞聚類后擴(kuò)展,結(jié)合語義特征可以構(gòu)建相對完善的詞典,從而提高分類的準(zhǔn)確度,同時(shí)也能增加分類模型的穩(wěn)定性。結(jié)合實(shí)驗(yàn)結(jié)果可以看出CSNB模型相比NB提升效果明顯,而相比fastText分類效果提升不大,但CSNB的抗干擾性更強(qiáng)一點(diǎn),比較適合小規(guī)模的數(shù)據(jù)集。

        4 結(jié)束語

        鑒于傳統(tǒng)的樸素貝葉斯分類器只是基于詞頻來計(jì)算詞條的后驗(yàn)概率,不具有語義特征。針對長文本分類時(shí),提取的關(guān)鍵詞數(shù)量多,構(gòu)建的關(guān)鍵詞詞典高維并且在語義上會出現(xiàn)冗余。word2vec模型可以解決傳統(tǒng)的向量空間模型的高維問題,并且可以引入語義特征。本文通過訓(xùn)練word2vec語言模型結(jié)合傳統(tǒng)的樸素貝葉斯算法,提出了一種基于上下文語義的樸素貝葉斯算法(CSNB),主要是利用語言模型訓(xùn)練好的詞向量表示關(guān)鍵詞,首先將分類模型中提取的關(guān)鍵詞詞典進(jìn)行層次聚類,達(dá)到語義合并的目的。相對于模型空間該詞典并不全面,而且較大程度依賴于訓(xùn)練樣本。基于word2vec訓(xùn)練結(jié)果,本文通過余弦相似度計(jì)算詞之間的距離,得到詞典中關(guān)鍵詞的相似詞擴(kuò)展該詞典。實(shí)驗(yàn)表明,CSNB在查準(zhǔn)率、召回率、F1值這3個(gè)指標(biāo)上都優(yōu)于NB和fastText算法,在提高分類準(zhǔn)確度的同時(shí)也有較強(qiáng)的抗干擾性,具有穩(wěn)定的分類效果。

        本文提出的CSNB算法,由于時(shí)間復(fù)雜度的提升,時(shí)間耗費(fèi)比較多,所以下一步的研究工作重點(diǎn)將放在如何減少運(yùn)行時(shí)間上,進(jìn)一步提高分類效率。本文利用詞向量并且借助于關(guān)鍵詞詞典,將樣本分詞后通過比對是否出現(xiàn)在詞典中,得到過濾后的關(guān)鍵詞,下一步的研究還將通過計(jì)算樣本詞與詞典中的關(guān)鍵詞之間的相似度來過濾關(guān)鍵詞,有效解決構(gòu)建的關(guān)鍵詞詞典不全面的問題。

        參考文獻(xiàn):

        [1] 張雯,張化祥. 屬性加權(quán)的樸素貝葉斯集成分類器[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010,46(29):144-146.

        [2] Jiang J J, Conrath D W. Semantic similarity based on corpus statistics and lexical taxonomy[C]// Proceedings of 1997 IEEE International Conference on Research in Computational Linguistics. 1997:19-33.

        [3] 郭永輝. 面向短文本分類的特征擴(kuò)展方法[D]. 哈爾濱:哈爾濱工業(yè)大學(xué), 2013.

        [4] Zhang Weitai, Xu Weiran, Chen Guang, et al. A feature extraction method based on word embedding for word similarity computing[M]// Natural Language Processing and Chinese Computing. Springer, 2014:160-167.

        [5] 張東娜,周春光,劉彥斌,等. 一種基于WordNet和Corpus Statistics的語義相似性計(jì)算方法[J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2010,48(5):811-816.

        [6] 袁滿,歐陽元新,熊璋,等. 一種基于頻繁詞集的短文本特征擴(kuò)展方法[J]. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014,44(2):256-260.

        [7] Agrawal R, Imielinski T, Swami A. Database mining: A performance perspective[J]. IEEE Transactions on Knowledge and Data Engineering, 1993,5(6):914-925.

        [8] Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers[J]. Machine Learning, 1997,29(2-3):131-163.

        [9] Mladenic D, Grobelnik M. Feature selection for unbalanced class distribution and Naive Bayes[C]// Proceedings of the 16th International Conference on Machine Learning. 1999:258-267.

        [10] Yang Yiming, Pedersen J O. A comparative study on feature selection in text categorization[C]// Proceedings of the 14th International Conference on Machine Learning. 1997:412-420.

        [11] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975,18(11):613-620.

        [12] Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013,2:3111-3119.

        [13] Mikolov T, Yih W T, Zweig G. Linguistic regularities in continuous space word representations[C]// Proceedings of 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2013:746-751.

        [14] 楊婉霞,孫理和,黃永峰. 結(jié)合語義與統(tǒng)計(jì)的特征降維短文本聚類[J]. 計(jì)算機(jī)工程, 2012,38(22):171-175.

        [15] Wolf L, Hanani Y, Bar K, et al. Joint word2vec networks for bilingual semantic representations[J]. International Journal of Computational Linguistics and Applications, 2014,5(1):27-44.

        [16] Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013(1):28-36.

        [17] Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. 2017:427-431.

        [18] Lilleberg J, Zhu Yun, Zhang Yanqing. Support vector machines and word2vec for text classification with semantic features[C]// Proceedings of the 14th IEEE International Conference on Cognitive Informatics & Cognitive Computing. 2015:136-140.

        猜你喜歡
        貝葉斯詞典語義
        語言與語義
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識別方法
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        認(rèn)知范疇模糊與語義模糊
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        激情亚洲不卡一区二区| 91麻豆国产香蕉久久精品| 国产日韩精品一区二区在线观看播放| 国产精品一区二区久久精品蜜臀| 日韩精品一区二区三区人妻在线| 国产三级在线观看完整版| 亚洲av无码av制服丝袜在线| 亚洲AV成人无码久久精品四虎| 亚洲天堂一二三四区在线| 亚洲天堂一区av在线| 日日摸天天摸人人看| 亚洲最大在线精品| 成人一区二区三区蜜桃| 日本久久伊人特级黄色| 国产精品v欧美精品v日韩精品| 加勒比无码专区中文字幕| 精品国产麻豆免费人成网站| 国产香蕉视频在线播放| 欧美日韩不卡合集视频| 亚洲人成人99网站| 亚洲综合小综合中文字幕| 秋霞在线视频| 小12箩利洗澡无码视频网站| 亚洲A∨日韩Av最新在线| 成av人大片免费看的网站| 亚洲精品无码高潮喷水a片软| 无限看片在线版免费视频大全| 亚洲精品国产熟女久久| 国产伦一区二区三区色一情| 97夜夜澡人人双人人人喊| 亚洲制服无码一区二区三区| 白色白色视频在线观看| 丰满人妻被两个按摩师| 正在播放国产对白孕妇作爱| 亚洲国产免费公开在线视频 | 日本高清h色视频在线观看| 国产91福利在线精品剧情尤物| 亚洲专区一区二区三区四区五区| 久久久久久久亚洲av无码| 国产午夜福利短视频| 强d乱码中文字幕熟女1000部|