基于特征選擇和深度信念網(wǎng)絡(luò)的文本情感分類算法

2019-09-04 10:14:27向進(jìn)勇楊文忠吾守爾斯拉木

計(jì)算機(jī)應(yīng)用 2019年7期

向進(jìn)勇楊文忠吾守爾?斯拉木

摘要：由于人類語言的復(fù)雜性，文本情感分類算法大多都存在因?yàn)槿哂喽斐傻脑~匯量過大的問題。深度信念網(wǎng)絡(luò)（DBN）通過學(xué)習(xí)輸入語料中的有用信息以及它的幾個(gè)隱藏層來解決這個(gè)問題。然而對(duì)于大型應(yīng)用程序來說，DBN是一個(gè)耗時(shí)且計(jì)算代價(jià)昂貴的算法。針對(duì)這個(gè)問題，提出了一種半監(jiān)督的情感分類算法，即基于特征選擇和深度信念網(wǎng)絡(luò)的文本情感分類算法（FSDBN）。首先使用特征選擇方法（文檔頻率（DF）、信息增益（IG）、卡方統(tǒng)計(jì)（CHI）、互信息（MI））過濾掉一些不相關(guān)的特征從而使詞匯表的復(fù)雜性降低;然后將特征選擇的結(jié)果輸入到DBN中，使得DBN的學(xué)習(xí)階段更加高效。將所提算法應(yīng)用到中文以及維吾爾語中，實(shí)驗(yàn)結(jié)果表明在酒店評(píng)論數(shù)據(jù)集上，F(xiàn)SDBN在準(zhǔn)確率方面比DBN提高了1.6%，在訓(xùn)練時(shí)間上比DBN縮短一半。

關(guān)鍵詞：深度信念網(wǎng)絡(luò);深度學(xué)習(xí);特征選擇;半監(jiān)督的情感分類算法;受限波爾茲曼機(jī);文本情感分類

中圖分類號(hào)： TP391.1

文獻(xiàn)標(biāo)志碼：A

英文標(biāo)題

Text sentiment classification algorithm based on feature selection and deep belief network

英文作者名

XIANG Jinyong1，2， YANG Wenzhong1*， SILAMU·Wushouer2第三作者的名字書寫，與文后文獻(xiàn)17的寫法不同，此處表述是否正確？請(qǐng)核實(shí)。英文作者的書寫，在落款中，是姓氏大寫，名字要小寫，照此規(guī)定，中文姓名中，哪個(gè)是姓氏，哪個(gè)是名字，也請(qǐng)明確?；貜?fù)：維吾爾族姓名中點(diǎn)后面的是父親的名字

英文地址（

Abstract： Because of the complexity of human language， text sentiment classification algorithms mostly have the problem of excessively huge vocabulary due to redundancy. Deep Belief Network （DBN） can solve this problem by learning useful information in the input corpus and its hidden layers. However， DBN is a time-consuming and computationally expensive algorithm for large applications. Aiming at this problem， a semi-supervised sentiment classification algorithm called text sentiment classification algorithm based on Feature Selection and Deep Belief Network （FSDBN） was proposed. Firstly， the feature selection methods including Document Frequency （DF）， Information Gain （IG）， CHI-square statistics （CHI） and Mutual Information （MI） were used to filter out some irrelevant features to reduce the complexity of vocabulary. Then， the results of feature selection were input into DBN to make the learning phase of DBN more efficient. The proposed algorithm was applied to Chinese and Uygur language. The experimental results on hotel review dataset show that the accuracy of FSDBN is 1.6% higher than that of DBN and the training time of FSDBN halves that of DBN.

Key words： Deep Belief Network （DBN）; Deep Learning （DL）; Feature Selection （FS）; semi-supervised sentiment classification algorithm; Restricted Boltzmann Machine （RBM）; text sentiment classification

0 引言

如今，互聯(lián)網(wǎng)上社交媒體的數(shù)據(jù)量大幅度增長。個(gè)人和組織試圖從這些大型數(shù)據(jù)集中提取有用的信息，以便作出更好的判斷并提高客戶滿意度。例如，在決定是否購買產(chǎn)品或服務(wù)之前，客戶會(huì)查看其他人對(duì)產(chǎn)品的評(píng)論。同樣，產(chǎn)品的制造商也使用這些信息來提高產(chǎn)品的服務(wù)和質(zhì)量。然而，由于網(wǎng)絡(luò)上有大量的可用數(shù)據(jù)，人們手工的去標(biāo)注這些數(shù)據(jù)是不現(xiàn)實(shí)的，因此，文本情感分類（確定文檔中表達(dá)的情緒是積極的、中立的還是消極的）將對(duì)商業(yè)智能應(yīng)用程序、推薦系統(tǒng)和消息過濾應(yīng)用程序有幫助和益處。

為了構(gòu)建一個(gè)準(zhǔn)確的情感性分類器，在過去的幾年里，許多研究者嘗試將深度學(xué)習(xí)算法與機(jī)器學(xué)習(xí)算法相結(jié)合[1-4]。深度學(xué)習(xí)算法具有處理數(shù)百萬個(gè)參數(shù)的能力，可以極大地提高模型預(yù)測(cè)的能力。其中一個(gè)典型的例子是Socher等[4]提出的基于情感樹的遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練，它能準(zhǔn)確預(yù)測(cè)文本情感，準(zhǔn)確率達(dá)85%以上;然而在有監(jiān)督訓(xùn)練方法中需要大量的標(biāo)記訓(xùn)練數(shù)據(jù)，手工標(biāo)記這些數(shù)據(jù)常常是困難和費(fèi)時(shí)的。

文獻(xiàn)[5]中提出了半監(jiān)督學(xué)習(xí)的新方法，它的目的是利用大量的未標(biāo)記數(shù)據(jù)和標(biāo)記數(shù)據(jù)構(gòu)建文本情感分類器。文獻(xiàn)[6]稱半監(jiān)督深度學(xué)習(xí)模型可以在獲得良好的性能的同時(shí)避免上述問題。然而目前的深度學(xué)習(xí)算法對(duì)于大型應(yīng)用程序來說計(jì)算成本很高。

此外，大多數(shù)分類算法使用固定大小的數(shù)字特征向量作為輸入，而不是使用原始的變長文本文檔，因此，有必要將一個(gè)文檔語料庫轉(zhuǎn)換為一個(gè)矩陣，每個(gè)文檔表示一行，每個(gè)詞語表示一列，每一列表示詞語在語料庫中發(fā)生的情況。由于人類語言的復(fù)雜性，特征項(xiàng)的維度可能超過1萬維度，而其中大多數(shù)是嘈雜的或冗余的。這將導(dǎo)致分類錯(cuò)誤的數(shù)量和計(jì)算時(shí)間的增加。

為了克服上述缺陷，使學(xué)習(xí)階段更高效、更準(zhǔn)確，必須進(jìn)行有效的特征選擇，其目的是過濾訓(xùn)練集中出現(xiàn)的非必要特征項(xiàng)，只選擇有意義的特征項(xiàng)。Forman[7]提出了多種特征選擇的方法。結(jié)果表明，采用特征選擇方法可以通過消除噪聲特征來減少輸入數(shù)據(jù)的維數(shù)，從而提高分類算法的性能，因此，本文提出的方法可以更快地訓(xùn)練出分類模型，減少內(nèi)存消耗，并得到更高的結(jié)果精度。

1 相關(guān)工作

在本章中，介紹相關(guān)特征選擇算法和半監(jiān)督深度學(xué)習(xí)的理論背景。

1.1 特征選擇

特征選擇是通過選擇相關(guān)特征的子集來簡(jiǎn)化模型構(gòu)建的過程。它有兩個(gè)主要角色：第一個(gè)作用是通過減少詞匯輸入的大小來提高分類器的訓(xùn)練過程的效率;第二個(gè)作用是通過過濾不重要的術(shù)語或噪聲特征來提高預(yù)測(cè)精度，因此，可以縮短訓(xùn)練時(shí)間，也可以得到更好的模型表示。特征選擇是一種比較常用的特征維數(shù)約減的方法，選擇出更具有代表特征。特征選擇的好壞對(duì)情感文本分類的效果有很大的影響。

基本上，特征選擇技術(shù)可以分為三類：過濾技術(shù)、包裝技術(shù)和嵌入技術(shù)。在學(xué)習(xí)算法之前，使用基于過濾的技術(shù)作為預(yù)處理步驟。根據(jù)一些標(biāo)準(zhǔn)對(duì)特征進(jìn)行排序，如果它們的分?jǐn)?shù)超過適當(dāng)?shù)念A(yù)先定義的閾值，就會(huì)進(jìn)行選擇。包裝器技術(shù)使用一種學(xué)習(xí)算法來選擇和評(píng)估所有特性中的一個(gè)子集。嵌入式技術(shù)作為訓(xùn)練過程的一部分進(jìn)行特征選擇。

在這三種類型中，基于過濾的方法是最適合的，因?yàn)樗?jiǎn)單、快速，并且獨(dú)立于分類器。它具有良好的可擴(kuò)展性，可以有效地應(yīng)用于大型應(yīng)用。文獻(xiàn)[8-9]對(duì)特征選擇的方法進(jìn)行了研究，基于過濾器的技術(shù)有文檔頻率（Document Frequency， DF）[9-10]、信息增益（Information Gain， IG）[10]、卡方統(tǒng)計(jì)（CHI-square statistics， CHI）[11-12]、互信息（Mutual Information， MI）[13]等，在所有特征選擇算法中，本文使用文檔頻率、信息增益、卡方統(tǒng)計(jì)、互信息作為基于特征選擇和深度信念網(wǎng)絡(luò)的文本情感分類算法（text sentiment classification algorithm based on Feature Selection and Deep Belief Network， FSDBN）框架中的特征選擇方法，用實(shí)驗(yàn)證明哪種特征選擇方法與深度信念網(wǎng)絡(luò)（Deep Belief Network， DBN）結(jié)合可以取得最好的文本情感分類效果。

1.1.1 文檔頻率

文檔頻率方法的基本思想是：統(tǒng)計(jì)每個(gè)詞的文檔頻率值，根據(jù)預(yù)先設(shè)定的最小文檔頻率值以及最大的文檔頻率值來除去一些沒有代表的特征，如果特征t的文檔頻率值在最小和最大閾值之間，則保留此特征t;否則就刪去此特征。這種方法理解與實(shí)現(xiàn)起來比較簡(jiǎn)單，適用于大規(guī)模數(shù)據(jù)集，閾值的設(shè)定可能會(huì)影響到特征選擇的效果，從而影響到文本分類的效果。

1.1.2 信息增益

信息增益（IG）能夠度量某個(gè)特征包含類別信息的多少，一個(gè)特征詞的信息增益等于該特征出現(xiàn)前后的信息熵之差，通常會(huì)對(duì)某一文檔、類別或是整個(gè)數(shù)據(jù)集來計(jì)算，根據(jù)IG方法的定義，某個(gè)特征的信息增益越大說明該特征對(duì)于分類就越重要。

信息增益的公式（1）如下，針對(duì)某個(gè)具體的類別ci，對(duì)于特征t的信息增益如式（1）：

其中表示特征t不出現(xiàn)，那么特征t對(duì)于整個(gè)訓(xùn)練集的信息增益如式（2）：

1.1.3 卡方統(tǒng)計(jì)

卡方統(tǒng)計(jì)（CHI）能表示兩個(gè)變量的相關(guān)性，CHI兼顧了特征存在與特征不存在時(shí)的情況。根據(jù)CHI的定義以及公式可知特征與類別的CHI值越大，就表示這個(gè)特征就越重要。

文獻(xiàn)[10]分別根據(jù)卡方統(tǒng)計(jì)（CHI）以及互信息（MI）的特征選擇方法給語料中的中文特征詞賦予了一定的權(quán)重。

有的研究人員也使用了改進(jìn)的卡方特征選擇技術(shù)[12]來避免卡方統(tǒng)計(jì)量的缺點(diǎn)“低頻詞缺陷問題”（它只統(tǒng)計(jì)文檔是否出現(xiàn)詞而不管出現(xiàn)幾次）。這會(huì)使得它對(duì)低頻詞有所偏袒（因?yàn)樗浯罅说皖l詞的作用），甚至它會(huì)出現(xiàn)一些情況，一個(gè)詞在一類文章的每篇文檔中只出現(xiàn)一次，其卡方值卻大過了在該類文章99%的文檔中出現(xiàn)了10次的詞，其實(shí)后面的詞才是更具代表性的，但只因?yàn)樗霈F(xiàn)的文檔數(shù)比前面的文檔中詞少了“1”，特征選擇的時(shí)候就可能篩掉后面的詞而保留前者）。

1.1.4 互信息

互信息（MI）是信息論中的一個(gè)概念，表示的是一個(gè)隨機(jī)變量中包含另一個(gè)隨機(jī)變量的信息量。在文本情感分析任務(wù)中，特征項(xiàng)跟情感類別之間的互信息量可以表示特征項(xiàng)推測(cè)出情感類別的能力，若特征項(xiàng)與情感類別的互信息為0，這就可以表示特征項(xiàng)不包含任何的特征信息，對(duì)文本情感分類沒有任何的貢獻(xiàn)。如果互信息越大，表示特征項(xiàng)包含的情感信息越大，類別間的區(qū)分程度也就越大。特征項(xiàng)t與情感類別C之間的互信息量計(jì)算公式（4）如下：

不管使用什么樣的特征選擇技術(shù)，最終的目的就是減少特征的空間，消除噪聲從而提高分類器的性能。本文使用這四種特征選擇方法與深度信念網(wǎng)絡(luò)結(jié)合實(shí)現(xiàn)半監(jiān)督的文本情感分類。

1.2 半監(jiān)督深度學(xué)習(xí)

半監(jiān)督深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支，它利用少量的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù)。半監(jiān)督深度學(xué)習(xí)算法的一個(gè)著名例子是深度信念網(wǎng)絡(luò)（DBN），它是由Hinton等最近提出的。DBN是由限制玻爾茲曼機(jī)（Restricted Boltzmann Machine， RBM）構(gòu)造的許多隱藏層組成的。該模型利用大量未標(biāo)注數(shù)據(jù)，克服領(lǐng)域依賴和缺乏標(biāo)注數(shù)據(jù)缺陷，同時(shí)獲得良好的性能[14]。

1.2.1 受限玻爾茲曼機(jī)

受限玻爾茲曼機(jī)（Restricted Boltzmann Machine， RBM）是一種基于能量的生成隨機(jī)模型，其目標(biāo)是了解其輸入集的概率分布。它由一個(gè)輸入層（可見層）和一個(gè)隱藏層組成，通過對(duì)稱加權(quán)連接，但同一層神經(jīng)元之間沒有連接。圖1顯示了RBM的網(wǎng)絡(luò)模型。

為了訓(xùn)練一個(gè)網(wǎng)絡(luò)模型，最廣泛使用的算法被稱為對(duì)比散度（Contrastive Divergence， CD）。訓(xùn)練RBM的目的是優(yōu)化網(wǎng)絡(luò)中的權(quán)向量，以最小化誤差。為了在盡可能保持輸入數(shù)據(jù)分布的同時(shí)降低網(wǎng)絡(luò)的能量，在訓(xùn)練數(shù)據(jù)的對(duì)數(shù)似然時(shí)應(yīng)用了隨機(jī)梯度上升，關(guān)于方程的更多細(xì)節(jié)可以參閱文獻(xiàn)[15]。

1.2.2 深度信念網(wǎng)絡(luò)

為了獲取更好的性能，一組受限制的玻爾茲曼機(jī)器可以定義為深度信念網(wǎng)絡(luò)（DBN）。為了構(gòu)建DBN，本文可以按照以下步驟[16]。

利用一組RBMs作為構(gòu)建塊，貪婪地分層無監(jiān)督學(xué)習(xí)構(gòu)造DBN。該學(xué)習(xí)算法有效地利用了未標(biāo)記數(shù)據(jù)，在輸入數(shù)據(jù)中提供了大量的模式，從而比隨機(jī)數(shù)據(jù)產(chǎn)生更好的初始權(quán)值。

利用基于梯度下降算法的有監(jiān)督學(xué)習(xí)方法，根據(jù)指數(shù)損失函數(shù)訓(xùn)練DBN。模型的權(quán)值通過標(biāo)記數(shù)據(jù)來細(xì)化，目的是進(jìn)行模式分類。

圖2顯示了具有一個(gè)輸入層的DBN的貪婪分層無監(jiān)督訓(xùn)練過程，即輸入層x和三個(gè)隱藏層即從下到上分別是h1、h2和h3。較淺的顏色層代表已經(jīng)過訓(xùn)練的層，而較深的顏色層則是經(jīng)過訓(xùn)練的層從圖中看不出來，請(qǐng)明確是否描述正確？。經(jīng)過貪婪的分層無監(jiān)督學(xué)習(xí)，h3（x）是x的表示。然后，在頂部添加一個(gè)輸出層，并使用標(biāo)記評(píng)論來細(xì)化權(quán)重，以提高識(shí)別能力。圖3顯示了完整的DBN。

作者說：圖3與圖2位置放反了。因此，調(diào)整圖形的編號(hào)即可。

在文本情感分類研究中，DBN采用以詞袋模型表示的矩陣作為輸入。前幾層期望從輸入中提取低層次的特性，而上一層則需要提煉以前學(xué)過的特性模式，從而生成更復(fù)雜的特征。最后，在輸出層預(yù)測(cè)評(píng)論的情緒傾向，無論是積極的還是消極的。

2 基于特征選擇和深度信念網(wǎng)絡(luò)的分類算法

本章將介紹基于特征選擇的深度信念網(wǎng)絡(luò)（FSDBN）的主要設(shè)計(jì)流程。圖4是顯示執(zhí)行文本情感分類任務(wù)的框架。大多數(shù)任務(wù)與其他文本分類方法相似，分別包括特征提取、數(shù)據(jù)分隔、模型訓(xùn)練和測(cè)試。然而，在本文題注的算法中有兩個(gè)新的任務(wù)，即特征選擇和縮減。每個(gè)任務(wù)的細(xì)節(jié)如下所述。

2.1 特征提取

在文本情感分類應(yīng)用中，需要將變長文檔轉(zhuǎn)換為適合于分類算法的固定大小的數(shù)字特征向量。對(duì)基于文本的輸入進(jìn)行特征提取的常用技術(shù)是詞袋技術(shù)，該技術(shù)通過單詞出現(xiàn)來描述文檔，而忽略了單詞的相對(duì)位置信息。有兩個(gè)主要任務(wù)，包括特征定義和加權(quán)分?jǐn)?shù)計(jì)算。在本文的模型中，本文算法將標(biāo)記的詞語應(yīng)用為“特征”（中文使用結(jié)巴進(jìn)行分詞、維吾爾語提取unigram）。

想要提取特性，首先進(jìn)行分詞（中文使用結(jié)巴進(jìn)行分詞、維吾爾語提取unigram），然后把所有的特征生成一個(gè)字典，在一個(gè)文檔中，如果該特征出現(xiàn)就賦值為1;否則為0。此外，根據(jù)每個(gè)詞匯表降序排列的次數(shù)排序的前2%詞匯表將被刪除，因?yàn)樗鼈冎械拇蠖鄶?shù)都是停止詞（例如“的”“是”），或者它們可能是特定領(lǐng)域或通用的詞（例如，酒店評(píng)論中的“酒店”）。從理論上講，停用詞可以出現(xiàn)在正訓(xùn)練數(shù)據(jù)集或負(fù)訓(xùn)練數(shù)據(jù)集中，而不帶有任何情緒信息，這可能會(huì)增加分類錯(cuò)誤率，因?yàn)樗鼈兊那榫w含糊不清。在此過程之后，一個(gè)文檔語料庫就形成了一個(gè)二進(jìn)制值矩陣，每個(gè)文檔表示一行，每個(gè)特性或標(biāo)記在語料庫中表示一列。

2.2 數(shù)據(jù)劃分

為了使得到的結(jié)果更加具有說服力，在中文文本情感分類中，本文選取譚松波博士收集整理的酒店評(píng)論語料、京東上獲取的書集書籍評(píng)論語料、淘寶上獲取的電腦評(píng)論語料。

為了驗(yàn)證模型FSDBN在維吾爾語文本情感分類中的有效性。相對(duì)于中文和英文來說維吾爾語的文本情感開放語料較少，本實(shí)驗(yàn)所使用的維吾爾語文本情感語料是由伊爾夏提·吐爾貢等[17]在這三個(gè)維文網(wǎng)站（Alkuy、TianShan、Putbal）上收集的評(píng)論數(shù)據(jù)，然后經(jīng)過維吾爾族大學(xué)生進(jìn)行手工篩選，最終形成了pos類5000多條句子以及neg類5000多條句子。

在這四個(gè)數(shù)據(jù)集中，本文選取3000個(gè)標(biāo)簽評(píng)論（即在每個(gè)數(shù)據(jù)集中，有1500個(gè)正面和1500個(gè)負(fù)面）。

由于所提出的分類器是一種半監(jiān)督學(xué)習(xí)算法，利用未標(biāo)記和標(biāo)記數(shù)據(jù)構(gòu)造分類器，因此，本文方法將數(shù)據(jù)集劃分為三個(gè)集，包括未標(biāo)記訓(xùn)練集、標(biāo)記訓(xùn)練集和標(biāo)記測(cè)試集。將每個(gè)3000個(gè)評(píng)論的數(shù)據(jù)集隨機(jī)劃分為10個(gè)大小相等的文檔，同時(shí)為了交叉驗(yàn)證的目的，仍然在每份文檔中保持平衡的類分布。在每一輪中，本文算法選擇一份文檔作為標(biāo)記數(shù)據(jù)集，然后隨機(jī)選擇這份文檔中的一半評(píng)論作為標(biāo)記訓(xùn)練數(shù)據(jù)集，另一半作為標(biāo)記測(cè)試數(shù)據(jù)集。其余9個(gè)折疊被用作未標(biāo)記的數(shù)據(jù)集。

2.3 特征選擇和特征約減

為了提高分類精度，本文的目標(biāo)是通過特征選擇和特征約減來消除可能導(dǎo)致分類誤差的噪聲特征。在本文的框架中，本文使用文檔頻率、信息增益、卡方統(tǒng)計(jì)、互信息特征選擇來確定哪些特征與情感分類最相關(guān)，以獲得最高的分類準(zhǔn)確性。

本文提出的分類算法經(jīng)過特征選擇算法來選擇前n%的特征來構(gòu)建文本情感分類模型，而其他的則不用于分析。每個(gè)數(shù)據(jù)集的最佳n百分比值如表3所示見3.4節(jié)實(shí)驗(yàn)。值得注意的是，本文之所以使用帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集來進(jìn)行特征選擇，僅僅是因?yàn)樵撍惴ɑ诒O(jiān)督學(xué)習(xí)方法，并且避免了測(cè)試集出現(xiàn)過擬合問題。

2.4 模型訓(xùn)練和測(cè)試

本文框架中使用的情感分類模型是基于深度信念網(wǎng)絡(luò)的。首先，學(xué)習(xí)算法使用無標(biāo)記的訓(xùn)練評(píng)論執(zhí)行貪婪的分層無監(jiān)督學(xué)習(xí);然后，利用基于梯度下降法的監(jiān)督學(xué)習(xí)方法，通過帶指數(shù)損失函數(shù)的訓(xùn)練來改進(jìn)模型的權(quán)值;在完全構(gòu)建預(yù)測(cè)模型后，利用標(biāo)記數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試;最后的分類結(jié)果使用十倍交叉驗(yàn)證在F值方面的平均。第3章將介紹DBN的學(xué)習(xí)參數(shù)和結(jié)構(gòu)。

3 實(shí)驗(yàn)以及討論

在本章中，為了驗(yàn)證本文提出的FSDBN算法的性能，將其在準(zhǔn)確率和訓(xùn)練時(shí)間方面與其他算法半監(jiān)督學(xué)習(xí)算法[1，4，18-20]進(jìn)行比較。

3.1 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)的目的是評(píng)估本文提出的框架與5種半監(jiān)督學(xué)習(xí)情感分類器在準(zhǔn)確性以及訓(xùn)練時(shí)間方面的性能表現(xiàn)，這5種半監(jiān)督的文本情感分類器分別是：深度信念網(wǎng)絡(luò)（DBN）、混合深信念網(wǎng)絡(luò)（Hybrid Deep Belief Network， HDBN）[4]、半監(jiān)督譜學(xué)習(xí)（semi-supervised spectral learning）[18]、轉(zhuǎn)換式支持向量機(jī)（Transductive Support Vector Machine， TSVM）[19]、個(gè)人/非個(gè)人觀點(diǎn)（Personal/Impersonal Views， PIV）[20]。分類器具體概述如下。

譜學(xué)習(xí)利用數(shù)據(jù)矩陣特征向量中的信息檢測(cè)結(jié)構(gòu)，進(jìn)行半監(jiān)督聚類和分類。

TSVM利用未標(biāo)記數(shù)據(jù)提高了支持向量機(jī)（Support Vector Machine， SVM）的泛化精度。與SVM類似，它使用帶標(biāo)記的訓(xùn)練數(shù)據(jù)學(xué)習(xí)了一個(gè)大范圍的超平面分類器，但同時(shí)迫使這個(gè)超平面遠(yuǎn)離未帶標(biāo)記的數(shù)據(jù)。譜學(xué)習(xí)和TSVM方法是半監(jiān)督情緒分類的兩種基本方法。

PIV采用個(gè)人和非個(gè)人的觀點(diǎn)構(gòu)建半監(jiān)督分類器。個(gè)人觀點(diǎn)包括直接表達(dá)說話人對(duì)目標(biāo)對(duì)象的感受和偏好的句子，而非個(gè)人觀點(diǎn)則集中于對(duì)目標(biāo)對(duì)象的陳述進(jìn)行評(píng)價(jià)。

DBN是在第1章中提出的經(jīng)典深度學(xué)習(xí)方法。

HDBN是RBM和卷積RBM（Convolutional RBM， CRBM）的混合深度網(wǎng)絡(luò)結(jié)構(gòu)，底層由RBMs構(gòu)造，可以快速減少尺寸，提取輸入信息;然后，使用CRBM在上層抽象更復(fù)雜的信息;最后，利用基于梯度下降法的有監(jiān)督學(xué)習(xí)方法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行了指數(shù)損失函數(shù)的微調(diào)。

同樣，用于評(píng)估的5種文本情感分類器的數(shù)據(jù)集是酒店評(píng)論數(shù)據(jù)、書集書籍評(píng)論數(shù)據(jù)是書集？還是書籍？全文應(yīng)該統(tǒng)一，請(qǐng)明確。回復(fù)：書集改為書籍、電腦評(píng)論數(shù)據(jù)以及維吾爾語評(píng)論數(shù)據(jù)。

3.2 參數(shù)設(shè)置

為了比較結(jié)果，本文提出的模型中使用的學(xué)習(xí)參數(shù)與文獻(xiàn)[3-4，21]相同。在訓(xùn)練前的步驟中，本文對(duì)所有的隱藏層和輸出層執(zhí)行貪婪的分層無監(jiān)督學(xué)習(xí)，epoch=30。在有監(jiān)督學(xué)習(xí)階段，將epoch設(shè)置為30，學(xué)習(xí)率為0.1，每個(gè)epoch設(shè)置為0.9。使用的DBN結(jié)構(gòu)為100-100-200-2，表示三個(gè)隱藏層中的神經(jīng)元單元數(shù)分別為100、100和200，輸出層中的神經(jīng)元單元數(shù)分別為2（正、負(fù)）。

3.4 實(shí)驗(yàn)結(jié)果

在從分類準(zhǔn)確率和訓(xùn)練時(shí)間方面詳細(xì)分析實(shí)驗(yàn)結(jié)果和分析結(jié)果之前，首先要論證特征選擇和縮減對(duì)輸入維數(shù)大小的影響。

不同的特征保留率對(duì)文本情感分類的準(zhǔn)確性以及模型的訓(xùn)練時(shí)間有著一定的影響，在4個(gè)文本情感分析數(shù)據(jù)集上，特征保留率對(duì)文本情感分類準(zhǔn)確性的影響。如表2所示。

從表2中可以看出使用不同的特征選擇方法進(jìn)行特征選擇以及特征約減得到的F值不同。比如說使用文檔頻率方法在4個(gè)數(shù)據(jù)集上特征保留率為40%、40%、50%以及30%取得最好的分類效果。故根據(jù)表2可以得到表3 FSDBN模型在不同特征選擇方法下的特征保留率。

使用特征選擇可使得特征數(shù)目減少。它展示了本文提出的降維方法的性能，該方法可以過濾掉大多數(shù)無用的特征。表3顯示了在4個(gè)數(shù)據(jù)集上以及4種特征選擇方法特征減少到原特征的多少時(shí)文本情感的分類效果最好。

3.4.1 F值

采用半監(jiān)督學(xué)習(xí)方法對(duì)4個(gè)情感分類數(shù)據(jù)集進(jìn)行10倍交叉驗(yàn)證的分類準(zhǔn)確性結(jié)果如表4所示。

實(shí)驗(yàn)證明了在三個(gè)數(shù)據(jù)集上本文提出的方法FSDNBN在準(zhǔn)確率上都有所提升并且在兩個(gè)數(shù)據(jù)集上的特征選擇算法都是信息增益。

從表4可以看出，F(xiàn)SDBN在三個(gè)標(biāo)記為粗體的數(shù)據(jù)集中執(zhí)行了最好的精度結(jié)果。另一方面，DBN、HDBN和FSDBN可以在所有數(shù)據(jù)集中執(zhí)行得很好。結(jié)果證明了深層架構(gòu)在情感分類中的強(qiáng)大功能。

3.4.2 訓(xùn)練時(shí)間

DBN與FSDBN的訓(xùn)練時(shí)間（從執(zhí)行特征提取到構(gòu)建完整模型）結(jié)果如圖65所示。比較而言，除了要訓(xùn)練的特性數(shù)量和網(wǎng)絡(luò)結(jié)構(gòu)外，本文在相同的環(huán)境和相同的參數(shù)設(shè)置中運(yùn)行它們。對(duì)于要訓(xùn)練的特性數(shù)量，對(duì)于DBN，本文使用了完整的特性集，而不進(jìn)行任何的特性選擇和減少，但是對(duì)于FSDBN，本文采用了第2章中描述的方法。

表格（有表名）

表4 半監(jiān)督文本情感分類算法的F值表4與圖5是否存在重復(fù)表達(dá)現(xiàn)象，若存在重復(fù)表達(dá)，請(qǐng)只保留一種表達(dá)方式。正文中的引用文字部分和描述需作相應(yīng)修改或刪除。

在圖65中，可以看到FSDBN在所有數(shù)據(jù)集中花費(fèi)的訓(xùn)練時(shí)間比DBN少得多。FSDBN的平均速度可以提高2倍多，在使用維吾爾語評(píng)論數(shù)據(jù)集時(shí)幾乎可以提高4倍。這是因?yàn)榫S吾爾語評(píng)論數(shù)據(jù)集比其他3個(gè)數(shù)據(jù)集具有更多的特性，因此，使用FSDBN，刪除了更多的特征，這使得與DBN相比，訓(xùn)練時(shí)間更短，同時(shí)仍然保持了良好的準(zhǔn)確率。

特別地，顯著提高FSDBN訓(xùn)練時(shí)間的主要因素是它更簡(jiǎn)單的深層結(jié)構(gòu)，它替換了幾個(gè)隱藏層，但是增加了本文提出的特征選擇方法。

根據(jù)實(shí)驗(yàn)結(jié)果，可以看出本文提出的FSDBN比其他半監(jiān)督情緒分類算法更快、更準(zhǔn)確。

4 結(jié)語

為了解決文本情感分類問題，本文提出了一種名為FSDBN文本情感分類算法，使用基于過濾器的特征選擇技術(shù)替換了DBNs中的幾個(gè)隱藏層，然后，過濾掉不必要的特性，只選擇有意義的特性。實(shí)驗(yàn)結(jié)果表明，在特征選擇和約簡(jiǎn)的輔助下，F(xiàn)SDBN的學(xué)習(xí)階段效率更高。FSDBN的分類精度高于基本的半監(jiān)督學(xué)習(xí)算法，如光譜學(xué)習(xí)、TSVM和個(gè)人PIV。此外，F(xiàn)SDBN的性能略好于其他深度學(xué)習(xí)算法DBN和混合深度信念網(wǎng)絡(luò)（HDBN）。此外，還可以觀察到，與傳統(tǒng)的DBN相比，F(xiàn)SDBN花費(fèi)的訓(xùn)練時(shí)間要少得多。在未來的工作中，計(jì)劃將本文的算法并行化并在GPU平臺(tái)上運(yùn)行，以加速其計(jì)算。目標(biāo)是解決現(xiàn)實(shí)世界中的大量問題，具有更好的標(biāo)度能力，同時(shí)仍能保持良好的分類準(zhǔn)確率。這里的特征選擇方法只使用了文檔頻率、信息增益、卡方統(tǒng)計(jì)以及互信息，還可以使用其他的特征選擇方法。

參考文獻(xiàn) （References）

[1] HINTON G， OSINDERO S， TEH Y. A fast learning algorithm for deep belief nets[J]. Neural Computation， 2006， 18（7）： 1527-1554.

[2] ZHOU S， CHEN Q， WANG X， et al. Hybrid deep belief networks for semi-supervised sentiment classification[C]// Proceeding of the 2014 25th International Conference on Computational Linguistic. Stroudsburg， PA： Association for Computational Linguistics， 2014： 1341-1349.

[3] ZHOU S， CHEN Q， WANG X. Active deep networks for semisupervised sentiment classification.[C]// Proceedings of the 2010 23rd International Conference on Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2010： 1515-1523.

[4] SOCHER R， PERELYGIN A， WU J J. et al. Recursive deep models for semantic compositionality over a sentiment treebank [C]// Proceedings of the 2013 International Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2013： 1631-1642.

[5] DASGUPTA， S， NG V. Mine the easy， classify the hard： a semisupervised approach to automatic sentiment classification [C]// Proceedings of the 2009 47th International Conference on Annual Meeting of the Association for Computational Linguistics and Proceedings of the 2009/4th International Joint Conference on Natural Language of the Asian Federation of Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2009： 701-709.

[6] PANG B， LEE L， VAITHYANATHAN S. Thumbs up？： sentiment classification using machine learning techniques [C]// Proceedings of the 2002 International Conference on Association for Computational Linguistics on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2002： 79-86.

[7] FORMAN G. An extensive empirical study of feature selection metrics for text classification[J]. The Journal of Machine Learning Research， 2003： 1289-1305.

[8] YANG Y， PEDERSEN J O. A comparative study on feature selection in text categorization[C]// Proceedings of the 1997 14th International Conference on Machine Learning. San Francisco， CA： Morgan Kaufmann， 1997： 412-420.

[9] 周茜，趙明生，扈旻.中文文本分類中的特征選擇研究[J].中文信息學(xué)報(bào)，2004，18（3）：17-23.（ZHOU Q， ZHAO M S， HU M. Research on feature selection in Chinese text classification [J]. Journal of Chinese Information Processing， 2004， 18（3）： 17-23.）

[10] 吳金源，冀俊忠，趙學(xué)武，等.基于特征選擇技術(shù)的情感詞權(quán)重計(jì)算[J].北京工業(yè)大學(xué)學(xué)報(bào)，2016，42（1）：142-151.（WU J Y， JI J Z， ZHAO X W， et al. Weight calculation of affective words based on feature selection technique[J]. Journal of Beijing University of Technology， 2016， 42（1）：142-151.）

[11] 周愛武，馬那那，劉慧婷.基于卡方統(tǒng)計(jì)的情感文本分類[J].微電子學(xué)與計(jì)算機(jī)，2017，34（8）：57-61.（ZHOU A W， MA N N， LIU H T. Emotional text classification based on chi-square statistics [J]. Microelectronics and Computer， 2017， 34（8）： 57-61.）

[12] 裴英博，劉曉霞.文本分類中改進(jìn)型CHI特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用，2011，47（4）：128-130.（PEI Y B， LIU X X. Research on improved CHI feature selection method in text classification [J]. Computer Engineering and Application， 2011， 47（4）： 128-130.）

[13] BAGHERI A， SARAEE M， de JONG F. Sentiment classification in Persian： introducing a mutual information-based method for feature selection[C]// Proceedings of the 2013 21th International Conference on Electrical Engineering. Piscataway， NJ： IEEE， 2013： 1-6.

[14] BLIZER J， DREDZE M， PEREIRA F. Biographies， bollywood， boomboxes and blenders： domain adaptation for sentiment classification[C]// Proceedings of the 2007 International Conference on Association for Computational Linguistic. Stroudsburg， PA： Association for Computational Linguistics， 2007： 440-447.

[15] LOPES N， RIBEIRO B， GONALVES J. Restricted Boltzmann machines and deep belief networks on multi-core processors [C]// Proceedings of the 2012 International Joint Conference on Neural Networks Piscataway， NJ： IEEE， 2012： 1-7.

[16] 張慶慶，劉西林.基于深度信念網(wǎng)絡(luò)的文本情感分類研究[J].西北工業(yè)大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2016，36（1）：62-66.（ZHANG Q Q， LIU X L. Research on text emotion classification based on deep belief network[J]. Journal of Northwest Polytechnic University （Social Science Edition）， 2016， 36（1）： 62-66.）

[17] 伊爾夏提·吐爾貢，吾守爾·斯拉木，熱西旦木·吐爾洪太，等.維吾爾文情感語料庫的構(gòu)建與分析[J].計(jì)算機(jī)與現(xiàn)代化，2017（4）：67-72.（TUERGONG Y， SILAMU W， TUSERHONGTAI R文獻(xiàn)的書寫中，是姓氏大寫，名字取首字母大寫，請(qǐng)明確中文姓氏中，哪個(gè)是姓氏，哪個(gè)是名字？， et al. Construction and analysis of Uighur affective corpus [J]. Computer and Modernization， 2017（4）： 67-72.）

[18] KAMVAR S D， DAN K， MANNING C D. Spectral learning[C]// Proceedings of the 2003 International Joint Conference on Artificial Intelligence. San Francisco， CA： Morgan Kaufmann， 2003： 561-566.

[19] COLLOBERT R， SINZ F， WESTON J， et al. Large scale transductive SVMs[J]. The Journal of Machine Learning Research， 2006， 7： 1687-1712.

[20] LI S， HUANG C R， ZHOU G， et al. Employing personal/impersonal views in supervised and semi-supervised sentiment classification[C]// Proceedings of the 2010 48th International Joint Conference on Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2010： 414-423.

[21] RUANGKANOKMAS P， ACHALAKUL T， AKKARAJITSAKUL K. Deep belief networks with feature selection for sentiment classification[C]// Proceedings of the 2017 48th International Conference on Intelligent Systems， Modelling and Simulation. Piscataway， NJ： IEEE， 2017： 9-14.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征選擇和深度信念網(wǎng)絡(luò)的文本情感分類算法