亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GDBN網(wǎng)絡(luò)的文本情感傾向分類(lèi)算法①

        2019-01-18 08:30:20陳穎熙廖曉東蘇例月
        關(guān)鍵詞:隱層分類(lèi)文本

        陳穎熙, 廖曉東,2,3, 蘇例月, 陶 狀

        1(福建師范大學(xué) 光電與信息工程學(xué)院, 福州 350007)

        2(福建師范大學(xué) 醫(yī)學(xué)光電科學(xué)與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室 福建省光子技術(shù)重點(diǎn)實(shí)驗(yàn)室, 福州 350007)

        3(福建師范大學(xué) 福建省先進(jìn)光電傳感與智能信息應(yīng)用工程技術(shù)研究中心, 福州 350007)

        1 引言

        近年來(lái), 隨著互聯(lián)網(wǎng)信息技術(shù)的高速發(fā)展, 各種社交平臺(tái)和電子商務(wù)平臺(tái)的興起使得門(mén)戶網(wǎng)站上的評(píng)論信息呈指數(shù)增長(zhǎng), 用戶通過(guò)移動(dòng)網(wǎng)絡(luò)可以方便、自由的對(duì)人或事進(jìn)行評(píng)價(jià)與分析, 表達(dá)自己的看法、觀點(diǎn)以及情感傾向[1]. 面對(duì)線上各大平臺(tái)的大量無(wú)規(guī)律的評(píng)論詞語(yǔ)和文本內(nèi)容, 有必要利用自然語(yǔ)言處理技術(shù)建立一種智能高效的文本情感分類(lèi)模型對(duì)文本所表達(dá)的情感傾向(正向、負(fù)向、中立)進(jìn)行分析判斷, 從海量無(wú)規(guī)律的文本數(shù)據(jù)中提取重要的信息.

        目前, 互聯(lián)網(wǎng)上的信息大多以短文本的形式存在,例如淘寶商品評(píng)論、搜索引擎的搜索結(jié)果、微博、豆瓣、文檔文獻(xiàn)摘要等. 其中在微博評(píng)論中就有明確規(guī)定字?jǐn)?shù)必須限制在140字以內(nèi). 由于短文本具有特征稀疏性、實(shí)時(shí)性、動(dòng)態(tài)性、交錯(cuò)性、不規(guī)則性等特點(diǎn)[2],傳統(tǒng)的文本情感分類(lèi)方法對(duì)其分類(lèi)的準(zhǔn)確率較低, 無(wú)法達(dá)到理想的結(jié)果.

        短文本在搜索引擎、論壇信息交流等方面具有重要作用, 因此對(duì)短文本情感分類(lèi)的研究具有一定的實(shí)用價(jià)值并且得到了廣泛的關(guān)注. 近些年國(guó)內(nèi)外學(xué)者們提出了許多在文本情感傾向性分類(lèi)的有效的方法, 大致可分為三大類(lèi), 即基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和深度學(xué)習(xí)方法.

        基于規(guī)則的方法最早是由麻省理工媒體實(shí)驗(yàn)室的Picard教授提出[3], 它通過(guò)將文本中表達(dá)情感傾向的詞語(yǔ)與已建立的情感詞典對(duì)比然后進(jìn)行評(píng)估打分, 進(jìn)而通過(guò)計(jì)算分?jǐn)?shù)實(shí)現(xiàn)文本情感傾向性分類(lèi). 由于該方法過(guò)分依賴于人工構(gòu)建的詞典, 所以存在一系列缺點(diǎn), 如詞典覆蓋面窄、易丟失部分有挖掘價(jià)值的文本數(shù)據(jù)、易受到一詞多義的影響等,并且該方法難以捕捉到深層次特征.

        基于深度學(xué)習(xí)的文本情感分類(lèi)方法是近幾年的研究熱點(diǎn), 它廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域和音頻領(lǐng)域, 近幾年才被引用到自然語(yǔ)言處理領(lǐng)域中, 其中深度置信網(wǎng)絡(luò)(Deep Belief Networks, DBN)[4]是最經(jīng)典的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)之一, 它彌補(bǔ)了機(jī)器學(xué)習(xí)方法的局限性, 可以通過(guò)網(wǎng)絡(luò)模型自動(dòng)地學(xué)習(xí)提取文本的深層次特征,但是存在隱層單元個(gè)數(shù)的選擇問(wèn)題. 深度置信網(wǎng)絡(luò)的隱層單元個(gè)數(shù)通常依據(jù)經(jīng)驗(yàn)進(jìn)行認(rèn)為選擇, 且一旦選定則無(wú)法修改. 當(dāng)隱層單元數(shù)超過(guò)所需個(gè)數(shù)時(shí), 多余的隱層單元會(huì)增加網(wǎng)絡(luò)的復(fù)雜度, 使得計(jì)算量變大從而導(dǎo)致訓(xùn)練時(shí)間呈指數(shù)增長(zhǎng); 當(dāng)隱層單元數(shù)低于所需個(gè)數(shù)時(shí), 由于網(wǎng)絡(luò)無(wú)法滿足訓(xùn)練所需規(guī)模, 從而導(dǎo)致達(dá)不到理性的訓(xùn)練結(jié)果. 因此, 本文提出了GDBN網(wǎng)絡(luò)(Genetic Deep Belief Networks), 通過(guò)利用遺傳算法 (Genetic Algorithm, GA)[5]的全局快速尋優(yōu)的能力對(duì)DBN的隱層單元個(gè)數(shù)自動(dòng)進(jìn)行設(shè)定. 實(shí)驗(yàn)結(jié)果表明, 本文所提出的GDBN網(wǎng)絡(luò)在文本情感傾向性分類(lèi)中能取得較好的分類(lèi)效果.

        2 相關(guān)工作

        2.1 深度置信網(wǎng)絡(luò)

        深度置信網(wǎng)絡(luò)(Deep Belief Networks, DBN)最初是由Hinton等學(xué)者于2006年提出的一種由多層RBMs堆疊和一層反向傳播(Back Propagation)網(wǎng)絡(luò)組成的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[4]. DBN的主要任務(wù)是實(shí)現(xiàn)對(duì)數(shù)據(jù)從底層到高層的特征提取, 幫助系統(tǒng)將數(shù)據(jù)分類(lèi)成不同的類(lèi)別. 其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示[6].

        DBN的訓(xùn)練步驟分為兩步: 第一步為預(yù)訓(xùn)練, 對(duì)網(wǎng)絡(luò)中RBMs采用逐層無(wú)監(jiān)督的方法來(lái)學(xué)習(xí)各層參數(shù), 使得每層RBM達(dá)到最佳特征表示; 第二步為微調(diào),將BP網(wǎng)絡(luò)輸出數(shù)據(jù)和標(biāo)準(zhǔn)標(biāo)注信息進(jìn)行對(duì)比, 對(duì)從下往上的認(rèn)知權(quán)重w和從上往下的生成權(quán)重進(jìn)行反向微調(diào), 以得到更好的生成模型.

        近些年來(lái)學(xué)者們?cè)贒BN模型上提出了一系列的改進(jìn), 使得改進(jìn)后的模型能夠更高效的應(yīng)用于文本檢測(cè). 例如, Mleczko等[7]在DBN模型的基礎(chǔ)上引入粗糙集理論(RDBN), RDBN模型主要用于識(shí)別與分類(lèi)具有缺失文字的文本信息. Jiang等[8]提出將采用不同參數(shù)優(yōu)化算法的Softmax分類(lèi)器與DBN模型結(jié)合, 利用分類(lèi)器對(duì)DBN所提取到的文本數(shù)據(jù)特征進(jìn)行分類(lèi), 該模型能有效地提高分類(lèi)精度.

        2.2 RBM預(yù)訓(xùn)練過(guò)程

        受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)[9]是以玻爾茲曼機(jī)為基礎(chǔ)的改進(jìn)算法, 它是一種具有快速學(xué)習(xí)和簡(jiǎn)單網(wǎng)絡(luò)結(jié)構(gòu)的無(wú)監(jiān)督訓(xùn)練特征提取器. 其結(jié)構(gòu)模型如圖2所示.

        圖2 RBM結(jié)構(gòu)模型圖

        (2) Gibbs采樣. 通過(guò)Gibbs采樣得到

        訓(xùn)練時(shí), 采用逐層無(wú)監(jiān)督的方法來(lái)學(xué)習(xí)參數(shù). 進(jìn)而完成DBN的預(yù)訓(xùn)練過(guò)程.

        2.3 BP網(wǎng)絡(luò)微調(diào)過(guò)程

        RBM訓(xùn)練中無(wú)監(jiān)督學(xué)習(xí)方法只能使得該層單元狀態(tài)達(dá)到局部最優(yōu), 然而并不能使模型整體效果最優(yōu),因此, 采用BP網(wǎng)絡(luò)[12]對(duì)整個(gè)網(wǎng)絡(luò)的參數(shù)進(jìn)行微調(diào). 在RBM完成預(yù)訓(xùn)練后, 將RBM訓(xùn)練好的數(shù)據(jù)正向傳播,做為BP網(wǎng)絡(luò)的輸入, 當(dāng)輸出數(shù)據(jù)和標(biāo)準(zhǔn)標(biāo)注信息有誤差時(shí), 利用BP網(wǎng)絡(luò)的誤差反向傳播的特性, 對(duì)從下往上的認(rèn)知權(quán)重w和從上往下的生成權(quán)重以及偏置進(jìn)行微調(diào), 讓整個(gè)網(wǎng)絡(luò)的單元狀態(tài)達(dá)到全局最優(yōu), 以得到更好的生成模型.

        3 GDBN情感分類(lèi)算法

        本文提出的基于GDBN網(wǎng)絡(luò)的文本情感傾向性分類(lèi)算法的主要工作有: 首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)程序從微博平臺(tái)上采集實(shí)驗(yàn)所需文本數(shù)據(jù), 之后對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理, 然后通過(guò)遺傳算法來(lái)改進(jìn)深度置信網(wǎng)絡(luò)模型, 并以此模型進(jìn)行深層建模與特征提取, 最后通過(guò)反向傳播網(wǎng)絡(luò)對(duì)提取到的特征進(jìn)行情感傾向性分類(lèi).

        3.1 GDBN理論基礎(chǔ)

        遺傳深度置信網(wǎng)絡(luò)(GDBN)是結(jié)合遺傳算法(Genetic Algorithm, GA)[5]和深度置信網(wǎng)絡(luò)(Deep Belief Networks, DBN)[4]的學(xué)習(xí)方法, 它利用遺傳算法的全局尋優(yōu)搜索能力對(duì)DBN的隱層單元個(gè)數(shù)進(jìn)行自動(dòng)尋優(yōu),結(jié)合DBN強(qiáng)大的數(shù)據(jù)特征提取和處理高復(fù)雜度的非線性數(shù)據(jù)的能力, 使網(wǎng)絡(luò)模型效果更接近于其上限.GA具有較強(qiáng)全局尋優(yōu)搜索能力, 然而它最大的缺點(diǎn)就是易出現(xiàn)“早熟”現(xiàn)象, 即容易陷入局部極值, 導(dǎo)致神經(jīng)網(wǎng)絡(luò)參數(shù)質(zhì)量不高, 所以在設(shè)計(jì)GDBN算法的遺傳操作中, 增大交叉率和變異率. GDBN算法設(shè)計(jì)如下:

        (1)編碼

        (2)適應(yīng)度函數(shù)

        GDBN網(wǎng)絡(luò)模型中可見(jiàn)層和隱層之間表現(xiàn)為層內(nèi)無(wú)連接, 層間全連接, 隱單元的狀態(tài)只與可見(jiàn)單元有關(guān), 所以在函數(shù)設(shè)計(jì)時(shí)不但要考慮樣本的似然程度還要考慮維度對(duì)模型訓(xùn)練的影響.

        本文采用重構(gòu)誤差[13]的方法來(lái)評(píng)價(jià)樣本的似然程度, 所謂重構(gòu)誤差就是通過(guò)Gibbs采樣重構(gòu)的單元與訓(xùn)練樣本原始數(shù)據(jù)的平方差, 其具體流程如下:

        式中,I為可見(jiàn)單元個(gè)數(shù),S為樣本維度, 根據(jù)適應(yīng)度的大小對(duì)個(gè)體進(jìn)行選擇, 當(dāng)適應(yīng)度值越大時(shí), 則個(gè)體越好,即該個(gè)體對(duì)應(yīng)的GDBN模型似然度最高.

        (3)遺傳操作

        在遺傳算法(GA)改進(jìn)網(wǎng)絡(luò)模型后, 進(jìn)一步優(yōu)化精調(diào)真?zhèn)€模型, 其算法流程如圖3所示.

        圖3 算法流程

        3.2 框架實(shí)現(xiàn)

        (1)文本預(yù)處理: 將通過(guò)爬蟲(chóng)得到的數(shù)據(jù)內(nèi)容進(jìn)行處理, 將其中涉及到個(gè)人隱私、url鏈接或敏感信息的內(nèi)容刪除.

        (2)分詞、去停用詞: 由于中文評(píng)論無(wú)法像英文評(píng)論一樣直接通過(guò)空格來(lái)分隔單詞, 所以本文采用Jieba工具, 進(jìn)行中文分詞, 并去掉停用詞, 如“的”、“和”等一些出現(xiàn)頻率高但無(wú)情感意義的詞, 為特征提取提供較為準(zhǔn)確的基元.

        (3)特征提取: 通過(guò)GDBN網(wǎng)絡(luò)模型進(jìn)行深層建模與特征提取.

        (4)情感分類(lèi): BP網(wǎng)絡(luò)對(duì)提取到的特征進(jìn)行情感傾向性分類(lèi).

        4 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)

        本文具體實(shí)驗(yàn)環(huán)境如表1所示.

        為了驗(yàn)證本文所提出的分類(lèi)算法的有效性, 本文基于三個(gè)中文文本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證. (1)使用中科院譚松波教授的酒店評(píng)論語(yǔ)料(D1), 該語(yǔ)料采集于攜程網(wǎng), 規(guī)模為 10 000 篇, 被整理成 4 個(gè)子集, 1、ChnSentiCorp-Htl-ba-2000: 平衡語(yǔ)料, 正負(fù)類(lèi)各 2k; 2、ChnSentiCorp-Htl-ba-4000:平衡語(yǔ)料, 正負(fù)類(lèi)各 4k; 3、ChnSentiCorp-Htl-ba-6000: 平衡語(yǔ)料, 正負(fù)類(lèi)各 3k; 4、ChnSentiCorp-Htl-ba-10000: 非平衡語(yǔ)料, 其中正類(lèi)為7k. (2)使用COAE2014微博觀點(diǎn)數(shù)據(jù)集, 在該數(shù)據(jù)集中隨機(jī)抽取30 000條作為實(shí)驗(yàn)數(shù)據(jù)集, 對(duì)其中部分訓(xùn)練數(shù)據(jù)進(jìn)行不同情感傾向的人工標(biāo)注, 主要情感有開(kāi)心、憤怒、厭惡、低落四個(gè)類(lèi)別. (3)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)程序從微博平臺(tái)上采集的50 000條微博數(shù)據(jù)(D3), 其中標(biāo)注的積極微博有25 000條, 消極微博有20 000條,中性微博有5000條. 考慮到其中部分能容可能含有用戶隱私, 刪除了數(shù)據(jù)集中的url鏈接等信息.

        表1 實(shí)驗(yàn)環(huán)境

        4.2 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)方案總體過(guò)程如圖4所示.

        圖4 實(shí)驗(yàn)方案

        首先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理, 生成文本特征向量,然后將訓(xùn)練后的GDBN情感分類(lèi)模型用于測(cè)試數(shù)據(jù)分類(lèi)并檢驗(yàn)分類(lèi)效果.

        4.3 性能評(píng)估

        precision主要體現(xiàn)模型對(duì)負(fù)樣本的區(qū)分能力, 通常用P表示, 設(shè)TP為分類(lèi)正確的文本數(shù),N為樣本總數(shù),其計(jì)算公式如下:

        recall主要體現(xiàn)模型對(duì)正樣本的識(shí)別能力, 通常用R表示, 設(shè)N+為某一類(lèi)的樣本總數(shù), 其計(jì)算公式如下:

        F1值為兩者的綜合, 當(dāng)F1值越高時(shí)證明模型越好. 其計(jì)算方法如下:

        4.4 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文提出的基于GDBN網(wǎng)絡(luò)的文本情感傾向性分類(lèi)算法的有效性, 將SVM、DBN與本文算法進(jìn)行對(duì)比, 其對(duì)比實(shí)驗(yàn)結(jié)果如表2所示. 且作出GDBN算法用于三個(gè)中文文本數(shù)據(jù)集(D1、D2、D3)的迭代曲線圖如圖5所示, 其結(jié)果表明, GDBN算法較于DBN和SVM算法更能有效的對(duì)文本情感傾向進(jìn)行分類(lèi).

        表2 實(shí)驗(yàn)結(jié)果對(duì)比(單位: %)

        圖5 GDBN迭代曲線圖

        本文對(duì)三種分類(lèi)算法做ROC曲線進(jìn)行模型評(píng)估,如圖6所示. ROC曲線下面積越大代表模型性能越好,由圖6可知基于GDBN算法的文本情感分類(lèi)模型具有更高的分類(lèi)性能.

        圖6 ROC曲線圖

        5 結(jié)語(yǔ)

        為了更好的解決中文文本情感分類(lèi)問(wèn)題, 本文基于深度學(xué)習(xí)算法構(gòu)建了一個(gè)GDBN網(wǎng)絡(luò)模型, 針對(duì)DBN網(wǎng)絡(luò)人工進(jìn)行隱層單元個(gè)數(shù)選擇從而導(dǎo)致模型性能存在極大不確定性的問(wèn)題, 引入具有強(qiáng)大全局尋優(yōu)搜索能力的遺傳算法, 根據(jù)實(shí)驗(yàn)輸入數(shù)據(jù)自行對(duì)隱單元個(gè)數(shù)尋優(yōu), 取得當(dāng)前模型的適宜值. 經(jīng)實(shí)驗(yàn)驗(yàn)證可得, 本文所提方法在分類(lèi)準(zhǔn)確性和降低模型復(fù)雜性上均有提升, 能取得良好的效果, 但仍存在不足. 在今后的工作中, 將繼續(xù)改進(jìn)本文算法, 比如在對(duì)提取到的特征進(jìn)行分類(lèi)時(shí)候, 針對(duì)BP網(wǎng)絡(luò)存在的網(wǎng)絡(luò)“震蕩”等問(wèn)題, 采用XGBoost算法來(lái)進(jìn)行分類(lèi), 進(jìn)一步提高模型情感分類(lèi)的精度.

        猜你喜歡
        隱層分類(lèi)文本
        分類(lèi)算一算
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測(cè)模型及應(yīng)用
        人民珠江(2019年4期)2019-04-20 02:32:00
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于近似結(jié)構(gòu)風(fēng)險(xiǎn)的ELM隱層節(jié)點(diǎn)數(shù)優(yōu)化
        最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動(dòng)軸承故障診斷
        久久亚洲精品成人av观看| 久久久久亚洲av成人网人人网站| 国产精品 无码专区| 国产精品99精品无码视亚| 纯爱无遮挡h肉动漫在线播放| 亚洲熟女精品中文字幕| 国产欧美高清在线观看| 又色又爽又黄高潮的免费视频| 国产午夜福利在线观看红一片| 国产婷婷色综合av蜜臀av| 国产剧情av麻豆香蕉精品| 欧美亚洲精品一区二区| 久久久AV无码精品免费| 人妻爽综合网| 99久久国产精品免费热| 丰满熟妇人妻av无码区| 亚洲av无码一区二区三区观看 | 337人体做爰大胆视频| 亚洲欧美日韩国产一区| 亚洲中文字幕精品久久久久久直播 | 国产精品亚洲av一区二区三区| 国产日产韩国级片网站| 亚洲国产精品久久精品 | 国产精品国产三级国产专区5o| 无码区a∨视频体验区30秒| 久久老熟女乱色一区二区 | 丰满老熟妇好大bbbbb| 日本成人一区二区三区| 美女被射视频在线观看91| 色偷偷av一区二区三区人妖| 中文字幕视频一区懂色| 免费视频无打码一区二区三区| 国产精品久久久久久av| 国产裸拍裸体视频在线观看| 午夜成人理论无码电影在线播放| 亚洲a∨无码精品色午夜| 久久久精品国产sm调教网站| 国产精品99久久免费| 亚洲欧美在线视频| 国产精品久久久黄色片| 亚洲国产精品成人av在线不卡 |