亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向Twitter情感分析的文本預處理方法研究

        2019-05-05 08:38:34王永昌朱立谷
        關(guān)鍵詞:集上貝葉斯預處理

        王永昌,朱立谷

        (1.中國傳媒大學 計算機與網(wǎng)絡(luò)空間安全學院,北京 100024;2.石家莊學院,石家莊 050000)

        1 引言

        隨著Web 2.0時代的到來,網(wǎng)民已經(jīng)成為活躍的內(nèi)容提供者。用戶是任何組織的中心焦點,基于用戶數(shù)據(jù)的大數(shù)據(jù)分析在預測正確策略方面非常重要。因此對于社交網(wǎng)絡(luò)用戶數(shù)據(jù)的研究是當今時代的趨勢之一。社交媒體進一步加速了這一巨大轉(zhuǎn)變,并為他們的用戶配備工具和數(shù)字資源,幫助他們產(chǎn)生創(chuàng)造性和生動的內(nèi)容。了解用戶生成的內(nèi)容是輿情分析和輿情監(jiān)測的重要組成部分。

        在流行的社交門戶網(wǎng)站中,Twitter一直是吸引眾多研究者關(guān)注的熱點,如預測民主選舉事件、消費品牌、電影票房、股票市場、名人知名度等。Twitter擁有超過313百萬個月活躍用戶,每天有超過5億條推特,已經(jīng)成為一個組織和個人的金礦,在維護和增強他們的聲譽方面有很強的社會、政治或經(jīng)濟利益的影響力。情感分析為這些組織提供了實時監(jiān)控不同社交媒體站點的能力。情感分析是自動檢測文本分段是否包含情感或自定內(nèi)容的過程,它還可以確定文本的極性。目前的方法使用文字的字面意義來分類成正或負,從而執(zhí)行情感分析。理解情感分析的目標和相對意義是很重要的。例如,“喬布斯是不可預測的”,當“喬布斯”是一部電影時,它會被認為是一種積極的情感,如果“喬布斯”是一個人的名字,那么它不一定是真的。Twitter實體分類旨在將Twitter的情感極性歸類為正、負或中性。Twitter通常由不完整、嘈雜、結(jié)構(gòu)不好的句子、不規(guī)則的表達、不完善的詞和非詞典術(shù)語組成。在特征選擇之前,應(yīng)用一系列預處理(例如,去除停止詞、移除URL、替換否定)來減少噪聲量。在現(xiàn)有方法中廣泛地進行情感分析的研究主要集中在新情感特征的提取上,特別是基于機器學習的方法[1-4]。然而,很少有研究關(guān)注預處理方法對Twitter實體分析性能的影響,本文重點研究了提高Twitter情感分析性能的各種預處理方法。

        本文分析了各種預處理方法對情感分類的影響,包括基于支持向量機(SVM)、樸素貝葉斯、最大熵和基于人工神經(jīng)網(wǎng)絡(luò)的監(jiān)督分類方法。我們使用四種經(jīng)典分類模型和基于Mapreduce的分布式分類模型來識別Twitter數(shù)據(jù)集上的情感極性。實驗結(jié)果表明,我們提出的方法在經(jīng)過模型參數(shù)調(diào)優(yōu)之后,分類性能得到改善,在保證分類性能的同時也提高了效率。本文的第一節(jié)對Twitter情感分析進行了簡單介紹。第二節(jié)中討論相關(guān)研究和背景。第三節(jié)提出了一種新的方法,并利用Twitter數(shù)據(jù)上進行特征與情感分析。第四節(jié)給出了評價方法及實驗結(jié)果分析。最后,在第五節(jié)中進行了總結(jié)與討論。

        2 相關(guān)工作和背景

        文本預處理可以減少文本中的噪聲,有助于提高分類器的性能,加快分類過程。為了識別Twitter的情感極性,大多數(shù)現(xiàn)有的方法應(yīng)用文本預處理(例如,POS,去除URL,擴展縮寫詞,替換否定提及,堵塞,去除停止詞)以減少推文中的噪聲量。典型的Twitter數(shù)據(jù)預處理流程如圖1所示。Marko[5]探討文本預處理在電影評論情感分析中的作用。實驗結(jié)果表明,在預處理后,情感特征的準確度可以通過適當?shù)奶卣骱捅硎镜玫斤@著的改善。Pang[6]研究了不同的停止詞去除方法對推特的極性分類的影響以及刪除停止詞是否影響Twitter情感分類的性能。他們將六種不同的停止詞識別方法應(yīng)用到六個不同的Twitter數(shù)據(jù)集上,并進行了觀察。如何去除停止詞影響兩種監(jiān)督情緒分類方法。他們通過觀察漲落對數(shù)據(jù)稀疏程度、分類特征的步長大小及其分類性能的影響來評估去停詞的影響。使用預編譯的停止詞列表對Twitter情感分類方法的性能產(chǎn)生負面影響。Adam[7]發(fā)現(xiàn)預處理導致原始特征空間的顯著性降低。經(jīng)過預處理后,詞匯量減少了62%。然而,他們沒有討論對Twitter情感分類的性能的影響。Bakliwal[8]探討了預處理方法對Twitter情感分類的影響。他們評估了URL、否定、重復字母、詞干和詞綴化的影響。在斯坦福Twitter情感數(shù)據(jù)集上的實驗結(jié)果表明,當URL特征保留、否定變換和重復字母歸一化被采用時,情感分類準確度增加,但是當應(yīng)用詞干和去詞法化時,情感分類精度降低。Saif[9]評估了二進制Twitter情感分類任務(wù)中URL、停止詞、重復字母、否定、首字母縮略詞和數(shù)字的準確性。實驗表明,情感分類的準確度在擴展縮寫詞和替換否定詞后有所提高,但在刪除URL、刪除號和移除停止詞時幾乎沒有變化。

        圖1 Twitter數(shù)據(jù)預處理流程

        一些研究者利用機器學習算法在社會網(wǎng)絡(luò)分析和情感分析方面進行了研究工作并取得了良好的效果,常用的分類算法包括下列幾種:

        1)樸素貝葉斯:樸素貝葉斯是一種簡單的基于貝葉斯規(guī)則的概率模型,它具有獨立的特征選擇能力,在文本分類中有很好的應(yīng)用[10]。樸素貝葉斯并不限制要處理的類或?qū)傩缘臄?shù)量。漸近樸素貝葉斯是訓練階段最快的學習算法。本文利用多項式樸素貝葉斯模型[11]。類C *被分配給推特d,如公式1和公式2所示:

        C *=argMaxCPNB(C|D)

        (1)

        (2)

        其中,f代表一個特征,ni(d)代表在twitter d中發(fā)現(xiàn)的特征f的數(shù)量,n表示總特征的數(shù)目。參數(shù)P(C)和P(f|c)是通過極大似然估計獲得的[12]。為了處理在訓練階段遇到的未知單詞,我們使用K=1的拉普拉斯平滑算法來分配相等的概率。

        2)最大熵:最大熵分類(Maximum Entropy,簡稱ME)是另一種在許多自然語言處理應(yīng)用中被證明是成功的方法。ME在標準文本分類中有時優(yōu)于樸素貝葉斯,但這種現(xiàn)象并非在所有情況下都成立。ME提供了滿足給定約束的統(tǒng)一分類模型[13]。該模型表示如下:

        (3)

        其中,c是一個類,d是一個Twitter,λ是權(quán)重向量,Z(d)是一個歸一化函數(shù),f(i,c)是具有特征fi的類C的特征函數(shù),定義如下所示:

        (4)

        在實驗中我們使用高斯迭代十次迭代來獲得足夠的權(quán)重精度。

        3)支持向量機

        支持向量機(SVM)在文本分類領(lǐng)域中被證明具有很高的效率,并且通常比樸素貝葉斯分類器提供更好的準確度。支持向量機遵循著求給定數(shù)據(jù)的最大超平面的思想。

        支持向量機最初是針對線性可分情況下的二類模式分類問題而提出的。給定訓練樣本集T={(x1,y1),,,(x2,y2)},其中Xi∈Rn,yi∈ {-1,1}是類標,問題歸結(jié)為求一個能把兩類數(shù)據(jù)點分開的線性決策函數(shù)f(x)=〈w.x〉+b,其中Xi∈Rn,b∈R,在滿足約束yi[〈w.xi〉+b]>=±1的前提下最大化間隔,如圖2所示。

        圖2 最大間隔超平面示意圖

        我們使用帶有線性核函數(shù)的NLTK -SVM API,所有參數(shù)設(shè)置為默認值。我們使用輸入數(shù)據(jù)作為大小m的向量集合。向量中的每個記錄表示一個特征。以單詞特征提取器為例,在推特中的單詞被認為是一個特征。如果該特征存在,則值為1,否則值為0。為了避免數(shù)據(jù)縮放和提高整體速度,我們使用特征表現(xiàn),而不是使用特征計數(shù)。

        4)人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)依賴于從輸入數(shù)據(jù)的線性組合導出特征的思想,并將輸出建模為這些特征的非線性函數(shù)[14]。這導致了人工神經(jīng)網(wǎng)絡(luò)成為機器學習系統(tǒng)中最流行和最有效的形式之一。我們采用前饋神經(jīng)網(wǎng)絡(luò)來提高其先進的學習能力。在各種前饋網(wǎng)絡(luò)中,BPN被認為是最好的,它仍然是最有用的網(wǎng)絡(luò)之一。經(jīng)驗表明隱藏層一般是一個或兩個。

        由后向傳播訓練的前饋網(wǎng)絡(luò)算法如算法1所示。

        算法1 由后向傳播訓練的前饋網(wǎng)絡(luò)算法

        我們實現(xiàn)了神經(jīng)網(wǎng)絡(luò)的所有優(yōu)化設(shè)置、隱神經(jīng)元數(shù)目、系統(tǒng)學習率等,并從輸出層實現(xiàn)正負值的輸出項。

        雖然上述這些方法在分類準確性方面是令人滿意的,但未考慮擴展目標以及算法效率,缺乏文本預處理對Twitter情感分類影響的正確而深入的分析。針對這一差距,本文重點研究了文本預處理在不同類型特征和機器學習分類上對兩類分類任務(wù)中的Twitter數(shù)據(jù)集的影響,并提出了帶有MPCA的SVM的文本分類模型。

        3 帶有MPCA(基于Mapreduce的PCA算法)的SVM模型

        為了處理維數(shù)災難,我們需要對數(shù)據(jù)進行降維。降維實質(zhì)上是從給定值n維數(shù)據(jù)集x中選擇m個特征。我們使用Python的NoMAPI提供的默認參數(shù)。將PCA應(yīng)用于混合特征抽取器的特征向量,并將簡化的數(shù)據(jù)集作為訓練集提供給支持向量機。

        主成分分析(PCA)的核心思想是減少由大量相關(guān)變量組成的數(shù)據(jù)集的維數(shù),同時盡可能地保留數(shù)據(jù)集中存在的變量[15]。這是通過將原始數(shù)據(jù)轉(zhuǎn)換成一組新的變量,即主成分來實現(xiàn)的,這些變量是不相關(guān)的并且是有序的,以便前幾個特征向量保留了所有原始變量中的大部分變化。PCA的計算過程如算法2所示:

        算法2 主成分分析(PCA)算法

        對于大集合的數(shù)據(jù)集,PCA算法在某些情況下變得難以處理。而MapReduce是用于大數(shù)據(jù)處理的編程模型。在MapReduce模型中,底層的運行時系統(tǒng)在機大規(guī)模集群上進行自動的并行計算。通常情況下,基于MapReduce的計算包含兩個主要階段:map階段和reduce階段,對應(yīng)于map函數(shù)和reduce函數(shù)。在第一階段中,輸入數(shù)據(jù)由map函數(shù)處理,產(chǎn)生一些中間結(jié)果在第二階段中作為reduce函數(shù)的輸入。用戶只需要在map函數(shù)和reduce函數(shù)中設(shè)計計算方法,而不必關(guān)心它們之間的通信細節(jié)。

        我們知道,矩陣相乘是可以并行執(zhí)行的,所以我們開發(fā)了一個基于MapReduce的分布式PCA算法,我們稱之為MPCA。

        該算法的詳細描述如算法3所示。

        為了減少原始特征空間的維數(shù),PCA被用于尋找投影方向,這是最小均方誤差對原始數(shù)據(jù)的最有效表示。定義FC={FC1,F(xiàn)CN2,…,F(xiàn)CN}為特征矩陣,其中N是目標數(shù)據(jù)集上的樣本數(shù)。協(xié)方差矩陣C定義為

        C(x)=φ(x)*φT(x)

        (5)

        其中φ(x)表示數(shù)據(jù)的原始矩陣,φT(x)表示原矩陣的轉(zhuǎn)置。協(xié)方差矩陣C利用均值偏差對訓練域和測試域進行數(shù)據(jù)歸一化。投影權(quán)重可以通過協(xié)方差矩陣奇異值分解(SVD)得到一個正交特征向量矩陣,并且是一個具有特征值的對角矩陣。將特征值按降序排序以選擇主成分。

        算法3 基于Mapreduce的PCA算法(MPCA)

        支持向量機可以在任務(wù)轉(zhuǎn)移過程中實現(xiàn)全局優(yōu)化,提高數(shù)據(jù)分類的準確性。

        本算法流程就是用主成分分析(PCA)對數(shù)據(jù)集進行降維,得到數(shù)據(jù)的特征向量。對于任意一個樣本數(shù)據(jù),將樣本數(shù)據(jù)向特征向量投影,得到的投影系數(shù)作為樣本的特征表示。使用支持向量機(SVM)對這些不同的投影系數(shù)向量分類,來進行分類識別,經(jīng)過mapreduce排序得到主成分特征,并由SVM實現(xiàn)最終分類。該算法的算法模型如圖3所示。

        圖3 基于Mapreduce 的PCA-SVM模型

        為了簡化PCA的排序工作,我們實現(xiàn)了基于Mapreduce的矩陣運算,如圖3所示的主成分因子。它可以逆轉(zhuǎn)原始歸一化系數(shù)ω。隨后,我們可以計算系數(shù)向量ω和原始歸一化索引向量的內(nèi)積,用g(x)表示,其中x表示歸一化原始索引數(shù)據(jù)下的正索引。在此之后,我們只需要使用Mapreduce計算歸一化的原始索引值及其系數(shù)的內(nèi)積以獲得g(x),這大大簡化了排序任務(wù)。

        4 實驗及結(jié)果分析

        4.1 實驗結(jié)果評價標準

        文本分類器的性能評價主要是通過語料庫上的具體實驗結(jié)果來評判。常用的分類器性能評價的指標有:準確率、召回率和F-measure值。

        準確率和召回率這兩個指標是文本分類中使用最廣泛的評價指標[16]。精確率(Precision)是指在分類器判為該類的樣本中,真正屬于該類的樣本所占的比例,考查的是分類的正確性;召回率(Recall)指分類器正確判斷為該類的樣本數(shù)與屬于該類的樣本總數(shù)之比,主要是考查分類的完備性。對于文檔類中的每一個類別,使用列聯(lián)表來計算準確率和召回率。表1為一個列聯(lián)表示。

        表1 二值分類連列表

        于是,準確率和召回率分別定義為:

        (6)

        (7)

        準確率和召回率不是獨立的,它們經(jīng)常是此消彼長的關(guān)系,即通常為了獲得比較高的召回率,準確率會下降;反之亦然。所以單獨評價很多時候并不能真正說明一種方法的分類性能。Van Rijsbergen提出的F-measure值綜合考慮召回率和準確率來對分類器進行整體評價。其中最常用的是F1指標,其公式為:

        (8)

        4.2 實驗環(huán)境

        本實驗的硬件環(huán)境是一臺計算機,其CPU為Intel Core i7-4510@2.60GHZ,內(nèi)存為8GB,硬盤容量為2T。軟件環(huán)境包括Win10專業(yè)版操作系統(tǒng)和開源軟件WEKA以及Hadoop。WEKA和Hadoop都是免費的,非商業(yè)的,用Java編寫的開源軟件,WEKA可用于機器學習和數(shù)據(jù)挖掘算法調(diào)試,而Hadoop則用于開發(fā)基于Mapreduce 的分布式應(yīng)用。在我們的實驗中,我們使用WEKA3.7.12以及Hadoop2.6。

        4.3 實驗數(shù)據(jù)集

        在不同的上下文中,預處理可能有不同的影響。本文研究了預處理對情感分析使用的不同Twitter數(shù)據(jù)集的影響。SGHT-Twitter情感測試(STS測試)數(shù)據(jù)集由GO等人引入,它已被手動注釋并包含177個負值、182個正值和139個中性推文。雖然StanfordTwitter測試集相對較小,但它已被廣泛應(yīng)用于針對不同的評估任務(wù)。SeaVal2014數(shù)據(jù)集是在SealVal2014 TASK95中提供的,該數(shù)據(jù)集由11042條Twitter組成,其已被標注為正、負和中性標簽。由TelWalet等人構(gòu)建的情感強度Twitter DataSet(SS Twitter)由4242個帶有正面和負面情緒強度的微博標記組成。情緒評估數(shù)據(jù)集(SE Twitter)是由Sacha Narr等人提出的,該數(shù)據(jù)集由6745個推文,情感標簽已被人工標注。

        4.4 實驗結(jié)果及分析

        為了評估各種預處理方法的效果,我們在SGHT-Twitter,StanfordTwitter,SS Twitter,SE Twitter這四種數(shù)據(jù)集上分別使用四種經(jīng)典的分類方法以及我們設(shè)計的SVM+MPCA分類模型,將5種預處理方法應(yīng)用于情感分類,并通過在WEKA平臺上的測試,得到相應(yīng)的分類指標,分別如表2-表6所示。

        表2 樸素貝葉斯在四種數(shù)據(jù)集上的分類性能

        表3 最大熵在四種數(shù)據(jù)集上的分類性能

        表4 支持向量機在四種數(shù)據(jù)集上的分類性能

        表5 BPN在四種數(shù)據(jù)集上的分類性能

        表6 SMV+MPCA在四種數(shù)據(jù)集上的分類性能

        從表2和表3可以看出樸素貝葉斯方法和最大熵方法在SGHT-Twitter數(shù)據(jù)集和SE Twitter數(shù)據(jù)集上的分類性能指標是一樣的,而在StanfordTwitter數(shù)據(jù)集和SS Twitter上略有差別,但綜合來看也基本持平。表4和表5的數(shù)據(jù)說明支持向量機方法和BPN方法的分類性能也基本接近,但對比表2和表3來看,兩種方法均優(yōu)于樸素貝葉斯方法和最大熵方法。但這種優(yōu)勢是以計算開銷為代價的,因為從訓練模型到得到結(jié)果的耗時來看,支持向量機方法和BPN方法要比樸素貝葉斯方法和最大熵方法慢很多。表6則表明我們設(shè)計的分類模型僅在SS Twitter數(shù)據(jù)集上不及前者,而在其它三個數(shù)據(jù)集上均優(yōu)于上述四種方法。與此同時,由于我們采用了基于Mapreduce的分布式計算模型,從而大大減少了計算開銷,能夠在保證提供分類性能的同時更加高效。

        對于在SS Twitter數(shù)據(jù)集上的性能不佳,我們認為對同一種分類模型而言,由于不同的參數(shù)設(shè)置可能在針對不同數(shù)據(jù)集上形成性能上的差別。因此,我們在WEKA平臺上進行了參數(shù)調(diào)整和優(yōu)化。

        在WEKA平臺的分類器選項中我們選擇SMO算法,SMO算法是針對求解SVM問題的Lagrange對偶問題開發(fā)的高效算法。我們算法選項中的ε值改為2.0,numFlold改為2,toleranceParameter改為0.003,核函數(shù)選擇RBF kernel,然后重新啟動訓練過程,得到的性能結(jié)果如表7所示。

        表7 參數(shù)優(yōu)化后的SMV+MPCA在SS Twitter 數(shù)據(jù)集上的分類性能

        表7的結(jié)果可以看出,通過參數(shù)優(yōu)化后,我們的算法模型在SS Twitter數(shù)據(jù)集上的三項性能指標均有提升。為了直觀比較幾種算法的性能差別,我們將這幾種算法在SS Twitter數(shù)據(jù)集上的分類結(jié)果通過WEKA平臺繪制了ROC曲線,如圖4所示。

        圖4 各種算法在SS Twitter數(shù)據(jù)集上的分類ROC曲線

        從圖4給出的ROC曲線可以看出,我們設(shè)計的分類算法模型(MPCA+SVM)相對于其他傳統(tǒng)算法而言,其ROC曲線下的面積最大,說明取得了很好的效果。同時也可以看出在經(jīng)過參數(shù)調(diào)優(yōu)后,使得原本在SS Twitter數(shù)據(jù)集上性能表現(xiàn)一般到有很大提升,說明了本算法模型具有很好的適應(yīng)性和擴展性,實驗結(jié)果令人滿意。

        5 總結(jié)

        本文研究了五種不同的文本預處理方法對Twitter中情感極性分類的影響。我們使用傳統(tǒng)的四種分類器以及我們所設(shè)計的MPCA+SVM的算法模型在4個不同的Twitter數(shù)據(jù)集進行了一系列的實驗,并在WEKA平臺上驗證了幾種預處理方法對Twitter數(shù)據(jù)集的有效性。實驗結(jié)果表明,樸素貝葉斯方法和最大熵方法分類性能接近,支持向量機(SVM)和前饋人工神經(jīng)網(wǎng)絡(luò)(ANN)方法的性能也基本一致,并且效果均優(yōu)于前兩種分類器,但這種優(yōu)越是以復雜的計算和較長的實驗耗時為代價的。而我們設(shè)計的算法模型在保證性能提升的同時,通過設(shè)計基于Mapreduce分布式PCA計算,解決了因復雜計算所帶來的時間消耗問題。針對本方法在SS Twitter數(shù)據(jù)集上性能表現(xiàn)一般,我們經(jīng)過了參數(shù)優(yōu)化并重新進行測試,結(jié)果顯示各項性能指標均有較大提升,說明我們的方法具有良好的適應(yīng)性,實驗的整體效果是令人滿意的。在下一步的工作中,我們會針對Twitter或其他微博情感分類任務(wù),研究適合不同類別的預處理方法和特征模型。

        猜你喜歡
        集上貝葉斯預處理
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        復扇形指標集上的分布混沌
        基于預處理MUSIC算法的分布式陣列DOA估計
        制導與引信(2017年3期)2017-11-02 05:16:56
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計的軌道占用識別方法
        淺談PLC在預處理生產(chǎn)線自動化改造中的應(yīng)用
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        絡(luò)合萃取法預處理H酸廢水
        基于自適應(yīng)預處理的改進CPF-GMRES算法
        高潮潮喷奶水飞溅视频无码| 麻豆av在线免费观看精品| 国产成人亚洲精品91专区高清 | 在线日本高清日本免费| 国产乱人精品视频av麻豆网站| 国产精品特级毛片一区二区三区| 免费无码av片在线观看 | 亚洲av自偷自拍亚洲一区| 精品综合一区二区三区| 狠狠色噜噜狠狠狠狠米奇777| 国产女精品| 久久精品一区二区三区夜夜| 日韩 亚洲 制服 欧美 综合| 女邻居的大乳中文字幕| av一区无码不卡毛片| 日本人妻系列一区二区| 最近免费中文字幕中文高清6 | 中文字幕女同人妖熟女| 国产农村熟妇videos| 欧美一片二片午夜福利在线快 | av天堂一区二区三区| 亚洲综合国产成人丁香五月激情| 夜夜未满十八勿进的爽爽影院| 亚洲成av人在线观看无堂无码| 国产亚洲精品视频网站| 欧美嫩交一区二区三区| 亚洲精品字幕在线观看| 成人综合亚洲欧美一区h| 日本va中文字幕亚洲久伊人| 日韩av无码精品一二三区| 国产在线一91区免费国产91| 台湾自拍偷区亚洲综合| 亚洲av日韩av激情亚洲| 成人综合网亚洲伊人| www久久久888| 国产日产在线视频一区| 国产亚洲精品久久久ai换| 国产午夜精品久久久久99| 免费视频亚洲一区二区三区| 国产婷婷色一区二区三区在线| 欧美激情在线不卡视频网站|