亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的互聯(lián)網(wǎng)評(píng)論傾向性分析相關(guān)算法研究①

        2019-02-15 03:52:34徐姍姍
        關(guān)鍵詞:融合情感方法

        吳 菲, 徐姍姍

        (1.南京工業(yè)大學(xué)浦江學(xué)院,江蘇 南京 210000;2.南京林業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院,江蘇 南京 21000)

        0 引 言

        互聯(lián)網(wǎng)在給人們帶來(lái)信息獲取便利性的同時(shí),也出現(xiàn)了一些負(fù)面影響,如:網(wǎng)絡(luò)上存在大量虛假信息。在當(dāng)今的互聯(lián)網(wǎng)+時(shí)代,目前大多數(shù)人們首先通過(guò)聯(lián)網(wǎng)設(shè)備獲取或發(fā)布信息。如何更好地了解群眾的情緒或觀(guān)點(diǎn)并精準(zhǔn)地得到觀(guān)點(diǎn)傾向性,就成了目前輿情分析領(lǐng)域最需要解決的主要問(wèn)題。而目前政府等部門(mén)進(jìn)行輿情監(jiān)控的主要手段是觀(guān)察情感的流向從而提供優(yōu)秀的戰(zhàn)略建議。根據(jù)此戰(zhàn)略建議去安撫、疏導(dǎo)人們,防止部分人產(chǎn)生暴力行為從而導(dǎo)致人群的恐慌。

        因此,針對(duì)評(píng)論獲得情感的傾向性對(duì)于輿論的監(jiān)督或商品評(píng)論的統(tǒng)計(jì)都有著至關(guān)重要的作用。以往的方法:通過(guò)人工統(tǒng)計(jì)分析,其效率極低。因此提出一種利用機(jī)器來(lái)自動(dòng)分析情感傾向的方法是十分必要的。

        1 相關(guān)研究介紹

        1.1 傳統(tǒng)的IG算法及改進(jìn)

        IG算法是一種有效的特征選擇算法,目前已在文本分類(lèi)研究領(lǐng)域中得到了廣泛的應(yīng)用。

        傳統(tǒng)的IG算法描述如下:

        傳統(tǒng)算法在信息增益上無(wú)法區(qū)分其特征,即情感詞。即便原有算法能夠擇出一些特征,但是算法分析后得到的結(jié)果并不是非常理想。對(duì)于情感分析這一重要問(wèn)題,不難看出得到評(píng)論的極性最有效率的方式是判斷情感詞。所以在提取特征詞的時(shí)候,情感詞所占的比例應(yīng)當(dāng)?shù)玫酱罅吭黾訌亩岣吲卸ǖ臏?zhǔn)確度。

        針對(duì)上述要求,對(duì)IG算法進(jìn)行改進(jìn),改進(jìn)后的算法命名為IG-S,其計(jì)算公式如下:

        1.2 傳統(tǒng)的TF-IDF算法及改進(jìn)

        TF-IDF是一種統(tǒng)計(jì)方法,某個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)文本庫(kù)中的其中一份文件的重要程度可以用此方法來(lái)評(píng)估。隨著字詞在文件中出現(xiàn)的次數(shù)增加,字詞的重要性逐漸變高,但同時(shí)也會(huì)隨著它在文本庫(kù)中出現(xiàn)的頻率成反比下降。

        傳統(tǒng)的TF-IDF算法描述如下:

        qi=TFi×IDF

        其中,TFi表示特征i在數(shù)據(jù)集中出現(xiàn)的概率。IDF表示逆向文檔頻率,此變量在文本庫(kù)或文件集合中包括了特征i的樣本內(nèi)容的比例。其中TF、IDF公式如下:

        |D|代表所有數(shù)據(jù)的總數(shù),ni,j表示在數(shù)據(jù)集中i出現(xiàn)的次數(shù),∑knk,j代表數(shù)據(jù)集中的不同特征相加。

        傳統(tǒng)的TF-IDF算法存在的不足:①傳統(tǒng)算法無(wú)法準(zhǔn)確地辨別一個(gè)詞是否為情感詞,但在實(shí)際的情況下情感詞匯和普通詞往往存在著辨別樣本所屬樣本類(lèi)能力的差異,傳統(tǒng)算法也沒(méi)有把重要的因素:位置給考慮進(jìn)來(lái)。不難看到,修飾詞后面若加入情感詞語(yǔ),相應(yīng)情感詞語(yǔ)的分?jǐn)?shù)也應(yīng)該得到提升②同時(shí)傳統(tǒng)算法極大幾率將部分無(wú)用且有著稀疏性的詞語(yǔ)的評(píng)論貢獻(xiàn)度定的過(guò)于高,這樣就導(dǎo)致了很難將不同類(lèi)別之間的特征差異展現(xiàn)出來(lái)。

        針對(duì)上述的不足,作者改進(jìn)了特征權(quán)重的計(jì)算方式,提出了TF-IDF-S方法,算法公式如下:

        經(jīng)過(guò)此方法改進(jìn)后的算法不僅能夠提高程度副詞與情感詞間的權(quán)重,還額可以大大降低稀疏的特診對(duì)判定準(zhǔn)確度的惡劣影響。

        1.3 融合分類(lèi)器構(gòu)建

        1.3.1 情感傾向性分析方法

        目前,在眾多的文本分類(lèi)的方法當(dāng)中,情感傾向性分析的主要手段是將完整的評(píng)論信息根據(jù)不同情況進(jìn)行分類(lèi),從情感的傾向角度分為正面評(píng)論、中性評(píng)論和負(fù)向評(píng)論。具體步驟為:

        Step1:數(shù)據(jù)預(yù)處理:用預(yù)處理技術(shù)將數(shù)據(jù)集進(jìn)行處理,將其形成向量空間;

        Step2:訓(xùn)練模型;

        Step3:測(cè)試階段:將測(cè)試數(shù)據(jù)放入訓(xùn)練好的模型當(dāng)中,得到預(yù)測(cè)分類(lèi)。

        1.3.2 融合分類(lèi)器展示

        融合分類(lèi)器其結(jié)構(gòu)圖如下:

        1.3.3 構(gòu)建融合分類(lèi)器

        (1)樸素貝葉斯算法

        輸入:輸入樣本數(shù)據(jù)Y=(x1,y1)(x2,y2)…(xi,yi),其中Y為文本

        (2)KNN算法

        輸入:輸入文本Y=(x1,y1),(x2,y2),…,(xi,yi)

        Step1:fort=1,…,M, 算法根據(jù)預(yù)先設(shè)定的比率,進(jìn)行隨機(jī)生成向量空間Vt,其中對(duì)于每個(gè)生成的向量空間其維度為K,同時(shí)將根據(jù)其原有的向量空間來(lái)標(biāo)志它的位置Vt=RS(v,k);

        Step2:根據(jù)所有在Step1種得到的特征子空間V1,V2,…,Vm, 數(shù)據(jù)集Y通過(guò)不同的特征子空間V1,V2,…,Vm得到子數(shù)據(jù)集Y1,Y2,…,Ym;

        Step3:將KNN分類(lèi)器作用于數(shù)據(jù)集合Y1,Y2,…,Ym,最終形成了M個(gè)KNN分類(lèi)器hi:h(i)=KNN(Yi)

        Step4:對(duì)于測(cè)試樣本集合X將通過(guò)其特征子空間V1,V2,…,Vm,劃分為相同格式的輸入數(shù)據(jù)集合X1,X2,…,Xm;

        (3)SVM分類(lèi)算法

        輸入:輸入文本Y=(x1,y1),(x2,y2),…,(xi,yi)

        輸出:每個(gè)樣本數(shù)據(jù)的類(lèi)別標(biāo)號(hào)和每個(gè)樣本數(shù)據(jù)所屬類(lèi)別的貢獻(xiàn)值

        Step1:數(shù)據(jù)預(yù)處理階段:利用數(shù)據(jù)清洗技術(shù)將訓(xùn)練數(shù)據(jù)進(jìn)行處理優(yōu)化Step2:構(gòu)建向量空間:利用上文中的構(gòu)建向量空間的方法將文本表示成向量空間(空間內(nèi)的數(shù)據(jù)格式應(yīng)如輸入數(shù)據(jù)一樣);

        Step3:參數(shù)優(yōu)化階段:算法開(kāi)始改善 分類(lèi)器的參數(shù) c和g(從而使得分類(lèi)器的效果最好),最終調(diào)出最優(yōu)的分類(lèi)器;

        Step4:模型的生成階段:調(diào)節(jié)參數(shù) c、g后 生成的分類(lèi)器模型將用來(lái)訓(xùn)練訓(xùn)練樣本數(shù)據(jù),使得模型效果達(dá)到最優(yōu)。

        Step5:測(cè)試階段:將預(yù)處理好的測(cè)試樣本輸入模型形成向量空間。

        Step6:查看結(jié)果: 測(cè)試數(shù)據(jù)在被訓(xùn)練好的模型預(yù)測(cè)得到樣本分類(lèi)之后,采用格式化輸出其標(biāo)號(hào)和貢獻(xiàn)值并保存。

        (4)分類(lèi)器融合

        文章結(jié)合SVM、KNN和樸素貝葉斯機(jī)器學(xué)習(xí)等方法,構(gòu)建一個(gè)分類(lèi)器結(jié)合的模型。提出的模型不僅考慮到各種算法的優(yōu)缺點(diǎn),還將每種算法的優(yōu)勢(shì)相結(jié)合,最終形成一個(gè)能夠良好解決情感分析問(wèn)題的模型,此模型的適應(yīng)性也較好。

        提出的融合分類(lèi)器算法如下:

        輸入:輸入文本Y=(x1,y1),(x2,y2),…,(xi,yi)

        Step2:通過(guò)分類(lèi)器1預(yù)測(cè)結(jié)果,F(xiàn)1=

        分類(lèi)器2預(yù)測(cè)結(jié)果,F(xiàn)2=

        分類(lèi)器M預(yù)測(cè)結(jié)果,F(xiàn)m=,

        根據(jù)每個(gè)分類(lèi)器得分更新分類(lèi)器的權(quán)值

        2 實(shí)驗(yàn)方案與實(shí)驗(yàn)結(jié)果

        2.1 實(shí)驗(yàn)方案

        (1)實(shí)驗(yàn)數(shù)據(jù)

        文章實(shí)驗(yàn)數(shù)據(jù)集合采集:考慮到現(xiàn)在還沒(méi)有第三方公布優(yōu)質(zhì)的數(shù)據(jù)集合獲取接口,提出利用python的網(wǎng)絡(luò)爬蟲(chóng)來(lái)獲得抓取互聯(lián)網(wǎng)上的熱點(diǎn)評(píng)論數(shù)據(jù)。

        (2)訓(xùn)練數(shù)據(jù)集

        從最近的互聯(lián)網(wǎng)評(píng)論中爬取熱點(diǎn)新聞的評(píng)論信息,并利用數(shù)據(jù)預(yù)處理技術(shù)將垃圾數(shù)據(jù)與有效數(shù)據(jù)進(jìn)行分離。數(shù)據(jù)集合分布如下:5000條主觀(guān)評(píng)論。5000條客觀(guān)評(píng)論。因此訓(xùn)練集合的大小為10000。(3)測(cè)試數(shù)據(jù)集

        從訓(xùn)練數(shù)據(jù)集中選取三個(gè)主題,在刪除了大量垃圾評(píng)論后,剩下5000條左右主觀(guān)評(píng)論、400條左右客觀(guān)評(píng)論。為了避免客觀(guān)評(píng)論和主觀(guān)評(píng)論的不平衡性,查找了4500條左右表示客觀(guān)性的評(píng)論(同一話(huà)題),根據(jù)此方法選取的測(cè)試數(shù)據(jù)分布良好。

        (4)形成預(yù)測(cè)分類(lèi)器

        利用特征組合將文本表示為向量,放入所構(gòu)建的融合分類(lèi)器,形成一個(gè)更有效的分類(lèi)模型。

        2.2 實(shí)驗(yàn)結(jié)果

        利用提出方法進(jìn)行準(zhǔn)確實(shí)驗(yàn),并記錄了準(zhǔn)確率。方法的實(shí)驗(yàn)結(jié)果如下:

        分類(lèi)器方法準(zhǔn)確率樸素貝葉斯79.13%KNN75.41%SVM83.72%融合分類(lèi)器87.96%

        通過(guò)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),融合分類(lèi)器的性能均要優(yōu)于其他三種分類(lèi)器。

        3 結(jié) 語(yǔ)

        主要研究評(píng)論的情感傾向性判斷的方法,提出了改進(jìn)的IG算法和TF-IDF算法。其中改進(jìn)的IG算法對(duì)于傳統(tǒng)的基于信息增益的特征提取方法進(jìn)行了改進(jìn),能夠挑選出更多有效的情感詞。改進(jìn)的TF-IDF算法相比于傳統(tǒng)的算法優(yōu)點(diǎn)在于,提出的優(yōu)化算法能夠在情感詞語(yǔ)和程度副詞于樣本集合中一起存在的時(shí)候,將具有重要意義的情感詞的權(quán)重提高,如此一來(lái)模型分析情感和導(dǎo)出其正確的分類(lèi)的準(zhǔn)確率大大提高。文章也針對(duì)于樸素貝葉斯方法、KNN算法以及SVM分類(lèi)等算法的不足,提出了融合分類(lèi)器,通過(guò)實(shí)驗(yàn)表明,該融合分類(lèi)器取得了一定的效果,能有效的提高分類(lèi)準(zhǔn)確率。

        但由于文章的研究方式的束縛,現(xiàn)有的基于監(jiān)督學(xué)習(xí)的方法雖然能夠解決同一領(lǐng)域的情感分析問(wèn)題。但是一旦樣本集合的樣本來(lái)自于不同話(huà)題或者樣本之間的相似度不能夠達(dá)到一定高度,模型的分類(lèi)效果將變得極為糟糕。這一問(wèn)題很重要,將在接下來(lái)的研究工作中解決。

        猜你喜歡
        融合情感方法
        村企黨建聯(lián)建融合共贏(yíng)
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        《融合》
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        欧美午夜精品久久久久免费视| 亚洲av高清一区二区三| 自拍偷拍亚洲视频一区二区三区 | 久久精品无码鲁网中文电影| 国产精品理人伦国色天香一区二区| 亚洲VA欧美VA国产VA综合| 日韩人妻无码中文字幕一区| 亚洲成av在线免费不卡| 人妻露脸国语对白字幕| 少妇人妻综合久久中文字幕| 777午夜精品免费观看| 亚洲中文字幕久久精品蜜桃 | 日本在线 | 中文| 亚洲粉嫩高潮的18p| 精品亚洲少妇一区二区三区| 亚洲国产精品成人久久av| 亚洲中文字幕一区高清在线 | 亚洲AV无码中文AV日韩A| 日韩av中文字幕少妇精品| 青青草精品视频在线播放| 中文区中文字幕免费看| 免费视频爱爱太爽了| 欧美亚洲日韩国产区| 亚洲日本精品一区久久精品| 国产一区二区三区在线大屁股| 无遮挡1000部拍拍拍免费| 国产精品久久久久av福利动漫| 国产免费破外女真实出血视频| 五码人妻少妇久久五码| 五月婷婷丁香视频在线观看| 一区二区在线观看视频高清| 日韩欧美aⅴ综合网站发布| 波多野吉衣av无码| 国产成人精品麻豆| 清纯唯美亚洲经典中文字幕| 日本午夜精品一区二区三区| 成年女人a毛片免费视频| 国产超碰人人做人人爱ⅴa| 国产一毛片| 东京热日本道免费高清| 人妻中文字幕乱人伦在线|