亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的輿情傾向性分析研究

        2018-01-29 01:42:17羅裕雋
        關(guān)鍵詞:超平面傾向性決策樹

        羅裕雋

        (同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)

        0 引言

        隨著信息化的普及,互聯(lián)網(wǎng)逐漸取代傳統(tǒng)媒體成為信息傳播的主流媒介,各大門戶網(wǎng)站、微博和主流新聞機(jī)構(gòu)都力爭在第一時(shí)間發(fā)布各類新聞信息,最大限度地達(dá)到新聞傳播效果,互聯(lián)網(wǎng)上每天都有數(shù)以萬計(jì)的新聞輿論出現(xiàn)。輿情傾向性分析在網(wǎng)絡(luò)輿情監(jiān)控中起著十分重要的作用,對于企業(yè)而言,能幫助其了解自身的經(jīng)營狀況和存在的問題,依據(jù)當(dāng)前形勢制定相應(yīng)的市場戰(zhàn)略;對于監(jiān)管部門而言,能夠幫助其對所轄企業(yè)進(jìn)行及時(shí)的服務(wù)和監(jiān)管。但現(xiàn)有的門戶網(wǎng)站或搜索引擎一般不會(huì)對發(fā)布或檢索到的信息提供正負(fù)面分類功能,而人工篩選的方式因?yàn)樾实?、工作量大,很難滿足業(yè)界的需求。因此,如何從數(shù)量龐大的新聞中快速且準(zhǔn)確地獲取傾向性信息是一個(gè)亟待解決的問題。

        傳統(tǒng)的中文輿情傾向性分析主要是基于規(guī)則和統(tǒng)計(jì)的方法,如肖紅等人[1]提出的基于句法分析和情感詞典的方法,這類方法具有一定準(zhǔn)確率,但模型的泛化能力較弱,對于規(guī)則未覆蓋到的文本信息不能準(zhǔn)確識(shí)別,且該方法依賴語法規(guī)則和詞典,需要大量專業(yè)人員對語言本身進(jìn)行處理和分析,因此難以推廣使用。

        運(yùn)用機(jī)器學(xué)習(xí)方法進(jìn)行輿情傾向性分析是目前比較主流的研究方向。Pang Bo等人[2]對比了最大熵模型、貝葉斯分類器、支持向量機(jī)以及不同的特征選擇方法,在IMDB影評數(shù)據(jù)集上進(jìn)行測試,其實(shí)驗(yàn)證明基于bi-gram的特征選擇并使用支持向量機(jī)模型得到的情感分析結(jié)果最好。劉志明等人[3]對比了三種機(jī)器學(xué)習(xí)算法,驗(yàn)證了方法在微博評論的適用性。

        綜合分析現(xiàn)有的研究成果,在中文輿情傾向性分析研究領(lǐng)域,僅使用基于統(tǒng)計(jì)的特征抽取以及基于語法規(guī)則和句法樹的分類方法遠(yuǎn)不能達(dá)到理想的效果,而基于機(jī)器學(xué)習(xí)的分析方法研究還較為匱乏,因此本文提出運(yùn)用詞嵌入方法對詞語特征進(jìn)行抽取,并采用平均池化的方法構(gòu)建文本特征,再將抽取的文本特征輸入機(jī)器學(xué)習(xí)分類模型中進(jìn)行預(yù)訓(xùn)練。本文綜合比較了三種主流機(jī)器學(xué)習(xí)分類算法,實(shí)驗(yàn)結(jié)果表明,基于集成學(xué)習(xí)迭代決策樹算法對輿情傾向性分析的效果最好。

        1 特征抽取

        機(jī)器學(xué)習(xí)算法一般不能直接處理原始文本,使用固定長度的數(shù)值特征向量表達(dá)文本是一種常見的特征抽取方式。詞匯的數(shù)量往往十分龐大,如果不加選擇地將所有詞都用做特征,可能會(huì)造成維度災(zāi)難和特征稀疏的問題,導(dǎo)致分類模型的效果不佳。因此特征抽取是機(jī)器學(xué)習(xí)中非常重要的環(huán)節(jié)。

        1.1 詞語特征抽取

        傳統(tǒng)的詞語獨(dú)熱表示(One-hot Representation)僅僅將詞符號(hào)化,不包含任何語義信息。詞嵌入(Word Embedding)是一種基于神經(jīng)網(wǎng)絡(luò)的詞分布式表示,將詞轉(zhuǎn)化為固定長度向量的方法,通常這個(gè)長度都遠(yuǎn)小于詞典的大小,在幾十維到幾百維之間。詞分布式表示的核心是上下文的表示以及上下文與目標(biāo)詞之間的關(guān)系建模,因此詞向量包含豐富的語義信息,在詞性標(biāo)注、命名實(shí)體識(shí)別等自然語言處理任務(wù)中都有出色的表現(xiàn)。

        Word2vec[4-5]是2013年Google發(fā)布的一種基于深度學(xué)習(xí)的詞向量訓(xùn)練工具。如圖1所示,word2vec主要用到Continuous Skip-gram Model(Skip-gram)和Continuous Bag-of-Words Models(CBOW)兩種簡化的神經(jīng)網(wǎng)絡(luò)模型。兩種模型都是由輸入層、投影層和輸出層組成的三層網(wǎng)絡(luò)結(jié)構(gòu)。Skip-gram模型是根據(jù)當(dāng)前詞w(t)預(yù)測其上下文Context(w(t)),而CBOW模型是在w(t)的上下文已知的情況下預(yù)測當(dāng)前詞。

        圖1 word2vec中神經(jīng)網(wǎng)絡(luò)模型

        1.2 文本特征構(gòu)建

        由于文本長度的不一致,機(jī)器學(xué)習(xí)模型不能直接處理詞特征。池化(Pooling)方法能整合特征,保證輸出文本特征維度的統(tǒng)一,同時(shí)能較好保留詞向量中每個(gè)維度特征的信息。經(jīng)過詞向量平均池化后,c維文本特征Docc可表示為

        (1)

        其中,N為文本所包含的詞語數(shù)目,wci為第i個(gè)詞的c維詞向量。

        2 分類方法

        支持向量機(jī)(Support Vector Machine, SVM)、決策樹(Decision Tree, DT)和迭代決策樹(Gradient Boosting Decision Tree, GBDT)在文本分類任務(wù)上都有良好的表現(xiàn),本節(jié)對這三種方法進(jìn)行簡要介紹。

        2.1 支持向量機(jī)

        在線性可分的樣本空間中,劃分超平面可通過如下線性方程來描述:

        wTx+b=0

        (2)

        其中w=(w1;w2;…;wd)為法向量,決定了超平面的方向;b為位移項(xiàng),決定了超平面與原點(diǎn)之間的距離。樣本空間中任意點(diǎn)x到超平面(w,b)的距離可寫為:

        (3)

        假設(shè)超平面(w,b)能將訓(xùn)練樣本正確分類,即對于(xi,yi)∈D,若yi=+1,則有wTx+b>0;若yi=-1,則有wTx+b<0。即:

        (4)

        其中,與超平面距離最近的幾個(gè)訓(xùn)練樣本使公式(4)等號(hào)成立,這些訓(xùn)練樣本被稱為“支持向量”。SVM要找到具有“最大間隔”的劃分超平面,因此其目標(biāo)函數(shù)為:

        s.t.yi(wTxi+b)≥1,i=1,2,…,m

        (5)

        若原始樣本空間不存在一個(gè)劃分超平面,即訓(xùn)練樣本并非線性可分的,對于這樣的問題,SVM通常引入核函數(shù)(Kernel Function)來解決。核函數(shù)與樣本特征的關(guān)系如下:

        (6)

        2.2 決策樹

        決策樹是一個(gè)樹結(jié)構(gòu),其中葉節(jié)點(diǎn)對應(yīng)決策結(jié)果,非葉節(jié)點(diǎn)則對應(yīng)一個(gè)特征屬性的測試,每個(gè)分支代表特征屬性在某個(gè)值域上的輸出。根節(jié)點(diǎn)包含樣本全集,每個(gè)節(jié)點(diǎn)包含的樣本集合根據(jù)屬性測試的結(jié)果被劃分到子節(jié)點(diǎn)中。決策樹生成的基本流程是一個(gè)遞歸的過程,在生成過程中,希望決策樹的分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別,即節(jié)點(diǎn)的“純度”越來越高?!凹兌取蓖ǔS尚畔㈧貋肀硎?,若D為當(dāng)前樣本集合,pk(k=1,2,…,|y|)為第k類樣本所占的比例,則D的信息熵的定義為:

        (7)

        Ent(D)的值越小,則D的純度越高。

        如何選擇最優(yōu)劃分屬性是決策樹生成過程中一個(gè)關(guān)鍵問題。ID3決策樹學(xué)習(xí)算法采用信息增益來進(jìn)行決策樹的劃分屬性選擇。對于屬性a對樣本集D進(jìn)行劃分所獲得的信息增益為:

        (8)

        而另一種常見的決策樹學(xué)習(xí)算法C4.5則基于信息增益率來做劃分屬性選擇。增益率的定義為:

        (9)

        其中

        (10)

        2.3 迭代決策樹

        決策樹具有模型簡單、訓(xùn)練速度快的優(yōu)點(diǎn),但單棵決策樹在模型訓(xùn)練過程中容易出現(xiàn)過擬合的現(xiàn)象,為了彌補(bǔ)這一缺陷,通常采用集成學(xué)習(xí)的方法。集成學(xué)習(xí)的核心思想是通過組合多個(gè)學(xué)習(xí)器,最終得到的模型比單一學(xué)習(xí)器具有顯著優(yōu)越的泛化性能。集成學(xué)習(xí)的示意圖如圖2所示。

        圖2 集成學(xué)習(xí)示意圖

        GBDT是一個(gè)基于迭代累加的決策樹集成算法,它通過構(gòu)造一組回歸決策樹,并把多棵數(shù)的結(jié)果通過Gradient Boosting的方法累加起來作為最終的預(yù)測輸出。Gradient Boosting每一次訓(xùn)練需要在殘差減少的梯度方向上訓(xùn)練一個(gè)新的模型,因此,通過多次訓(xùn)練,模型的殘差不斷降低。

        3 實(shí)驗(yàn)分析

        本文實(shí)驗(yàn)部分采用三個(gè)數(shù)據(jù)集,分別是企業(yè)新聞數(shù)據(jù)集、第三屆中文傾向性分析評測(COAE2011)數(shù)據(jù)集和商品購買評論數(shù)據(jù)集。其中企業(yè)新聞數(shù)據(jù)集包含若干家大型企業(yè)相關(guān)的互聯(lián)網(wǎng)新聞約1 889條篇章級文本,COAE2011抽取財(cái)經(jīng)相關(guān)的約1 400條句子級文本,購物評論集包含電商網(wǎng)站用戶對商品的評價(jià)約20 000條句子級文本。數(shù)據(jù)集的具體分布情況如表1所示 。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)首先對樣本數(shù)據(jù)進(jìn)行預(yù)處理,包括分詞和去除停用詞等,再根據(jù)第1節(jié)介紹的特征抽取方法構(gòu)建樣本特征,其中word2vec選用CBOW模型進(jìn)行詞向量的訓(xùn)練。實(shí)驗(yàn)先后使用SVM、DT和GBDT三種算法在三個(gè)數(shù)據(jù)集上分別進(jìn)行模型的訓(xùn)練和評估,其中算法的實(shí)現(xiàn)采用Python的sklearn模塊。主要參數(shù)為,SVM采用徑向積核函數(shù),DT采用Gini系數(shù)來做特征劃分,GBDT的深度為10,并采用0.05的學(xué)習(xí)率。最終數(shù)據(jù)集的平均準(zhǔn)確率如表2所示。

        表2 傾向性分析結(jié)果

        從結(jié)果來看,在三個(gè)數(shù)據(jù)集上,GBDT算法的準(zhǔn)確率都高于其他兩個(gè)方法。

        4 結(jié)論

        通過實(shí)驗(yàn)證明機(jī)器學(xué)習(xí)方法對處理中文輿情傾向性分析問題是有效的,其中又以基于集成學(xué)習(xí)的迭代決策樹算法效果最佳。其原因是集成學(xué)習(xí)算法能夠綜合多個(gè)學(xué)習(xí)器的結(jié)果來決定最終分類,并在一定程度上避免單個(gè)學(xué)習(xí)器在訓(xùn)練過程中的過擬合問題。另外,在不同領(lǐng)域,不同篇章長度的數(shù)據(jù)集上機(jī)器學(xué)習(xí)算法都有比較好的表現(xiàn),證明其具有較好的泛化能力。

        [1] 肖紅, 許少華. 基于句法分析和情感詞典的網(wǎng)絡(luò)輿情傾向性分析研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2014, 35(4): 811-813.

        [2] Pang Bo, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.

        [3] 劉魯, 劉志明. 基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012,48(1): 1-4.

        [4] MIKOLOV T, SUTSKEVER I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems, 2013,26: 3111-3119.

        [5] MIKOLOV T, Chen Kai, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Compater Science, 2013.

        猜你喜歡
        超平面傾向性決策樹
        全純曲線的例外超平面
        基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
        涉及分擔(dān)超平面的正規(guī)定則
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問題
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹的出租車乘客出行目的識(shí)別
        關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
        數(shù)學(xué)年刊A輯(中文版)(2015年1期)2015-10-30 01:55:44
        “沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
        語言與翻譯(2015年4期)2015-07-18 11:07:43
        77777_亚洲午夜久久多人| 亚洲av精品一区二区三| 青青草在线免费观看在线| 97久久婷婷五月综合色d啪蜜芽| 熟女人妇交换俱乐部| 无码午夜剧场| 国产一区二区三区蜜桃| 亚洲av无码国产精品色午夜软件| 樱桃视频影视在线观看免费 | 午夜视频网址| 亚洲视频在线免费观看一区二区| 男人吃奶摸下挵进去啪啪软件| 边做边流奶水的人妻| 本道无码一区二区久久激情| 国产日本精品一区二区| 亚洲精品一区二区三区麻豆| 麻豆高清免费国产一区| 亚洲国产高清美女在线观看| 男人的精品天堂一区二区在线观看 | 国产精品无码不卡在线播放| 免费人妖一区二区三区| 天天摸夜夜摸摸到高潮| 97se在线| 少妇久久高潮不断免费视频| 日韩a级精品一区二区| 蜜桃视频一区二区三区在线观看 | 亚洲av黄片一区二区| 中文字幕av高清人妻| 97在线观看| 亚洲综合伦理| 日本不卡一区二区三区久久精品 | 免费的黄网站精品久久| 日韩精品熟妇一区二区三区| 99久久er这里只有精品18| 色综合色综合久久综合频道| 人妖啪啪综合av一区| 亚洲人成色7777在线观看| 中文毛片无遮挡高潮| 青青草久久久亚洲一区| 久人人爽人人爽人人片av| 国产极品美女高潮无套在线观看|