亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于詞向量技術(shù)與主題詞特征的微博立場(chǎng)檢測(cè)①

2018-09-17 08:49:12鄭海洋高俊波

計(jì)算機(jī)系統(tǒng)應(yīng)用 2018年9期

鄭海洋,高俊波,邱杰,焦鳳

(上海海事大學(xué) 信息工程學(xué)院,上海 201306)

1 引言

據(jù)統(tǒng)計(jì),微博客戶端日活躍用戶數(shù)達(dá)1.54億,用戶不僅可以在微博平臺(tái)上上傳圖片記錄自己的生活,也可以通過(guò)轉(zhuǎn)發(fā)、點(diǎn)贊、評(píng)論等與其他用戶進(jìn)行互動(dòng),或針對(duì)某一話題公開(kāi)發(fā)表自己的立場(chǎng)及觀點(diǎn).立場(chǎng)檢測(cè)(stance detection)是通過(guò)微博作者針對(duì)某一話題發(fā)表的評(píng)論,檢測(cè)微博作者對(duì)該話題的立場(chǎng)是支持、反對(duì)或中立,這一檢測(cè)結(jié)果不僅可以幫助政府了解民情、完善法律法規(guī),而且可以幫助商業(yè)公司對(duì)產(chǎn)品功能進(jìn)行改進(jìn),提高用戶體驗(yàn).近年來(lái),這一課題吸引了眾多學(xué)術(shù)界及工業(yè)界的關(guān)注和研究,并成為自然語(yǔ)言處理(Natual Language Processing,NLP)中的一個(gè)新興熱門研究領(lǐng)域[1,2].

微博話題的立場(chǎng)檢測(cè)與傳統(tǒng)的文本情感分析非常相似,但又有著明顯的區(qū)別.單純的使用微博的情感信息并不能把握微博作者的立場(chǎng),如微博“這些騎電車橫沖直撞的人太可惡了,上次就差點(diǎn)被撞到,太危險(xiǎn)了”,此微博所抒發(fā)的是負(fù)面情緒,但針對(duì)“深圳禁摩限電”這個(gè)話題表明的態(tài)度卻是支持的.通常微博作者在表達(dá)某個(gè)話題的立場(chǎng)傾向時(shí),往往會(huì)說(shuō)出自己支持或反對(duì)的理由,如針對(duì)上述話題,支持者所表達(dá)的核心一般都是以交通安全為主題,而反對(duì)者的理由通常是一些普通老百姓出行不方便所帶來(lái)的一系列問(wèn)題,如果在該話題下能提取出到網(wǎng)民支持或反對(duì)的核心理由,就能準(zhǔn)確地判斷發(fā)言人的立場(chǎng)傾向.

隨著B(niǎo)engio等人提出了神經(jīng)網(wǎng)絡(luò)語(yǔ)義模型之后,文本詞向量技術(shù)受到了廣泛關(guān)注.對(duì)于機(jī)器學(xué)習(xí)而言,特征表示將直接影響模型性能的好壞,Word2Vec模型可以根據(jù)文本中詞的關(guān)聯(lián)性有效地學(xué)習(xí)語(yǔ)義特征.本文結(jié)合話題文本構(gòu)建出主題詞集,在詞向量下根據(jù)主題詞和情感詞篩選出有價(jià)值的特征信息,最后使用SVM(Support Vector Machine)對(duì)話題語(yǔ)料進(jìn)行訓(xùn)練得到最終的立場(chǎng)檢測(cè)模型.

2 相關(guān)工作

微博立場(chǎng)的檢測(cè)屬于文本傾向性分析的研究領(lǐng)域,文本傾向性分析又主要分為情感分析和立場(chǎng)分析.常見(jiàn)的情感分析方法也可以適用于立場(chǎng)分析,目前針對(duì)微博文本的情感分析,近年來(lái)已取得了非常出色的研究成果.2011年,Lu等人[3]提出了一種基于統(tǒng)一規(guī)則的自動(dòng)化構(gòu)建情感詞典的方法,該方法針對(duì)情感分析表現(xiàn)不錯(cuò),但不能提取到文本的隱含語(yǔ)義信息.針對(duì)立場(chǎng)分析,Ebrahimi等[4]將情感極性融入到對(duì)象和立場(chǎng)中,并對(duì)三者進(jìn)行對(duì)數(shù)線性聯(lián)合建模.Chen等[5]通過(guò)話題風(fēng)格和微博文本進(jìn)行特征提取,建立了基于CNN的立場(chǎng)檢測(cè)模型.Liu等[6]提出了一種以情感加權(quán)算法和樸素貝葉斯算法相結(jié)合的組合分類模型,該模型雖有較好的立場(chǎng)判別精度,但并不能處理復(fù)雜的中文句式及上下文語(yǔ)境等情況.Dian等[7]通過(guò)探究不同的特征提取方法,之后使用支持向量機(jī)、隨機(jī)森林和梯度提升決策樹(shù)對(duì)上述特征進(jìn)行立場(chǎng)檢測(cè),最后結(jié)合所有的特征分類器進(jìn)行后期融合,在2016年自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLPCC2016)中文微博立場(chǎng)檢測(cè)評(píng)測(cè)任務(wù)中取得了第一名的成績(jī).隨著以Word2Vec為代表的詞向量廣泛應(yīng)用,本文基于詞向量技術(shù)并構(gòu)建主題詞集作為立場(chǎng)特征完成微博話題的立場(chǎng)檢測(cè).

3 基于主題詞特征的微博話題立場(chǎng)檢測(cè)

3.1 模型框架

如圖1所示,本文主要使用Word2Vec和立場(chǎng)特征對(duì)微博進(jìn)行立場(chǎng)檢測(cè).首先對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,同時(shí)構(gòu)建當(dāng)前話題的主題詞集.然后使用詞向量技術(shù)對(duì)所有詞匯進(jìn)行學(xué)習(xí)獲得其詞向量表示,接著使用三種方法對(duì)每條微博做特征選擇,之后將篩選后的詞向量求平均值作為每條微博的最終特征向量,最后采用SVM算法對(duì)上述特征向量進(jìn)行訓(xùn)練和預(yù)測(cè)得到最終立場(chǎng)檢測(cè)模型.

圖1 微博話題立場(chǎng)檢測(cè)模型

3.2 文本預(yù)處理

文本預(yù)處理[8]包括數(shù)據(jù)清洗、分詞、去停用詞.數(shù)據(jù)清洗主要過(guò)濾掉微博的文本噪音,其中主要去除以“#”包圍的字段、url網(wǎng)址、表情符號(hào)、轉(zhuǎn)發(fā)符號(hào),本文采用正則表達(dá)式去除上述噪音.之后對(duì)文本進(jìn)行分詞,分詞工具采用的是中文開(kāi)源分詞工具jieba分詞.最后去除停用詞,去除停用詞可以對(duì)文本進(jìn)一步降噪,停用詞主要包含一些標(biāo)點(diǎn)符號(hào)、代詞、助詞,如“他”、“要”、“也”、“。”等.

3.3 主題詞集

常用的主題詞集構(gòu)建方法有TF-IDF詞頻逆文檔頻率和TextRank算法[9].TF-IDF是基于詞袋模型(Bag-of-Words),通常把文章表示成詞匯的集合,而不考慮句子中詞匯的順序關(guān)系,不能有效地反應(yīng)文章的內(nèi)部組織結(jié)構(gòu).TextRank算法類似于PageRank算法,它是基于網(wǎng)絡(luò)模型(graph model),該模型將文章表示成網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)表示單個(gè)詞匯,節(jié)點(diǎn)之間的邊表示文章中詞匯之間的鄰近關(guān)系,該方法能聯(lián)系到句子中詞匯的位置關(guān)系.由于微博句式簡(jiǎn)單,結(jié)構(gòu)相似,為了獲取話題的核心關(guān)鍵詞,本文采取TextRank算法構(gòu)建主題詞集.如表1所示,列舉了TextRank提取的部分主題詞.

表1 TextRank提取的部分主題詞

3.4 詞向量模型

在文本分類中,特征抽取通常根據(jù)某個(gè)特征評(píng)估函數(shù)計(jì)算每個(gè)特征的評(píng)分值,并以此作為權(quán)重按評(píng)分值進(jìn)行排序,然后選取若干個(gè)評(píng)分最高的作為特征詞.這種類型的算法有詞袋模型(Bag-of-Words-BOW)算法,N-Gram算法,但這類算法無(wú)法提取詞匯的深度語(yǔ)義信息.Bengio等人基于n-gram思想提出了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[10],采用三層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞向量[11],其核心思想是常用的神經(jīng)網(wǎng)絡(luò)算法,該模型能有效地提取文本的深度特征,近年來(lái)已經(jīng)有很多學(xué)者使用該技術(shù)做情感分析[12],并取得了非常出色的實(shí)驗(yàn)效果.

Word2Vec根據(jù)語(yǔ)料庫(kù)的詞匯順序關(guān)系,利用CBOW模型或Skip-Gram模型將詞匯轉(zhuǎn)換為K維空間的向量表示(distributed representation)[13],模型包含輸入層、投影層和輸出層.其中CBOW模型是根據(jù)當(dāng)前詞wt?2,wt?1,wt+1,wt+2的前提下預(yù)測(cè)wt,而Skip-Gram模型恰恰相反.本文采用的是CBOW詞向量模型,其基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的目標(biāo)函數(shù)通常取如下對(duì)數(shù)似然函數(shù):

如圖2所示,CBOW詞向量模型由三層神經(jīng)網(wǎng)絡(luò)構(gòu)成,其中輸入層包含Context(w)中 2c個(gè)詞向量,v(Context(w)1),···,v(Context(w)2c)∈Rm,由詞w前后各c個(gè)詞構(gòu)成,m表示詞向量的長(zhǎng)度,投影層將輸入層 2c個(gè)詞向量做求和運(yùn)算,公式如下:

輸出層根據(jù)每個(gè)詞在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)構(gòu)造一顆Huffman樹(shù),葉子節(jié)點(diǎn)分別為詞典D中的每個(gè)詞,一共有N個(gè),非葉子結(jié)點(diǎn)有N–1個(gè).Word2vec將Huffman編碼為0的節(jié)點(diǎn)定義為正類,編碼為1的節(jié)點(diǎn)定義為負(fù)類,這樣對(duì)于詞典D中任意一個(gè)詞w,Huffman樹(shù)一定有一條從根結(jié)點(diǎn)到詞w對(duì)應(yīng)結(jié)點(diǎn)的唯一路徑pw.路徑pw上存在lw?1個(gè)分支,每個(gè)分支上對(duì)應(yīng)一個(gè)二元分類的概率,將這些概率連乘的結(jié)果就是最后所需的條件概率p(w|Context(w)),計(jì)算公式如下:

圖2 CBOW詞向量模型

本文利用Gensim[14]工具對(duì)語(yǔ)料中的詞匯做Word2Vec訓(xùn)練,詞向量維數(shù)設(shè)置500維,訓(xùn)練完后得到最終詞向量CBOW模型.詞向量的相似性通常選取余弦距離來(lái)衡量,兩個(gè)詞向量的余弦距離表示其在空間上的向量夾角,余弦值越接近于1表明其夾角越接近0度,也說(shuō)明兩個(gè)詞向量越相似,余弦距離計(jì)算公式如下:

如表2所示,在話題“春節(jié)放鞭炮”下訓(xùn)練的詞向量模型得與詞“放鞭炮”余弦距離最近的5個(gè)詞語(yǔ).由余弦距離可以看出較近的詞語(yǔ)通常代表的立場(chǎng)也相似,其表明了微博作者持該立場(chǎng)的理由,如“放鞭炮”與“環(huán)境”、“污染”、“霧霾”相近,說(shuō)明該話題下針對(duì)“放鞭炮”談?wù)摰暮诵氖桥c環(huán)境相關(guān)的問(wèn)題.

表2 與“放鞭炮”詞向量相近的詞語(yǔ)

3.5 特征選擇

情感詞和主題詞通常決定微博作者的情感傾向和立場(chǎng)傾向,更能表明微博作者的觀點(diǎn).本文分別采用情感詞和主題詞的特征選擇方法提取其立場(chǎng)特征,情感詞典綜合采用中國(guó)知網(wǎng)情感詞典、清華大學(xué)李軍中文褒貶義詞典和臺(tái)灣大學(xué)NTUSD簡(jiǎn)體中文情感詞典,主題詞集由TextRank算法在該話題下提取的250個(gè)名詞構(gòu)成.如表3所示,對(duì)預(yù)處理后微博分別采用主題詞和情感詞做特征選擇之后的結(jié)果.

表3 對(duì)微博文本分別采用兩種特征選擇的結(jié)果

3.6 模型的訓(xùn)練與預(yù)測(cè)

根據(jù)以往實(shí)驗(yàn)表明對(duì)于文本分類支持向量機(jī)與其他分類算法相比在處理非線性及高維分類中有著較好的分類效果[15].本文首先根據(jù)情感詞典和主題詞集從訓(xùn)練文本中獲取其特征詞語(yǔ),并利用詞向量模型將其轉(zhuǎn)換為500維的空間向量,然后對(duì)其求平均值并做歸一化處理作為最終的文本向量,最后由SVM分類器根據(jù)訓(xùn)練集中的文本向量和相對(duì)應(yīng)的正負(fù)標(biāo)簽訓(xùn)練出立場(chǎng)檢測(cè)模型,并利用生成后的模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行正負(fù)性的立場(chǎng)預(yù)測(cè).

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文采用的數(shù)據(jù)集來(lái)自NLPCC2016中文微博立場(chǎng)檢測(cè)的評(píng)測(cè)任務(wù),選取的話題是任務(wù)中第二個(gè)話題“春節(jié)放鞭炮”,該話題一共有500條微博,其中持支持和反對(duì)立場(chǎng)的各有250條微博數(shù)據(jù),訓(xùn)練集與測(cè)試集比例為8:2,數(shù)據(jù)格式為微博ID,話題,微博文本,

立場(chǎng)標(biāo)簽,例如:

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

常用的評(píng)價(jià)標(biāo)準(zhǔn)通常選取準(zhǔn)確率、召回率和F1值,本文針對(duì)立場(chǎng)檢測(cè)為了綜合考慮分類效果增加了正負(fù)類的F1評(píng)價(jià)均值Favg作為綜合評(píng)價(jià)指標(biāo),Favg計(jì) 算公式如公式(6)所示,其中Ffavor 和Fagainst分別表示支持立場(chǎng)和反對(duì)立場(chǎng)的F1值,本文實(shí)驗(yàn)中選取的話題“春節(jié)放鞭炮”在NLPCC2016比賽中最好的成績(jī)Favg是77.61%.

4.3 實(shí)驗(yàn)結(jié)果與分析

為了獲取更多的立場(chǎng)特征,本文在對(duì)微博文本基于主題詞和情感詞特征選擇后,還將兩種特征選擇方法結(jié)合起來(lái)實(shí)驗(yàn),最后將篩選后的特征詞轉(zhuǎn)換為詞向量求均值由SVM支持向量機(jī)對(duì)其訓(xùn)練及預(yù)測(cè)得到該話題下的最終立場(chǎng)檢測(cè)模型,實(shí)驗(yàn)結(jié)果如表4所示,其中正類表示支持傾向,負(fù)類表示反對(duì)傾向.

表4 三種特征選擇方法對(duì)對(duì)比實(shí)驗(yàn)效果

由表4所示,在以F1均值這項(xiàng)評(píng)價(jià)指標(biāo)下,以情感詞典作為篩選特征在三種分類模型中表現(xiàn)最差,說(shuō)明傳統(tǒng)的情感詞典方法并不完全適合立場(chǎng)檢測(cè).因?yàn)橛脩敉ǔＴ诒磉_(dá)立場(chǎng)時(shí),有時(shí)會(huì)包含自己的主觀情緒,但這種情緒具有兩面性,針對(duì)的可能是話題的正面,也可能是話題的對(duì)立面,所以情緒并不能準(zhǔn)確地反映作者的立場(chǎng)傾向.而基于主題詞集的特征選擇方法效果更好,因?yàn)樵谠掝}中這些主題詞代表的是該話題的核心關(guān)鍵詞,也是微博作者支持或反對(duì)理由的主要理由,更能反映發(fā)言人的論點(diǎn)和立場(chǎng)信息.

在使用主題詞和情感詞兩種特征結(jié)合實(shí)驗(yàn),分類效果達(dá)到最好.這是因?yàn)橐恍┒涛⒉┩鶡o(wú)法提取到主題詞,但是它們多數(shù)含有一些情感詞,如果結(jié)合情感詞做特征選擇可以彌補(bǔ)主題詞特征選擇方法的弊端.其次,本文還針對(duì)主題詞的數(shù)量做了定性實(shí)驗(yàn),在區(qū)間[100,600]分別設(shè)置7種不同的主題詞數(shù)量完成優(yōu)化實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示.

圖3 不同主題詞個(gè)數(shù)的實(shí)驗(yàn)效果

從圖3中可以看出選取500個(gè)主題詞可以達(dá)到最好的立場(chǎng)檢測(cè)效果,因?yàn)楫?dāng)主題詞較少時(shí),相對(duì)的立場(chǎng)特征就少.相反,當(dāng)主題詞過(guò)多時(shí),便會(huì)產(chǎn)生一些噪聲干擾檢測(cè).本文在選取500個(gè)主題詞同時(shí)結(jié)合情感詞典做輔助特征選擇,為了獲得最好的分類效果,通過(guò)調(diào)整SVM算法的懲罰系數(shù)C,實(shí)驗(yàn)結(jié)果顯示在C=5時(shí)正負(fù)F1均值可以達(dá)到83%,相比該話題最好的成績(jī)提高了5個(gè)百分點(diǎn),證明本文方法的有效性.

從實(shí)驗(yàn)可以看出,基于詞向量技術(shù)和主題詞特征在中文微博立場(chǎng)檢測(cè)中可以獲得不錯(cuò)的分類效果,主要原因是Word2Vec訓(xùn)練出的詞向量包含了詞匯之間的語(yǔ)義信息,其相對(duì)于詞頻特征更能表明詞語(yǔ)的實(shí)際意義.同時(shí)基于主題詞特征的特征選擇方法可以獲取更多有價(jià)值的立場(chǎng)特征,針對(duì)一些較短的微博,結(jié)合情感詞進(jìn)一步提升了模型的性能.

5 結(jié)束語(yǔ)

本文通過(guò)使用NLPCC2016中文微博立場(chǎng)檢測(cè)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),首先將文本進(jìn)行預(yù)處理并使用詞向量技術(shù)將詞匯轉(zhuǎn)換為高維空間的向量表示,然后使用TextRank提取話題的關(guān)鍵詞作為話題的主題詞集,提出了基于主題詞的特征選擇方法,同時(shí)融入情感詞典做輔助特征選擇,并使用支持向量機(jī)對(duì)話題微博進(jìn)行訓(xùn)練及預(yù)測(cè).實(shí)驗(yàn)結(jié)果表明,本文的方法在中文微博話題下具有較好的立場(chǎng)檢測(cè)效果.

鑒于微博平臺(tái)下話題眾多,如果進(jìn)一步考慮話題的類別,本文的研究方法還需做進(jìn)一步擴(kuò)展.其次,本文最后使用的文本向量是由特征選擇后的詞向量求均值所得,這種方法雖然可行但丟失了詞向量的順序信息.但是,詞向量隱含地包含了詞匯間的順序關(guān)系,本文最后輸入到SVM的特征向量是由特征選擇后的詞向量求均值所得,它綜合了當(dāng)前微博的所有立場(chǎng)特征信息,是當(dāng)前微博立場(chǎng)的一般特征表示,對(duì)微博立場(chǎng)檢測(cè)的結(jié)果影響不大,但具有研究?jī)r(jià)值.在今后的研究中,針對(duì)話題類別和如何獲取句子的結(jié)構(gòu)化信息是本文的研究重點(diǎn).