亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖排序模型的微博觀點(diǎn)信息識別*

        2018-02-05 03:46:43張紹武劉華麗林鴻飛
        計算機(jī)與生活 2018年2期
        關(guān)鍵詞:表情符號觀點(diǎn)社交

        張紹武,劉華麗,楊 亮,邵 華,林鴻飛

        大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024

        1 引言

        近幾年,隨著互聯(lián)網(wǎng)的飛速發(fā)展,在線社交網(wǎng)絡(luò)媒體逐漸改變著人們的生活。微博、微信等新型社交媒體的出現(xiàn),使人們從單純的信息接受者轉(zhuǎn)變?yōu)樾畔⒌闹圃煺?。而微博,作為目前國?nèi)主要的在線社交媒體之一,給用戶提供了便捷的溝通方式與豐富的信息資訊,而且越來越多的人喜歡在微博上發(fā)表自己的觀點(diǎn),與朋友互動交流,因此微博上每時每刻都在產(chǎn)生著蘊(yùn)含豐富信息的資源。識別微博的觀點(diǎn)信息,不僅可以了解個人的觀點(diǎn)傾向,還可以分析大眾的觀點(diǎn)趨勢,對個性化推薦、輿情分析等研究提供了必要的基礎(chǔ)。

        觀點(diǎn)識別已經(jīng)得到國內(nèi)外學(xué)者的廣泛研究,并且取得了眾多研究成果,但是其主要的研究對象大多是產(chǎn)品或電影評論[1]。微博作為一種實(shí)時、快速的觀點(diǎn)表達(dá)方式,與傳統(tǒng)的產(chǎn)品、電影評論不同,主要有以下幾個特點(diǎn):(1)簡短、稀疏。傳統(tǒng)文本一般有足夠多的詞可以進(jìn)行特征選擇,從而構(gòu)建一個特征空間進(jìn)行分析。而微博受140個中文字符的限制,促使用戶的表達(dá)更加簡短,數(shù)據(jù)分布更稀疏。(2)省略主題。微博的轉(zhuǎn)發(fā)回復(fù)功能,使得許多微博省略具體的主題,直接表述觀點(diǎn)看法。例如,關(guān)于話題“習(xí)近平博鰲演講”的一條微博“說的太對了”,如果直接分析該條微博的觀點(diǎn)信息,很難判斷其傾向,但是如果找到源微博“習(xí)大大演講得真好”,就會很容易判斷此微博的觀點(diǎn)傾向。(3)豐富的表情符號。微博豐富的表情符號資源使人們發(fā)表微博時更傾向于使用形象生動的表情符號表達(dá)自己觀點(diǎn)。例如“[哈哈]”、“[失望]”、“[頂]”、“[怒]”等。以上特點(diǎn)使微博的觀點(diǎn)信息識別更加復(fù)雜,如何更好地挖掘微博的觀點(diǎn)信息成為社交媒體數(shù)據(jù)分析中充滿挑戰(zhàn)性的任務(wù)。

        傳統(tǒng)的觀點(diǎn)識別方法多單純基于文本的分析方法。然而,微博除了以文本為載體,微博還是一種網(wǎng)絡(luò)化數(shù)據(jù),通過用戶間的轉(zhuǎn)發(fā)、評論、回復(fù)等行為使微博形成一個關(guān)系網(wǎng),使本來看似無關(guān)的不同微博通過關(guān)系網(wǎng)聯(lián)系起來。已有研究證明利用這樣的關(guān)系網(wǎng)絡(luò)圖,結(jié)合社交網(wǎng)絡(luò)中的情感一致理論,可以彌補(bǔ)傳統(tǒng)的基于文本分析方法在識別微博觀點(diǎn)時的不足[2]。受此啟發(fā),本文提出了一種基于圖排序模型的微博觀點(diǎn)信息識別算法。主要思想是利用微博的網(wǎng)絡(luò)化數(shù)據(jù)的特征,構(gòu)建微博上下文關(guān)系圖,利用微博的關(guān)系信息來補(bǔ)充完善傳統(tǒng)的觀點(diǎn)識別算法在處理微博短文本時的不足。首先,利用布爾模型表示微博文本的特征向量,并用邏輯回歸分類算法為每條微博分配一個偽標(biāo)簽;其次,構(gòu)建微博上下文關(guān)系圖;然后,利用受限玻爾茲曼機(jī)抽取微博文本的高維特征,利用高維特征向量計算關(guān)系圖中微博間的權(quán)重;最后,基于圖排序模型分析微博最終的觀點(diǎn)傾向。實(shí)驗(yàn)結(jié)果表明,本文方法比傳統(tǒng)的單純基于文本的分析方法分析微博觀點(diǎn)信息時更有效。

        本文的貢獻(xiàn)主要有以下三點(diǎn):(1)提出一種基于表情符號的微博無監(jiān)督標(biāo)注方法;(2)利用深度學(xué)習(xí)算法——受限玻爾茲曼機(jī)對微博進(jìn)行深層特征提??;(3)將圖排序模型應(yīng)用于微博這種短文本語料,進(jìn)行觀點(diǎn)識別。

        本文組織結(jié)構(gòu)如下:第2章對相關(guān)工作予以介紹;第3章介紹基于圖排序模型的微博觀點(diǎn)信息識別算法;第4章對實(shí)驗(yàn)過程及結(jié)果進(jìn)行分析;第5章進(jìn)行總結(jié)并計劃未來工作。

        2 相關(guān)工作

        作為觀點(diǎn)識別任務(wù)之一,分析微博的觀點(diǎn)傾向已經(jīng)吸引了越來越多的國內(nèi)外研究者。一些研究者利用傳統(tǒng)的觀點(diǎn)分析方法來分析微博的觀點(diǎn)傾向。其中一類是基于詞典的分析方法[3]。Kiritchenko等人[4]基于表情符號和包含情感的主題標(biāo)簽構(gòu)建情感詞典,然后結(jié)合詞典相關(guān)的特征以及一些其他特征訓(xùn)練情感分類系統(tǒng),最后在SemEval-2013評測任務(wù)中取得第一名的成績,證明了該方法的有效性。另外,Thelwall等人[5]將基于詞典并結(jié)合語言信息和規(guī)則的分類算法SentiStrength[6]應(yīng)用于社交網(wǎng)絡(luò)文本,其中包括Twitter、Youtobe等數(shù)據(jù),實(shí)驗(yàn)證明了Senti-Strength算法在分析多種不同的社交網(wǎng)絡(luò)文本時的有效性和魯棒性。另外一類被廣泛使用的方法是機(jī)器學(xué)習(xí)相關(guān)算法。Liu等人[7]首先基于人工標(biāo)注的數(shù)據(jù)訓(xùn)練一個語言模型,然后利用表情符號數(shù)據(jù)對該語言模型進(jìn)行平滑,將標(biāo)注數(shù)據(jù)與表情符號數(shù)據(jù)整合到同一個概率框架中,實(shí)現(xiàn)了微博的情感分析。

        由于微博屬于社交網(wǎng)絡(luò)平臺,除了文本內(nèi)容,還包括豐富的非文本數(shù)據(jù),比如用戶之間的關(guān)注關(guān)系,微博之間的轉(zhuǎn)發(fā)、回復(fù)關(guān)系數(shù)據(jù)等。而以上分析方法僅僅基于微博文本的內(nèi)容,并沒有利用非文本數(shù)據(jù)。目前已有不少學(xué)者在這方面進(jìn)行了研究。Hu等人[2]首先分析了社交關(guān)系數(shù)據(jù)是否對tweet的情感分類有利,然后基于社交網(wǎng)絡(luò)中的情感一致與情緒傳染理論抽取tweet間的情感關(guān)系并對關(guān)系進(jìn)行建模,最后利用這些情感關(guān)系數(shù)據(jù)來彌補(bǔ)傳統(tǒng)情感分析方法在處理不規(guī)則、噪音大的tweet數(shù)據(jù)時的不足。Tan等人[8]基于具有關(guān)注關(guān)系的兩個用戶很可能持有相同觀點(diǎn)的思想,提出將社交關(guān)系數(shù)據(jù)應(yīng)用于用戶級的情感分析任務(wù)中,最終實(shí)驗(yàn)表明社交關(guān)系信息確實(shí)比僅僅基于文本內(nèi)容的SVM(support vector machine)方法效果更好。以上研究不僅利用了文本數(shù)據(jù),同時充分利用了非文本數(shù)據(jù),從不同的角度對微博這類短文本進(jìn)行分析,并且都取得了不錯的效果。受以上工作的啟發(fā),本文利用微博的上下文關(guān)系構(gòu)建微博關(guān)系圖,結(jié)合圖排序模型,實(shí)現(xiàn)了對微博的觀點(diǎn)信息識別。

        3 基于圖排序模型的微博觀點(diǎn)信息識別算法

        本算法過程主要分四部分進(jìn)行介紹:首先介紹基于表情符號的無監(jiān)督標(biāo)注方法,以此來對訓(xùn)練集進(jìn)行擴(kuò)充;其次介紹如何構(gòu)建微博上下文關(guān)系圖;然后介紹如何利用受限玻爾茲曼機(jī)抽取微博文本信息中的高維特征;最后介紹如何基于圖排序模型對微博觀點(diǎn)信息進(jìn)行識別。

        3.1 基于表情符號的無監(jiān)督標(biāo)注方法

        正如前文所述,豐富的表情符號是微博的幾個重要特點(diǎn)之一。特別是在年輕用戶當(dāng)中,表情符號更加受歡迎。主要原因在于:表情符號形象生動,具有明顯的觀點(diǎn)傾向,可以提供一個直接的方式去表達(dá)用語言無法準(zhǔn)確表達(dá)的情緒狀態(tài)。已有研究表明[9],表情符號可以傳遞強(qiáng)烈的情感,可以表達(dá)用戶真實(shí)的情感。如果能夠有效利用表情符號對微博進(jìn)行觀點(diǎn)傾向標(biāo)注,可以大幅降低語料標(biāo)注的時間、人工成本。目前,已有研究者[10]利用表情符號標(biāo)注微博的情感傾向來獲取標(biāo)注訓(xùn)練集。受此啟發(fā),為了擴(kuò)充訓(xùn)練集,本文提出一種基于表情符號的無監(jiān)督標(biāo)注方法。

        由于新浪微博提供的表情符號眾多,有些表情符號有明顯的觀點(diǎn)傾向,但是有些表情符號的觀點(diǎn)傾向則不明顯,而且不同的人對其表達(dá)的觀點(diǎn)信息持有不同的看法。針對此問題,本文首先統(tǒng)計出現(xiàn)在語料中的所有表情符號,人工選擇170個帶有明顯觀點(diǎn)傾向的表情符號。其中100個代表正向觀點(diǎn),63個代表負(fù)向觀點(diǎn),7個代表中性觀點(diǎn),表1給出了每種觀點(diǎn)傾向的代表性表情符號。

        Table 1 Typical emotions in each opinion class表1 每一個觀點(diǎn)類別的典型表情符號

        如果一條微博中只有一個表情符號,則直接通過此表情符號來決定該條微博的觀點(diǎn)傾向。但是如果同一條微博中有多個表情符號,本文通過以下規(guī)則來確定微博的觀點(diǎn)傾向:

        (1)如果多個表情符號的觀點(diǎn)傾向一致,則將共同的觀點(diǎn)傾向作為該條微博的觀點(diǎn)傾向。

        (2)如果多個表情符號的觀點(diǎn)傾向不一致,則由投票表決的方式來決定該條微博的觀點(diǎn)傾向。具體做法:賦予正向觀點(diǎn)的表情符號+1權(quán)重,賦予負(fù)向觀點(diǎn)的表情符號-2的權(quán)重,中性觀點(diǎn)的表情符號權(quán)重為0。通過此規(guī)則,獲取了額外的標(biāo)注訓(xùn)練集。

        3.2 基于上下文構(gòu)建微博關(guān)系圖的方法

        由引言可知,由于微博具有簡短、稀疏、省略上下文等特點(diǎn),僅僅基于微博文本分析微博觀點(diǎn)傾向并不能取得理想的結(jié)果。然而微博作為社交網(wǎng)絡(luò)數(shù)據(jù),除了基本的文本數(shù)據(jù)外,還有豐富的關(guān)系數(shù)據(jù),因此接下來介紹構(gòu)建微博上下文關(guān)系圖的具體過程。本文主要基于兩種關(guān)系作為微博的上下文關(guān)系,以此來構(gòu)建微博上下文關(guān)系圖。

        (1)轉(zhuǎn)發(fā)關(guān)系。轉(zhuǎn)發(fā)在微博中是一種很普遍的行為,相較于回復(fù)、評論行為,轉(zhuǎn)發(fā)行為更能體現(xiàn)對原始微博觀點(diǎn)的認(rèn)同態(tài)度。即使不贊同原始微博的觀點(diǎn),依然可以對原始微博進(jìn)行評論,但這種情況下很少轉(zhuǎn)發(fā)。因此基于轉(zhuǎn)發(fā)關(guān)系聯(lián)系起來的轉(zhuǎn)發(fā)微博與原始微博的觀點(diǎn)信息更有可能是一致的,這在Jiang等人[11]的研究中已經(jīng)有所體現(xiàn)。

        (2)同一用戶發(fā)布的微博。已有研究者證明在社交網(wǎng)絡(luò)中存在情感一致理論[12]。情感一致理論揭示了這樣一個現(xiàn)象:比起隨機(jī)的兩條微博,被同一用戶發(fā)表的兩條不同微博的觀點(diǎn)更有可能是一致的。而且盡管同一用戶對不同的事件所持有的態(tài)度不同,但是對于同一個事件的觀點(diǎn)基本是不變的。因此,同一用戶針對同一個事件發(fā)表的不同微博所表達(dá)的觀點(diǎn)信息基本是一致的。

        基于以上兩種關(guān)系,構(gòu)建微博的上下文關(guān)系圖,如圖1所示。

        Fig.1 Acontext relationship graph of a Weibo圖1 微博上下文關(guān)系圖

        圖1中,笑臉圖案代表同一個人發(fā)布的不同微博,其中粗線條的笑臉為待預(yù)測觀點(diǎn)的微博,稱為“中心微博”;其他細(xì)線條的笑臉代表已有觀點(diǎn)標(biāo)簽的微博;云圖代表從虛線連接的原始微博轉(zhuǎn)發(fā)的微博。wi表示由實(shí)線或虛線連接的兩條微博的相似度。實(shí)線連接同一個人發(fā)布的不同微博,虛線連接轉(zhuǎn)發(fā)微博與原始微博。在整個上下文關(guān)系圖中,除了“中心微博”,其他微博都被稱為“鄰居微博”。

        構(gòu)建好微博的上下文關(guān)系圖后,利用“鄰居微博”的準(zhǔn)確標(biāo)簽或者偽標(biāo)簽,對“中心微博”的觀點(diǎn)信息進(jìn)行分析。具體采用式(1)和式(2)計算“中心微博”的觀點(diǎn)。

        其中,m表示“中心微博”,即待預(yù)測微博;ym表示為m分配的觀點(diǎn)傾向;G表示m的上下文關(guān)系圖;mi代表圖G中除微博m外的其他所有微博,即“鄰居微博”;li代表從微博mi到微博m的路徑;I(*)是指示函數(shù),當(dāng)且僅當(dāng)括號內(nèi)條件成立時值為1,否則為0。

        3.3 基于受限玻爾茲曼機(jī)抽取微博高維特征的方法

        由3.2節(jié)可知,計算微博的觀點(diǎn)傾向,必須先計算“中心微博”與其“鄰居微博”間的相似度。本文采用的是基于布爾模型的文檔向量表示方法。如果某個特征詞出現(xiàn)在文檔中,則在對應(yīng)的維度上的權(quán)重為1,否則為0。由于微博簡短、稀疏的特點(diǎn),兩個明明互為上下文的微博卻因沒有公共的特征而使兩者的相似度為0,那么即使構(gòu)建了上下文關(guān)系圖,上下文關(guān)系并沒有被充分利用。比如:原始微博“這個人的演技太爛了”,轉(zhuǎn)發(fā)微博“同感!”,這兩條微博雖然沒有公共的特征詞,但兩者相關(guān),而且觀點(diǎn)傾向一致。因此,在計算相似度時不能因?yàn)槎邲]有公共的特征而將兩者的相似度設(shè)為0。為了解決此問題,本文提出一種基于受限玻爾茲曼機(jī)算法抽取微博的高維特征表示方法。

        特征工程一直是處理數(shù)據(jù)挖掘的核心問題。之前很多研究都是基于文本內(nèi)容人工構(gòu)造一些淺層特征,利用這些淺層特征來表示文本,這種做法的一個缺點(diǎn)在于文本深層的特征或模式不能被很好地利用。近幾年,隨著深度學(xué)習(xí)在文本挖掘方面的廣泛應(yīng)用,其在發(fā)掘文本深層次的特征方面已經(jīng)表現(xiàn)出了足夠的優(yōu)勢,成為研究者們關(guān)注的焦點(diǎn)。因此本文利用受限玻爾茲曼機(jī)對微博抽取深層次高維特征,來更好地表示微博。

        受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)[13]是Smolensky于1986年基于玻爾茲曼機(jī)提出的一種采用隨機(jī)神經(jīng)網(wǎng)絡(luò)進(jìn)行解釋的概率圖模型。RBM的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        Fig.2 Structure of RBM圖2 RBM網(wǎng)絡(luò)結(jié)構(gòu)圖

        RBM網(wǎng)絡(luò)結(jié)構(gòu)由兩層組成:下面一層為可視層,也就是輸入層;上面一層為隱藏層,一般也稱為特征提取層。其中Wm×n是可視層與隱藏層之間全連接的權(quán)重參數(shù),另外可視層的偏移量為b=(b1,b2,…,bn),隱藏層的偏移量為c=(c1,c2,…,cm)。這些參數(shù)決定了網(wǎng)絡(luò)如何將一個n維的樣本編碼成一個m維的樣本,這也是RBM模型的主要用途之一。因此,本文利用RBM網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行編碼,抽取深層特征,然后利用監(jiān)督學(xué)習(xí)等算法進(jìn)行分類或回歸。

        其中,vi和hj分別表示可見層的第i個神經(jīng)元和隱藏層的第j個神經(jīng)元的狀態(tài)。假設(shè)RBM網(wǎng)絡(luò)的參數(shù)已經(jīng)被優(yōu)化到最優(yōu)解,那么根據(jù)輸入vi和式(3),隱藏層中各神經(jīng)元的狀態(tài)通過采樣獲得。反之,如果已知網(wǎng)絡(luò)參數(shù)和隱藏層,則可視層易被重構(gòu)。因此,如何優(yōu)化網(wǎng)絡(luò)參數(shù)是十分關(guān)鍵的。

        眾所周知,RBM是一個能量模型,而能量又與概率緊密相連,因此RBM網(wǎng)絡(luò)通過最小化能量函數(shù),等價于進(jìn)行極大似然估計,以此來更新網(wǎng)絡(luò)參數(shù),達(dá)到優(yōu)化目標(biāo)函數(shù)的目的。能量函數(shù)具體如式(4)所示:

        通過最小化能量函數(shù)得到網(wǎng)絡(luò)的參數(shù)。優(yōu)化方法采用的是Hinton提出來的對比散度(contrastive divergence,CD-k)算法[14]。與Gibbs采樣不同,CD-k算法使用訓(xùn)練樣本初始化v0,這樣僅需要較少的抽樣步驟,一般一步就可以得到足夠好的近似。

        這樣便可利用對比散度算法對目標(biāo)函數(shù)進(jìn)行優(yōu)化,得到相應(yīng)的網(wǎng)絡(luò)參數(shù),根據(jù)式(3)計算隱藏層的每個神經(jīng)元的激活概率,即得到每個輸入文本向量的高維特征表示。由于每一維的權(quán)重對應(yīng)隱藏層神經(jīng)元的激活概率,這不僅解決了前面提到的“布爾模型表示的微博向量由于沒有公共特征詞導(dǎo)致明明互為上下文有很大聯(lián)系的兩條微博的相似度卻為0”的問題,而且利用RBM模型抽取的特征表示微博在一定程度上更能反映微博的內(nèi)在結(jié)構(gòu)。

        3.4 基于圖排序模型識別微博觀點(diǎn)信息算法

        本文利用圖排序模型的主要算法思想為鄰域思想:如果一條微博與一些具有正向(負(fù)向、中性)的觀點(diǎn)的微博互為上下文,那么該微博的觀點(diǎn)很有可能為正向(負(fù)向、中性)。因此,基于圖排序模型的微博觀點(diǎn)信息識別算法過程如下所示。和式(2)迭代更新微博觀點(diǎn)傾向直至收斂。

        其中本文所用的基礎(chǔ)分類器邏輯回歸使用L1正則化,這樣保證了得到的解的稀疏性。

        4 實(shí)驗(yàn)與分析

        4.1 數(shù)據(jù)集與預(yù)處理

        本文所用的數(shù)據(jù)來自COAE2015中文評測任務(wù)2.1發(fā)布的語料,總共約15 000條微博,共分為51個主題,每條微博包括用戶名、所屬主題號、文檔號、線程號、父節(jié)點(diǎn)號、孩子節(jié)點(diǎn)號、微博內(nèi)容及對應(yīng)的標(biāo)簽。其中訓(xùn)練集有對應(yīng)的觀點(diǎn)傾向標(biāo)簽,但測試集沒有。數(shù)據(jù)的預(yù)處理過程如下所示。

        預(yù)處理流程說明:由于微博語言的自由隨意性使得在普通文本中沒有實(shí)際意義的詞或短語有可能在微博中帶有某種觀點(diǎn)傾向,在本次預(yù)處理中并未對停用詞進(jìn)行過濾。

        4.2 實(shí)驗(yàn)設(shè)置

        預(yù)處理工作之后,本文根據(jù)基于圖排序模型的微博觀點(diǎn)信息識別算法的具體流程對語料進(jìn)行處理與分析。

        此外,為了驗(yàn)證Logistic Regression算法在處理微博等稀疏文本時的有效性,本文另設(shè)置了一組利用SVM作為分類器算法的對比實(shí)驗(yàn),特征權(quán)重計算方法采用TF-IDF,特征選擇采用信息增益。實(shí)驗(yàn)過程中采取5倍交叉驗(yàn)證。另外,使用Lib-SVM[15]作為分類工具,核函數(shù)使用線性核,其他參數(shù)設(shè)置為默認(rèn)值。

        為了進(jìn)一步驗(yàn)證使用表情符號標(biāo)注訓(xùn)練集是否能提高模型效果,還設(shè)置一組加入表情符號標(biāo)注的微博作為訓(xùn)練集,利用Logistic Regression作為分類器進(jìn)行對比實(shí)驗(yàn),目標(biāo)函數(shù)使用L1正則化項(xiàng)。

        4.3 實(shí)驗(yàn)結(jié)果分析

        在整個數(shù)據(jù)集上,本文算法的實(shí)驗(yàn)結(jié)果如表2所示。從表2中可以看出,與其他單位所提交的12個模型相比,本文算法無論是整體的準(zhǔn)確率,還是整體的F值,都是最高的,這表明本文算法在微博觀點(diǎn)信息識別問題上的有效性。

        此外對于每一種觀點(diǎn)類別,本文算法在精確率和召回率上都表現(xiàn)相對平衡,說明了算法更加穩(wěn)定,有比較強(qiáng)的魯棒性。

        分析可能的原因,主要有以下三點(diǎn):

        (1)引入了基于表情符號的方法增加訓(xùn)練集,使得在訓(xùn)練過程中分類器可以學(xué)習(xí)到更多的知識,基于上述方式訓(xùn)練得到的每條微博的偽標(biāo)簽具有更高的置信度。該部分工作為后續(xù)基于圖排序模型來迭代更新微博觀點(diǎn)傾向打下了堅實(shí)的基礎(chǔ);同時也說明了本文基于表情符號的無監(jiān)督的標(biāo)注方法在微博數(shù)據(jù)集上的有效性。

        (2)構(gòu)建了微博的上下文關(guān)系圖,利用其“鄰居微博”的標(biāo)簽來迭代更新,該方法不僅利用了文本數(shù)據(jù)的信息,同時利用了社交網(wǎng)絡(luò)中的關(guān)系式數(shù)據(jù)的信息。實(shí)驗(yàn)表明,這樣的上下文關(guān)系信息對判斷極其稀疏的微博數(shù)據(jù)有著至關(guān)重要的作用。

        Table 2 Result comparison of different methods表2 各個方法的結(jié)果比較

        (3)本文運(yùn)用RBM抽取微博的高維特征表示,既解決了具有上下文關(guān)系的微博相似度可能為0的問題,也為計算微博間的相似度提供了更豐富的特征,因此實(shí)驗(yàn)結(jié)果相對更精確,算法相對于對比方法更為魯棒。

        對于LR+算法,雖然與最好效果有一定差距,但是與提交的所有結(jié)果的平均值Median相比,整體準(zhǔn)確率高出3.2%,整體F值高出均值5.2%,說明該算法有一定的優(yōu)勢。究其原因:一方面,加入L1正則項(xiàng)的邏輯回歸保證了解的稀疏性,這在處理微博這樣的稀疏數(shù)據(jù)可能更加有效;另一方面,本文算法所使用的訓(xùn)練集加入了利用表情符號標(biāo)注的部分微博數(shù)據(jù),更多的訓(xùn)練數(shù)據(jù)給算法提供更多的知識,學(xué)習(xí)的模型泛化能力相對更強(qiáng)一些。

        而對于SVM算法,在此數(shù)據(jù)集上的效果并不理想,整體的準(zhǔn)確率和F值都沒有達(dá)到平均水平。分析原因,有以下兩點(diǎn):(1)數(shù)據(jù)比較稀疏,SVM在處理稀疏數(shù)據(jù)上并不能保持其足夠的優(yōu)勢;(2)在進(jìn)行特征選擇的過程中,可能丟掉了一些帶有強(qiáng)烈情感傾向的特征詞。同時這也說明,對于處理微博這種比較稀疏的數(shù)據(jù),保留其完整的特征可能對分析更加有利。

        綜上可知,對于微博等社交網(wǎng)絡(luò)中的數(shù)據(jù),除了文本信息之外,充分利用其特有的關(guān)系數(shù)據(jù)來輔助進(jìn)行觀點(diǎn)信息識別,在一定程度上可以彌補(bǔ)傳統(tǒng)的文本觀點(diǎn)分析方法在處理微博這類短文本數(shù)據(jù)觀點(diǎn)分析上的不足。

        5 結(jié)束語

        本文提出了一種基于圖排序模型的微博觀點(diǎn)信息識別算法。首先對于給定的訓(xùn)練數(shù)據(jù),為了減少人工標(biāo)注數(shù)據(jù)的代價,利用微博含有豐富的表情符號資源來標(biāo)注部分微博數(shù)據(jù);然后利用邏輯回歸訓(xùn)練模型,對測試集進(jìn)行分類,得到微博的偽標(biāo)簽;最后通過構(gòu)建微博上下文關(guān)系圖,基于圖排序的思想對微博的觀點(diǎn)信息進(jìn)行分析,從而實(shí)現(xiàn)了基于上下文知識的微博觀點(diǎn)信息識別。實(shí)驗(yàn)結(jié)果表明,本文算法可以有效地實(shí)現(xiàn)微博觀點(diǎn)信息的識別。本文主要基于微博間的關(guān)系構(gòu)建微博上下文關(guān)系圖,而微博中的網(wǎng)絡(luò)關(guān)系數(shù)據(jù)不僅僅有微博間的關(guān)系,還有用戶之間的相互關(guān)注關(guān)系等,如何更好地利用其他關(guān)系數(shù)據(jù)對微博進(jìn)行觀點(diǎn)信息識別,也是未來工作的一個研究方向。

        [1]Pang Bo,Lee L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2(1/2):1-135.

        [2]Hu Xia,Tang Lei,Tang Jiliang,et al.Exploiting social relations for sentiment analysis in microblogging[C]//Proceedings of the 6th International Conference on Web Search and Data Mining,Rome,Feb 4-8,2013.New York:ACM,2013:537-546.

        [3]Tang Duyu,Wei Furu,Qin Bing,et al.Building large-scale twitter-specific sentiment lexicon:a representation learning approach[C]//Proceedings of the 25th International Conference on Computational Linguistics,Dublin,Aug 23-39,2014.Stroudsburg:ACL,2014:172-182.

        [4]Kiritchenko S,Zhu Xiaodan,Mohammad S M.Sentiment analysis of short informal texts[J].Journal of Artificial Intelligence Research,2014,50:723-762.

        [5]Thelwall M,Buckley K,Paltoglou G.Sentiment strength detection for the social Web[J].Journal of the American Society for Information Science and Technology,2012,63(1):163-173.

        [6]Thelwall M,Buckley K,Paltoglou G,et al.Sentiment strength detection in short informal text[J].Journal of the American Society for Information Science and Technology,2010,61(12):2544-2558.

        [7]Liu Kunlin,Li Wujun,Guo Minyi.Emoticon smoothed language models for twitter sentiment analysis[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence,Toronto,Jul 22-26,2012.Menlo Park:AAAI,2012:1-7.

        [8]Tan Chenhao,Lee L,Tang Jie,et al.User-level sentiment analysis incorporating social networks[C]//Proceedings of the 17th International Conference on Knowledge Discovery and Data Mining,San Diego,Aug 21-24,2011.New York:ACM,2011:1397-1405.

        [9]Aoki S,Uchida O.A method for automatically generating the emotional vectors of emoticons using weblog articles[C]//Proceedings of the 10th International Conference on Applied Computer and Applied Computational Science,Venice,Mar 8-10,2011.Stevens Point:WSEAS,2011:132-136.

        [10]Zhao Jichang,Dong Li,Wu Junjie,et al.Moodlens:an emoticon-based sentiment analysis system for Chinese tweets[C]//Proceedings of the 18th International Conference on Knowledge Discovery and Data Mining,Beijing,Aug 12-16,2012.New York:ACM,2012:1528-1531.

        [11]Jiang Long,Yu Mo,Zhou Ming,et al.Target-dependent twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,Portland,Jun 19-24,2011.Stroudsburg:ACL,2011:151-160.

        [12]Abelson R P.Whatever became of consistency theory?[J].Personality and Social Psychology Bulletin,1983,9(1):37-64.

        [13]Smolensky P.Information processing in dynamical systems:foundations of harmony theory[M]//Parallel Distributed Processing:Explorations in the Microstructure of Cognition.Cambridge:MIT Press,1986:194-281.

        [14]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.

        [15]Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):27.

        猜你喜歡
        表情符號觀點(diǎn)社交
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        微信表情符號寫入判決:你發(fā)的每個表情都可能成為呈堂證供
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        社交距離
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        觀點(diǎn)
        這個表情符號,你用對了嗎
        大作文(2016年7期)2016-05-14 11:13:25
        表情符號玩上癮 時尚愛嘗鮮
        Coco薇(2015年10期)2015-10-19 01:01:58
        業(yè)內(nèi)觀點(diǎn)
        營銷界(2015年22期)2015-02-28 22:05:04
        新銳觀點(diǎn)
        清風(fēng)(2014年10期)2014-09-08 13:11:04
        国产黄页网站在线观看免费视频| 人妻少妇精品中文字幕专区| 18禁黄污吃奶免费看网站| 国产69精品久久久久9999| 粗大挺进尤物人妻一区二区| av男人天堂网在线观看| 欧美xxxxx高潮喷水| 无码人妻av一区二区三区蜜臀| 亚洲AⅤ无码日韩AV中文AV伦| 精品国产97av一区二区三区| 亚洲av五月天一区二区| 特级毛片a级毛片100免费播放| 香蕉视频在线观看国产| 在线免费观看视频播放| 91视色国内揄拍国内精品人妻 | 中文字幕午夜精品一区二区三区 | 国产91精选在线观看麻豆| 日本红怡院东京热加勒比| 一道本久久综合久久鬼色| 亚洲精品suv精品一区二区| 日日摸日日碰人妻无码老牲| 亚洲天堂av中文字幕| 日本三级香港三级人妇99| 99久久er这里只有精品18| 国产精品黄色片在线观看| 亚洲女同一区二区三区| 色一情一乱一伦麻豆| 人妻熟妇乱又伦精品视频app | 久久婷婷成人综合色| 99久久综合狠狠综合久久一区| 日本国产一区二区在线| 97人妻人人做人碰人人爽| 国产真人无遮挡作爱免费视频| 日本经典中文字幕人妻| 不卡一区二区视频日本| 国产精品无码成人午夜电影| 色综合久久久久综合999| 国内偷拍精品一区二区| 亚洲av无码国产精品永久一区| 欧美成人小视频| 久久网站在线免费观看|