亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合社會關(guān)系的社交網(wǎng)絡(luò)情感分析綜述*

        2021-02-03 04:08:22張祖凡甘臣權(quán)
        計算機工程與科學(xué) 2021年1期
        關(guān)鍵詞:社交強度文本

        張 琦,張祖凡,甘臣權(quán)

        (重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065)

        1 引言

        社交網(wǎng)絡(luò)情感分析又稱意見挖掘,通過利用自然語言處理技術(shù)挖掘社交網(wǎng)絡(luò)中用戶的觀點、態(tài)度和情感[1 - 3]。許多研究學(xué)者對社交網(wǎng)站中的內(nèi)容進行了情感分析[4],并挖掘了社交網(wǎng)絡(luò)上用戶的情感和潛在的觀點。目前該研究有著廣闊的應(yīng)用場景,比如企業(yè)可以準(zhǔn)確獲取客戶對于產(chǎn)品的反饋信息[5,6],根據(jù)反饋信息進一步提高產(chǎn)品質(zhì)量,制定更高效的產(chǎn)品推廣方案;政府通過輿情監(jiān)督可以對公共事件做出快速應(yīng)答,并利用社交網(wǎng)站上的社會關(guān)系數(shù)據(jù)進行情感分析,實現(xiàn)對互聯(lián)網(wǎng)用戶的情感疏導(dǎo)。目前對于內(nèi)容長且正式的文本進行情感分析取得了較為滿意的結(jié)果,但是社交網(wǎng)絡(luò)中的文本較短、語法不規(guī)則、語言表達形式豐富且包含較多的數(shù)據(jù)噪聲,加劇了詞匯稀疏問題,因此傳統(tǒng)的文本情感分析方法用于社交網(wǎng)絡(luò)中的情感分析時性能急劇下降。但是,社交網(wǎng)絡(luò)中包含許多其他有價值的信息,比如用戶間交互產(chǎn)生的社會關(guān)系信息[7 - 9]、微博文本內(nèi)容包含的多種表達形式等。利用用戶間的社會關(guān)系可以生成對用戶的個性化推薦[10 - 13],預(yù)測個體用戶、群體的情感或行為[14 - 18]。除此之外,許多學(xué)者將社會關(guān)系與社交網(wǎng)絡(luò)情感分析結(jié)合起來[19 - 25],根據(jù)用戶間的關(guān)系強度建立情感之間的聯(lián)系,可以提高對語義模糊博文情感分析的準(zhǔn)確率或是模擬出社交網(wǎng)絡(luò)中用戶的情感變化、行為與決策選擇。如何利用社交網(wǎng)絡(luò)自身的特點進行情感分析成為值得研究的課題。

        本文根據(jù)對用戶間社會關(guān)系的研究和社交網(wǎng)絡(luò)情感分析2個主要方面展開介紹,論文結(jié)構(gòu)如下:第2節(jié)介紹了社會關(guān)系的研究和應(yīng)用,主要包括社會關(guān)系的定義、影響社會關(guān)系的因素及社會關(guān)系的度量方法和應(yīng)用;第3節(jié)詳細(xì)闡述了對社交網(wǎng)絡(luò)進行情感分析的方法和常用數(shù)據(jù)集;第4節(jié)描述了融合社會關(guān)系的社交網(wǎng)絡(luò)情感分析的研究進程;第5節(jié)描述了研究趨勢與展望;最后一節(jié)進行了總結(jié)。

        2 社會關(guān)系的研究和應(yīng)用

        社會關(guān)系屬于社會學(xué)中的關(guān)系社會學(xué)范圍,用于定義2個或多個個體之間的關(guān)系類別,根據(jù)個體的行為判斷個體之間的關(guān)系。目前主要識別的社會關(guān)系有組關(guān)系 (Groups)、親屬關(guān)系 (Kinship)、活動與交互關(guān)系 (Activities and Interactions)和具體的關(guān)系 (Detailed Relationship)[26]等,如圖1所示。由于本文主要探討社交網(wǎng)絡(luò)中人與人之間的社會關(guān)系,所以這部分內(nèi)容主要介紹社會關(guān)系中的活動與交互關(guān)系。

        社交網(wǎng)絡(luò)平臺的蓬勃發(fā)展使得用戶間的交流越來越頻繁,用戶間的社會關(guān)系也越來越緊密。人們不再局限于對內(nèi)容的分享,還會受到情緒間的感染和傳播,這種影響會沿著用戶關(guān)系網(wǎng)不斷地擴散,進而對用戶的行為和情感狀態(tài)產(chǎn)生影響。根據(jù)社交網(wǎng)絡(luò)上用戶間豐富的交互信息,可以分析出用戶間的社會關(guān)系,利用用戶間的社會關(guān)系信息可以實現(xiàn)對用戶的個性化推薦、預(yù)測用戶的行為以及進行輿情監(jiān)督,因此研究用戶之間的社會關(guān)系有著重要意義。

        Figure 1 Social relationship classification diagram圖1 社會關(guān)系分類圖

        2.1 社會學(xué)理論

        隨著社交網(wǎng)絡(luò)平臺的發(fā)展,已有許多研究表明和證實了依據(jù)社會學(xué)理論可以對社交網(wǎng)絡(luò)上的信息進行有效的分析,該理論也被廣泛應(yīng)用于社交網(wǎng)絡(luò)的情感分析中,比如社會學(xué)中的同質(zhì)性[27]、情緒感染[28]和社會影響[29]等。當(dāng)處于某種情感狀態(tài)時,人們一般不會將情緒隱藏起來,而是傾向于表達情感[30],所以社交網(wǎng)絡(luò)平臺上蘊含著豐富的情感信息。

        (1)社會同質(zhì)性。

        社會同質(zhì)性是指人們傾向于與自己相似的人做朋友,在現(xiàn)實生活中具有相似興趣愛好的人更容易聚集到一起。Leskovec等人[7]通過對4個大型社交網(wǎng)絡(luò)平臺進行分析,證明了社會同質(zhì)性的存在。文獻[27]的進一步研究表明,在社交網(wǎng)絡(luò)中具有相似屬性的用戶有著相似的行為表現(xiàn),而且用戶更傾向于與自己相似的人成為朋友。此外,Bollen等人[31]對具體的社交網(wǎng)絡(luò)平臺Twitter進行了分析,結(jié)果表明Twitter上的用戶對幸福感也存在同質(zhì)性現(xiàn)象,即用戶更傾向于與具有相似幸福感的人進行交互。

        (2)情緒感染。

        人們通常通過面部表情、聲音的起伏和姿勢的反饋去感染他人的情緒,這種現(xiàn)象在社會科學(xué)中被認(rèn)為是情緒的感染。情緒感染在人際關(guān)系中有著重要的作用,它可以潛移默化地促進行為的同步性和對他人情感的追蹤。情緒感染理論最早由Hatfield等人[8]提出,該理論將情緒感染定義為人們傾向于自動模仿和同步他人的表情、發(fā)音、姿勢和動作。張茗等人[32]還進一步證明了微信中也存在著情緒感染,而且感染后的情緒強度與用戶間關(guān)系的親密程度有關(guān)。

        (3)社會影響。

        當(dāng)今社會人們之間的交互活動越來越頻繁,在人與人之間頻繁互動的過程中人們不可避免地相互產(chǎn)生影響,通過這種相互影響,使得人們不斷地調(diào)整自身行為以與朋友保持一致性,隨著時間的增長,人們與他們的朋友越來越相似,這稱為社會間的影響作用。Bond等人[9]對2010年Facebook上6 100萬人對美國國會選舉投票的行為進行了研究,結(jié)果表明網(wǎng)站上的信息不僅影響了接收到它們的用戶,還影響了用戶的朋友,以及朋友的朋友,驗證了社會影響會對用戶的決策行為產(chǎn)生影響。文獻[33]對社交網(wǎng)站上個體評分和評論行為進行了研究發(fā)現(xiàn),積極和消極的社會影響產(chǎn)生了不對稱的羊群效應(yīng),也表明了社會影響會改變用戶的看法和觀點。

        以上研究表明,人的情感會受到周圍環(huán)境和他人的影響,相似的人傾向于相似的情感趨向、相似的觀點和相似的行為,如何挖掘社交網(wǎng)絡(luò)中的社會學(xué)特性是一個值得深入研究的課題。

        2.2 社會關(guān)系強度的度量方法

        根據(jù)社會學(xué)理論,用戶之間存在著某種社會關(guān)系,這種社會關(guān)系影響著人們的情緒表達和行為選擇,如何度量用戶間的社會關(guān)系強度是運用社會關(guān)系解決問題的關(guān)鍵。用戶在注冊社交網(wǎng)絡(luò)賬號信息時,需要設(shè)置個人信息,比如名字、年齡、出生日期、居住地、受教育程度和興趣愛好等。根據(jù)社會同質(zhì)性理論,信息相似度高的用戶傾向于聚集到一起,對同一事件趨向于發(fā)表相同的觀點。除了根據(jù)用戶設(shè)置的個人信息可以找到相似的朋友之外,當(dāng)用戶在社交網(wǎng)絡(luò)上瀏覽內(nèi)容信息時,也會受到其他用戶的情緒感染或社會的影響,當(dāng)用戶對博文內(nèi)容表示贊同時,會產(chǎn)生點贊、轉(zhuǎn)發(fā)和評論等行為,通過這些行為進一步加強了用戶間的社會關(guān)系強度。根據(jù)社交網(wǎng)絡(luò)上的信息,許多學(xué)者對社會關(guān)系強度的度量展開了研究。

        文獻[10]構(gòu)建了社會信任模型,通過利用用戶的個人信息進行相似性度量,特別考慮了用戶間的興趣相似度,用于圖書推薦。Akcora等人[34]分別從網(wǎng)絡(luò)相似度和個人資料屬性進行用戶間相似性的度量,其中,網(wǎng)絡(luò)相似度是指2個用戶分別與其他用戶的網(wǎng)絡(luò)連接結(jié)構(gòu)的相似度。

        由于用戶在社交網(wǎng)絡(luò)上可以通過多種交互行為建立社會關(guān)系,片面考慮用戶間的相似性并不能準(zhǔn)確度量出用戶間的關(guān)系強度,在此基礎(chǔ)上許多學(xué)者考慮了更多的因素用于關(guān)系強度的度量。陳增等人[35]從位置、時間和用戶等多方面對社會關(guān)系進行了度量。文獻[36,37]利用了用戶的個人信息和交互活動計算不同用戶間的關(guān)系強度。除此之外,文獻[38]針對微信朋友圈的特點,提高了關(guān)系強度計算結(jié)果的準(zhǔn)確性,并根據(jù)相似度和交互活動計算目標(biāo)用戶和他的微信朋友圈朋友之間的關(guān)系強度,綜合考慮用戶資料信息、微信訂閱、點贊、評論、回復(fù)和收藏等多種影響因素。Lin等人[39]提出了一種基于信任傳播策略和直接關(guān)系強度的加權(quán)社會網(wǎng)絡(luò)圖中關(guān)系強度的計算方法,通過關(guān)系路徑的長度、關(guān)系路徑的數(shù)量和關(guān)系路徑的邊權(quán)(直接關(guān)系強度)估計間接關(guān)系的強度,綜合直接關(guān)系強度和間接關(guān)系強度來表示社交網(wǎng)絡(luò)中2個用戶之間的關(guān)系強度,此方法充分估計了社交網(wǎng)絡(luò)中任意2個用戶之間的關(guān)系強度。史殿習(xí)等人[40]根據(jù)日常軌跡、語義位置和語義標(biāo)簽3個因素度量了朋友之間的關(guān)系強度,該方法實現(xiàn)了對朋友間關(guān)系強度的度量。

        大多數(shù)的關(guān)系強度評估方法將所有的交互活動混淆在一起,沒有考慮到相同用戶之間的關(guān)系強度在不同的活動領(lǐng)域會有顯著的差異,測量在不同活動領(lǐng)域的關(guān)系強度似乎更合理,也更加符合現(xiàn)實情況。Ju等人[41]提出了一種新的度量在線社交網(wǎng)絡(luò)關(guān)系強度的模型,該模型針對特定活動領(lǐng)域利用余弦相似度計算個人信息屬性的相似性,利用Jaccard系數(shù)計算關(guān)注公眾號的相似度,利用用戶間的交互時間線、語言間的情感相似度等因素計算微博用戶間的關(guān)系強度。文獻[42]提出了一個基于3個信息源的通用框架來衡量不同用戶在不同活動領(lǐng)域的關(guān)系強度:用戶個人信息的相似性、用戶名的共現(xiàn)性和交互活動。Zhao等人[43]提出了一個衡量不同用戶之間關(guān)系強度的通用框架,不僅考慮了用戶的個人資料信息,還考慮了交互活動和活動領(lǐng)域。

        2.3 社會關(guān)系的應(yīng)用

        社會關(guān)系在一些研究中得到了廣泛的應(yīng)用。比如,社會關(guān)系被應(yīng)用于推薦系統(tǒng)[10-13]。由于相似的用戶有著相同的偏好或行為習(xí)慣,通過構(gòu)建用戶間的關(guān)系模型,在圖書、電影等方面實現(xiàn)對用戶的個性化推薦。除了利用社會關(guān)系生成對用戶的個性化推薦,研究者們還利用社會關(guān)系對用戶情感的變化趨勢和行為的決策進行了研究:Zeng等人[19]通過消息發(fā)出部門的威信力、用戶主觀判斷能力和情緒感染等因素刻畫出用戶對于社會事件反應(yīng)的情感變化趨勢;文獻[14]提出了交互感知傳播網(wǎng)絡(luò),通過考慮各種交互因素,比如不同社會角色之間的影響程度、不同話題間的交互和情感之間的感染交互,預(yù)測了用戶在這些因素影響下傳播消息的概率;文獻[15]提出了Social Tie Channel模型,根據(jù)鄰居節(jié)點的影響、內(nèi)容的內(nèi)在屬性等因素,以較高的精度預(yù)測了用戶分享內(nèi)容的概率。進一步,一些研究將社會關(guān)系從對個人層面的影響上升到對群體行為演化過程的預(yù)測[16 - 18],并根據(jù)社會學(xué)理論模擬了政治集會、發(fā)生火災(zāi)或爆炸情況下人的移動方向和行為選擇。此外,還有研究通過用戶間的相似性、交互頻率和交互結(jié)果的情感趨向構(gòu)建社會關(guān)系,以此為基礎(chǔ)實現(xiàn)了對設(shè)備到設(shè)備通信中資源的最優(yōu)分配[44]。

        以上研究表明:社會關(guān)系在用戶個性化推薦、情感趨勢和行為預(yù)測、資源分配等方面的研究發(fā)揮了重要的作用,為研究融合社會關(guān)系的社交網(wǎng)絡(luò)情感分析奠定了基礎(chǔ)。

        3 社交網(wǎng)絡(luò)情感分析

        融合社會關(guān)系的社交網(wǎng)絡(luò)情感分析的另一關(guān)鍵問題就是對情感進行分析,其中主要包括對情感分析方法的選擇和對社交網(wǎng)絡(luò)數(shù)據(jù)集的采集,下面進行詳細(xì)的介紹。

        3.1 情感分析的方法

        在融合社會關(guān)系的社交網(wǎng)絡(luò)情感分析中,對用戶間的社會關(guān)系進行準(zhǔn)確度量后,利用用戶間的社會關(guān)系對特征數(shù)據(jù)進行擴充,最后進行情感的分析。所以,對情感分析方法的選擇對情感分析的準(zhǔn)確率有著重要的影響。表1列舉出了常用的社交網(wǎng)絡(luò)情感分析方法的優(yōu)勢和不足,下面對常用的社交網(wǎng)絡(luò)情感分析方法進行具體的介紹。

        Table 1 Comparison of sentiment analysis methods in social networks 表1 社交網(wǎng)絡(luò)情感分析方法對比

        (1)基于情感詞典和機器學(xué)習(xí)的情感分析方法。

        基于情感詞典的情感分析方法,是在標(biāo)注極性或極性分?jǐn)?shù)單詞的基礎(chǔ)上,通過比對情感文本中包含的極性情感詞,然后采用權(quán)值算法或簡單統(tǒng)計的方法進行情感分類。由于此方法不需要訓(xùn)練數(shù)據(jù),因此被廣泛應(yīng)用于傳統(tǒng)的文本情感分析中[45]。在社交網(wǎng)絡(luò)中也普遍采用基于情感詞典的方法,SentiStrength是適用于社會媒體的一種算法,該算法以包含社交網(wǎng)絡(luò)中經(jīng)常使用的單詞和短語的詞匯庫[46]為基礎(chǔ),可以對非正式文本的情感進行有效識別。在此基礎(chǔ)上,Hutto等人[47]在2014年提出了一種基于詞庫和語法規(guī)則的文本情感識別方法Vader,該詞庫包括由人工標(biāo)注的Twitter中常用的情感詞,判定了情感極性和強度,同時考慮了語法規(guī)則對情感判別的影響。Saif等人[48]進一步開發(fā)了一種適用于Twitter情感分析的以情感詞典為基礎(chǔ)的方法SentiCircles,該方法考慮了詞匯在不同語境下的共現(xiàn)模式,對詞匯極性和詞匯得分進行了更新。

        機器學(xué)習(xí)方法也被應(yīng)用于情感分析領(lǐng)域。首先需要建立一個訓(xùn)練集,并根據(jù)用戶情緒對數(shù)據(jù)進行標(biāo)記;然后從訓(xùn)練集中提取一系列特征,將其輸入到分類器方法中,常用的分類方法有樸素貝葉斯NB (Naive Bayes)、支持向量機SVM (Support Vector Machine)和隨機森林 (Random Forest)等;最后通過分類器對未標(biāo)記數(shù)據(jù)進行情感傾向性判定?;跈C器學(xué)習(xí)的方法的流程如圖2所示。林江豪等人[49]提出了一種利用樸素貝葉斯分類器對收集的熱門微博話題和酒店評論進行文本情感分類的方法。此外,機器學(xué)習(xí)方法也被用于區(qū)分推文內(nèi)容的正負(fù)極性,文獻[50]提出了一種改進分類的方法,通過利用SentiWordNet和NB提高了推文分類的準(zhǔn)確性。樸素貝葉斯具有復(fù)雜度低、訓(xùn)練過程簡單等優(yōu)點,從而被廣泛應(yīng)用于文本情感分類任務(wù)中,但也存在數(shù)據(jù)稀疏性問題。Torunoglu等人[51]為了解決稀疏性問題,提出了一種基于Wikipedia的語義平滑方法,實驗結(jié)果表明該方法提升了樸素貝葉斯的性能,對推文情感分析的準(zhǔn)確率甚至超過了支持向量機。

        Figure 2 Flow chart of sentiment analysis based on machine learning圖2 基于機器學(xué)習(xí)的文本情感分析流程圖

        從上述分析可知基于情感詞典和機器學(xué)習(xí)的方法被廣泛應(yīng)用于對社交網(wǎng)絡(luò)的情感分析中,基于情感詞典的情感分析方法易于理解,對情感分類的計算較為簡單,然而分類準(zhǔn)確率受限于情感詞典的構(gòu)建和判斷規(guī)則的質(zhì)量,限制了該方法使用的廣度?;跈C器學(xué)習(xí)的方法與基于情感詞典的方法相比,有較強的泛化能力,并且適用于較小的數(shù)據(jù)集,但是對模型的訓(xùn)練效果依賴于被標(biāo)注數(shù)據(jù)集的質(zhì)量,獲取高質(zhì)量的數(shù)據(jù)集需要投入大量的人工進行數(shù)據(jù)標(biāo)記。所以,基于機器學(xué)習(xí)的方法需要依靠大量人工獲取標(biāo)記數(shù)據(jù),以獲取較高的分類準(zhǔn)確率。

        (2)基于深度學(xué)習(xí)的情感分析方法。

        常用的神經(jīng)網(wǎng)絡(luò)模型主要有長短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)、卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)及其變體等。LSTM包含輸入門it、遺忘門ft和輸出門Ot3個門控單元,其中輸入門決定當(dāng)前時刻的輸入信息和前一時刻更新的狀態(tài);遺忘門決定需要遺忘的不必要信息;輸出門決定要從細(xì)胞單元輸出的部分。通過門控控制,實現(xiàn)了信息的選擇性流動,使得LSTM獲得了長期記憶,可以捕獲文本間的長期依賴關(guān)系,從而可以根據(jù)上下文信息預(yù)測下文出現(xiàn)的單詞的概率。CNN是一種前饋神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)圖如圖3所示:輸入層的輸入為多維數(shù)據(jù),比如二維的詞向量表示;卷積層通過多個卷積核對輸入數(shù)據(jù)的卷積運算實現(xiàn)對信息特征的提??;池化層對卷積層生成的特征進行選擇和過濾,以提取關(guān)鍵特征;全連接層可將生成的特征圖轉(zhuǎn)化成向量形式,以便于輸出層計算相應(yīng)的概率值。由此可知CNN可以有效地提取出文本中的信息特征。

        Figure 3 Structure diagram of CNN
        圖3 CNN結(jié)構(gòu)圖

        隨著在計算機視覺領(lǐng)域的成功應(yīng)用,深度學(xué)習(xí)成為近年來的研究熱點。不同于依賴帶標(biāo)簽數(shù)據(jù)的數(shù)目和特定的領(lǐng)域范圍的機器學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)自動提取特征的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域被廣泛應(yīng)用,比如詞嵌入 (Word Embedding)首先使用深度學(xué)習(xí)從大量文本數(shù)據(jù)中學(xué)習(xí)單詞的向量表示,然后用于文檔的表示

        [52]

        ;Tang等人

        [53]

        利用遠距離監(jiān)督收集推文,并從中學(xué)習(xí)情感特定詞嵌入,然后通過3個神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)情感特定詞嵌入的特征,從而對Twitter的推文內(nèi)容進行情感分類;段宇翔等人

        [54]

        提出一種基于LSTM-CNNs的情感增強模型,對新浪微博文本的情感極性進行了分析;進一步地,文獻[55]提出一種利用深度學(xué)習(xí)對網(wǎng)絡(luò)文本進行細(xì)粒度情感分析的方法;Alharbi等人

        [56]

        提出了合并用戶行為的卷積神經(jīng)網(wǎng)絡(luò)模型,將40種用戶行為(用戶發(fā)表各種情感推文的概率、用戶的朋友數(shù)、推文轉(zhuǎn)發(fā)數(shù)等)作為訓(xùn)練特征對推文的情感進行了有效的分析。最近的研究

        [57,58]

        進一步將用戶的個性化信息或用戶社會關(guān)系與文本表現(xiàn)整合起來,提高了模型的有效性。

        從以上分析中可知,基于深度學(xué)習(xí)的情感分析是一種基于對特征自學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的方法,深度學(xué)習(xí)強大的判別能力和對特征自學(xué)習(xí)的能力使得其在處理高維度、無標(biāo)簽的大數(shù)據(jù)時表現(xiàn)出強大的優(yōu)勢,但是對社交網(wǎng)絡(luò)中語義模糊的短文本內(nèi)容難以進行有效的訓(xùn)練,從而影響情感分析的準(zhǔn)確率。

        3.2 社交網(wǎng)絡(luò)的數(shù)據(jù)集

        在利用機器學(xué)習(xí)和深度學(xué)習(xí)進行文本情感分析時,需要依靠足夠的帶有情感標(biāo)簽的文本信息進行數(shù)據(jù)訓(xùn)練,然后根據(jù)訓(xùn)練結(jié)果預(yù)測出未標(biāo)記情感信息文本的情感極性?,F(xiàn)有許多針對社交網(wǎng)絡(luò)的數(shù)據(jù)集,除了包含豐富的情感極性信息,一些社交網(wǎng)絡(luò)數(shù)據(jù)集還包括社交網(wǎng)絡(luò)上的信息,比如文本內(nèi)容的話題、文本ID等。為了獲取社交網(wǎng)絡(luò)上更加豐富的社會關(guān)系信息,一些研究者通過API (Application Programming Interface)或者網(wǎng)絡(luò)爬蟲的方式獲取社交網(wǎng)絡(luò)上的數(shù)據(jù)資源,進行更加深入的研究。下面介紹對經(jīng)常使用的社交網(wǎng)絡(luò)數(shù)據(jù)集和通過API或網(wǎng)絡(luò)爬蟲獲取的數(shù)據(jù)集:

        (1)OMD(Obama-McCain Debate)數(shù)據(jù)集[59]。該數(shù)據(jù)集包含2008年9月26日Barack Obama和John McCain總統(tǒng)辯論期間發(fā)布的3 269條推文,每條推文的情感標(biāo)簽都是通過Amazon Mechanical Turk標(biāo)注的,情感極性包括積極、消極、混合和其他情感,每一條推文至少有3個土耳其人手動標(biāo)記推文的標(biāo)簽。

        (2)HCR(Health Care Reform)數(shù)據(jù)集[60]。該數(shù)據(jù)集由Speriosu等人[60]收集,其中的推文內(nèi)容涉及2010年3月發(fā)生在美國的醫(yī)療改革事件,手動標(biāo)注了數(shù)據(jù)集的5種情感:積極、消極、中性、不相關(guān)和不確定。該數(shù)據(jù)集共涉及9個主題,每條推文內(nèi)容都對應(yīng)其中的一個主題。

        (3)STS(Stanford Twitter Sentiment)數(shù)據(jù)集[61]。Go等人[61]通過Twitter API獲取Twitter數(shù)據(jù),創(chuàng)建了40 126條包含情感極性的推文集合,情感標(biāo)簽極性為積極和消極。

        (4)Sanders Analytics Twitter Sentiment Corpus[62]。該語料庫包含5 513條推文,涉及4個話題:Apple、Google、Microsoft和Twitter。語料庫中每個條目包含推文ID、推文所屬的話題類別和手動標(biāo)記的情感標(biāo)簽。

        除了以上處理好的數(shù)據(jù)集,為了獲得社交網(wǎng)絡(luò)上更豐富的信息,一些研究者通過API接口或網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)信息。文獻[63]通過新浪微博的搜索API自動訪問消息和響應(yīng)更新時間,獲取了新浪微博上的內(nèi)容信息和更新時間。Zeng等人[19]利用數(shù)據(jù)收集工具Octopus獲取新浪微博中的信息,對含有關(guān)鍵詞的內(nèi)容進行檢索,包括用戶名、用戶ID、發(fā)布內(nèi)容、評論點贊的數(shù)量和其他基本信息屬性,并將數(shù)據(jù)保存到Excel表格中。除了對新浪微博進行數(shù)據(jù)抓取,對Facebook、Twitter等國外社交網(wǎng)站同樣可以使用相同的方法進行數(shù)據(jù)抓取。比如文獻[64]使用Facebook Graph API提取了Facebook中的內(nèi)容和相關(guān)信息(發(fā)表時間、點贊、分享、評論的數(shù)目)。文獻[65]從LiveJournal網(wǎng)站中爬取了包含帖子內(nèi)容、用戶間朋友關(guān)系和關(guān)注關(guān)系的數(shù)據(jù)集,并根據(jù)爬取的數(shù)據(jù)集預(yù)測社交網(wǎng)絡(luò)中網(wǎng)民的情感。

        4 融合社會關(guān)系的社交網(wǎng)絡(luò)情感分析

        社交網(wǎng)絡(luò)情感分析旨在從社交媒體網(wǎng)站上發(fā)布的信息中提取其中的情感信息。融合社會關(guān)系的社交網(wǎng)絡(luò)情感分析主要通過利用用戶間的社會關(guān)系構(gòu)建發(fā)布內(nèi)容之間的聯(lián)系,對數(shù)據(jù)進行擴充,以更精準(zhǔn)地分析情感。與傳統(tǒng)的情感分析相比,社交網(wǎng)絡(luò)對內(nèi)容長度的限制、語句內(nèi)容的隨意性以及用戶間情緒、行為的相互影響使得對社交網(wǎng)絡(luò)的情感分析更具挑戰(zhàn)性。由于微博內(nèi)容的短文本形式、表達形式靈活多變,影響了情感分析的準(zhǔn)確率。比如當(dāng)對一個產(chǎn)品進行評論時,若只有很少來自用戶的評論,這將對情感分析帶來阻礙。為了解決數(shù)據(jù)稀疏問題,近年來有許多研究者利用社會學(xué)理論對數(shù)據(jù)進行擴充。社交網(wǎng)絡(luò)平臺除了包含發(fā)表的內(nèi)容信息,還包括用戶的個人信息和交互行為,主動的交互行為包括關(guān)注其他用戶,發(fā)布微博內(nèi)容,點贊、評論、轉(zhuǎn)發(fā)其他微博內(nèi)容;被動的交互行為包括被其它用戶關(guān)注,微博內(nèi)容被點贊、評論和轉(zhuǎn)發(fā)。通過個人信息和交互活動建立起用戶間的關(guān)系信息、用戶和微博的關(guān)系信息和微博文本間的關(guān)系信息,這些信息在社交網(wǎng)絡(luò)情感分析領(lǐng)域起到了不可忽視的作用。

        Hu等人[20]提出了利用社會學(xué)中的情感一致性和情緒感染理論分析推文情感的SANT (Sociological Approach to handling Noisy and short Texts)模型,利用社會關(guān)系處理多噪聲和簡短的文本,該模型證明了利用社會關(guān)系分析情感的可行性和有效性。文獻[20]在利用社會關(guān)系時,考慮了由同一用戶發(fā)表的內(nèi)容比任意2條博文內(nèi)容的情感更具有一致性,以及2條由具有朋友關(guān)系的用戶發(fā)表的內(nèi)容比任意2條博文內(nèi)容的情感更具有一致性。由于社會關(guān)系不僅局限于用戶間的關(guān)注關(guān)系,所以一些研究在文獻[20]的基礎(chǔ)上對社會關(guān)系進行了進一步具體的量化。比如,文獻[21]提出了MSA-USSR (Microblog Sentiment Analysis-User Similarity information and Social Relation information)模型,用于對新浪微博文本進行情感分析。該模型利用用戶間關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)相似性、個人基本信息相似性、興趣相似性和用戶間交互頻率構(gòu)建了表示微博內(nèi)容間相關(guān)性的矩陣,實驗結(jié)果表明,該模型的分類準(zhǔn)確率優(yōu)于SVM和SANT的。此外,Zou等人[22]在SANT模型的基礎(chǔ)上又提出了SASS (Sentiment Analysis using Structure Similarity)模型,該模型不僅考慮了用戶之間的直接關(guān)注關(guān)系,還考慮了用戶間隱含的聯(lián)系和話題間的相關(guān)性,即有共同朋友的用戶成為朋友的概率比隨意2個用戶成為朋友的概率大,屬于同一話題類型的微博文本相似度更高,情感相似度也更高。Lu[23]通過微博內(nèi)容間的社會聯(lián)系構(gòu)建了基于圖的半監(jiān)督分類器SSA-ST (Semi-supervised Sentiment Analysis using Social relations and Text similarities),利用社會關(guān)系和文本相似性刻畫了微博文本間的關(guān)系,然后利用微博文本間的關(guān)系將標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)連接起來,在一定程度上解決了人工標(biāo)注大量微博數(shù)據(jù)成本昂貴的問題。文獻[24]也提出了一種基于社會關(guān)系的半監(jiān)督情感分類SASR (Sentiment Analysis using Social Relationships)模型,同樣通過微博文本的話題相似度和用戶間的轉(zhuǎn)發(fā)點贊關(guān)系構(gòu)建社會關(guān)系。此方法有效減少了對訓(xùn)練數(shù)據(jù)集的依賴性,同時也取得了較高的分類準(zhǔn)確率。以上研究均采用傳統(tǒng)的監(jiān)督學(xué)習(xí)分類方法,通過最小二乘優(yōu)化對文本情感分析進行建模,將分類問題轉(zhuǎn)化為優(yōu)化問題。表2列出了上述利用社會關(guān)系進行情感分析的模型所采用的數(shù)據(jù)集和社會關(guān)系以及實驗結(jié)果。表2中的實驗結(jié)果表明,以上研究利用社會關(guān)系實現(xiàn)了較高的情感分類準(zhǔn)確率。

        根據(jù)以上介紹,有許多研究針對于社交網(wǎng)絡(luò)中的文本情感分析,通過用戶之間交互形成的社會關(guān)系構(gòu)建內(nèi)容文本之間的聯(lián)系,為語義模糊內(nèi)容提高情感判別準(zhǔn)確率提供了具有可實施性的方法。但是,對社會關(guān)系的研究并不局限于對文本進行情感分析。比如文獻[16]對群體行為的選擇和情感的變化過程進行了模擬,將SIR (Susceptible Infected Recovered)模型和個人特性因素結(jié)合起來構(gòu)建了情感傳染模型,個人特性因素包括情感傳送能力 (Extroversion)和情感接受能力 (Empath),通過OCEAN (Openness Conscientiousness Extroversion Agreeableness Neuroticism)模型對個人情感接受能力進行了刻畫,通過個人受到的情感感染強度預(yù)測個人當(dāng)前時刻的情感,情感的變化進而會對個人行為的選擇產(chǎn)生影響。文獻[19]利用社會學(xué)理論對流言傳播過程中網(wǎng)民的情感變化狀態(tài)進行了模擬仿真,刻畫用戶的情感變化狀態(tài)有利于政府部門快速做出決策。Yang等人[25]根據(jù)用戶受到不同社會角色好友的情感感染和用戶歷史情感趨向?qū)τ脩舭l(fā)表在社交網(wǎng)絡(luò)上的圖像進行情感分析,同樣取得了較好的性能。

        根據(jù)以上分析可知,利用社會關(guān)系進行社交網(wǎng)絡(luò)情感分析取得了較好的分類結(jié)果。文獻[20-24]利用用戶間的社會關(guān)系對微博文本內(nèi)容進行了情感分析,其中,一些研究充分利用了社交網(wǎng)絡(luò)中存在的用戶信息度量社會關(guān)系,比如文獻[21]綜合考慮了在同一話題下用戶間關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)的相似性、個人基本信息的相似性、興趣相似性和用戶間的交互頻率,較為全面地考慮了影響社會關(guān)系的因素。還有一些研究較為簡單地考慮了影響用戶間社會關(guān)系的因素,文獻[20]只根據(jù)用戶間的關(guān)注關(guān)系構(gòu)建用戶間的社會關(guān)系,無法較為精確地度量出用戶間的關(guān)系強度,從而可能造成情感分類的結(jié)果產(chǎn)生一些偏差。以上對度量社會關(guān)系的研究取得了較大的進展,然而對情感分析方法的選擇較為單一,多數(shù)采用了傳統(tǒng)的監(jiān)督學(xué)習(xí)分類方法,一些通過最小二乘優(yōu)化對文本情感分析進行建模,不太適用于對高維度、無標(biāo)簽數(shù)據(jù)的處理,所以選擇情感分析方法的方式有待改進。

        Table 2 Comparison of sentiment analysis models using social relationships表2 利用社會關(guān)系的情感分析模型對比

        5 研究趨勢與展望

        通過以上介紹可知,社會關(guān)系在社交網(wǎng)絡(luò)情感分析中發(fā)揮了重要作用,無論是對發(fā)表內(nèi)容進行情感分析還是對用戶的情感趨勢和行為決策進行預(yù)測,都有極大的幫助,但是仍存在很多亟須解決和優(yōu)化的問題,下面對利用社會關(guān)系進行情感分析的研究方向進行總結(jié):

        (1)收集包含社會關(guān)系的數(shù)據(jù)集。雖然已有許多針對社交網(wǎng)絡(luò)的數(shù)據(jù)集,但多數(shù)只包含文本內(nèi)容及其情感標(biāo)注,或是加入了文本內(nèi)容所屬話題類別和ID信息,未包含社交網(wǎng)絡(luò)上用戶的個人信息和用戶間的交互信息,無法直接從數(shù)據(jù)集中獲取用戶間的關(guān)系信息,進而無法準(zhǔn)確度量出用戶在社交網(wǎng)絡(luò)中受到的情感影響的強度值。所以,如何獲取包含社會關(guān)系信息的數(shù)據(jù)集成為了利用社會關(guān)系進行情感分析的關(guān)鍵問題。

        (2)準(zhǔn)確度量用戶間的社會關(guān)系?,F(xiàn)有的大部分研究只簡單考慮了影響社會關(guān)系強度的因素,比如只考慮用戶間的關(guān)注關(guān)系或發(fā)表內(nèi)容的相似度,通過較淺層面的相關(guān)關(guān)系建立用戶間的社會關(guān)系,沒有考慮到真正會對用戶情感產(chǎn)生影響的交互活動?,F(xiàn)有的大多數(shù)研究在度量用戶間的社會關(guān)系時只用0和1分別表示用戶間是否有關(guān)聯(lián),沒有準(zhǔn)確描述出用戶間社會關(guān)系的具體強度值。所以,為了準(zhǔn)確刻畫出用戶間的社會關(guān)系,需要從用戶間的交互活動和情感影響強度值2個方面進行度量。

        (3)使用有效的情感分析方法。綜上所述,已有許多研究利用社會關(guān)系對社交網(wǎng)絡(luò)中的文本、圖像進行情感分析,但大多數(shù)研究采用機器學(xué)習(xí)或情感詞典的方法進行情感分析,這些方法依賴于帶標(biāo)簽數(shù)據(jù)的數(shù)目、特定的領(lǐng)域和標(biāo)注情感分?jǐn)?shù)的單詞序列,當(dāng)處理社交網(wǎng)絡(luò)中的大數(shù)據(jù)時,性能表現(xiàn)較差。而基于神經(jīng)網(wǎng)絡(luò)自動提取特征的深度學(xué)習(xí)方法被廣泛應(yīng)用于情感分析領(lǐng)域,也可對社交網(wǎng)絡(luò)中龐大的數(shù)據(jù)進行有序的處理,以提高分析的準(zhǔn)確率。

        (4)將融合社會關(guān)系的多模態(tài)情感分析應(yīng)用于社交網(wǎng)絡(luò)。隨著社交網(wǎng)絡(luò)的發(fā)展,由于社交網(wǎng)絡(luò)內(nèi)容的多樣性,單一模態(tài)的情感分析遠不能令人滿意,現(xiàn)有許多研究將社交網(wǎng)絡(luò)中的文本和圖像結(jié)合起來進行情感分析,但對融合了社會關(guān)系的多模態(tài)情感分析的研究不是很多。社交網(wǎng)絡(luò)中包含著豐富的社交關(guān)系信息,如何將這些信息合理地應(yīng)用到社交網(wǎng)絡(luò)情感分析中也是一個值得研究的問題。

        針對以上問題,可從社會關(guān)系和情感分析2方面展開研究工作。首先,采用API接口或網(wǎng)絡(luò)爬蟲獲取社交網(wǎng)絡(luò)上豐富的社會關(guān)系信息,比如用戶的個人信息和交互活動信息,在獲取所需信息后對數(shù)據(jù)進行清洗,去除多余內(nèi)容,將用戶間的點贊、轉(zhuǎn)發(fā)、關(guān)注和評論等交互活動信息保存下來,用于構(gòu)建用戶間的社會關(guān)系。其次,為了準(zhǔn)確描述用戶間的社會關(guān)系強度,可采用霍克斯模型進行測量。該模型通過歷史事件與當(dāng)前事件的某種關(guān)系預(yù)測當(dāng)前事件發(fā)生的概率,即可通過用戶間的歷史交互活動預(yù)測當(dāng)前用戶間的關(guān)系強度值;或是利用其他會對情感產(chǎn)生影響的因素,比如通過研究用戶對情感的傳播能力和用戶對他人或社會產(chǎn)生情感影響的接受能力,從而刻畫出用戶在社會關(guān)系影響下的情感改變狀態(tài)。為了更精準(zhǔn)地計算用戶間的社會關(guān)系強度,可針對不同用戶在特定話題下的交互活動展開研究,以確保數(shù)據(jù)的準(zhǔn)確性。由于深度學(xué)習(xí)在情感分析領(lǐng)域取得的卓越性能,可將社會關(guān)系與深度學(xué)習(xí)結(jié)合起來,將用戶間的社會關(guān)系轉(zhuǎn)化成內(nèi)容之間的相關(guān)關(guān)系,對情感特征數(shù)據(jù)進行擴充,然后利用神經(jīng)網(wǎng)絡(luò)模型將融合了社會關(guān)系的大量的社交網(wǎng)絡(luò)數(shù)據(jù)進行情感分析,從而達到預(yù)測用戶或群體情感極性的目的。

        6 結(jié)束語

        隨著社交網(wǎng)絡(luò)的興起,對社交網(wǎng)絡(luò)的情感分析逐漸成為了熱點研究方向,也成為了文本情感分析的重要研究課題。社交網(wǎng)絡(luò)中有著豐富的包含情感的文本內(nèi)容,但是文本內(nèi)容靈活多變、語句內(nèi)容的隨意性以及社交網(wǎng)絡(luò)對文本長度的限制,對社交網(wǎng)絡(luò)文本內(nèi)容的情感分析造成了一定的阻礙。然而,社交網(wǎng)絡(luò)具有其獨特的特點,除了包含內(nèi)容信息,還包含了豐富的社會關(guān)系,利用社會關(guān)系分析情感也成為了研究者的研究方向。本文就社會關(guān)系和對社交網(wǎng)絡(luò)情感分析的方法進行了介紹,并總結(jié)了一些仍需解決的問題和未來的研究方向,以更好地利用社會關(guān)系提高對社交網(wǎng)絡(luò)情感分析的準(zhǔn)確率。

        猜你喜歡
        社交強度文本
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        低強度自密實混凝土在房建中的應(yīng)用
        社交距離
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        你回避社交,真不是因為內(nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        Vortex Rossby Waves in Asymmetric Basic Flow of Typhoons
        地埋管絕熱措施下的換熱強度
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        人妻少妇被粗大爽视频| 精品一级毛片| 久久国产精品免费一区六九堂| 五月综合丁香婷婷久久| 日韩日韩日韩日韩日韩日韩日韩| 天天夜碰日日摸日日澡| 一级呦女专区毛片| 日韩人妖一区二区三区| 色佬精品免费在线视频| 乱人伦人妻中文字幕无码| 98在线视频噜噜噜国产| 成人性生交大片免费看7| 精品一区二区av天堂色偷偷| 日本牲交大片免费观看| 欧美日韩国产在线观看免费| 国产精品午夜福利天堂| 久久天天躁狠狠躁夜夜av浪潮| 狠狠色噜噜狠狠狠888米奇视频| 91性视频| 一区二区三区亚洲免费| 国产播放隔着超薄丝袜进入| 日日干夜夜操高清视频| 亚洲av一区二区国产精品| 亚洲av毛片在线免费看| 无码国产福利av私拍| 日韩我不卡| 国内精品女同一区二区三区| 欧美激情乱人伦| 欧美黑人粗暴多交高潮水最多| 91日本在线精品高清观看| 黄色国产精品福利刺激午夜片| 免费看av在线网站网址| 日韩我不卡| av一区二区三区有码| 少妇爆乳无码专区| 无码人妻一区二区三区在线视频| 成人国产自拍在线播放| 中出人妻希奇杰卡西av| 久久精品国产第一区二区三区| 在线无码精品秘 在线观看| 日本精品一区二区三本中文|