亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)

        2012-10-15 01:51:20林鴻飛
        中文信息學(xué)報(bào) 2012年1期
        關(guān)鍵詞:詞匯情感語(yǔ)言

        楊 亮,林 原,林鴻飛

        (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連116024)

        1 引言

        隨著Web2.0的發(fā)展,人的參與性不斷提高,網(wǎng)絡(luò)的使用方式發(fā)生了改變,人們不再是被動(dòng)的從網(wǎng)絡(luò)獲取知識(shí),而是通過(guò)網(wǎng)絡(luò)主動(dòng)地表達(dá)自己的觀點(diǎn)或?qū)ζ渌嘶蚴录膽B(tài)度,微博通過(guò)簡(jiǎn)短的140字更新信息,并實(shí)現(xiàn)多工具即時(shí)分享,使其成為互聯(lián)網(wǎng)上一種新的重要媒體。微博的出現(xiàn),使信息在微博中呈現(xiàn)出碎片化、即時(shí)化和移動(dòng)化的特性,而不再是具有完整的上下文信息,通過(guò)微博自由、便捷、即時(shí)地抒發(fā)自己的情感,已成為互聯(lián)網(wǎng)上的時(shí)尚,同時(shí)也使得其成為熱點(diǎn)事件產(chǎn)生和談?wù)摰闹匾獔?chǎng)所,其中熱點(diǎn)事件指某一時(shí)間內(nèi)被廣泛關(guān)注、爭(zhēng)論、議論的事件、話題或者信息,因此對(duì)微博平臺(tái)中熱點(diǎn)事件的發(fā)現(xiàn)、監(jiān)控及管理等方面的研究工作也就越發(fā)顯得重要了。

        目前國(guó)內(nèi)微博的研究正處于起步階段,不少研究問(wèn)題在該領(lǐng)域中亟待解決?,F(xiàn)今,熱點(diǎn)事件的發(fā)現(xiàn)、監(jiān)控及管理正成為微博宏大信息流中的重要研究領(lǐng)域,當(dāng)某一熱點(diǎn)事件在微博平臺(tái)中出現(xiàn)時(shí),人們通過(guò)微博來(lái)表達(dá)自身對(duì)該熱點(diǎn)事件的觀點(diǎn)或態(tài)度,用戶群體的情感分布發(fā)生變化,從微博內(nèi)容方面表現(xiàn)為情感詞出現(xiàn)的幾率上升,這種現(xiàn)象為本文的研究工作提供了重要的依據(jù)。近年來(lái),基于語(yǔ)言模型的地理信息檢索[1],也在逐步引起許多研究人士的注意,本文依據(jù)情感詞分布情況構(gòu)建語(yǔ)言模型,對(duì)平臺(tái)中用戶群體情感變化進(jìn)行了分析,首次提出了情感分布語(yǔ)言模型(Emotion Distribution Language Model,以下簡(jiǎn)稱(chēng)ELM),用于微博平臺(tái)中發(fā)現(xiàn)熱點(diǎn)事件。

        根據(jù)文獻(xiàn)[2],當(dāng)熱點(diǎn)事件出現(xiàn)時(shí)微博中情感詞數(shù)量增多。具體表現(xiàn)為微博用戶群體的情感波動(dòng),因此當(dāng)相鄰時(shí)段的情感分布存在差異時(shí),往往伴有熱點(diǎn)事件的出現(xiàn)。本文利用以上結(jié)論,通過(guò)分析相鄰時(shí)段情感分布語(yǔ)言模型ELM間的差異,實(shí)現(xiàn)對(duì)熱點(diǎn)事件的發(fā)現(xiàn)。

        本文的組織結(jié)構(gòu)如下:第1節(jié)介紹論文的研究背景和意義;第2節(jié)介紹一些相關(guān)工作;第3節(jié)介紹情感詞匯本體構(gòu)建技術(shù)和情感分布語(yǔ)言模型ELM;第4節(jié)是實(shí)驗(yàn)流程的介紹及實(shí)驗(yàn)結(jié)果分析;最后,在第5節(jié)中對(duì)研究工作進(jìn)行總結(jié),同時(shí)提出了下一步的研究方向。

        2 相關(guān)工作

        2.1 微博領(lǐng)域的研究及趨勢(shì)

        目前國(guó)外研究方面,H.Kwak等[3]對(duì) Twitter是一種社會(huì)網(wǎng)絡(luò)還是新媒體進(jìn)行了分析。J.Weng等[4]提出了一種TwitterRank思想,在有影響力的Twitter發(fā)布者中尋找敏感話題。A.D.Sarma[5]對(duì)類(lèi)似Twitter的論壇在其排序機(jī)制方面進(jìn)行了研究。現(xiàn)今國(guó)外對(duì)微博的研究重點(diǎn)在Ranking方面,從時(shí)空角度對(duì)微博平臺(tái)中談?wù)摰氖录l(fā)現(xiàn)、跟蹤和還原正成為微博研究的又一個(gè)聚焦點(diǎn)。國(guó)內(nèi)的研究主要有沈陽(yáng)等[6-7]對(duì)微博的宏大信息流及其蘊(yùn)含的情感進(jìn)行分析。

        2.1 話題跟蹤檢測(cè)

        話題跟蹤檢測(cè)[8]的技術(shù)被廣泛運(yùn)用到熱點(diǎn)事件發(fā)現(xiàn)中,話題跟蹤檢測(cè)與信息檢索、文本挖掘、信息抽取等交叉學(xué)科相比更側(cè)重對(duì)新信息的發(fā)現(xiàn),其關(guān)注某一特定話題而不是廣泛的各類(lèi)主題信息[9]。

        在傳統(tǒng)的話題跟蹤檢測(cè)中,主要從事實(shí)中檢測(cè)和追蹤事件,多是依據(jù)不同的事件做聚類(lèi),很少將情感分析用于話題跟蹤檢測(cè)中;而微博中的信息多呈現(xiàn)出碎片化、即時(shí)性、移動(dòng)性等特性,且微博內(nèi)容大多為用戶對(duì)自身情感的抒發(fā),微博中情感詞所占比重相比于傳統(tǒng)文本信息要大,故傳統(tǒng)的話題跟蹤檢測(cè)技術(shù)不適用于在微博中發(fā)現(xiàn)熱點(diǎn)事件。

        時(shí)達(dá)明、林鴻飛[10]提出了一種基于評(píng)論與話題相關(guān)度的方法,通過(guò)對(duì)評(píng)論內(nèi)容進(jìn)行情感分析來(lái)發(fā)現(xiàn)Blog中的熱點(diǎn)話題。L.Ku等[11]提出了一種方法用于反映大眾觀點(diǎn)在某時(shí)刻的變化。該方法通過(guò)獲取觀點(diǎn)信息反映社會(huì)群體在總統(tǒng)選舉過(guò)程中對(duì)各候選人的情感變化。Cuneyt Gurcan Akcora等[2]提出了一種通過(guò)Emotion Centroid(EC)及Set Space Model(SSM)的方法來(lái)發(fā)現(xiàn)Twitter中的輿情。以上研究從不同領(lǐng)域?qū)κ录蜉浨檫M(jìn)行發(fā)現(xiàn),為本文結(jié)合微博特點(diǎn)提出情感分布語(yǔ)言模型ELM從微博平臺(tái)中發(fā)現(xiàn)熱點(diǎn)事件做出了重要貢獻(xiàn)。

        2.3 情感分析

        目前情感分析在許多領(lǐng)域被廣泛的應(yīng)用,企業(yè)可以從網(wǎng)絡(luò)上的信息獲取用戶建議和反饋意見(jiàn),網(wǎng)絡(luò)信息安全和垃圾過(guò)濾也已得到了國(guó)內(nèi)外的廣泛關(guān)注。目前文本傾向性的主要工作是基于人工標(biāo)注語(yǔ)料庫(kù),利用相關(guān)機(jī)器學(xué)習(xí)算法,分析詞語(yǔ)、句子、篇章的傾向性[11]。由于微博簡(jiǎn)短的特點(diǎn),每條微博類(lèi)似文章中的句子,故句子級(jí)的情感傾向性分析為本文研究提供了一定的基礎(chǔ)。Pang[13-14]等利用人工標(biāo)注訓(xùn)練語(yǔ)料,采用貝葉斯、最大熵等方法分析電影評(píng)論傾向性。Liu[15]等從用戶評(píng)價(jià)中挖掘用戶的觀點(diǎn)。這些都為本文對(duì)微博的情感波動(dòng)分析提供了重要依據(jù)。

        3 關(guān)鍵技術(shù)

        本文主要是通過(guò)分析微博平臺(tái)中微博所含的情感詞,對(duì)微博中的文本信息進(jìn)行研究。主要工作分為以下三步:

        第一步:識(shí)別微博中情感詞,并構(gòu)建情感詞匯本體庫(kù)。微博中情感詞的發(fā)現(xiàn)是建立情感分布語(yǔ)言模型的基礎(chǔ),對(duì)于微博中的情感詞,通常分為兩類(lèi),一類(lèi)是通常情況下的情感詞,如喜歡、心疼等,另一類(lèi)為在微博等網(wǎng)絡(luò)平臺(tái)中被用于情感詞的詞語(yǔ),如稀飯(喜歡)、走召弓雖(超強(qiáng))、果醬(過(guò)獎(jiǎng))等。本文通過(guò)大連理工大學(xué)情感詞匯本體(以下簡(jiǎn)稱(chēng)DUTIR情感詞匯本體)結(jié)合網(wǎng)絡(luò)平臺(tái)中常用的情感詞實(shí)現(xiàn)對(duì)微博中情感詞匯的獲取。

        第二步:情感分布語(yǔ)言模型的提出及建立。當(dāng)熱點(diǎn)事件出現(xiàn)時(shí),情感出現(xiàn)波動(dòng)是微博用戶的直接反映,在微博中表現(xiàn)為情感詞增多,造成情感詞的分布發(fā)生變化。本文從情感詞的分布角度出發(fā),將每個(gè)時(shí)段全部微博對(duì)應(yīng)為語(yǔ)言模型中的文章d,每條微博對(duì)應(yīng)為文章d中的一個(gè)句子s,通過(guò)微博中情感詞的概率分布變化反映情感波動(dòng)。通過(guò)對(duì)各個(gè)時(shí)段建立情感分布語(yǔ)言模型ELM,對(duì)比相鄰時(shí)段間ELM的差異來(lái)發(fā)現(xiàn)熱點(diǎn)事件。

        第三步:對(duì)Cuneyt Gurcan Akcora等[2]提出的Emotion Centroid(EC)、Set Space Model(SSM)等方法進(jìn)行重現(xiàn),實(shí)現(xiàn)在微博平臺(tái)中發(fā)現(xiàn)熱點(diǎn)事件。

        3.1 情感詞匯本體構(gòu)建技術(shù)

        本文使用的外部資源由大連理工大學(xué)信息檢索實(shí)驗(yàn)室情感詞匯本體[16]結(jié)合網(wǎng)絡(luò)平臺(tái)中常用的網(wǎng)絡(luò)情感詞匯,如稀飯(喜歡)、辣雞(垃圾)等構(gòu)成,以下簡(jiǎn)稱(chēng)為DUTIR情感本體庫(kù),該情感本體庫(kù)將情感分為6大類(lèi)。

        對(duì)于通用情感詞的獲取,本文首先采用通過(guò)計(jì)算詞匯w與DUTIR情感詞匯本體中的標(biāo)準(zhǔn)詞匯的互信息方法進(jìn)行獲取,計(jì)算公式如下:

        其中Sui表示第u類(lèi)情感的第i個(gè)詞,P(w)表示詞w出現(xiàn)的概率,P(Sui)表示第u類(lèi)第i個(gè)情感詞出現(xiàn)的概率,P(w,Sui)表示詞w與第u類(lèi)情感的第i個(gè)標(biāo)準(zhǔn)詞一起出現(xiàn)的概率。

        然后結(jié)合情感詞匯的規(guī)律,如詞性規(guī)律、否定詞與程度副詞搭配規(guī)律、共現(xiàn)規(guī)律、上下文規(guī)律等,通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行自動(dòng)獲取,再將兩步結(jié)果結(jié)合,實(shí)現(xiàn)DUTIR情感詞匯本體的擴(kuò)充。本文考慮到微博短文本的特性,應(yīng)盡量利用其上下文信息并避免標(biāo)記偏見(jiàn),故采用條件隨機(jī)域(Conditional Random Field,簡(jiǎn)稱(chēng)CRF)的方法進(jìn)行自動(dòng)獲?。?7]。

        對(duì)于網(wǎng)絡(luò)平臺(tái)(主要包括天涯論壇、新浪博客等網(wǎng)絡(luò)平臺(tái))中常用情感詞匯的獲取,本文通過(guò)網(wǎng)絡(luò)爬蟲(chóng)從網(wǎng)絡(luò)下載并整理第二屆中文傾向性分析評(píng)測(cè)(COAE2009)任務(wù)語(yǔ)料得到18G網(wǎng)絡(luò)文本資源,經(jīng)分詞及去停用詞處理等預(yù)處理得到總詞表。首先利用DUTIR情感詞匯本體去除總詞表中通用情感詞,DUTIR情感詞匯本體格式如下:

        情感詞匯本體通過(guò)一個(gè)三元組來(lái)描述:

        Lexicon=(B,R,E)

        其中B:表示詞匯的基本信息,主要包括編號(hào)、詞條、對(duì)應(yīng)英文、詞性、錄入者和版本信息。R代表詞匯之間的同義關(guān)系,即表示該詞匯與哪些詞匯有同義的關(guān)系。E代表詞匯的情感信息,包括情感類(lèi)別、情感強(qiáng)度、情感極性,是情感詞匯描述框架中比較重要的一部分。

        再利用大連理工大學(xué)情感常識(shí)庫(kù)[18](以下簡(jiǎn)稱(chēng)情感常識(shí)庫(kù)),對(duì)余下詞語(yǔ)中含常識(shí)、隱喻等情感信息的部分進(jìn)行抽取并結(jié)合部分網(wǎng)絡(luò)常用情感詞匯,最終得到DUTIR情感本體庫(kù),情感常識(shí)庫(kù)的格式如下:

        (“emotion”“subject”“passive,attention”“conditions”)

        emotion表示該條常識(shí)的情感,通常用大連理工大學(xué)情感詞匯本體定義的20個(gè)小類(lèi)的情感代碼[16]表示或者賦值為“-1、1”,其中“1”表示積極情感類(lèi),“-1”表示消極情感類(lèi)。subject表示情感持有者。passive表示被動(dòng)標(biāo)志,取值包括“0、1”,其中“0”表示主動(dòng),“1”表示被動(dòng)。attention表示常識(shí)部分,包括常識(shí)詞匯或短語(yǔ)。conditions表示條件說(shuō)明,包括時(shí)間、方位等條件。

        DUTIR情感本體庫(kù)基本知識(shí)主要來(lái)源于現(xiàn)有的一些詞典、語(yǔ)義網(wǎng)絡(luò)和常用網(wǎng)絡(luò)用語(yǔ)。其中詞典包括《現(xiàn)代漢語(yǔ)分類(lèi)詞典》、《漢語(yǔ)褒貶義詞語(yǔ)用法詞典》、《漢語(yǔ)形容詞用法詞典》、《中華成語(yǔ)大詞典》、《漢語(yǔ)熟語(yǔ)詞典》、《新世紀(jì)漢語(yǔ)新詞詞典》。語(yǔ)義知識(shí)網(wǎng)絡(luò)有知網(wǎng)和WordNet。另外還加入了《漢語(yǔ)情感系統(tǒng)中情感劃分的研究》中的部分詞匯及大量網(wǎng)絡(luò)常用語(yǔ)中的網(wǎng)絡(luò)常用情感詞。因此,DUTIR情感本體庫(kù)不僅適用于微博的情感分析,而且還可用類(lèi)似微博的網(wǎng)絡(luò)平臺(tái),如Blog、論壇等的情感分析,有較強(qiáng)的適用范圍。

        目前,DUTIR情感本體庫(kù)收錄情感詞匯共17 243個(gè),為本文研究微博平臺(tái)中情感波動(dòng)(即情感詞數(shù)量變化)提供了詞匯基礎(chǔ)和分析的依據(jù)。

        3.2 情感分布語(yǔ)言模型

        統(tǒng)計(jì)語(yǔ)言模型[19]產(chǎn)生于基于統(tǒng)計(jì)方法的自然語(yǔ)言處理系統(tǒng)研究中,統(tǒng)計(jì)語(yǔ)言模型就是表示語(yǔ)言的基本單位(詞、詞組、句子等)的分布函數(shù),它描述了該語(yǔ)言基于統(tǒng)計(jì)的生成規(guī)則。在語(yǔ)言模型中,文檔在文檔集中的排列通常取決于其與查詢(xún)的相關(guān)度,對(duì)于給定文檔D和查詢(xún)Q,我們通過(guò)計(jì)算查詢(xún)Q中詞在文檔D中的概率來(lái)實(shí)現(xiàn)文檔排序:

        其中V為文檔集詞集合,qw為詞w 在查詢(xún)Q中出現(xiàn)的次數(shù)。

        相對(duì)熵(亦稱(chēng)KL距離)是評(píng)價(jià)語(yǔ)言模型性能的一項(xiàng)直觀指標(biāo),相對(duì)熵的差異表示所學(xué)習(xí)的模型與真實(shí)模型間的差異,當(dāng)兩個(gè)模型一致時(shí),相對(duì)熵值為0,相對(duì)熵值差異越大表明,兩個(gè)模型間的差異越大,在測(cè)試集(即實(shí)驗(yàn)語(yǔ)料)上的相對(duì)熵函數(shù)公式為:

        其中P(w|Q)為詞出現(xiàn)在查詢(xún)Q中的概率,P(w|C)為詞w在整個(gè)文檔集中出現(xiàn)的概率。

        在信息檢索中,根據(jù)“Bag of Words”的思想,對(duì)于文本集D中的每一個(gè)詞都是獨(dú)立的,不依賴(lài)于其他詞是否出現(xiàn),并且滿足某種分布,因此情感詞匯在微博平臺(tái)中也應(yīng)滿足某種分布。根據(jù)語(yǔ)言模型的思想,結(jié)合微博碎片性的特點(diǎn),本文對(duì)測(cè)試集(實(shí)驗(yàn)語(yǔ)料)中的微博做如下映射:每日收集的全部微博映射為語(yǔ)言模型中的文章d,故全部語(yǔ)料為文檔集D;每條微博映射為語(yǔ)言模型中的句子S,故微博中的每個(gè)詞即可視為語(yǔ)言模型中的詞w。通過(guò)某時(shí)段微博中情感詞概率變化可反映該時(shí)段微博集合d的情感波動(dòng)?;谝陨纤枷?,本文提出情感分布語(yǔ)言模型的方法,通過(guò)比較相鄰時(shí)段情感分布語(yǔ)言模型差異的方法來(lái)發(fā)現(xiàn)熱點(diǎn)事件。我們可以定義Tn時(shí)段的情感分布語(yǔ)言模型如下:

        其中E為DUTIR情感本體庫(kù),DTn為T(mén)n時(shí)段的全部微博,P(t|C)為情感詞t在整個(gè)文檔集中出現(xiàn)的概率,qt為情感詞t在Tn時(shí)段中出現(xiàn)的次數(shù)。

        考慮到微博簡(jiǎn)短的特性,在一定程度上會(huì)造成情感詞的稀疏,故需要對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行平滑處理。本文選用的平滑方法為Dirichlet平滑,其平滑公式如下:

        其中Pμ(w|d)為詞w 平滑后的概率,c(w;d)為詞在文檔d中出現(xiàn)的次數(shù),p(w|C)為詞w在整個(gè)文檔集C中的概率。

        相對(duì)熵是統(tǒng)計(jì)語(yǔ)言模型的一個(gè)重要的評(píng)價(jià)指標(biāo),因此我們通過(guò)計(jì)算相鄰時(shí)段Tn和Tn-1情感分布語(yǔ)言模型的相對(duì)熵來(lái)度量?jī)蓚€(gè)模型間的差異,相對(duì)熵的差值越大,表明相鄰時(shí)段間情感分布語(yǔ)言模型的差異越大,這為發(fā)現(xiàn)潛在的熱點(diǎn)事件時(shí)段提供了重要的依據(jù)。具體的計(jì)算公式如下:

        其中E為DUTIR情感本體庫(kù),w為E中的一個(gè)情感詞,DTn為T(mén)n時(shí)間間隔內(nèi)的微博客博文集合,P(t|DTn)情感詞w出現(xiàn)在Tn時(shí)刻的微博客博文中的概率。

        根據(jù)文獻(xiàn)[2]的觀察結(jié)論,當(dāng)一個(gè)熱點(diǎn)事件出現(xiàn)時(shí),該時(shí)段所發(fā)的微博含有情感詞數(shù)量增多,由于下時(shí)段該事件熱度降低,但仍可能被談?wù)?,故所用詞可能會(huì)存在部分重復(fù),因此對(duì)于Tn時(shí)段若其DKL滿足如下條件時(shí),則認(rèn)為該時(shí)段為潛在熱點(diǎn)事件發(fā)生時(shí)段。具體判斷條件如下:

        對(duì)實(shí)驗(yàn)語(yǔ)料采用Dirichlet方法平滑,μ取值分別為50,100,500,1 000,2 000進(jìn)行實(shí)驗(yàn),當(dāng)取值為2 000時(shí),實(shí)驗(yàn)結(jié)果較好,故μ取值為2 000。隨后計(jì)算實(shí)驗(yàn)語(yǔ)料中各個(gè)相鄰時(shí)段間的相對(duì)熵,并結(jié)合判別條件(7)、(8),對(duì)所有潛在熱點(diǎn)事件發(fā)生時(shí)段進(jìn)行檢驗(yàn),從而發(fā)現(xiàn)該時(shí)段的熱點(diǎn)事件。

        3.3 Emotion Centroid(EC)and Set Space Model(SSM)

        3.3.1 Emotion Centroid(EC)

        對(duì)于每一條微博客博文,利用DUTIR情感本體庫(kù),將情感分為六大類(lèi),E=(喜,怒,哀,懼,惡,驚),每一類(lèi)情感代表空間模型中的一維,我們?cè)诿恳粭l微博客博文中查找情感詞,如果存在則該維為1,否則為0。

        對(duì)于每個(gè)固定時(shí)間間隔T的所有微博客博文,計(jì)算并獲得所有相應(yīng)情感向量的EC[2],將EC看作是此時(shí)間段微博客博文的情感反映,包含N條微博,V=(v1,v2,…,vn)表示該時(shí)段所有情感向量集合,則T時(shí)間間隔的EC定義為:

        其中Vk為K 時(shí)段的Emotion Centroid,N為該時(shí)間間隔內(nèi)所含的微博數(shù)量。

        T1、T2兩個(gè)相鄰間隔EC相關(guān)度為二者的cosine相似度,此相關(guān)度越小,表明相鄰時(shí)段間內(nèi)的用戶所發(fā)的微博博文話題差異越大,則熱點(diǎn)事件出現(xiàn)的幾率越大。

        3.3.2 Set Space Model(SSM)

        在潛在熱點(diǎn)事件時(shí)段,SSM方法如下,實(shí)驗(yàn)語(yǔ)料經(jīng)過(guò)預(yù)處理和去除停用詞,收集各個(gè)時(shí)間間隔的所有詞,再通過(guò)T1和T2的Jaccard相似性來(lái)定義相鄰時(shí)間間隔的相關(guān)度,計(jì)算公式為:

        當(dāng)熱點(diǎn)事件出現(xiàn)時(shí),所發(fā)微博與前一時(shí)段微博的Jaccard相似性降低,由于該話題可能仍被討論,則下一階段Jaccard相似性提高,則該時(shí)段應(yīng)為一個(gè)潛在的熱點(diǎn)事件發(fā)生時(shí)段,將符合條件的時(shí)間段記錄并統(tǒng)計(jì)。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 語(yǔ)料來(lái)源、相關(guān)實(shí)驗(yàn)及實(shí)驗(yàn)流程

        4.1.1 語(yǔ)料來(lái)源

        本文的實(shí)驗(yàn)語(yǔ)料來(lái)自新浪微博廣場(chǎng)(http://t.sina.com.cn/pub/),從微博廣場(chǎng)中進(jìn)行語(yǔ)料收集是為了能更好地反映多個(gè)不同的微博用戶可能同時(shí)在談?wù)摶驘嶙h一個(gè)或幾個(gè)話題。語(yǔ)料時(shí)間為2010年6月7日至2010年6月13日,每日8點(diǎn)到22點(diǎn),每小時(shí)手工下載500條新浪微博,共52 500條微博,并統(tǒng)一格式保存,一條微博的存儲(chǔ)及定義格式如下:

        其中<name>表示微博用戶名,<text>表示微博客內(nèi)容,<rt>表示其他用戶對(duì)該條微博的回復(fù),<time>表示所發(fā)微博的時(shí)間信息。

        經(jīng)預(yù)處理及人工事件標(biāo)注,發(fā)現(xiàn)該語(yǔ)料所在時(shí)間內(nèi)共發(fā)生熱點(diǎn)事件23例。具體事件分布見(jiàn)表1。

        表1 熱點(diǎn)事件分布表

        4.1.2 實(shí)驗(yàn)流程

        本文實(shí)驗(yàn)流程如下:

        (1)從網(wǎng)絡(luò)獲取實(shí)驗(yàn)語(yǔ)料,通過(guò)人工標(biāo)注發(fā)現(xiàn)并統(tǒng)計(jì)熱點(diǎn)事件。

        (2)將網(wǎng)絡(luò)常用情感詞匯與DUTIR情感詞匯本體結(jié)合得到DUTIR情感詞匯本體庫(kù).

        (3)微博客博文的預(yù)處理。

        (4)通過(guò)計(jì)算相鄰時(shí)段情感分布語(yǔ)言模型間的差異發(fā)現(xiàn)熱點(diǎn)事件,統(tǒng)計(jì)每日發(fā)現(xiàn)的熱點(diǎn)事件數(shù)。

        (5)構(gòu)建各時(shí)段的EC和SSM,分別進(jìn)行實(shí)驗(yàn),計(jì)算相鄰時(shí)段Cosine相似度差異和Jaccard相似度差異,發(fā)現(xiàn)并統(tǒng)計(jì)熱點(diǎn)事件。

        (6)進(jìn)行對(duì)比實(shí)驗(yàn),并分析結(jié)果的正確率和召回率。

        4.2 對(duì)比實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析

        Cuneyt Gurcan Akcora等[2]研究發(fā)現(xiàn),微博客用戶群在熱點(diǎn)事件出現(xiàn)時(shí)會(huì)產(chǎn)生情感波動(dòng),主要表現(xiàn)為以下兩點(diǎn):熱點(diǎn)事件時(shí)段所發(fā)微博客博文的情感詞數(shù)量上升,使得微博平臺(tái)內(nèi)的情感詞分布發(fā)生變化;當(dāng)某一熱點(diǎn)事件出現(xiàn)時(shí),微博客用戶群體的微博所采用的詞的形式會(huì)不同于之前階段,如果在下個(gè)時(shí)段該話題仍在被討論,則相同的詞模式會(huì)重復(fù)出現(xiàn)。若時(shí)間間隔長(zhǎng)度小于1小時(shí),則微博數(shù)量較少,不足以反映熱點(diǎn)事件;而當(dāng)時(shí)間間隔大于1小時(shí)時(shí),則可能多個(gè)熱點(diǎn)事件在同一時(shí)間段內(nèi)發(fā)生,不利于多個(gè)熱點(diǎn)事件的發(fā)現(xiàn)。因此,本文提出情感分布語(yǔ)言模型方法在相同實(shí)驗(yàn)語(yǔ)料并選取相同時(shí)間間隔(本文選取時(shí)間間隔為1小時(shí))的基礎(chǔ)上與Cuneyt Gurcan Akcora等人在Twitter平臺(tái)中發(fā)現(xiàn)熱點(diǎn)事件的方法進(jìn)行比較。在實(shí)驗(yàn)中,為了實(shí)現(xiàn)與Cuneyt Gurcan Akcora方法情感空間一致,本文將情感空間維數(shù)統(tǒng)一定義為六維(即主要考慮DUTIR情感本體庫(kù)的六大類(lèi)情感)。表1中的時(shí)間表示發(fā)生熱點(diǎn)事件的時(shí)段。

        本文選取一周的實(shí)驗(yàn)語(yǔ)料中熱點(diǎn)事件,對(duì)其進(jìn)行發(fā)現(xiàn)。實(shí)驗(yàn)中,采取相同實(shí)驗(yàn)語(yǔ)料,選取一小時(shí)為時(shí)間間隔進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)并統(tǒng)計(jì)每種方法每日發(fā)現(xiàn)熱點(diǎn)事件數(shù)量,首先采用Cuneyt Gurcan Akcora的EC方法,然后采用Cuneyt Gurcan Akcora的SSM方法,將之前兩種方法結(jié)合為EC&SSM,最后采用情感分布語(yǔ)言模型ELM方法。通過(guò)四種方法進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)結(jié)果并對(duì)不同方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。從實(shí)驗(yàn)結(jié)果看,ELM的實(shí)驗(yàn)結(jié)果在準(zhǔn)確率和F1值方面為四種方法中最高的,實(shí)驗(yàn)結(jié)果也表明本文方法的有效性。具體實(shí)驗(yàn)結(jié)果數(shù)據(jù)見(jiàn)表2,在表2中出現(xiàn)的數(shù)字:括號(hào)外的數(shù)字為方法發(fā)現(xiàn)的正確熱點(diǎn)事件數(shù),括號(hào)中為方法發(fā)現(xiàn)的錯(cuò)誤熱點(diǎn)事件數(shù),準(zhǔn)確率、召回率、F1值等具體數(shù)值對(duì)比見(jiàn)圖1。

        表2 事件發(fā)現(xiàn)數(shù)表

        由表2和圖1可知,四種方法均能有效地從實(shí)驗(yàn)語(yǔ)料中發(fā)現(xiàn)熱點(diǎn)事件,Emotion Centroid(EC)方法在獲得最高召回率的同時(shí)準(zhǔn)確率卻最低,問(wèn)題在于對(duì)于不同的熱點(diǎn)事件,當(dāng)相鄰時(shí)段含有較少情感詞時(shí),EC可能被錯(cuò)誤改變,因此當(dāng)Cosine相似度閾值設(shè)置較低時(shí),在發(fā)現(xiàn)正確結(jié)果的同時(shí)錯(cuò)誤率也相應(yīng)提高了。

        而相比于EC,在Set Space Model(SSM)方法中,不少熱點(diǎn)事件的發(fā)生并未對(duì)應(yīng)明顯的全局詞匯變化,而只是引起情感詞的變化,而SSM方法只能對(duì)前者進(jìn)行識(shí)別,在一定程度上影響了SSM方法的結(jié)果,因此其的召回率較低。

        EC&SSM方法(即在EC方法召回的結(jié)果集上進(jìn)行SSM方法)綜合考慮了EC方法和SSM方法的優(yōu)缺點(diǎn)后,首先進(jìn)行Cosine相似度分析發(fā)現(xiàn)潛在的熱點(diǎn)事件,在通過(guò)分析Jaccard相似度進(jìn)行驗(yàn)證,在保證一定召回率的基礎(chǔ)上,使準(zhǔn)確率得到一定的提高,表明EC&SSM方法可有效地用于熱點(diǎn)事件發(fā)現(xiàn),且相比于EC、SSM兩種單獨(dú)方法準(zhǔn)確率和F1值都有明顯提高。

        圖1 實(shí)驗(yàn)結(jié)果數(shù)值圖

        情感分布語(yǔ)言模型ELM相比于Cuneyt Gurcan Akcora提出的EC方法,盡管損失了一定的召回率,但在準(zhǔn)確率和F1值上都有大幅度的提高,可見(jiàn)ELM方法比EC方法更能準(zhǔn)確地從微博平臺(tái)中發(fā)現(xiàn)熱點(diǎn)事件;對(duì)于Cuneyt Gurcan Akcora提出的SSM方法,ELM方法在各項(xiàng)指標(biāo)都有較大提高,盡管熱點(diǎn)事件出現(xiàn)可用微博中詞集合的變化來(lái)反映,但ELM方法表現(xiàn)的更準(zhǔn)確且全面;而在同Cuneyt Gurcan Akcora提出的EC&SSM綜合方法對(duì)比之后發(fā)現(xiàn),ELM同樣在各項(xiàng)指標(biāo)上都有所提高,且在四種方法中有最高的準(zhǔn)確率和F1值。

        圖2 6月13日相鄰兩時(shí)段情感詞的相對(duì)熵

        結(jié)果表明在微博平臺(tái)中熱點(diǎn)事件出現(xiàn)時(shí),ELM方法通過(guò)情感詞的概率分布變化結(jié)合語(yǔ)言模型相比于Cuneyt Gurcan Akcora提出的前三種方法能更好更準(zhǔn)確地反映微博用戶群體的情感波動(dòng),而用戶的情感變化方面又是發(fā)現(xiàn)熱點(diǎn)事件的重要依據(jù),因此在相比于EC&SSM方法召回率提高的同時(shí),又使準(zhǔn)確率有了一定的提高。例如:6月13日相鄰兩時(shí)段情感詞相對(duì)熵值見(jiàn)圖2(其中如8&9表示8時(shí)和9時(shí)的情感詞相對(duì)熵值)。根據(jù)圖2中數(shù)據(jù)并結(jié)合判斷條件(7)、(8),可知9時(shí)、13時(shí)、20時(shí)三個(gè)時(shí)段滿足判斷條件(7)、(8),且其都是當(dāng)日熱點(diǎn)事件發(fā)生的時(shí)段,可見(jiàn)本文提出的ELM方法實(shí)現(xiàn)了對(duì)當(dāng)日微博平臺(tái)中熱點(diǎn)事件的發(fā)現(xiàn)。

        分析原因可知,ELM方法中引入的語(yǔ)言模型與語(yǔ)言客觀事實(shí)之間的關(guān)系是取得預(yù)期實(shí)驗(yàn)結(jié)果的關(guān)鍵,客觀語(yǔ)言經(jīng)過(guò)語(yǔ)言模型的描述更適合自然語(yǔ)言處理,而在語(yǔ)言模型基礎(chǔ)上的情感分布語(yǔ)言模型也就近似地反映了實(shí)驗(yàn)語(yǔ)料的客觀事實(shí),即近似地反映了實(shí)驗(yàn)語(yǔ)料中的情感波動(dòng),因此在熱點(diǎn)事件的發(fā)現(xiàn)過(guò)程中ELM方法的各項(xiàng)指標(biāo)相對(duì)于EC&SSM方法都有了一定的提高。當(dāng)然ELM方法中也存在著一定不足,ELM隱含著情感詞間的相互獨(dú)立關(guān)系,沒(méi)有考慮情感詞相互間的影響,且當(dāng)情感詞所占比重較低時(shí),即微博多為記敘類(lèi)微博時(shí),也會(huì)在一定程度上影響ELM的結(jié)果,以上所述都需要本文在未來(lái)做進(jìn)一步的分析和處理。

        5 結(jié)束語(yǔ)

        本文通過(guò)對(duì)微博特點(diǎn)進(jìn)行分析,發(fā)現(xiàn)當(dāng)熱點(diǎn)事件出現(xiàn)時(shí),微博用戶情感產(chǎn)生波動(dòng),所發(fā)微博中情感詞的數(shù)量增多,在此基礎(chǔ)上,提出了情感分布語(yǔ)言模型ELM,用于對(duì)微博平臺(tái)中的熱點(diǎn)事件發(fā)現(xiàn)。實(shí)驗(yàn)中與Cuneyt Gurcan Akcora提出的三種方法進(jìn)行對(duì)比,實(shí)驗(yàn)表明本文提出的方法可有效地從微博平臺(tái)中發(fā)現(xiàn)熱點(diǎn)事件,有助于對(duì)微博中熱點(diǎn)事件的管理和監(jiān)控。

        Web2.0時(shí)代,人的參與性不斷提高,微博平臺(tái)已成為輿情產(chǎn)生和傳播的重要場(chǎng)所。簡(jiǎn)短、即時(shí)的微博,讓用戶快速實(shí)時(shí)地表達(dá)自己的觀點(diǎn)和對(duì)其他人或事進(jìn)行評(píng)論,對(duì)熱點(diǎn)事件發(fā)現(xiàn)是將事件由時(shí)空等不同角度還原的前提,這也是未來(lái)的研究目標(biāo)之一。當(dāng)然目前對(duì)于微博方面研究的語(yǔ)料還很有限,語(yǔ)料的擴(kuò)充及規(guī)范化也是亟待解決的工作之一;同時(shí)DUTIR情感本體庫(kù)和情感常識(shí)庫(kù)也都需進(jìn)一步完善;情感詞之間的相互影響也應(yīng)做進(jìn)一步的分析,以上所述都有待通過(guò)未來(lái)詳盡研究工作來(lái)完成。

        [1]黎志升,王煦法.基于Language Model的地理信息檢索模型[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2010,40(2):203-209.

        [2]C Akcora,M Bayir,M Demirbas,H Ferhaosmanoglu.Identifying Breakpoints in Public Opinion[C]//Proceedings of KDD Workshop on Social Media Analytics.Washington,July 2010.

        [3]H.Kwak,C.Lee,H.Park,and S.B.Moon.What is twitter,a social network or a news media?[C]//Proceedings of WWW,Raleigh North Carolina,USA,2010,591-600.

        [4]J.Weng,E.P.Lim,J.Jiang,Q.He.TwitterRank:Finding Topic sensitive Influential Twitterers[C]//Proceedings of WSDM.New York,USA,F(xiàn)ebruary 2010.

        [5]A.D.Sarma.Ranking Mechanisms in Twitter-like Forums[C]//Proceedings of WSDM.New York,USA,F(xiàn)ebruary 2010.

        [6]沈陽(yáng),田晨耕,李舒晨,劉世超.閑言碎語(yǔ)中的宏大信息流:微博客研究[C]//第六屆全國(guó)搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì),大連,2009.

        [7]Yang Shen,Shuchen Li,Xiaodong Ren,Xiaolong Cheng.Emotion Mining Research on Micro-blog[C]//Proceedings of 1st IEEE Symposium on Web Society.Lan Zhou,China,2009.

        [8]Allen J,Larenko V,Connell M E.A month to Topic Detection and Tracking in Hindi.ACM Transactions on Asian Language Processing[J],2003,2(2):85-100.

        [9]李保利,俞士汶.計(jì)算機(jī)識(shí)別與跟蹤研究[J].計(jì)算機(jī)應(yīng)用,2003,39(17):7-10.

        [10]時(shí)達(dá)明.Blog熱點(diǎn)話題發(fā)現(xiàn)及其作者聲譽(yù)度研究[D],大連:大連理工大學(xué),2007.

        [11]L Ku,Y Liang,and H Chen.Opinion extraction,summarization and tracking in news and blog corpora[C]//Proceedings of AAAI-2006Spring Symposium on Computational Approaches to Analyzing Weblogs.California,USA.2006,100-107.

        [12]劉康,趙軍.基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學(xué)報(bào),2008,22(1):123-128.

        [13]Pang B,Lee L,Vaithyanathan S.Thumbs up?sentiment classification using machine learning techniques[C]//Proceedings of EMNLP'2002,University of Pennsylvania Philadelphia,USA,2002,79-86.

        [14]Pang B,Lee L.A Sentimental education:sentiment analysis using subjective summarization based on minimum cuts[C]//Proceedings of the 42ndAnnual Meeting on Association for computational Lingusitics,Barcelona Spain.2004,271-278.

        [15]M Hu,B Liu.Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery &Data Mining,Seattle,Washington,USA.2007.

        [16]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.

        [17]陳建美,林鴻飛,楊志豪.基于語(yǔ)法的情感詞匯自動(dòng)獲?。跩].智能系統(tǒng)學(xué)報(bào),2009,4(2):100-106.

        [18]陳建美,林鴻飛.中文情感常識(shí)知識(shí)庫(kù)的構(gòu)建[J].情報(bào)學(xué)報(bào),2009,28(4):492-498.

        [19]邢永康,馬少平.統(tǒng)計(jì)語(yǔ)言模型綜述[J].計(jì)算機(jī)科學(xué),2003,30(9):22-26.

        猜你喜歡
        詞匯情感語(yǔ)言
        本刊可直接用縮寫(xiě)的常用詞匯
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        一些常用詞匯可直接用縮寫(xiě)
        語(yǔ)言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        本刊可直接用縮寫(xiě)的常用詞匯
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        讓語(yǔ)言描寫(xiě)搖曳多姿
        累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
        国产激情一区二区三区在线蜜臀| 亚洲男人的天堂在线aⅴ视频| 精品乱码卡1卡2卡3免费开放| 无码中文字幕专区一二三| 久久久精品少妇—二区| 欧美xxxx做受欧美88| 国产大陆亚洲精品国产| 国产成人8x视频网站入口| 视频一区视频二区亚洲| 麻豆国产一区二区三区四区| 中国内射xxxx6981少妇| 欧美成人免费看片一区| 青青草久久久亚洲一区| 日本真人边吃奶边做爽电影| 少妇被躁爽到高潮无码文| 国产丝袜免费精品一区二区 | 国产亚洲欧美精品一区| 91青青草手机在线视频| 搡女人真爽免费视频大全| 国产精品免费久久久久软件| 91福利国产在线观看网站| 中文字幕一区二三区麻豆| 伊人色综合久久天天五月婷| 在线看亚洲十八禁网站| 精品日本韩国一区二区三区| 亚洲高清中文字幕视频| 亚洲男人av天堂午夜在| 91性视频| 日本免费影片一区二区| 乱中年女人伦av三区| 久久艹影院| 亚洲av一区二区三区网站| 人禽杂交18禁网站免费| 亚洲欧美日韩国产精品专区| 亚洲人成绝费网站色www| 精品国产一区二区三区av免费| 日本黄网站三级三级三级| 国内精品伊人久久久久av| 国产精品亚洲一区二区三区久久| 97精品国产一区二区三区| 国产精品久久久久久久久KTV|