亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于微博文本的個性化興趣關注點及情緒變遷趨勢研究

        2015-03-11 07:46:56王九碩高國江
        河北科技大學學報 2015年2期
        關鍵詞:關注點特征詞博文

        王九碩,高 凱,趙 捷,高國江

        (1.河北科技大學信息科學與工程學院,河北石家莊 050018;2.國家保密科技測評中心(河北省)分中心,河北石家莊 050000)

        隨著互聯網的迅速發(fā)展,新興的社交網絡正快速走進人們的生活。由于微博具有即時性、互動性等特點,較傳統(tǒng)媒體等,它更迎合了廣大用戶,特別是年輕一代網民的需求,博文也傳達了社會各方面的輿情和用戶的情感信息。對博主個性化興趣關注點及情緒變遷分析的研究是自然語言處理、文本挖掘與心理學交叉領域的重要研究課題,它能分析微博用戶的興趣及情感,分析其情緒變遷趨勢,這對探究自然語言信息背后隱藏著的輿情及情感趨勢分析具有重要的應用價值。例如,在2013-04-20到2013-04-23的幾天時間內,廣大的新浪微博博主的關注點就從“4.20雅安地震”事件轉為“4.23新疆暴力恐怖案”;而在一年之后的這個時間段內,用戶的關注點又從“馬航MH370失聯客機”事件轉移到“蘭州自來水苯污染”事件上。及時有效地分析社會網絡用戶的興趣關注點及其變遷,對輿情分析具有重要價值,這就需要有效地處理機制來對此進行分析。然而,由于公眾關注的信息(如社會熱點事件)是經常變化的,每個人的關注點亦有所不同,人們在不同的時期對不同的熱點事件也有不同的關注度,且在缺乏言論主體背景知識的前提下,很多情感分析面臨的歧義問題得不到有效解決,這就使得傳統(tǒng)的文本挖掘算法在分析和處理微博話題的過程中,不能有效地與話題變遷過程結合起來。本文提出一種特征權重計算方法,并將特征詞權重與話題變遷時間段結合起來進行分析。具體地,首先利用點互信息方法提取出情緒特征詞,為使得到的特征詞權重更有針對性,本文通過基于距離的語義相似度選擇方法,選擇具有相似語義的不同特征詞,然后將其應用到特征權重計算中,以此來修正特征詞的權重;最后將時間因素加入到特征詞權重計算方法中,以便能反映用戶在不同時間段關注的相關信息。另一方面,使用情緒分類方法,將博主的情緒分成高興、悲傷、厭惡、憤怒和恐懼,同時也將時間因素添加進來,從而實現對博主在不同時期情緒變遷過程的分析。

        自2006年Twitter出現以來,微博等社交網絡快速發(fā)展,越來越多的研究人員開始研究微博信息的傳播模式,或者通過分析網絡結構來識別具有影響力的博主[1]。文獻[2]對早期研究工作中通過文本內容來分析社會網絡的方法進行探討。文獻[3]指出了發(fā)現社交網絡中熱點話題的問題,并提出一個融合話題、社會關系和微博的概率框架來實現有效的社區(qū)發(fā)現。模型方法方面,文獻[4]展示了一些常見的統(tǒng)計模型方法(如逐步回歸、基于偏最小二乘回歸的徑向基函數、偏魯棒M-回歸和主成分回歸等),將其應用到多重共線性域中。文獻[5]提出一種基于傳統(tǒng)的多信息特征選擇的改進方法,通過對不同類別中詞的不同表示來構建域特征詞。文獻[6]提出一個基于TFIDF的權重計算框架,通過文檔詞頻率歸一化來決定對應詞的重要性。文獻[7]實現了對微博網絡結構的分析。

        在情緒分析方面,文獻[8]提出一種利用情緒誘因提取技術進行微博文本情緒分類的算法;文獻[9]通過一個多任務多標記的分類模型,來實現情緒與話題的同步分類;文獻[10]通過抽取特征向量和使用SVM分類方法實現情緒的分類;文獻[11]基于社會網絡理論抽取出博文的情緒關系;文獻[12]使用SVM算法完成了對微博文本的情緒識別;文獻[13]通過分析微博文本的特性,包括表情符號、標點符號以及語法框架中核心情緒詞間的距離,并采用改進的依存句法分析來識別文本中包含的情緒;文獻[14]通過使用微博中的表情符號、由頻率統(tǒng)計和標簽傳遞算法構造的情緒詞典、以及微博中的語言特征來實現情緒分類;文獻[15]提出以深信度網為基礎框架,并利用偽標記數據進行句子的表達學習,以實現微博文本中的情緒分類。文獻[16]提出一種基于類序列規(guī)則的微博情緒分類方法。文獻[17]提出了一個高階的隱馬爾可夫模型來進行文本情緒探測。文獻[18]分別使用SVM以及人工神經網絡(ANN)這兩種方法進行情緒分類,并全面論證了這兩種方法在情緒分類的性能。文獻[19]通過利用上下文情緒詞以及句子的語法結構來提取出特征集,并將其應用到情緒分類中,最后使用不同的分類方法來評估特征集的性能。

        和上述工作不同,本文是從博主的個性化興趣關注點進行分析,通過一種基于微博文本的特征權重計算方法,將時間因素加入到此方法中,來計算不同時間段內特征詞的權重,從而得到博主的關注信息,并根據此關注信息來分析博主在此時間段內情緒的變化情況,進而完成了社會網絡個性化興趣關注點及情緒的變遷分析工作。

        1 基于微博文本的權重計算方法

        定義1 博主和它對應的博文可用四元組Q形式化表示,如公式(1)所示:

        式中:User-id代表博主;keywords表示在某一時間段從博文中提取出的特征詞;weight代表對應特征詞權重;timestamp表示相應的博文發(fā)布時間。

        首先,對于四元組Q中特征詞keywords參數的確定,使用基于篇章分析、中文分詞、同義詞和未登錄詞處理的算法,完成對博文主題詞的抽取,此方法可彌補單獨使用統(tǒng)計方法的缺陷以及避免語義分析中的低頻詞;其次,對于四元組Q中特征詞權重weight參數的確定,是以傳統(tǒng)的TFIDF為基礎的,但傳統(tǒng)的TFIDF方法只反映靜態(tài)文檔集中特征詞的權重,不能有效地表示特征詞在不同時間段內的分布信息。因此,本文首先利用基于點互信息(PMI)的方法提取出特征詞,然后提出與時間參數timestamp相結合的特征詞權重計算方法(參見公式(4))。在此過程中,本文從已有的4種情感詞庫(清華大學詞典、臺灣大學詞典、大連理工大學詞典、WordNet)中構造關于(高興、憤怒、厭惡、恐懼、悲傷)基本情緒的標準詞庫,然后從微博語料庫中選取待定詞匯,并根據它與標準情緒詞匯在語料庫中的互信息大小來確定特征詞[20-21],以下為互信息計算公式,見式(2):

        式中:WDk表示在語料庫中屬于k(1≤k≤6)類情緒下的詞;STkj表示標準詞庫中第k類情緒下的第j個標準詞。最后本文從語料庫中選擇與標準詞匯的互信息最大的詞作為特征詞。

        鑒于微博中不同特征詞可能表達相同或者相似的語義,且在不同時間段內博主關注的內容在不斷變化,故使用公式(3)來計算特征詞的相似度,并為特征權重計算做準備,其中δ代表可調參數,Dis(wi,t,wk,t)代表語義距離,i和k分別代表不同的關鍵詞序號,若2個特征詞的語義相似度Sim(wi,t,wk,t)>0,意味著在給定時間段t內的2個特征詞(wi,t,wk,t)屬于博主所關注的相關信息,故可將兩者作為同一個關注點對待。

        在式(4)中,t表示時間段,α和β分別代表經驗因子。本文設置博主關注點變化的初始時間段t=1,此時用每個特征詞的頻率Si,1來計算權重Wi1;WSim(wi,t-1,wk,t-1)代表在 Sim(wi,t-1,wk,t-1)>0情況下特征詞wk,t-1的權重;γt-1代表在特定時間段(t-1)下特征詞的影響度,即在時間段(t-1)中的特征詞在時間段t下受到外界因素的影響而發(fā)生變化的程度,“total number of keyword”表示特征詞的總數,“the number of ranking”表示當前特征詞按照權重由大到小的順序進行排序后的名次,其定義如公式(5)所示。如果Wit值低于一定的經驗閾值,說明用戶此時已對該關注內容不感興趣。

        從上面給出的定義和公式可見,特征詞權重在不同時期會有所改變。因此,隨著特征詞權重排名的不斷更改,一些新的特征詞將代替舊的特征詞出現在特征詞集合中,這與實際情況中博主關注點的變化是一致的,也反映了特征詞與關注點之間的關系。

        2 基于SVR算法的博主情緒分析

        雖然目前在情緒認知分析領域還沒有形成一個統(tǒng)一的基礎情緒類別標準,但有些基本的情緒類別通常是被認可的。本文使用基本情緒(高興、憤怒、厭惡、恐懼、悲傷)作為基礎情緒來分析博主的情緒及其變遷過程。另外,除利用自然語言處理工具從文本信息中挖掘用戶的基礎情緒外,對表情信息的分析也至關重要。因此,建立一個微博表情庫,形成一個情緒類型與表情圖片的對應關系庫來對表情符號進行分析。借鑒文獻[8]的情緒分析方法,采用基于SVR(support vector regression)的情緒分類方法,分析過程如圖1所示。

        首先,進行數據預處理(包括過濾鏈接博文、繁體與簡體的轉換以及博文去重等);其次,提取出微博文本特征,比如在微博文本中往往包含大量的表情信息,而這些表情最能直接反映用戶當時的情緒,拿這一表情來說,它包含了強烈的高興情緒。本文將抽取出的表情符號與基礎情緒聯系起來,形成一個表情庫,如表1所示。對于修飾詞、否定詞、關聯詞、標點符號等,這些特征在影響情緒產生過程中也起到一定的作用。

        表1 表情集Tab.1 Emotion sets

        圖1 情緒分析過程Fig.1 Process of emotion analysis

        最后,利用式(6)所示的卡方測試方法(式中Ni表示觀察頻數,n是總頻數,pi是期望頻率),將文本中的高頻詞以及類別相關度大的情緒特征詞挑選出來,作為輔助的情緒特征,并選擇最優(yōu)的特征數量形成VSM向量維度,以此為基礎來調節(jié)SVR參數和分類使用的閾值,實現對微博文本的最佳情緒分類效果。

        3 實驗結果與分析

        3.1 實驗數據集

        為了更好地分析微博文本,文本采用基于模擬登錄技術的方法,從新浪微博平臺weibo.com獲取了大量的微博數據。模擬登錄的主要方法是通過使用網頁瀏覽器獲得相應的數據,圖2顯示了從新浪微博中采用上述方法隨機獲取的154 678條微博的統(tǒng)計圖(水平軸表示博文的長度,縱軸則表示對應的比例),從圖中可以看出,博文均較短,即使對博文進行忽略詞處理,也難掩其內容碎片化、口語化、不規(guī)范等特點,這使得常規(guī)的基于關鍵詞或主題詞的分類、聚類等傳統(tǒng)算法難以發(fā)揮應有的作用。

        為驗證本文算法的有效性,在數據采集階段,有針對性地抓取了一些特殊人群的微博數據,完成對核心話題的數據采集。隨機選取李開復(http://weibo.com/kaifulee)的微博數據進行分析。首先,抓取其在2013-04-20到2013-05-20期間發(fā)表的博文作為數據源,并分成10個時間段作為觀測區(qū)間(如Time=1,Time=2,…,Time=10),具體數據集如表2所示。

        表2 數據集表Tab.2 Data set table

        圖2 微博內容統(tǒng)計圖Fig.2 Statistical figure ofmicro-blog content

        表2中的有效微博數指的是經過預處理(指對博文去重、簡繁體轉換、過濾無關成分、全半角轉換等)之后剩下的微博數目。

        為了更好地對本算法進行評估,本文將語料庫交給3名情緒挖掘領域的人員進行人工標注,標注的內容包括情緒的類別(如:“高興”、“憤怒”、“厭惡”、“恐懼”、“悲傷”)。具體標注過程如下所示:1)2個標注人員對博文中包含明顯情緒類型的博文進行標注;2)如果博文不包含任何情緒,則不對其進行標記;3)如果2個標注人員都無法確定此博文屬于哪類情緒,則此博文將被標注為中性;4)如果2個標注人員在標記過程中出現沖突,則最終的結果交由第3個標注人員決定。

        3.2 個人關注點與情緒變遷分析

        為了更好地分析微博用戶在不同時間段對關注話題的變化與情緒變遷情況,本文選取具有較高權重的前N個特征詞(表3中,經驗參數N取值5)作為分析博主的興趣關注點信息。為了分析本方法的實驗效果,使用傳統(tǒng)的TFIDF方法作為對比。從實驗結果中可看到本文方法得到的特征詞權重有所提高(表3中的劃線部分為特征詞權重提高部分),說明時間因素和特征詞相似度在特征詞權重計算方面也起到了一定的作用,而基于傳統(tǒng)的TFIDF得到特征詞權重不能較好地反映該詞在微博中隨時間變化而產生的影響。統(tǒng)計表明,基于時間因素和特征詞相似度的算法得到的反映用戶特征的關鍵詞集合的權重值,比常規(guī)TFIDF算法提高了10.81%(限于篇幅,表3僅給出針對特定博主的部分特征詞權重計算結果),從而說明了本文方法的可行性。選取具有最高權重的特征詞作為該用戶的關注點話題,并利用標簽云技術將分析結果顯示出來,如圖3所示,可更加直觀而有效地展示特定博主在某個時期的關注情況。

        表3 Top-5特征詞權重分析Tab.3 Analysis of Top-5 feature terms’weights

        利用對基礎情緒的分類算法,對相關博主在一個月內發(fā)表的博文進行分析,得到博主在不同時間段內表現出來的情緒如圖4所示(其中,橫坐標表示時間段,縱坐標表示微博數目)。從圖4中可以看出,博主在時間段內所表現出的基礎情緒以波浪式的方式變化,其中,在第1個時間段內發(fā)生了“4.20雅安地震”事件,正好與博主在這個時間段的關注點“災區(qū)”相符,此時用戶主要表現出“悲傷”的情緒,說明用戶情緒與當時發(fā)生的社會環(huán)境有關。另一方面,從博主的整體情緒變化來看,用戶多數情況下是處于“高興”或者無情緒的狀態(tài),這也說明了用戶在日常生活中一直表現積極的態(tài)度。從宏觀方面來說,有效地提取出用戶的情緒可以幫助研究人員研究其心理活動,對于構建健康的網絡環(huán)境和社會環(huán)境具有深遠的意義。

        圖3 個性化興趣關注點標簽云Fig.3 Tag cloud of personal interests

        圖4 情緒變遷情況Fig.4 Case of emotion transition tendency

        4 結語

        本文給出基于微博文本的個人興趣關注點動態(tài)變遷算法以及基于SVR的博主情緒變遷方法,該方法雖然達到了預期的目標,但是在特征權重計算方法上仍有改進的空間,在情緒分析方面可能存在部分片面性,如未將博主的性格特征與博主的情緒結合起來進行分析,觀察用戶的情緒變遷情況。分析結果以標簽云的形式展現出來,達到了關注點可視化的效果。未來的工作中,將完善相關方法,并對情緒產生的誘因進行分析,以實現較好的情緒誘因抽取效果,并計算出不同的誘因成分所占的比例。

        /References:

        [1] KWAK H,LEE C,PARK H,et al.What is twitter,a social network or a newsmedia[A].Proceedings of the19th International Conference on World WideWeb[C].New York:ACM,2010:591-600.

        [2] DANESCU-NICULESCU-MIZIL C,LEE L,PANG B.Echoes of power:Language effects and power differences in social interaction[A].Proceedings of the 21st International Conference on World WideWeb[C].New York:ACM,2012:699-708.

        [3] SACHANM,CONTRACTOR D,FARUQUIE TA,etal.Using contentand interactions for discovering communities in social networks[A].Proceedings of the21st International Conference on World WideWeb[C].New York:ACM,2012:331-340.

        [4] GARG A,TAIK.Comparison of statistical and machine learningmethods in modelling of data with multicollinearity[J].International Journal of Modelling,Identification and Control,2013,18(4):295-312.

        [5] LUO Y,OUYANG N.Text similarity calculation based on domain featureword[A].International Conference on Automatic Control and Artificial Intelligence[C].New York:IEEE,2012:2049-2051.

        [6] PAIK JH.A novel tf-idfweighting scheme for effective ranking[A].Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval[C].New York:ACM,2013:343-352.

        [7] WENG Jianshu,LIM E P,JIANG Jing.Twitterrank:finding topic sensitive influential twitterers[A].Proceedingsof the Third ACM International Conference on Web Search and Data Mining[C].New York:ACM,2010:261-270.

        [8] LIWeiyuan,XU Hua.Text-based emotion classification using emotion cause extraction[J].Expert SystemsWith Applications,2014,41(4):1742-1749.

        [9] HUANG Shu,PENGWei,LIJingxuan,etal.Sentiment and topic analysis on socialmedia:amulti-taskmulti-label classification approach[A].Proceedings of the 5th Annual ACMWeb Science Conference[C].New York:ACM,2013:172-181.

        [10] CHO SH,KANG H B.Text sentiment classification for sns-based marketing using domain sentiment dictionary[A].2012 IEEE International Conference on Consumer Electronics(ICCE)[C].New York:IEEE,2012:717-718.

        [11] HU Xia,TANG Lei,TANG Jiliang,et al.Exploiting social relations for sentiment analysis inmicroblogging[A].Proceedings of the sixth ACM International Conference on Web Search and Data Mining[C].New York:ACM,2013:537-546.

        [12] ZHENG Yuan,MATTHEW P.Predicting emotion labels for chinesemicroblog texts[A].CEURWorkshop Proceedings[C].UK:School of computing University of Portsmouth Buckingham Building,2012,917(4):40-47.

        [13] GUO Fuliang,ZHOUGang.Research onmicro-blog sentimentorientation analysisbased on improved dependency parsing[A].2013 3rd International Conference on Consumer Electronics,Communications and Networks(CECNet)[C].New York:IEEE,2013:546-550.

        [14] JIANG Fei,CUIAnqi,LIU Yiqun,etal.Every Term has Sentiment:Learning from Emoticon Evidences for ChineseMicroblog Sentiment Analysis[M].Berlin:Springer Berlin Heidelberg,2013:224-235.

        [15] TANGDuyu,QIN Bing,LIU Ting,etal.Learning Sentence Representation for Emotion Classification on Microblogs[M].Berlin:Springer Berlin Heidelberg,2013:212-223.

        [16] WEN Shiyang,WAN Xiaojun.Emotion classification inmicroblog texts using class sequential rules[A].Twenty-Eighth AAAIConference on Artificial Intelligence[C].Canada:AAAIPress,2014:187-193.

        [17] HO D T,CAO T H.A High-order Hidden Markov Model for Emotion Detection from Textual Data[M].Berlin:Springer Berlin Heidelberg,2012:94-105.

        [18] MORAESR,VALIATIJF,NETOW P.Document-level sentiment classification:an empirical comparison between svm and ann[J].Expert Systemswith Applications,2013,40(2):621-633.

        [19] GHAZID,INKPEN D,SZPAKOWICZ S.Prior and contextual emotion ofwords in sentential context[J].Computer Speech& Language,2014,28(1):76-92.

        [20] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構造[J].情報學報,2008,27(2):180-185.XU Linhong,LIN Hongfei,PAN Yu,etal.Constructing the affective lexicon ontology[J].Journal of the China Society for Scientific and Technical Information,2008,27(2):180-185.

        [21] 于瀟,萬軍,何翔,等.校園微博情感分析系統(tǒng)的設計與實現[J].河北工業(yè)大學學報,2013,42(6):24-29.YU Xiao,WAN Jun,HE Xiang,et al.The design and realization of themicro blog sentimentanalysis system for campus network[J].Journal of Hebei University of Technology,2013,42(6):24-29.

        猜你喜歡
        關注點特征詞博文
        第一次掙錢
        冬奧關注點
        新體育(2022年2期)2022-02-09 07:04:32
        尋找關注點 提高復習效率——以初中教學中“0”為關注點為例
        甘肅教育(2020年14期)2020-09-11 07:58:44
        下半年尿素市場四大關注點
        如何分析一組數據的集中和分散——數據分析的兩個關注點
        基于改進TFIDF算法的郵件分類技術
        誰和誰好
        產品評論文本中特征詞提取及其關聯模型構建與應用
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        面向文本分類的特征詞選取方法研究與改進
        丰满人妻熟妇乱又伦精品视| 中文字幕日韩有码国产| 亚洲女优中文字幕在线观看| 国产又色又爽无遮挡免费软件| 无码不卡av东京热毛片| 无码人妻丰满熟妇精品区| 国产精品成人无码a 无码 | 求网址日韩精品在线你懂的| 国模91九色精品二三四| 麻豆网神马久久人鬼片| 四川老熟妇乱子xx性bbw| 99热成人精品国产免| 国产成人自拍视频在线观看网站| 日本一本一道久久香蕉男人的天堂| 成年免费a级毛片免费看| 国产免费av片在线观看播放| 天堂最新在线官网av| 麻豆三级视频网站在线观看| 无遮挡很爽很污很黄的女同| 亚洲伊人一本大道中文字幕| 最新亚洲av日韩av二区| 中文字幕人妻少妇美臀| 一区二区视频在线国产| 日本少妇春药特殊按摩3| 国产精品免费久久久久影院仙踪林 | 四川老熟妇乱子xx性bbw| 国产三级黄色在线观看| 久久夜色精品国产三级| 熟女一区二区三区在线观看| 朝鲜女人大白屁股ass| 国产aⅴ夜夜欢一区二区三区| 亚洲视频精品一区二区三区| 亚洲一区二区三区地址| 亚洲中文字幕无码中文字| 粗了大了 整进去好爽视频| 蜜桃av噜噜一区二区三区香| 大屁股流白浆一区二区三区| 国产精品无码一区二区在线观一 | 精品熟女少妇免费久久| 国产精品一区二区蜜臀av| 亚洲丁香婷婷久久一区二区|