亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的微博話題檢測方法研究進展

        2014-04-17 04:50:45孫國梓黃斯琪張禹森陳國蘭
        金陵科技學院學報 2014年1期
        關鍵詞:博文文本用戶

        孫國梓,黃斯琪,張禹森,陳國蘭

        (1.南京郵電大學計算機學院,江蘇 南京 210003; 2.南京郵電大學通信與信息工程學院,江蘇 南京 210003;3.南京郵電大學圖書館,江蘇 南京 210003)

        Web2.0的迅速發(fā)展以及信息傳播手段的進步,使得近年來微博成長為發(fā)展迅速且影響巨大的全民網(wǎng)絡媒體,也稱自媒體形式。Twitter由Evan Williams在2006年正式推出,從此以后,開啟了微博數(shù)據(jù)時代的大門。截至2013,Twitter累計注冊用戶已突破10億,月活躍用戶超過2.41億。近兩年,中文微博領域也呈現(xiàn)出一種迅速發(fā)展的態(tài)勢。從2009年8月新浪微博開始發(fā)布到2013年9月,新浪微博注冊用戶數(shù)已超過5.5億,日活躍用戶數(shù)達到6 020萬。

        國內(nèi)外民眾對微博的廣泛使用,無疑將微博平臺提升為新一代具有影響力的網(wǎng)絡媒體。微博作為一種新的信息載體和傳播途徑,使網(wǎng)民對各種產(chǎn)品以及熱點話題的評論更加方便,在網(wǎng)路輿情信息發(fā)起和傳播中起著越來越重要的作用[1]。時效性相當強的微博信息在突發(fā)性話題的傳播及評論方面速度很快,對于影響力較大的新聞話題,由于廣大用戶的積極參與、報道、轉發(fā)、評論,往往能夠在傳統(tǒng)媒體之前作出相應的反應。這更加說明了微博在話題傳遞方面的功能不可小視[2]。實際上,已經(jīng)有研究證明,Twitter在應對突發(fā)事件,諸如自然災害、交通情況上有著較強的輔助與規(guī)避作用。

        由此可見,分析其中的網(wǎng)絡輿論,對微博中的話題進行檢測,對于了解社情民意有著重要意義。

        1 微博文本的特點

        微博文本與正式文本有很多不同的地方,如果簡單的直接采用傳統(tǒng)文本處理方法,在微博文本上往往不能獲取良好的效果。因為與其他的傳統(tǒng)化社會媒體諸如博客和論壇相比,微博有著如下一些特點[3-5]。

        1.1 短文本性

        以新浪微博為例,每一條微博的字數(shù)限制在140個字符以內(nèi),受字數(shù)的限制,用戶通常以更為精簡的方式發(fā)表,往往句子成分不完整,甚至只是簡單的幾個詞語。

        1.2 實時性

        新浪微博手機客戶端的出現(xiàn),讓人們每天使用微博的時間更為隨意。用戶可以在任何時間、任何地點進行發(fā)帖。目前新浪微博用戶每天要發(fā)布上億條的微博信息,每秒發(fā)送量也高達1 000條,從而使得微博實時數(shù)據(jù)量十分的龐大。

        1.3 文本形式自由

        微博文本大多較為口語化,并充滿了網(wǎng)絡用語以及流行的縮寫,錯字的現(xiàn)象也時有發(fā)生。用戶也會添加諸如表情、圖片、視頻、鏈接等來豐富自己所發(fā)布的微博信息。

        1.4 多模態(tài)性

        與普通文本不同的是,微博文本中除了用戶發(fā)布的信息外,還多了許多數(shù)據(jù)結構上的信息,包括用戶名、用戶ID、評論、轉發(fā)等數(shù)據(jù)。

        1.5 話題線索性

        微博中常有一部分信息是針對某一個對話過程的留言與回復,因此簡單的一條微博文本中可能包含了大量的對話信息。這一特點形成了豐富的跨文本上下文信息,為微博文本分析的理解帶來了更多的依據(jù)。

        綜上所述,短文本性、實時性以及多模態(tài)性是其主要特點。短文本性直接決定了微博文本信息中話題檢測與傳統(tǒng)文本之間的區(qū)別。實時性即用戶可以隨時隨地地進行微博發(fā)布,從而對社會事件進行最直接的闡述與評論。所以從微博數(shù)據(jù)中分析出的信息的時效性可以趕超其他普通媒體,但與此同時,由于微博產(chǎn)生的是海量數(shù)據(jù),其中亦存在多方評論的干擾,甚至是誤導。多模態(tài)性即微博文本結構中包含了許多除了純文本以外的其他信息,包括照片、視頻、網(wǎng)頁鏈接等等。

        面對微博中海量且結構多樣的數(shù)據(jù),靠傳統(tǒng)的人工審視或利用基本的數(shù)據(jù)分析方法很難快速、精煉地提煉出可信并且有用的信息,因此,引入文本挖掘中的數(shù)據(jù)分析與數(shù)據(jù)挖掘方法對微博信息的分析是十分必要的。

        2 國內(nèi)外話題檢測研究現(xiàn)狀

        話題檢測在學術界是備受關注的研究熱點,傳統(tǒng)的話題檢測主要針對普通文本,目前話題檢測常用的聚類方法有:中心向量法、agglomerative算法[6]、增量聚類算法[7]、層次聚類法[8]、基于主題模型算法[9]、K-means[10]、single-pass聚類方法[11]等。而相似度計算方法通常采用余弦夾角[12]、雅各比公式[13]、OKA-PI公式、Clarity、Tanimoto[14]、Hellinger公式[15]等。上述算法在傳統(tǒng)文本話題檢測研究中有著成熟的運用,并能達到較好的研究結果。但是,由于微博的文本長度較短,同一個詞語出現(xiàn)在不同微博中的概率會遠小于其他傳統(tǒng)媒介中的長文本,將以上的算法直接運用到微博數(shù)據(jù)分析上,就會直接帶來文本特征矩陣稀疏的問題[16],增加了分析文本間相似度的難度。

        與傳統(tǒng)的話題檢測方法不同,由于微博數(shù)據(jù)大多數(shù)所具有的短文本性和文本缺失性,如果使用傳統(tǒng)的通過構造詞匯-文本特征矩陣的方式來分析話題,如上文所述,由于微博文本短、詞匯缺失,在面對構造高維數(shù)的詞匯-文本特征矩陣時將會導致生成的特征矩陣高度稀疏,得到的檢測結果也會大打折扣。而另一點與傳統(tǒng)話題文本不同的是,微博數(shù)據(jù)中有豐富的跨文本上下文信息:轉帖、評論、用戶標簽hashtag、內(nèi)嵌鏈接URL、命名實體等,這些都具有很高的分析價值,在傳統(tǒng)方法中沒有也不可能綜合考慮這些因素。

        3 針對微博話題檢測的主要研究成果

        國內(nèi)外學者在近兩年基于海量的微博數(shù)據(jù)信息展開了相關的數(shù)據(jù)挖掘研究工作,微博中的話題主要有兩種表現(xiàn)形式:1) 顯性話題,即用兩個“#”號包圍話題內(nèi)容,以區(qū)分于微博文本中的其他內(nèi)容;2) 隱形話題,這種話題通常隱含在用戶所發(fā)表的微博信息中,沒有用特殊符號以示區(qū)分,這樣的話,對于同一話題,用戶有可能使用了不同的關鍵字進行描述。因此,絕大多數(shù)的基于微博文本的話題檢測都是針對隱形話題所展開的,并取得了一定的進展。其中話題檢測的挖掘算法目前大致可以分為以下幾類。

        3.1 利用分類聚類的方法挖掘出熱點話題

        Sakaki等人[17]通過監(jiān)控Twitter中用戶tweets的更新來實時進行地震監(jiān)控與預測。首先對目標話題進行分析,提取目標話題的特征屬性,諸如關鍵字,然后利用機器學習中的貝葉斯決策方法,對所有Twitter用戶的tweets進行分類,最后根據(jù)分析出的結果計算出目標話題的信息。在實際的實驗過程中,研究人員檢測出這種方法具有較好的實時性,檢測地震發(fā)生的成功率達到了80%。利用普適計算中普遍使用的過濾方法,結合基于概率的時空模型定位,將發(fā)布有關微博信息的用戶看做是一個個數(shù)據(jù)傳感器,這樣不僅能夠運用這種方法檢測到有關地震的實時話題,并且能夠通過分析其中的內(nèi)容較為準確的定位到地震發(fā)生地,更好地為公眾服務。

        鄭斐然等[18]在研究中將短文本中的詞頻和增長速度結合起來考慮,構造出了復合權值,用以在判斷中進行量化。利用上下文相關度模型支撐增量式聚類算法構造話題,比語義相似度模型更適用于在話題檢測中。

        O’Connor等[19]采用基于文本的采樣與聚類技術,通過標記化和語法過濾、評分和篩選候選主題詞、合并相似主題、聚合近似重復的信息等4個步驟對與檢索詞相關的話題進行歸納,通過檢索的詞語,返回每一個與該詞語相關聯(lián)的主題,從而達到話題提取的效果。

        3.2 傳統(tǒng)話題模型——潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型

        LDA是貝葉斯模型的一種變形,他在層次貝葉斯模型的基礎上,將Dirichlet先驗分布引入到文檔-詞匯這一層,將傳統(tǒng)的pLSA結構通用化,降低了模型自身隨著預料的增大而增大。眾多研究人員在LDA模型的基礎上,結合微博自身的特點建立了基于微博環(huán)境的話題提取模型進行熱點話題的分析與提取。

        Ramage等[20]構造了一個半監(jiān)督學習Labeled LDA模型,將Twitter微博文本映射到substance、style、status和social characteristics 4個潛在維,并綜合上述分析結果個性化用戶需求。

        Zhao[21]等人提出Twitter-LDA模型,該模型基于LDA模型,并運用其非監(jiān)督的特點,將信息的傳播分為傳播速度和傳播內(nèi)容兩個維度,通過與紐約時報數(shù)據(jù)進行對比,認為Twitter擁有更強的信息傳播力。

        3.3 基于微博內(nèi)容的自動消息總結

        Inouye等人[22]在Sharifi[23]的研究基礎上,針對單個句子在總結微博熱點話題時承載量不足的缺點,提出了一種利用多個簡單句來概括微博上熱點話題的方法,使得可以更加迅速準確地發(fā)現(xiàn)微博中的熱點話題,并能為用戶所理解。

        3.4 基于影響力的微博信息挖掘

        有學者研究表明,相對于從海量微博數(shù)據(jù)中挖掘微博熱點話題,此方法可以大大提高挖掘的速度和精度。

        Weng等人[24]以Twitter 為研究對象,從主題相似性的角度,將Twitter中用戶影響力與網(wǎng)頁中競價排名相類比,提出TwitterRank 排序算法。該算法主要借鑒了PageRank的基本思想,是PageRank 的一種擴展。在排序的同時考慮到微博的結構信息,以及用戶話題結構,從而提取出Twitter環(huán)境中與該主題相關聯(lián)的核心人物,并在此基礎上對具有較大影響力的用戶微博信息進行分析挖掘。

        3.5 基于情感分析的話題熱點發(fā)現(xiàn)

        針對用戶群情感波動,獲取觀點信息,由此反映社會群體對話題的發(fā)現(xiàn)。

        劉志明等人[25]基于機器學習算法提出了一種有關中文微博的根據(jù)情感分類的實證研究。其中涉及了3種不同的機器學習算法。在特征值的計算以及特征項權衡的過程中,也分別運用了3種不同的算法。

        楊亮等[26]在研究中提出了一種面向事實文本挖掘的熱點話題勘測方法,針對熱點話題的出現(xiàn)后隨之而來的用戶微博中表達情感類的詞語量的增加,提出了情感分布語言模型。通過分析相鄰時間段該模型間的差異,實現(xiàn)話題的檢測發(fā)現(xiàn)。

        Li等[27]提出運用合作在線學習的算法對主客觀微博進行學習分類,一方面對每個獨立的用戶微博數(shù)據(jù)信息進行學習,另一方面整合多個用戶的微博數(shù)據(jù),并將個體語言習慣所存在的規(guī)律性考慮進去,豐富多用戶環(huán)境下特征判斷方法。

        4 存在問題和未來研究方向

        目前,學術界針對微博已經(jīng)展開了比較廣泛的研究,但由于微博語義難以管理以及信息量的疏松,微博,特別是中文微博的研究結果尚不能令人滿意。當前,微博數(shù)據(jù)挖掘與分析領域仍然存在如下的問題與挑戰(zhàn)。

        4.1 微博信息領域合理分區(qū)

        文章第2節(jié)提到微博文本相對于傳統(tǒng)媒體文本的差別性,微博追求信息快速傳播,很多文字松散、內(nèi)容不清晰的信息在網(wǎng)絡上向受眾進行傳播。這種大容量的未經(jīng)組織和控制的信息肆意增長會導致有效信息很容易被淹沒,造成微博信息分析處理過程中高昂的提取成本。針對這一問題,可以針對不同的領域、不同的專業(yè)方向將微博平臺進行合理分區(qū),將微博未來的發(fā)展引領向多元化的方向,從而部分解決內(nèi)容太過稀疏、噪音過大的問題。

        4.2 中文微博語義分析和觀點挖掘

        微博作為新興的大眾媒體,由大眾產(chǎn)生,實時發(fā)布并匯聚在一起。然而,由于缺乏統(tǒng)一的規(guī)范,很難在大量的用戶信息和微博文本數(shù)據(jù)中建立起語義關系的層次結構。在通過微博信息來對熱點事件的發(fā)展進行追蹤的時候,缺乏規(guī)范的語義層次結構會使大眾對于熱點事件整體觀點的歸納產(chǎn)生偏差,并且給從整體角度上獲取大眾輿論導向帶來較大的困難。在另一方面,中文領域微博的分析與研究還處于起步階段。由于中文與英文在表達方式以及語言結構方面的差異,導致了國外先進的語義分析以及觀點挖掘的方法并不能直接運用在中文微博領域的觀點挖掘中。因此,基于中文微博的語義分析和意見挖掘的研究就顯得尤其重要。為了解決這一問題,需要充分結合中文微博自身語義特點,結合中文情感挖掘技術,運用現(xiàn)有成熟的自然語義分析方法,將微博社會網(wǎng)絡中所存在的語義信息和隱含觀點挖掘出來,從而提出基于中文微博語義分析和觀點挖掘的研究方法。

        4.3 垃圾微博發(fā)現(xiàn)和過濾

        在目前的中文微博平臺上,存在著大量惡意且無價值的僵尸用戶。這些用戶的存在以及所傳播的微博信息對進行微博信息分析與挖掘產(chǎn)生了很大的影響。由于微博平臺與一般網(wǎng)頁結構的差異性,傳統(tǒng)的識別垃圾網(wǎng)站的方法并不能直接運用在微博平臺上,目前仍舊依賴人工識別的方法來過濾掉無用的垃圾信息。因此,如果能夠實現(xiàn)自動鑒別垃圾用戶與垃圾信息,將大大提高海量微博數(shù)據(jù)分析的效率。

        4.4 微博實時信息分析

        微博會隨時更新的特點帶來微博數(shù)據(jù)的高實時性及海量性,已有的信息分析與檢索技術并不能很好地應用到熱點事件乃至突發(fā)事件的檢測與趨勢跟蹤中。困難在于,微博信息是迅速并且實時更新的。如何將現(xiàn)有的主題分析方法有效地融入微博平臺,在分析的同時融入實時更新的數(shù)據(jù),提出快速有效的微博突發(fā)事件檢測方法,從而快速地查找出所需要的信息來幫助用戶。所以微博信息的實時性也是目前需要解決的問題之一。

        5 結 語

        近年來隨著微博的興起,產(chǎn)生出微博信息中話題檢測挖掘方面的若干研究,論文綜述了微博文本與傳統(tǒng)文本在話題檢測以及分析等方面的差異性,總結了目前在話題檢測方面的一些相關研究成果,并對當下現(xiàn)存問題以及未來研究方向進行了分析。

        需要指出的是,相關的一些研究是基于假定微博文本信息相互獨立的前提下進行的,沒有考慮到微博文本所具有的話題線索性,即沒有很好地利用到微博信息中所具有的“對話”功能。另外,較國內(nèi)微博而言,Twitter興起較早,因此,目前學者對Twitter的研究較多。中文微博的研究仍舊處于初始階段,有很多問題有待解決。由于文化的差異,中西方在語言結構和詞匯表示方法上有著較大的區(qū)別,這些也突出了研究中文微博領域分析方法的必要性與重要性。

        新浪微博為開發(fā)者所開放的API接口,為研究中文微博平臺提供了一個很好的機會。如何在國外成熟的微博話題檢測成果上,融合中文自然語義與中文微博環(huán)境的特點,設計出更好的中文微博研究模型,提出挖掘中文微博中所蘊含話題信息的改進方法,并投入話題檢測以及趨勢預測方面的應用中,亦是當下急需研究的問題。

        [1] 文坤梅,徐帥,李瑞軒,等.微博及中文微博信息處理研究綜述[J].中文信息學報,2013,26(6):27-37

        [2] 廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學學報:自然科學版,2011,51(10):1300-1305

        [3] 張劍峰.微博主觀性發(fā)現(xiàn)關鍵技術研究[D].蘇州:蘇州大學,2012

        [4] 蔣盛益,麥智凱,龐觀松,等.微博信息挖掘技術研究綜述[J].圖書情報工作,2012,56(17):136-142

        [5] 馬彬,洪宇,陸劍江,等.基于線索樹雙層聚類的微博話題檢測[J].中文信息學報,2012,26(6):121-128

        [6] Bryant D, Moulton V. Neighbor-net: an Agglomerative Method for the Construction of Phylogenetic Networks[J]. Molecular Biology and Evolution, 2004,21(2):255-265

        [7] Charikar M, Chekuri C, Feder T, et al. Incremental Clustering and Dynamic Information Retrieval[C]// Proceedings of the Twenty-ninth Annual ACM Symposium on Theory of Computing. ACM, 1997: 626-635

        [8] Corpet F. Multiple Sequence Alignment with Hierarchical Clustering[J].Nucleic Acids Research, 1988, 16(22): 10881-10890

        [9] Steyvers M, Griffiths T. Probabilistic Topic Models[J].Handbook of Latent Semantic Analysis, 2007,427(7): 424-440

        [10] Yamron J, Knecht S, Van Mulbregt P. Dragon’s Tracking and Detection Systems for the TDT2000 Evaluation[C]//Proceedings of Topic Detection and Tracking Workshop. 2000:75-80

        [11] 周剛,鄒鴻程,熊小兵,等.MB-SinglePass:基于組合相似度的微博話題檢測[J].計算機科學,2012,39(10): 198-202

        [12] Singhal A. Modern Information Retrieval: A Brief Overview[J]. IEEE Data Eng. Bull., 2001,24(4):35-43

        [13] Saad Y. Iterative Methods for Sparse Linear Systems[M]. Siam, 2003:52-64

        [14] Rogers D J, Tanimoto T T. A Computer Program for Classifying Plants[J]. Science,1960,132(3434):1115-1118

        [15] Brants T, Chen F, Farahat A. A System for New Event Detection[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2003:330-337

        [16] 路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識別與人工智能,2012,25(3):382-387

        [17] Sakaki T, Okazaki M, Matsuo Y. Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors[C]//Proceedings of the 19th International Conference on World Wide Web. ACM, 2010:851-860

        [18] 鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測的方法[J].計算機科學,2012,39(1):138-141

        [19] O’Connor B, Krieger M, Ahn D. Tweet Motif: Exploratory Search and Topic Summarization for Twitter[C]// ICWSM,2010:120-126

        [20] Ramage D, Dumais S, Liebling D. Characterizing Microblogs with Topic Models[C]//International AAAI Conference on Weblogs and Social Media. 2010,5(4):130-137

        [21] Zhao W, Jiang J, Weng J, et al. Comparing Twitter and Traditional Media Using Topic Models[J]. Advances in Information Retrieval, 2011(2):338-349

        [22] Inouye D. Multiple Post Microblog Summarization [J]. REU Research Final Report, 2010(1):34-40

        [23] Sharifi B P. Automatic Microblog Classification and Summarization[D]. Colorado: University of Colorado, 2010

        [24] Weng J, Lim E P, Jiang J, et al. Twitterrank: Finding Topic-sensitive Influential Twitterers[C]// Proceedings of the Third ACM International Conference on Web Search and Data Mining. ACM, 2010: 261-270

        [25] 劉魯,劉志明.基于機器學習的中文微博情感分類實證研究[J].計算機工程與應用,2012,48(1):1-4

        [26] 楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發(fā)現(xiàn)[J].中文信息學報,2012,26(1):84-90

        [27] Li G, Hoi S C, Chang K, et al. Micro-blogging Sentiment Detection by Collaborative Online Learning[C]// Data Mining (ICDM), 2010 IEEE 10th International Conference on IEEE, 2010:893-898

        猜你喜歡
        博文文本用戶
        第一次掙錢
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        誰和誰好
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        如何獲取一億海外用戶
        大陆成人精品自拍视频在线观看| 一区一级三级在线观看| 国产精品久久久一本精品| 国产av黄色一区二区| 丰满少妇按摩被扣逼高潮| 毛片a级毛片免费观看| 国产精品片211在线观看| 搡老女人老妇女老熟妇69| 蜜桃视频第一区免费观看| 免费人成激情视频在线观看冫| 性一交一乱一伦| 亚洲欧洲无码精品ⅤA| 日韩国产精品一区二区三区| 特黄aaaaaaaaa毛片免费视频| 成人h动漫精品一区二区| AV在线中出| 国产精品视频白浆免费视频| 又粗又硬又大又爽免费视频播放| 无码少妇一级AV便在线观看| 日韩少妇人妻一区二区| 亚洲最新国产av网站| 伊人久久大香线蕉亚洲五月天| 大陆国产乱人伦| 偷窥偷拍一区二区三区| 亚洲熟女综合色一区二区三区| 欧美xxxx黑人又粗又长精品| 东京热无码人妻中文字幕| 久久精品国产亚洲av久按摩| 亚洲欧美乱综合图片区小说区| 欧美中文在线观看| 亚洲av男人免费久久| 亚洲精品无码不卡在线播he| 欧美性性性性性色大片免费的| 亚洲AVAv电影AV天堂18禁| 日本久久精品视频免费| 激性欧美激情在线| 天天躁夜夜躁狠狠躁2021a2| 无码人妻一区二区三区免费n鬼沢| 偷拍自拍一区二区三区| 亚洲精品一品区二品区三区| 亚洲美腿丝袜 欧美另类|