馬彥
[摘要]通過(guò)分析大數(shù)據(jù)環(huán)境下微博輿情的發(fā)展特點(diǎn)和輿情自動(dòng)監(jiān)測(cè)的具體需求,設(shè)計(jì)了微博輿情熱點(diǎn)挖掘系統(tǒng)結(jié)構(gòu)模型,描述了各層的主要功能和實(shí)現(xiàn)方法。然后討論了熱點(diǎn)話題發(fā)現(xiàn)的方法,首先運(yùn)用ICTCLAS和AntCone等工具提取熱點(diǎn)詞,其次描述規(guī)范化的數(shù)據(jù)表示形式,最后通過(guò)Chameleon聚類(lèi)算法實(shí)現(xiàn)熱點(diǎn)博文的聚類(lèi)和話題抽取。該方法將對(duì)及時(shí)發(fā)現(xiàn)敏感信息和掌握輿情熱點(diǎn)提供信息支持。
[關(guān)鍵詞]微博;輿情;熱點(diǎn)話題;挖掘方法
[中圖分類(lèi)號(hào))G250.73 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2014)11-0029-05
互聯(lián)網(wǎng)出現(xiàn)后,數(shù)據(jù)則不斷的以前所未有的速度增長(zhǎng)。具有大量化(Volume)、多樣化(Variety)、快速化(Veloei-ty)和價(jià)值(Value)這“四v”特征的“大數(shù)據(jù)”正影響和改變著人們的生活。隨著對(duì)大數(shù)據(jù)分析能力的提高和技術(shù)的進(jìn)步,它必將對(duì)擁有良好的教育、醫(yī)療和交通的智慧城市的構(gòu)建產(chǎn)生決定性的推動(dòng)作用;為更加理性、安全和完善的電子金融和電子商務(wù)業(yè)務(wù)提供技術(shù)保障;另外,實(shí)現(xiàn)實(shí)時(shí)的輿情監(jiān)測(cè)、控制和引導(dǎo),將促進(jìn)電子政務(wù)良性務(wù)實(shí)發(fā)展,從而保障國(guó)家的和諧穩(wěn)定環(huán)境。因此,實(shí)現(xiàn)對(duì)大數(shù)據(jù)中潛藏價(jià)值數(shù)據(jù)的挖掘和應(yīng)用成為了學(xué)術(shù)界、政界和商業(yè)界共同探索和關(guān)注的焦點(diǎn)問(wèn)題。
隨著政府部門(mén)和個(gè)人同時(shí)開(kāi)啟微博和微信,我國(guó)迎來(lái)了一個(gè)新的“雙微時(shí)代”。2014年7月人民網(wǎng)輿情監(jiān)測(cè)室與騰訊微博聯(lián)合發(fā)布《2014上半年度騰訊政務(wù)微博發(fā)展研究報(bào)告》,該報(bào)告顯示,截至2014年6月15日,經(jīng)過(guò)騰訊微博平臺(tái)認(rèn)證的政務(wù)微博已達(dá)到181524個(gè),其中黨政機(jī)構(gòu)微博111728個(gè),公務(wù)人員微博69796個(gè)。政務(wù)微信認(rèn)證數(shù)超過(guò)5000個(gè)。與此同時(shí),人民網(wǎng)輿情監(jiān)測(cè)室也與新浪微博聯(lián)合發(fā)布《2014年上半年新浪政務(wù)微博報(bào)告》,該報(bào)告指出截至2013年底,我國(guó)政務(wù)微博認(rèn)證賬號(hào)超過(guò)24萬(wàn),而在其2013年上半年報(bào)告中發(fā)布新浪微博注冊(cè)用戶總數(shù)已經(jīng)超過(guò)5億。另?yè)?jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2014年7月發(fā)布的《第34次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,微博用戶使用成熟度和內(nèi)容偏好度不斷加深。微博發(fā)展呈現(xiàn)如下幾個(gè)趨勢(shì):第一,微博已經(jīng)成為個(gè)人、機(jī)構(gòu)以及其他媒體的信息交流發(fā)布平臺(tái);第二,微博用戶由早期一二線城市為主逐步向三四線或更低級(jí)別地區(qū)發(fā)展;第三,隨著微博用戶、博文數(shù)量的裂變?cè)鲩L(zhǎng),以及微博中所蘊(yùn)含的時(shí)間、地域、社會(huì)關(guān)系網(wǎng)絡(luò)相關(guān)數(shù)據(jù)的積累,微博將在輿情管理、行為預(yù)測(cè)中體現(xiàn)更大的價(jià)值。因此,研究如何利用Web信息挖掘技術(shù),解決微博輿情信息的提取、熱點(diǎn)話題及其受眾和時(shí)空分布特點(diǎn)的發(fā)現(xiàn)、態(tài)度傾向性分析和網(wǎng)絡(luò)輿情擴(kuò)散方式建模等問(wèn)題,能夠?yàn)樯鐣?huì)管理者及時(shí)了解輿情熱點(diǎn)并進(jìn)行反饋、預(yù)警和引導(dǎo)提供必要的信息。
目前,我國(guó)各界已經(jīng)深入開(kāi)展了關(guān)于網(wǎng)絡(luò)輿情相關(guān)領(lǐng)域的研究工作。首先,研究基金資助方面,國(guó)家大力支持網(wǎng)絡(luò)輿情分析與監(jiān)測(cè)領(lǐng)域的相關(guān)研究,僅2014年批準(zhǔn)的國(guó)家自然科學(xué)基金資助此領(lǐng)域項(xiàng)目有12項(xiàng),資助力度在21萬(wàn)到84萬(wàn)之間;國(guó)家社會(huì)科學(xué)基金資助此領(lǐng)域項(xiàng)目8項(xiàng)。其次,研究成果文獻(xiàn)發(fā)表方面,根據(jù)中國(guó)知網(wǎng)(CNKI)檢索數(shù)據(jù)顯示,我國(guó)關(guān)于微博輿情分析方面的研究文獻(xiàn)最早于2011年發(fā)表,之后每年倍數(shù)增長(zhǎng)。研究熱點(diǎn)主要集中在以下七個(gè)方面:第一,涉及微博輿情監(jiān)測(cè)和預(yù)警的具體技術(shù)、方法和算法;第二,微博輿情預(yù)測(cè)模型;第三,微博輿情傳播的影響因素、模式、特征和規(guī)律;第四,微博輿情管控、引導(dǎo)和微博突發(fā)事件應(yīng)對(duì);第五,政務(wù)微博的作用、對(duì)突發(fā)事件的應(yīng)對(duì)能力和發(fā)展方向;第六,涉警微博的熱點(diǎn)事件應(yīng)對(duì)和引導(dǎo);第七,高校微博輿情的特點(diǎn)和影響力及其監(jiān)管、引導(dǎo)和應(yīng)對(duì)機(jī)制。再次,產(chǎn)品研發(fā)方面,我國(guó)已有18家網(wǎng)絡(luò)輿情科研機(jī)構(gòu)、包括“拓爾思、谷尼、軍犬、樂(lè)思”在內(nèi)的12家網(wǎng)絡(luò)輿情監(jiān)測(cè)服務(wù)機(jī)構(gòu)和包括“天涯輿情”在內(nèi)的3個(gè)有影響力的媒體型網(wǎng)絡(luò)輿情產(chǎn)品。
微博輿情熱點(diǎn)話題發(fā)現(xiàn)是實(shí)現(xiàn)微博輿情監(jiān)測(cè)、預(yù)警、應(yīng)對(duì)和引導(dǎo)最核心的工作和基礎(chǔ)。部分研究者將聚類(lèi)方法的改進(jìn)及其在熱點(diǎn)發(fā)現(xiàn)方面的應(yīng)用作為網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究的工作重點(diǎn)。張壽華等人首先提取檢索頁(yè)面標(biāo)題分析熱點(diǎn)關(guān)鍵詞,然后利用熱點(diǎn)關(guān)鍵詞進(jìn)行話題聚類(lèi),最后設(shè)計(jì)熱點(diǎn)話題評(píng)估模型,從而實(shí)現(xiàn)對(duì)熱點(diǎn)話題的監(jiān)測(cè)。韓晨靖改進(jìn)特征詞提取方法和向量相似度計(jì)算公式,并將該結(jié)果融入基于密度的聚類(lèi)算法中發(fā)現(xiàn)輿情熱點(diǎn)。韓威通過(guò)改進(jìn)Single-Pass聚類(lèi)算法克服該算法對(duì)文本輸入順序敏感的缺陷,將其應(yīng)用于網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)。也有研究者關(guān)注面向大數(shù)據(jù)環(huán)境的微博輿情熱點(diǎn)監(jiān)控。陳彥舟等將Hadoop分布式文件系統(tǒng)和Map-Reduce計(jì)算模型應(yīng)用于微博數(shù)據(jù)處理,實(shí)現(xiàn)對(duì)微博熱點(diǎn)話題的發(fā)現(xiàn)。另有研究者將藏文輿情分析作為研究工作的著眼點(diǎn)。江濤設(shè)計(jì)藏文語(yǔ)料預(yù)處理和分詞方法,并將其表示為向量空間模型,通過(guò)增量聚類(lèi)完成藏文熱點(diǎn)話題的發(fā)現(xiàn)并提出熱點(diǎn)輿情分析結(jié)果可視化方案。部分熱點(diǎn)發(fā)現(xiàn)方面的研究成果已被應(yīng)用于實(shí)際的產(chǎn)品中,如李渝勤等提出的面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù)已經(jīng)被應(yīng)用于拓爾思輿情檢測(cè)系統(tǒng)中的熱點(diǎn)話題發(fā)現(xiàn)模塊。
縱觀已有研究成果,我國(guó)微博輿情熱點(diǎn)發(fā)現(xiàn)與分析還處于探索階段,熱點(diǎn)話題發(fā)現(xiàn)的準(zhǔn)確率、召回率和時(shí)效性問(wèn)題,將影響整個(gè)輿情監(jiān)測(cè)系統(tǒng)的性能。目前,很多研究成果還無(wú)法適應(yīng)實(shí)踐的需求,在實(shí)際應(yīng)用中,突發(fā)事件的早期預(yù)警,輿情事件的進(jìn)展跟蹤等仍然依賴人工參與。因此,為了降低輿情監(jiān)控過(guò)程中人工參與的程度,本文將重點(diǎn)研究并提出微博輿情熱點(diǎn)話題挖掘模型以及具體的熱點(diǎn)話題發(fā)現(xiàn)方法。
1、微博輿情熱點(diǎn)挖掘方法
1.1 熱點(diǎn)挖掘模型構(gòu)建
根據(jù)微博數(shù)據(jù)的特點(diǎn)和用戶實(shí)際應(yīng)用的最終需求,構(gòu)建了由數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)智能分析層、輿情信息表示層和應(yīng)用層組成的微博輿情熱點(diǎn)挖掘系統(tǒng)模型,如圖1所示。
(1)數(shù)據(jù)采集層用于從國(guó)內(nèi)四大主流微博平臺(tái)自動(dòng)采集原始數(shù)據(jù)。目前新浪、騰訊、搜狐和網(wǎng)易均提供了微博開(kāi)放平臺(tái),將其微博相關(guān)功能接口通過(guò)Open API(Application Progamming Interface,應(yīng)用編程接口)的形式開(kāi)放給用戶。Open API即開(kāi)放平臺(tái)是服務(wù)型網(wǎng)站常見(jiàn)的一種應(yīng)用,網(wǎng)站的服務(wù)商將自己的網(wǎng)站服務(wù)封裝成一系列API開(kāi)放出去,供第三方開(kāi)發(fā)者使用,輿情挖掘系統(tǒng)中通過(guò)調(diào)用這些API可以獲取微博內(nèi)的數(shù)據(jù)。新浪微博同時(shí)還提供了微博開(kāi)放平臺(tái)商業(yè)數(shù)據(jù)API,為企業(yè)接入者提供便捷的獲取微博官方數(shù)據(jù)的通道,這為接入者提供了更強(qiáng)大的數(shù)據(jù)支持和穩(wěn)定性保障。endprint
(2)數(shù)據(jù)預(yù)處理層主要用于對(duì)原始數(shù)據(jù)進(jìn)行清洗,提取元數(shù)據(jù)。元數(shù)據(jù)主要包含兩個(gè)方面:第一,用戶信息元數(shù)據(jù)。包括認(rèn)證信息、基本信息(用戶ID、昵稱、性別、所在地、簡(jiǎn)介、生日、注冊(cè)時(shí)間)、微博數(shù)、粉絲數(shù)、關(guān)注數(shù)、評(píng)論數(shù)、微數(shù)據(jù)(被轉(zhuǎn)發(fā)數(shù)、收到評(píng)論數(shù))、微人脈(社交關(guān)系網(wǎng)絡(luò));第二,微博元數(shù)據(jù)。包括微博ID、微博內(nèi)容、發(fā)表時(shí)間、轉(zhuǎn)發(fā)數(shù)、被評(píng)論數(shù)、“贊”數(shù)、“@”內(nèi)容、表情符號(hào)、“#…#”關(guān)注話題、分享圖書(shū)、分享音樂(lè)、分享短視頻、發(fā)表時(shí)位置信息。
(3)數(shù)據(jù)存儲(chǔ)層實(shí)現(xiàn)在分布式數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)元數(shù)據(jù)。
(4)數(shù)據(jù)智能分析層是微博輿情熱點(diǎn)發(fā)現(xiàn)最核心的部分。主要是借助大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)(分類(lèi)算法、聚類(lèi)算法、相似項(xiàng)發(fā)現(xiàn)算法、序列模式挖掘算法)和自然語(yǔ)言處理相關(guān)技術(shù),實(shí)現(xiàn)對(duì)微博數(shù)據(jù)的智能分析。熱點(diǎn)話題的發(fā)現(xiàn)、情感傾向判斷、發(fā)展走勢(shì)分析和預(yù)測(cè)、時(shí)間和地域特征分析以及受眾跟蹤是這一層主要要實(shí)現(xiàn)的功能。
(5)輿情信息表示層主要實(shí)現(xiàn)微博輿情熱點(diǎn)挖掘結(jié)果的可視化。這一層主要包括三個(gè)方面的功能:第一,熱點(diǎn)話題博文排行榜,幫助快速了解輿情熱點(diǎn);第二,熱點(diǎn)話題博文時(shí)空分布特征圖表展示,直觀掌握輿情發(fā)生、發(fā)展和演變情況;第三,突發(fā)輿情預(yù)警功能,通過(guò)網(wǎng)站強(qiáng)調(diào)顯示、自動(dòng)向有關(guān)人員發(fā)送簡(jiǎn)報(bào)信息(短信、郵件、電話),為及時(shí)控制和引導(dǎo)輿情事件提供可靠的技術(shù)保障。
1.2 熱點(diǎn)詞的確定
實(shí)現(xiàn)微博輿情熱點(diǎn)挖掘的首要任務(wù)是在微博文本中發(fā)現(xiàn)熱點(diǎn)詞。在微博博文中出現(xiàn)的高頻詞中(不包括代詞、介詞、連詞、助詞、嘆詞、擬聲詞),選擇隨時(shí)間改變?cè)~頻變化大的作為熱點(diǎn)詞。詞是最小的能夠獨(dú)立運(yùn)用的語(yǔ)言單位,但是在漢語(yǔ)語(yǔ)句中詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,因此在實(shí)現(xiàn)對(duì)熱點(diǎn)詞的提取前首先需要將微博文本中的語(yǔ)句分割成正確的詞語(yǔ)序列,然后再實(shí)現(xiàn)高頻詞的查找。
(1)這里采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS實(shí)現(xiàn)分詞處理。該系統(tǒng)主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;新詞識(shí)別;同時(shí)支持用戶詞典;支持繁體中文;支持gb2312、GBK、UTF8等多種編碼格式。ICrCLAS分詞速度單機(jī)500KB/s,分詞精度98.45%,是目前世界上最好的漢語(yǔ)詞法分析器。圖2是取自2014年8月31日新浪微博的一條博文,通過(guò)調(diào)用ICIELAS分析后效果如圖3所示。
計(jì)算所漢語(yǔ)詞性標(biāo)記集中的標(biāo)記共計(jì)99個(gè)(22個(gè)一類(lèi),66個(gè)二類(lèi),11個(gè)三類(lèi)),其中一類(lèi)標(biāo)記如表l所示。
(2)基于分詞后的結(jié)果,可以利用由日本早稻田大學(xué)科技學(xué)院Laurence Anthony編寫(xiě)的一款綠色、跨平臺(tái)語(yǔ)料處理軟件AntConc(這里使用antconc3.2.4w版本)實(shí)現(xiàn)高頻詞的發(fā)現(xiàn)。AntConc具有詞語(yǔ)檢索、詞表生成、主題詞計(jì)算、搭配和詞族提取等多種功能。高頻詞的檢索和高頻詞在文內(nèi)呈現(xiàn)示意如圖4、圖5所示。
比如對(duì)2014年8月31日新浪微博中關(guān)于“中國(guó)新首富馬云”部分博文按照上述方法進(jìn)行分析,得到高頻詞據(jù)頻率由高到低分別是馬云、首富、王思聰、萬(wàn)達(dá)、電商、阿里巴巴。微博博文分析數(shù)據(jù)恰巧與一條新聞相關(guān)并且一致。2014年8月28日,美國(guó)彭博新聞社發(fā)布的億萬(wàn)富豪指數(shù)顯示,阿里巴巴創(chuàng)始人馬云超越萬(wàn)達(dá)集團(tuán)王健林成為中國(guó)首富。馬云是世界最大電商平臺(tái)的掌門(mén)人。因此,輿論關(guān)注的焦點(diǎn)也的確表現(xiàn)在馬云的財(cái)富和他所擁有的產(chǎn)業(yè)以及萬(wàn)達(dá)王健林的兒子王思聰?shù)确矫妗?/p>
(3)選擇隨時(shí)間改變?cè)~頻正向變化大的高頻詞作為熱點(diǎn)詞。
1.3 熱點(diǎn)博文聚類(lèi)
通過(guò)聚類(lèi),可以實(shí)現(xiàn)熱點(diǎn)話題的發(fā)現(xiàn)。這里設(shè)計(jì)熱點(diǎn)博文聚類(lèi)方法主要包含四個(gè)步驟:第一,將博文表示成熱點(diǎn)詞向量組的形式;第二,求解博文的熱點(diǎn)詞出現(xiàn)矩陣;第三,求解博文的相異度矩陣;第四,利用層次聚類(lèi)Chamdeon算法實(shí)現(xiàn)熱點(diǎn)博文聚類(lèi)。
1.3.1 博文的向量表示
微博博文集合用S表示,S={s1,s1,…,sn},其中si(1≤i≤n)代表一條微博文本,si=(hw1,hw2,…,hwm)(hwi(1≤i≤m)表示si中出現(xiàn)的經(jīng)過(guò)分詞過(guò)濾后的熱點(diǎn)詞)。
1.3.2 博文熱點(diǎn)詞出現(xiàn)矩陣定義
定義一個(gè)n×g(n條博文×g個(gè)熱點(diǎn)詞)的矩陣,如公式(1)所示。
1.3.3 博文相異度矩陣定義
定義一個(gè)n×n(n條博文)的矩陣,表達(dá)n條博文兩兩之間的近似性,如公式(2)所示。
其中,d(i,j)是毛和si之間的相異性的量化表示,是一個(gè)非負(fù)值,si和sj越相似,其值越接近于O,否則其值越大。因?yàn)閐(i,j)=d(j,i)且d(i,i)=0,這里只需要使用一個(gè)下三角矩陣。
另外,通過(guò)計(jì)算Jaceard系數(shù)來(lái)完成,如公式(3)所示。
其中,a表示在公式(1)中,兩條博文si和sj的相同熱點(diǎn)詞屬性具有相同屬性值1的屬性個(gè)數(shù);b表示在公式(1)中,兩條博文si和sj的相同熱點(diǎn)詞屬性具xip=1且xjp=0的特征的屬性個(gè)數(shù);c表示在公式(1)中,兩條博文si和sj的相同熱點(diǎn)詞屬性具xip=O且xjp=1的特征的屬性個(gè)數(shù)。
1.3.4 熱點(diǎn)話題發(fā)現(xiàn)
Chameleon是一種利用動(dòng)態(tài)建模的層次聚類(lèi)算法,簇間的相似度依據(jù)族中對(duì)象的互連度和簇的近似度判斷,將互連性和近似性都大的簇合并。該算法可以發(fā)現(xiàn)高質(zhì)量的任意形狀的簇。借助該算法實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn)的具體步驟如下:endprint
第一步,構(gòu)造一個(gè)K-最近鄰圖Gk。圖中頂點(diǎn)表示數(shù)據(jù)項(xiàng),即si(1≤i≤n);若si到sj的距離值是所有數(shù)據(jù)項(xiàng)到數(shù)據(jù)項(xiàng)sj的距離值中K個(gè)最小值之一,則在這兩個(gè)點(diǎn)之間加入一條帶權(quán)邊,邊的權(quán)重代表它們之間的近似度。即它們之間的距離越大,則它們之間的近似度越小,它們之間的邊的權(quán)重也越小。
第二步,根據(jù)最小化截?cái)噙叺臋?quán)重和來(lái)分割K-最近鄰圖Gk。
第三步,合并子簇。訪問(wèn)每個(gè)簇,計(jì)算它與臨近簇的相對(duì)近似度(RI)和相對(duì)互連度(RC),計(jì)算方法如公式(4)和公式(5)所示;合并彤和RC分別超過(guò)TRj和TRc的簇對(duì)(TRI和TRC為用戶指定的閾值),若滿足條件的臨近簇多于一個(gè),合并具有最高絕對(duì)互連性的簇;重復(fù)上述操作,直到?jīng)]有可合并的簇。
其中,EC(Ci,Cj)是連接簇Ci和Cj的所有邊的權(quán)重之和;EC(Ci)是把簇劃分為兩個(gè)大致相等部分的最小等分線切斷的所有邊的權(quán)重之和。
其中,SEC(Ci,Cj)是連接簇Ci和Cj的邊的平均權(quán)重;SEC(Ci)是把簇Ci劃分為兩個(gè)大致相等部分的最小等分線切斷的所有邊的平均權(quán)重。
通過(guò)上述步驟可以完成熱點(diǎn)博文向量的聚類(lèi),提取簇心所在向量,將其對(duì)應(yīng)的博文作為熱點(diǎn)話題呈現(xiàn)。
2、結(jié)論
隨著互聯(lián)網(wǎng)的快速發(fā)展,微博作為其重要應(yīng)用之一已經(jīng)深入人們的日常網(wǎng)絡(luò)生活,社會(huì)各階層的參與者通過(guò)微博表達(dá)其對(duì)各種公共事務(wù)的意見(jiàn)、態(tài)度、觀點(diǎn)和情緒。對(duì)微博輿情的檢測(cè)、預(yù)警和引導(dǎo)是新形勢(shì)下創(chuàng)新科學(xué)社會(huì)管理機(jī)制的迫切需要。但微博數(shù)據(jù)量的迅猛增長(zhǎng)和數(shù)據(jù)形式的多樣化使得人工分析輿情信息變得愈發(fā)困難。在這種大數(shù)據(jù)背景下,為保證微博輿情檢測(cè)的準(zhǔn)確性和時(shí)效性,并逐步減少人工參與程度,本文研究并提出了由數(shù)據(jù)的采集、預(yù)處理、存儲(chǔ)、智能分析和信息表示等六層構(gòu)成的微博輿情熱點(diǎn)挖掘模型;重點(diǎn)討論了智能分析部分熱點(diǎn)話題提取的方法,首先利用分詞和詞索引實(shí)現(xiàn)熱點(diǎn)詞的發(fā)現(xiàn),然后設(shè)計(jì)博文的向量表示方法和相異度矩陣從而實(shí)現(xiàn)對(duì)博文數(shù)據(jù)的規(guī)范化處理,最后運(yùn)用Chameleon算法進(jìn)行博文聚類(lèi)從而發(fā)現(xiàn)熱點(diǎn)話題。未來(lái)關(guān)于博文中情感傾向性分析問(wèn)題以及涉及長(zhǎng)微博的輿情分析將成為工作的重點(diǎn)。endprint