金茂輝 湖北民族大學(xué)
微博是繼博客之后出現(xiàn)的一種新型的Web2.0互應(yīng)用,相比BBS、博客等交流平臺(tái),它獨(dú)特的平臺(tái)架構(gòu)、設(shè)計(jì)理念及便捷的發(fā)布方式使用戶交流更為及時(shí)、暢通和廣泛。根據(jù)《第46次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截止2020年9月29日,微博月活躍用戶達(dá)5.23億,同比增長3700萬。每天活躍用戶2.29億,同比增長1800萬。
媒體、企業(yè)、政府單位等紛紛入駐微博,開始了新媒體的嘗試,與此同時(shí),國內(nèi)外學(xué)者開始了對(duì)這一新媒體的研究。但目前的研究主要集中在微博應(yīng)用價(jià)值的探討,如微博在網(wǎng)絡(luò)營銷、教育、新聞及重大事件通報(bào)等領(lǐng)域的應(yīng)用,對(duì)于微博中理論模型、用戶關(guān)系、用戶行為特征、信息交流機(jī)制與結(jié)構(gòu)卻少有研究。事實(shí)上,建立微博的關(guān)系模型和用戶模型,掌握微博用戶的行為特征和相互交流的內(nèi)在規(guī)律,是探索及開發(fā)微博新應(yīng)用的基礎(chǔ)。
因此,本項(xiàng)目將以微博作為研究平臺(tái),對(duì)微博的用戶關(guān)系、用戶行為、主題傳播建立理論模型,分析微博用戶的發(fā)帖、回帖、轉(zhuǎn)帖、引用、私信等各種交流方式,利用Web挖掘理論技術(shù),精確挖掘微博用戶的真實(shí)身份和個(gè)性特征,研究微博中用戶關(guān)系網(wǎng)絡(luò)特點(diǎn)和度量方法,實(shí)現(xiàn)重要用戶和“小團(tuán)體”的發(fā)現(xiàn)。本項(xiàng)目的研究對(duì)劃分微博用戶群體、識(shí)別潛在客戶、加強(qiáng)網(wǎng)絡(luò)監(jiān)管、真實(shí)化虛擬用戶等具有重要的意義。
一是微博基礎(chǔ)模型。研究微博中的各種表示方式和組織結(jié)構(gòu),分析微博中內(nèi)容關(guān)系與傳播規(guī)律,建立微博的基礎(chǔ)理論模型。二是用戶的行為模型。研究微博用戶發(fā)帖、回帖、轉(zhuǎn)帖、引用、私信、關(guān)注等各種行為,建立微博中用戶的行為模型。三是用戶的個(gè)性特征模型?;谖⒉┯脩舻男袨槟P?,研究如何建立微博中用戶的個(gè)性特征模型和興趣模型,描述微博用戶的年齡范圍、性別、學(xué)歷、職業(yè)類別、收入范圍、資產(chǎn)、地域、興趣、特長、性格特征等個(gè)性特征要素。四是微博用戶關(guān)系模型。研究微博中的用戶關(guān)系與傳統(tǒng)社交網(wǎng)絡(luò)的區(qū)別,研究微博中用戶與用戶之間的交流以構(gòu)成用戶的關(guān)系網(wǎng)絡(luò),通過用戶基本信息特征以及充分挖掘用戶間的各種交流行為,建立微博用戶關(guān)系模型來反映用戶關(guān)系強(qiáng)度、方向、重要程度等特征。
①微博中用戶的交互特征和交流行為。微博中用戶的交互交流主要有兩類,一類是通過圍繞某個(gè)微博主題多個(gè)用戶進(jìn)行發(fā)表、評(píng)論、轉(zhuǎn)發(fā)、引用等行為而產(chǎn)生的關(guān)系;另一類是用戶間直接進(jìn)行的信息交流。在用戶關(guān)系模型的基礎(chǔ)上,研究用戶間不同關(guān)系的行為特征和計(jì)算方法。②微博中用戶的關(guān)系網(wǎng)絡(luò)研究。由于微博中用戶數(shù)量龐大、用戶間的交流行為密切、交流內(nèi)容信息量較少,傳統(tǒng)的關(guān)系計(jì)算方法在性能上無法滿足微博的應(yīng)用。本項(xiàng)目基于微博中用戶的不同的交互行為,在微博用戶關(guān)系模型的基礎(chǔ)上,研究如何構(gòu)造用戶間的關(guān)系強(qiáng)度計(jì)算方法,最終形成有向的微博用戶關(guān)系網(wǎng)絡(luò)。③微博中重要用戶的發(fā)現(xiàn)與排序。微博作為越來越有影響力的Web應(yīng)用,通過挖掘微博中的重要用戶,以實(shí)現(xiàn)廣告營銷、輿情疏導(dǎo)等具有重要的意義。本項(xiàng)目將研究如何通過用戶關(guān)系網(wǎng)絡(luò)分布和影響力模型,來挖掘微博中的重要用戶并對(duì)其進(jìn)行排序。④微博中“小團(tuán)體”的發(fā)現(xiàn)與分析。微博中“小團(tuán)體”的發(fā)現(xiàn)和分析,對(duì)劃分微博用戶群體、識(shí)別潛在客戶、加強(qiáng)輿情監(jiān)管等具有重要的意義。本項(xiàng)目將研究如何根據(jù)“交往親密、互動(dòng)活躍、興趣相似”的原則,挖掘真正緊密的微博“小團(tuán)體”。
①微博用戶真實(shí)屬性和個(gè)性特征模型要素與屬性集。研究如何建立微博用戶的真實(shí)屬性和個(gè)性特征的模型和推導(dǎo)規(guī)則,針對(duì)微博用戶的真實(shí)屬性和興趣愛好,建立不同的描述算子、取值范圍和特征推導(dǎo)集合。特征屬性集可根據(jù)要求進(jìn)行動(dòng)態(tài)增加和調(diào)整。②基于文本內(nèi)容的用戶真實(shí)屬性和個(gè)性特征挖掘。微博中的文本內(nèi)容具有長度短、頻率高、缺乏上下文語境等特點(diǎn),為基于用戶的微博內(nèi)容挖掘用戶特征屬性帶來了困難。本項(xiàng)目將從快速過濾無效內(nèi)容、短文本潛在語義擴(kuò)展挖掘和多文本共性特征挖掘三個(gè)方面展開深入的研究。③基于用戶關(guān)系的真實(shí)屬性和特征挖掘。在現(xiàn)實(shí)生活和網(wǎng)絡(luò)交互中,那些交往較為親密的朋友似乎具有較多的相似性。但是相似的程度、相似的特征和相似的特點(diǎn)都具有不確定性。本項(xiàng)目將針對(duì)大量的微博數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,來量化不同的用戶交互關(guān)系與特征相似度的相關(guān)性,最終推導(dǎo)基于交互行為的個(gè)性特征挖掘方法。④基于用戶的時(shí)間行為與頻率周期的用戶真實(shí)屬性和個(gè)性特征挖掘。研究如何根據(jù)時(shí)間量、頻度、間歇、日月年時(shí)間分布、假期時(shí)間分布等時(shí)間統(tǒng)計(jì)特征,來推斷用戶的用戶真實(shí)屬性和個(gè)性特征。⑤不確定性的屬性決策與推斷。根據(jù)多種規(guī)則集可以針對(duì)特征屬性得出不同的推導(dǎo)結(jié)論,相互之間的支持度和結(jié)果集會(huì)存在不確定問題。本項(xiàng)目將研究如何在多個(gè)推導(dǎo)規(guī)則下的用戶個(gè)性特征屬性決策和推斷方法。
本文將深入研究微博中的組織方式、用戶交流機(jī)制和行為特征,建立科學(xué)、合理、有效、完善的微博理論模型。在此基礎(chǔ)上,對(duì)微博中用戶的行為、交互進(jìn)行大規(guī)模的數(shù)據(jù)分析,研究微博用戶間的關(guān)系特征,建立微博用戶的關(guān)系網(wǎng)絡(luò)模型和計(jì)算方法,實(shí)現(xiàn)微博用戶的關(guān)系分布、重要用戶發(fā)現(xiàn)和“小團(tuán)體”挖掘。同時(shí)基于用戶的行為特征和言論記錄,建立微博用戶真實(shí)屬性和個(gè)性特征模型,針對(duì)微博主題高頻率及短文本的特點(diǎn),研究通過短文本內(nèi)容挖掘、關(guān)系網(wǎng)絡(luò)挖掘和行為挖掘三種發(fā)現(xiàn),實(shí)現(xiàn)對(duì)微博用戶真實(shí)屬性和個(gè)性特征的挖掘和提取,最終開發(fā)微博用戶關(guān)系網(wǎng)絡(luò)分析系統(tǒng)和微博用戶個(gè)性特征挖掘系統(tǒng),為微博營銷、知識(shí)挖掘、微博輿情和宏觀管理提供理論工具和應(yīng)用平臺(tái)。
(1)微博用戶真實(shí)屬性和個(gè)性特征模型要素與屬性集。在本項(xiàng)目中,首先對(duì)微博用戶的基本屬性進(jìn)行分析和挖掘,定義用戶的特征屬性集合(包含年齡、性別、職業(yè)、地域、學(xué)歷、興趣、性格等)的描述算子和取值范圍。特征屬性集可根據(jù)要求進(jìn)行動(dòng)態(tài)增加和調(diào)整。微博用戶的興趣愛好屬性用興趣空間來表示,用戶的興趣取值用興趣集來表示,興趣集為興趣空間的子集。取值概率反映了興趣愛好存在性和興趣程度。
(2)基于文本內(nèi)容的用戶真實(shí)屬性和個(gè)性特征挖掘。微博內(nèi)容的文本長度一般在140字以內(nèi),且相關(guān)的評(píng)論數(shù)量大、文本短,傳統(tǒng)的關(guān)鍵詞模型和概率模型不適用于微博內(nèi)容的特征挖掘。針對(duì)微博內(nèi)容的特點(diǎn),本項(xiàng)目將基于微博內(nèi)容采用3個(gè)步驟實(shí)現(xiàn)真實(shí)屬性和個(gè)性特征的挖掘。
一是微博內(nèi)容過濾。因?yàn)槲⒉﹥?nèi)容具有數(shù)量大、速度快等特點(diǎn),為基于內(nèi)容的特征語義挖掘帶來了效率上的困擾,所以本項(xiàng)目在進(jìn)行微博真實(shí)屬性和個(gè)性特征挖掘時(shí),先利用改進(jìn)的相似度模型,快速地過濾無效的微博內(nèi)容。
二是基于多文本組合的共性特征挖掘。為了克服傳統(tǒng)主題詞抽取算法中的主題漂移與主題誤判等問題,本項(xiàng)目利用關(guān)鍵特征的共現(xiàn)信息來進(jìn)行特征挖掘。根據(jù)詞匯與文本中的上下文環(huán)境詞匯的共現(xiàn)關(guān)系來調(diào)節(jié)詞的權(quán)重評(píng)分,對(duì)該用戶在多篇微博中多次提到的類似關(guān)鍵特征進(jìn)行重點(diǎn)分析。
三是微博內(nèi)容的短文本潛在語義分析。本項(xiàng)目將改進(jìn)潛在語義模型來實(shí)現(xiàn)微博中短文本的語義分析,將微博文本、微博評(píng)論和相關(guān)轉(zhuǎn)發(fā)進(jìn)行綜合分析,首先建立評(píng)論內(nèi)容或轉(zhuǎn)發(fā)內(nèi)容對(duì)正文內(nèi)容的對(duì)應(yīng)關(guān)系,挖掘評(píng)論或轉(zhuǎn)發(fā)中對(duì)正文的補(bǔ)充描述,實(shí)現(xiàn)正文的特征擴(kuò)展。其次建立用戶真實(shí)屬性與個(gè)性特征的各個(gè)特征屬性的規(guī)則集和推導(dǎo)集,以及基于半監(jiān)督的規(guī)則集和推導(dǎo)集的構(gòu)造方法。最后對(duì)正文進(jìn)行語義擴(kuò)展,挖掘正文中的詞法和句法,對(duì)關(guān)鍵詞進(jìn)行相關(guān)擴(kuò)展,基于本體的規(guī)則匹配來與規(guī)則集和推導(dǎo)集進(jìn)行投影比較,最終構(gòu)造特征屬性上的結(jié)論集。
Thompson(1996:65)指出:“任何對(duì)語篇人際意義的分析,都必須涉及其中的評(píng)價(jià)。”Martin&White(2005)的評(píng)價(jià)理論認(rèn)為,詞匯資源也表達(dá)人際意義,強(qiáng)調(diào)人際功能中“人”的因素。評(píng)價(jià)表達(dá)作者對(duì)評(píng)價(jià)對(duì)象的情感、觀點(diǎn)和看法。評(píng)價(jià)對(duì)象可抽象為實(shí)體和命題(張大群,肖雁2014)。實(shí)體評(píng)價(jià)通常由形容詞實(shí)現(xiàn),作者情感、態(tài)度的表達(dá)往往直觀明了,評(píng)價(jià)呈顯性。而命題評(píng)價(jià)大多呈隱性,對(duì)于語境的依賴性較強(qiáng),信息的解讀往往要借助于作者和讀者共享的歷史文化語境及價(jià)值觀。
(3)基于用戶關(guān)系的真實(shí)屬性和特征挖掘
在現(xiàn)實(shí)生活和網(wǎng)絡(luò)交互中,那些交往較為親密的朋友似乎具有較多的相似性。但是相似的程度、相似的特征和相似的特點(diǎn)都具有不確定性。本項(xiàng)目將從大量的微博用戶行為和用戶交互關(guān)系數(shù)據(jù)進(jìn)行分析,進(jìn)行微博中用戶關(guān)系和特征相似性的研究以找到興趣相似特征的規(guī)律和特點(diǎn)。
為了檢驗(yàn)在微博用戶中,用戶之間關(guān)系k是否具有特征相似性,隨機(jī)選擇一組用戶對(duì),對(duì)每個(gè)用戶對(duì)進(jìn)行檢驗(yàn)。
在用戶對(duì)空間R中,隨機(jī)選擇n個(gè)用戶對(duì)形成總體R’,n>200,根據(jù)用戶對(duì)的關(guān)系k的關(guān)系強(qiáng)度的取值范圍,從小到大劃分為5個(gè)值域A1、A2、A3、A4、A5,根據(jù)用戶對(duì)的相似度的取值范圍,從小到大劃分為5個(gè)值域B1、B2、B3、B4、B5。
統(tǒng)計(jì)每個(gè)用戶對(duì)的關(guān)系i的關(guān)系強(qiáng)度和相似度的值,構(gòu)造用戶間關(guān)系強(qiáng)度和相似度的r*c聯(lián)表,建立卡方分布的統(tǒng)計(jì)量,來對(duì)不同的用戶關(guān)系和相似度進(jìn)行假設(shè)檢驗(yàn)判定。
(4)基于用戶的時(shí)間行為與頻率周期的用戶真實(shí)屬性和個(gè)性特征
用戶登錄微博的時(shí)間統(tǒng)計(jì)特征包括:時(shí)間量、頻度、間歇、日月年時(shí)間分布、假期時(shí)間分布等時(shí)間統(tǒng)計(jì)特征。用戶登錄微博的時(shí)間行為,能夠一定程度上反映該用戶的特征,對(duì)這些時(shí)間特征進(jìn)行歸納統(tǒng)計(jì),推理挖掘出相關(guān)特征。
以上描述了通過多種方法進(jìn)行用戶的真實(shí)屬性和個(gè)性特征的挖掘,這些挖掘的結(jié)論將組成一組結(jié)果集。然而,根據(jù)不同的規(guī)則,可能有互斥的一些結(jié)論,如何來對(duì)這些不確定的結(jié)論來進(jìn)行最終結(jié)論推導(dǎo)是本節(jié)研究的問題。
(1)開發(fā)微博應(yīng)用綜合平臺(tái)
本項(xiàng)目將采用Hadoop分布計(jì)算平臺(tái),通過元搜索引擎技術(shù),整合國內(nèi)主流的微博系統(tǒng),對(duì)其中的用戶和主題相關(guān)數(shù)據(jù),分布式的進(jìn)行數(shù)據(jù)抽取和數(shù)據(jù)挖掘,以結(jié)構(gòu)化的形式存入本地服務(wù)器的ORACLE數(shù)據(jù)庫中,建立完善的微博用戶行為、關(guān)系的分析系統(tǒng)。
(2)開發(fā)微博用戶關(guān)系網(wǎng)絡(luò)分析系統(tǒng)
在微博數(shù)據(jù)平臺(tái)的基礎(chǔ)上,根據(jù)微博用戶關(guān)系網(wǎng)絡(luò)挖掘方法,開發(fā)相關(guān)算法并融入到系統(tǒng)中,使系統(tǒng)提供預(yù)讀和預(yù)判機(jī)制,自動(dòng)計(jì)算用戶間的關(guān)系強(qiáng)度和方向,自動(dòng)繪制用戶間的關(guān)系網(wǎng)絡(luò)圖;提供重要用戶排序列表和“小團(tuán)體”分布結(jié)果。
(3)開發(fā)微博用戶個(gè)性特征挖掘系統(tǒng)
在微博數(shù)據(jù)平臺(tái)的基礎(chǔ)上,根據(jù)微博中用戶真實(shí)屬性和個(gè)性特征的挖掘方法,開發(fā)相關(guān)算法并融入到系統(tǒng)中。在分布式采集時(shí),將微博主題進(jìn)行結(jié)構(gòu)化處理,并對(duì)無效數(shù)據(jù)預(yù)過濾,對(duì)有效數(shù)據(jù)進(jìn)行預(yù)分詞。當(dāng)查詢用戶名時(shí),系統(tǒng)快速的對(duì)該用戶進(jìn)行真實(shí)屬性和個(gè)性挖掘,并將結(jié)果展示出來。
微博中用戶數(shù)量龐大,用戶間的交互關(guān)系種類多樣,用戶交互行為頻率較高,傳統(tǒng)的社會(huì)關(guān)系網(wǎng)絡(luò)分析方法在效率和精度上都不能滿足微博用戶關(guān)系的研究。研究科學(xué)有效的微博用戶關(guān)系分析方法,建立高效、精確的微博用戶關(guān)系網(wǎng)絡(luò)是一個(gè)極具挑戰(zhàn)性的關(guān)鍵科學(xué)問題。
微博中用戶發(fā)表的主題、回復(fù)的文本內(nèi)容往往都比較短,且數(shù)量多、頻次高。基于關(guān)鍵詞頻無法得到準(zhǔn)確的數(shù)據(jù),傳統(tǒng)的語義分析也因缺乏上下文語境無法高效的實(shí)現(xiàn)。尋找合適的方法,快速有效地挖掘真實(shí)屬性和個(gè)性特征是一個(gè)極具挑戰(zhàn)性的關(guān)鍵科學(xué)問題。
實(shí)驗(yàn)結(jié)果表明,本文所提出的基于本體特征對(duì)用戶主題評(píng)論分析,得到該用戶的特征屬性是可行的。在本文中,以性別、年齡、學(xué)歷、地域、興趣5個(gè)特征屬性為例進(jìn)行了研究,此方法具有可擴(kuò)展性。
微博中的用戶關(guān)系具有多樣性和復(fù)雜性,快速地分析微博中的用戶關(guān)系和計(jì)算關(guān)系強(qiáng)度是一個(gè)具有挑戰(zhàn)性的關(guān)鍵問題。在本文中,我們首先對(duì)微博、微博用戶、微博用戶行為建立了完整的科學(xué)模型,在此基礎(chǔ)上對(duì)已有數(shù)據(jù)進(jìn)行深入的分析和挖掘,對(duì)用戶關(guān)系進(jìn)行分類,針對(duì)不同類別的用戶關(guān)系進(jìn)行統(tǒng)計(jì)分析,研究用戶關(guān)系的分布規(guī)律,并通過實(shí)驗(yàn)來進(jìn)行校驗(yàn),最終構(gòu)造高效、準(zhǔn)確的用戶關(guān)系強(qiáng)度計(jì)算方法,使得微博間用戶關(guān)系的發(fā)現(xiàn)和強(qiáng)度快速計(jì)算是可行的。
微博中的用戶所發(fā)表的主題文本短、頻率高,從大量的短文本中快速的挖掘特征信息,以識(shí)別用戶的真實(shí)屬性和個(gè)性特征是一個(gè)具有挑戰(zhàn)性的關(guān)鍵問題。在本文中,在微博用戶行為模型和微博用戶個(gè)性特征模型的基礎(chǔ)上,提出了基于文本內(nèi)容的語義識(shí)別、基于用戶關(guān)系的關(guān)聯(lián)挖掘和基于用戶行為的行為挖掘三種方式,來對(duì)微博中用戶的真實(shí)屬性和個(gè)性特征進(jìn)行挖掘。特別是在文本內(nèi)容的語義識(shí)別上,改進(jìn)了潛在語義模型,綜合利用共性、關(guān)聯(lián)、擴(kuò)展等特征方法,來識(shí)別微博中的用戶真實(shí)屬性和個(gè)性特征進(jìn)行挖掘,具有良好的可行性。