閃四清,侯銀豐,劉孟妮
(1.北京航空航天大學 經(jīng)濟管理學院,北京 100191; 2.城市運行應(yīng)急保障模擬技術(shù)北京市重點實驗室,北京 100191)
?
面向應(yīng)急響應(yīng)需求的博客自適應(yīng)評價模型
閃四清1,2,侯銀豐1,2,劉孟妮1,2
(1.北京航空航天大學 經(jīng)濟管理學院,北京 100191; 2.城市運行應(yīng)急保障模擬技術(shù)北京市重點實驗室,北京 100191)
摘要:以合理利用博客資源,協(xié)助政府應(yīng)急響應(yīng)決策為目標,提出一套面向需求的博客自適應(yīng)評價模型。采用LDA主題模型挖掘博客的主題分布,將主題視為信息需求單元,將決策工作對信息的需求傾向看作需求單元信息的優(yōu)先度影響因子,面向應(yīng)急響應(yīng)決策工作對博客進行評價,并以實際使用的博客信息量統(tǒng)計分布更新需求單元信息的優(yōu)先度影響因子,實現(xiàn)自適應(yīng)學習反饋機制。最后,選取“天津港爆炸”事件的新浪博客數(shù)據(jù)作為案例,對模型的有效性予以驗證。結(jié)果表明,面向應(yīng)急響應(yīng)決策需求的博客自適應(yīng)評價模型,能夠更好地滿足應(yīng)急管理和決策者需求。
關(guān)鍵詞:應(yīng)急管理;應(yīng)急決策;用戶生成內(nèi)容;博客;自適應(yīng)評估
Web 2.0時代包括博客在內(nèi)的用戶生成內(nèi)容(user-generated content,UGC)蓬勃發(fā)展。WANG等認為在數(shù)據(jù)挖掘、輿情分析、信息索取及熱點探究等眾多領(lǐng)域中,針對UGC的研究工作都占有比較重要的位置,合理有效地分析UGC可以得到有價值的成果[1]。但是,網(wǎng)絡(luò)信息資源質(zhì)量參差不齊,這嚴重影響了博客對用戶的使用價值。因此,合理篩選、評價博客資源,具有較高的研究價值。用戶根據(jù)自身的需求,傳播、使用著不同的博客資源,UGC這一新興信息傳播模式的出現(xiàn),為突發(fā)事件應(yīng)急管理提供了一條嶄新的思路。應(yīng)急管理包含多個階段的工作,不同工作階段和任務(wù)的信息需求不同,只有充分考慮用戶的需求,才能有效利用博客資源,從而協(xié)助政府應(yīng)急響應(yīng)決策。
筆者打破以往研究對網(wǎng)絡(luò)信息資源大而全的整體評價思維局限,提出以主題挖掘為手段,面向需求,分類對博客進行評價。同時,以利用博客等網(wǎng)絡(luò)信息資源協(xié)助政府應(yīng)急響應(yīng)決策為目的,通過對博客評價的研究,提出一種有效利用網(wǎng)絡(luò)信息資源協(xié)助應(yīng)急決策和管理工作的新思路。
1文獻綜述
1.1應(yīng)急響應(yīng)決策信息需求研究現(xiàn)狀
應(yīng)急管理是一門多學科交融頻繁的復(fù)雜性系統(tǒng)科學,一般包括應(yīng)急預(yù)防、應(yīng)急準備、應(yīng)急反應(yīng)、災(zāi)后恢復(fù)與重建4方面內(nèi)容[2];胡代平等[3]提出政府危機管理中的5種應(yīng)急信息需求:預(yù)警信息、預(yù)防信息、控制信息、恢復(fù)信息及學習需要的信息;LEE等[4]認為網(wǎng)絡(luò)信息資源在應(yīng)急響應(yīng)決策過程中具有重要的作用,可以有效地幫助決策人員分析事件特征,合理進行決策;操學誠等[5]通過對突發(fā)事件發(fā)生后網(wǎng)民在相關(guān)網(wǎng)絡(luò)平臺上的行為進行研究,認為突發(fā)事件發(fā)生后,民眾會在網(wǎng)絡(luò)平臺上發(fā)布許多對應(yīng)急救援有用的信息。
1.2博客等用戶生成內(nèi)容的評價研究現(xiàn)狀
博客等網(wǎng)絡(luò)信息資源質(zhì)量參差不齊[6],利用這些資源協(xié)助應(yīng)急響應(yīng)決策,首先需要對其進行合理的評價。MATTHEW[7]提出了一整套網(wǎng)絡(luò)信息資源評價的指標體系;PESSEMIER等[8]研究了YouTube用戶的評價內(nèi)容與推薦內(nèi)容,提出依據(jù)用戶評價內(nèi)容和推薦內(nèi)容的網(wǎng)上視頻評價模型;陶青[9]采用層次分析法對UGC進行了評價;WANG等提出了一種應(yīng)用句法結(jié)構(gòu)分析方法評估UGC質(zhì)量的評價模型;ONG等[10]研究了亞馬遜網(wǎng)站上的商品評論信息,提出了虛假評論在信息內(nèi)容性、可讀性和主觀性3方面的特征;RANSBOTHAM等[11]提出UGC內(nèi)容貢獻者數(shù)量、信息資源之間網(wǎng)絡(luò)特性、UGC資源年齡3方面都對協(xié)作式UGC的經(jīng)濟價值產(chǎn)生影響。
劉繼等[12]提出了網(wǎng)絡(luò)信息存在多個主題;張晨逸等[13-14]探究在大規(guī)模微博數(shù)據(jù)上應(yīng)用潛在狄利克雷分布模型(latent dirichlet allocation,LDA)挖掘文本話題;童薇等[15]提出一種基于LDA的微博文本話題抽取方法;VILLIERS等[16]采用K-Means方法測量信息距離,經(jīng)過AP算法進行文本聚類,結(jié)合LDA主題生成模型,生成針對用戶個性微博主題推薦列表。
綜上所述,博客等UGC資源在應(yīng)急響應(yīng)決策中極具應(yīng)用價值。博客信息存在多種話題,應(yīng)急響應(yīng)工作的信息需求也多種多樣,對博客依據(jù)主題進行分類,開展面向應(yīng)急響應(yīng)決策需求的博客評價研究具有重要意義。目前,國內(nèi)外學者對于博客等UGC的評價研究較為匱乏,評價過于粗糙,實用性較差。因此,筆者的研究彌補了上述不足,具有一定的理論與現(xiàn)實意義。
2評價模型
2.1博客主題挖掘
筆者提出對博客進行面向主題的分類評價,需要對博客進行主題挖掘。以往學者在網(wǎng)絡(luò)信息資源主題挖掘方面多采用LDA概率主題模型[17],具有較好的主題挖掘效果。首先LDA模型是一種基于語料的生成概率模型,LDA應(yīng)用馬爾科夫鏈作為數(shù)據(jù)狀態(tài)分布的先驗概率測量方法,以Gibbs Sampling方法獲取先驗狀態(tài)信息,得到兩個超參數(shù)期望值和詞分布的主題分布,最終得到文檔的主題分布。
將博客主題視為應(yīng)急響應(yīng)決策信息需求單元(Di,設(shè)有i個主題),通過LDA主題模型可以得到每篇博客的對應(yīng)主題概率,筆者將其視為文本對應(yīng)需求單元的內(nèi)容相關(guān)度(R)。突發(fā)類應(yīng)急事件的信息要素包含共有信息要素和專項信息要素,其中共有信息要素根據(jù)人員、時間、空間又分為突發(fā)類應(yīng)急事件基本要素、事件發(fā)生單位或區(qū)域相關(guān)要素、人員傷亡信息要素和事件跟蹤信息要素[18]。筆者在以往研究基礎(chǔ)上添加事后安撫信息和民眾情感表達信息這兩個信息單元。整體而言,筆者提出的應(yīng)急響應(yīng)決策信息單元結(jié)構(gòu)如圖1所示。
圖1 應(yīng)急響應(yīng)決策信息需求單元結(jié)構(gòu)
2.2面向應(yīng)急響應(yīng)決策需求的博客篩選
筆者將博客的篩選視為一個文本二分類問題,將文本歸屬到“有用”和“無用”兩類中。筆者結(jié)合以往學者在網(wǎng)絡(luò)信息資源評價方面的研究,對博客文本的有用性影響指標進行分析,提出了用戶可靠性、內(nèi)容可靠性、內(nèi)容相關(guān)性和內(nèi)容可用性4個博客質(zhì)量影響指標,應(yīng)急響應(yīng)類博客篩選性評價指標體系如圖2所示。
圖2 應(yīng)急響應(yīng)類博客篩選性評價指標體系
用戶可靠性是指用戶的可信任程度 。一般而言,影響力較高的人產(chǎn)生的言論更為可靠,權(quán)威人士發(fā)布的內(nèi)容相對更有價值。筆者認為用戶的影響力主要體現(xiàn)在網(wǎng)民用戶的博客訪問量和粉絲數(shù)量上,而權(quán)威性則主要體現(xiàn)在發(fā)文量和博主等級上。因此,對于博客用戶可靠性指標,提出用博客發(fā)文量、訪問量、粉絲數(shù)、博客積分4個網(wǎng)頁標簽對其進行量化。
內(nèi)容可靠性是指博文內(nèi)容的準確性、客觀性,主要體現(xiàn)在該博文的討論熱度上。具體而言,博文的閱讀量和評論數(shù)在一定程度上代表著該博文的認知度,體現(xiàn)了博客的權(quán)威性。此外,信息量充足的博文包含的有用信息相對較多。綜上,對于博文的內(nèi)容可靠性,筆者采用博客閱讀量、博客訪問量及博客信息量進行測度。
內(nèi)容相關(guān)性是指博客在某一主題下的歸屬程度,主題即為應(yīng)急響應(yīng)信息需求單元。筆者研究的博客篩選針對某一需求而進行,目的是過濾出與該需求不相關(guān)的博客。通過LDA主題模型對博文進行主題抽取,在分析博文主題及其關(guān)鍵詞的同時,可以得到每篇博文在該主題下的相關(guān)性指標值,因此,博客的內(nèi)容相關(guān)性指標值可以通過LDA主題模型獲取。
內(nèi)容可用性代表博客內(nèi)容能夠被使用者所理解的程度,代表博客可以產(chǎn)生多少實際的效能。應(yīng)急響應(yīng)決策者在利用博客資源的時候需要考慮信息內(nèi)容的可用程度,內(nèi)容的可用性被廣泛應(yīng)用在網(wǎng)絡(luò)商品評論分析中[19-20],博客的可用性包含以下兩個方面:博客的語義完整性和博客的內(nèi)容一致性。
筆者采用HanLP(漢語言處理包)對每個句子進行分詞處理和詞性標注,首先找出每個句子的核心動詞,繼而在核心動詞的基礎(chǔ)上判斷整句是否具有完整的句子結(jié)構(gòu),以此計算該句語義的完整性。
(1)
由于博客信息表達具有多樣性,且隨意性較強,博文內(nèi)容的語義一致性直接關(guān)系到該信息的傳播效果。筆者采用FudanNLP工具包獲取正文每個句子的核心詞,然后計算正文句子之間核心詞對應(yīng)于樹狀詞庫中的“距離”(由所屬類別定義),而得到的所有句子之間的“距離”平均值即可作為該段信息語義一致性的度量值。
(2)
筆者采用廣義回歸神經(jīng)網(wǎng)絡(luò)(general regression neural network,GRNN)[21]對每個需求單元下的博客集合分別進行篩選,篩選出對于特定需求單元無用的博客文本,將這些文本的內(nèi)容相關(guān)度賦值為0,面向應(yīng)急響應(yīng)決策需求的博客篩選過程如圖3所示。
圖3 面向應(yīng)急響應(yīng)決策需求的博客篩選過程
2.3面向應(yīng)急響應(yīng)決策需求的博客自適應(yīng)評價
通過主題挖掘和博客篩選后,每個信息需求單元下都匯集了若干份博客文本,這些文本都具有明確的、面向該需求的內(nèi)容相關(guān)性指標值。決策者對某一需求單元信息的需求傾向就是該需求單元對應(yīng)目前工作階段的權(quán)重,即目前階段的工作信息需求由各個信息需求單元加權(quán)匯總得到。
針對一次決策而言,決策者會使用大量的博客信息協(xié)助自身開展決策性工作,這些真實使用的信息代表了決策者目前的信息需求傾向。因此,筆者使用決策者實際決策后的信息需求分布作為信息單元和階段工作之間的需求傾向。具體而言,對決策者使用的博客信息進行信息量統(tǒng)計,依據(jù)每篇博客在每個需求單元(Di)下的內(nèi)容相關(guān)度指標值,得到該階段工作(Sj)的需求單元信息量統(tǒng)計分布,進而得到每一個需求單元信息量在該階段工作使用信息總量的比例(aij),將其作為該階段對于某一需求單元的信息需求傾向。從而,所有博客文本使用的可能性就會產(chǎn)生差異。
(3)
式中:i為需求單元編號;j為階段工作編號;ISeth代表包含第h篇文檔的需求單元的集合;Phj為第h篇博客在第j個階段工作中的優(yōu)先使用度;aij為第j個階段工作對第i個需求單元的信息需求傾向;Rhi為第h篇文檔對于第i個需求單元的內(nèi)容相關(guān)度。
針對多次決策而言,每次決策使用的博客都將更新信息需求傾向,依據(jù)新的需求傾向?qū)Σ┛瓦M行排序,方便決策者快速有效地利用博客,從而實現(xiàn)博客自適應(yīng)評價,具體過程如圖4所示。
圖4 依據(jù)需求傾向的博客自適應(yīng)評價過程
3實證研究
3.1實驗分析過程
(1)應(yīng)用GooSeeker(集搜客)網(wǎng)頁爬蟲軟件對新浪博客進行抓取,抓取內(nèi)容包含用戶姓名、用戶積分、用戶粉絲量、用戶發(fā)文量、發(fā)文時間、博文標題、博文內(nèi)容、博文評論量及博文閱讀量。筆者以“8·12天津港爆炸”事件為案例,共抓取1 275篇新浪博客并進行數(shù)據(jù)分析,以驗證筆者所提出模型的有效性和可用性。
(2)應(yīng)用Python自然語言處理包對1 275篇博客進行分析,得到每一篇博文的主題概率分布,將主題作為信息需求單元(Di),博文在每個需求單元(Di)下的概率為該博客在該需求單元下的內(nèi)容相關(guān)度指標值(Wi)。
(3)組織應(yīng)急管理領(lǐng)域?qū)<覍? 275篇博客進行有用性分析,賦予無用博客0標簽,賦予有用博客1標簽,得到所有文檔的類型標簽。
(4)應(yīng)用Java程序?qū)Σ┛驮u價指標進行測量,采用Max-Min標準化方法對每個測量指標進行標準化,針對每種需求單元,隨機抽取75篇博客作為測試集,剩余1 200篇博客作為訓練集,采用Matlab神經(jīng)網(wǎng)路工具箱,生成博文的可用性篩選器。
(5)測量博客的優(yōu)先度,對博客進行排序。筆者設(shè)定初始狀態(tài)決策工作對于需求單元沒有需求傾向(即均為1/7)。選取爆炸發(fā)生后的3個時間段,代表事件反應(yīng)、事件處理及事后安撫3個應(yīng)急響應(yīng)工作階段,對各階段的博客進行3次抽取,每次抽取后都對博文進行信息量使用統(tǒng)計,得出該次抽取信息的信息需求單元的比重,調(diào)整需求傾向權(quán)重值aij。最后,比較每個階段之后抽取的博文內(nèi)容和工作需求的匹配程度,驗證模型的有效性。具體實驗流程如圖5所示。
圖5 “天津港爆炸”事件的博客自適應(yīng)評價模型應(yīng)用實驗流程
3.2實驗結(jié)果
首先,筆者應(yīng)用LDA主題模型將“天津港爆炸”相關(guān)博客分為7個需求單元,并列出每個需求單元的主題關(guān)鍵詞,如表1所示,可以明顯看出,需求單元(主題)之間的關(guān)鍵詞差異較大,說明主題挖掘效果良好。
其次,針對每個需求單元進行了GRNN篩選器的準確性測量,同時又訓練了忽略內(nèi)容相關(guān)度指標后的博客有用性篩選器,并測量了其準確性,如表2所示。7個需求單元的博文篩選準確率都在80.00%以上,其中事后安撫信息需求單元篩選器的準確率高達89.33%,而忽略了內(nèi)容相關(guān)度指標后建立的篩選器準確率只有62.45%。結(jié)果表明筆者實驗所得到篩選器準確有效,所提出的博客有用性評價指標客觀有效,同時,也意味著對博客按照信息需求進行主題劃分是科學合理的。
表1 “天津港爆炸”需求單元主題關(guān)鍵詞
表2 針對需求單元的博客篩選器準確性統(tǒng)計表
最后,筆者選取3個工作階段對博文進行抽取,每個階段抽取2~3次,對每次抽取后的博客信息量按需求單元分類統(tǒng)計,如圖6所示,得到本次需求單元信息量的使用比例,依據(jù)比例對博客的優(yōu)先度進行計算,從而實現(xiàn)對博客的評價。
圖6 各階段使用不同需求單元(Di)統(tǒng)計分布
實驗結(jié)果表明,筆者所提出的博客需求單元信息使用傾向參數(shù),可按使用情況進行自適應(yīng)性調(diào)整,并能夠充分體現(xiàn)決策使用者的真實信息需求傾向,可以很好地通過該反饋學習機制調(diào)整博客選取順序,提高了應(yīng)急響應(yīng)決策者的信息查詢和信息使用效率,有助于科學、準確、快速地展開應(yīng)急決策與管理工作。綜上所述,筆者提出的面向應(yīng)急響應(yīng)決策需求的博客自適應(yīng)評價模型是科學、有效的。
4結(jié)論
應(yīng)用LDA主題模型挖掘博客信息的主題分布,繼而面向應(yīng)急響應(yīng)決策需求,依據(jù)工作的信息需求傾向?qū)Σ┛瓦M行排序,并依據(jù)實際的使用情況反饋調(diào)節(jié)信息需求傾向,從而實現(xiàn)對博客面向應(yīng)急響應(yīng)決策需求的自適應(yīng)評價。筆者的研究彌補了以往學術(shù)界對UGC評價研究的不足,以主題挖掘為著手點,分類對博客進行評價,打破了以往信息資源整體性評價的局限;以實際數(shù)據(jù)為支撐,構(gòu)建依據(jù)實際應(yīng)用數(shù)據(jù)的合理反饋機制,通過自動學習適應(yīng)不斷變化的信息需求,避免了評價的主觀性;此外,筆者從應(yīng)急響應(yīng)決策需求的角度出發(fā),對博客資源進行了評價研究,為應(yīng)急響應(yīng)決策者提供了一種合理應(yīng)用博客資源協(xié)助政府開展應(yīng)急決策和管理工作的新思路。
參考文獻:
[1]WANG B, LI L, LIN X. Evaluating quality of Web 2.0 UGC based on user authority and topic distribution[C]∥16th International Symposium on IEEE.[S.l.]:[s.n.],2013:1-6.
[2]TUFEKCI S. An integrated emergency management decision support system for hurricane emergencies[J]. Safety Science, 1995,20(1):39-48.
[3]胡代平,雷愛中,王琪,等.政府危機管理的信息需求及獲取[J].科學技術(shù)與工程,2007,7(9):2177-2181.
[4]LEE W B, WANG Y, WANG W M, et al. An unstructured information management system(UIMS) for emergency management[J]. Expert Systems with Applications, 2012,39(17):12743-12758.
[5]操學誠,牛凱,趙曙光,等.熱點事件的網(wǎng)民瀏覽、搜索、發(fā)帖與網(wǎng)民行為引導(dǎo)研究[J].預(yù)防青少年犯罪研究,2012,6(1):14-25.
[6]藍勤華.用戶創(chuàng)造內(nèi)容(UGC)動機研究[D].南京:南京大學,2011.
[7]MATTHEW W B. Information quality: a conceptual framework and empirical validation[D]. Kansas:The University of Kansas, 2004.
[8]PESSEMIER T D, DERYCKERE T, MARTENS L. Context aware recommendations for user-generated content on a social network site[M]. Leuven:[s.n.], 2009:133-136.
[9]陶青.基于信息構(gòu)建(IA)的Web 2.0網(wǎng)站研究[D].上海:華東師范大學,2007.
[10]ONG T, MANNINO M, GREGG D. Linguistic characteristics of shill reviews[J]. Electronic Commerce Research and Applications, 2014,13(2):69-78.
[11]RANSBOTHAM S, KANE G C, LURIE N H. Network characteristics and the value of collaborative user-generated content[J]. Marketing Science, 2012,31(3):387-405.
[12]劉繼,李磊.面向輿情主題的微博用戶網(wǎng)絡(luò)影響力挖掘分析[J].情報雜志,2014,10(1):21-24.
[13]張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計算機研究與發(fā)展,2011,10(10):1795-1802.
[14]路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識別與人工智能,2012,3(3):382-387.
[15]童薇,陳威,孟小峰.EDM:高效的微博事件檢測算法[J].計算機科學與探索,2012,12(1):1076-1086.
[16]VILLIERS F D, HOFFMANN M, KROON S. Unsupervised construction of topic-based twitter lists[C]∥2012 IEEE International Conference on Privacy, Security, Risk and Trust and 2012 IEEE International Conference on Social Computing. Amsterdam :IEEE Computer Society, 2012:283-292.
[17]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
[18]王延章,葉鑫,裘江南,等.應(yīng)急管理信息系統(tǒng)[M].北京:科學出版社, 2010: 27-36.
[19]NIKOLAOS K. Evaluating content quality and usefulness of online product reviews[J]. SSRN Electronic Journal, 2008,7(3):95-99.
[20]OMAHONY M P, SMYTH B. Using readability tests to predict helpful product reviews[J]. Riao Adaptivity Personalization & Fusion of Heterogeneous Information, 2010,5(4):164-167.
[21]SPECHT D F. A general regression neural network[J]. IEEE Transactions on Neural Networks, 1991,2(6):568-576.
SHAN Siqing:Prof.; School of Economics and Management, Beihang University, Beijing 100191,China.
文章編號:2095-3852(2016)02-0144-06
文獻標志碼:A
收稿日期:2015-12-26.
作者簡介:閃四清(1965-),男,北京人,北京航空航天大學經(jīng)濟管理學院教授;博士生導(dǎo)師.
基金項目:國家自然科學基金項目(71471008);國家自然科學基金項目(91224007).
中圖分類號:X913
DOI:10.3963/j.issn.2095-3852.2016.02.002
Blog Adaptive Evaluation Model for Demand on Emergency Response Decision
SHANSiqing,HOUYinfeng,LIUMengni
Abstract:With the development of information technology, blog and other UGC resources which play the role in emergency management is growing. How to make effective use of blog resources, to adapt emergency response decision-making needs is an urgent problem to be solved.In this paper, the purpose is to take full advantage of blogs to assist the Government make decisions during the emergency response process and it proposes a model for adaptive blog evaluation model for decision demand. This paper applies the LDA model to mine themes from many blogs. This research gets a themes' distribution, which are regarded as the information demand units. This research regards the favorite of information in some demand unit as the priority needs of the cell information factor to achieve the evaluation work. Eventually, this paper analyzes the blog data about Tianjin Port Explosion in Sina Blog to verify the effectiveness of this model. The results of the theoretical analysis and empirical research show that this model which bases on the information demand of emergency management decisions makers is scientific and effective.
Key words:emergency management; emergency decision; UGC; blog; adaptive evaluation