高凌云志 ,宋肖肖 ,龍 華 ,杜慶治 ,張 琪 ,邵玉斌
(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2.昆明醫(yī)科大學(xué) 公共衛(wèi)生學(xué)院,云南 昆明 650500)
隨著輿情監(jiān)測系統(tǒng)的大量研究與嘗試性實(shí)施[1-2],其中存在以報(bào)紙為數(shù)據(jù)源的輿情監(jiān)測方式。在傳統(tǒng)的監(jiān)測方式中,很難做到提前對可能出現(xiàn)爆發(fā)的區(qū)域做出預(yù)警判斷。在大量的預(yù)警模型中,一種基于前瞻性的時(shí)空掃描成為了應(yīng)用與研究的熱點(diǎn)。它能夠使用歷史數(shù)據(jù)對數(shù)據(jù)源進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析,并能夠提前對疑似聚集點(diǎn)進(jìn)行預(yù)警,從而使得在某區(qū)域出現(xiàn)輿情爆發(fā)前做出相應(yīng)的判斷成為可能。在前瞻性時(shí)空掃描統(tǒng)計(jì)量的使用過程中,通過對掃描區(qū)域圓心、掃描半徑、掃描時(shí)間節(jié)點(diǎn)的改變,能夠使掃描圓柱體動態(tài)地掃描整個(gè)監(jiān)測區(qū)域。通過計(jì)算每次掃描區(qū)域的對數(shù)廣義似然比(Log Likelihood Ratio,LLR),可以得出掃描區(qū)域的異常程度。此時(shí),通過蒙特卡羅法對掃描區(qū)域進(jìn)行數(shù)據(jù)重排,來統(tǒng)計(jì)學(xué)檢驗(yàn)掃描的異常區(qū)域,判斷其異常程度是否在合理范圍。實(shí)際上,采用蒙特卡羅重排方法,可以近似對異常點(diǎn)進(jìn)行評估[3-4]。
綜上所述,在現(xiàn)有的基于前瞻性時(shí)空掃描模型中,沒有針對數(shù)據(jù)重排方法進(jìn)行研究,使用的都是由Kulldorff M在SatScan[4]中提出的重排模型。本文評估異常區(qū)域時(shí),在重排過程中,將采用全隨機(jī)重排和關(guān)聯(lián)重排兩種不同方法進(jìn)行數(shù)據(jù)處理,從而得到不同的數(shù)據(jù)結(jié)果。通過使用不同的蒙特卡羅重排掃描的方法,研究和比對其對異常區(qū)域的評估所產(chǎn)生的具體影響,并通過實(shí)驗(yàn)數(shù)據(jù)結(jié)合實(shí)際情況,探尋一種應(yīng)用于前瞻性時(shí)空掃描中的不同需求的蒙特卡羅重排掃描方法。
數(shù)據(jù)源由各地區(qū)日報(bào)中新聞文本和空間距離處理后形成的數(shù)據(jù)矩陣組成。新聞文本數(shù)據(jù)時(shí)空矩陣是分布于地理區(qū)域范圍內(nèi)各報(bào)刊網(wǎng)點(diǎn)在一個(gè)時(shí)間范圍內(nèi)的新聞文章中包含的詞語數(shù)結(jié)果,空間距離矩陣則表述了各報(bào)紙網(wǎng)點(diǎn)之間的空間關(guān)系。每一個(gè)報(bào)紙網(wǎng)點(diǎn)都會覆蓋本地區(qū)的新聞信息,如《南京日報(bào)》《青島日報(bào)》《北京日報(bào)》等,都會發(fā)表關(guān)于本地的新聞文本信息。
圖1為全域掃描模型的整體設(shè)計(jì)流程圖,判定是否獲取到排名前三的數(shù)據(jù)后,結(jié)束整個(gè)掃描過程。
按照各地區(qū)報(bào)紙網(wǎng)點(diǎn)作為監(jiān)測點(diǎn)、使用報(bào)紙的ID號作為全區(qū)域中的區(qū)塊(z=1,…,Z)劃分,如湖北地區(qū)有《楚天都市報(bào)》《湖北日報(bào)》《三峽晚報(bào)》等。時(shí)間節(jié)點(diǎn)(d=1,…,D)可選取天、月、年,本文選取的時(shí)間節(jié)點(diǎn)以天為單位。對報(bào)紙中的每篇文章進(jìn)行特征詞提取,如“爆炸”“升溫”“沖突”等。當(dāng)選擇“爆炸”為監(jiān)測特征時(shí),由此形成文本特征詞矩陣C=[Czd],其中Czd表示報(bào)紙z某時(shí)間d所監(jiān)測的文本特征詞數(shù)量總和。在時(shí)空分析上,文本特征詞數(shù)量總和C可以通過時(shí)空矩陣各項(xiàng)求和得出,即:
圖1 掃描流程
設(shè)Cz和Cd是文本特征詞矩陣Czd分別沿列和行的累加和,稱為空間和時(shí)間上的邊緣累計(jì)和。使用空間和時(shí)間上的邊緣累計(jì)和及總文本特征詞數(shù)量來估計(jì)某區(qū)在某時(shí)間節(jié)點(diǎn)段上的期望文本特征詞數(shù)量 μzd:
并由文本特征詞數(shù)量平均值得到平均值矩陣,設(shè)為M=[μzd]。同時(shí),按照與文本特征詞數(shù)量矩陣相關(guān)聯(lián)的方法生成距離矩陣,設(shè)為L,其中由于距離的對稱性,有Lij=Lji,Lii=0,i=1,…,Z。實(shí)際中,掃描區(qū)域往往為局部范圍。當(dāng)距離不遠(yuǎn)時(shí),可采用平面近似距離算法。
掃描過程設(shè)為一個(gè)圓柱體A的移動過程,設(shè)圓柱體掃描模型A的底面圓心為掃描區(qū)域中的一個(gè)報(bào)紙網(wǎng)點(diǎn)ZA,半徑為RA,圓柱體的高表示時(shí)間范圍,則每一次掃描對于指定的ZA,需遍歷所有z=1,…,Z,選出滿足LzA,z<RA的報(bào)紙網(wǎng)點(diǎn)。圓柱體掃描模型A中的時(shí)空文本特征數(shù)設(shè)為,圓柱體內(nèi)的文本特征數(shù)量期望值設(shè)為。假定一個(gè)報(bào)紙網(wǎng)點(diǎn)所在區(qū)域中的所有新聞信息是相互獨(dú)立的,則單位時(shí)段上,在半徑為RA范圍圓形內(nèi)的報(bào)紙網(wǎng)點(diǎn)中的文本特征詞數(shù)量服從泊松分布。通過判斷數(shù)據(jù)向量中的各數(shù)值服從泊松分布的程度,識別特征詞發(fā)生的獨(dú)立性程度。對于局部區(qū)域A內(nèi),使用廣義辨識似然比[5-6]檢驗(yàn)泊松分布:
廣義辨識似然比在實(shí)際計(jì)算中常常使用對數(shù)化的結(jié)果,稱為對數(shù)廣義似然比(LGLR):
圖2為窗口范圍內(nèi)期望數(shù)為10例,全域總數(shù)分別為50、200和2 000時(shí),窗口內(nèi)實(shí)際監(jiān)測文本特征數(shù)量從1到30變化時(shí)相應(yīng)的對數(shù)似然比曲線。由圖1可知,全域總數(shù)對對數(shù)似然比曲線有影響,但變化不大。隨著全域的擴(kuò)大,局部窗口上相同實(shí)際監(jiān)測文本特征數(shù)量一定時(shí),其對數(shù)似然比有所減小。當(dāng)實(shí)發(fā)數(shù)等于期望數(shù)時(shí),對數(shù)似然比為0(見圖2,CA=μA=10)。所以,若只需對數(shù)似然比反映實(shí)發(fā)數(shù)的上偏情況,則要對似然比的計(jì)算作分段考慮,忽略實(shí)際文本特征數(shù)小于期望文本特征數(shù)的情況。
圖2 似然比影響趨勢
雖然用對數(shù)似然比可以初步判識聚焦的可能性,但是對數(shù)似然比還與數(shù)據(jù)的統(tǒng)計(jì)分布特征有關(guān)。依據(jù)統(tǒng)計(jì)學(xué)對顯著性的定義,需要使用事件發(fā)生的概率估計(jì)來表述,即一個(gè)小概率事件如果發(fā)生了,則這個(gè)事件就被認(rèn)為是顯著的。由于不能夠通過對數(shù)廣義似然比直接計(jì)算此疑似點(diǎn)SOP(Suspected Outburst Point)的概率估計(jì),所以通過蒙特卡羅隨機(jī)方法對原文本特征矩陣重排后再進(jìn)行掃描,計(jì)算相應(yīng)的對數(shù)似然比下的概率估計(jì)值P。P可以通過原始掃描的疑似暴發(fā)點(diǎn)的對數(shù)廣義似然比在重排掃描后得到的大量重排疑似暴發(fā)點(diǎn)中的排序得到,其中Csop為原始掃描出的疑似暴發(fā)點(diǎn)的排名,Cre_all為全部重排疑似暴發(fā)點(diǎn)的總量。
重排方式分為兩種:全隨機(jī)重排和關(guān)聯(lián)重排。全隨機(jī)重排的物理意義在于,每一個(gè)監(jiān)測點(diǎn)所發(fā)布的新聞數(shù)據(jù)只與自己有關(guān),每一個(gè)時(shí)間節(jié)點(diǎn)上的數(shù)據(jù)具有獨(dú)立性,重排過程中可隨意打亂,每一個(gè)監(jiān)測點(diǎn)打亂順序不同。關(guān)聯(lián)重排的物理意義在于,每一個(gè)監(jiān)測點(diǎn)發(fā)布的新聞數(shù)據(jù)與其他監(jiān)測點(diǎn)相關(guān)聯(lián),在時(shí)間節(jié)點(diǎn)上的數(shù)據(jù)與其他監(jiān)測點(diǎn)具有關(guān)聯(lián)性,在一次重排過程中具有相同的隨機(jī)性。
圖3為全隨機(jī)重排流程圖,對原監(jiān)測文本特征詞數(shù)量矩陣進(jìn)行隨機(jī)重排,提取每一個(gè)監(jiān)測點(diǎn)所代表的行矩陣。為了使每一次的重排方法的起始規(guī)則相同,給定一個(gè)初始隨機(jī)種子randseed,并獲取初始隨機(jī)種子,以隨機(jī)種子為基礎(chǔ),產(chǎn)生一個(gè)(0~N)范圍內(nèi)的隨機(jī)整數(shù)。本文選取0~10 000范圍內(nèi)的隨機(jī)整數(shù),此時(shí)隨機(jī)數(shù)的產(chǎn)生概率為0.000 1。按照時(shí)間節(jié)點(diǎn)范圍Tmin~Tmax確定縮放比例,以保證每一次獲取到的隨機(jī)數(shù)都不會隨著重排過程而衰減。按照縮放后的隨機(jī)數(shù),抽取行矩陣中對應(yīng)時(shí)間節(jié)點(diǎn)上的監(jiān)測文本特征詞數(shù)量放置于末位,并以當(dāng)前產(chǎn)生的隨機(jī)數(shù)修改初始隨機(jī)種子,作為下一次重排的初始隨機(jī)種子。此物理意義在于,認(rèn)為每一個(gè)監(jiān)測點(diǎn)的每一個(gè)時(shí)間節(jié)點(diǎn)上的文本特征詞數(shù)量都是沒有關(guān)系的,即No.1報(bào)紙網(wǎng)點(diǎn)在某一天的監(jiān)測文本特征詞數(shù)量與其他報(bào)紙網(wǎng)點(diǎn)沒有關(guān)聯(lián)。每一次行矩陣的重排方法都是由不同的隨機(jī)種子所決定。
圖3 全隨機(jī)重排流程
2.2.1 疑似點(diǎn)同半徑掃描
在完成對所有行矩陣S=[Cz]的隨機(jī)重排后,得到新的監(jiān)測文本特征詞匯量矩陣C=[Czd]。對新的監(jiān)測文本特征詞數(shù)量矩陣按照時(shí)空掃描模型進(jìn)行掃描,掃描過程中考慮疑似聚集點(diǎn)SOP的同半徑R情況下的掃描,即所有的掃描都按照固定半徑進(jìn)行。它的物理意義在于,判斷相同掃描面積下,不同區(qū)域中暴發(fā)的估計(jì)值。
2.2.2 全域重復(fù)掃描
在完成對所有行矩陣S=[Cz]的隨機(jī)重排后,得到新的監(jiān)測文本特征詞數(shù)量矩陣Cre=[Czd]。對新的矩陣按照時(shí)空掃描模型進(jìn)行掃描,掃描過程中使用第一次掃描原始監(jiān)測文本特征詞數(shù)量矩陣的參數(shù),變換圓心、半徑、時(shí)間節(jié)點(diǎn)進(jìn)行掃描。
圖4為關(guān)聯(lián)重排流程圖。關(guān)聯(lián)重排的方法,即認(rèn)為在此區(qū)域內(nèi)的所有報(bào)紙中的監(jiān)測文本特征詞數(shù)量是相互關(guān)聯(lián)的,每一個(gè)時(shí)間節(jié)點(diǎn)上的文章都是相互作用、相互影響的。在重排每一個(gè)行矩陣時(shí),將使用相同的隨機(jī)種子,即整個(gè)監(jiān)測文本特征詞數(shù)量矩陣C=[Czd]的重排按照每一列的方法同時(shí)移動。提取每一個(gè)報(bào)紙編號所代表的行矩陣,為了使每一次的重排方法的起始規(guī)則相同,給定一個(gè)初始隨機(jī)種子randseed,并獲取初始隨機(jī)種子。以隨機(jī)種子為基礎(chǔ),產(chǎn)生一個(gè)0~10 000范圍內(nèi)的隨機(jī)整數(shù),此時(shí)隨機(jī)數(shù)的產(chǎn)生概率為0.000 1。按照時(shí)間節(jié)點(diǎn)范圍Tmin~Tmax確定縮放比例,即監(jiān)測文本特征詞數(shù)量矩陣的列數(shù),以保證每一次獲取到的隨機(jī)數(shù)都不會隨著重排過程而衰減。按照縮放后的隨機(jī)數(shù),抽取行矩陣中的對應(yīng)時(shí)間節(jié)點(diǎn)上的監(jiān)測文本特征詞數(shù)量,并放置于末位。下一次行矩陣重排時(shí),使用與上一重排相同的隨機(jī)種子。在所有的行矩陣掃描完成后,得到新的文本特征矩陣Czd。按照兩種不同的掃描方法得到重排掃描后的最大疑似暴發(fā)點(diǎn)SOP。使用此種方法,直至循環(huán)重排N次,本文循環(huán)999次結(jié)束。使用與全隨機(jī)重排相同的方法,以同半徑和全域兩種方式進(jìn)行掃描。
表1 紐約數(shù)據(jù)掃描對比
圖4 關(guān)聯(lián)重排流程
使用SatScan中提供的紐約市2001年11月01日至24日的數(shù)據(jù)作為真實(shí)數(shù)據(jù)源,采用上述模型進(jìn)行掃描驗(yàn)證,實(shí)驗(yàn)數(shù)據(jù)對比如表1所示。
表1中,行代表不同重排掃描的評估值,列代表不同重排掃描方法,表中數(shù)據(jù)為排序前三的疑似點(diǎn)。三個(gè)疑似暴發(fā)點(diǎn)相同,所有掃描圓心、半徑、掃描范圍全部一致,對數(shù)廣義似然比分別為3.845、3.164、2.137。由表1可以對比發(fā)現(xiàn),提取掃描結(jié)果中排名前三的疑似暴發(fā)點(diǎn)進(jìn)行對比,實(shí)驗(yàn)共進(jìn)行了7次不同方法的掃描。在使用相同的紐約數(shù)據(jù)情況下,掃描到的最大疑似暴發(fā)點(diǎn)SOP參數(shù)相同。表1中列舉了不同重排掃描方法下疑似暴發(fā)點(diǎn)的評估值P。在相同的掃描、重排方法下,重排掃描99次與999次實(shí)際相差不大。掃描復(fù)雜度上升了10倍的情況下,只提升了少量精度。所以,在大量的區(qū)域掃描重排中,可進(jìn)行99次重排掃描,減少重排次數(shù),提高效率。
橫向?qū)Ρ炔煌瑨呙柚嘏欧椒ㄏ碌脑u估值P可以發(fā)現(xiàn),全隨機(jī)重排的敏感性更高。同時(shí),在相同的重排模式下,同半徑掃描要比全域掃描敏感性高。
使用隨機(jī)泊松數(shù)據(jù)[7]進(jìn)行驗(yàn)證,隨機(jī)生成服從泊松分布的隨機(jī)數(shù),當(dāng)作每一個(gè)時(shí)間節(jié)點(diǎn)上的特征詞數(shù),均值選擇λ=20,并隨機(jī)播撒到原矩陣中,修改原始數(shù)據(jù)源,形成服從泊松分布的模擬矩陣。對模擬數(shù)據(jù)進(jìn)行不同方法的重排掃描,實(shí)驗(yàn)數(shù)據(jù)對比如表2所示。
表2 泊松數(shù)據(jù)掃描對比
表2中,行代表不同重排掃描的評估值,列代表不同重排掃描方法,表中數(shù)據(jù)為排序前四的疑似點(diǎn)。四個(gè)疑似暴發(fā)點(diǎn)相同,所有掃描圓心、半徑、掃描范圍全部一致,對數(shù)廣義似然比分別為4.805、4.523、4.307、4.235。由表2數(shù)據(jù)對比可以發(fā)現(xiàn),在泊松模擬數(shù)據(jù)源下,同半徑的掃描結(jié)果敏感性更高,同時(shí)關(guān)聯(lián)重排掃描結(jié)果與全隨機(jī)重排掃描結(jié)果大致相同。在全域掃描方法下,對于同樣的數(shù)據(jù)源,其敏感程度較低,表現(xiàn)為疑似暴發(fā)點(diǎn)的估計(jì)值P增長。與紐約數(shù)據(jù)實(shí)驗(yàn)結(jié)果相同,在同半徑掃描方法下,簡化掃描復(fù)雜度的情況下,提高了敏感性。
在基于前瞻性時(shí)空掃描統(tǒng)計(jì)量的重排掃描中,同半徑的掃描方法要大于全域的掃描方法。由于掃描半徑的限定,在重排掃描過程中,可以在大量重排實(shí)驗(yàn)中更加快速地專項(xiàng)比對疑似暴發(fā)點(diǎn)SOP的評估值P。同時(shí),在某些比較敏感的地區(qū)如國家邊境地區(qū),需要實(shí)施數(shù)據(jù)處理。掃描量較大時(shí),可以通過非關(guān)聯(lián)性的同半徑重排方法進(jìn)行掃描,以提高對疑似暴發(fā)點(diǎn)的敏感性,使其適應(yīng)高靈敏度的需要。在非人口聚集區(qū)或掃描量不大的區(qū)域,不需要過于敏感時(shí),可使用非關(guān)聯(lián)性全域重排的方法對此區(qū)域進(jìn)行掃描,適當(dāng)降低靈敏度,達(dá)到早期預(yù)警、快速發(fā)現(xiàn)的需要。