曹略耕
大數(shù)據(jù)時(shí)代,海量涉警輿情數(shù)據(jù)通過(guò)虛擬(網(wǎng)絡(luò))等媒介進(jìn)行傳播。雖然涉警輿情數(shù)據(jù)以超大規(guī)模的形式出現(xiàn),但信息量卻與數(shù)據(jù)量不成比例,出現(xiàn)了“數(shù)據(jù)海量,信息缺乏”的怪圈。為解決海量涉警輿情數(shù)據(jù)的監(jiān)測(cè)與處理,就需要能夠?qū)崟r(shí)化、智能化、科學(xué)化的技術(shù)來(lái)支撐公安機(jī)關(guān)監(jiān)測(cè)涉警輿情數(shù)據(jù),在這種環(huán)境下,數(shù)據(jù)挖掘也就應(yīng)運(yùn)而生。
1.數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘,也稱(chēng)作基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn),不僅能對(duì)過(guò)去的數(shù)據(jù)進(jìn)行查詢(xún)和遍歷,并且能夠找出過(guò)去數(shù)據(jù)之間的潛在聯(lián)系。數(shù)據(jù)挖掘是在海量的、有噪聲、非結(jié)構(gòu)化的數(shù)據(jù)中通過(guò)數(shù)據(jù)算法智能、自動(dòng)地提取出隱含的、潛在的有價(jià)值的知識(shí)的過(guò)程。在涉警輿情監(jiān)測(cè)領(lǐng)域,數(shù)據(jù)挖掘就是對(duì)海量的互聯(lián)網(wǎng)的數(shù)據(jù)信息進(jìn)行“描述”,抽取出涉警輿情數(shù)據(jù),運(yùn)用算法進(jìn)行實(shí)時(shí)、智能化預(yù)測(cè)預(yù)警的過(guò)程。
2.數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘的任務(wù)分為描述、建模、預(yù)測(cè)三部分?!懊枋觥笔侵笇?duì)大數(shù)據(jù)進(jìn)行數(shù)據(jù)總結(jié),包括內(nèi)容和結(jié)構(gòu)上的特征總結(jié),并以“支持度”“可信度”“作用度”為標(biāo)準(zhǔn)對(duì)總結(jié)數(shù)據(jù)進(jìn)行初步的關(guān)聯(lián)分析,提高預(yù)測(cè)的準(zhǔn)確度和科學(xué)性。“建?!笔侵父鶕?jù)數(shù)據(jù)總結(jié)選擇合適的算法,并建立相應(yīng)的數(shù)據(jù)模型,以實(shí)現(xiàn)實(shí)時(shí)智能預(yù)測(cè)。在“描述”和“建模”任務(wù)完成之后,數(shù)據(jù)挖掘開(kāi)始實(shí)施“預(yù)測(cè)”任務(wù),這是數(shù)據(jù)挖掘的最終目的所在?!邦A(yù)測(cè)”是指根據(jù)數(shù)據(jù)“描述”的數(shù)據(jù)內(nèi)容和結(jié)構(gòu)上的特征,并以數(shù)據(jù)模型為基礎(chǔ)對(duì)未知信息進(jìn)行智能化、實(shí)時(shí)性、科學(xué)性預(yù)測(cè)?!邦A(yù)測(cè)”的主要方法包括決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、最鄰近算法、貝葉斯分類(lèi)技術(shù)等。
3.數(shù)據(jù)挖掘的理論基礎(chǔ)。數(shù)據(jù)挖掘技術(shù)的理論基礎(chǔ)在于行為學(xué)理論和社會(huì)學(xué)習(xí)理論。任何涉警輿情的發(fā)生都是符合一定規(guī)律的。涉警輿情是個(gè)體行為的綜合反映,是個(gè)體所處的外在因素和內(nèi)在因素的綜合作用之下發(fā)生的。外在因素是指社會(huì)和自然存在的,不以個(gè)體的意志為轉(zhuǎn)移的客觀環(huán)境;內(nèi)在因素是個(gè)體內(nèi)在的性格、價(jià)值觀等個(gè)性特征因素。通過(guò)警務(wù)大數(shù)據(jù)的分析,外在因素和內(nèi)在因素的規(guī)律都是可以被發(fā)現(xiàn)的,是符合社會(huì)和個(gè)體的行為因素的。因此,涉警輿情事件的發(fā)生是可以通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)其規(guī)律的,所以行為學(xué)理論涉警輿情的預(yù)測(cè)與預(yù)測(cè)的理論之一。
任何涉警輿情的產(chǎn)生都需要個(gè)體的學(xué)習(xí),不會(huì)憑空產(chǎn)生。個(gè)體通過(guò)網(wǎng)絡(luò)等媒介向社會(huì)學(xué)習(xí)大量的信息,這包括正面的積極信息,同樣也含有負(fù)面的反動(dòng)的數(shù)據(jù),個(gè)體是容易受到正面的激勵(lì),還是負(fù)面的反噬,是可以通過(guò)社會(huì)學(xué)習(xí)理論來(lái)發(fā)現(xiàn)其規(guī)律的。
1.涉警輿情的定義。涉警輿情是指與公安機(jī)關(guān)相關(guān)的輿情信息,這其中包括正向的輿情信息,即弘揚(yáng)公安機(jī)關(guān)對(duì)黨忠誠(chéng)、服務(wù)人民、執(zhí)法公正、紀(jì)律嚴(yán)明等正面輿情信息,同時(shí)也包括負(fù)向的輿情信息,即抹黑公安執(zhí)法,捏造事實(shí),扭曲真相,意圖引起社會(huì)反感的不良信息。
2.大數(shù)據(jù)時(shí)代涉警輿情的特征。大數(shù)據(jù)時(shí)代,超大規(guī)模的涉警輿情主要以分布式、非結(jié)構(gòu)化的形式存在于網(wǎng)絡(luò)等媒介中。由于網(wǎng)絡(luò)的低門(mén)檻、無(wú)序性,使得網(wǎng)絡(luò)輿情的不確定性、交互性和動(dòng)態(tài)性大大加強(qiáng),加之個(gè)體對(duì)主流輿情的“疲勞”,使得社會(huì)個(gè)體極易將涉警輿情負(fù)面化,進(jìn)行擴(kuò)大解釋?zhuān)瑢ⅰ罢摂唷睋屧诠矙C(jī)關(guān)發(fā)布前傳播,引起涉警輿情的擴(kuò)大化。
從我國(guó)公安機(jī)關(guān)性質(zhì)來(lái)看,由于公安機(jī)關(guān)大多是追求社會(huì)效益,功效往往不能在短期內(nèi)顯現(xiàn),加之社會(huì)效益表現(xiàn)力弱等特點(diǎn),使涉警負(fù)面輿情層出不窮,影響力日益加大。因此,加大對(duì)涉警輿情監(jiān)測(cè)與預(yù)警,及早發(fā)現(xiàn),及時(shí)預(yù)警,是降低涉警負(fù)面信息重要手段之一。
在涉警輿情數(shù)據(jù)準(zhǔn)備階段,通過(guò)大數(shù)據(jù)采集技術(shù)智能化,實(shí)時(shí)采集涉警輿情數(shù)據(jù),傳輸?shù)焦参锫?lián)網(wǎng),儲(chǔ)存在相應(yīng)的警務(wù)數(shù)據(jù)庫(kù)。在涉警輿情數(shù)據(jù)清理與集成階段,通過(guò)對(duì)涉警輿情數(shù)據(jù)內(nèi)容和結(jié)構(gòu)的“描述”,將“描述”后的數(shù)據(jù)進(jìn)行“聚類(lèi)”處理,即將具有較高相似度的數(shù)據(jù)“聚類(lèi)”,不同類(lèi)之間具有較高的相異性。將集成后的數(shù)據(jù)傳輸?shù)健皵?shù)據(jù)倉(cāng)庫(kù)”中。在涉警輿情數(shù)據(jù)選擇與交換階段,對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,選擇與涉警負(fù)面輿情有關(guān)的數(shù)據(jù),并轉(zhuǎn)化成適合數(shù)據(jù)挖掘的數(shù)據(jù)類(lèi)型。在數(shù)據(jù)挖掘階段,利用建立的數(shù)據(jù)模型,通過(guò)關(guān)聯(lián)分析、級(jí)別分析、聚類(lèi)和傾向性分析,對(duì)數(shù)據(jù)潛在的、有價(jià)值的涉警輿情規(guī)律進(jìn)行挖掘,智能分析提取涉警輿情數(shù)據(jù)模式,為進(jìn)一步預(yù)測(cè)預(yù)警提供支撐。在評(píng)估與表示階段,一方面,將數(shù)據(jù)挖掘階段形成的數(shù)據(jù)模式進(jìn)行“表示”形成“知識(shí)”,提供預(yù)測(cè)預(yù)警數(shù)據(jù);另一方面,對(duì)數(shù)據(jù)模式進(jìn)行評(píng)估處理,將評(píng)估結(jié)果反饋到清理與集成、選擇與交換、數(shù)據(jù)挖掘階段,形成“閉環(huán)”,保障“知識(shí)”的科學(xué)性與智能化。涉警輿情的數(shù)據(jù)應(yīng)用集成是數(shù)據(jù)挖掘的最后階段,也是最終目的,即在于提供預(yù)測(cè)結(jié)果及預(yù)警模型,為公安機(jī)關(guān)掌握涉警輿論主動(dòng)性提供保障。
數(shù)據(jù)挖掘并不是一蹴而就,而是一個(gè)反復(fù)的過(guò)程。在評(píng)估與表示階段,會(huì)將數(shù)據(jù)進(jìn)行反饋,反饋之前的每一個(gè)階段。同時(shí),如果某一個(gè)階段的數(shù)據(jù)處理沒(méi)有達(dá)到預(yù)期模式,就會(huì)返回到上一個(gè)階段,進(jìn)行反復(fù)處理,保證數(shù)據(jù)的鮮活性與科學(xué)性。
數(shù)據(jù)挖掘在涉警輿情監(jiān)測(cè)與預(yù)警中的應(yīng)用方法主要是關(guān)聯(lián)分析、級(jí)別劃分、傾向性分析與可視化表示。
1.關(guān)聯(lián)分析。通過(guò)“偏差分析”發(fā)現(xiàn)異常數(shù)據(jù),同時(shí)對(duì)涉警輿情的異常數(shù)據(jù)表征參數(shù)進(jìn)行分析處理,發(fā)現(xiàn)涉警輿情中潛在的關(guān)聯(lián)規(guī)則,并以“支持度”“可信度”“作用度”為參數(shù)量化涉警輿情的關(guān)聯(lián)性。
2.級(jí)別劃分。根據(jù)涉警輿情的影響力、性質(zhì)等指標(biāo),以及“聚類(lèi)”分析的“簇”的類(lèi)別對(duì)涉警輿情事件進(jìn)行級(jí)別劃分,針對(duì)不同的涉警輿情級(jí)別實(shí)施相對(duì)應(yīng)的預(yù)警方案。
3.傾向性分析與可視化表示。通過(guò)序列模式挖掘技術(shù)、情感分析、主題分析等數(shù)據(jù)挖掘技術(shù)深度挖掘涉警輿情的內(nèi)在聯(lián)系和演變趨勢(shì),得出傾向性分析意見(jiàn),并以可視化界面的形式“表示”在公安機(jī)關(guān)視域下,為公安機(jī)關(guān)實(shí)時(shí)把握涉警輿情發(fā)展變化趨勢(shì)及預(yù)警提供支撐。
傳統(tǒng)技術(shù)就像一艘老舊的航船,無(wú)法在大數(shù)據(jù)的海洋中高效挖掘捕撈有價(jià)值的物產(chǎn),并隨時(shí)都有傾覆的危險(xiǎn)。數(shù)據(jù)挖掘技術(shù)使涉警輿情數(shù)據(jù)分析處理環(huán)節(jié)更加智能化、實(shí)時(shí)化。傳統(tǒng)的數(shù)據(jù)分析往往依托人工輸入公安信息網(wǎng)進(jìn)行比對(duì)分析處理,這不僅耗費(fèi)大量的人力資源,而且也會(huì)使數(shù)據(jù)更新不及時(shí),極大限制了公安機(jī)關(guān)處理涉警輿情事件的能力。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘技術(shù)可以支持對(duì)海量涉警輿情潛在信息的發(fā)現(xiàn)與挖掘,找到涉警輿情信息間存在的關(guān)系或規(guī)律,根據(jù)現(xiàn)有的輿情預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),這不僅在縱向上極大地挖掘了數(shù)據(jù),而且也緩解警力不足的壓力,保證數(shù)據(jù)的實(shí)時(shí)性與準(zhǔn)確性,實(shí)現(xiàn)智能化預(yù)測(cè)預(yù)警。
數(shù)據(jù)挖掘技術(shù)可以在縱向上挖掘“數(shù)據(jù)”,相較于傳統(tǒng)的數(shù)據(jù)分析技術(shù),更能實(shí)現(xiàn)公安機(jī)關(guān)對(duì)涉警輿情的預(yù)測(cè)預(yù)警。大數(shù)據(jù)時(shí)代社會(huì)人流、物流、信息流的動(dòng)態(tài)化,新型“網(wǎng)絡(luò)水軍”的產(chǎn)生,以及跨地區(qū)、跨國(guó)家的遠(yuǎn)程操控等給公安機(jī)關(guān)打擊違法炒作“涉警輿情”增加難度。公安機(jī)關(guān)通過(guò)大數(shù)據(jù)采集技術(shù)采集海量的涉警輿情數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)智能預(yù)測(cè)涉警負(fù)面輿情。數(shù)據(jù)挖掘技術(shù)提高了公安機(jī)關(guān)處理涉警輿情事件的效率,使公安機(jī)關(guān)處理涉警輿情事件由依靠傳統(tǒng)的人海數(shù)據(jù)分析處理轉(zhuǎn)變?yōu)閿?shù)據(jù)挖掘技術(shù)引領(lǐng),實(shí)現(xiàn)及時(shí)預(yù)測(cè)預(yù)警涉警輿情,提高公安機(jī)關(guān)實(shí)戰(zhàn)化水平。相較于傳統(tǒng)的OLAP等在線(xiàn)分析處理技術(shù)而言,數(shù)據(jù)挖掘技術(shù)具有以下4個(gè)優(yōu)勢(shì):
傳統(tǒng)的數(shù)據(jù)分析處理技術(shù)無(wú)法實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的實(shí)時(shí)分析,而數(shù)據(jù)挖掘技術(shù)可以實(shí)時(shí)、動(dòng)態(tài)搜集信息,通過(guò)對(duì)數(shù)據(jù)內(nèi)容和結(jié)構(gòu)的數(shù)據(jù)“描述”,發(fā)現(xiàn)涉警輿情數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從虛擬(網(wǎng)絡(luò))上自動(dòng)收集涉警輿情數(shù)據(jù)信息,并且隨著鏈接不斷向整個(gè)虛擬(網(wǎng)絡(luò))擴(kuò)展,不斷向更深層次挖掘數(shù)據(jù),實(shí)現(xiàn)在虛擬(網(wǎng)絡(luò))上涉警輿情數(shù)據(jù)的自動(dòng)搜集。
數(shù)據(jù)清理又可分為數(shù)據(jù)的預(yù)處理、篩選、有序化和量化處理。
1.數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是對(duì)海量的數(shù)據(jù)進(jìn)行預(yù)先梳理,將數(shù)據(jù)進(jìn)行“去噪”處理,濾除“冗余”數(shù)據(jù),提升下一環(huán)節(jié)的數(shù)據(jù)處理效率。
2.數(shù)據(jù)篩選。數(shù)據(jù)篩選是對(duì)涉警輿情數(shù)據(jù)的“再處理”,將“去噪”后的數(shù)據(jù)進(jìn)行“偏差分析”,識(shí)別數(shù)據(jù)特征明顯不同于其他的數(shù)據(jù),初步去除無(wú)價(jià)值的數(shù)據(jù),對(duì)有價(jià)值信息進(jìn)行“再選擇”。
3.數(shù)據(jù)的有序化處理。數(shù)據(jù)的有序化處理是對(duì)數(shù)據(jù)的“聚類(lèi)”處理,通過(guò)數(shù)據(jù)“描述”,將具有較高相似度的數(shù)據(jù)歸為一類(lèi),不同類(lèi)別之間的數(shù)據(jù)具有較高的相異度,即將物理或抽象的數(shù)據(jù)分成不同“簇”的過(guò)程。
4.數(shù)據(jù)的量化處理。數(shù)據(jù)的量化處理是將不具有量化特征的數(shù)據(jù)進(jìn)行量化處理,以便實(shí)現(xiàn)“量化”數(shù)據(jù)的“集體分析處理”,數(shù)據(jù)量化是數(shù)據(jù)“可視化”的基礎(chǔ)。
輿情分析是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵,分析的結(jié)果往往關(guān)系到涉警輿情準(zhǔn)確度。輿情分析可以關(guān)鍵字、傾向性觀點(diǎn)等為類(lèi)別進(jìn)行“聚類(lèi)”處理?;跀?shù)據(jù)挖掘技術(shù)的輿情分析主要有以下3點(diǎn)優(yōu)勢(shì):
1.自動(dòng)分類(lèi)和自動(dòng)聚類(lèi)。將涉警輿情分為不同的“簇”,將每一個(gè)涉警輿情“簇”看作一個(gè)輿情類(lèi),可以及時(shí)發(fā)現(xiàn)涉警敏感輿情,并“總結(jié)出”主流評(píng)論及輿情導(dǎo)向。
2.偏差分析和深度追蹤。通過(guò)偏差分析,智能化識(shí)別數(shù)據(jù)特征顯著不同于其他的數(shù)據(jù),并對(duì)其進(jìn)行追根溯源,深度追蹤數(shù)據(jù)鏈接、關(guān)鍵字等特征數(shù)據(jù)。
3.傾向性分析和預(yù)測(cè)。根據(jù)現(xiàn)有涉警輿情的發(fā)展規(guī)律,對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行科學(xué)化的實(shí)時(shí)預(yù)測(cè),形成“知識(shí)表示”。
將數(shù)據(jù)挖掘的成果以可視化的“知識(shí)”展現(xiàn)在公安機(jī)關(guān)視域下,公安機(jī)關(guān)可以對(duì)涉警輿情事件的發(fā)展趨勢(shì)進(jìn)行實(shí)時(shí)研判,掌握涉警輿情的發(fā)展規(guī)律,及時(shí)預(yù)警,降低負(fù)面影響。
隨著大數(shù)據(jù)時(shí)代的不斷推進(jìn),涉警輿情數(shù)量不斷增多。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的產(chǎn)生和采集是基礎(chǔ),數(shù)據(jù)挖掘技術(shù)是關(guān)鍵,換句話(huà)說(shuō),大數(shù)據(jù)是現(xiàn)象,核心是挖掘數(shù)據(jù)的潛在價(jià)值,數(shù)據(jù)挖掘在涉警輿情預(yù)測(cè)中具有描述、清理、評(píng)估、知識(shí)表示等優(yōu)勢(shì),可以較好地滿(mǎn)足公安機(jī)關(guān)實(shí)戰(zhàn)化需求,是公安機(jī)關(guān)及時(shí)掌握涉警輿情發(fā)展規(guī)律,實(shí)現(xiàn)智能化、科學(xué)性、實(shí)時(shí)性預(yù)測(cè)預(yù)警的重要手段。
盡管數(shù)據(jù)挖掘給涉警輿情的預(yù)測(cè)預(yù)警帶來(lái)了巨大的變革,可以基本滿(mǎn)足公安機(jī)關(guān)的實(shí)戰(zhàn)化需求,但在具體應(yīng)用過(guò)程中,數(shù)據(jù)挖掘同樣會(huì)出現(xiàn)隱私安全、預(yù)測(cè)誤判等風(fēng)險(xiǎn)問(wèn)題。隨著警務(wù)大數(shù)據(jù)和數(shù)據(jù)挖掘的不斷成熟,這些風(fēng)險(xiǎn)問(wèn)題會(huì)不斷得到克服,可以預(yù)言,數(shù)據(jù)挖掘在涉警輿情的監(jiān)測(cè)上必將扮演越來(lái)越重要的角色。