石拓,魏新蕾,邵旭芬
(1.中國傳媒大學(xué)信息工程學(xué)院,北京 100024;2. 浙江省樂清中學(xué),樂清325600)
基于ID3—SMOTE結(jié)合算法的社會(huì)群體性事件預(yù)警模型
石拓1,魏新蕾1,邵旭芬2
(1.中國傳媒大學(xué)信息工程學(xué)院,北京 100024;2. 浙江省樂清中學(xué),樂清325600)
當(dāng)前國內(nèi)群體性事件表現(xiàn)出組織化、復(fù)雜化、政治化、暴力化的特征,嚴(yán)重影響了社會(huì)的和諧穩(wěn)定。通過科學(xué)手段預(yù)測群體性事件是預(yù)防其發(fā)生的有效途徑。在以往的群體性事件預(yù)警方法中,主要都是通過定性分析或簡單的定量分析方法實(shí)現(xiàn)預(yù)測,相對(duì)缺乏科學(xué)可靠的數(shù)據(jù)事實(shí)作為支撐。文中筆者通過內(nèi)部單位獲取到近年來發(fā)生在我國境內(nèi)的群體性事件的相關(guān)數(shù)據(jù),創(chuàng)新性地將機(jī)器學(xué)習(xí)的思路引入群體性事件預(yù)警領(lǐng)域,顛覆了針對(duì)群體性事件的傳統(tǒng)分析方法。從社會(huì)科學(xué)和自然科學(xué)的雙重視角出發(fā),我們利用機(jī)器學(xué)習(xí)技術(shù)科學(xué)預(yù)測群體性事件。這對(duì)政府在處置群體性事件過程中科學(xué)決策、有效預(yù)防和快速反應(yīng)具有重要指導(dǎo)意義。
群體性事件;分類;決策樹;ID3;SMOTE
近年來,我國境內(nèi)群體性事件時(shí)有發(fā)生,事件發(fā)生數(shù)量和參與人數(shù)都在不斷攀升,且一旦事發(fā),事件規(guī)模迅速擴(kuò)大。如去年發(fā)生的泛亞事件、e租寶事件都引發(fā)了大規(guī)模涉事群體的上訪請?jiān)浮n愃剖录婕暗娜藛T數(shù)量較多,潛在的危害性也大大加強(qiáng)。稍不留意就可能造成社會(huì)治安不穩(wěn)定、引發(fā)公共安全事件、發(fā)生違法犯罪行為、造成嚴(yán)重后果和損失。如今隨著改革的不斷深化、經(jīng)濟(jì)不斷增長,各類社會(huì)矛盾更是日益凸顯且不斷加劇。為此,建立切實(shí)可行的群體性事件預(yù)警機(jī)制,運(yùn)用現(xiàn)代化科技手段,對(duì)該類事件及時(shí)準(zhǔn)確地預(yù)測、預(yù)判、預(yù)報(bào),盡快盡早地做好預(yù)防和處置工作十分必要。當(dāng)今時(shí)代,大數(shù)據(jù)技術(shù)方興未艾,尤其是機(jī)器學(xué)習(xí)技術(shù)高速發(fā)展,為各個(gè)領(lǐng)域的科學(xué)預(yù)測和先期預(yù)警帶來了新的契機(jī)。機(jī)器學(xué)習(xí)通過利用計(jì)算機(jī)模擬實(shí)現(xiàn)人類的學(xué)習(xí)行為,不斷獲取新的知識(shí)技能,并不斷組織知識(shí)結(jié)構(gòu),實(shí)現(xiàn)了各行各業(yè)的“人工智能化”,尤其是針對(duì)互聯(lián)網(wǎng)行業(yè)的發(fā)展起到巨大推動(dòng)作用。然而,機(jī)器學(xué)習(xí)的科學(xué)能力在我國的公共安全領(lǐng)域卻并沒有得到充分應(yīng)用,在群體性事件的預(yù)警領(lǐng)域更是寥寥無幾,相關(guān)的文獻(xiàn)也是十分罕見。筆者想通過此文將機(jī)器學(xué)習(xí)技術(shù)引入群體性事件分析,為后續(xù)類似研究開辟道路,提供方法和思路。
關(guān)于群體性事件預(yù)警機(jī)制研究的相關(guān)文獻(xiàn)數(shù)量很多,但大多數(shù)文獻(xiàn)都集中于研究群體性事件預(yù)警機(jī)制體制建設(shè)和相關(guān)指標(biāo)構(gòu)建領(lǐng)域。如余光輝等人撰寫的《我國環(huán)境群體性事件預(yù)警指標(biāo)體系及預(yù)警模型研究》[1]、吳竹撰寫的《群體性事件預(yù)警機(jī)制研究》[2]等文章都是在分析社會(huì)系統(tǒng)穩(wěn)定因素及社會(huì)評(píng)價(jià)指標(biāo)體系的基礎(chǔ)上,運(yùn)用管理學(xué)定性、定量及定時(shí)等研究方法,對(duì)群體性事件的預(yù)警指標(biāo)體系及群體性事件預(yù)警預(yù)測管理系統(tǒng)模式展開討論,并提供群體性事件預(yù)警預(yù)測管理體系運(yùn)行影響因素分析和執(zhí)行效果評(píng)估方法。顯有的幾篇如胡詩妍撰寫的《群體性事件風(fēng)險(xiǎn)定量預(yù)測》[3]從數(shù)據(jù)的角度出發(fā),利用數(shù)據(jù)的統(tǒng)計(jì)分析方法,結(jié)合應(yīng)用德爾菲法(Delphi)、層次分析法(AHP)、經(jīng)驗(yàn)統(tǒng)計(jì)分析等定量化分析方法,提出了一些關(guān)于群體性事件風(fēng)險(xiǎn)的定量化評(píng)估方法。辛越等人撰寫的《基于灰色分析的群體性事件情報(bào)預(yù)警》[4]利用灰色預(yù)測理論提出了一種基于灰色理論的群體性事件分析模型構(gòu)想。
總體來說,關(guān)于群體性事件預(yù)警分析的研究大多聚焦于社會(huì)科學(xué)層面的理論研究,而針對(duì)基于機(jī)器學(xué)習(xí)技術(shù)的群體性事件分析和預(yù)警的研究難覓蹤影,甚至利用大數(shù)據(jù)相關(guān)分析技術(shù)的群體性事件預(yù)警文獻(xiàn)也是十分罕見??梢?,目前將機(jī)器學(xué)習(xí)技術(shù)引入群體性事件分析預(yù)測還是相對(duì)空缺的,缺乏比較成熟的方法和科學(xué)模型及實(shí)踐嘗試。
2.1 數(shù)據(jù)準(zhǔn)備
本文中所用數(shù)據(jù)是內(nèi)部單位提供的近年來發(fā)生在我國境內(nèi)的部分群體性事件,數(shù)據(jù)主要包含2000-2013年的比較有代表性的事件。數(shù)據(jù)包含群體性事件發(fā)生的時(shí)間、區(qū)域(省份)、事件持續(xù)時(shí)間、社會(huì)關(guān)系定位、參與主體、訴求目的、事件表現(xiàn)形式、事件規(guī)模、危害程度、媒體影響共10個(gè)屬性特征。
為建立科學(xué)的數(shù)學(xué)模型對(duì)群體性事件進(jìn)行科學(xué)預(yù)測,本文首先對(duì)上述共971條數(shù)據(jù)進(jìn)行清洗:
1、解析文本文件:由于該數(shù)據(jù)的多數(shù)屬性特征是以文本形式呈現(xiàn)的,只有時(shí)間相關(guān)屬性是通過數(shù)字符號(hào)形式展現(xiàn)的,為了實(shí)現(xiàn)后續(xù)模型計(jì)算,首先利用Python編程對(duì)文本文件進(jìn)行了解析,將每條樣本數(shù)據(jù)的各項(xiàng)特征用向量的形式描述。通過篩選過濾,最終選擇省份、月份、社會(huì)關(guān)系、參與主體、述求目的、事件規(guī)模、表現(xiàn)形式作為群體性事件的特征。
2、數(shù)據(jù)處理:筆者根據(jù)數(shù)據(jù)整體情況,將相關(guān)信息缺失較為嚴(yán)重的60條數(shù)據(jù)進(jìn)行刪除,由于所占比例較小,不會(huì)對(duì)整體數(shù)據(jù)分析結(jié)果產(chǎn)生較大影響;又對(duì)個(gè)別樣本的個(gè)別缺失特征取值進(jìn)行了插值,以滿足后續(xù)分類模型要求。
3、數(shù)據(jù)特征劃分:該類數(shù)據(jù)中的幾個(gè)特征需要預(yù)先標(biāo)注分類等級(jí),便于后續(xù)挖掘數(shù)據(jù)關(guān)聯(lián)性和類別預(yù)測。我們把地區(qū)、月份、社會(huì)關(guān)系、參與主體、訴求目的、事件規(guī)模、表現(xiàn)形式作為群體性事件的特征節(jié)點(diǎn)逐個(gè)進(jìn)行劃分和統(tǒng)計(jì),結(jié)果如表1-表7 所示:
表1 群體性事件發(fā)生省份及頻數(shù)統(tǒng)計(jì)
表2 群體性事件發(fā)生月份及頻數(shù)統(tǒng)計(jì)
此外,根據(jù)矛盾沖突本文描述將沖突焦點(diǎn)類型進(jìn)行了歸類,主要?jiǎng)澐譃椋赫悺⑸鐣?huì)類型沖突(涉及征地、拆遷、國企改制、司法、亂收費(fèi)、環(huán)境、就業(yè)等方面矛盾和沖突)、企事業(yè)機(jī)構(gòu)與利益訴求方的沖突(涉及業(yè)主與物業(yè)、醫(yī)患、教育、環(huán)境等方面的沖突和糾紛)、及除上述幾類沖突之外的其他類型沖突焦點(diǎn)。具體如表3所示:
表3 焦點(diǎn)目標(biāo)及頻數(shù)統(tǒng)計(jì)
涉及的參與主體如表4所示:
表4 參與主體及頻數(shù)統(tǒng)計(jì)
涉及群體性事件發(fā)生的訴求目的統(tǒng)計(jì)情況如表5所示:
表5 訴求目的及頻數(shù)統(tǒng)計(jì)
涉及群體性事件發(fā)生的事件規(guī)模根據(jù)參與人數(shù)進(jìn)行劃分,可分為4個(gè)等級(jí),統(tǒng)計(jì)情況如表6所示:
表6 事件規(guī)模及頻數(shù)統(tǒng)計(jì)
根據(jù)發(fā)生群體事件的表現(xiàn)形式,可以將其劃分為5類,具體統(tǒng)計(jì)情況如表7所示:
表7 事件表現(xiàn)形式及頻數(shù)統(tǒng)計(jì)
筆者又根據(jù)關(guān)注的媒體級(jí)別對(duì)群體性事件數(shù)據(jù)中的媒體影響力進(jìn)行了分級(jí)分類,分級(jí)劃分情況如表8所示:
表8 關(guān)注媒體級(jí)別及影響
根據(jù)媒體影響力劃分統(tǒng)計(jì)情況如表9所示:
表9 媒體影響力及頻數(shù)統(tǒng)計(jì)
為了最終模型的標(biāo)簽類別劃分,筆者根據(jù)中國國家標(biāo)準(zhǔn)《公共安全風(fēng)險(xiǎn)評(píng)估技術(shù)規(guī)范》[5]對(duì)數(shù)據(jù)中的安全等級(jí)和危害程度(傷亡人數(shù)、財(cái)產(chǎn)損失)進(jìn)行劃分,劃分標(biāo)準(zhǔn)如表10所示:
表10 公共安全等級(jí)和危害程度
根據(jù)上述劃分標(biāo)準(zhǔn)得到具體統(tǒng)計(jì)和劃分結(jié)果如表11所示:
表11 危害程度及頻數(shù)統(tǒng)計(jì)
2.2 模型選擇及實(shí)現(xiàn)
2.2.1 機(jī)器學(xué)習(xí)中常用的分類算法
在機(jī)器學(xué)習(xí)方法中,分類器有很多種,它們的優(yōu)劣勢不盡相同。而如何針對(duì)不同的場景選擇不同的模型算法就需要深入把握各種分類模型的特點(diǎn)。
樸素貝葉斯在機(jī)器學(xué)習(xí)的分類器中相對(duì)比較簡單,但這種方法需要滿足各個(gè)特征盡量條件獨(dú)立。如果條件獨(dú)立性假設(shè)成立,相比于其他分類判別模型,它的收斂速度更快,所以這對(duì)與小型訓(xùn)練集效果比較優(yōu)越。如果要得到簡單快捷的執(zhí)行效果,樸素貝葉斯方法比較適合。但樸素貝葉斯最大的不足之處在于如果特征之間不滿足條件獨(dú)立,甚至有很大的關(guān)聯(lián)性的情況下,分類結(jié)果就很不理想,不能學(xué)習(xí)特征之間的相互作用。
邏輯回歸是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域比較常用的分類方法,主要用于估計(jì)某種事物的可能性。就邏輯回歸本質(zhì)而言,它就是一種線性回歸,其與線性回歸的最大不同點(diǎn)就是它引入了一個(gè)sigmoid函數(shù):
(1),
目的就是要將線性回歸輸出的很大范圍的數(shù),壓縮到0和1之間。邏輯回歸的有點(diǎn)就在于它是一種軟分類,即得出的結(jié)果是一個(gè)概率值,用戶可以根據(jù)概率閾值的調(diào)整控制分。這種分類方法可用于二值分類和多值分類,最常用的場景還是二值分類。相對(duì)效果也比較理想。
決策樹是一個(gè)樹結(jié)構(gòu),其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測試,每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出,而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別[7]。使用決策樹進(jìn)行決策的過程就是從根節(jié)點(diǎn)開始,測試待分類項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果。決策樹有它特殊的優(yōu)勢:一是它可以毫無壓力地處理特征間非參數(shù)化的交互關(guān)系,無需再異常值或者數(shù)據(jù)是否線性可分得問題上做過多處理。二是處理速度快,緣于它的計(jì)算量相對(duì)較小,且容易轉(zhuǎn)化成分類規(guī)則。一般只要沿著樹根向下一直延伸到葉,沿途的分裂條件就能夠唯一確定一條分類的謂詞。 三是挖掘出的分類規(guī)則準(zhǔn)確性高且便于理解,因?yàn)闆Q策樹可以清晰的顯示哪些字段比較重要。
2.2.2 決策樹分類方法的選擇
本研究中,筆者根據(jù)群體性事件的數(shù)據(jù)情況,分析各類機(jī)器學(xué)習(xí)中常用的幾種分類方法,出于數(shù)據(jù)集的數(shù)據(jù)類型普遍是非結(jié)構(gòu)化、非參數(shù)化的形式,為了避免過多的數(shù)據(jù)處理和符號(hào)化,選擇采用決策樹方法進(jìn)行危害性后果的等級(jí)評(píng)估。此外,本研究涉及的數(shù)據(jù)體量并不很大,選擇決策樹分類方法不會(huì)影響計(jì)算效率。再而決策樹分類方法在不存在連續(xù)性的字段,也就不會(huì)出現(xiàn)預(yù)測不到結(jié)果的問題,而且該群體性事件的數(shù)據(jù)噪聲較小(空值較少),更有利于決策樹作用的發(fā)揮。
2.2.3 基于Python的ID3解決方案
為更好的劃分?jǐn)?shù)據(jù)集,筆者首先對(duì)危害程度進(jìn)行信息熵計(jì)算,得到熵之后,就可以按照獲取最大信息增益的方法開展分類。根據(jù)香農(nóng)公式:
(2)
算得數(shù)據(jù)分類劃分的信息熵H=1.3274812033811645。使用python通過利用決策樹算法對(duì)群體性事件進(jìn)行劃分,部分程序代碼如圖1所示:
圖1 基于ID3的代碼實(shí)現(xiàn)(部分)
鑒于以上方式,可以始終保持基于最好的屬性值對(duì)數(shù)據(jù)集進(jìn)行劃分,程序遞歸構(gòu)建決策樹,數(shù)據(jù)由上而下依次劃分處理,直到滿足決策樹遞歸的終止條件,即遍歷完所有劃分?jǐn)?shù)據(jù)集的屬性,或者每個(gè)分支下的所有實(shí)例都具有相同的分類,則得到下一個(gè)葉子節(jié)點(diǎn)或者終止塊。此時(shí)任何到達(dá)葉子節(jié)點(diǎn)的數(shù)據(jù)必然屬于葉子節(jié)點(diǎn)的分類。
本文對(duì)實(shí)驗(yàn)結(jié)果通過精確率(precision)、召回率(recall)及F1—score進(jìn)行模型效果評(píng)價(jià)。所謂精確率(precision)是指分類器分類正確的正樣本的個(gè)數(shù)占該分類器所有分類為正樣本個(gè)數(shù)的比例。召回率(recall)是指分類器分類正確的正樣本個(gè)數(shù)占所有的正樣本個(gè)數(shù)的比例。F1-score為精確率與召回率的調(diào)和平均值,它的值更接近于Precision與Recall中較小的值。即:
(3)
具體實(shí)驗(yàn)結(jié)果如表12所示:
表12 原始數(shù)據(jù)實(shí)驗(yàn)結(jié)果
從上述表格實(shí)驗(yàn)結(jié)果可以看出,基于決策樹分析法的群體性事件風(fēng)險(xiǎn)評(píng)估模型效果并不理想,針對(duì)風(fēng)險(xiǎn)等級(jí)A、B的預(yù)測效果比較好,無論從準(zhǔn)確率還是召回率及F1評(píng)分來說效果都比較理想。但是針對(duì)C、D、E分級(jí)結(jié)果的預(yù)測效果明顯較差,尤其是D和E分級(jí)的預(yù)測結(jié)果十分不理想,準(zhǔn)確率過低,分本無法達(dá)到預(yù)期效果,滿足預(yù)警目的。究其原因主要是因?yàn)镈、E隸屬于兩級(jí)的數(shù)據(jù)量較少,尤其對(duì)比A級(jí)的樣本數(shù)據(jù)量相差懸殊。故而導(dǎo)致了針對(duì)A級(jí)分類樣本的擬合效果好,而針對(duì)D、E兩級(jí)分類結(jié)果的擬合效果很差。下文筆者將根據(jù)這一問題對(duì)數(shù)據(jù)進(jìn)行處理,以達(dá)到正負(fù)樣本盡量均衡,預(yù)測效果盡量提升的目的。
4.1 SMOTE算法的引入
一般而言,為改善樣本不均衡帶來的預(yù)測效果不理想困境,可以從兩個(gè)方面著手解決。一是從算法的角度出發(fā),考慮不同誤分類情況代價(jià)的差異性對(duì)算法進(jìn)行優(yōu)化,使得算法在不平衡數(shù)據(jù)下也能有較好的效果。二是主要從數(shù)據(jù)的角度出發(fā),通過某種抽樣策略使得樣本數(shù)量盡量均衡。本研究中筆者主要采取第二種方案對(duì)數(shù)據(jù)進(jìn)行抽樣處理后實(shí)現(xiàn)預(yù)測效果的改善。
SMOTE全稱是Synthetic Minority Oversampling Technique,即合成少數(shù)類過采樣技術(shù),它是Chalwa[8]在2002年提出的一種是基于隨機(jī)過采樣算法的一種改進(jìn)方案,相對(duì)于隨機(jī)過采樣普遍采取簡單重復(fù)構(gòu)造數(shù)據(jù)樣本的策略來增加少數(shù)類樣本,極易產(chǎn)生模型過擬合的問題,使得訓(xùn)練模型學(xué)習(xí)到的信息過于集中而不夠泛化。
SMOTE算法的基本思想是對(duì)少數(shù)類樣本進(jìn)行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中,具體算法流程如下:
1.對(duì)于樣本數(shù)量少的那一類中每一個(gè)樣本,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到該本集中所有樣本的距離,算得它的k近鄰。
2.取過采樣根據(jù)樣倍數(shù)為n,再在上一步取到的k個(gè)近鄰樣本中選取n個(gè)樣本。
3.對(duì)于每一個(gè)隨機(jī)選出的近鄰樣本,再分別與原樣本按照如下公式
xnew=xi+rand(0,1)×(xi-xij)
(4)
,其中(j=1,2,3...,n)
構(gòu)建新的樣本。xnew上式中,表示新構(gòu)造的樣本,xi表示原有樣本,rand(0,1)表示區(qū)間(0,1)之間的一個(gè)隨機(jī)數(shù),而xij(j=1,2,3……n)則表示取到的k近鄰中的n個(gè)樣本。將這些新生成的樣本添加到原來樣本集中數(shù)據(jù)較少的那一類中就產(chǎn)生了新的均衡化的訓(xùn)練集。該方法中新生成樣本數(shù)量可有控制合成倍數(shù)來完成。SMOTE方法通過過采樣的方式有效避免了非均衡訓(xùn)練集中的過擬合及樣本失衡問題,大大提高了分類器的泛化能力。
4.2 引入SMOTE算法的實(shí)驗(yàn)數(shù)據(jù)改進(jìn)
本研究中為克服樣本失衡現(xiàn)象,主要對(duì)C、D、E三類危害等級(jí)樣本進(jìn)行合成泛化,即主要針對(duì)上述兩類數(shù)據(jù)進(jìn)行SMOTE新數(shù)據(jù)合成后再進(jìn)行基于決策樹模型的分類模擬,最終的實(shí)驗(yàn)效果如表13所示:
表13 引入SMOTE合成數(shù)據(jù)后的實(shí)驗(yàn)結(jié)果
通過引入SMOTE樣本均衡算法針對(duì)失衡樣本集效果改善較為明顯,但預(yù)測分類效果依然有繼續(xù)完善的空間,也就表明SMOTE在本研究關(guān)于群體性預(yù)警模型改進(jìn)效果較為顯著。
本文針對(duì)群體性事件的預(yù)警模型進(jìn)行探討,旨在通過機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對(duì)群體性事件危害性后果的預(yù)估評(píng)判。主要思路就是將事件危害等級(jí)作為分類標(biāo)簽,將包括發(fā)生地點(diǎn)、發(fā)生時(shí)間、媒體關(guān)注程度、涉及利益訴求等9類屬性作為自變量輸入,利用決策樹的ID3算法通過熵值最大化原則劃分?jǐn)?shù)據(jù)類別,確定最終分類結(jié)果的思維過程。但通過ID3方法作完分類的預(yù)測效果并不理想,尤其是針對(duì)樣本數(shù)量較少的C、D、E等級(jí)數(shù)據(jù)預(yù)測效果很差,無法滿足模型預(yù)期效果。筆者就在數(shù)據(jù)失衡的問題下嘗試引入SMOTE算法,實(shí)現(xiàn)針對(duì)數(shù)量較少類別的樣本進(jìn)行新樣本合成,盡可能實(shí)現(xiàn)樣本均衡。實(shí)驗(yàn)結(jié)果表明引入SMOTE算法對(duì)樣本改善效果較為明顯,預(yù)測效果有所提升,但仍沒有達(dá)到理想狀態(tài),還需進(jìn)一步對(duì)模型進(jìn)行改進(jìn)。
下一步在模型的優(yōu)化上可以換種切入角度,數(shù)據(jù)失衡導(dǎo)致模型的效果不理想問題不但可以通過引入過采樣算法進(jìn)行改進(jìn),還可以嘗試通過改進(jìn)模型算法進(jìn)行優(yōu)化,如可引入CART算法或C4.5算法做進(jìn)一步嘗試驗(yàn)證模型預(yù)測效果。
[1]余光輝,陳天然,周佩純. 我國環(huán)境群體性事件預(yù)警指標(biāo)體系及預(yù)警模型研究[J]. 情報(bào)雜志,2013,(7):13-18.
[2]吳竹. 群體性事件預(yù)警機(jī)制研究[D]. 長沙:中南大學(xué),2006.
[3]胡詩妍,隋晉光,王靖亞. 群體性事件風(fēng)險(xiǎn)定量預(yù)測預(yù)警[J].西安: 西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,42(4):548-552.
[4]辛越,于建. 基于灰色分析的群體性事件情報(bào)預(yù)警[J]. 河北公安警察職業(yè)學(xué)院學(xué)報(bào),2009,9(1):20-24.
[5]GB/T,Technical Specification of Public Safety Risk Assessment[S].http://www.doc88.com/p-385770201522.htm[OB/OL].
[6]Joachims T.SVM light Support Vector Machine[E]. 2008,6.
[7]Nahler M.Decision Tree[M].Vienna: Springer,2009.
[8]Michael A Arbib,Jean-Marc Fellous.Emotions:from brain to robot[J].Trends in Cognitive Sciences,2004,8(12).
(責(zé)任編輯:王 謙)
EarlyWarningModelofSocialGroupEventBasedon
ID3-SMOTECombinationAlgorithm
SHI Tuo1,WEI Xin-lei1,SHAO Xu-fen2
(1. Information Engineering School,Communication University of China,Beijing 100024,China;2. Zhejiang Yueqing Middle School,Yueqing 325600,China)
At present,the mass incidents in China show the characteristics of organization,complexity,politics and violence,and seriously affect the social harmony and stability. To predict mass events through scientific means is an effective way to prevent its occurrence. The past group events warning methods were mainly through qualitative analysis or simple quantitative analysis to predict the occurrence of social group events,relatively lack of scientific and reliable data facts as a support. In this paper we obtain relevant group events data occurred in China during recent years through internal units,innovatively introduce machine learning into the field of mass incidents,and get the subversion of the traditional analysis method of group events. From the dual perspectives of social science and natural science,we use machine learning technology to predict mass events scientifically. It has important guiding significance for the government in the process of dealing with mass incidents,scientific decision-making,effective prevention and rapid response.
social group event;classification;decision tree;ID3;SMOTE
TP399
A
1673-4793(2017)06-0009-07
2017-09-22
石拓(1988-),女(漢族),北京市人,中國傳媒大學(xué)博士研究生.E-mail:414496511@qq.com