薛亞龍,劉梓濘
(1.寧夏警官職業(yè)學(xué)院現(xiàn)代偵查技戰(zhàn)法研究中心,寧夏 銀川 750021) (2.寧夏警官職業(yè)學(xué)院成人教育培訓(xùn)處,寧夏 銀川 750021)
云數(shù)據(jù)情報(bào)源呈現(xiàn)出數(shù)據(jù)拓?fù)浞植紡?fù)雜性、數(shù)據(jù)結(jié)構(gòu)異構(gòu)性以及數(shù)據(jù)記錄時(shí)間戳差異性等特征屬性,造成數(shù)據(jù)挖掘關(guān)聯(lián)聚類密度低、數(shù)據(jù)迭代運(yùn)算次數(shù)多、數(shù)據(jù)情報(bào)價(jià)值需求識(shí)別匹配率低等情報(bào)偵查問題,易使案件發(fā)生情報(bào)偵查錯(cuò)誤或者陷入情報(bào)偵查僵局。可見,選擇科學(xué)高效的數(shù)據(jù)挖掘算法已成為實(shí)現(xiàn)云數(shù)據(jù)情報(bào)偵查應(yīng)然價(jià)值的核心考量。[1]決策樹算法正是根據(jù)不同特征樣本數(shù)據(jù)的出現(xiàn)概率,在構(gòu)建決策樹基礎(chǔ)上進(jìn)行挖掘分析的一種分類決策算法。一方面,決策樹算法能夠幫助偵查人員快速地進(jìn)行云數(shù)據(jù)情報(bào)偵查平臺(tái)設(shè)計(jì)和流程模型構(gòu)建;另一方面,能夠?qū)υ茢?shù)據(jù)情報(bào)偵查進(jìn)行精確的循證預(yù)測,進(jìn)而提升對(duì)云數(shù)據(jù)情報(bào)源挖掘分析的高效性和準(zhǔn)確性。鑒于此,引入決策樹算法的云數(shù)據(jù)情報(bào)偵查研究范式,不僅是將決策樹算法廣泛應(yīng)用于社會(huì)各行業(yè)、各領(lǐng)域的必然要求,而且是云數(shù)據(jù)情報(bào)偵查方法自身變革和轉(zhuǎn)型的實(shí)然需求。
決策樹算法云數(shù)據(jù)情報(bào)偵查最為顯著的特征是將決策樹算法與云數(shù)據(jù)情報(bào)偵查進(jìn)行融合,這也是其與傳統(tǒng)云數(shù)據(jù)情報(bào)偵查的本質(zhì)區(qū)別。尤其在多源數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新時(shí)代,決策樹算法作為一種典型的分類與回歸機(jī)器學(xué)習(xí)方法,通過制定分類與回歸規(guī)則、構(gòu)建決策樹算法模型,對(duì)不同數(shù)據(jù)節(jié)點(diǎn)和數(shù)據(jù)連邊的屬性或特征進(jìn)行挖掘與分析,并采取決策樹剪枝或修剪等決策樹挖掘算法,實(shí)現(xiàn)自上而下的遞歸算法挖掘。[2]所以,決策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)用過程,不僅包含了情報(bào)價(jià)值預(yù)設(shè)、情報(bào)控制傳遞、情報(bào)挖掘應(yīng)用等特殊價(jià)值需求,還包括了制定分類與回歸規(guī)則、構(gòu)建決策樹算法模型以及決策樹剪枝或修剪算法等運(yùn)算價(jià)值優(yōu)勢。因此,在多源數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新時(shí)代應(yīng)該賦予決策樹算法云數(shù)據(jù)情報(bào)偵查新的內(nèi)涵與屬性。
決策樹算法主要依據(jù)對(duì)不同類別屬性的數(shù)據(jù)進(jìn)行挖掘、分析所構(gòu)建的關(guān)聯(lián)推理規(guī)則,采取決策樹構(gòu)造、決策樹剪枝等運(yùn)算挖掘方法,實(shí)現(xiàn)對(duì)其進(jìn)行數(shù)據(jù)解釋的應(yīng)然劃分效果。其與自然界中樹的結(jié)構(gòu)屬性存在相同或相似的現(xiàn)象,即都是從樹的根節(jié)點(diǎn)出發(fā),途經(jīng)各個(gè)子節(jié)點(diǎn)而使其被發(fā)散或劃分到不同的葉子節(jié)點(diǎn),進(jìn)而使葉子節(jié)點(diǎn)與節(jié)點(diǎn)分類能夠形成互相映射的節(jié)點(diǎn)集合。[3]同時(shí),該節(jié)點(diǎn)集合中的子集又從根節(jié)點(diǎn)出發(fā)經(jīng)過各子節(jié)點(diǎn)對(duì)不同結(jié)構(gòu)屬性的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行裂變挖掘與分析。在決策樹算法的挖掘、分析過程中,往往會(huì)受到各種冗余節(jié)點(diǎn)、重復(fù)節(jié)點(diǎn)、離群節(jié)點(diǎn)等異常節(jié)點(diǎn)的制約或影響,造成節(jié)點(diǎn)擬合等偏離決策樹算法預(yù)測效果的現(xiàn)象。[4]一般而言,主要采取后剪枝和預(yù)剪枝等算法降低節(jié)點(diǎn)擬合現(xiàn)象的出現(xiàn)概率。筆者認(rèn)為,結(jié)合決策樹算法的運(yùn)算價(jià)值優(yōu)勢和云數(shù)據(jù)情報(bào)偵查的特殊價(jià)值需求,決策樹算法云數(shù)據(jù)情報(bào)偵查的內(nèi)涵為:偵查人員依據(jù)不同云數(shù)據(jù)情報(bào)源的類別形態(tài)和結(jié)構(gòu)屬性,構(gòu)建與其具有正向同配屬性關(guān)系的樹狀決策模型,利用不同決策樹算法挖掘、分析云數(shù)據(jù)情報(bào)源與數(shù)據(jù)犯罪情勢之間隱藏的各種關(guān)聯(lián)性數(shù)理關(guān)系,實(shí)現(xiàn)決策樹算法循證引導(dǎo)云數(shù)據(jù)情報(bào)偵查預(yù)測或決策的一種新型數(shù)據(jù)情報(bào)偵查方法。
二是數(shù)據(jù)壓縮屬性。傳統(tǒng)數(shù)據(jù)情報(bào)偵查主要通過數(shù)據(jù)清洗、數(shù)據(jù)歸約、數(shù)據(jù)集成等數(shù)據(jù)處理技術(shù)完成對(duì)各種數(shù)據(jù)的壓縮,往往不同數(shù)據(jù)被壓縮在同一內(nèi)存中進(jìn)行運(yùn)算,造成數(shù)據(jù)倉庫中數(shù)據(jù)節(jié)點(diǎn)的路徑、連邊等難以被高效地挖掘和利用,嚴(yán)重制約和影響數(shù)據(jù)情報(bào)偵查的高效性。[6]然而,在決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用過程中,每一分區(qū)的云數(shù)據(jù)屬性就表示某一類關(guān)聯(lián)聚類稠密向量數(shù)據(jù)。偵查人員可利用決策樹算法的RLE編碼對(duì)各云數(shù)據(jù)進(jìn)行壓縮,并且采用云數(shù)據(jù)熵屬性方式對(duì)其進(jìn)行排序,促使被壓縮后的云數(shù)據(jù)不需要再進(jìn)行轉(zhuǎn)換和融合就能夠被使用。決策樹算法云數(shù)據(jù)情報(bào)偵查的數(shù)據(jù)壓縮性價(jià)值主要體現(xiàn)在兩個(gè)方面:一方面,當(dāng)不同類別形態(tài)和結(jié)構(gòu)屬性的云數(shù)據(jù)被反復(fù)運(yùn)算、挖掘時(shí),由于被壓縮而全面減少了所需數(shù)據(jù)倉庫構(gòu)建的場景空間區(qū)域;另一方面,利用決策樹算法對(duì)云數(shù)據(jù)進(jìn)行壓縮,可以促使每個(gè)云數(shù)據(jù)的分類標(biāo)簽和數(shù)據(jù)熵的屬性閾值之間互相映射的關(guān)系較為明確,進(jìn)而提升了對(duì)云數(shù)據(jù)進(jìn)行關(guān)聯(lián)聚類的精確度。決策樹算法云數(shù)據(jù)情報(bào)偵查的數(shù)據(jù)壓縮性不僅能夠增強(qiáng)云數(shù)據(jù)挖掘分析互相映射的正向同配屬性關(guān)系,而且能夠提升云數(shù)據(jù)情報(bào)挖掘、分析索引的準(zhǔn)確度和精確度。
三是連續(xù)離散屬性。偵查人員在對(duì)云數(shù)據(jù)中不同數(shù)據(jù)節(jié)點(diǎn)和數(shù)據(jù)連邊進(jìn)行挖掘與分析時(shí),主要依據(jù)數(shù)據(jù)增益值比對(duì)其進(jìn)行數(shù)據(jù)節(jié)點(diǎn)的分?jǐn)?shù)據(jù)子集劃分,進(jìn)而有效減少或避免在數(shù)據(jù)節(jié)點(diǎn)分裂過程中選擇偏向于數(shù)據(jù)熵屬性較多的分區(qū)的問題,使決策樹算法云數(shù)據(jù)情報(bào)偵查具有突出的連續(xù)離散屬性。偵查人員依據(jù)連續(xù)離散屬性在確定數(shù)據(jù)節(jié)點(diǎn)的邊界點(diǎn)之后,并不是立即根據(jù)不同數(shù)據(jù)節(jié)點(diǎn)的邊界點(diǎn)來運(yùn)算和挖掘數(shù)據(jù)熵的增益值比,而是先需對(duì)各個(gè)數(shù)據(jù)節(jié)點(diǎn)邊界點(diǎn)的相鄰區(qū)間展開識(shí)別和判斷。當(dāng)邊界點(diǎn)相鄰區(qū)間的判定結(jié)果符合預(yù)設(shè)的情報(bào)價(jià)值需求時(shí),偵查人員就可以從數(shù)據(jù)節(jié)點(diǎn)之間的邊界點(diǎn)區(qū)間到數(shù)據(jù)節(jié)點(diǎn)集合之間的邊界點(diǎn)區(qū)間進(jìn)行連續(xù)的識(shí)別與判定,直到所有數(shù)據(jù)節(jié)點(diǎn)或數(shù)據(jù)節(jié)點(diǎn)集合的邊界點(diǎn)區(qū)間被挖掘結(jié)束為止,然后才對(duì)數(shù)據(jù)熵的增益值比進(jìn)行離散化的挖掘和獲取。[7]決策樹算法云數(shù)據(jù)情報(bào)偵查的連續(xù)離散屬性不僅有利于提升對(duì)不同類型數(shù)據(jù)節(jié)點(diǎn)中邊界點(diǎn)挖掘的分類精確度,而且有利于提高對(duì)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行關(guān)聯(lián)聚類頻繁項(xiàng)目集合構(gòu)建的準(zhǔn)確度,從而有效降低或減少云數(shù)據(jù)情報(bào)偵查的不確定性和誤判率。
結(jié)合決策樹算法的運(yùn)算價(jià)值優(yōu)勢和云數(shù)據(jù)情報(bào)偵查的特殊價(jià)值需求,為了全面提高決策樹算法云數(shù)據(jù)情報(bào)偵查的高效性和精確性,筆者認(rèn)為,可將決策樹算法云數(shù)據(jù)情報(bào)偵查的流程模型構(gòu)建為云數(shù)據(jù)預(yù)處理、遞歸創(chuàng)建單個(gè)決策樹、實(shí)例與特征選擇策略、構(gòu)建適應(yīng)函數(shù)、算法合并多個(gè)決策樹等5個(gè)模塊。
在對(duì)云數(shù)據(jù)展開決策樹算法挖掘之前,偵查人員需要對(duì)已獲取和匯集的各種云數(shù)據(jù)進(jìn)行預(yù)處理,主要包括補(bǔ)充缺失數(shù)據(jù)、處理離群數(shù)據(jù)、數(shù)據(jù)清洗集成、數(shù)據(jù)分詞聚類等,目的是提高云數(shù)據(jù)的數(shù)據(jù)倉庫構(gòu)建質(zhì)量和技術(shù)應(yīng)用標(biāo)準(zhǔn)。具體如下:
首先是補(bǔ)充缺失數(shù)據(jù)。偵查人員在搜集云數(shù)據(jù)的過程中有時(shí)會(huì)遇到部分半結(jié)構(gòu)型數(shù)據(jù)、異構(gòu)型數(shù)據(jù)等數(shù)據(jù)缺失的現(xiàn)象,在分析和確定所缺失云數(shù)據(jù)的類別形態(tài)或結(jié)構(gòu)屬性之后,則需要采取線上線下的定向爬取、搜集技術(shù)將其補(bǔ)全。其次是處理離群數(shù)據(jù)。偵查人員在對(duì)數(shù)據(jù)倉庫中的云數(shù)據(jù)進(jìn)行運(yùn)算、挖掘時(shí)難免會(huì)遇到部分冗余數(shù)據(jù)、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)等離群數(shù)據(jù),而這些離群數(shù)據(jù)往往與關(guān)聯(lián)數(shù)理關(guān)系挖掘、數(shù)據(jù)聚類頻繁項(xiàng)目子集構(gòu)建以及數(shù)據(jù)節(jié)點(diǎn)相似度系數(shù)閾值預(yù)設(shè)等存在偏差,不符合涉嫌犯罪情勢生存與態(tài)勢發(fā)展的趨勢變化規(guī)律,往往會(huì)造成情報(bào)偵查錯(cuò)誤或陷入情報(bào)偵查僵局。因此,偵查人員需采取數(shù)據(jù)定向檢索、數(shù)據(jù)詞云關(guān)聯(lián)挖掘等技術(shù)方法及時(shí)發(fā)現(xiàn)和處理相關(guān)的離群數(shù)據(jù),消除或降低離群數(shù)據(jù)的反向異配屬性關(guān)聯(lián)影響。再次是數(shù)據(jù)清洗集成。偵查人員所搜集或獲取的云數(shù)據(jù)不僅有結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)、非結(jié)構(gòu)型數(shù)據(jù)以及異構(gòu)型數(shù)據(jù)等,還有文本型數(shù)據(jù)、數(shù)值型數(shù)據(jù)、符號(hào)型數(shù)據(jù)以及圖片型數(shù)據(jù)等,造成云數(shù)據(jù)的類別形態(tài)或結(jié)構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)格式不統(tǒng)一。[8]所以,偵查人員需要及時(shí)采取停用數(shù)據(jù)詞等技術(shù)方法對(duì)這些標(biāo)準(zhǔn)格式不統(tǒng)一的云數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗集成,進(jìn)而提高數(shù)據(jù)倉庫構(gòu)建的效率和質(zhì)量。最后是數(shù)據(jù)分詞聚類。數(shù)據(jù)分詞聚類主要是將所獲取的云數(shù)據(jù)按照數(shù)據(jù)節(jié)點(diǎn)連續(xù)的序列規(guī)則重新進(jìn)行聚類構(gòu)建合成的過程[9],其目的是幫助偵查人員快速提高構(gòu)建數(shù)據(jù)聚類頻繁項(xiàng)目子集的高效性。
生:(B組1)搶著大聲:但是,危難時(shí)刻的羚羊群的紀(jì)律性比潰敗中的軍隊(duì)的紀(jì)律要好得多。簡直是訓(xùn)練有素,在危難中保持著集體性的沉著,而老羚羊在那樣危機(jī)時(shí)刻能有這樣從容的應(yīng)對(duì)太不可思議了,就是讓我覺得假,好像是作者為教育我們故意這樣寫的。(全部同學(xué)議論紛紛,班上一片嘩然)
在構(gòu)建適應(yīng)度函數(shù)流程的條件引領(lǐng)下,偵查人員還需要通過利用交叉變異運(yùn)算將不同決策樹算法融合為多個(gè)決策樹。以C4.5算法、ID3算法為例,ID3算法主要是將云數(shù)據(jù)的訓(xùn)練樣本集經(jīng)過數(shù)據(jù)迭代算法處理之后劃分為多個(gè)數(shù)據(jù)樣本子集,且每個(gè)數(shù)據(jù)樣本子集代表不同的數(shù)據(jù)頻繁項(xiàng)目聚類集合;而C4.5算法不僅在ID3算法的基礎(chǔ)上對(duì)半結(jié)構(gòu)型數(shù)據(jù)、異構(gòu)型數(shù)據(jù)等特殊類別形態(tài)的云數(shù)據(jù)挖掘與分析得更加客觀和準(zhǔn)確,還能夠?qū)σ褎?chuàng)建的單個(gè)決策樹及時(shí)實(shí)現(xiàn)剪枝、分割的技術(shù)處理,促使對(duì)決策樹算法云數(shù)據(jù)情報(bào)偵查的預(yù)測和決策分類更加精確。因此,偵查人員應(yīng)該及時(shí)、快速地融合C4.5算法和ID3算法,并使用交叉變異的決策樹算法將不同的單個(gè)決策樹進(jìn)行融合,確保多個(gè)混合、復(fù)雜的決策樹能夠?qū)崿F(xiàn)算法挖掘、分析的互相協(xié)作,最終形成決策樹算法云數(shù)據(jù)情報(bào)偵查特有的算法流程模型。偵查人員在利用算法合并多個(gè)決策樹流程模塊構(gòu)建過程中,不但要增強(qiáng)多個(gè)不同決策樹算法之間的協(xié)作、融合能力,而且要遵循對(duì)云數(shù)據(jù)與涉嫌數(shù)據(jù)犯罪情勢之間各種潛在關(guān)聯(lián)數(shù)理關(guān)系的挖掘、分析規(guī)則,從而實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查流程模型構(gòu)建的高效性和協(xié)同性。
在決策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)用過程中,決策樹算法的選擇、云數(shù)據(jù)情報(bào)源的匯集、云數(shù)據(jù)的挖掘、情報(bào)偵查的價(jià)值需求等都對(duì)其質(zhì)量有著直接的制約和影響。同時(shí),決策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)用效果還具有突出的延遲性,造成其質(zhì)量難以用數(shù)據(jù)指標(biāo)進(jìn)行量化和衡量等定量分析。只有對(duì)決策樹算法云數(shù)據(jù)情報(bào)偵查的評(píng)價(jià)指標(biāo)體系進(jìn)行定性范式的選擇和構(gòu)建,才能夠全面提高決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的高效性和優(yōu)質(zhì)性。鑒于此,筆者認(rèn)為,決策樹算法云數(shù)據(jù)情報(bào)偵查的評(píng)價(jià)指標(biāo)體系應(yīng)該包含云數(shù)據(jù)情報(bào)源、情報(bào)偵查價(jià)值需求、云數(shù)據(jù)挖掘與分析、情報(bào)偵查成本投入、情報(bào)成果實(shí)施反饋等五個(gè)方面。
云數(shù)據(jù)情報(bào)源評(píng)價(jià)指標(biāo)是決策樹算法云數(shù)據(jù)情報(bào)偵查評(píng)價(jià)指標(biāo)體系的首要構(gòu)成要素之一,主要包括云數(shù)據(jù)情報(bào)源的準(zhǔn)確性、科學(xué)性、全面性和數(shù)量性等。第一,云數(shù)據(jù)情報(bào)源的準(zhǔn)確性。云數(shù)據(jù)情報(bào)源的準(zhǔn)確性是判斷決策樹算法云數(shù)據(jù)情報(bào)偵查預(yù)測和決策是否科學(xué)、有效的最主要依據(jù),如果云數(shù)據(jù)情報(bào)源的準(zhǔn)確性存在瑕疵或錯(cuò)誤,那么就會(huì)導(dǎo)致出現(xiàn)情報(bào)偵查錯(cuò)誤甚至陷入情報(bào)偵查僵局。所以,在獲取和匯集云數(shù)據(jù)情報(bào)源的過程中,偵查人員應(yīng)該采取數(shù)據(jù)清洗、數(shù)據(jù)歸約、數(shù)據(jù)集成等預(yù)處理技術(shù)方法,使其能夠去偽存真,從而獲取到各種真實(shí)、客觀的云數(shù)據(jù)情報(bào)源。第二,云數(shù)據(jù)情報(bào)源的科學(xué)性。云數(shù)據(jù)情報(bào)源的科學(xué)性是指已獲取、匯集的云數(shù)據(jù)情報(bào)源是否客觀準(zhǔn)確和真實(shí)有效。偵查人員要對(duì)涉案數(shù)據(jù)犯罪情勢中各種云數(shù)據(jù)情報(bào)源的產(chǎn)生與發(fā)展、演變與轉(zhuǎn)換、交叉與融合等進(jìn)行戰(zhàn)略性科學(xué)規(guī)劃,防止過于擴(kuò)大或縮小以及盲目性等。[12]所以,為了增強(qiáng)云數(shù)據(jù)情報(bào)源的科學(xué)性,偵查人員應(yīng)該對(duì)涉案云數(shù)據(jù)情報(bào)源的搜集和獲取進(jìn)行科學(xué)、合理的布局與安排,進(jìn)而提高決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的準(zhǔn)確性和精確性。第三,云數(shù)據(jù)情報(bào)源的全面性和數(shù)量性。一方面是云數(shù)據(jù)情報(bào)源的全面性。云數(shù)據(jù)情報(bào)源的全面性主要指縱向要深和橫向要廣兩個(gè)方面。只有對(duì)云數(shù)據(jù)情報(bào)源進(jìn)行全面挖掘與分析,才能夠促使決策樹算法云數(shù)據(jù)情報(bào)偵查的預(yù)測和決策更加符合情報(bào)偵查的價(jià)值需求,也更加有利于云數(shù)據(jù)情報(bào)偵查情勢的發(fā)展和修正。顯然,云數(shù)據(jù)情報(bào)源的全面性越強(qiáng),決策樹算法云數(shù)據(jù)情報(bào)偵查的實(shí)然效果就更加接近于應(yīng)然價(jià)值。另一方面是云數(shù)據(jù)情報(bào)源的數(shù)量性。云數(shù)據(jù)情報(bào)源的數(shù)量不但決定了決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的價(jià)值層次,而且制約和影響了決策樹算法云數(shù)據(jù)情報(bào)偵查的評(píng)價(jià)指標(biāo)系數(shù)。云數(shù)據(jù)情報(bào)源涉及的類別形態(tài)、結(jié)構(gòu)屬性、關(guān)聯(lián)聚類頻繁項(xiàng)目子集等越廣泛、越海量,就越能夠幫助偵查人員挖掘和獲取到與涉案數(shù)據(jù)犯罪情勢具有關(guān)聯(lián)性的更深層次的各種數(shù)理關(guān)系。
情報(bào)偵查價(jià)值需求評(píng)價(jià)指標(biāo)主要包括情報(bào)偵查價(jià)值需求的適用性、可理解性、相關(guān)性以及保密性等。首先是情報(bào)偵查價(jià)值需求的適用性。情報(bào)偵查價(jià)值需求的適用性主要指情報(bào)偵查價(jià)值需求的客觀實(shí)際性和切實(shí)合理可行性,以滿足決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的實(shí)然需求。情報(bào)偵查價(jià)值需求預(yù)設(shè)越客觀、合理、可行,就越能夠被應(yīng)用于不同的決策樹算法云數(shù)據(jù)情報(bào)偵查場景,說明該情報(bào)偵查價(jià)值需求的適用性就越強(qiáng)。其次是情報(bào)偵查價(jià)值需求的可理解性。情報(bào)偵查價(jià)值需求的可理解性主要指情報(bào)價(jià)值需求的預(yù)設(shè)閾值及其實(shí)現(xiàn)的規(guī)范化客觀條件。這不僅是決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用質(zhì)量評(píng)價(jià)指標(biāo)的重要體現(xiàn),還是實(shí)現(xiàn)其應(yīng)然價(jià)值的必然要求。就有利于云數(shù)據(jù)情報(bào)偵查情勢的發(fā)展角度而言,情報(bào)偵查價(jià)值需求的內(nèi)容越簡潔、數(shù)據(jù)越豐富、形式越多樣,就表明對(duì)其理解越充分、越深刻,進(jìn)而有助于增強(qiáng)決策樹算法云數(shù)據(jù)情報(bào)偵查價(jià)值需求預(yù)設(shè)的科學(xué)性和精確性。再次是情報(bào)偵查價(jià)值需求的相關(guān)性。情報(bào)偵查價(jià)值需求的相關(guān)性是指情報(bào)偵查價(jià)值需求與實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)然價(jià)值之間的相關(guān)程度系數(shù)。情報(bào)偵查價(jià)值需求的相關(guān)性越高,說明實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)然價(jià)值的程度就越高。最后是情報(bào)偵查價(jià)值需求的保密性。情報(bào)偵查價(jià)值需求的保密性與決策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)用價(jià)值屬于正向同配屬性關(guān)系。情報(bào)偵查價(jià)值需求的保密性越強(qiáng),說明決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的潛在價(jià)值就越大;反之,其應(yīng)用的潛在價(jià)值就越小。
云數(shù)據(jù)挖掘與分析不僅是實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)然價(jià)值的基礎(chǔ)和前提,還是其應(yīng)用準(zhǔn)確性的重要支撐。從預(yù)防和打擊數(shù)據(jù)犯罪情勢生存與態(tài)勢發(fā)展的趨勢變化規(guī)律而言,云數(shù)據(jù)挖掘與分析主要是指偵查人員利用不同決策樹算法對(duì)與涉案數(shù)據(jù)犯罪情勢之間存在的潛在隱藏的各種關(guān)聯(lián)數(shù)理關(guān)系所進(jìn)行的運(yùn)算挖掘與關(guān)聯(lián)分析。為了提升決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的價(jià)值效果,可以將云數(shù)據(jù)挖掘與分析的評(píng)價(jià)指標(biāo)具體分為以下三個(gè)方面:第一是決策樹算法的選擇。決策樹算法是一種基于分類集成的數(shù)據(jù)挖掘算法,主要依據(jù)不同類別屬性的數(shù)據(jù)節(jié)點(diǎn)裂變規(guī)則而采取相應(yīng)的決策樹構(gòu)造、決策樹剪枝等運(yùn)算挖掘分析方法。所以,偵查人員應(yīng)該依據(jù)數(shù)據(jù)節(jié)點(diǎn)裂變規(guī)則的差異性和不同決策樹算法的運(yùn)算價(jià)值優(yōu)勢而選取、確定與其相適應(yīng)或相符合的決策樹算法,進(jìn)而提升決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的精確性。第二是數(shù)據(jù)節(jié)點(diǎn)的系數(shù)閾值。數(shù)據(jù)節(jié)點(diǎn)既是多源數(shù)據(jù)構(gòu)成的最基本數(shù)據(jù)元素,也是構(gòu)建云數(shù)據(jù)聚類頻繁項(xiàng)目子集的重要組成部分。就數(shù)據(jù)節(jié)點(diǎn)被挖掘的情報(bào)價(jià)值而言,數(shù)據(jù)節(jié)點(diǎn)系數(shù)主要包括數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)距離、數(shù)據(jù)路徑以及數(shù)據(jù)連邊等系數(shù)閾值。[13]數(shù)據(jù)節(jié)點(diǎn)系數(shù)閾值的差異性會(huì)直接制約或影響數(shù)據(jù)節(jié)點(diǎn)相似度系數(shù)和共同鄰居系數(shù)的規(guī)則構(gòu)建,尤其對(duì)構(gòu)建犯罪行為與非犯罪行為的關(guān)聯(lián)聚類規(guī)則具有直接的決定性作用,從而與云數(shù)據(jù)挖掘與分析的精確程度有著重要的正向同配屬性關(guān)系。第三是關(guān)聯(lián)規(guī)則的構(gòu)建。關(guān)聯(lián)規(guī)則不僅是不同云數(shù)據(jù)之間進(jìn)行轉(zhuǎn)換和融合的銜接連邊,還是運(yùn)算和挖掘與涉案數(shù)據(jù)犯罪情勢具有潛在關(guān)聯(lián)的數(shù)理關(guān)系的重要依據(jù),更是實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查價(jià)值需求的決定性支撐和保障。因此,偵查人員應(yīng)該依據(jù)決策樹算法的價(jià)值優(yōu)勢和涉案數(shù)據(jù)犯罪情勢的發(fā)展態(tài)勢,選擇和構(gòu)建有利于實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查價(jià)值需求的關(guān)聯(lián)規(guī)則,進(jìn)而確保其對(duì)涉案不同云數(shù)據(jù)進(jìn)行挖掘與分析的客觀性。
情報(bào)偵查成本既包括偵查人員、偵查實(shí)物、偵查財(cái)力等硬成本,又包括情報(bào)偵查思維、云數(shù)據(jù)挖掘途徑、關(guān)聯(lián)聚類規(guī)則構(gòu)建、云數(shù)據(jù)倉庫構(gòu)建、決策樹算法平臺(tái)設(shè)計(jì)與建模等軟成本。任何云數(shù)據(jù)情報(bào)源的獲取、運(yùn)算、挖掘以及研判、應(yīng)用都離不開情報(bào)偵查成本的投入。就決策樹算法云數(shù)據(jù)情報(bào)偵查評(píng)價(jià)指標(biāo)體系的應(yīng)然價(jià)值而言,情報(bào)偵查的成本投入與決策樹算法云數(shù)據(jù)情報(bào)偵查的實(shí)然效果屬于反向異配屬性關(guān)系。因此,偵查人員應(yīng)該根據(jù)云數(shù)據(jù)情報(bào)源的獲取范圍、云數(shù)據(jù)倉庫構(gòu)建模型、決策樹算法的價(jià)值優(yōu)勢以及云數(shù)據(jù)挖掘關(guān)聯(lián)聚類規(guī)則構(gòu)建等關(guān)鍵性因素,確定和投入最少的情報(bào)偵查成本,從而實(shí)現(xiàn)最大的情報(bào)偵查效益。
任何有價(jià)值的云數(shù)據(jù)情報(bào)源都需要經(jīng)過偵查人員利用決策樹算法進(jìn)行運(yùn)算、挖掘之后才能夠成為決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的支撐和依據(jù)。為了檢驗(yàn)決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)然價(jià)值與實(shí)然效果之間的差異性,就必然需要對(duì)經(jīng)過挖掘、應(yīng)用的情報(bào)成果實(shí)施檢驗(yàn)、修正等反饋評(píng)價(jià)。依據(jù)決策樹算法云數(shù)據(jù)情報(bào)偵查的價(jià)值需求實(shí)現(xiàn)效果,筆者認(rèn)為,情報(bào)成果實(shí)施反饋評(píng)價(jià)指標(biāo)主要包括以下兩個(gè)方面:一個(gè)方面是云數(shù)據(jù)情報(bào)挖掘與分析價(jià)值的收益率。偵查人員獲取的情報(bào)偵查價(jià)值效益不但與云數(shù)據(jù)情報(bào)挖掘、分析具有直接的關(guān)聯(lián)關(guān)系,而且與決策樹算法的選擇、平臺(tái)設(shè)計(jì)、模型構(gòu)建等具有間接的關(guān)聯(lián)關(guān)系??梢?,在情報(bào)成果實(shí)施反饋評(píng)價(jià)過程中,偵查人員應(yīng)該首先識(shí)別和確定哪些情報(bào)偵查的價(jià)值效益是由云數(shù)據(jù)情報(bào)挖掘與分析所產(chǎn)生的,進(jìn)而幫助其計(jì)算和形成云數(shù)據(jù)情報(bào)挖掘與分析價(jià)值的收益率。另一方面是情報(bào)應(yīng)用反饋的滿意度。情報(bào)應(yīng)用反饋的滿意度是指云數(shù)據(jù)情報(bào)能夠?yàn)閭刹槿藛T執(zhí)行決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用提供情報(bào)支持的滿意度,偵查人員應(yīng)該及時(shí)對(duì)情報(bào)結(jié)果應(yīng)用進(jìn)行檢驗(yàn)、評(píng)估和修正。如果情報(bào)成果應(yīng)用符合實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)然價(jià)值,那么就說明其滿意度高;反之,說明其應(yīng)用結(jié)果發(fā)生偏差,甚至出現(xiàn)南轅北轍的現(xiàn)象,需要偵查人員對(duì)其進(jìn)行及時(shí)修正或重新閾值云數(shù)據(jù)挖掘與分析的關(guān)聯(lián)聚類規(guī)則、犯罪行為與非犯罪行為的規(guī)則模型構(gòu)建等。
在探討決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用方法的過程中,不僅需要考慮決策樹算法云數(shù)據(jù)情報(bào)偵查的內(nèi)涵與屬性、評(píng)價(jià)指標(biāo)體系以及流程模型構(gòu)建等,還需要考慮選擇不同決策樹構(gòu)造、決策樹剪枝、決策樹葉子節(jié)點(diǎn)以及決策樹增益值等相關(guān)運(yùn)算價(jià)值優(yōu)勢。因此,在多源數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新時(shí)代,應(yīng)該賦予決策樹算法云數(shù)據(jù)情報(bào)偵查新的應(yīng)用方法。一方面,這是實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)然價(jià)值的必然要求;另一方面,這是預(yù)防和打擊涉嫌數(shù)據(jù)犯罪情勢生存與態(tài)勢發(fā)展變化的實(shí)然應(yīng)對(duì)選擇,從而提高決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的準(zhǔn)確性和精確性。
AHP權(quán)重決策樹算法主要是將數(shù)據(jù)挖掘、分析的復(fù)雜問題分解為簡單問題,通過專家對(duì)不同數(shù)據(jù)迭代運(yùn)算之間的關(guān)系進(jìn)行決策樹的結(jié)構(gòu)性評(píng)估和打分,據(jù)此分析和構(gòu)建各種兩兩相關(guān)的數(shù)據(jù)挖掘矩陣,并經(jīng)過系列運(yùn)算后獲得最佳決策方案的權(quán)向量。[14]依據(jù)情報(bào)決策指令和偵查人員群決策理論的價(jià)值需求,可以將AHP權(quán)重決策樹算法具體分為以下具體步驟:
AdaBoost密度峰值決策樹算法是一種按順序進(jìn)行數(shù)據(jù)迭代運(yùn)算的分類器集合挖掘分析技術(shù),每次運(yùn)算形成一個(gè)數(shù)據(jù)分類器,直到完成預(yù)設(shè)所有的數(shù)據(jù)分類器為止。[15]在使用AdaBoost密度峰值決策樹算法過程中,每次所得的偏差或錯(cuò)誤數(shù)據(jù)樣本權(quán)重閾值都會(huì)在后續(xù)的數(shù)據(jù)分類器中得到不斷的檢驗(yàn)和修正,促使最終能夠挖掘和獲得具有互補(bǔ)屬性的強(qiáng)數(shù)據(jù)分類器,從而提高對(duì)不同云數(shù)據(jù)挖掘與分析應(yīng)用的穩(wěn)定性和客觀性。[16]結(jié)合AdaBoost密度峰值決策樹算法的突出價(jià)值優(yōu)勢和云數(shù)據(jù)情報(bào)偵查的發(fā)展趨勢,筆者認(rèn)為,可以將其具體應(yīng)用分為以下步驟:
數(shù)據(jù)節(jié)點(diǎn)相似度決策樹算法是一種以數(shù)據(jù)節(jié)點(diǎn)間的最高數(shù)據(jù)連邊關(guān)聯(lián)匹配作為兩個(gè)決策樹間的相似度,然后構(gòu)建不同決策樹之間的相似度矩陣,從而對(duì)各種決策樹的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行隨機(jī)運(yùn)算和挖掘分析的一種決策樹算法。[17]在決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用過程中,決策樹的數(shù)量越多就意味著不同決策樹算法的選擇性越豐富。雖然這能夠提高決策樹算法云數(shù)據(jù)情報(bào)偵查的分類精確度,但是過多的決策樹數(shù)量必然會(huì)增加決策樹算法的數(shù)據(jù)收斂速度和運(yùn)算耗時(shí),更會(huì)降低決策樹算法云數(shù)據(jù)情報(bào)偵查的運(yùn)算挖掘性能。因此,通過利用數(shù)據(jù)節(jié)點(diǎn)相似度的決策樹算法不僅能夠增強(qiáng)不同決策樹之間的正向同配關(guān)聯(lián)屬性,還能夠有效提升決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的高效性。
聚類加權(quán)隨機(jī)森林決策樹算法主要是通過對(duì)數(shù)據(jù)采取隨機(jī)森林的子分類器進(jìn)行聚類,每個(gè)子分類器的分類精度都以Kappa系數(shù)為衡量標(biāo)準(zhǔn),然后尋找和選擇出每一類中最高Kappa系數(shù)的決策樹作為該類進(jìn)行決策樹算法挖掘與分析的代表,重新構(gòu)建新的數(shù)據(jù)隨機(jī)森林,并再次利用Kappa系數(shù)對(duì)被選擇代表的決策樹進(jìn)行加權(quán)處理的一種典型決策樹算法。[19]依據(jù)聚類加權(quán)隨機(jī)森林決策樹算法的運(yùn)算價(jià)值優(yōu)勢和基本原理,筆者認(rèn)為,可以將其具體應(yīng)用分為以下步驟:
首先,重新組合原始訓(xùn)練云數(shù)據(jù)。偵查人員需隨機(jī)選取80%的原始訓(xùn)練云數(shù)據(jù)作為決策樹算法挖掘與分析的訓(xùn)練數(shù)據(jù),并構(gòu)建聚類加權(quán)隨機(jī)森林決策樹算法的平臺(tái)設(shè)計(jì)和流程模型,而剩余20%的原始訓(xùn)練云數(shù)據(jù)作為對(duì)聚類加權(quán)隨機(jī)森林決策樹算法挖掘應(yīng)用的評(píng)估和檢驗(yàn)的備用。其次,構(gòu)建聚類加權(quán)隨機(jī)森林決策樹算法模型。預(yù)設(shè)云數(shù)據(jù)采取決策樹算法的決策樹數(shù)量為M,然后將被選取的80%的云數(shù)據(jù)直接生成不同的決策樹數(shù)據(jù)節(jié)點(diǎn),再進(jìn)一步挖掘、分析不同決策樹中數(shù)據(jù)節(jié)點(diǎn)的屬性、坐標(biāo)、分裂閾值,并依此構(gòu)建聚類加權(quán)隨機(jī)森林決策樹的算法模型。再次,構(gòu)建決策樹間的相似度矩陣。偵查人員以不同決策樹中任何隨機(jī)的數(shù)據(jù)節(jié)點(diǎn)相似度為基礎(chǔ),創(chuàng)建不同數(shù)據(jù)節(jié)點(diǎn)之間的代價(jià)矩陣Sim_node,并運(yùn)算和挖掘其數(shù)據(jù)節(jié)點(diǎn)之間匹配系數(shù)最高的聚類組合,然后即可構(gòu)建決策樹間的相似度矩陣Sim_tree。從次,構(gòu)建決策樹特征向量聚類。根據(jù)已構(gòu)建決策樹間的相似度矩陣Sim_tree,偵查人員分別再構(gòu)建決策樹間的度矩陣D、相鄰矩陣W以及拉普拉斯矩陣L,然后計(jì)算和獲取拉普拉斯矩陣D-1/2×L×D-1/2的最小特征閾值K。同時(shí),以最小特征閾值K為標(biāo)準(zhǔn)計(jì)算決策樹間的特征向量F,構(gòu)建其特征向量區(qū)域空間,再利用K-means聚類算法對(duì)其進(jìn)行聚類構(gòu)建。最后,對(duì)決策樹進(jìn)行加權(quán)處理和修正。一方面,對(duì)決策樹進(jìn)行加權(quán)處理。偵查人員利用原始訓(xùn)練云數(shù)據(jù)重新組合剩余的20%云數(shù)據(jù)對(duì)決策樹特征向量的聚類進(jìn)行檢查和驗(yàn)證,獲取不同決策樹的Kappa系數(shù),并以系數(shù)最高的決策樹為標(biāo)準(zhǔn)重新構(gòu)建新的聚類加權(quán)隨機(jī)森林決策樹算法模型,對(duì)新構(gòu)建的每棵決策樹均進(jìn)行加權(quán)處理。另一方面,對(duì)決策樹加權(quán)修正。就聚類加權(quán)隨機(jī)森林決策樹算法的主要原理過程而言,其對(duì)涉案云數(shù)據(jù)不同決策樹的加權(quán)處理結(jié)果即為決策樹算法云數(shù)據(jù)情報(bào)偵查運(yùn)算、挖掘、分析結(jié)果,只要將該結(jié)果具體應(yīng)用到?jīng)Q策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)用之中即可。為了進(jìn)一步提升聚類加權(quán)隨機(jī)森林決策樹算法挖掘與分析的準(zhǔn)確性和精確性,偵查人員還需要對(duì)其加權(quán)處理結(jié)果及時(shí)進(jìn)行檢驗(yàn)和修正,主要是將其與情報(bào)價(jià)值需求預(yù)設(shè)、評(píng)價(jià)指標(biāo)體系以及流程模型構(gòu)建等互相驗(yàn)證,促使決策樹算法云數(shù)據(jù)情報(bào)偵查的實(shí)然效果更加科學(xué)和客觀。聚類加權(quán)隨機(jī)森林決策樹算法的運(yùn)用,不僅能夠及時(shí)優(yōu)化對(duì)不同決策樹中數(shù)據(jù)節(jié)點(diǎn)的聚類效果,還能夠阻礙隨機(jī)決策樹對(duì)云數(shù)據(jù)分類精度的挖掘分析,從而提高決策樹算法云數(shù)據(jù)情報(bào)偵查的高效性。
CART分類回歸決策樹算法是一種二分遞歸分割決策樹算法,該算法的主要原理在于對(duì)數(shù)據(jù)決策樹的分支節(jié)點(diǎn)處進(jìn)行布爾測試。若判斷條件為真則劃歸左分支,條件為假則劃歸右分支,最終形成一棵二叉決策樹。[20]依據(jù)決策樹算法云數(shù)據(jù)情報(bào)偵查的流程模型構(gòu)建,CART分類回歸決策樹算法應(yīng)用的具體步驟為:首先,訓(xùn)練云數(shù)據(jù)的升序處理。偵查人員所匯集的云數(shù)據(jù)既包括結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)、非結(jié)構(gòu)型數(shù)據(jù)以及異構(gòu)型數(shù)據(jù)等,又包括數(shù)值型數(shù)據(jù)、文本型數(shù)據(jù)、符號(hào)型數(shù)據(jù)以及圖片型數(shù)據(jù)等。這些不同的云數(shù)據(jù)在類別形態(tài)和結(jié)構(gòu)屬性等方面存在差異,使其被存儲(chǔ)在數(shù)據(jù)倉庫的數(shù)據(jù)子集都處于多維狀態(tài),往往給決策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)用增加巨大的復(fù)雜性和難度性。所以,在CART分類回歸決策樹算法運(yùn)用過程中,首先需要偵查人員按照各種云數(shù)據(jù)的維度屬性對(duì)其進(jìn)行升序排序的數(shù)據(jù)處理,促使不同云數(shù)據(jù)均呈現(xiàn)出連續(xù)數(shù)據(jù)的存儲(chǔ)狀態(tài)。其次,對(duì)連續(xù)云數(shù)據(jù)進(jìn)行離散分割。為了獲取對(duì)云數(shù)據(jù)運(yùn)算和挖掘分析結(jié)果的精確性,偵查人員可采取將N個(gè)云數(shù)據(jù)樣本進(jìn)行N-1種離散分割的技術(shù)方法。例如,偵查人員可以將連續(xù)兩個(gè)不同云數(shù)據(jù)樣本的平均值作為離散分割的分割點(diǎn)。如果重新選取的云數(shù)據(jù)樣本閾值小于該分割點(diǎn)的閾值,那么其就屬于決策樹的數(shù)據(jù)左節(jié)點(diǎn);反之,則屬于決策樹的數(shù)據(jù)右節(jié)點(diǎn)。再次,計(jì)算最大數(shù)據(jù)增益值。根據(jù)決策樹算法中決策樹的根節(jié)點(diǎn)、父節(jié)點(diǎn)以及子節(jié)點(diǎn)等不同的構(gòu)建結(jié)構(gòu),偵查人員需先按照連續(xù)云數(shù)據(jù)的離散分割標(biāo)準(zhǔn)對(duì)數(shù)據(jù)父節(jié)點(diǎn)進(jìn)行分割劃分。若數(shù)據(jù)父節(jié)點(diǎn)A被離散分割為決策樹的數(shù)據(jù)左節(jié)點(diǎn),那么其最大的數(shù)據(jù)增益值就為Ginix(A)=PlGinil+PrGinir;反之,則最大的數(shù)據(jù)增益值為△Gini=Gini(A)-Ginix(A)。最后,停止劃分和獲取挖掘結(jié)果。在運(yùn)算挖掘不同數(shù)據(jù)節(jié)點(diǎn)的最大數(shù)據(jù)增益值過程中,如果被挖掘數(shù)據(jù)節(jié)點(diǎn)A的Gini系數(shù)閾值都為0,那么即可停止對(duì)其進(jìn)行最大數(shù)據(jù)增益值的運(yùn)算挖掘,而已獲取的最大數(shù)據(jù)增益值即為CART分類回歸決策樹算法的挖掘分析結(jié)果;反之,則需要偵查人員返回到對(duì)連續(xù)云數(shù)據(jù)的離散分割階段,直到被挖掘數(shù)據(jù)節(jié)點(diǎn)A的Gini系數(shù)閾值都為0為止。運(yùn)用CART分類回歸決策樹算法進(jìn)行挖掘,不僅能夠有效避免出現(xiàn)挖掘過于擬合的決策樹剪枝現(xiàn)象,還能夠快速選擇和制定不同的數(shù)據(jù)節(jié)點(diǎn)剪枝策略,從而提高決策樹算法云數(shù)據(jù)情報(bào)偵查挖掘應(yīng)用的遞歸分割性能。
KM1R-HRF決策樹算法是一種基于K-means算法和One-R分層隨機(jī)森林算法進(jìn)行互相融合的決策樹算法,是主要依據(jù)K-means算法和One-R分層隨機(jī)森林算法挖掘、分析的不同價(jià)值優(yōu)勢,取長補(bǔ)短而能夠進(jìn)行隨機(jī)優(yōu)化的一種具有代表性的決策樹算法。[21]依據(jù)KM1R-HRF決策樹算法的運(yùn)算原理和價(jià)值優(yōu)勢,可以將其在決策樹算法云數(shù)據(jù)情報(bào)偵查中的應(yīng)用具體分為以下兩個(gè)方面:
一個(gè)方面是K-means算法流程階段。首先,偵查人員需要對(duì)NSL-KDD訓(xùn)練云數(shù)據(jù)子集的每個(gè)類別形態(tài)分別采取K-means算法的數(shù)據(jù)頻繁項(xiàng)目聚類挖掘分析,重新構(gòu)建新的訓(xùn)練云數(shù)據(jù)子集。其次,將新構(gòu)建的訓(xùn)練云數(shù)據(jù)子集劃分為Group1和Group2兩部分。其中,Group1包括DoS和Probe,而Group2包括Normal、R2L、U2R等。再次,在Group1的訓(xùn)練云數(shù)據(jù)子集上構(gòu)建RF2,同時(shí)在Group2的訓(xùn)練云數(shù)據(jù)子集上構(gòu)建RF3。最后,將Group2的訓(xùn)練云數(shù)據(jù)子集又分為U2R和Other兩類,并在Other上繼續(xù)構(gòu)建RF4。另一個(gè)方面是One-R分層隨機(jī)森林算法流程階段。第一步,將經(jīng)過K-means算法流程階段所挖掘和獲取的各種云數(shù)據(jù)樣本子集采取隨機(jī)不放回的數(shù)據(jù)取樣,并且將其子集個(gè)數(shù)K的閾值設(shè)為K=15。第二步,將K中的每個(gè)云數(shù)據(jù)訓(xùn)練子集都采取One-R分層的決策樹特征進(jìn)行對(duì)標(biāo)和判斷,再按照對(duì)標(biāo)后的差異性重新進(jìn)行降序處理,并將降序后云數(shù)據(jù)樣本子集K的特征表示為F={F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)41}。第三步,構(gòu)建決策樹的RF模型。從第二步中選取前20個(gè)降序后的云數(shù)據(jù)樣本子集,即F={F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)20},根據(jù)K=log241的特征對(duì)標(biāo)結(jié)果可得K=6。因此,偵查人員需要在F20中隨機(jī)選取6個(gè)數(shù)據(jù)對(duì)標(biāo)特征而構(gòu)建單棵決策樹,總共需構(gòu)建15棵決策樹的規(guī)模。第四步,依據(jù)構(gòu)建決策樹RF模型的規(guī)模,偵查人員需要對(duì)已構(gòu)建的15棵決策樹分別進(jìn)行檢驗(yàn)和修正。如果被檢驗(yàn)和修正的15棵決策樹均正確無誤,那么其就可作為決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的依據(jù)使用;反之,則需要從One-R分層隨機(jī)森林算法流程階段重新開始挖掘、分析,直到所有的訓(xùn)練云數(shù)據(jù)子集被運(yùn)算、挖掘、分析結(jié)束為止,或所獲結(jié)果均不符合決策樹算法云數(shù)據(jù)情報(bào)偵查的情報(bào)價(jià)值預(yù)設(shè)需求。就KM1R-HRF決策樹算法挖掘、分析過程而言,其不但充分發(fā)揮了K-means算法和One-R分層隨機(jī)森林算法互相融合的算法價(jià)值優(yōu)勢,而且壓縮了對(duì)訓(xùn)練云數(shù)據(jù)子集進(jìn)行挖掘、分析的時(shí)空成本,從而提升了決策樹算法云數(shù)據(jù)情報(bào)偵查應(yīng)用的分類性能。
綜上所述,基于決策樹算法的云數(shù)據(jù)情報(bào)偵查是多源數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新時(shí)代的一種新型數(shù)據(jù)情報(bào)偵查方法,主要包括AHP權(quán)重決策樹算法、AdaBoost密度峰值決策樹算法、數(shù)據(jù)節(jié)點(diǎn)相似度決策樹算法、聚類加權(quán)隨機(jī)森林決策樹算法以及CART分類回歸決策樹算法、KM1R-HRF決策樹算法,且不同的決策樹算法云數(shù)據(jù)情報(bào)偵查方法都有著不同的運(yùn)算價(jià)值優(yōu)勢?;诖?,應(yīng)引入基于決策樹算法的云數(shù)據(jù)情報(bào)偵查研究范式。應(yīng)以決策樹算法云數(shù)據(jù)情報(bào)偵查的內(nèi)涵與屬性為研究邏輯起點(diǎn),構(gòu)建決策樹算法云數(shù)據(jù)情報(bào)偵查的流程模型,提出決策樹算法云數(shù)據(jù)情報(bào)偵查的評(píng)價(jià)指標(biāo)體系,探討決策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)用方法。這不僅能夠有效降低云數(shù)據(jù)情報(bào)偵查的不確定性和誤判率,還能夠及時(shí)優(yōu)化和拓展云數(shù)據(jù)情報(bào)偵查的集群并行情報(bào)挖掘路徑,提升云數(shù)據(jù)情報(bào)偵查應(yīng)用的準(zhǔn)確性和精確性,從而實(shí)現(xiàn)決策樹算法云數(shù)據(jù)情報(bào)偵查的應(yīng)然價(jià)值效果。
山東警察學(xué)院學(xué)報(bào)2021年6期