陳小永
(安徽電子信息職業(yè)技術(shù)學(xué)院 信息與智能工程系,安徽 蚌埠 233000)
社交網(wǎng)絡(luò)中存在大量溝通時(shí)產(chǎn)生的JPEG圖像敏感數(shù)據(jù),此類敏感數(shù)據(jù)有可能包含用戶性別、地區(qū)、職業(yè)、興趣愛(ài)好、身份證及年齡等信息,涉及到用戶的個(gè)人信息及隱私等[1],若不重視此類敏感數(shù)據(jù),將導(dǎo)致用戶個(gè)人信息與隱私的泄露,嚴(yán)重危害用戶個(gè)人財(cái)產(chǎn)安全的問(wèn)題[2]。故需對(duì)社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)實(shí)施有效的保護(hù),避免用戶個(gè)人信息泄露,保障社交網(wǎng)絡(luò)溝通的安全性,而保護(hù)此類敏感數(shù)據(jù)的基礎(chǔ)即對(duì)其實(shí)施有效的數(shù)據(jù)挖掘[3],數(shù)據(jù)挖掘算法可通過(guò)某對(duì)象的先驗(yàn)概率,運(yùn)算出此對(duì)象的后驗(yàn)概率,魯棒性較高[4]。
綜合以上分析,研究一種基于最優(yōu)學(xué)習(xí)的社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘方法,將樸素貝葉斯算法作為該挖掘方法的核心算法,深入、有效地挖掘出社交網(wǎng)絡(luò)數(shù)據(jù)中的JPEG圖像敏感數(shù)據(jù),并提升挖掘的精度與實(shí)時(shí)性。
以樸素貝葉斯算法作為社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘方法的核心算法[5],基于此算法構(gòu)建社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘平臺(tái)。樸素貝葉斯算法定理如下:
樸素貝葉斯算法屬于一類分類算法的總稱,此類分類算法的基礎(chǔ)均為樸素貝葉斯定理,所以也可統(tǒng)稱為樸素貝葉斯分類[6]。樸素貝葉斯定量能夠合理解決實(shí)際生活中時(shí)常發(fā)生的事件,假如兩事件分別以C和D表示,其中事件C和事件D出現(xiàn)的概率分別以Q(C)、Q(D)表示,兩事件同時(shí)出現(xiàn)的概率以Q(CD)表示,在事件C已經(jīng)出現(xiàn)的情況下,事件D出現(xiàn)的概率以Q(D/C)表示,同時(shí)有:
Q(D/C)=Q(CD)/Q(C)
(1)
事件C與事件D無(wú)論是否屬于彼此獨(dú)立的事件,均有:
Q(CD)=Q(D)Q(C/D)=Q(C)Q(D/C)
(2)
設(shè)樣本空間Ω的一個(gè)劃分為D1,D2,…,Dn,能夠符合Di兩兩互斥,且DiDj=φ(i≠j),∑Di=Ω(i=1,2,...,n),那么有全概率公式:
Q(C)=Q(C∩Ω)=Q(C∩∑Di)=
Q(∑CDi)=∑Q(CDi)=∑Q(Di)Q(C/Di)
(3)
假設(shè)Y∈Ω屬于一個(gè)未知類型的數(shù)據(jù)樣本,aj屬于某個(gè)類型,如果數(shù)據(jù)樣本Y為一個(gè)特定的類型aj,則分類問(wèn)題即為確定Q(aj|Y),也就是在獲取數(shù)據(jù)樣本Y時(shí),將數(shù)據(jù)樣本Y的最佳分類確準(zhǔn)。在給定數(shù)據(jù)集B內(nèi)各類型aj先驗(yàn)概率的條件下可能性最大的分類即為最佳分類。運(yùn)算此種可能性的一種較為直接的方法可通過(guò)貝葉斯定理提供?;诩僭O(shè)的先驗(yàn)概率、設(shè)定假設(shè)下所觀察到的各類數(shù)據(jù)概率,貝葉斯定理提供一種運(yùn)算假設(shè)概率的方法[7],可表示為:
Q(aj|Y)=Q(Y|aj)Q(aj)/Q(Y)
(4)
式(4)屬于貝葉斯公式,其中先驗(yàn)概率、后驗(yàn)概率及聯(lián)合概率分別以Q(aj)、Q(aj|Y)、Q(Y|aj)表示。
(1)先驗(yàn)概率Q(aj):aj的先驗(yàn)概率即為Q(aj),有關(guān)aj屬于準(zhǔn)確分類機(jī)會(huì)的背景知識(shí)可通過(guò)先驗(yàn)概率反映出。若無(wú)此先驗(yàn)知識(shí),則可將同等的先驗(yàn)概率賦予給各個(gè)待選類型,但一般而言,可通過(guò)樣例內(nèi)屬于aj的樣例數(shù)|aj|與總樣例數(shù)|B|的比值實(shí)施近似運(yùn)算,也就是:
(5)
(2)聯(lián)合概率Q(Y|aj):聯(lián)合概率也成為條件概率,即在已知為aj類型的情況下,數(shù)據(jù)樣本Y所出現(xiàn)的概率。如果設(shè)定Y=〈c1,c2,...,cm〉,那么有:
Q(Y|aj)=Q(c1,c2,…,cm/aj)
(6)
(3)后驗(yàn)概率Q(aj|Y):aj的后驗(yàn)概率即為Q(aj|Y),是指當(dāng)數(shù)據(jù)樣本Y給定時(shí),aj成立的概率,可反映出數(shù)據(jù)樣本Y出現(xiàn)之后aj的成立置信度。
邏輯性較強(qiáng)的數(shù)據(jù)挖掘平臺(tái),由特征數(shù)據(jù)萃取層與概率數(shù)據(jù)構(gòu)建層共同構(gòu)成。其中特征數(shù)據(jù)萃取層是在樸素貝葉斯算法的特征涵蓋性基礎(chǔ)上創(chuàng)建而成,概率數(shù)據(jù)構(gòu)建層是基于樸素貝葉斯算法的概率條件引入廣泛性而創(chuàng)建的,通過(guò)創(chuàng)建兩個(gè)層面,實(shí)現(xiàn)數(shù)據(jù)挖掘平臺(tái)的構(gòu)建,產(chǎn)生立體化社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘平臺(tái)。數(shù)據(jù)挖掘平臺(tái)整體結(jié)構(gòu)圖見(jiàn)圖1。
圖1 數(shù)據(jù)挖掘平臺(tái)整體結(jié)構(gòu)圖
1.2.1 特征數(shù)據(jù)萃取層設(shè)計(jì)
在互聯(lián)網(wǎng)空間中建立社交網(wǎng)絡(luò)數(shù)據(jù)模型,可以提高對(duì)社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)的數(shù)據(jù)類別和數(shù)據(jù)趨勢(shì)的理解,為特定類型數(shù)據(jù)的概率深度挖掘提供方便,從而提高數(shù)據(jù)挖掘的速度和準(zhǔn)確性。通過(guò)基于樸素貝葉斯算法優(yōu)化的tbht拓?fù)涮卣鬟壿嬎惴?,該層可以根?jù)數(shù)據(jù)之間的拓?fù)潢P(guān)系實(shí)現(xiàn)特征捕獲,并通過(guò)概率邏輯轉(zhuǎn)換各種數(shù)據(jù)特征,從而形成數(shù)據(jù)挖掘的必要條件,提高了社會(huì)網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘的準(zhǔn)確性。Tbht拓?fù)涮卣鬟壿嬎惴ɡ^承了樸素貝葉斯算法的概率運(yùn)算,也具有獨(dú)立的邏輯處理性能。故TBHT拓?fù)涮卣鬟壿嬎惴ǖ年P(guān)系式為雙子集合式,可表示為:
(7)
(8)
式(7)、式(8)中,社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)類型集合以c表示,數(shù)據(jù)類型系數(shù)與特征類型量系數(shù)分別以i和m表示,概率常量與數(shù)據(jù)挖掘特征限制要素集合分別以k和d表示。當(dāng)式(7)能夠滿足以式(8)為引入常量時(shí),表示完成特征數(shù)據(jù)萃取層的數(shù)據(jù)模型構(gòu)建。特征數(shù)據(jù)萃取層結(jié)構(gòu)見(jiàn)圖2。
圖2 特征數(shù)據(jù)萃取層結(jié)構(gòu)圖
為了提升數(shù)據(jù)挖掘的精度,需創(chuàng)建更加優(yōu)質(zhì)的數(shù)據(jù)模型,而優(yōu)質(zhì)數(shù)據(jù)模型的創(chuàng)建則需通過(guò)優(yōu)質(zhì)精準(zhǔn)歸類的特征數(shù)據(jù)實(shí)現(xiàn)。所抓取的社交網(wǎng)絡(luò)特征數(shù)據(jù)中包含文字記錄數(shù)據(jù)、出錯(cuò)記錄數(shù)據(jù)、請(qǐng)求記錄數(shù)據(jù)以及JPEG圖像敏感數(shù)據(jù)等各類數(shù)據(jù),且數(shù)據(jù)質(zhì)量不一致,故為提升之后分析歸類的精度、可伸縮性及有效性,應(yīng)對(duì)抓取的特征數(shù)據(jù)實(shí)施預(yù)處理。
1.2.2 概率數(shù)據(jù)構(gòu)建層設(shè)計(jì)
為實(shí)現(xiàn)對(duì)各種特征關(guān)系下社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)的有效挖掘,需提升引入的特征量,令初始社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘邏輯具備衍生性和包容性。OWF-RV集列算法具有龐大的數(shù)據(jù)邏輯量,其關(guān)系式內(nèi)包含數(shù)組概率邏輯式,對(duì)相應(yīng)概率邏輯式的調(diào)用及運(yùn)行可采用邏輯對(duì)接觸發(fā)關(guān)系式實(shí)現(xiàn)。在此以六組概率邏輯式及邏輯對(duì)接觸發(fā)式為例,實(shí)施集合式運(yùn)算。具體如下:
六組概率邏輯式為:
(9)
式(9)中的六組概率邏輯式相互之間為邏輯條件遞增關(guān)系,各關(guān)系式均可單獨(dú)成立,同時(shí)均包括上個(gè)關(guān)系式引入的特征條件值。集合化運(yùn)算六組概率邏輯式能夠獲得集合式為:
Q(ie)
(10)
邏輯對(duì)接觸發(fā)式為:
(11)
動(dòng)態(tài)概率分離器可以快速調(diào)用由概率特征條件檢索到的數(shù)據(jù)流,提高下游挖掘數(shù)據(jù)的潛力,并與大數(shù)據(jù)社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)中的深層數(shù)據(jù)源相關(guān)聯(lián),從而實(shí)現(xiàn)對(duì)社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)的深度挖掘。
在業(yè)務(wù)資源有限的情況下,動(dòng)態(tài)概率分離器可以自動(dòng)提取其運(yùn)行資源的5%,從而建立大數(shù)據(jù)資源的交互通道規(guī)則。社會(huì)網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘通過(guò)獲取小資源的大數(shù)據(jù)來(lái)提高挖掘精度。利用數(shù)據(jù)本身的特征信息,比較數(shù)據(jù)對(duì)接的挖掘精度,自動(dòng)偏移挖掘誤差數(shù)據(jù)的節(jié)點(diǎn)信息,保留準(zhǔn)確的節(jié)點(diǎn)信息,快速生成數(shù)據(jù)挖掘返回信號(hào)。實(shí)現(xiàn)了JPEG社交網(wǎng)絡(luò)圖像敏感數(shù)據(jù)的高精度深度挖掘。動(dòng)態(tài)概率分離器中分離算法為:
X|m|=e|q(c)|∑g/?(q(c))?
(12)
概率數(shù)據(jù)構(gòu)建層結(jié)構(gòu)圖見(jiàn)圖3。
圖3 概率數(shù)據(jù)構(gòu)建層結(jié)構(gòu)圖
以某微博平臺(tái)內(nèi)的歷史大數(shù)據(jù)資源集作為檢驗(yàn)本方法性能的實(shí)驗(yàn)數(shù)據(jù)集,大數(shù)據(jù)資源集內(nèi)包含文字記錄數(shù)據(jù)、出錯(cuò)記錄數(shù)據(jù)、請(qǐng)求記錄數(shù)據(jù)以及JPEG圖像敏感數(shù)據(jù)等各類數(shù)據(jù)共88546條,分別采用本文方法、全局相似度的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘方法(文獻(xiàn)[5]方法)以及基于影響力的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘方法(文獻(xiàn)[6]方法)挖掘?qū)嶒?yàn)數(shù)據(jù)集內(nèi)的社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù),對(duì)比并分析各方法的挖掘性能及效果。
2.1.1 分類結(jié)果對(duì)比分析
在實(shí)驗(yàn)數(shù)據(jù)集的JPEG圖像敏感數(shù)據(jù)中,實(shí)際包含五種不同類別的敏感數(shù)據(jù),分別為性別、職業(yè)、興趣愛(ài)好、社交情況及所在地區(qū)五種類別,現(xiàn)將各方法挖掘過(guò)程中對(duì)實(shí)驗(yàn)數(shù)據(jù)集實(shí)施預(yù)處理并分類之后所獲得的JPEG圖像敏感數(shù)據(jù)模型內(nèi)的數(shù)據(jù)類別分別與實(shí)際數(shù)據(jù)類別進(jìn)行對(duì)比,檢驗(yàn)各方法的分類性能,對(duì)比結(jié)果如表1所示。
表1 各方法分類性能對(duì)比情況
由表1能夠看出,對(duì)比實(shí)驗(yàn)數(shù)據(jù)集內(nèi)JPEG圖像敏感數(shù)據(jù)實(shí)際所包含的五種類別數(shù)據(jù),文獻(xiàn)[5]方法分類后所得的數(shù)據(jù)模型內(nèi)存在職業(yè)類別數(shù)據(jù)的缺失,而文獻(xiàn)[6]方法與本方法分類后所得的數(shù)據(jù)模型內(nèi)五種類別數(shù)據(jù)均包含在內(nèi),未出現(xiàn)缺失問(wèn)題,可見(jiàn)文獻(xiàn)[6]方法與本方法挖掘過(guò)程中的分類性能更優(yōu)越。
2.1.2 挖掘結(jié)果對(duì)比分析
在各方法的分類結(jié)果基礎(chǔ)上,繼續(xù)運(yùn)用三種方法分別對(duì)各自分類后所得的數(shù)據(jù)模型內(nèi)各類別JPEG圖像敏感數(shù)據(jù)實(shí)施挖掘,依據(jù)挖掘結(jié)果對(duì)比各方法的挖掘性能,對(duì)比結(jié)果如表2所示。
三種方法的整體JPEG圖像敏感數(shù)據(jù)挖掘結(jié)果誤差中,文獻(xiàn)[5]方法的誤差顯著高于其它兩種方法,原因是文獻(xiàn)[5]方法在挖掘過(guò)程中實(shí)施分類時(shí)缺失職業(yè)類別數(shù)據(jù),由此導(dǎo)致此方法最終挖掘結(jié)果誤差大大降低;而本方法與文獻(xiàn)[6]方法對(duì)比,本方法的JPEG圖像敏感各類別數(shù)據(jù)挖掘結(jié)果誤差均低于文獻(xiàn)[6]方法,由此可見(jiàn),本方法的挖掘結(jié)果誤差最低,結(jié)果更加精準(zhǔn)可靠,具有較高的挖掘性能。
綜合以上兩組實(shí)驗(yàn)結(jié)果分析可知,相比其它兩種方法,本方法的整體性能更優(yōu)越,挖掘結(jié)果更可信,實(shí)際應(yīng)用價(jià)值更高。
提出一種基于最優(yōu)學(xué)習(xí)的社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘方法,以樸素貝葉斯算法最為最優(yōu)學(xué)習(xí)方法,構(gòu)建社交網(wǎng)絡(luò)JPEG圖像敏感數(shù)據(jù)挖掘平臺(tái),通過(guò)平臺(tái)內(nèi)兩個(gè)功能層實(shí)現(xiàn)對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)中JPEG圖像敏感數(shù)據(jù)的深入挖掘,并通過(guò)實(shí)驗(yàn)檢驗(yàn)了本方法的整個(gè)挖掘過(guò)程,驗(yàn)證了本方法的分類精度、挖掘精度及較高的時(shí)效性,能夠精準(zhǔn)高效地挖掘出社交網(wǎng)絡(luò)數(shù)據(jù)中的JPEG圖像敏感數(shù)據(jù),為社交網(wǎng)絡(luò)用戶的安全溝通提供有效保障。