陳昊
摘要:當(dāng)前我國科學(xué)技術(shù)研究力度正在不斷加大,其中數(shù)據(jù)發(fā)掘技術(shù)也得到了更加廣闊的發(fā)展空間,在保證書數(shù)據(jù)結(jié)果精準(zhǔn)的同時,還要保證隱私安全。本文將從數(shù)據(jù)挖掘技術(shù)發(fā)展概述出發(fā),分析其中信息數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則技術(shù)、互聯(lián)網(wǎng)行為預(yù)測、聚類分析、網(wǎng)絡(luò)行為分類等技術(shù),給數(shù)據(jù)的高效處理提供理論幫助。
關(guān)鍵詞:隱私保護(hù);數(shù)據(jù)挖掘;信息技術(shù)
引言:面向隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)衍生出來的根本原因是由于網(wǎng)絡(luò)活動行為多樣性使得數(shù)據(jù)運(yùn)行環(huán)境更加復(fù)雜,政府、企業(yè)想要實現(xiàn)運(yùn)營決策時的大量數(shù)據(jù)分析就必然需要挖掘出對應(yīng)原始數(shù)據(jù),此類數(shù)據(jù)中往往會涵蓋很多私密性較強(qiáng)的內(nèi)容,因此需要融合隱私保護(hù)理念,此類技術(shù)涉及到多種算法,需要逐一分析。
一、數(shù)據(jù)挖掘技術(shù)發(fā)展概述
新形勢下的數(shù)據(jù)挖掘技術(shù)通常被稱作“數(shù)據(jù)采礦”,應(yīng)用時的根本原理就是利用某種或多種制定計算方法,在龐大網(wǎng)絡(luò)數(shù)據(jù)庫中檢索出目標(biāo)信息,且檢索范圍包括很多很多隱藏數(shù)據(jù)。技術(shù)人員在研究此類算法時,首先從統(tǒng)計學(xué)角度來實現(xiàn)對數(shù)據(jù)信息的模擬檢驗以及預(yù)計估計,保證數(shù)據(jù)庫中隱藏的信息咨詢的蹤跡能被查詢,實現(xiàn)隱藏的數(shù)據(jù)信息進(jìn)行檢驗、分類。然后運(yùn)用當(dāng)前較為成熟的人工智能識別系統(tǒng)以及網(wǎng)絡(luò)計算機(jī)自動化學(xué)習(xí)的聯(lián)合計算方法,對已有數(shù)據(jù)樣本采取模擬、分析、優(yōu)化,最終掌握目標(biāo)資料。數(shù)據(jù)采礦技術(shù)已經(jīng)隨著時代發(fā)展進(jìn)程的加快變得越來越全面,應(yīng)用也更加深入。從個人隱私保護(hù)以及信息泄露角度來看,在進(jìn)行數(shù)據(jù)挖掘的同時,信息安全也承受著巨大的風(fēng)險,因此當(dāng)前一種將隱私保護(hù)定義為基本理念的數(shù)據(jù)挖掘技術(shù)正在推出。
二、面向隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)分析
(一)信息數(shù)據(jù)預(yù)處理
當(dāng)前我國研究的信息數(shù)據(jù)預(yù)處理技術(shù)主要是利用Apriori技術(shù)原理,構(gòu)建出一種面向隱私保護(hù)的數(shù)據(jù)預(yù)處理方法,該方法能夠進(jìn)一步解決數(shù)據(jù)源頭不信任挖掘請求問題。其功能性、綜合型都有了更加全面的設(shè)計,當(dāng)前數(shù)據(jù)采礦技術(shù)的預(yù)處理功能涉及到:信息集成、數(shù)據(jù)整合、痕跡清除、數(shù)據(jù)處理流程簡化以及數(shù)據(jù)精煉。預(yù)處理的概念源自與“概念樹”中的精煉數(shù)據(jù)法、知識發(fā)現(xiàn)、統(tǒng)計分析等屬性篩選以及遺傳計算手段。其處理方式與傳統(tǒng)模式的區(qū)別在于:傳統(tǒng)數(shù)據(jù)管理體制中的數(shù)據(jù)預(yù)處理操作無法做到對不精確信息采取整合、清理、轉(zhuǎn)換等處理,數(shù)據(jù)質(zhì)量得不到保障。而當(dāng)前這種面向與隱私保護(hù)領(lǐng)域的數(shù)據(jù)預(yù)處理可以做到將高精準(zhǔn)度的信息或準(zhǔn)確信息進(jìn)一步轉(zhuǎn)化為模糊化數(shù)據(jù)后再進(jìn)行識別、處理、整合。
(二)關(guān)聯(lián)規(guī)則技術(shù)
在運(yùn)行面向隱私保護(hù)的關(guān)聯(lián)規(guī)則算法時,傳統(tǒng)形式中的apriori算法無法實現(xiàn)直接應(yīng)用。因此想要在大數(shù)據(jù)時代中提高處理效率,技術(shù)人員還需要對相關(guān)內(nèi)容進(jìn)行優(yōu)化。實際上Apriori算法運(yùn)行環(huán)節(jié)較多,且內(nèi)容復(fù)雜,需要借助并融合剪枝算法的優(yōu)勢。同時還可以把離散和連續(xù)等多種類型的數(shù)據(jù)設(shè)計理念應(yīng)用在關(guān)聯(lián)規(guī)則算法構(gòu)建中,從離散化方法、統(tǒng)計學(xué)方法等角度去展開關(guān)聯(lián)規(guī)則技術(shù)的研究。
(三)互聯(lián)網(wǎng)行為預(yù)測
經(jīng)濟(jì)社會的發(fā)展推動著計算機(jī)信息技術(shù)的日漸成熟,新形勢下人類生活已經(jīng)可以實現(xiàn)在虛擬化的網(wǎng)絡(luò)環(huán)境進(jìn)行各種類型的數(shù)據(jù)交流活動,所以這也造成了網(wǎng)絡(luò)大環(huán)境下的數(shù)據(jù)行為變得更加復(fù)雜,因此相關(guān)學(xué)者與技術(shù)人員近幾年一直在致力于研究出能夠給廣大網(wǎng)絡(luò)用戶提供針對性服務(wù)的數(shù)據(jù)挖掘技術(shù)。神經(jīng)網(wǎng)絡(luò)具有良好的自我學(xué)習(xí)、模仿的能力,所以一些不確定系統(tǒng)的預(yù)測技術(shù)都可以應(yīng)用在神經(jīng)網(wǎng)絡(luò)模型建立當(dāng)中。將樣本分為訓(xùn)練樣本和測試樣本,對訓(xùn)練樣本采取進(jìn)一步處理,并以此數(shù)據(jù)為基礎(chǔ)尋找類別屬性和普通屬性之間的關(guān)聯(lián),然后用這種關(guān)聯(lián)來預(yù)測其他樣本的類別屬性。傳統(tǒng)神經(jīng)行為預(yù)測算法在執(zhí)行過程中,受到技術(shù)限制必然會從一定程度上導(dǎo)致用戶隱私信息的外泄,而采用安全多方互聯(lián)網(wǎng)行為預(yù)測計算能夠有效降低神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時用戶隱私信息發(fā)生泄露的風(fēng)險。
(四)聚類分析算法技術(shù)
這種基于隱私保護(hù)理念而研究出來的數(shù)據(jù)挖掘技術(shù)能夠?qū)崿F(xiàn)對聚類算法的完善化執(zhí)行,分析算法思想、關(guān)鍵技術(shù)的優(yōu)缺點,對當(dāng)前已有的聚類算法類型進(jìn)行分類與調(diào)整,從正確率和運(yùn)行效率兩方面對一些典型的聚類算法進(jìn)行模擬實驗,并對得到的基于劃分的模糊聚類算法采取進(jìn)一步的綜述和評價。目前模糊聚類數(shù)據(jù)發(fā)掘算法得到各行業(yè)廣泛應(yīng)用的根本原因主要是它對數(shù)據(jù)的比例變化具有穩(wěn)定性。
(五)網(wǎng)絡(luò)行為類型分層
用戶行為在當(dāng)前網(wǎng)絡(luò)環(huán)境中紛繁多樣,每個個體所表現(xiàn)出的屬性以及特點均有很大差別,因此在進(jìn)行數(shù)據(jù)挖掘時也需要以此為基礎(chǔ)設(shè)計出不同類型的技術(shù)來進(jìn)行對數(shù)據(jù)的操作。為了保證挖掘精度較好,且實現(xiàn)隱私保護(hù),對用戶行為分類前就要按照一定規(guī)則設(shè)計挖掘流程,在其中要深入考慮到隱私保護(hù)的具體化、算法、適應(yīng)情況、執(zhí)行效率等多方面因素。從傳統(tǒng)的應(yīng)用情況我們可以發(fā)現(xiàn)基于隱私保護(hù)的挖掘技術(shù)存在很多疏漏:1.傳統(tǒng)算法無法實現(xiàn)對原始真實數(shù)據(jù)的私密保護(hù),用戶個人隱私得不到有效保障,仍有一定程度上的隱私信息泄露風(fēng)險;2.傳統(tǒng)算法對原始數(shù)據(jù)有著較嚴(yán)格的概率分布需求,所以運(yùn)行時會出現(xiàn)計算難度較大、執(zhí)行效率較差、負(fù)載情況不平均等情況;3.某些傳統(tǒng)算法對環(huán)境適用性較低,在特定環(huán)境中運(yùn)算效率較低;因此目前我國研究人員對基于隱私保護(hù)的分類挖掘算法進(jìn)行完善時,重點針對以下幾個方面:1.確保算法精度提高,并簡化運(yùn)算復(fù)雜度的基礎(chǔ)上,盡快加強(qiáng)對隱私保護(hù)的全面化;2.加強(qiáng)算法對環(huán)境的適用效果,完成在全體環(huán)境中的數(shù)據(jù)采礦處理。
結(jié)論:綜上所述,當(dāng)前我國信息化建設(shè)力度持續(xù)加大,各行各業(yè)對于網(wǎng)絡(luò)依賴性也在不斷加強(qiáng),雖然便捷的網(wǎng)絡(luò)技術(shù)給人們的生產(chǎn)生活提供了更加便捷的服務(wù),但是虛擬性也會衍生出較大的安全風(fēng)險,想要保證社會、國家發(fā)展的穩(wěn)定性,就需要積極對網(wǎng)絡(luò)信息進(jìn)行監(jiān)控、管理,數(shù)據(jù)挖掘技術(shù)也因此被研究出來。為了減少挖掘過程中的出現(xiàn)的信息泄露,就需要不斷研究出更加適用隱私保護(hù)的數(shù)據(jù)挖掘算法。