摘 要:本文首先介紹了計(jì)算機(jī)文本挖掘技術(shù)和網(wǎng)絡(luò)安全問題的相關(guān)概念和現(xiàn)狀,其次分析了計(jì)算機(jī)文本挖掘技術(shù)的工作原理,最后闡述了計(jì)算機(jī)文本挖掘技術(shù)在解決網(wǎng)絡(luò)安全問題中的應(yīng)用。
關(guān)鍵詞:計(jì)算機(jī)文本挖掘技術(shù);網(wǎng)絡(luò)安全;垃圾信息;網(wǎng)絡(luò)環(huán)境;應(yīng)用
DOI:10.16640/j.cnki.37-1222/t.2018.11.119
1 計(jì)算機(jī)文本挖掘技術(shù)和網(wǎng)絡(luò)安全的概述
1.1 計(jì)算機(jī)文本挖掘技術(shù)
1.1.1 計(jì)算機(jī)文本挖掘技術(shù)的概念
計(jì)算計(jì)文本挖掘技術(shù)簡(jiǎn)單來說就是對(duì)計(jì)算機(jī)中文本信息的處理,因此,文本挖掘技術(shù)的主要操作對(duì)象即計(jì)算機(jī)中的文本信息,這一技術(shù)在計(jì)算機(jī)的數(shù)據(jù)處理中處于非常重要的位置。詳細(xì)來說,計(jì)算機(jī)文本挖掘技術(shù)就是從海量的文本信息中挖掘、識(shí)別有用的信息,是從抽象內(nèi)容提取出具體、可理解信息的過程,其中海量的信息包括各類文本信息,這些文本信息應(yīng)該在計(jì)算機(jī)執(zhí)行文本挖掘技術(shù)之前進(jìn)行人工處理,這樣在執(zhí)行文本挖掘技術(shù)時(shí),會(huì)降低處理難度,提升處理的準(zhǔn)確性和效率。
1.1.2 計(jì)算機(jī)文本挖掘技術(shù)的重要意義
通過計(jì)算機(jī)文本挖掘技術(shù),挖掘網(wǎng)絡(luò)中有價(jià)值、安全的信息,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息垃圾的分類并攔截,打造一個(gè)無垃圾信息的網(wǎng)絡(luò)環(huán)境,大大提升了網(wǎng)絡(luò)空間的安全性。
1.2 網(wǎng)絡(luò)安全
1.2.1 網(wǎng)絡(luò)安全的概念
網(wǎng)絡(luò)安全是眾多信息安全事故的罪魁禍?zhǔn)?,網(wǎng)絡(luò)安全的受到威脅大多是由于黑客的盛行。為了防范網(wǎng)絡(luò)風(fēng)險(xiǎn),保護(hù)個(gè)人隱私和財(cái)產(chǎn)安全,及時(shí)解決網(wǎng)絡(luò)安全問題的工作是不可或缺的,因此,為了實(shí)現(xiàn)對(duì)對(duì)網(wǎng)絡(luò)安全的控制,首先我們要運(yùn)用文本挖掘技術(shù)實(shí)現(xiàn)對(duì)垃圾信息的阻隔,規(guī)避網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。
1.2.2 造成網(wǎng)絡(luò)安全問題的原因
首先網(wǎng)絡(luò)安全問題的誘發(fā)原因最主要的就是系統(tǒng)的復(fù)雜性造成的,由于網(wǎng)絡(luò)系統(tǒng)的復(fù)雜性,造成難以全面的掌控系統(tǒng)安全,極易產(chǎn)生系統(tǒng)的風(fēng)險(xiǎn)性。通過復(fù)雜的系統(tǒng),計(jì)算機(jī)病毒極易入侵系統(tǒng),造成大規(guī)模的系統(tǒng)風(fēng)險(xiǎn),因此,系統(tǒng)的復(fù)雜性是導(dǎo)致計(jì)算機(jī)漏洞產(chǎn)生的原因之一。其實(shí)還有很多因素都會(huì)導(dǎo)致網(wǎng)絡(luò)安全問題的出現(xiàn),本文需要研究的網(wǎng)絡(luò)安全類型是由于大量文本垃圾所導(dǎo)致的網(wǎng)絡(luò)擁堵,用戶不小心激活某一條垃圾信息,都會(huì)造成計(jì)算機(jī)防火墻系統(tǒng)的崩潰,從而造成網(wǎng)絡(luò)安全問題的出現(xiàn),針對(duì)該網(wǎng)絡(luò)安全問題,針對(duì)性的措施就是實(shí)現(xiàn)計(jì)算機(jī)文本挖掘技術(shù),識(shí)別有效信息,攔截垃圾信息。常見的代碼設(shè)計(jì)同基礎(chǔ)操作系統(tǒng)的設(shè)計(jì)缺陷原因類似,都是由于前期的系統(tǒng)設(shè)計(jì)問題遺留的隱患,如不能有效的避免這些設(shè)計(jì)缺陷,會(huì)加大后期計(jì)算機(jī)使用過程中的安全性較低的概率。如在代碼的設(shè)計(jì)時(shí),設(shè)計(jì)過程較為簡(jiǎn)單,缺少針對(duì)用戶登錄時(shí)的有效驗(yàn)證:不對(duì)用戶輸入進(jìn)行全面有效的驗(yàn)證,可能會(huì)被攻擊者利用來執(zhí)行惡意代碼,最常見的緩沖區(qū)溢出、注入都是利用這一方式。
有網(wǎng)絡(luò)的地方不可避免的就會(huì)出現(xiàn)網(wǎng)絡(luò)安全問題,網(wǎng)絡(luò)安全問題是不可避免的,只要及時(shí)防范和及時(shí)補(bǔ)救計(jì)算機(jī)網(wǎng)絡(luò)風(fēng)險(xiǎn)的工作到位,就可以規(guī)避風(fēng)險(xiǎn)把損失降到最小。只有充分研究造成網(wǎng)絡(luò)風(fēng)險(xiǎn)的原因,才能從源頭上把握網(wǎng)絡(luò)風(fēng)險(xiǎn)的補(bǔ)救原理,以不變應(yīng)萬變。
1.2.3 實(shí)現(xiàn)網(wǎng)絡(luò)安全重要意義
隨著社會(huì)的發(fā)展和信息技術(shù)的進(jìn)步 ,在這個(gè)信息化的時(shí)代下,計(jì)算機(jī)的應(yīng)用頻率越來越高。伴隨計(jì)算機(jī)應(yīng)用產(chǎn)生的各種軟件也都不盡相同,計(jì)算機(jī)和網(wǎng)絡(luò)的出現(xiàn)改變了人們傳統(tǒng)的交流方式,人們可以不需要通過面對(duì)面的方式也可以實(shí)現(xiàn)在虛擬網(wǎng)絡(luò)中的交流。信息化時(shí)代的到來催生了電商平臺(tái)的發(fā)展,人們可以通過網(wǎng)上購(gòu)物、付款的方式,實(shí)現(xiàn)方便快捷的線上購(gòu)物。雖然網(wǎng)絡(luò)豐富方便了我們的生活,但是網(wǎng)絡(luò)安全問題同時(shí)會(huì)危及我們的信息、財(cái)產(chǎn)安全,提升網(wǎng)絡(luò)環(huán)境的安全性,創(chuàng)造干凈、安全的網(wǎng)絡(luò)空間,已經(jīng)成為信息化時(shí)代下我們信息工作者的重要任務(wù),解決網(wǎng)絡(luò)安全問題刻不容緩。
2 計(jì)算機(jī)文本挖掘技術(shù)的方法
2.1 重視文本數(shù)據(jù)來源
數(shù)據(jù)挖掘不僅要挖掘二維數(shù)據(jù)表數(shù)據(jù) , 還要挖掘文本數(shù)據(jù)、多媒體數(shù)據(jù)和萬維網(wǎng)數(shù)據(jù),要重視可視化、使用可視化的方法進(jìn)行的數(shù)據(jù)挖掘,同時(shí),使用背景知識(shí)無疑會(huì)幫助在數(shù)據(jù)挖掘中建模的準(zhǔn)確度。
2.2 鄰近分類法
鄰近分類法屬于重要的文本分類方法之一,同時(shí)也是比較簡(jiǎn)單、易于操作的文本挖掘方法。他的工作原理即它可以組建c個(gè)分類方案,并將這些方案與即將進(jìn)行文本挖掘技術(shù)的對(duì)象進(jìn)行比較,通過比較發(fā)現(xiàn)選擇出最接近的方案來定義文本的屬性。在鄰近分類法的操作過程中,首先要確定方案所描述的情況,對(duì)這些情況要進(jìn)行特征的分類,然后才能更為快捷的提取出特征相似的地方,從而找出那兩者之間更具有鄰近性。臨近分類方法雖然操作簡(jiǎn)單,效果也十分便捷、有限,但是它也存在著一定的缺點(diǎn),那就是雖然已經(jīng)對(duì)挖掘?qū)ο蟪醪降倪M(jìn)行了相似性的分類,但是還是有極大可能會(huì)出現(xiàn)不同分類下的平行、共線的情況,從而會(huì)導(dǎo)致挖掘結(jié)果的不準(zhǔn)確性,造成文本挖掘操作的失敗。
基于傳統(tǒng)鄰近分類法下的不同分類對(duì)象的共線問題,進(jìn)行了改進(jìn),改進(jìn)的主要內(nèi)容包括了解貢獻(xiàn)對(duì)象之間的明顯特征,對(duì)這些極易引發(fā)共線問題的特征進(jìn)行合并,盡可能的壓縮特征向量的維度,保證鄰近分類法的操作成功率,提高鄰近分類法的準(zhǔn)確率和算法執(zhí)行速度,提升文本挖掘的效率。
3 計(jì)算機(jī)文本挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用
3.1 文本挖掘在網(wǎng)絡(luò)新聞及輿情信息分析中的應(yīng)用
網(wǎng)絡(luò)輿情的信息已經(jīng)成為非常重要的網(wǎng)絡(luò)安全問題,網(wǎng)絡(luò)輿情信息的泄露會(huì)導(dǎo)致商業(yè)機(jī)密、個(gè)人隱私等信息的泄露,嚴(yán)重危害了計(jì)算機(jī)用戶信息和財(cái)產(chǎn)安全。因此,需要對(duì)網(wǎng)絡(luò)信息即輿論情報(bào)等方面的信息進(jìn)行數(shù)據(jù)挖掘,具體的技術(shù)應(yīng)用包括:將網(wǎng)絡(luò)輿情信息分析內(nèi)容分為對(duì)網(wǎng)絡(luò)輿情進(jìn)行描述、對(duì)網(wǎng)絡(luò)輿情的關(guān)聯(lián)性進(jìn)行分析、對(duì)網(wǎng)絡(luò)輿情信息的真實(shí)性進(jìn)行判斷分析、對(duì)網(wǎng)絡(luò)輿情的產(chǎn)生原因進(jìn)行分析、預(yù)測(cè)和推論網(wǎng)絡(luò)輿情信息的產(chǎn)生和變化趨勢(shì)五個(gè)部分,同時(shí)建立網(wǎng)絡(luò)輿情信息挖掘分析模型。
3.2 文本挖掘在專利信息分析中的應(yīng)用研究
專利信息的安全也涉及到商業(yè)機(jī)密的泄露與安全問題,屬于重要的財(cái)產(chǎn)信息,需要重點(diǎn)保護(hù)。因此,需要對(duì)網(wǎng)絡(luò)信息即專利信息等方面的信息進(jìn)行數(shù)據(jù)挖掘,具體的技術(shù)應(yīng)用包括:登記調(diào)查專利權(quán)、挖掘?qū)@乃袡?quán)、挖掘?qū)@氖褂眉皺?quán)屬等,之后的步驟為確定特定技術(shù)部門的共同開發(fā)傾向、確定特定技術(shù)領(lǐng)域共同的開發(fā)動(dòng)向、發(fā)現(xiàn)專利技術(shù)的種子技術(shù)以及最新研究熱點(diǎn)等。
3.3 文本挖掘在醫(yī)療健康分析中的應(yīng)用研究
中文信息的分析比較特殊,在中醫(yī)藥研究中可以充分體現(xiàn)出文本挖掘在中文信息分析應(yīng)用中的優(yōu)勢(shì),因此,文本挖掘在醫(yī)學(xué)健康中有著較為廣泛的應(yīng)用,具體應(yīng)用技術(shù)包括:使用文本挖掘技術(shù)探索高血壓中成藥、西藥的用藥規(guī)律;將數(shù)字信息資源進(jìn)行整合、集成和使用,從而構(gòu)建起專業(yè)的醫(yī)學(xué)專業(yè)學(xué)科門戶;采用基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計(jì)的數(shù)據(jù)分層算法探索注射用雙黃連注射液的研究現(xiàn)狀等等。
3.4 文本挖掘在其他領(lǐng)域中的應(yīng)用研究
除上述領(lǐng)域,文本挖掘在其他領(lǐng)域也有廣泛應(yīng)用和發(fā)展,如信息檢索、企業(yè)市場(chǎng)營(yíng)銷、個(gè)性化推薦等。在傳統(tǒng)的信息檢索領(lǐng)域,文本挖掘已經(jīng)具有較為成熟的應(yīng)用。例如,在企業(yè)的市場(chǎng)營(yíng)銷方面,企業(yè)通過文本挖掘技術(shù)可以實(shí)現(xiàn)對(duì)市場(chǎng)大數(shù)據(jù)的挖掘,挖掘有效信息,信息的來源必然是最新的、最全面的,具備時(shí)效性,所獲取到的信息同樣是具有價(jià)值的、可以在同行之間提升企業(yè)競(jìng)爭(zhēng)力的信息,可以幫助企業(yè)實(shí)現(xiàn)個(gè)性化發(fā)展,總而言之,通過文本挖掘技術(shù)可以實(shí)現(xiàn)對(duì)市場(chǎng)的有效調(diào)研,企業(yè)運(yùn)用文本挖掘技術(shù),使得企業(yè)市場(chǎng)營(yíng)銷的實(shí)現(xiàn)方便快捷,降低企業(yè)的經(jīng)營(yíng)成本。在個(gè)性化推薦方面,主要需求者是提供綜合信息服務(wù)的網(wǎng)站,其面向的對(duì)象時(shí)廣大的消費(fèi)者,提供綜合信息服務(wù)的網(wǎng)站通過對(duì)不同的用戶進(jìn)行使用記錄的文本挖掘,可以和快速的找到有效信息,從而是實(shí)現(xiàn)精準(zhǔn)的個(gè)性化推薦,等等。
3.5 基于新方法的文本挖掘應(yīng)用研究
隨著社會(huì)的發(fā)展和經(jīng)濟(jì)水平的提高,我國(guó)已經(jīng)進(jìn)入信息化時(shí)代,因此近些年,文本挖掘的方法不斷得到發(fā)展和創(chuàng)新,順應(yīng)信息化時(shí)代的潮流,實(shí)現(xiàn)網(wǎng)絡(luò)技術(shù)與具體領(lǐng)域的緊密和廣泛的結(jié)合,隨之出現(xiàn)的互聯(lián)網(wǎng)+等等,是網(wǎng)絡(luò)與具體實(shí)物的深度融合,體現(xiàn)在基于語義的方法、基于領(lǐng)域本體的方法等模型上。
4 總結(jié)
21 世紀(jì),人類已步入信息社會(huì)時(shí)代。計(jì)算機(jī)廣泛地應(yīng)用于人們生活的各個(gè)方面。為了適應(yīng)現(xiàn)代網(wǎng)絡(luò)安全問題的要求,計(jì)算機(jī)文本挖掘技術(shù)的掌握工作顯得尤為重要。一方面可以維護(hù)網(wǎng)絡(luò)環(huán)境的安全穩(wěn)定,另一方面可以有效打擊網(wǎng)絡(luò)犯罪,保護(hù)人民的個(gè)人隱私和財(cái)產(chǎn)的安全。因此,解決網(wǎng)絡(luò)安全問題刻不容緩。通過計(jì)算機(jī)文本挖掘技術(shù),挖掘網(wǎng)絡(luò)中有價(jià)值、安全的信息,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息垃圾的分類并攔截,打造一個(gè)無垃圾信息的網(wǎng)絡(luò)環(huán)境,大大提升了網(wǎng)絡(luò)空間的安全性。
參考文獻(xiàn):
[1]羅躍國(guó).基于數(shù)據(jù)挖掘入侵檢測(cè)模型的設(shè)計(jì)[J].西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2010(03):112-113.
[2]朱海霞.數(shù)據(jù)挖掘在入侵檢測(cè)中的應(yīng)用[J].科技資訊,2009(05) :89-90.
[2]喻小光,陳維斌,陳榮鑫.一種數(shù)據(jù)規(guī)約的近似挖掘方法的實(shí)現(xiàn)[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,29(03):370-374.
作者簡(jiǎn)介:邢翀(1980-),女,吉林長(zhǎng)春人,副教授,研究方向:智能計(jì)算。