劉敏 楊陽(yáng) 武警山西省總隊(duì)
社會(huì)經(jīng)濟(jì)的不斷發(fā)展與時(shí)代的變革,人們加大了對(duì)數(shù)據(jù)挖掘的重視,為了進(jìn)一步了解和掌握大數(shù)據(jù)信息,人們加大了對(duì)大數(shù)據(jù)的研究分析。本文接下來(lái)先對(duì)大數(shù)據(jù)挖掘相關(guān)問題進(jìn)行了有效的闡述,便于我們對(duì)于大數(shù)據(jù)信息的進(jìn)一步了解。
大數(shù)據(jù)挖掘從大面上的意思就是指技術(shù)人員通過從海量的數(shù)據(jù)信息中提取到那部分自己所需的信息。也就是指從大量的、不完善的、信息不清晰的信息數(shù)據(jù)中,抽絲剝繭的找到對(duì)人類有效發(fā)展的信息和知識(shí)的“尋找”過程。其具體的操作流程是工作人員早在海量的信息數(shù)據(jù)中利用分析處理工具對(duì)數(shù)據(jù)與模型之間的關(guān)系進(jìn)行詳細(xì)的研究分析,并在尋找的過程中幫助使用者尋找數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,明確數(shù)據(jù)信息,因此,對(duì)大數(shù)據(jù)的有效挖掘是目前人們解決信息不足問題的重要手段。從數(shù)據(jù)本身角度來(lái)看,一般對(duì)大數(shù)據(jù)的挖掘需要有數(shù)據(jù)清理、數(shù)據(jù)挖掘?qū)嵤┻^程、數(shù)據(jù)變換、知識(shí)評(píng)估和模式評(píng)估等步驟。
大數(shù)據(jù)則是通過對(duì)海量數(shù)據(jù)信息內(nèi)容的高速采集,對(duì)數(shù)據(jù)進(jìn)行發(fā)現(xiàn)和解析的過程,是目前一種新型的從海量數(shù)據(jù)中摘取重要數(shù)據(jù)的技術(shù)結(jié)構(gòu)平臺(tái),具有提取信息速度快、種類繁雜、字母體量大、價(jià)值高等特點(diǎn)。
在對(duì)大數(shù)據(jù)的挖掘過程中可以發(fā)現(xiàn),大數(shù)據(jù)挖掘中不僅涉及到了數(shù)據(jù)倉(cāng)庫(kù)、模式識(shí)別以及建模技術(shù),還涉及到了機(jī)器學(xué)等多個(gè)領(lǐng)域內(nèi)的專業(yè)理論知識(shí)和專業(yè)技能。其中存在的數(shù)據(jù)統(tǒng)計(jì)、人工智能技術(shù)和數(shù)據(jù)倉(cāng)庫(kù)是現(xiàn)階段大數(shù)據(jù)挖掘中的至關(guān)重要的三道技術(shù)支柱。
大數(shù)據(jù)時(shí)代下,目前我國(guó)的數(shù)據(jù)形式屬于剛發(fā)展階段,主要還是以對(duì)數(shù)據(jù)的挖掘?yàn)橹黧w內(nèi)容,也就是加深對(duì)大數(shù)據(jù)挖掘概念的進(jìn)一步理解,對(duì)大數(shù)據(jù)的挖掘是人們進(jìn)一步了解和掌握大數(shù)據(jù)的基礎(chǔ)。大數(shù)據(jù)和數(shù)據(jù)挖掘都是以提取對(duì)人類發(fā)展更有效的信息而進(jìn)行的數(shù)據(jù)信息挖掘,從表面層次看,兩者之間沒有顯著的區(qū)別,但隨著對(duì)數(shù)據(jù)挖掘的不斷深入就會(huì)發(fā)現(xiàn),數(shù)據(jù)挖掘的針對(duì)目標(biāo)不只限于少量的數(shù)據(jù),對(duì)海量數(shù)據(jù)同樣適用,只是在挖掘方法和挖掘技術(shù)上進(jìn)行了有效的改變與更新,并更換了一種新的叫法成為“大數(shù)據(jù)”,其次,大數(shù)據(jù)的關(guān)鍵點(diǎn)不在于“大”,而是挖掘者需要轉(zhuǎn)變自身傳統(tǒng)的思想觀念,采用新型的思想和新型的技術(shù)手段對(duì)海量的數(shù)據(jù)進(jìn)行解析,并有效提取其中的有用信息數(shù)據(jù),這樣就可以對(duì)社會(huì)未來(lái)的發(fā)展形勢(shì)進(jìn)行有效的預(yù)估工作,同時(shí)還可以根據(jù)其中所包含的結(jié)構(gòu)形式,創(chuàng)新新型的產(chǎn)品和服務(wù)工程。因此大數(shù)據(jù)與數(shù)據(jù)的挖掘在一定的時(shí)期內(nèi)仍處于相互共存的形式,究其兩者之間的差別就在于如何實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。
大數(shù)據(jù)是數(shù)據(jù)發(fā)掘產(chǎn)業(yè)化的重要表現(xiàn),數(shù)據(jù)的價(jià)值在于數(shù)據(jù)關(guān)鍵信息的提取,利益則是技術(shù)價(jià)值的重要體現(xiàn),數(shù)據(jù)挖掘作為專業(yè)技術(shù)領(lǐng)域當(dāng)中的一種專業(yè)性名詞,在高端的商業(yè)領(lǐng)域當(dāng)中也是需要修飾和升級(jí)的。現(xiàn)階段的大數(shù)據(jù)的有效發(fā)展已逐漸成為了增強(qiáng)我國(guó)市場(chǎng)經(jīng)濟(jì)競(jìng)爭(zhēng)力的至關(guān)重要的因素的一種,被譽(yù)為創(chuàng)新發(fā)展和生產(chǎn)力進(jìn)一步提升的下一個(gè)戰(zhàn)略目標(biāo),得到了各國(guó)的高度重視,相關(guān)國(guó)家的各個(gè)政府部門在對(duì)大數(shù)據(jù)的發(fā)展上給予了最大程度的幫助與支持,甚至將其有效發(fā)展升級(jí)到了國(guó)家的戰(zhàn)略發(fā)展層次上。
非結(jié)構(gòu)化處理流程的內(nèi)容主要包含了對(duì)數(shù)據(jù)信息方面的采集工作、網(wǎng)頁(yè)分類和網(wǎng)頁(yè)預(yù)處理等三個(gè)重要階段的內(nèi)容。
第一、信息采集。信息采集是指將沒有規(guī)則、順序的信息從海量的網(wǎng)頁(yè)數(shù)據(jù)當(dāng)中分門別類的提取出來(lái),并對(duì)其進(jìn)行有效的數(shù)據(jù)庫(kù)存整理錄入的過程。由于這些技術(shù)型的工作大部分是由具有專業(yè)技術(shù)能力的采集人員完成的,因此所采集到的信息具有一定的局限性,而且基于對(duì)成本和性能的考慮,達(dá)不到對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行全面覆蓋閱覽的目的,因此在對(duì)信息的采集方面技術(shù)人員要先考慮其是否有被訪問的價(jià)值,然后在研究以哪種形式對(duì)web進(jìn)行訪問,最大程度的提升對(duì)有用信息的采集率。
第二、網(wǎng)頁(yè)分類。網(wǎng)頁(yè)分類是指專業(yè)的數(shù)據(jù)信息處理人員利用對(duì)數(shù)據(jù)挖掘算法得出的分類模型,從而對(duì)數(shù)據(jù)進(jìn)行有效的分類處理,并得出對(duì)人類有價(jià)值的數(shù)據(jù)信息。目前對(duì)于數(shù)據(jù)挖掘中人們所面臨的重大問題就是對(duì)于網(wǎng)頁(yè)的分類,由于對(duì)物品進(jìn)行有效的分類,可以幫助人們正確的認(rèn)識(shí)世界,所以分類問題對(duì)于人類發(fā)展來(lái)說至關(guān)重要。
第三、網(wǎng)頁(yè)預(yù)處理。網(wǎng)頁(yè)預(yù)處理就是通過對(duì)數(shù)據(jù)進(jìn)行一對(duì)一的篩選過程,確保信息的準(zhǔn)確性和使用價(jià)值,主要是對(duì)網(wǎng)頁(yè)進(jìn)行的去重處理,基于對(duì)URL的去重對(duì)比上,通常適用于對(duì)哈希算法。在信息內(nèi)容的對(duì)比去重上則采用的是信息指紋的文本相似度算法,不管哪種方法,都是對(duì)網(wǎng)頁(yè)進(jìn)行的去重處理。首先,先要對(duì)文檔的內(nèi)容進(jìn)行分解處理,采用部分結(jié)合文檔的體征進(jìn)行的集中表達(dá),這樣主要是為了簡(jiǎn)化特征比較計(jì)算相似度。其次是針對(duì)與特征相對(duì)應(yīng)的壓縮碼進(jìn)行專業(yè)的處理,節(jié)省存儲(chǔ)空間,提高比較速度。最后對(duì)文檔的相似度進(jìn)行逐一計(jì)算,根據(jù)文檔特征的重合比例來(lái)確定是否對(duì)文檔進(jìn)行處理。
綜上所述,大數(shù)據(jù)時(shí)代下,對(duì)大數(shù)據(jù)的挖掘已成為未來(lái)時(shí)代發(fā)展的必然發(fā)展條件,是整個(gè)數(shù)據(jù)應(yīng)用過程的核心環(huán)節(jié)。通過對(duì)大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法的內(nèi)容分析可以得出,大數(shù)據(jù)的解析是通過把海量數(shù)據(jù)進(jìn)行逐一篩選、分門別類,并按順序整合錄入數(shù)據(jù)庫(kù)后,找出對(duì)人類未來(lái)發(fā)展有用的信息。通過對(duì)信息價(jià)值的進(jìn)一步分析,充分了解當(dāng)前大數(shù)據(jù)的結(jié)構(gòu),并對(duì)其進(jìn)行嚴(yán)格的把控,對(duì)數(shù)據(jù)采集應(yīng)用的有效發(fā)展具有重要意義。