遼寧 劉旭
數(shù)據(jù)挖掘技術(shù)淺析
遼寧 劉旭
在浩瀚的數(shù)據(jù)海洋中,人們常常陷入渴望有效信息而無(wú)法入手的尷尬局面,傳統(tǒng)的統(tǒng)計(jì)方式雖然可以實(shí)現(xiàn)空間數(shù)據(jù)的錄入、修改、統(tǒng)計(jì)、查詢等功能,但卻不能很好的發(fā)現(xiàn)隱藏在空間數(shù)據(jù)中的關(guān)系、規(guī)律等信息。這就使得數(shù)據(jù)豐富,而知識(shí)貧乏的問(wèn)題越來(lái)越突出。通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行加工,能夠準(zhǔn)確、高效地從數(shù)據(jù)海洋中找到答案獲得價(jià)值信息,本文對(duì)這一技術(shù)進(jìn)行探討。
數(shù)據(jù)處理;數(shù)據(jù)挖掘;信息
在過(guò)去的幾十年中,計(jì)算機(jī)硬件得到了穩(wěn)步、快速的發(fā)展,隨著功能強(qiáng)大的計(jì)算機(jī)、數(shù)據(jù)收集設(shè)備和存儲(chǔ)介質(zhì)的大量供應(yīng),推動(dòng)了數(shù)據(jù)庫(kù)和信息產(chǎn)業(yè)的發(fā)展,使得人類擁有的數(shù)據(jù)量急劇增加,并且正以幾何級(jí)數(shù)或指數(shù)級(jí)數(shù)增長(zhǎng)。如今,如何分析這些海量的數(shù)據(jù)成為了各個(gè)領(lǐng)域的巨大挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來(lái)越顯示出其強(qiáng)大的生命力。
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)采掘、數(shù)據(jù)開采,相近的術(shù)語(yǔ)有KDD(數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn))、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)、決策支持等。根據(jù)w.J.Frawley和G.P.Shapiro等人的定義,數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)。而這些知識(shí)是隱含的、事先未知的、潛在的有用信息。它綜合利用了統(tǒng)計(jì)學(xué)方法,模糊識(shí)別技術(shù),人工智能方法,人工神經(jīng)網(wǎng)絡(luò)技術(shù)等相關(guān)技術(shù),并對(duì)各行各業(yè)的生產(chǎn)數(shù)據(jù),管理數(shù)據(jù)和經(jīng)營(yíng)數(shù)據(jù)進(jìn)行處理、組織、分析、綜合和解釋,以期從這些數(shù)據(jù)中挖掘并揭示出客觀規(guī)律,反映內(nèi)在聯(lián)系和預(yù)測(cè)發(fā)展趨勢(shì)的知識(shí)。
人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過(guò)程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。
決策樹是通過(guò)一系列對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程,它從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。決策樹分類方法采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論。所以從決策樹的根到葉節(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則,整棵決策樹就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。其優(yōu)點(diǎn)是可將數(shù)據(jù)規(guī)則可視化,構(gòu)造時(shí)間段,輸出易于理解,故而多用于只是發(fā)現(xiàn)的系統(tǒng)中。
神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。其優(yōu)點(diǎn)是有很高的抗干擾能力和可對(duì)未訓(xùn)練數(shù)據(jù)進(jìn)行分類,其不足之處是訓(xùn)練時(shí)間較長(zhǎng)以及可解釋性差。
遺傳算法是于解決最優(yōu)化的搜索算法,是進(jìn)化算法的一種。進(jìn)化算法最初是借鑒了進(jìn)化生物學(xué)中的一些現(xiàn)象而發(fā)展起來(lái)的,這些現(xiàn)象包括遺傳、突變、自然選擇以及雜交等。遺傳算法善于解決全局最優(yōu)化的問(wèn)題。
最典型的類比學(xué)習(xí)方法是K一最近鄰方法,它屬于懶散學(xué)習(xí)法,相比決策樹等急切學(xué)習(xí)法,它具有訓(xùn)練時(shí)間短,但分類時(shí)間長(zhǎng)的特點(diǎn)。K-最近鄰算法可以用于分類和聚類中。類比學(xué)習(xí)的思路非常簡(jiǎn)單,當(dāng)預(yù)測(cè)未來(lái)情況或進(jìn)行正確分類時(shí),系統(tǒng)尋找與現(xiàn)有情況類似的事例,并選擇最佳的相同的解決方案。
關(guān)聯(lián)規(guī)則挖掘是用以發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間相關(guān)聯(lián)系的,關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可以分為兩個(gè)方面:頻繁項(xiàng)集的發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則的提取。其中,發(fā)現(xiàn)或識(shí)別所有頻繁項(xiàng)目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心和基礎(chǔ),也是計(jì)算量最大的部分。關(guān)系數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則的挖掘目前有兩種思路:一是,基于傳統(tǒng)關(guān)聯(lián)規(guī)則的思想;二是,直接利用結(jié)構(gòu)化查詢語(yǔ)言SQL來(lái)實(shí)現(xiàn)。若數(shù)據(jù)集中的屬性都是布爾值,則此數(shù)據(jù)集中挖掘的關(guān)聯(lián)規(guī)則就都是布爾關(guān)聯(lián)規(guī)則。Apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則的典型算法,布爾關(guān)聯(lián)規(guī)則算法又是最典型得一種關(guān)聯(lián)規(guī)則挖掘算法。許多其它關(guān)聯(lián)規(guī)則挖掘算法都基于布爾關(guān)聯(lián)規(guī)則挖掘算法,并且許多其它屬性的數(shù)據(jù)的關(guān)聯(lián)關(guān)系挖掘也都可以轉(zhuǎn)化為布爾關(guān)聯(lián)規(guī)則挖掘算法。
除上述數(shù)據(jù)挖掘方法外還有統(tǒng)計(jì)分析、貝葉斯分類、粗糙集等方法,他們之間既相互獨(dú)立又相互補(bǔ)充。
數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛地應(yīng)用于金融業(yè)、零售業(yè)、遠(yuǎn)程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)以及體育事業(yè)中,而它在網(wǎng)絡(luò)中的應(yīng)用也正在成為一個(gè)熱點(diǎn)。
運(yùn)用網(wǎng)絡(luò)用法挖掘技術(shù)能夠從服務(wù)器以及瀏覽器端的日志記錄中自動(dòng)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解系統(tǒng)的訪問(wèn)模式以及用戶的行為模式,從而做出預(yù)測(cè)性分析。例如通過(guò)評(píng)價(jià)用戶對(duì)某一信息資源瀏覽所花的時(shí)間,可以判斷出用戶對(duì)資源興趣如何;對(duì)日志文件所收集到的域名數(shù)據(jù),根據(jù)國(guó)家或類型(.com,.edu,.gov)進(jìn)行分類分析;應(yīng)用聚類分析來(lái)識(shí)別用戶的訪問(wèn)動(dòng)機(jī)和訪問(wèn)趨勢(shì)等。
通過(guò)對(duì)網(wǎng)站內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息,例如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;通過(guò)對(duì)用戶訪問(wèn)日志記錄信息的挖掘,把握用戶的興趣,有助于開展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù)。
用搜索引擎進(jìn)行數(shù)據(jù)挖掘的最大特色體現(xiàn)在它所采用的對(duì)網(wǎng)頁(yè)Links信息的挖掘技術(shù)上。如通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容挖掘,可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類、分類,實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;通過(guò)用戶所使用的提問(wèn)式的歷史記錄的分析,可以有效地進(jìn)行提問(wèn)擴(kuò)展,提高用戶的檢索效果(查全率,precision;查準(zhǔn)率,recall);運(yùn)用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果。上面僅僅列舉了網(wǎng)絡(luò)信息挖掘技術(shù)在這三個(gè)方面的應(yīng)用這項(xiàng)技術(shù)的應(yīng)用正變得越來(lái)越廣泛,用戶對(duì)高品質(zhì)、個(gè)性化的信息需求必將推動(dòng)學(xué)術(shù)界與實(shí)業(yè)界的研究開發(fā)工作。
數(shù)據(jù)挖掘技術(shù)為軟件測(cè)試數(shù)據(jù)生成和軟件可靠性評(píng)估提供了新的思路和方法軟件結(jié)構(gòu)測(cè)試數(shù)據(jù)生成一直是困擾軟件測(cè)試人員的一個(gè)難題。通過(guò)手工方式設(shè)計(jì)測(cè)試數(shù)據(jù)的方法效率低,工作量大,數(shù)據(jù)挖掘中的遺傳算法以其啟發(fā)式的搜索尋優(yōu)方式為軟件結(jié)構(gòu)測(cè)試數(shù)據(jù)生成提供了高效的方法。
傳統(tǒng)軟件可靠性模型適用性差,局限了模型的實(shí)際應(yīng)用。軟件可靠性評(píng)估是一個(gè)復(fù)雜的決策過(guò)程,正確的決策需要建立在對(duì)知識(shí)充分掌握的基礎(chǔ)上。數(shù)據(jù)挖掘中的人工神經(jīng)網(wǎng)絡(luò)利用龐大的歷史數(shù)據(jù),通過(guò)機(jī)器的自學(xué)習(xí)能力,智能地分析、生成評(píng)估規(guī)則。由于其基于的是歷史數(shù)據(jù),而非模型假設(shè),所以它具有比傳統(tǒng)可靠性模型更好的適用性與通用性。
數(shù)據(jù)挖掘是目前國(guó)際上數(shù)據(jù)庫(kù)和信息決策領(lǐng)域的前沿研究方向之一,也是當(dāng)前計(jì)算機(jī)領(lǐng)域的一大熱點(diǎn),其研究的重點(diǎn)也逐漸從理論轉(zhuǎn)移到了系統(tǒng)應(yīng)用,隨著技術(shù)的不斷成熟,未來(lái)的應(yīng)用領(lǐng)域也會(huì)更加廣泛。只有更加深入的研究透了數(shù)據(jù)挖掘相關(guān)的理論,才能使其對(duì)未來(lái)社會(huì)的發(fā)展起到更積極的作用。
[1]趙巖.數(shù)據(jù)挖掘理論與技術(shù)[J].福建電腦,2006,02.
[2]薛慧君.數(shù)據(jù)挖掘技術(shù)及其在電子商務(wù)中的應(yīng)用研究[J].內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,04.
[3]張嫻.數(shù)據(jù)挖掘技術(shù)及其在金融領(lǐng)域的應(yīng)用[J].金融教學(xué)與研究,2003,04.
[4]劉慧巍,張雷,翟軍呂.數(shù)據(jù)挖掘中決策樹算法的研究及其改進(jìn)[J].遼寧師專學(xué)報(bào),2005,7(4):23-24.
[5]吳晨.數(shù)據(jù)挖掘技術(shù)在軟件可靠性測(cè)試與評(píng)估中的應(yīng)用與研究[D].上海:同濟(jì)大學(xué),2008:22-23.
[6]毛弟弟,郝忠孝.關(guān)系數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則挖掘的算法研究[J].哈爾濱理工大學(xué)學(xué)報(bào).2009,4,14,增刊 1:15-17.
(編輯 呂智飛)
(作者單位:遼寧信息職業(yè)技術(shù)學(xué)院)