摘要:知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘是空間數(shù)據(jù)獲取、空間數(shù)據(jù)庫(kù)、空間計(jì)算機(jī)以及網(wǎng)絡(luò)通信、管理決策支持等技術(shù)發(fā)展到一定階段的產(chǎn)物,作為一門(mén)新型的邊緣學(xué)科,其匯聚了例如人工智能、數(shù)據(jù)庫(kù)、模式識(shí)別等多種學(xué)科的研究成果。本文將簡(jiǎn)要介紹知識(shí)發(fā)現(xiàn)與挖掘技術(shù)的相關(guān)概念、過(guò)程及常用的技術(shù)方法, 并介紹一下知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的應(yīng)用。
關(guān)鍵詞:空間數(shù)據(jù)挖掘;知識(shí)發(fā)現(xiàn);方法
中圖分類(lèi)號(hào):P208 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 09-0000-02
科技發(fā)展日新月異,網(wǎng)絡(luò)技術(shù)的發(fā)展將整個(gè)世界聯(lián)成一體,人們可以超越時(shí)空的概念,利用網(wǎng)絡(luò),相互之間進(jìn)行信息交換、協(xié)同工作,這種信息交換與工作協(xié)同在方便了人們的同時(shí)必然造成信息與數(shù)據(jù)的無(wú)限擴(kuò)張,會(huì)使人們?cè)谔崛∮杏眯畔⒑椭R(shí)時(shí),如同大海撈針一樣無(wú)力,面對(duì)大量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析手段難以應(yīng)付,導(dǎo)致越來(lái)越嚴(yán)重的數(shù)據(jù)災(zāi)難,為了有效解決這一問(wèn)題,知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘技術(shù)開(kāi)始出現(xiàn)。
一、特點(diǎn)及過(guò)程
(一)特點(diǎn)
作為一門(mén)新興學(xué)科,知識(shí)發(fā)現(xiàn)具有極大的發(fā)展前途和有廣泛應(yīng)用前景,知識(shí)發(fā)現(xiàn)是用一種簡(jiǎn)潔的方式從大量數(shù)據(jù)中抽取信息的一種技術(shù),知識(shí)發(fā)現(xiàn)不需要預(yù)先進(jìn)行假設(shè)或者提出問(wèn)題,就可以找到那些非預(yù)期的有用的或有潛在價(jià)值的信息,是一種有價(jià)值的搜尋過(guò)程。
數(shù)據(jù)挖掘也稱(chēng)知識(shí)挖掘,可以看成數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從大量龐雜的數(shù)據(jù)中獲取信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘其一開(kāi)始出現(xiàn)的目的就是應(yīng)用,因此數(shù)據(jù)挖掘的研究成果是很講求實(shí)際的。數(shù)據(jù)挖掘技術(shù)不是簡(jiǎn)單的數(shù)據(jù)庫(kù)的檢索、調(diào)用,而是對(duì)數(shù)據(jù)進(jìn)行全方位的統(tǒng)計(jì)、分析和推理, 以指導(dǎo)實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。
(二)過(guò)程
知識(shí)發(fā)現(xiàn)的內(nèi)涵與知識(shí)挖掘,知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的整個(gè)過(guò)程,數(shù)據(jù)挖掘是具體這個(gè)過(guò)程的關(guān)鍵步驟,因此,知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘通常在使用時(shí)是不加區(qū)分的。一個(gè)完整的知識(shí)挖掘過(guò)程如下:
數(shù)據(jù)庫(kù)→數(shù)據(jù)的準(zhǔn)備→數(shù)據(jù)挖掘→知識(shí)評(píng)價(jià)→知識(shí)表示→知識(shí)庫(kù)。
二、方法
知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘方法有很多,其中比較常見(jiàn)的有以下幾種:
(一)空間分析法
空間分析法是一種總稱(chēng),其利用一定的技術(shù)理論對(duì)空間的疊置、拓?fù)浣Y(jié)構(gòu)、圖像以及距離好空間緩沖區(qū)進(jìn)行分析,把探測(cè)性的數(shù)據(jù)分析與空間分析相結(jié)合,構(gòu)成探測(cè)性的空間分析,聚焦數(shù)據(jù),發(fā)現(xiàn)隱含在其中的特征和規(guī)律。
(二)統(tǒng)計(jì)分析法
統(tǒng)計(jì)分析法是一種通過(guò)對(duì)研究對(duì)象的規(guī)模、范圍數(shù)量關(guān)系信息的分析研究,認(rèn)識(shí)和揭示事物間的相互關(guān)系、變化規(guī)律和發(fā)展趨勢(shì),進(jìn)一步進(jìn)行對(duì)象評(píng)估、特征預(yù)測(cè)、規(guī)律統(tǒng)計(jì),借以達(dá)到對(duì)事物的正確解釋和預(yù)測(cè)的一種研究方法。
(三)聚類(lèi)方法
聚類(lèi)分析是基于物理特性的聚類(lèi)或分類(lèi),根據(jù)一定的標(biāo)準(zhǔn)大型多維空間數(shù)據(jù)集,以確定相應(yīng)的區(qū)域,數(shù)據(jù)被分為一組的一系列相互區(qū)分,發(fā)現(xiàn)法律數(shù)據(jù)集。作為統(tǒng)計(jì)學(xué)的一個(gè)分支,聚類(lèi)分析無(wú)需背景知識(shí)可以直接發(fā)現(xiàn)有意義的空間聚類(lèi)結(jié)構(gòu)。
(四)遺傳算法
遺傳算法是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過(guò)程的計(jì)算模型,是一種通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法,其主要特點(diǎn)是直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定;具有內(nèi)在的隱并行性和更好的全局尋優(yōu)能力;采用概率化的尋優(yōu)方法,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則,能在搜索過(guò)程中自動(dòng)獲取和積累有關(guān)搜索空間的知識(shí),并可通過(guò)自適應(yīng)機(jī)制控制搜索過(guò)程以求得最優(yōu)解。
(五)神經(jīng)網(wǎng)絡(luò)方法
這種方法利用神經(jīng)元練成網(wǎng)絡(luò),通過(guò)這種形式使系統(tǒng)成為具有存儲(chǔ)、聯(lián)想等一些列的功能的自適應(yīng)非線性動(dòng)態(tài)系統(tǒng)。這種方法的優(yōu)點(diǎn)是具有并行性、直觀性和抗噪聲性。
(六)模糊集理論
模糊集用模糊隸屬函數(shù)確定的隸屬度描述不精確的屬性數(shù)據(jù),重在處理空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)中不精確的概率。我們都知道模糊是一種客觀存在,一個(gè)系統(tǒng)越復(fù)雜,精確化就越難,因此模糊性就越強(qiáng)。在根據(jù)模糊集理論,類(lèi)型和空間實(shí)體分別作為模糊集合和集合元素。在空間數(shù)據(jù)挖掘中,模糊集可用作模糊決策、模糊評(píng)判、模糊聚類(lèi)分析、模糊模式識(shí)別、計(jì)算置信度和合成證據(jù)等。
(七)粗集理論
粗糙集是上近似和下近似集組成,然后以此為基礎(chǔ)來(lái)處理不精確,不確定和不完整的信息,智能數(shù)據(jù)決策的工具,更恰當(dāng)?shù)鼗诳臻g數(shù)據(jù)挖掘的屬性不確定性。
(八)云模型
云模型是一種新的方法,它用自然語(yǔ)言值表示定性概念與其定量數(shù)據(jù)表示之間的不確定性轉(zhuǎn)換模型,反應(yīng)的是客觀世界中的概念的隨機(jī)性和模糊性,并將二者緊密集合,集成在一起構(gòu)成定量與定性間的映射。
(九)決策樹(shù)
決策樹(shù)方法是,根據(jù)不同的特點(diǎn),分類(lèi)或決策樹(shù)結(jié)構(gòu)的集合,從而創(chuàng)造發(fā)現(xiàn)的規(guī)則和模式,僅僅意味著一個(gè)簡(jiǎn)單的產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律。
三、應(yīng)用
知識(shí)發(fā)現(xiàn)與挖掘技術(shù)在信息發(fā)現(xiàn)與信息提供發(fā)面都有著重要意義。
(一)在信息發(fā)現(xiàn)中的應(yīng)用
其在信息發(fā)現(xiàn)中的應(yīng)用主要有以下幾種:
1. Web 數(shù)據(jù)開(kāi)采
隨著網(wǎng)絡(luò)的普及,互聯(lián)網(wǎng)已經(jīng)廣泛的應(yīng)用于人們生產(chǎn)生活的各個(gè)方面,可以說(shuō)人們對(duì)此并不陌生,我們知道,人們所獲取的信息大部分都要來(lái)自于因特網(wǎng),而因特網(wǎng)的數(shù)據(jù)信息不僅龐雜,更是非結(jié)構(gòu)的、無(wú)序的、動(dòng)態(tài)的,要想在因特網(wǎng)上獲取符合要求的信息,對(duì)用戶來(lái)說(shuō)十分困難,基于此,Web 數(shù)據(jù)開(kāi)采作為一項(xiàng)已解決上述問(wèn)題為目的的新技術(shù)被人們提了出來(lái)。Web 數(shù)據(jù)開(kāi)采由信息采集、識(shí)別、分類(lèi)構(gòu)成其實(shí)現(xiàn)過(guò)程,就目前來(lái)說(shuō),它主要有網(wǎng)絡(luò)智能體和智能信息捕捉器兩種實(shí)現(xiàn)形式。所謂智能體就是一個(gè)具有控制問(wèn)題求解機(jī)理的計(jì)算單元,智能體具有一定的智能型,可以模擬人類(lèi)的行為和關(guān)系,可以自主運(yùn)行并提供相應(yīng)的服務(wù)。用戶在智能體的神經(jīng)網(wǎng)絡(luò)技術(shù)引導(dǎo)下,可以很迅速的進(jìn)入所需頁(yè)面,通常情況下這些頁(yè)面都是需要通過(guò)長(zhǎng)時(shí)間的交互才能到達(dá)的。智能捕捉器以自動(dòng)捕捉、采集和整理領(lǐng)域所需信息為目的, 其根據(jù)用戶輸入的對(duì)捕捉需求的定義進(jìn)行查找,先查找到信息源登記表,然后根據(jù)信息源提供的信息粒度進(jìn)行篩選找出信息源,再根據(jù)模型算法確定并選取最佳搜索路徑,按邏輯式自動(dòng)組織搜索關(guān)鍵字,還可以同時(shí)對(duì)應(yīng)多個(gè)特定領(lǐng)域范圍內(nèi)的信息捕捉。
2.智能搜索引擎
面對(duì)無(wú)邊的數(shù)據(jù)海洋,智能搜索引擎是很好的應(yīng)用工具,智能搜索引擎的檢索機(jī)制是關(guān)鍵詞匹配原則,可以幫助用戶更好的尋找信息資源。目前的搜索引擎還不完善,有著諸如不劃分知識(shí)領(lǐng)域、知識(shí)量少等一些列問(wèn)題,其搜索的效率并不高,因此人們開(kāi)始著眼于智能搜索引擎的開(kāi)發(fā),智能搜索引擎很好的彌補(bǔ)了現(xiàn)行搜索引擎的不足。
3.多語(yǔ)種信息發(fā)現(xiàn)
多語(yǔ)種信息資源使人們?cè)讷@取知識(shí)時(shí)的最大障礙,一直以來(lái),地理和語(yǔ)言的障礙都使人們獲取知識(shí)時(shí)產(chǎn)生一定的困難,隨著科技的發(fā)展,人們研究出多語(yǔ)種信息發(fā)現(xiàn),這可以很好的解決多語(yǔ)種障礙,使地球成為名符其實(shí)的地球村,實(shí)現(xiàn)信息數(shù)據(jù)資源的真正共享。多語(yǔ)種信息發(fā)現(xiàn)主要應(yīng)用在多語(yǔ)種電子文檔獲取、翻譯、檢索方面。
(二)在信息提供中的應(yīng)用
知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘技術(shù)在信息提供中主要應(yīng)用在以下幾個(gè)方面:
1.知識(shí)共享
知識(shí)共享是一個(gè)我們十分熟悉的詞匯,這種共享發(fā)生在一個(gè)虛擬的團(tuán)體中,這個(gè)團(tuán)體的成員依靠網(wǎng)絡(luò)相互聯(lián)系、相互支持、資源共享一次可以更快更好的解決問(wèn)題。
2.信息智能“推”
所謂信息智能推是指在信息的搜索過(guò)程中,機(jī)器通過(guò)關(guān)鍵詞識(shí)別和預(yù)測(cè)用戶的興趣或偏好, 從而及時(shí)地、有針對(duì)性地向用戶主動(dòng)推送相關(guān)知識(shí)和最新信息,這樣既可以減輕網(wǎng)絡(luò)負(fù)擔(dān),也可以擴(kuò)大用戶范圍。
3.其他
除了上述兩種外還有個(gè)性化服務(wù)、互動(dòng)式服務(wù)和語(yǔ)義交互,就不一一贅述了。
四、結(jié)束語(yǔ)
知識(shí)發(fā)現(xiàn)與知識(shí)挖掘作為新興的研究領(lǐng)域,已經(jīng)得到了廣泛的應(yīng)用,但是作為一項(xiàng)嶄新的技術(shù),知識(shí)發(fā)現(xiàn)與知識(shí)挖掘目前仍處于起步階段,仍有很多研究難題有待解決,比如數(shù)據(jù)訪問(wèn)的效率和可伸縮性,發(fā)現(xiàn)模式的精煉等等,所以對(duì)它的研究將會(huì)一直持續(xù)下去,其應(yīng)用前景也會(huì)更加美好。
參考文獻(xiàn):
[1]楊武,陳莊.數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)技術(shù)及應(yīng)用[J].重慶工學(xué)院學(xué)報(bào):自然科學(xué)版,2001,15(2):32-34
[2]韓惠琴,劉柏嵩.數(shù)字圖書(shū)館中的知識(shí)發(fā)現(xiàn)[J].情報(bào)學(xué)報(bào),2001,20(3):16-19
[3]李德仁,王樹(shù)良,史文中.論空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)[J].武漢大學(xué)學(xué)報(bào)?信息科學(xué)版,2001,26(6):491-499
[4]白石磊,毛雪岷,王儒敬.基于數(shù)據(jù)庫(kù)和知識(shí)庫(kù)的知識(shí)發(fā)現(xiàn)研究綜述[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2003(1):136- 138
[5]羅敏霞.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的技術(shù)方法及應(yīng)用(上)[J].運(yùn)城學(xué)院學(xué)報(bào),2005,23(2):1
計(jì)算機(jī)光盤(pán)軟件與應(yīng)用2012年9期