秦文靜 四川交通職業(yè)技術(shù)學(xué)院
在計(jì)算機(jī)技術(shù)的發(fā)展過(guò)程中,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的發(fā)展歷史并不算長(zhǎng),但是由于市場(chǎng)的巨大需求和研發(fā)人員的不斷努力,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)得到了迅猛的發(fā)展。這是現(xiàn)代信息社會(huì)各種信息技術(shù)的結(jié)合領(lǐng)域,若是對(duì)該技術(shù)進(jìn)行嚴(yán)格的定義和劃分時(shí)較為困難的,現(xiàn)階段的信息化社會(huì),信息的交流速度已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)人們的想象,不僅有大量的需要記錄的數(shù)據(jù),而且還有許多需要進(jìn)行研究、分析和歸類的數(shù)據(jù),數(shù)據(jù)的大量變化就要求技術(shù)要能夠及時(shí)進(jìn)行更新跟上時(shí)代的發(fā)展,傳統(tǒng)技術(shù)在進(jìn)行大數(shù)據(jù)處理時(shí)往往存在覆蓋面較小的問(wèn)題,而基于不同學(xué)科之間技術(shù)的家算計(jì)數(shù)據(jù)挖掘技術(shù)則具有較大的覆蓋面,具體主要表現(xiàn)在:首先,該技術(shù)能夠根據(jù)數(shù)據(jù)自身具有的特點(diǎn)和屬性進(jìn)行有效的歸類,這樣便于存儲(chǔ)和查詢;其次,還能識(shí)別數(shù)據(jù)內(nèi)在中存在的不同點(diǎn),對(duì)數(shù)據(jù)進(jìn)行分類;再次,就是該技術(shù)還能識(shí)別不同類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,這樣就能建立數(shù)據(jù)之間的互聯(lián)關(guān)系;最后,就是可以對(duì)大數(shù)據(jù)進(jìn)行分析,根據(jù)數(shù)據(jù)之間存在的關(guān)系對(duì)該行業(yè)之后發(fā)展的趨勢(shì)進(jìn)行分析,而且具有極地的數(shù)據(jù)監(jiān)測(cè)錯(cuò)誤率。
傳統(tǒng)的數(shù)學(xué)上的統(tǒng)計(jì)方法,主要是包括對(duì)數(shù)據(jù)進(jìn)行記錄,然后利用抽樣、多維度分析和最后根據(jù)數(shù)據(jù)的分析做出預(yù)測(cè)這樣的統(tǒng)計(jì)方式。抽樣主要是對(duì)于數(shù)據(jù)較多時(shí),為了能夠?qū)τ跀?shù)據(jù)集準(zhǔn)確又不失科學(xué)性的研究而進(jìn)行對(duì)整體進(jìn)行抽樣;多維度分析則是對(duì)于較為復(fù)雜的數(shù)據(jù)進(jìn)行分解為不同的因子進(jìn)行分析。這些統(tǒng)計(jì)方法都是數(shù)學(xué)上的統(tǒng)計(jì)方法。
數(shù)據(jù)特征的表現(xiàn)一直都不是非常的明顯。在統(tǒng)計(jì)學(xué)上這種情況一般會(huì)采用加間數(shù)據(jù)制作成表格的形式來(lái)進(jìn)行分析,制作成表格不僅會(huì)對(duì)于數(shù)據(jù)具有一目了然的分析,而且還能把數(shù)據(jù)所包含的內(nèi)容至關(guān)的表現(xiàn)出來(lái)。主要是利用散點(diǎn)法等統(tǒng)計(jì)方法進(jìn)行分析。對(duì)具有較高可視化和高維度的數(shù)據(jù)來(lái)說(shuō),當(dāng)前如何將這些數(shù)據(jù)至關(guān)的體現(xiàn)所包含的內(nèi)容給技術(shù)急需解決的問(wèn)題。
在當(dāng)今的數(shù)據(jù)互聯(lián)時(shí)代,對(duì)于數(shù)據(jù)聯(lián)機(jī)進(jìn)行數(shù)據(jù)之間的溝通已經(jīng)成為計(jì)算機(jī)技術(shù)對(duì)于數(shù)據(jù)處理最基礎(chǔ)的技術(shù)。通過(guò)在不同計(jì)算機(jī)之間進(jìn)行聯(lián)機(jī)來(lái)實(shí)現(xiàn)對(duì)于多維度的復(fù)雜數(shù)據(jù)的分析,不同部門甚至是不同的行業(yè)之間的數(shù)據(jù)互聯(lián)要充分做好協(xié)調(diào)合作,這樣才能根據(jù)數(shù)據(jù)體現(xiàn)的信息進(jìn)行分析和對(duì)數(shù)據(jù)進(jìn)行篩選計(jì)算,從而能夠?qū)?shù)據(jù)進(jìn)行深層次的研究和分析。
樹(shù)狀圖一種較為常見(jiàn)而且應(yīng)用廣泛的統(tǒng)計(jì)學(xué)手段。主要是根據(jù)數(shù)據(jù)的類型然后按照一定的規(guī)則進(jìn)行劃分,主要是應(yīng)用于數(shù)據(jù)的劃分和統(tǒng)計(jì)。目前主要的算法都能夠?qū)τ跀?shù)據(jù)進(jìn)行決策歸納,具有數(shù)據(jù)處理的分類和連續(xù)屬性。
這是一種仿生學(xué)的技術(shù),主要是利用人類神經(jīng)元對(duì)于信息的敏感度和傳輸速度進(jìn)行的仿生技術(shù)。主要按照人類神經(jīng)元的信息傳輸和處理方式劃分為三層,以實(shí)現(xiàn)對(duì)于數(shù)據(jù)的存儲(chǔ)和傳輸。
優(yōu)勢(shì)一個(gè)典型的仿生學(xué)案例,主要是利用人類進(jìn)化論的自然科學(xué)知識(shí),根據(jù)生物進(jìn)化過(guò)程中出現(xiàn)的基因的各種改變而作為基礎(chǔ)的一種技術(shù)。根據(jù)試著生存這樣最為簡(jiǎn)單的生物進(jìn)化理論,來(lái)對(duì)于大數(shù)據(jù)進(jìn)行篩選和歸類處理。基于這一思想而得到的算法技術(shù),能夠?qū)τ跀?shù)據(jù)處理模型更進(jìn)一步的優(yōu)化處理。
在大型超市里面對(duì)于數(shù)據(jù)的管理就是這種技術(shù)最貼近生活的應(yīng)用。用戶咋購(gòu)買貨物時(shí)可以通過(guò)貨物管理系統(tǒng)和金錢POS機(jī)管理系統(tǒng)進(jìn)行對(duì)于商場(chǎng)的經(jīng)濟(jì)效益管理,尤其是在現(xiàn)今社會(huì)中移動(dòng)支付的便捷應(yīng)用和條形碼、二維碼等快捷連接應(yīng)用到移動(dòng)支付中。在市場(chǎng)中由于用戶的不斷增多,在某個(gè)階段甚至?xí)蔀槭袌?chǎng)數(shù)據(jù)統(tǒng)計(jì)的一種負(fù)擔(dān),為解決這一為題,在市場(chǎng)營(yíng)銷過(guò)程中,可以對(duì)于較為熟悉的客戶的購(gòu)買習(xí)慣、購(gòu)買行為等數(shù)據(jù)進(jìn)行記錄和分析,這樣能通過(guò)分析以此來(lái)判斷客戶的購(gòu)買意向和興趣,通過(guò)對(duì)于這些數(shù)據(jù)的總結(jié)能夠分析出該市場(chǎng)的經(jīng)濟(jì)效益主要來(lái)自于那些商品,能極大提高市場(chǎng)的市場(chǎng)營(yíng)銷能力和為市場(chǎng)之后的發(fā)展提供借鑒的數(shù)據(jù),有利于和其他市場(chǎng)進(jìn)行競(jìng)爭(zhēng)。對(duì)于超市和商場(chǎng)這樣的大型購(gòu)買機(jī)構(gòu),自由通過(guò)對(duì)于客戶的購(gòu)買數(shù)據(jù)進(jìn)行充分的挖掘,這樣才能夠準(zhǔn)確的分析出市場(chǎng)的走向和客戶購(gòu)買的的意向,這樣高層領(lǐng)導(dǎo)才能根據(jù)數(shù)據(jù)進(jìn)行科學(xué)的決策。而現(xiàn)今市場(chǎng)上的數(shù)據(jù)一般會(huì)分為兩類,一種是傳統(tǒng)的數(shù)據(jù)庫(kù)方式,另一種則是貨籃營(yíng)銷方式,前者主要是利用數(shù)據(jù)庫(kù)的優(yōu)勢(shì)對(duì)于客戶購(gòu)買的意向進(jìn)行分析,通過(guò)交互式互動(dòng)方式來(lái)對(duì)于潛在的客戶進(jìn)行篩選,這樣就可以有針對(duì)性的進(jìn)行市場(chǎng)營(yíng)銷策略,系統(tǒng)自動(dòng)分析客戶之間的關(guān)系,然后進(jìn)行維護(hù)。對(duì)于該貨物的零售階段的表現(xiàn)進(jìn)行記錄和分析,包括商品的購(gòu)買數(shù)量和售后的反饋等一系列數(shù)據(jù)。通過(guò)分析顧客和改商品之間購(gòu)買關(guān)系來(lái)發(fā)現(xiàn)一定的規(guī)律,然后通過(guò)打折等營(yíng)銷手段進(jìn)行商品的促銷工作。
投資分析和股票在市場(chǎng)之間的交流已經(jīng)成為金融市場(chǎng)主要的交流方式。在對(duì)于金融領(lǐng)域進(jìn)行分析時(shí),要充分考慮到市場(chǎng)的影響以及該行業(yè)的特殊性。因此一般會(huì)采用模擬預(yù)測(cè)的方法來(lái)進(jìn)行分析,包括數(shù)據(jù)統(tǒng)計(jì)回歸技術(shù)等。由于金融行業(yè)投資的特殊性和較大的風(fēng)險(xiǎn)性,在投資之前必須對(duì)于該行業(yè)數(shù)據(jù)的各個(gè)方面進(jìn)行分析,盡量規(guī)避投資中的風(fēng)險(xiǎn)和陷阱,做到投資的穩(wěn)定性。而任何事物都可定具有一定發(fā)展規(guī)律的這一自然定律,在股票市場(chǎng)從開(kāi)始投資到股票市場(chǎng)的變化都可以根據(jù)一定的數(shù)據(jù)分析進(jìn)行簡(jiǎn)單的預(yù)測(cè)和分析.在對(duì)于已經(jīng)擁有的數(shù)據(jù)進(jìn)行整理和分析過(guò)程中,要結(jié)合現(xiàn)在的形勢(shì)進(jìn)行分析,同時(shí)要對(duì)不同數(shù)據(jù)之間的關(guān)系進(jìn)行充分的深層次挖掘,根據(jù)一定的科學(xué)的模式進(jìn)行預(yù)測(cè)。鑒于股票市場(chǎng)的復(fù)雜性,這中間充斥著錯(cuò)誤的數(shù)據(jù)和結(jié)論,航多股票機(jī)構(gòu)為了吸引股民能夠入股,因此存在明顯的惡意欺詐行為等不道德甚至違法的行為,這些不僅會(huì)嚴(yán)重影響股民的利益,而且還會(huì)對(duì)國(guó)家的經(jīng)濟(jì)造成不好的影響,這是就需要通過(guò)對(duì)比和分析和之前數(shù)據(jù)的方式進(jìn)行甄別,分析不同詐騙行為之間的共性和不同點(diǎn),在對(duì)比過(guò)程中總結(jié)經(jīng)驗(yàn),對(duì)于之后可能存在的詐騙行為進(jìn)行大量宣傳,開(kāi)發(fā)相應(yīng)的軟件能夠?qū)εc投資的風(fēng)險(xiǎn)進(jìn)行評(píng)估,這樣不僅能夠降低危險(xiǎn)投資的風(fēng)險(xiǎn)性,而且還能極大的抑制金融方面的犯罪活動(dòng)。
隨著電子行業(yè)的不斷進(jìn)步和發(fā)展,半導(dǎo)體制造業(yè)已經(jīng)成為衡量國(guó)家生產(chǎn)水平的關(guān)鍵產(chǎn)業(yè)。在半導(dǎo)體的生產(chǎn)和測(cè)試過(guò)程中都會(huì)產(chǎn)生大量數(shù)據(jù),通過(guò)計(jì)算機(jī)技術(shù)的與數(shù)據(jù)的挖掘能夠分析出產(chǎn)品質(zhì)量的好壞和產(chǎn)品對(duì)于市場(chǎng)的適應(yīng)程度。在電子商務(wù)中,數(shù)據(jù)挖掘技術(shù)也能夠通過(guò)對(duì)于數(shù)據(jù)的挖掘,來(lái)分析客戶的網(wǎng)上瀏覽記錄以此來(lái)分析該客戶的電子商務(wù)購(gòu)買經(jīng)驗(yàn)。
數(shù)據(jù)挖掘過(guò)程分為數(shù)據(jù)準(zhǔn)備、模式發(fā)現(xiàn)、結(jié)果表達(dá)和解釋三個(gè)主要階段,圖1給出了交通數(shù)據(jù)挖掘的系統(tǒng)模型。
ETL及數(shù)據(jù)預(yù)處理為交通信息的模式發(fā)現(xiàn)提供一個(gè)干凈、一致、集成、歸約(reduction)的數(shù)據(jù)集-交通信息數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)挖掘任務(wù)管理在數(shù)據(jù)挖掘算法集中選擇完成挖掘任務(wù)的算法,在交通數(shù)據(jù)倉(cāng)庫(kù)中選擇挖掘算法應(yīng)用的數(shù)據(jù),執(zhí)行相應(yīng)的挖掘操作,將挖掘得到的模式保存到交通信息模式庫(kù)。
交通數(shù)據(jù)挖掘系統(tǒng)的系統(tǒng)模型提供了一個(gè)多層的應(yīng)用體系結(jié)構(gòu),將數(shù)據(jù)挖掘功能的實(shí)現(xiàn)分為應(yīng)用層、分析邏輯層、算法工具層和數(shù)據(jù)層。應(yīng)用層是用戶調(diào)用分析邏輯所設(shè)立的分析功能的入口,分析邏輯則表現(xiàn)了應(yīng)用系統(tǒng)的分析能力。多層體系結(jié)構(gòu)能夠在跨平臺(tái)、網(wǎng)絡(luò)環(huán)境下應(yīng)用,應(yīng)用系統(tǒng)可以根據(jù)需要采用靈活的方式,如B/S、C/S等。在交通數(shù)據(jù)挖掘中,分析功能的抽取及響應(yīng)、數(shù)據(jù)挖掘算法的選取、設(shè)計(jì)是一個(gè)難題,需要交通系統(tǒng)的利用知識(shí)和數(shù)據(jù)挖掘技術(shù)的緊密結(jié)合。分析邏輯層將分析模型從實(shí)際分析需求中提取出來(lái),完成一定的獨(dú)立分析功能,由一個(gè)或多個(gè)數(shù)據(jù)挖掘算法具體實(shí)現(xiàn),每個(gè)分析模型都是獨(dú)立的功能單位。
算法工具層集中了交通流分析需要的算法及相關(guān)計(jì)算工具,如挖掘各種模型的數(shù)據(jù)挖掘算法、統(tǒng)計(jì)方法、相似性度量方法等,是各個(gè)獨(dú)立的算法工具的集合。在算法工具層,除了數(shù)據(jù)挖掘算法外,還應(yīng)當(dāng)由數(shù)據(jù)挖掘算法所需要的輔助工具,如對(duì)于聚類算法,相似性度量或距離函數(shù)是關(guān)系到聚類質(zhì)量的核心問(wèn)題,不同的相似性獨(dú)立或距離函數(shù)針對(duì)不同的數(shù)據(jù)或分析目標(biāo),在算法中可以根據(jù)需要來(lái)選擇配置。
交通數(shù)據(jù)挖掘系統(tǒng)與其他智能交通系統(tǒng)的應(yīng)用接口,并接收應(yīng)用系統(tǒng)的反饋信息對(duì)交通信息模型庫(kù)的模式進(jìn)行解釋與評(píng)價(jià)。
交通數(shù)據(jù)種類繁多,分布在各種智能交通應(yīng)用系統(tǒng)中,具有異構(gòu)、層次的特點(diǎn),交通數(shù)據(jù)挖掘需要將各種交通數(shù)據(jù)從操作數(shù)據(jù)庫(kù)中抽取出來(lái),經(jīng)過(guò)清洗、轉(zhuǎn)換、裝載等一系列處理,集成到一個(gè)統(tǒng)一的本地交通信息數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供有效的數(shù)據(jù)處理平臺(tái),許多數(shù)據(jù)挖掘功能,如分類、關(guān)聯(lián)、聚類等,都可以與各種粒度的多維數(shù)據(jù)分析OLAP操作集成,在多個(gè)抽象層上交互數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘技術(shù)是一種數(shù)據(jù)處理的重要手段,雖然在某些方面還是存在缺陷,但是在現(xiàn)今社會(huì)的很多方面都能夠發(fā)揮其作用,不僅能夠分析市場(chǎng)形勢(shì),還能夠根據(jù)數(shù)據(jù)存在的信息對(duì)風(fēng)險(xiǎn)進(jìn)行規(guī)避,這能極大的提高這些行業(yè)的經(jīng)濟(jì)效益?,F(xiàn)階段數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用廣泛,隨著數(shù)據(jù)庫(kù)不斷應(yīng)用到各行各業(yè),過(guò)去很多在數(shù)據(jù)處理上的難題都能夠得到處理和解決。
[1]鄭繼剛.數(shù)據(jù)挖掘研究的現(xiàn)狀與發(fā)展趨勢(shì)[J].紅河學(xué)院學(xué)報(bào),2010,12:44-46.
[2]朱世武.數(shù)據(jù)挖掘運(yùn)用的理論與技術(shù)[J].統(tǒng)計(jì)研究,2003,08:12-14.
[3]李華.數(shù)據(jù)挖掘理論及應(yīng)用研究[J].斷塊油氣田,2010,01:51-54.