□李明敏 李玉壯 鐘佰霖 任利峰
信息技術隨著時代的發(fā)展而快速發(fā)展,數(shù)據(jù)庫作為計算機領域的重要環(huán)節(jié)也不斷復雜多樣,其結果就造成了大量的數(shù)據(jù)成為所需數(shù)據(jù)的“絆腳石”,因為巨額的垃圾數(shù)據(jù)增多,傳統(tǒng)模式下的查詢、報表工具已經(jīng)無法對數(shù)據(jù)進行挖掘。因此,能夠處理巨額的數(shù)據(jù)并從中取得所需要的數(shù)據(jù)的數(shù)據(jù)挖掘技術應運而生。
大數(shù)據(jù),又叫做巨量資料,它指的是相關數(shù)據(jù)量的規(guī)模宏大到通過人腦以及主流的軟件工具處理仍然十分吃力,以在規(guī)定的時間內(nèi)管理、處理、并整合成為有用的信息為目的。簡單說大數(shù)據(jù)就是其內(nèi)存儲的數(shù)據(jù)數(shù)量十分巨大并且存儲的數(shù)據(jù)十分混雜,使用常規(guī)的處理方法沒有辦法歸類的宏大數(shù)據(jù)團。如何理解大數(shù)據(jù),大數(shù)據(jù)是一個集合,這個集合是指在規(guī)定的范圍內(nèi)常規(guī)工具沒有起到發(fā)現(xiàn)、整治和修改數(shù)據(jù)集合的作用,對于這種擁有的數(shù)據(jù)非常多并且表現(xiàn)出多種復雜關系的數(shù)據(jù),并且能夠使擁有的信息快速增長,這種操作方法就需求新的處理方法,使用這種方法能夠使決策的能力、洞察的能力和工作流程更加簡便并且節(jié)省時間。文章《大數(shù)據(jù)時代》中的作者維克托·邁爾-舍恩伯格和肯尼斯·庫克耶們表明了對大數(shù)據(jù)的定義,大數(shù)據(jù)擁有五個非常明顯的特點:數(shù)量巨大、數(shù)據(jù)傳播的速度較快、其中的信息具有多樣化、數(shù)據(jù)真實性高和密度的低價值。
當然隨著大數(shù)據(jù)時代的發(fā)展,大數(shù)據(jù)的作用也逐步體現(xiàn)出來,例如的大數(shù)據(jù)的商用,大數(shù)據(jù)的商用徹底改變了現(xiàn)有的商業(yè)模式。例如以前是高層覺得不對或不合適決定讓你作整改,現(xiàn)在是大數(shù)據(jù)的分析結構體現(xiàn)出決策失誤的地方再作出整改,這種模式也更加明確地指出公司當前決策的失誤更加令人信服,也起到了企業(yè)對內(nèi)部人才的定義,當讓這種模式的推動也起到另一種變動“垃圾進,垃圾出”數(shù)據(jù)的不合格進入騷擾,自動排除也使數(shù)據(jù)的使用率進一步提高。世界上一流的連鎖超市沃爾瑪?shù)某晒σ搽x不開“大數(shù)據(jù)”,沃爾瑪?shù)慕?jīng)典案例“啤酒和尿布”相信大家都有一定的了解,走進超市你會發(fā)現(xiàn)超市內(nèi)的啤酒和尿布是擺放在一起的,這是經(jīng)過數(shù)據(jù)的調(diào)查與當?shù)氐纳盍晳T分析出的決策,它發(fā)現(xiàn)大多數(shù)人購買尿布是看到啤酒,大多數(shù)都會想到家里面的儲備是否足夠,在不夠的情況下大多數(shù)人都會進行購買,這也是“大數(shù)據(jù)”成功的案例之一。
對于計算機挖掘技術的研究工作,為了進一步了解挖掘技術的功能,在保證挖掘技術質(zhì)量的前提下,可以把挖掘技術運用到社會的不同行業(yè),促進計算機挖掘技術的進步,并得到深入的開發(fā)和利用。在傳統(tǒng)意義上的統(tǒng)計方法主要包括統(tǒng)計預測、抽樣調(diào)查和多元化統(tǒng)計。在這三種方法中,抽樣屬于以大量數(shù)據(jù)為前提的抽樣調(diào)查技術,多變量屬于結構復雜的數(shù)據(jù)分析方法,回歸和對數(shù)分析都稱為統(tǒng)計預測。大多數(shù)計算機其中的數(shù)據(jù)沒有非常顯著的特征。在這個階段,可以使用圖表等方式來實時顯示數(shù)據(jù),并直觀地顯示數(shù)據(jù)的特征。散點圖等可視化技術層出不窮,而現(xiàn)在可視化技術在高維數(shù)據(jù)領域還有很多技術難點亟待解決。這種處理方法是一種通過計算機聯(lián)機分析數(shù)據(jù)的處理方法。在線分析過程中,客戶之間應積極配合,積極提出相關的數(shù)據(jù)分析要求。決策樹主要用于對數(shù)據(jù)和預測數(shù)據(jù)這兩個領域進行分類。在大多數(shù)情況下,神經(jīng)網(wǎng)絡分為三層:第一層是輸入,第二層是隱藏,第三層是輸出。通過這種方式,對數(shù)據(jù)進行調(diào)整和計算,并對數(shù)據(jù)進行分類和總結。
從中國市場營銷領域的整個發(fā)展期間來看,收集到客戶的數(shù)據(jù)逐漸增多,已經(jīng)超出人為所能掌控的范圍。在這種狀況下,通過計算機的一項技術對數(shù)據(jù)進行挖掘,對用戶購物的這一實際行為以及客戶日常購物的習慣進行分析,對這些數(shù)據(jù)所具有的屬性特征進行歸納總結,這樣能夠最高化地加強所有企業(yè)具備的影像實力來提升這些企業(yè)所具備的綜合競爭力。而且,通過使用對數(shù)據(jù)挖掘研究的這一項計算機當中的技術,可以使數(shù)據(jù)分析的工作效率很大程度上得到提高,更能準確地采集到客戶購物時的取向以及對購物的習慣和興趣點進行一個歸納了解,這樣便能幫助商家來定制一些更高效率切實可行的商業(yè)策略。而這項技術在金融行業(yè)展開的分析工作大部分集中于兩個領域:股票交易、金融投資。
一般來說,通過建立模型來分析未來的發(fā)展趨勢。對于金融投資來說,存在巨大的風險。在進行這部分投資工作之前,必須對數(shù)據(jù)進行分析,針對可能出現(xiàn)的風險問題,采取有效的防范措施,選擇正確的投資方向。根據(jù)金融業(yè)發(fā)展的地區(qū)進行有效的預測。從評價的開始到預測的全過程,可以對整個金融市場的發(fā)展進行預測。根據(jù)現(xiàn)有數(shù)據(jù),進一步挖掘現(xiàn)有數(shù)據(jù)的內(nèi)部關聯(lián),在制定良好的發(fā)展模型中,實現(xiàn)數(shù)據(jù)的科學預測。并且能夠識別金融業(yè)中存在的欺詐問題,從而防止金融犯罪類型的發(fā)生。半導體在中國大型制造行業(yè)中得到了廣泛的應用。在制造產(chǎn)品的過程中,不斷出現(xiàn)大量的數(shù)據(jù)。在計算機技術中挖掘出數(shù)據(jù)后,對上述生產(chǎn)過程中的數(shù)據(jù)進行分析,可以有效地揭示生產(chǎn)過程中的一些隱患。在此前提下,產(chǎn)品的質(zhì)量得到深入保證。此外,數(shù)據(jù)挖掘這一技術已經(jīng)廣泛地應用于由計算機進行的電子商務領域,通過不同類型的商業(yè)數(shù)據(jù)、各類用戶的信息以及消費的實際情況,實時分析和掌握,加強了購物網(wǎng)站提供的服務在自身的個性化。除上述利用的幾個應用方面之外,數(shù)據(jù)挖掘技術也已經(jīng)應用于稅務行業(yè),可以通過數(shù)據(jù)挖掘技術,對一些單位的偷稅漏稅的問題第一時間展開針對性的追蹤活動。通過深入分析和進一步研究納稅人在不同領域的經(jīng)營行為,找出他們共同的規(guī)律,為我國稅收工作提供一種有效的運作模式。為確保稅收的順利實施,應從單位的偷稅和漏稅兩個方面展開有效的防范工作。
在21世紀的當代,信息化快速占領了人們的生活,科技也隨著時代的發(fā)展而發(fā)展,人們生活和工作中不可或缺的一部分從人的交流變成了計算機的交流。當然數(shù)據(jù)挖掘也成為了計算機信息領域的重要組成,數(shù)據(jù)挖掘是屬于計算機技術當中的一個十分重要環(huán)節(jié)組成,并且它獲得人們的關注以及使用已經(jīng)起到了大面積的推廣。之前的敘述已經(jīng)表明了,數(shù)據(jù)庫在計算機具備了數(shù)據(jù)挖掘這項技術時對人們起到了高效利用時間的作用,所以對計算機的數(shù)據(jù)挖掘技術的使用,應該展開進一步的研發(fā)工作,找出其中現(xiàn)有的技術缺陷,進一步開發(fā)數(shù)據(jù)挖掘,希望能對計算級領域做出進一步的貢獻。