(四川大學商學院 四川 成都 610000)
大數(shù)據(jù)的出現(xiàn)依托于互聯(lián)網(wǎng)的發(fā)展,并很大程度上來源于互聯(lián)網(wǎng),由于大數(shù)據(jù)具有重要價值,且有著巨大的隱藏價值,因此,對于大數(shù)據(jù)的關注越來越高。龐大的數(shù)據(jù)總量和共享的互聯(lián)網(wǎng)只是表象。數(shù)據(jù)如果能夠提煉出規(guī)律,它就擁有了更高的價值,數(shù)據(jù)能夠借助于各種各樣的工具在分析的基礎上為我們提供正確的決策,如何進行合理的挖掘和分析成了亟待考慮的問題。
在互聯(lián)網(wǎng)環(huán)境下,數(shù)據(jù)來源十分廣泛,也就意味著數(shù)據(jù)的多樣化,可是也容易雜,結構多樣化并且伴隨著質量不高的問題。大數(shù)據(jù)的大并不意味著數(shù)據(jù)質量的高,有些數(shù)據(jù)并不一定真實有效。除此以外,來源廣泛也意味著數(shù)據(jù)的復雜性,需要進行分析與篩選。大數(shù)據(jù)下,數(shù)據(jù)類型慢慢從單一的結構化數(shù)據(jù)轉向融合型數(shù)據(jù),即結構化、非結構化、半結構化三者融合。傳統(tǒng)的數(shù)據(jù)分析無法應對如今類型眾多的數(shù)據(jù),所以如何通過優(yōu)化資源配置、重組架構等方式實現(xiàn)更高效率的提取信息成了一大挑戰(zhàn)。
大數(shù)據(jù)每時每刻都在不斷地以驚人的速度產(chǎn)生,信息更新?lián)Q代的周期越來越短,并且面對如此巨大且仍在繼續(xù)擴大的數(shù)據(jù)規(guī)模,數(shù)據(jù)庫的存儲能力也在接受著考驗,大數(shù)據(jù)和存儲設備之間的協(xié)調如何達到平衡,如何設計出與之相匹配的存儲架構成了關鍵。若不能克服互聯(lián)網(wǎng)大數(shù)據(jù)的這個特點,面對從海量的數(shù)據(jù)中獲取有用信息這一想法便無法實現(xiàn)。
互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生速度快也伴隨著價值的時效性強,很多數(shù)據(jù)信息是需要實時集成挖掘的,如果沒有及時處理,則會大大降低其價值甚至失去其價值,在數(shù)據(jù)類型單一的情況下進行數(shù)據(jù)實時處理是比較容易的,但是囿于其規(guī)模巨大、形式多樣的現(xiàn)狀,數(shù)據(jù)環(huán)境變得更加復雜,很難做到實時處理數(shù)據(jù),系統(tǒng)也很難把數(shù)據(jù)全貌,提升技術手段并實現(xiàn)對多個領域進行數(shù)據(jù)實時挖掘,采用在線處理手段成了數(shù)據(jù)處理效率提高的關鍵。
如果從數(shù)據(jù)挖掘的具體任務實現(xiàn)步驟進行闡述。那么數(shù)據(jù)挖掘即是:首先,從海量數(shù)據(jù)中尋找一定的規(guī)則與邏輯,即確定數(shù)據(jù)挖掘的目標任務,明確需求;其次,根據(jù)數(shù)據(jù)挖掘需求,確定挖掘分析對象,進行數(shù)據(jù)的準備及一系列預處理動作;再次,選擇挖掘技術,建立數(shù)據(jù)模型;最后,數(shù)據(jù)規(guī)則與邏輯的展示,并得到深層的信息。無論是數(shù)據(jù)挖掘技術的方法選擇還是過程的確定,都應其應用領域的不同或者需求目標的不同而有一定的差異性,數(shù)據(jù)挖掘技術的應用可以幫助從海量數(shù)據(jù)中獲取想要的信息。
數(shù)據(jù)預處理是指在主要的處理以前對數(shù)據(jù)進行的一些處理,指的是對所收集數(shù)據(jù)進行分類或分組前所做的審核、篩選、排序等必要的處理,來提高數(shù)據(jù)挖掘的質量。因為互聯(lián)網(wǎng)大數(shù)據(jù)大體上都是不完整且不一致的雜亂數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結果差強人意。
數(shù)據(jù)預處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質量,降低實際挖掘所需要的時間。
數(shù)據(jù)挖掘在技術上的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的且人們事先不知道的,但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘在商業(yè)上的說法是一種新的商業(yè)信息處理技術,其主要功能是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是一門很廣義的交叉學科,匯聚了不同的技術,尤其是信息技術、統(tǒng)計分析技術等。其的主要目的是為商業(yè)決策提供真正有價值的信息,進而獲得利潤。但所有數(shù)據(jù)挖掘者面臨的一個共同問題是:互聯(lián)網(wǎng)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就成了最大的考驗。
數(shù)據(jù)預測是一種挖掘連續(xù)取值數(shù)據(jù)并從已有數(shù)據(jù)中推斷獲得信息的一種重要方法,在對數(shù)據(jù)進行了一定處理的基礎上,通過合適預測手段建立模型以獲得目標期望值。
從商務預測的角度可以把數(shù)據(jù)預測分為定性預測和定量預測。定性預測是基于預測者的知識、經(jīng)驗、綜合觀察,或者集體的智慧和直觀的材料,對事物未來發(fā)展變化的特點及變動趨勢做出主觀判斷,優(yōu)點是能夠節(jié)省時間和節(jié)約費用。但是缺點則是無法準確嚴謹?shù)匕盐者@些因素的影響模式,無法解釋清楚和固化為具體的流程。一些常用的定性預測方法諸如:經(jīng)驗判定預測法、專家意見預測法、調研判定預測法、主觀概率預測法等方法。
定量預測是指在數(shù)據(jù)挖掘的基礎上選擇和建立適當?shù)臄?shù)學模型,再使用歷史數(shù)據(jù)對模型進行訓練,根據(jù)數(shù)學模型估計預測對象在未來的狀態(tài)。這樣預測結果穩(wěn)定且準確,可重復和改進,并且易于學習和交流。難點和缺點是對數(shù)據(jù)資料的質量要求高,并且對使用者提出了較高要求,需要使用者具備相應的數(shù)學、統(tǒng)計學、算法等知識。定量預測又可以通過原理的不同分為兩類,一類是時間序列,包括移動平均法、指數(shù)平滑、三次指數(shù)平滑、ARIMA等。另一類是因果法,包括線性回歸、非線性回歸、灰色系統(tǒng)預測法、馬爾科夫預測法和機器學習的方法。
數(shù)據(jù)預測是大數(shù)據(jù)最核心的應用,大數(shù)據(jù)預測的優(yōu)勢體現(xiàn)在它把一個不容易知道的信息轉化成一個相對簡單的描述問題,并且能通過一定手段實現(xiàn)。從預測的角度看,大數(shù)據(jù)預測所得出的結果不僅僅得到處理現(xiàn)實業(yè)務簡單、客觀的結論,更能用于幫助預測者提供決策,基于收集的信息規(guī)劃進程,從而達到目的。
如在網(wǎng)絡營銷中,通過如爬蟲這樣的手段獲取網(wǎng)絡信息數(shù)據(jù),然后有依據(jù)地進行分析、處理、挖掘,在結合現(xiàn)有信息和目標規(guī)劃的基礎上,選取適當手段,如回歸方法或建立神經(jīng)網(wǎng)絡,設計模型最終獲得最佳的營銷手段及決策建議,更好地進行網(wǎng)絡營銷。
在基于互聯(lián)網(wǎng)大數(shù)據(jù)的時代,準確及時地獲取數(shù)據(jù)信息并利用處理,根據(jù)目標期望結果,配以合適的數(shù)據(jù)挖掘方法,建立模型運用預測技術得到指導性的結果,這便是互聯(lián)網(wǎng)大數(shù)據(jù)的真正價值所在。