劉潭飛 徐小艷
本文著眼于數(shù)據(jù)挖掘技術在經(jīng)濟預測中的應用問題展開探討,筆者結合個人在這方面的一些實踐工作經(jīng)驗提出幾點思考和見解,希望借閱者能夠積極提出改進意見。
大時代下的數(shù)據(jù)挖掘技術作為一門新的交叉學科,它的發(fā)展必定會將帶來諸多領域的變革。文中對于數(shù)據(jù)挖掘的實際應用實例做了具體的分析和介紹,希望對在研究數(shù)據(jù)挖掘技術的發(fā)展的工作人員能起到一定的借鑒作用。
一、體育賽事預測
在世界杯進行期間,谷歌、百度和微軟以及高盛等這些公司陸續(xù)推出了比賽結果的預測平臺。而這當中百度的預測結果則更亮眼一些,全程預測64場比賽,預測準確率達到67%,而在進入淘汰賽以后其預測準確率達到了94%。目前的互聯(lián)網(wǎng)公司具體取代套魚保羅試水賽事的預測同時也意味著在未來體育賽事會全面的被大數(shù)據(jù)預測所掌控。
Google的世界杯預測是建立于OptaSports海量的賽事數(shù)據(jù)的基礎上來進一步構建它最終的預測模型。百度在作為過去的5年以內(nèi)世界范圍內(nèi)987支球隊(其中包含國家隊和俱樂部隊)在內(nèi)的3.7萬場的比賽數(shù)據(jù),與此同時,它和中國的彩票網(wǎng)站樂彩網(wǎng)以及歐洲必發(fā)指數(shù)的數(shù)據(jù)供應商Spdex展開合作,將博彩市場的預測數(shù)據(jù)進行導入,繼而建立了能夠囊括199972名球員以及高達1.2億條數(shù)據(jù)的預測模型,并且還在這個基礎上進行結果預測。
我們以互聯(lián)網(wǎng)公司的成功經(jīng)驗看來,只要是有體育賽事的歷史數(shù)據(jù)存在,以及同時和指數(shù)公司展開合作,那么就可以展開進行其它賽事的合作預測,像歐冠和NBA賽事等等。
二、股票市場預測
去年的時候,英國華威商學院及美國波士頓大學的物理系相關研究發(fā)現(xiàn),有用戶在通過對谷歌搜索金融的關鍵詞和金融市場的走向,其相對應的投資戰(zhàn)略的具體收益達到326%。在此之前,又有一些專家曾嘗試著通過Twitter博文情緒來進行股市的波動預測。
那么從理論方面來說,股市的預測更加適合美國。而中國的股票市場則沒有辦法做到雙向盈利,也只有在股票上漲的時候才可以盈利,那么就會吸引部分游資利用信息不對稱等這些情況來進行人為的股票市場規(guī)律的改變,所以,中國的股市相對來說沒有較之穩(wěn)定的規(guī)律就預測起來比較困難了,那么與此同時,我們在對一些結果產(chǎn)生決定性影響的變量數(shù)據(jù)則基本就沒有辦法被監(jiān)控進去。
三、市場物價預測
對于CPI表征已經(jīng)發(fā)生的關于物價的浮動情況,統(tǒng)計局的數(shù)據(jù)并不具備權威性。而相反的大數(shù)據(jù)則可能能夠幫助人們深入的了解未來物價的具體走向,以及提前通知通貨膨脹及經(jīng)濟危機。其中最為典型的例子應該就是馬云在通過阿里B2B大數(shù)據(jù)提前知曉亞洲的金融危機,那么實際上這也是阿里數(shù)據(jù)團隊的功勞所在。
事實上,單個的商品價格預測起來更容易一些,特別是機票一類這樣的標準化產(chǎn)品,以及去哪兒提供的“機票日歷”也是級別的預測,告知客戶在幾個月以后機票價格的浮動變化和大概位置。此外對于商品的生產(chǎn)和渠道成本以及大概的毛利處于充分競爭的市場來說是相對比較穩(wěn)定的,而和價格相關的變量又相對來說比較固定,那么商品的供需關系在電子商務平臺就可以進行實時的監(jiān)控,所以其價格又可以進行預測,且根據(jù)預測的結果又可以提供其具體購買的時間建議,亦或是指導商家作動態(tài)的價格調(diào)整及營銷活動,為的就是能夠達到利益的最大化。
四、用戶行為預測
在用戶搜索行為和瀏覽行為以及評論歷史及個人資料等數(shù)據(jù)的基礎上,作為互聯(lián)網(wǎng)業(yè)務來說可以洞察消費者在這方面的整體需求,進一步有針對性的進行產(chǎn)品的生產(chǎn)和改進以及營銷。而像《紙牌屋》選擇的基本都是演員及劇情,并根據(jù)百度用戶的喜好來進行比較精準的廣告營銷及阿里依據(jù)天貓用戶的特征將生產(chǎn)線定制產(chǎn)品承包下來,亞馬遜則預測用戶的點擊行為進行提前發(fā)貨.都是收益于互聯(lián)網(wǎng)用戶的行為預測。
受益于傳感器技術以及物聯(lián)網(wǎng)的實際發(fā)展,在線下的一些用戶的行為正處于醞釀時段。而一些免費的商用WIFI和ibeacon技術以及攝像頭影像監(jiān)控和室內(nèi)的定位技術、NFC的傳感器網(wǎng)絡和排隊叫號系統(tǒng)等,都可以有效的探知用戶在線下的移動及停留以及出行規(guī)律等出行數(shù)據(jù),從而展開比較精準的營銷或者是產(chǎn)品的定制。
五、人體健康預測
中醫(yī)能夠通過望聞問切幾種手段來發(fā)現(xiàn)一些隱藏在人體內(nèi)部的慢性疾病,甚至于看人體體制分析就可以明確的診斷出一個人在將來有可能會出現(xiàn)什么樣的癥狀。而人體體征的變化是具備一定的規(guī)律性的,在一些慢性病發(fā)生之前人體都會有比較持續(xù)性的異常癥狀。因此,從理論上來說,假如大數(shù)據(jù)將這些異常情況有效掌握了,那么就可以展開慢性的疾病預測。
依據(jù)部分智能硬件,往往在慢性病的大數(shù)據(jù)預測會變成可能。那么可穿戴設備以及智能健康設備都能夠幫助人們收集人體的相關健康網(wǎng)絡數(shù)據(jù),同時也包括心率和體重以及血脂和血糖以及運動量及睡眠量等狀況的預測。假如這些數(shù)據(jù)都足以能夠準備的精準且較為全面,同時又可以形成算法的具體慢性病的預測模式,也許在未來你自己的設備就能提醒你在你的身體罹患某一種慢性病的實際風險。譬如像KickStarter上的MySpiroo就可以幫助哮喘病人收集他們的吐氣數(shù)據(jù)同時指導醫(yī)生對其未來的病情趨勢做進一步的診斷。而對于急性病來說比較難于預測,其突變性以及隨機性促使其比較難于預測。
六、疾病疫情預測
在人們的搜索情況和購物行為可以充分預測比較大面積的疫情爆發(fā)的可能性,而最為經(jīng)典的當屬于“流感預測”就屬于此類。假如來自于某一區(qū)域的流感或者是板藍根搜索需求逐漸增多,那么也就自然而然地可以有效推測此處應該有流感出沒。
在世界杯以及高考和景點城市的預測以后,百度在最近推出了疾病預測產(chǎn)品。在目前來說則又可以就流感和肝炎以及肺結核或者性病這四種類型的病癥,針對全國范圍內(nèi)大部分地區(qū)的活躍度和趨勢圖等實際情況,展開全面化的監(jiān)控。那么在未來,百度疾病的預測監(jiān)控疾病種類即將從目前的4種逐漸擴展成為30余種,并且覆蓋更多比較常見的病癥及流行病種。而用戶則可以依據(jù)當?shù)仡A測的結果來展開比較有針對性的預防。
通過以上幾種大數(shù)據(jù)技術在經(jīng)濟預測中的實例應用,我們做了簡單的分析和了解,也借此說明,大數(shù)據(jù)技術的應用范疇當即比較廣泛,即便如此,其也丞待更進一步的加強。