黃敏
摘 要:大數(shù)據(jù)在很多的行業(yè)和企業(yè)得到了應(yīng)用,對(duì)大數(shù)據(jù)的研究和分析也受到了很多的學(xué)者的青睞。大量非結(jié)構(gòu)化流式數(shù)據(jù)已成為大數(shù)據(jù)時(shí)代的主要數(shù)據(jù)形態(tài),這給傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)架構(gòu)帶來(lái)非常大的挑戰(zhàn),必將使大數(shù)據(jù)處理系統(tǒng)漸漸由流程設(shè)計(jì)轉(zhuǎn)變?yōu)閿?shù)據(jù)設(shè)計(jì)。為此,該文主要從大數(shù)據(jù)分析的方法理論入手,對(duì)現(xiàn)今各行各業(yè)即將運(yùn)用的大數(shù)據(jù)處理方法進(jìn)行研究,總結(jié)出一種較適用的大數(shù)據(jù)分析方法及其應(yīng)用,以供行業(yè)和企業(yè)在未來(lái)的業(yè)務(wù)活動(dòng)中作參考。
關(guān)鍵詞:預(yù)測(cè)分析 大數(shù)據(jù)處理 大數(shù)據(jù)應(yīng)用 數(shù)據(jù)挖掘
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)06(c)-0053-03
隨著云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)等新一代信息技術(shù)的發(fā)展,傳統(tǒng)企業(yè)級(jí)IT架構(gòu)正在朝基于互聯(lián)網(wǎng)的分布式新架構(gòu)轉(zhuǎn)型。大數(shù)據(jù)作為新一代信息技術(shù)的核心,正在使各個(gè)領(lǐng)域變得越來(lái)越可感知,并走向智能化。大數(shù)據(jù)將會(huì)發(fā)揮自身獨(dú)特的優(yōu)勢(shì),帶給我們更多的方便和便捷。大數(shù)據(jù)分析的方法理論有哪些、在行業(yè)、企業(yè)的活動(dòng)中有哪些應(yīng)用。
1 大數(shù)據(jù)分析的五個(gè)基本要素
1.1 大數(shù)據(jù)預(yù)測(cè)性分析
大數(shù)據(jù)技術(shù)的主要應(yīng)用是預(yù)測(cè)性分析,如在線教學(xué)資源網(wǎng)站通過(guò)數(shù)據(jù)分析用戶會(huì)對(duì)推薦的教學(xué)模是否感興趣,保險(xiǎn)公司通過(guò)數(shù)據(jù)預(yù)測(cè)被保險(xiǎn)人是否會(huì)違規(guī),地震監(jiān)測(cè)部門通過(guò)對(duì)大數(shù)據(jù)的分析,預(yù)測(cè)某地點(diǎn)發(fā)生地震的大致時(shí)間,氣象部門利用數(shù)據(jù)預(yù)測(cè)天氣變化等。預(yù)測(cè)是人類本能的一部分,通過(guò)大數(shù)據(jù)預(yù)測(cè)人類才可以獲得有意義的、智能的信息。許許多多的行業(yè)應(yīng)用都會(huì)涉及到大數(shù)據(jù),大數(shù)據(jù)的豐富特征表述了快速增長(zhǎng)的存儲(chǔ)數(shù)據(jù)的復(fù)雜性。大數(shù)據(jù)預(yù)測(cè)分析打破了數(shù)據(jù)預(yù)測(cè)一直是象牙塔里數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家的工作,伴隨著大數(shù)據(jù)的出現(xiàn),并融合到現(xiàn)有的MIS、MRPII、DSS 、CIMS和其他核心業(yè)務(wù)系統(tǒng),大數(shù)據(jù)預(yù)測(cè)分析將起到越來(lái)越重要的作用。
1.2 數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量
大數(shù)據(jù)分析跟數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理緊密相關(guān),而質(zhì)量高的數(shù)據(jù)和有效的數(shù)據(jù)管理可以使分析結(jié)果有價(jià)值、真實(shí)并得到有力的保證。
1.3 可視化分析
普通用戶和大數(shù)據(jù)分析專家是大數(shù)據(jù)分析的直接使用者,因此他們對(duì)大數(shù)據(jù)分析的基本要求就是要可視化,因?yàn)樗麄兿胪ㄟ^(guò)可視化分析獲得可觀的大數(shù)據(jù)特征,讓用戶直觀看到結(jié)果。
提高解釋信息的能力可以通過(guò)數(shù)據(jù)的可視化展示來(lái)實(shí)現(xiàn),而可視化展示主要由圖形和圖表來(lái)呈現(xiàn)。要從大量的數(shù)據(jù)和信息中找尋相關(guān)性非常的不容易,而圖形或圖表能夠在短時(shí)間內(nèi)展示數(shù)據(jù)之間的相關(guān)信息,并為用戶提供所需的信息。
1.4 語(yǔ)義引擎
語(yǔ)義引擎是把現(xiàn)有的數(shù)據(jù)標(biāo)注語(yǔ)義,其實(shí)可以把它理解為結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)集上的一個(gè)語(yǔ)義疊迭層。它是數(shù)據(jù)分析及語(yǔ)義技術(shù)最直接的應(yīng)用,好的語(yǔ)義引擎能夠使大數(shù)據(jù)分析用戶快而準(zhǔn)地獲得比較全面的數(shù)據(jù)。
數(shù)據(jù)分析的新挑戰(zhàn)及困難主要表現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)與異構(gòu)數(shù)據(jù)等的多樣性,必須配合大量的工具去分析、解析、提取數(shù)據(jù)。語(yǔ)義引擎的設(shè)計(jì)可以達(dá)到能夠從文檔中自動(dòng)提取有用信息,使語(yǔ)義引擎能挖掘出大數(shù)據(jù)的特征,在此基礎(chǔ)上科學(xué)建模和輸入新的數(shù)據(jù),來(lái)預(yù)測(cè)未來(lái)的可用數(shù)據(jù)。
1.5 數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘。各種數(shù)據(jù)的算法基于不同的數(shù)據(jù)類型和格式,能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身的特點(diǎn),能更快速地處理大數(shù)據(jù)。如果采用一個(gè)算法需要花好幾年才能得出結(jié)論,那大數(shù)據(jù)價(jià)值也就無(wú)從說(shuō)起了??梢暬墙o人看的,數(shù)據(jù)挖掘是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法可以使我們深入挖掘數(shù)據(jù)內(nèi)部的價(jià)值,并且這些算法能夠處理大數(shù)據(jù)的數(shù)據(jù)量,也可以滿足處理大數(shù)據(jù)的效率要求。
2 大數(shù)據(jù)處理方法
大數(shù)據(jù)處理技術(shù)在社會(huì)的發(fā)展中占有重要的地位,現(xiàn)在有很多的研究者對(duì)大數(shù)據(jù)處理技術(shù)進(jìn)行研究,將大數(shù)據(jù)處理技術(shù)與交互設(shè)計(jì)結(jié)合,讓交叉科學(xué)得到發(fā)展,計(jì)算機(jī)技術(shù)的進(jìn)步,讓交叉技術(shù)被廣泛應(yīng)用,并引起了很多人的重視,例如:計(jì)算機(jī)技術(shù)可以在藝術(shù)中被應(yīng)用,進(jìn)行色彩搭配,還可以將計(jì)算機(jī)技術(shù)應(yīng)用到垃圾分類里,這些都是研究人員對(duì)計(jì)算機(jī)和交叉設(shè)計(jì)的結(jié)合。這種結(jié)合讓設(shè)計(jì)學(xué)與計(jì)算機(jī)技術(shù)緊急的結(jié)合在一起,將傳統(tǒng)的調(diào)研方式和測(cè)試方式應(yīng)用到交叉科學(xué)領(lǐng)域,這種方法的研究可以為用戶調(diào)研和測(cè)試方法提供依據(jù),能夠減少人工的成本。大數(shù)據(jù)處理方法其實(shí)有很多,筆者根據(jù)長(zhǎng)時(shí)間的實(shí)踐,總結(jié)了幾種基本的大數(shù)據(jù)處理方法,如非結(jié)構(gòu)數(shù)據(jù)處理法、自然語(yǔ)言處理法等,該文主要介紹非結(jié)構(gòu)數(shù)據(jù)處理流程涉及到的主要方法和技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)處理流程主要以網(wǎng)頁(yè)處理為例來(lái)闡述,包括3個(gè)階段,分別是信息采集、網(wǎng)頁(yè)預(yù)處理和網(wǎng)頁(yè)分類。
2.1 信息采集
信息采集主要是根據(jù)相關(guān)主題由固定的專業(yè)人士來(lái)完成,其采集的數(shù)據(jù)只能用于所針對(duì)的主題和相關(guān)的模塊,出于對(duì)效率和成本的考慮完全不必對(duì)整個(gè)互聯(lián)網(wǎng)進(jìn)行遍歷,因此,模塊信息采集時(shí)往往需要研究以哪種方式預(yù)測(cè)鏈接指向的頁(yè)面與主題的關(guān)聯(lián)性,并測(cè)算其是否值得訪問(wèn);然后研究以哪種相關(guān)策略訪問(wèn)Web,以在采集到主題相關(guān)頁(yè)面的同時(shí),盡可能地減少采集到主題無(wú)關(guān)的頁(yè)面。
預(yù)先設(shè)定好種子鏈接是信息采集的基本方法,充分使用HTTP協(xié)議下載被訪問(wèn)的頁(yè)面,運(yùn)用分析算法對(duì)頁(yè)面與主題的相關(guān)性進(jìn)行分析,然后確定待訪問(wèn)的相關(guān)鏈接,預(yù)測(cè)可能指向主題相關(guān)頁(yè)面的鏈接,最后循環(huán)迭代地運(yùn)用不同的相關(guān)策略訪問(wèn)網(wǎng)頁(yè)。
2.2 網(wǎng)頁(yè)預(yù)處理
網(wǎng)頁(yè)預(yù)處理最主要涉及到網(wǎng)頁(yè)去重處理,網(wǎng)頁(yè)去重可以歸為兩類:一類是基于URL的對(duì)比去重,它適用哈希算法;另一類是基于內(nèi)容的對(duì)比去重,它適用基于信息指紋的文本相似度算法。
網(wǎng)頁(yè)去重是先抽取文檔對(duì)象的特征,再對(duì)文檔內(nèi)容進(jìn)行分解,將文檔的特征集合表示出來(lái),然后有目的針對(duì)特征集合的壓縮編碼,通過(guò)將哈希編碼等文本轉(zhuǎn)為數(shù)字串映射方式,為后續(xù)的特征存儲(chǔ)以及特征比較提供方便,這樣可以起到減少存儲(chǔ)空間,提高比較速度的作用,最后就是計(jì)算文檔的相似度,此步需要根據(jù)文檔特征重復(fù)比例來(lái)確定文檔內(nèi)容是否重復(fù)。一般是提取網(wǎng)頁(yè)的某一個(gè)信息特征,通常是一組關(guān)鍵詞,或者是關(guān)鍵詞加權(quán)重的組合,調(diào)用相應(yīng)的算法,轉(zhuǎn)換為一組關(guān)鍵代碼,也被稱為指紋,若兩個(gè)頁(yè)面有大數(shù)量的相似指紋,那么可以預(yù)測(cè)這兩個(gè)頁(yè)面內(nèi)容具有很高的重復(fù)性。
2.3 網(wǎng)頁(yè)分類
網(wǎng)絡(luò)時(shí)代,人類所面臨的一個(gè)非常重要且具有普遍意義的問(wèn)題就是網(wǎng)頁(yè)分類。將網(wǎng)絡(luò)信息正確分類,方便人們更好地使用網(wǎng)絡(luò)資源,使雜亂無(wú)章的網(wǎng)絡(luò)環(huán)境變得有條理。而網(wǎng)頁(yè)分類一般是先對(duì)網(wǎng)頁(yè)中的文本素材進(jìn)行分類,通常采用文本分類來(lái)完成。文本分類主要應(yīng)用于電子郵件分類、信息過(guò)濾、文獻(xiàn)翻譯、數(shù)據(jù)檢索等任務(wù),文本分類的一個(gè)關(guān)鍵問(wèn)題是特征詞的選擇問(wèn)題及其權(quán)重分配。
在搜索引擎中,文本分類主要有以下用途:相關(guān)性排序會(huì)根據(jù)不同的網(wǎng)頁(yè)類型做相應(yīng)的排序規(guī)則;根據(jù)網(wǎng)頁(yè)是索引頁(yè)面還是信息頁(yè)面,下載調(diào)度時(shí)會(huì)做不同的調(diào)度策略;在做頁(yè)面信息抽取的時(shí)候,會(huì)根據(jù)頁(yè)面分類的結(jié)果做不同的抽取策略;在做檢索意圖識(shí)別的時(shí)候,會(huì)根據(jù)用戶所點(diǎn)擊的URL所屬的類別來(lái)推斷檢索串的類別等。
網(wǎng)頁(yè)分類方法有SVM分類方法和樸素貝葉斯方法,其中比較推薦的是支持向量機(jī)分類方法(SVM),該算法主要基于統(tǒng)計(jì)學(xué)理論及線性分類器準(zhǔn)則之上,從線性可分入手,再擴(kuò)展到線性不可分的情況。甚至有時(shí)會(huì)擴(kuò)展到使用非線性函數(shù)中去,這種分類器統(tǒng)稱為支持向量機(jī)。近年來(lái),支持向量機(jī)分類方法越來(lái)越多的受到網(wǎng)頁(yè)分類技術(shù)人員的青睞。
3 大數(shù)據(jù)分析在行業(yè)活動(dòng)中的應(yīng)用
非結(jié)構(gòu)數(shù)據(jù)處理和數(shù)據(jù)挖掘的應(yīng)用范圍較廣,它可能應(yīng)用于運(yùn)營(yíng)商、銀行、傳統(tǒng)企業(yè)和電商,挑選幾個(gè)具有代表性的案例與大家分享。
3.1 電信行業(yè)
某城市電信運(yùn)營(yíng)商的上網(wǎng)日志分析系統(tǒng),該系統(tǒng)通過(guò)收集用戶上網(wǎng)日志歷史記錄數(shù)據(jù),分析出每個(gè)用戶的偏好。首先該系統(tǒng)通過(guò)并行統(tǒng)計(jì)出每個(gè)人有效歷史上網(wǎng)日志URL;然后從日志URL中抓取網(wǎng)頁(yè)內(nèi)容,提取正文,并通過(guò)文本分類算法計(jì)算分類;最后通過(guò)統(tǒng)計(jì)出每個(gè)用戶上網(wǎng)關(guān)注類別總數(shù),分析出每個(gè)用戶的偏好。
3.2 地產(chǎn)行業(yè)
某房地產(chǎn)企業(yè)的社會(huì)化品牌實(shí)時(shí)營(yíng)銷系統(tǒng),該系統(tǒng)通過(guò)社交媒體數(shù)據(jù),進(jìn)行網(wǎng)絡(luò)口碑監(jiān)測(cè),負(fù)面情緒被及時(shí)地發(fā)現(xiàn)并制止;通過(guò)與客戶進(jìn)行互動(dòng),爭(zhēng)取客戶忠誠(chéng)度;通過(guò)監(jiān)控同行及競(jìng)爭(zhēng)對(duì)手的各方面資訊,量化評(píng)估競(jìng)爭(zhēng)態(tài)勢(shì);快速提升品牌知曉度和美譽(yù)度,將媒體影響力轉(zhuǎn)換為客戶量,縮短人氣聚集周期。
3.3 證券行業(yè)
某證券商戰(zhàn)略信息監(jiān)測(cè)通過(guò)歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點(diǎn),今日輿論,展示抓取的所有期貨產(chǎn)品相關(guān)信息的縮略,并提供全文鏈接。通過(guò)熱點(diǎn)事件列表可以看到歷史相似事件對(duì)趨勢(shì)的影響,通過(guò)天氣指數(shù)與趨勢(shì)對(duì)應(yīng)曲線可以看到歷史相似天氣與歷史趨勢(shì)的對(duì)照。
3.4 金融行業(yè)
某大型股份制商業(yè)銀行供應(yīng)商風(fēng)險(xiǎn)評(píng)估系統(tǒng),該系統(tǒng)通過(guò)抓取供應(yīng)商內(nèi)部數(shù)據(jù),如企業(yè)年報(bào)、公司變動(dòng)、領(lǐng)導(dǎo)情況、財(cái)務(wù)狀況等數(shù)據(jù),分析公司運(yùn)營(yíng)指數(shù);通過(guò)計(jì)算各供應(yīng)商社交數(shù)據(jù),對(duì)其社會(huì)影響力做評(píng)估;通過(guò)同行之間的數(shù)據(jù)分析對(duì)比,對(duì)供應(yīng)商進(jìn)行實(shí)力評(píng)估,這些數(shù)據(jù)指數(shù)可以有效協(xié)助商業(yè)銀行進(jìn)行供應(yīng)商風(fēng)險(xiǎn)評(píng)估。
4 結(jié)語(yǔ)
大數(shù)據(jù)處理數(shù)據(jù)的基本理念是用全體代替抽樣,用效率代替絕對(duì)精確,用相關(guān)代替因果。證券、微商、地產(chǎn)等行業(yè)每天都會(huì)產(chǎn)生巨大的數(shù)據(jù)量,大數(shù)據(jù)分析與處理已成為大數(shù)據(jù)技術(shù)的最重要的應(yīng)用,通過(guò)大數(shù)據(jù)技術(shù)從海量數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價(jià)值的、潛在的信息,找出產(chǎn)品或服務(wù)未來(lái)發(fā)展趨勢(shì),為決策者提供有力依據(jù),有益于推動(dòng)企業(yè)內(nèi)部的科學(xué)化、信息化管理。
參考文獻(xiàn)
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-149.
[2] 國(guó)際電子商情2013年大數(shù)據(jù)應(yīng)用與趨勢(shì)調(diào)查[Z].
[3] 大數(shù)據(jù)時(shí)代來(lái)臨:國(guó)內(nèi)IT企業(yè)布局已然落后[EB/OL].新浪網(wǎng),2012-06-01.
[4] 大數(shù)據(jù)時(shí)代降臨[EB/OL].半月談網(wǎng),2012-09-22.
[5] 王惠.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念研究[J].中國(guó)市場(chǎng),2015(22):74.
[6] 高志鵬,牛琨,劉杰.面向大數(shù)據(jù)的分析技術(shù)[J].北京郵電大學(xué)學(xué)報(bào),2015(3):1-12.
[7] 張榮建,張志強(qiáng),祖述勛.鋼管混凝土拱橋安全性評(píng)價(jià)的SVM機(jī)器模型[J].混凝土,2011(11):8-10.