胡春明,陶海亮,羅洪濱,袁揚揚
(1.北京航空航天大學計算機研究院 北京100191;
2.百度在線網(wǎng)絡技術有限公司 北京100085;
3.億瑪科技有限公司 北京100024;
4.艾司隆軟件技術咨詢(上海)有限公司 上海200052)
大數(shù)據(jù)的理論及特征
胡春明:大數(shù)據(jù)在今天已經(jīng)不是一個新鮮的詞匯。不管以前是不是叫大數(shù)據(jù),人們都是在用數(shù)據(jù)看世界。數(shù)據(jù)分析方法往往采用了統(tǒng)計學上的采樣法。只要采樣方法在一些情況下足夠好,樣本數(shù)據(jù)就能足夠反應真實世界的特點。從得到的樣本數(shù)據(jù)里面獲得知識,采用的辦法是基于統(tǒng)計的分布,或是假設檢驗等方法得到一些支持,通過支持獲得預測。
大數(shù)據(jù)依賴的基礎是大量被記錄下來的數(shù)據(jù)。如買東西的記錄、訂房間的數(shù)據(jù)、攝像頭等傳感設備采集到的信息,甚至人本身就是一種傳感設備。人們把看到的信息放在微博、微信上,讓這些信息被刻畫和傳播,如果這些數(shù)據(jù)不是采樣,而是全樣記錄,數(shù)據(jù)足夠大,就得到了多源的大數(shù)據(jù)集。真實世界的“總體”我們無從制造,但在大數(shù)據(jù)時代,我們認為多源的大數(shù)據(jù)集合就代表了這個總體,這是大數(shù)據(jù)的“大”和原來的“小”之間是最根本的方面。處理問題還是要回到現(xiàn)實可操作的層面,所以同樣對多元的大數(shù)據(jù)做預處理和重新采樣,得到特定問題相關的采樣。通過以前數(shù)據(jù)挖掘的技術和學習方法,可以在相關采樣數(shù)據(jù)集里發(fā)揮作用,得到基于模型的預測。
這個過程中可能面臨一系列問題。
第一個問題,如何找到多源大數(shù)據(jù)集來代表總體。在大數(shù)據(jù)中,我們覺得多源大數(shù)據(jù)集就代表了真實的世界,但是在實際采樣的過程中,日志和數(shù)據(jù)可能有偏差。例如,許多人經(jīng)常用對網(wǎng)民的調查來代表社會大眾的態(tài)度,但是網(wǎng)民不一定能代表大眾群體,還有一群人不上網(wǎng)。從這個角度來看,數(shù)據(jù)是不是真正接近全樣本、數(shù)據(jù)本身會不會在采樣中產(chǎn)生結構性的偏差,都是一個不容忽視的問題。
第二個問題,大數(shù)據(jù)大到我們處理不了,計算過程中就需要“把大數(shù)據(jù)變小”,這需要針對具體問題,在算法設計上更仔細地考慮。降維可能面臨丟失重要維度的風險,如何降維是我們要考慮的問題。
第三個問題,如何從數(shù)據(jù)中尋找知識和進行預測。預測的方法比之前的數(shù)據(jù)挖掘更進一步,盡管對問題做了重采樣,得到了一個相對小的數(shù)據(jù),但是這個小數(shù)據(jù)相對于以前做分析的數(shù)據(jù)還是很大,因此,需要在新的統(tǒng)計理論、數(shù)學工具、計算理論、設計方法和大數(shù)據(jù)分布式計算機基礎設施方面做一些工作,這就是今天為什么大數(shù)據(jù)得到學術界和產(chǎn)業(yè)界共同關注的原因。
目前普遍認為,大數(shù)據(jù)具有4“V”的特點,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。通過進一步研究,我們認為,從對大數(shù)據(jù)進行計算的角度來看,大數(shù)據(jù)計算還存在三個特征,我們稱為大數(shù)據(jù)計算的3“I”特征。
第一個“I”是Inexact(非精確),包括兩個層面:第一個層面是今天做的很多計算本身并不需要那么精確,往往需要知道一個大的方向和態(tài)勢;另一個層面是我們面臨的環(huán)境沒有辦法做得那么精確,數(shù)據(jù)在不斷變化,新的數(shù)據(jù)不斷產(chǎn)生,沒有辦法得到穩(wěn)定的視圖。在滿足應用需求的前提下,放松結果的精度,可能換取更快的處理速度、更小的計算開銷。但在計算里堅持非精確的思路并不意味著隨便去做,仍然需要對質量做最基本的保證。
第二個“I”是Incremental(增量性)。這個特征和大數(shù)據(jù)里的動態(tài)持續(xù)變化緊密相關。因為數(shù)據(jù)是持續(xù)變化的,可能新來的數(shù)據(jù)占到歷史上所有數(shù)據(jù)積累的比例很小。如果能夠把計算變得增量化,只針對新到來的、比較小的數(shù)據(jù)做計算,然后以可接受的計算代價,把計算的結果融合到已有的計算結果里,這在一定程度上能實現(xiàn)“將大數(shù)據(jù)變小”,增強我們進行大數(shù)據(jù)計算的能力。但增量不僅要求計算框架有特殊的支持,可能對算法本身也有一些要求,有一些問題是適合增量處理的,而有一些算法并不一定適合。從這個角度看,可能要運用一些新的思想和方法來設計支持增量的算法,同時,在大規(guī)模的分布式計算系統(tǒng)中支持增量計算的處理。
第三個“I”是Inductive(歸納性)。大數(shù)據(jù)是多源融合的數(shù)據(jù),這些數(shù)據(jù)代表了現(xiàn)實世界,代表了統(tǒng)計學上所謂的“總體”。從這個角度看,如果能夠把來自不同源的數(shù)據(jù)相互參照,不但可以彌補在所關心的維度上數(shù)據(jù)稀疏的問題,同時還可以通過多源數(shù)據(jù)的參照,在一定程度上控制因為非精確計算帶來的誤差,幫助控制解的質量。
這就是從大數(shù)據(jù)計算角度總結的一些內容。非精確性、增量性和多源數(shù)據(jù)之間的歸納性成為大數(shù)據(jù)設計系統(tǒng)和算法設計的重要參考。大數(shù)據(jù)本身是一個交叉學科,是應用驅動的垂直整合,也是理論算法、分布式系統(tǒng)、數(shù)據(jù)挖掘和機器學習方法等諸多方面的整合。從數(shù)據(jù)開放和標準化角度看,數(shù)據(jù)開放是構成大數(shù)據(jù)整個產(chǎn)業(yè)生態(tài)鏈的重要起點,開放數(shù)據(jù)有一些好的平臺。開放數(shù)據(jù)、數(shù)據(jù)格式、數(shù)據(jù)語義的標準化將有助于我們建造一個更加豐富的大數(shù)據(jù)應用生態(tài)環(huán)境。
大數(shù)據(jù)的新應用
陶海亮:百度是中國重要的互聯(lián)網(wǎng)公司,其本身是一個大數(shù)據(jù)公司,因為做搜索引擎業(yè)務,因此必須要掌握大數(shù)據(jù)技術。通過與很多行業(yè)、企業(yè)和政府的接觸,我們發(fā)現(xiàn)大數(shù)據(jù)對一些行業(yè)的應用提出了很多挑戰(zhàn),主要有三個方面:一是最底層數(shù)據(jù)存儲和計算的規(guī)模面臨挑戰(zhàn);二是在大部分的傳統(tǒng)企業(yè)中,在數(shù)據(jù)的管理和挖掘技術方面比較缺乏;三是在大部分的傳統(tǒng)企業(yè)中,機器學習和人工智能技術并不被IT 人員所掌握。
百度在4月發(fā)布了百度大數(shù)據(jù)引擎戰(zhàn)略。這個戰(zhàn)略是把百度多年積累的、在大數(shù)據(jù)應用方面的技術能力開放出來,讓各行各業(yè)都可以使用。大數(shù)據(jù)引擎包括了三個部分,最底層是開放云,可以理解為云計算,但是百度的云規(guī)模更大一些,因為有一些獨有的技術,包括低能耗的數(shù)據(jù)中心、分布式架構和智能化運維。開放云上層有數(shù)據(jù)工廠。數(shù)據(jù)工廠是新一代數(shù)據(jù)庫管理技術和挖掘方法。數(shù)據(jù)工廠上層有一個最核心的百度技術,叫作“百度大腦”。百度大腦已經(jīng)達到了非常先進的程度,把深度學習的技術、超大規(guī)模學習能力和平臺都開放了出來。
百度管理的數(shù)據(jù)超過了EB 級別。每天新增的數(shù)據(jù)是PB 級別,整體服務器超過了幾十萬臺,單集群達到上萬臺。數(shù)據(jù)工廠提供了超大規(guī)模的數(shù)據(jù)查詢能力,單次查詢可以快速掃描上百個TB數(shù)據(jù)。數(shù)據(jù)庫在不同的應用場景下對性能的要求不一樣。在大查詢、低并發(fā)的情況下強調數(shù)據(jù)的掃描速度,在高并發(fā)、小查詢的情況下強調并行服務能力,可以達到十萬的QPS 指標。
百度利用大數(shù)據(jù)的技術和能力開發(fā)了新的應用產(chǎn)品。在搜索和廣告的業(yè)務外,還做了新的嘗試。主要有以下幾個產(chǎn)品。
(1)旅游預測
旅游預測有兩個部分:一是包括景點的預測,這是與旅游局和各地的旅游管理機構合作,基于他們的數(shù)據(jù)和百度的數(shù)據(jù),可以對未來一周每一個旅游景點的人流情況進行預測;二是還可以基于旅游數(shù)據(jù)對城市旅游的出發(fā)地和目的地進行預測,這個預測結果對于旅行社和管理部門都很有價值。
(2)疾病預測
通過中國疾病控制中心提供的數(shù)據(jù),將這些數(shù)據(jù)與百度的數(shù)據(jù)相結合,可以對全國330個地級市、2 800個縣區(qū)的多種疾病發(fā)病態(tài)勢進行預測。甚至在北、上、廣可以做到商圈級別,如在王府井某一種級別發(fā)病的態(tài)勢可以給出預測。
(3)指標預測
百度每年有50 萬的活躍企業(yè)客戶,遍布了27個行業(yè)和所有省份。百度每個季度、每個月都會發(fā)布一些相關的新的統(tǒng)計數(shù)據(jù)。百度與中科院進行合作,通過中科院和百度數(shù)據(jù)的統(tǒng)計分析,可以預測中國的經(jīng)濟走勢,與統(tǒng)計局相關數(shù)據(jù)的指數(shù)相比較,得出宏觀數(shù)據(jù)的指標誤差很低,且時間比統(tǒng)計局提前了3個月。這對于很多做經(jīng)濟研究的學者來說會非常有幫助。另外,目前中國統(tǒng)計中小工業(yè)企業(yè)的數(shù)據(jù)指標較少。百度基于數(shù)據(jù)推出了中小企業(yè)的指標,填補了國內中小企業(yè)景氣分析的空白,并做到了可以區(qū)分行業(yè)和不同的地域。
(4)百度司南
百度司南是基于大數(shù)據(jù)的商業(yè)決策平臺,能夠對市場格局進行定量研究,對消費者動態(tài)進行洞察,還可以直觀地給出媒體投放的策略,為廣告主/代理商的廣告投放決策提供了非常有價值的量化數(shù)據(jù)。
精準的大數(shù)據(jù)營銷平臺
羅洪濱:互聯(lián)網(wǎng)廣告的投放過程中需要不斷地搜集產(chǎn)生的數(shù)據(jù),同時,也要積累數(shù)據(jù)的分析。做產(chǎn)品的過程中,經(jīng)常要做市場調研,要了解趨勢、競爭對手以及規(guī)模。市場調研是為了明確營銷者的位置以及未來走向。
大數(shù)據(jù)營銷也存在一些問題。在做營銷推廣的過程中,有很多產(chǎn)品可以選擇,包括經(jīng)常用的SEM、網(wǎng)盟、P2P 社區(qū)廣告和視頻廣告等。如何選擇這些投放產(chǎn)品,哪些用戶是適合發(fā)展的用戶,這是存在的一個問題。隨著目前互聯(lián)網(wǎng)終端的增多,如何在多個終端上有效地展現(xiàn)投放的廣告,同時能夠在不同的地方對這些用戶進行統(tǒng)一識別,能夠把零散的行為匯集起來,這也是存在的一個問題。
對于以上的問題,在應用中可以使用大數(shù)據(jù)營銷平臺。大數(shù)據(jù)通過全面、大量的實時數(shù)據(jù)支撐,使得做市場分析時有更及時、更準確的數(shù)據(jù)依據(jù);通過各種渠道的分析,每一次的廣告展現(xiàn)得到最終效果時,有全路徑的分析;每個渠道能夠進行各種指標的回顧分析。
首先,大數(shù)據(jù)營銷平臺采集用戶的數(shù)據(jù)信息,對用戶的所有行為特征基本都能夠做到實時跟蹤。另外,隨著移動產(chǎn)品的增加,目前能夠真正實現(xiàn)跨平臺、跨終端對用戶和數(shù)據(jù)進行采集。不但可以在搜索社區(qū)展示類廣告進行投放,同時也能夠實現(xiàn)從移動終端到PC 之間的直接投放。
大數(shù)據(jù)營銷平臺可以幫助營銷者做決策,通過數(shù)據(jù)支持進行用戶行為分析。廣告主可以通過數(shù)據(jù)分析結果得知其網(wǎng)站的用戶經(jīng)常做什么,對什么感興趣,哪一種產(chǎn)品最熱銷,能夠了解這些網(wǎng)站用戶的行為特點以及興趣特點。
大數(shù)據(jù)營銷平臺每天能夠監(jiān)控到數(shù)十億媒體廣告的曝光,從中可以掌握每個媒體目前的流量和人群覆蓋、價格趨勢變化以及每一個定價的參與者和廣告投放。通過和搜索引擎公司的合作,能夠知道用戶最近在搜索什么、關注什么,從而掌握用戶的即時興趣。同時,也能得知用戶在站內的搜索內容,因此能夠給用戶推送其最感興趣的內容。
目前,大數(shù)據(jù)的精準廣告投放一般分為三類,包括搜索廣告、社交廣告、精準展示廣告。精準展示廣告主要是在行業(yè)內,數(shù)據(jù)使用性比較強,轉化率相對比較高,規(guī)模非常大。搜索廣告主要是根據(jù)用戶的搜索意見進行定位,規(guī)模也比較大,轉化率和點擊率相對來說比較好,用戶的注冊信息比較明確。社交廣告更加豐富一些,能夠對目前的變化趨勢做更好的分析。隨著精準技術得到大家的認可,互聯(lián)網(wǎng)領域會有更多人使用精準廣告技術,會有更多的資源。這個發(fā)展是一個藍海,目前表面上只有110 億的投放,未來還會呈現(xiàn)至少翻倍的增長速度。另外,點擊率比傳統(tǒng)廣告高很多,效果轉化率也非常高。因為做了人為的精準,每天產(chǎn)生的效果數(shù)已經(jīng)超過了一般的社交和傳統(tǒng)廣告的展現(xiàn)效果。
目前,億瑪大數(shù)據(jù)營銷平臺覆蓋的人群超過6 億,有效的行為數(shù)據(jù)超過2 億,日增購物定單超過百萬,每天能夠監(jiān)控到的搜索行為超過50 萬。這些數(shù)據(jù)可以支持客戶的數(shù)據(jù)分析,并且能支持精準人群的定位,同時能夠支持客戶和用戶對各種渠道的分析。另外,數(shù)據(jù)可以實現(xiàn)跨平臺、跨終端的投放??缙脚_能夠實現(xiàn)目前所有的開放流量投放數(shù)據(jù),包括媒體流量、搜索平臺、社交平臺等??缃K端能夠做手機和相應的平板電腦、PC 等各種設備的投放。目前,優(yōu)化的手段很簡單,通過廣告的投放進行優(yōu)化?;诓煌娜巳?,在投放過程中實時進行數(shù)據(jù)分析,根據(jù)不同指標的異常進行調整,找到調整的最關鍵的內容,從而實現(xiàn)廣告投放的優(yōu)化。
大數(shù)據(jù)的文本分析
袁揚揚:營銷代理商給企業(yè)制定最相關的營銷推廣計劃,并且取得營銷目標對象群體的回應。營銷計劃的分析內容一般包括以下幾個方面:首先是識別,即幫助客戶對消費者進行全面的了解,從而挖掘潛在的商業(yè)機會;其次,對消費群體進行細分,將消費者分成不同的群體,以便實施最有效、最相關的營銷溝通;再次是預測,建立各種類型的預測模型,目的是為了預測最能夠呈現(xiàn)出企業(yè)所需要的消費行為的人群;最后是測量,運用高端的測量設計與分析,幫助企業(yè)評估基于數(shù)據(jù)分析基礎上的營銷策略與手段的績效。
大數(shù)據(jù)時代的確可以給商家?guī)頍o限商機,然而現(xiàn)實是企業(yè)擁有大量的消費者數(shù)據(jù),其中有用的信息卻很少。
在過去,因為信息渠道的缺乏,消費者對企業(yè)或品牌信息的了解也相當有限。因此,傳統(tǒng)的營銷方式可以奏效。今天,消費者手里擁有大量信息,他們可以從各個渠道獲得企業(yè)或品牌的信息,也擁有了前所未有的自主權。因此,企業(yè)今天就不能再用傳統(tǒng)營銷方式與消費者進行溝通,消費者更希望的是一對一的個性化溝通方式。企業(yè)已經(jīng)越來越意識到精準數(shù)據(jù)分析的重要性,并正在嘗試用數(shù)據(jù)分析改變與消費者互動的方式,將這種互動方式慢慢轉化成更加接近于一對一的方式。
消費者數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。結構化數(shù)據(jù)是可以量化的數(shù)據(jù),包括問卷調查中的封閉式回答、交易記錄、網(wǎng)上評分等數(shù)據(jù)。非結構化數(shù)據(jù)包括電話、郵件、在線聊天以及問卷調查開放式的回答。這些信息可以由企業(yè)內部直接從消費者手里獲取。另外,還有博客和社交媒體等網(wǎng)民信息,這些信息是外部公開的。今天消費者在與品牌的每一個接觸點都留下了足跡,企業(yè)也試圖從各個媒體渠道獲取消費者信息。但是,獲取信息僅是第一步,如果要實現(xiàn)對消費者全面的認知,必須要有效整合這些多媒體數(shù)據(jù),深度挖掘,并且進行精準的分析和提煉,這樣企業(yè)才能夠全面地認識消費者,全面地了解消費者的行為與愛好,從而進行一對一的定制服務。
據(jù)IDT 一份報告的分析,80%以上的商業(yè)信息以文本形式存在,20%的信息是結構化的數(shù)據(jù)。結構化的數(shù)據(jù)在未來幾年將以22%的年復合增長速度增長,而非結構化數(shù)據(jù)則以62%的速度增長。一般的企業(yè)對結構化的數(shù)據(jù)可以進行分析,而對于80%的非結構化數(shù)據(jù),因為分析難度很大,并且需要花費大量人工成本,如果沒有合適的工具,企業(yè)的做法就是擱置一邊,或者采用關鍵詞搜索的方法進行分析,但搜索分析會有很大的局限性。
因此,我們建議客戶使用文本分析方法(Text Analytics)將數(shù)據(jù)結構化。文本分析是用一系列語言學和統(tǒng)計學的方法將文本結構化。首先提取觀點和模式,識別句子的意義和關系;其次辨析情緒是正面還是負面;然后將文本轉化為可量化的結構化數(shù)據(jù);最后把非結構化的數(shù)據(jù)和結構化的數(shù)據(jù)整合起來,形成對消費者的全面認識。
文本分析的方法有兩個組成部分。第一個部分是利用自然語言處理來解析語意和語境,把一句話分成幾個組成部分,對每一個組成部分貼上標簽;然后分析這幾個部分之間的關系;最后做語言學關系的分析。第二個部分是情緒分析,每一個詞被賦予了正到負的情緒分值,分別代表了正面、中立、負面態(tài)度;對于修正詞還要調整情緒分值,因為每一個行業(yè)有其特殊性,所以對每個客戶需要調整默認值并且設立例外的原則;最后給每一個句子賦予一個分值。
總之,文本分析就是運用尖端的文本分析工具來量化非結構性數(shù)據(jù),并與結構性數(shù)據(jù)相結合,進行深度分析與建立預測模型,以實現(xiàn)對消費者的全方位認知。