孫志剛
摘 要: 本文圍繞社會化商務(wù)呈現(xiàn)出的分析型應(yīng)用需求,根據(jù)多源異構(gòu)大數(shù)據(jù)特點,設(shè)計合理的數(shù)據(jù)結(jié)構(gòu)和索引結(jié)構(gòu)。將對傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進行重新設(shè)計,提出了更多地采用基于磁盤的算法、增量算法、近似算法、和隨機算法,使數(shù)據(jù)挖掘技術(shù)真正適于大數(shù)據(jù)計算,大數(shù)據(jù)計算真正能服務(wù)于社會化商務(wù)智能。同時將基于已有計算模型,通過模型的融合、優(yōu)化、耦合,設(shè)計并實現(xiàn)具有高擴展性、高性能、跨異構(gòu)數(shù)據(jù)的大數(shù)據(jù)計算框架。
關(guān)鍵詞: 大數(shù)據(jù);NoSQL;數(shù)據(jù)挖掘;數(shù)據(jù)分析;數(shù)據(jù)處理
一 研究目的和意義
融合社會網(wǎng)絡(luò)的社會化商務(wù)比傳統(tǒng)電子商務(wù)更為復(fù)雜,更迫切需要借助面向大數(shù)據(jù)的商務(wù)智能技術(shù),才能有效實現(xiàn)一系列智能化電子商務(wù)應(yīng)用,包括:海量客戶關(guān)系管理、個性化推薦、口碑營銷和精準廣告投放等。而幾乎所有的基于數(shù)據(jù)挖掘、處理和分析的商務(wù)智能技術(shù)無不與底層多源異構(gòu)大數(shù)據(jù)存儲、管理和分析密切相關(guān)。本文面向社會化商務(wù)這一新興應(yīng)用之需求,對適應(yīng)大數(shù)據(jù)計算的數(shù)據(jù)挖掘分析、處理兩個層面的若干關(guān)鍵技術(shù)問題展開描述。
世界范圍的信息化變革使得幾乎每個行業(yè)都面臨著大數(shù)據(jù)(Big Data) 問題。社會媒體、云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興應(yīng)用的逐步推廣,進一步加劇了大數(shù)據(jù)的井噴態(tài)勢,讓大數(shù)據(jù)挑戰(zhàn)成為一個迫在眉睫的問題。大數(shù)據(jù)是蘊含各類敏感信息和商業(yè)價值信息等的流動的“新石油”,是涉及國家安全的戰(zhàn)略資產(chǎn)。
隨著Web 2.0理念的逐漸深入和社會網(wǎng)絡(luò)的欣欣向榮,電子商務(wù)正在向著社會化商務(wù) (social commerce)過渡。大型電子商務(wù)系統(tǒng)的用戶和交易積累數(shù)據(jù)量和增量已經(jīng)相當驚人,如淘寶每天新增數(shù)據(jù)量已超過20TB;社會網(wǎng)絡(luò)則已成為全民盛宴,如全球最大的社會網(wǎng)絡(luò)Facebook注冊用戶數(shù)達8億多,成為排在中國和印度之后的全球人口第三大社會。融合社會網(wǎng)絡(luò)的社會化商務(wù)比傳統(tǒng)電子商務(wù)更為復(fù)雜,更迫切需要借助面向多源異構(gòu)大數(shù)據(jù)的商務(wù)智能技術(shù),才能有效實現(xiàn)對海量用戶的客戶關(guān)系管理,進行最有效的口碑營銷和精準廣告投放,并實現(xiàn)快速準確的戰(zhàn)略和戰(zhàn)術(shù)決策。
二 現(xiàn)有研究基礎(chǔ)和條件
近年來,我們在數(shù)據(jù)挖掘、社會網(wǎng)絡(luò)分析及商務(wù)智能應(yīng)用做了大量的基礎(chǔ)研究工作,具體包含以下幾個方面:
方向一:數(shù)據(jù)挖掘
我們對余弦興趣模式挖掘進行了深入研究,證明了余弦興趣度滿足條件反單調(diào)性 (CAMP, Conditional Anti-Monotone Property),進而提出基于FP樹的余弦興趣模式挖掘方法CosMinert,給出CosMinert挖掘余弦興趣模式的例子,CosMinert能同時利用支持度和余弦興趣度進行剪枝,大幅度提升了余弦興趣模式挖掘的效率,并能有效發(fā)現(xiàn)稀有的興趣模式。
方向二:社會計算
在對大規(guī)模社會網(wǎng)絡(luò)抽取問題開展研究后,提出近似等價結(jié)構(gòu)(Asymptotically Equivalent Structure, AES)來刻畫局部結(jié)構(gòu),近似等價結(jié)構(gòu)與其他等價結(jié)構(gòu)的思想類似:公共鄰居越多的節(jié)點越相似,這些節(jié)點組成緊耦合局部結(jié)構(gòu)。抽取出的點就定義為被近似等價結(jié)構(gòu)包含的節(jié)點。AES定義減輕了挖掘等價結(jié)構(gòu)、clique的計算復(fù)雜性,因為挖掘 AES可以歸化為余弦興趣模式挖掘,從而借助于研究成果CosMinert來解決。
方向三:數(shù)據(jù)及系統(tǒng)安全
我們對推薦系統(tǒng)托攻擊(shilling attack)檢測進行深入全面的研究,這對提高系統(tǒng)安全性和健壯性具有重要意義。首先,分析了十種類型托攻擊對不同協(xié)同過濾算法產(chǎn)生的危害性,定義托攻擊檢測的一系列指標,提出一種特征選擇算法,這種特征選擇方法能有效提高監(jiān)督學(xué)習(xí)檢測器的性能。其次,提出一種基于半監(jiān)督學(xué)習(xí)的推薦系統(tǒng)托攻擊檢測算法,使用樸素貝葉斯分類器作為初始分類器,再用EM-算法來改進分類器。
三 主要研究內(nèi)容
(1) 面向社會化商務(wù)應(yīng)用的NoSQL數(shù)據(jù)庫管理關(guān)鍵技術(shù)
社會化商務(wù)應(yīng)用外延極廣,將涉及大規(guī)模多源異構(gòu)數(shù)據(jù)。研究內(nèi)容致力于解決社會化商務(wù)涉及到的多源異構(gòu)大數(shù)據(jù)的存儲問題,RDBMS僅能滿足傳統(tǒng)商務(wù)交易數(shù)據(jù)存儲需求,對于大部分NoSQL類型的數(shù)據(jù),需借助于NoSQL數(shù)據(jù)庫。大數(shù)據(jù)存儲的基礎(chǔ)上,集成大數(shù)據(jù)預(yù)處理和分析的共性模塊,結(jié)合計算模型,高效提供大數(shù)據(jù)共性計算服務(wù)。
A. 社會化商務(wù)需求分析
社會化商務(wù)系統(tǒng)是一個多源異構(gòu)復(fù)雜系統(tǒng),必須廣泛借助商務(wù)智能技術(shù)才能實現(xiàn)其社會化戰(zhàn)略。本研究立足于兩個典型社會化商務(wù)應(yīng)用需求展開:1) 推薦系統(tǒng):除了利用用戶評分或產(chǎn)品屬性實現(xiàn)傳統(tǒng)的協(xié)同過濾或基于內(nèi)容的推薦外,更重要的是結(jié)合社會網(wǎng)絡(luò)信息進行社會化推薦,而這就需要跨平臺大數(shù)據(jù)的聯(lián)合分析;2) 網(wǎng)絡(luò)口碑營銷:借助商品評論系統(tǒng),企業(yè)實現(xiàn)了初步的口碑營銷,但借助聯(lián)系更為緊密的消費者社會網(wǎng)絡(luò),企業(yè)則可以實現(xiàn)廣告的精準投放和無縫的客戶關(guān)系管理,從而實現(xiàn)真正的網(wǎng)絡(luò)口碑營銷。
B. NoSQL分布式數(shù)據(jù)庫數(shù)據(jù)模型及索引結(jié)構(gòu)設(shè)計
電子商務(wù)交易數(shù)據(jù)可以利用RDBMS進行管理,但對于文本數(shù)據(jù)、圖數(shù)據(jù)、點擊流數(shù)據(jù)等半/無結(jié)構(gòu)化數(shù)據(jù),則需訴諸于NoSQL技術(shù)。各類NoSQL技術(shù)在設(shè)計的時候,考慮了一系列新的原則,首要的原則就是如何對大數(shù)據(jù)進行高效、可擴展的存取操作,這對于微博平臺等寫入操作密集的應(yīng)用而言尤為重要。目前較為流行的NoSQL數(shù)據(jù)模型包括鍵/值模型,以及基于鍵/值模型的列存儲模型和文檔存儲模型。盡管這些數(shù)據(jù)模型都較好地滿足了可擴展性要求,但和關(guān)系模型相比仍存在許多數(shù)據(jù)管理方面的不足,如對查詢操作的支持較弱、索引結(jié)構(gòu)較為復(fù)雜等。
C. 大規(guī)模異構(gòu)數(shù)據(jù)預(yù)處理技術(shù)
大規(guī)模異構(gòu)數(shù)據(jù)來源于多個數(shù)據(jù)源的未被加工、高維、冗余、含有噪音且非均勻分布的復(fù)雜數(shù)據(jù),在數(shù)據(jù)模型、含義、模式、結(jié)構(gòu)和語義上存在不一致性和沖突,因此需要研究大規(guī)模異構(gòu)數(shù)據(jù)預(yù)處理技術(shù),為進一步實施挖掘和分析奠定基礎(chǔ)。
(2) 適應(yīng)大數(shù)據(jù)計算的數(shù)據(jù)挖掘、分析、處理關(guān)鍵技術(shù)
傳統(tǒng)數(shù)據(jù)挖掘技術(shù)更關(guān)注解決模型學(xué)習(xí)問題,與底層的數(shù)據(jù)管理銜接不緊。但當面對多源異構(gòu)半結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)時,大規(guī)模數(shù)據(jù)遷移成本極高、完全內(nèi)存計算容易導(dǎo)致空間不足,因此,亟需對傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進行重新設(shè)計,使之適應(yīng)大數(shù)據(jù)計算。本部分將沿著兩條途徑解決這一難題:1) 從內(nèi)在角度,研究高擴展性數(shù)據(jù)挖掘算法;2) 從外在角度,借助于分布式計算框架,擴展現(xiàn)有典型框架包括BSP和MapReduce,使之更加適合大數(shù)據(jù)的挖掘與分析。
A. 高擴展性數(shù)據(jù)挖掘算法研究
針對大數(shù)據(jù)規(guī)模大、更新快的兩個特征,需著重如何將完全基于內(nèi)存的、迭代的批量算法調(diào)整為基于磁盤的、增量的算法。同時,商務(wù)智能的實現(xiàn)依賴于分類、聚類、關(guān)聯(lián)規(guī)則等不同方面的數(shù)據(jù)挖掘算法,而且并不是每種算法都適合于向基于磁盤的、增量的算法擴展。
B. 基于磁盤存儲的擴展BSP模型設(shè)計
BSP將待處理數(shù)據(jù)存儲在內(nèi)存,清晰分割計算任務(wù)和通信任務(wù),提供一種可編程性極佳的分布存儲MIMD計算模型,特別適于大數(shù)據(jù)高性能分析。很多實際系統(tǒng)如Pregel、Giraph、Hama等,都是基于BSP開發(fā)的。盡管BSP在迭代計算控制和可編程性方面具有優(yōu)勢,但是,BSP目前僅支持內(nèi)存存儲數(shù)據(jù),缺乏對磁盤存儲數(shù)據(jù)的支持,這是制約BSP用于大數(shù)據(jù)計算的關(guān)鍵因素。
C. 面向大數(shù)據(jù)的MapReduce存儲優(yōu)化與數(shù)據(jù)類型支持
與BSP模型不同,MapReduce將待處理數(shù)據(jù)存儲在分布式文件系統(tǒng),將作業(yè)分為本地計算的Map任務(wù),以及合并Map任務(wù)結(jié)果的Reduce任務(wù),MapReduce因其高度的可擴展性和容錯性呈現(xiàn)出強大的生命力。MapReduce設(shè)計初衷是處理半/無結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)商務(wù)交易數(shù)據(jù)卻利用結(jié)構(gòu)化模型存儲,而很多應(yīng)用經(jīng)常需綜合使用結(jié)構(gòu)化和半/無結(jié)構(gòu)化數(shù)據(jù)。因此,需要研究MapReduce支持的數(shù)據(jù)類型擴展機制。同時,還需對MapReduce存儲優(yōu)化展開研究。