亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向社會化商務(wù)的大數(shù)據(jù)分析系統(tǒng)研究方法

        2018-05-21 08:46:30孫志剛
        科學(xué)與財富 2018年7期
        關(guān)鍵詞:數(shù)據(jù)分析數(shù)據(jù)處理數(shù)據(jù)挖掘

        孫志剛

        摘 要: 本文圍繞社會化商務(wù)呈現(xiàn)出的分析型應(yīng)用需求,根據(jù)多源異構(gòu)大數(shù)據(jù)特點,設(shè)計合理的數(shù)據(jù)結(jié)構(gòu)和索引結(jié)構(gòu)。將對傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進行重新設(shè)計,提出了更多地采用基于磁盤的算法、增量算法、近似算法、和隨機算法,使數(shù)據(jù)挖掘技術(shù)真正適于大數(shù)據(jù)計算,大數(shù)據(jù)計算真正能服務(wù)于社會化商務(wù)智能。同時將基于已有計算模型,通過模型的融合、優(yōu)化、耦合,設(shè)計并實現(xiàn)具有高擴展性、高性能、跨異構(gòu)數(shù)據(jù)的大數(shù)據(jù)計算框架。

        關(guān)鍵詞: 大數(shù)據(jù);NoSQL;數(shù)據(jù)挖掘;數(shù)據(jù)分析;數(shù)據(jù)處理

        一 研究目的和意義

        融合社會網(wǎng)絡(luò)的社會化商務(wù)比傳統(tǒng)電子商務(wù)更為復(fù)雜,更迫切需要借助面向大數(shù)據(jù)的商務(wù)智能技術(shù),才能有效實現(xiàn)一系列智能化電子商務(wù)應(yīng)用,包括:海量客戶關(guān)系管理、個性化推薦、口碑營銷和精準廣告投放等。而幾乎所有的基于數(shù)據(jù)挖掘、處理和分析的商務(wù)智能技術(shù)無不與底層多源異構(gòu)大數(shù)據(jù)存儲、管理和分析密切相關(guān)。本文面向社會化商務(wù)這一新興應(yīng)用之需求,對適應(yīng)大數(shù)據(jù)計算的數(shù)據(jù)挖掘分析、處理兩個層面的若干關(guān)鍵技術(shù)問題展開描述。

        世界范圍的信息化變革使得幾乎每個行業(yè)都面臨著大數(shù)據(jù)(Big Data) 問題。社會媒體、云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興應(yīng)用的逐步推廣,進一步加劇了大數(shù)據(jù)的井噴態(tài)勢,讓大數(shù)據(jù)挑戰(zhàn)成為一個迫在眉睫的問題。大數(shù)據(jù)是蘊含各類敏感信息和商業(yè)價值信息等的流動的“新石油”,是涉及國家安全的戰(zhàn)略資產(chǎn)。

        隨著Web 2.0理念的逐漸深入和社會網(wǎng)絡(luò)的欣欣向榮,電子商務(wù)正在向著社會化商務(wù) (social commerce)過渡。大型電子商務(wù)系統(tǒng)的用戶和交易積累數(shù)據(jù)量和增量已經(jīng)相當驚人,如淘寶每天新增數(shù)據(jù)量已超過20TB;社會網(wǎng)絡(luò)則已成為全民盛宴,如全球最大的社會網(wǎng)絡(luò)Facebook注冊用戶數(shù)達8億多,成為排在中國和印度之后的全球人口第三大社會。融合社會網(wǎng)絡(luò)的社會化商務(wù)比傳統(tǒng)電子商務(wù)更為復(fù)雜,更迫切需要借助面向多源異構(gòu)大數(shù)據(jù)的商務(wù)智能技術(shù),才能有效實現(xiàn)對海量用戶的客戶關(guān)系管理,進行最有效的口碑營銷和精準廣告投放,并實現(xiàn)快速準確的戰(zhàn)略和戰(zhàn)術(shù)決策。

        二 現(xiàn)有研究基礎(chǔ)和條件

        近年來,我們在數(shù)據(jù)挖掘、社會網(wǎng)絡(luò)分析及商務(wù)智能應(yīng)用做了大量的基礎(chǔ)研究工作,具體包含以下幾個方面:

        方向一:數(shù)據(jù)挖掘

        我們對余弦興趣模式挖掘進行了深入研究,證明了余弦興趣度滿足條件反單調(diào)性 (CAMP, Conditional Anti-Monotone Property),進而提出基于FP樹的余弦興趣模式挖掘方法CosMinert,給出CosMinert挖掘余弦興趣模式的例子,CosMinert能同時利用支持度和余弦興趣度進行剪枝,大幅度提升了余弦興趣模式挖掘的效率,并能有效發(fā)現(xiàn)稀有的興趣模式。

        方向二:社會計算

        在對大規(guī)模社會網(wǎng)絡(luò)抽取問題開展研究后,提出近似等價結(jié)構(gòu)(Asymptotically Equivalent Structure, AES)來刻畫局部結(jié)構(gòu),近似等價結(jié)構(gòu)與其他等價結(jié)構(gòu)的思想類似:公共鄰居越多的節(jié)點越相似,這些節(jié)點組成緊耦合局部結(jié)構(gòu)。抽取出的點就定義為被近似等價結(jié)構(gòu)包含的節(jié)點。AES定義減輕了挖掘等價結(jié)構(gòu)、clique的計算復(fù)雜性,因為挖掘 AES可以歸化為余弦興趣模式挖掘,從而借助于研究成果CosMinert來解決。

        方向三:數(shù)據(jù)及系統(tǒng)安全

        我們對推薦系統(tǒng)托攻擊(shilling attack)檢測進行深入全面的研究,這對提高系統(tǒng)安全性和健壯性具有重要意義。首先,分析了十種類型托攻擊對不同協(xié)同過濾算法產(chǎn)生的危害性,定義托攻擊檢測的一系列指標,提出一種特征選擇算法,這種特征選擇方法能有效提高監(jiān)督學(xué)習(xí)檢測器的性能。其次,提出一種基于半監(jiān)督學(xué)習(xí)的推薦系統(tǒng)托攻擊檢測算法,使用樸素貝葉斯分類器作為初始分類器,再用EM-算法來改進分類器。

        三 主要研究內(nèi)容

        (1) 面向社會化商務(wù)應(yīng)用的NoSQL數(shù)據(jù)庫管理關(guān)鍵技術(shù)

        社會化商務(wù)應(yīng)用外延極廣,將涉及大規(guī)模多源異構(gòu)數(shù)據(jù)。研究內(nèi)容致力于解決社會化商務(wù)涉及到的多源異構(gòu)大數(shù)據(jù)的存儲問題,RDBMS僅能滿足傳統(tǒng)商務(wù)交易數(shù)據(jù)存儲需求,對于大部分NoSQL類型的數(shù)據(jù),需借助于NoSQL數(shù)據(jù)庫。大數(shù)據(jù)存儲的基礎(chǔ)上,集成大數(shù)據(jù)預(yù)處理和分析的共性模塊,結(jié)合計算模型,高效提供大數(shù)據(jù)共性計算服務(wù)。

        A. 社會化商務(wù)需求分析

        社會化商務(wù)系統(tǒng)是一個多源異構(gòu)復(fù)雜系統(tǒng),必須廣泛借助商務(wù)智能技術(shù)才能實現(xiàn)其社會化戰(zhàn)略。本研究立足于兩個典型社會化商務(wù)應(yīng)用需求展開:1) 推薦系統(tǒng):除了利用用戶評分或產(chǎn)品屬性實現(xiàn)傳統(tǒng)的協(xié)同過濾或基于內(nèi)容的推薦外,更重要的是結(jié)合社會網(wǎng)絡(luò)信息進行社會化推薦,而這就需要跨平臺大數(shù)據(jù)的聯(lián)合分析;2) 網(wǎng)絡(luò)口碑營銷:借助商品評論系統(tǒng),企業(yè)實現(xiàn)了初步的口碑營銷,但借助聯(lián)系更為緊密的消費者社會網(wǎng)絡(luò),企業(yè)則可以實現(xiàn)廣告的精準投放和無縫的客戶關(guān)系管理,從而實現(xiàn)真正的網(wǎng)絡(luò)口碑營銷。

        B. NoSQL分布式數(shù)據(jù)庫數(shù)據(jù)模型及索引結(jié)構(gòu)設(shè)計

        電子商務(wù)交易數(shù)據(jù)可以利用RDBMS進行管理,但對于文本數(shù)據(jù)、圖數(shù)據(jù)、點擊流數(shù)據(jù)等半/無結(jié)構(gòu)化數(shù)據(jù),則需訴諸于NoSQL技術(shù)。各類NoSQL技術(shù)在設(shè)計的時候,考慮了一系列新的原則,首要的原則就是如何對大數(shù)據(jù)進行高效、可擴展的存取操作,這對于微博平臺等寫入操作密集的應(yīng)用而言尤為重要。目前較為流行的NoSQL數(shù)據(jù)模型包括鍵/值模型,以及基于鍵/值模型的列存儲模型和文檔存儲模型。盡管這些數(shù)據(jù)模型都較好地滿足了可擴展性要求,但和關(guān)系模型相比仍存在許多數(shù)據(jù)管理方面的不足,如對查詢操作的支持較弱、索引結(jié)構(gòu)較為復(fù)雜等。

        C. 大規(guī)模異構(gòu)數(shù)據(jù)預(yù)處理技術(shù)

        大規(guī)模異構(gòu)數(shù)據(jù)來源于多個數(shù)據(jù)源的未被加工、高維、冗余、含有噪音且非均勻分布的復(fù)雜數(shù)據(jù),在數(shù)據(jù)模型、含義、模式、結(jié)構(gòu)和語義上存在不一致性和沖突,因此需要研究大規(guī)模異構(gòu)數(shù)據(jù)預(yù)處理技術(shù),為進一步實施挖掘和分析奠定基礎(chǔ)。

        (2) 適應(yīng)大數(shù)據(jù)計算的數(shù)據(jù)挖掘、分析、處理關(guān)鍵技術(shù)

        傳統(tǒng)數(shù)據(jù)挖掘技術(shù)更關(guān)注解決模型學(xué)習(xí)問題,與底層的數(shù)據(jù)管理銜接不緊。但當面對多源異構(gòu)半結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)時,大規(guī)模數(shù)據(jù)遷移成本極高、完全內(nèi)存計算容易導(dǎo)致空間不足,因此,亟需對傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進行重新設(shè)計,使之適應(yīng)大數(shù)據(jù)計算。本部分將沿著兩條途徑解決這一難題:1) 從內(nèi)在角度,研究高擴展性數(shù)據(jù)挖掘算法;2) 從外在角度,借助于分布式計算框架,擴展現(xiàn)有典型框架包括BSP和MapReduce,使之更加適合大數(shù)據(jù)的挖掘與分析。

        A. 高擴展性數(shù)據(jù)挖掘算法研究

        針對大數(shù)據(jù)規(guī)模大、更新快的兩個特征,需著重如何將完全基于內(nèi)存的、迭代的批量算法調(diào)整為基于磁盤的、增量的算法。同時,商務(wù)智能的實現(xiàn)依賴于分類、聚類、關(guān)聯(lián)規(guī)則等不同方面的數(shù)據(jù)挖掘算法,而且并不是每種算法都適合于向基于磁盤的、增量的算法擴展。

        B. 基于磁盤存儲的擴展BSP模型設(shè)計

        BSP將待處理數(shù)據(jù)存儲在內(nèi)存,清晰分割計算任務(wù)和通信任務(wù),提供一種可編程性極佳的分布存儲MIMD計算模型,特別適于大數(shù)據(jù)高性能分析。很多實際系統(tǒng)如Pregel、Giraph、Hama等,都是基于BSP開發(fā)的。盡管BSP在迭代計算控制和可編程性方面具有優(yōu)勢,但是,BSP目前僅支持內(nèi)存存儲數(shù)據(jù),缺乏對磁盤存儲數(shù)據(jù)的支持,這是制約BSP用于大數(shù)據(jù)計算的關(guān)鍵因素。

        C. 面向大數(shù)據(jù)的MapReduce存儲優(yōu)化與數(shù)據(jù)類型支持

        與BSP模型不同,MapReduce將待處理數(shù)據(jù)存儲在分布式文件系統(tǒng),將作業(yè)分為本地計算的Map任務(wù),以及合并Map任務(wù)結(jié)果的Reduce任務(wù),MapReduce因其高度的可擴展性和容錯性呈現(xiàn)出強大的生命力。MapReduce設(shè)計初衷是處理半/無結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)商務(wù)交易數(shù)據(jù)卻利用結(jié)構(gòu)化模型存儲,而很多應(yīng)用經(jīng)常需綜合使用結(jié)構(gòu)化和半/無結(jié)構(gòu)化數(shù)據(jù)。因此,需要研究MapReduce支持的數(shù)據(jù)類型擴展機制。同時,還需對MapReduce存儲優(yōu)化展開研究。

        猜你喜歡
        數(shù)據(jù)分析數(shù)據(jù)處理數(shù)據(jù)挖掘
        認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        Excel電子表格在財務(wù)日常工作中的應(yīng)用
        淺析大數(shù)據(jù)時代背景下的市場營銷策略
        新常態(tài)下集團公司內(nèi)部審計工作研究
        中國市場(2016年36期)2016-10-19 04:31:23
        淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
        日韩精品永久免费播放平台| 女人和拘做受全程看视频| 男女啪啪免费体验区| 亚洲国产另类久久久精品小说| 日本熟妇视频在线中出| 亚洲偷自拍国综合第一页| 四虎影视免费永久在线观看| 精品欧美在线| 少妇裸淫交视频免费看| 成人国产一区二区三区| 毛片a级毛片免费观看| 国产亚洲欧美在线| 加勒比久草免费在线观看| 国产精品一区二区三久久不卡| 少妇饥渴偷公乱a级无码 | 亚洲精品美女自拍偷拍| 久久精品国产亚洲av豆腐| 日韩欧美亚洲国产精品字幕久久久| 日日碰狠狠躁久久躁9| 亚洲a人片在线观看网址| 国产精品一区二区久久蜜桃| 四虎影视久久久免费观看| 激情久久av一区av二区av三区| 亚洲欧美变态另类综合| 久久综合另类激情人妖| 国产高跟黑色丝袜在线| 亚洲日韩专区在线视频| 一区二区三区少妇熟女高潮| 真实夫妻露脸自拍视频在线播放| 狠狠色噜噜狠狠狠888米奇视频| 精品国产品欧美日产在线| 亚洲精品中文字幕一二| 亚洲精品美女久久777777| 欧美成人形色生活片| 亚洲综合一区二区三区蜜臀av | 日韩av中文字幕少妇精品| 无码av天天av天天爽| 国产香蕉97碰碰视频va碰碰看| 婷婷激情五月综合在线观看| 开心久久婷婷综合中文字幕| 国产顶级熟妇高潮xxxxx|