焦會(huì)英 辛存生 劉俊艷
摘? 要: 數(shù)據(jù)即價(jià)值,依托于國(guó)網(wǎng)電商數(shù)據(jù)平臺(tái),整合居民用戶與企業(yè)用戶數(shù)據(jù)資源,利用大數(shù)據(jù)進(jìn)一步提高國(guó)網(wǎng)電商平臺(tái)的智能化建設(shè),實(shí)現(xiàn)更高效、盈利、信息共享、互惠共贏的國(guó)網(wǎng)電子商務(wù)平臺(tái)。大數(shù)據(jù)技術(shù)通過收集居民用戶和企業(yè)用戶在電商平臺(tái)上的行為信息、用電信息、繳費(fèi)信息等信息,結(jié)合神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)與機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)用戶畫像分析、精準(zhǔn)營(yíng)銷、個(gè)性化服務(wù)、互聯(lián)網(wǎng)金融、信用評(píng)價(jià)、提升用戶體驗(yàn)和業(yè)務(wù)流程全方位管理。除此之外,本文提出將依靠大數(shù)據(jù)分析的訂閱式電商模式應(yīng)用于國(guó)網(wǎng)電商平臺(tái),助力國(guó)網(wǎng)電商平臺(tái)經(jīng)營(yíng)新模式。
關(guān)鍵詞: 電子商務(wù);大數(shù)據(jù);數(shù)據(jù)挖掘
中圖分類號(hào): TP311.52? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.01.017
【Abstract】: Data is value. Relying on the e-commerce data platform of state grid, it integrates the data resources of residents and enterprises, further improves the intelligent construction of the e-commerce platform of state grid by using big data, and realizes the e-commerce platform of state grid that is more efficient, profitable, information sharing and win-win. Technology of data collected from residents users and enterprise users in the behavior of the electric business platform, electricity information, payment information, such as information, combined with the depth of learning and machine learning algorithms, such as neural networks for user picture analysis, accurate marketing, personalized services, Inter-net finance, credit evaluation, improving the user experience and business process management. In addition, this paper proposes to apply the subscription e-commerce model based on big data analysis to the state grid e-commerce platform to help the state grid e-commerce platform operate.
【Key words】: Electronic Commerce; Big data; Data mining
0? 引言
隨著移動(dòng)設(shè)備、無線傳感器等每秒產(chǎn)生的大量數(shù)據(jù),以及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)對(duì)信息的大量收集和快速傳播,互聯(lián)網(wǎng)服務(wù)時(shí)時(shí)刻刻都在進(jìn)行巨量的數(shù)據(jù)處理和信息交互。及數(shù)據(jù)即價(jià)值,研究表明每當(dāng)數(shù)據(jù)利用率調(diào)高10%,便可使電網(wǎng)提高20%~49%的利潤(rùn),企業(yè)的核心開發(fā)模式正由應(yīng)用驅(qū)動(dòng)模式轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)模式。大數(shù)據(jù)已成為各行業(yè)中研究和應(yīng)用的熱點(diǎn)課題,在智能電網(wǎng)以及電商平臺(tái)的建設(shè)和應(yīng)用中也發(fā)揮著越來越重要的作用。截止2017年,電子商務(wù)市場(chǎng)已經(jīng)從基于消費(fèi)者數(shù)量的時(shí)代進(jìn)入基于大數(shù)據(jù)的時(shí)代。
大數(shù)據(jù)概念綜合包含了技術(shù)和商業(yè)兩個(gè)層面。一方面在技術(shù)層面上,結(jié)合Hadoop集群的分布式存儲(chǔ)和計(jì)算系統(tǒng)使得數(shù)據(jù)存儲(chǔ)和計(jì)算能力能夠匹配高量級(jí)數(shù)據(jù)的處理;另一方面在商業(yè)層面上,利用數(shù)據(jù)挖掘、數(shù)據(jù)分析等技術(shù)手段分析電子商務(wù)產(chǎn)生的高量級(jí)的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),從而幫助電商企業(yè)做系統(tǒng)性的決策,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷、個(gè)性化服務(wù)、提升用戶體驗(yàn)和業(yè)務(wù)流程全方位管理,助力國(guó)網(wǎng)電商平臺(tái)企業(yè)盈利模式。
1? 數(shù)據(jù)挖掘技術(shù)
大數(shù)據(jù)應(yīng)用不單單是對(duì)高量級(jí)數(shù)據(jù)的計(jì)算,其真正的核心在于挖掘數(shù)據(jù)中蘊(yùn)藏的情報(bào)價(jià)值。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘出有指導(dǎo)意義的有趣模式和知識(shí)的過程。數(shù)據(jù)挖掘過程中使用的數(shù)據(jù)源一般是數(shù)據(jù)庫(kù)、web、數(shù)據(jù)倉(cāng)庫(kù)等。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘技術(shù)中獨(dú)有的內(nèi)容,其本質(zhì)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,從而支持管理者的決策過程[1]??傮w上說數(shù)據(jù)庫(kù)系統(tǒng)可以分為兩類,聯(lián)機(jī)數(shù)據(jù)處理(Online Transaction Processing,OLTP)系統(tǒng)和聯(lián)機(jī)分析處理(Online Analytical Processing,OLAP)系統(tǒng)。兩個(gè)系統(tǒng)的對(duì)比如下表1所示。其中數(shù)據(jù)庫(kù)屬于OLTP系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)屬于OLAP系統(tǒng)。
1.1? 數(shù)據(jù)挖掘一般過程
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)有趣模式的過程。通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換和數(shù)據(jù)離散化[2]、模式發(fā)現(xiàn)、模式評(píng)估和知識(shí)表示,如下圖1所示。
其中,數(shù)據(jù)清洗是為了清除噪音和刪除不一致的地方;數(shù)據(jù)集成的過程將多種數(shù)據(jù)源的數(shù)據(jù)組合在一起;數(shù)據(jù)選擇操作從數(shù)據(jù)庫(kù)中提取出相關(guān)的數(shù)據(jù);數(shù)據(jù)變換和數(shù)據(jù)離散化的目的是通過匯總或聚集操作,對(duì)數(shù)據(jù)進(jìn)行規(guī)范化和離散化操作,把數(shù)據(jù)統(tǒng)一成適合挖掘的格式。通常采用最大最小[3]、z-score[3]、小數(shù)定標(biāo)[3]等方法對(duì)數(shù)據(jù)進(jìn)行規(guī)范化操作,接著使用分箱、直方圖、概念分層等方法對(duì)數(shù)據(jù)進(jìn)行離散化處理。模式發(fā)現(xiàn)一般是用數(shù)據(jù)分析算法對(duì)數(shù)據(jù)進(jìn)行挖掘分析,得到數(shù)據(jù)間的關(guān)系模式。常有的模式可分為頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘、分類與回歸、聚類分析、離群點(diǎn)分析。模式評(píng)估是將發(fā)現(xiàn)的模式應(yīng)用到實(shí)際數(shù)據(jù)中,驗(yàn)證模式推理的正確性。最后,通過模式評(píng)估驗(yàn)證后得到知識(shí)。
1.2? 數(shù)據(jù)分析方法
數(shù)據(jù)挖掘過程的最核心部分是模式發(fā)現(xiàn)的過程,針對(duì)不同的模式要適當(dāng)?shù)倪x取不同的數(shù)據(jù)分析算法。最經(jīng)典的數(shù)據(jù)挖掘模式是頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘(數(shù)據(jù)中頻繁出現(xiàn)的數(shù)據(jù)集合或數(shù)據(jù)序列,如牛奶和面包常被一起購(gòu)買,顧客傾向于先購(gòu)買便攜機(jī),再購(gòu)買數(shù)碼相機(jī),然后在購(gòu)買內(nèi)存卡),在此模式中最常用的典型算法為Apriori算法[4]。分類與回歸模式是在已知數(shù)據(jù)分類的訓(xùn)練數(shù)據(jù)集中找出區(qū)分?jǐn)?shù)據(jù)類型的模型(函數(shù)),使得此模型(函數(shù))能夠預(yù)測(cè)未知數(shù)據(jù)對(duì)象的類型。常用的分類規(guī)則有決策樹(包括了由Quinlan提出的ID3[5]與C4.5[6],Breiman等提出的CART[7])、樹剪枝等,分類算法有樸素貝葉斯[8]、K-最近鄰[9]算法、支持向量機(jī)(SVM)算法[10]、遺傳算法[11]、神經(jīng)網(wǎng)絡(luò)等。聚類分析模式中所分析的數(shù)據(jù)對(duì)象,開始并不存在其所屬的分類標(biāo)記,其后通過聚類算法產(chǎn)生數(shù)據(jù)的分組。分組或聚類的數(shù)據(jù)遵循類內(nèi)相似性最大化,類間相似性最小化的原則進(jìn)行分組或者聚類。如圖2所示,表示了聚類的概念,以兩點(diǎn)的歐式距離為聚類規(guī)范,將類內(nèi)間距小和類間間距大的點(diǎn)自動(dòng)分為了3類。
2? 大數(shù)據(jù)結(jié)合國(guó)網(wǎng)電商平臺(tái)的應(yīng)用
主在云計(jì)算、物聯(lián)網(wǎng)支持與保障下,大數(shù)據(jù)在電商平臺(tái)的應(yīng)用場(chǎng)景越來越多,電商企業(yè)的增長(zhǎng)模式已經(jīng)不僅僅由原來的靠產(chǎn)品種類、產(chǎn)品數(shù)量、顧客基數(shù)所推動(dòng),數(shù)據(jù)驅(qū)動(dòng)已成為其盈利增長(zhǎng)的重要方面。大數(shù)據(jù)在電商領(lǐng)域的應(yīng)用一般為用戶畫像分析、精準(zhǔn)營(yíng)銷、個(gè)性化服務(wù)、互聯(lián)網(wǎng)金融、信用評(píng)價(jià)、提升用戶體驗(yàn)和業(yè)務(wù)流程全方位管理?;趪?guó)網(wǎng)電商平臺(tái)的應(yīng)用主要體現(xiàn)在以下方面:
(1)用戶畫像分析、個(gè)性化服務(wù)。用戶畫像分析是電商平臺(tái)面向顧客最核心和最基礎(chǔ)的數(shù)據(jù)分析應(yīng)用,典型的畫像分析案例包括:用戶消費(fèi)行為與需求畫像、用戶偏好畫像、用戶地理畫像。在國(guó)網(wǎng)電商平臺(tái)中,可以通過對(duì)用戶和企業(yè)填寫的基本信息、用電量、繳費(fèi)記錄、產(chǎn)品購(gòu)買記錄、歷史瀏覽記錄、地理信息、銀行賬戶信息等對(duì)用戶進(jìn)行畫像分析,并根據(jù)用戶信息提供個(gè)性化服務(wù)方案。如對(duì)年齡在40-50歲,且購(gòu)買力較強(qiáng)的顧客,結(jié)合其具體信息可以推薦個(gè)性化的金融產(chǎn)品,如基金、保險(xiǎn)等。
(2)信用評(píng)價(jià)與客戶管理。運(yùn)用大數(shù)據(jù)分析的優(yōu)勢(shì),根據(jù)用戶畫像分析,將用戶群進(jìn)行分組,劃分普通用戶群以及核心用戶群,并建立信譽(yù)度級(jí)別。通過對(duì)客戶的管理為消費(fèi)者提供可持續(xù)的產(chǎn)品和服務(wù)。如購(gòu)買基金產(chǎn)品的客戶通常會(huì)有極大可能購(gòu)買保險(xiǎn)產(chǎn)品,根據(jù)對(duì)客戶信息的分析管理制定個(gè)性化產(chǎn)品方案。
(3)助力光伏云網(wǎng)。光伏發(fā)電作為新能源,清潔能源的代表性能源已接入電網(wǎng),實(shí)現(xiàn)光伏云網(wǎng)“科技+服務(wù)+金融”綜合服務(wù)云平臺(tái)。使用大數(shù)據(jù)技術(shù)對(duì)光伏入網(wǎng)客戶的信息(用電量、發(fā)電量、每個(gè)時(shí)間段對(duì)電網(wǎng)的供電量等)進(jìn)行存儲(chǔ)和分析,對(duì)用電量與發(fā)電量進(jìn)行預(yù)測(cè),推薦適合的光伏發(fā)電用電方案,統(tǒng)籌光伏電網(wǎng)數(shù)據(jù),提供戰(zhàn)略性決策支持。
(4)結(jié)合智能終端設(shè)備,推薦個(gè)性化用電方案。物聯(lián)網(wǎng)與智能家居不僅擴(kuò)大了用戶的用電范圍,也為大數(shù)據(jù)平臺(tái)提供了更多的用戶信息,如各類智能電器的用電量、用電時(shí)間,智能電表記錄的家庭實(shí)時(shí)用電數(shù)據(jù)、用電總量。這些用戶信息都可以接入到大數(shù)據(jù)平臺(tái),進(jìn)行數(shù)據(jù)共享,應(yīng)用于電費(fèi)計(jì)算、用戶畫像分析,根據(jù)用戶用電習(xí)慣推薦適合的購(gòu)電方案,引導(dǎo)用戶避開高峰用電,緩解供電壓力。此外,移動(dòng)終端、專用設(shè)備、智能電表也可使客戶與公司,客戶與客戶之間完成實(shí)時(shí)高效的數(shù)據(jù)交換。
3? 總結(jié)與展望
大數(shù)據(jù)是一個(gè)目的性驅(qū)動(dòng)很強(qiáng)的技術(shù),有著巨大的社會(huì)和商業(yè)價(jià)值。但是在其應(yīng)用中仍然存在一定的問題:(一)低效率問題。各個(gè)電商企業(yè)間數(shù)據(jù)閉環(huán),難以在技術(shù)與業(yè)務(wù)的安全范圍內(nèi)實(shí)現(xiàn)信息與技術(shù)的互聯(lián)互通操作,信息資源的低水平重復(fù)開發(fā)利用在一定程度上抑制了電商行業(yè)的協(xié)同發(fā)展。(二)數(shù)據(jù)安全和個(gè)人隱私問題。一方面,大量的數(shù)據(jù)匯集,其中包含大量的企業(yè)運(yùn)營(yíng)數(shù)據(jù)、客戶信息、個(gè)人隱私和各種行為細(xì)節(jié)記錄面臨的數(shù)據(jù)泄露風(fēng)險(xiǎn)將會(huì)增大。另一方面,一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)還沒有明確的界定,很多基于大數(shù)據(jù)的分析都尚未考慮到其中涉及的個(gè)體隱私問題[13]。(三)相關(guān)管理政策尚不明確。大數(shù)據(jù)時(shí)代下,云計(jì)算必將成為電商企業(yè)選擇的業(yè)務(wù)模式,其本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)即價(jià)值,云技術(shù)為數(shù)據(jù)資產(chǎn)提供了存儲(chǔ)、訪問、計(jì)算的場(chǎng)所和渠道。云計(jì)算提供的服務(wù)既包括軟件服務(wù)和應(yīng)用平臺(tái)服務(wù),又包括基礎(chǔ)設(shè)施服務(wù),但目前針對(duì)云計(jì)算的管理政策和技術(shù)標(biāo)準(zhǔn)尚不明確。
電商大數(shù)據(jù)作為一個(gè)擁有龐大數(shù)據(jù)規(guī)模的產(chǎn)業(yè)平臺(tái),數(shù)據(jù)交易與相關(guān)記錄必將會(huì)為相關(guān)服務(wù)和產(chǎn)業(yè)帶來新的利益增長(zhǎng),未來大數(shù)據(jù)的深入應(yīng)用也會(huì)為企業(yè)帶來質(zhì)的飛躍。在利用大數(shù)據(jù)技術(shù)為企業(yè)和客戶實(shí)現(xiàn)雙贏的過程中,更應(yīng)該注重企業(yè)和客戶的信息安全,規(guī)范安全操作意識(shí)與行為,防患信息泄露,勇于承擔(dān)起電商平臺(tái)對(duì)企業(yè)與客戶的責(zé)任,實(shí)現(xiàn)安全高效的信息管理。
參考文獻(xiàn)
王光宏, 蔣平. 數(shù)據(jù)挖掘綜述[J]. 同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2004, 32(2): 246-252.
劉永. 數(shù)字檔案管理中的知識(shí)發(fā)現(xiàn)與知識(shí)服務(wù)[J]. 檔案學(xué)研究, 2008(5): 51-53.
蔡維玲, 陳東霞. 數(shù)據(jù)規(guī)范化方法對(duì)K近鄰分類器的影響[J]. 計(jì)算機(jī)工程, 2010, 36(22): 175-177.
陸麗娜, 陳亞萍, 魏恒義, 等. 挖掘關(guān)聯(lián)規(guī)則中Apriori算法的研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2000, 21(9): 940-943.
王永梅, 胡學(xué)鋼. 決策樹中ID3算法的研究[J]. 安徽大學(xué)學(xué)報(bào):自然科學(xué)版, 2011(3): 71-75.
李楠, 段隆振, 陳萌. 決策樹C4.5算法在數(shù)據(jù)挖掘中的分析及其應(yīng)用[J]. 計(jì)算機(jī)與現(xiàn)代化, 2008, 2008(12): 160-163.
李治, 李國(guó)琳. C4.5和CART算法在醫(yī)學(xué)數(shù)據(jù)挖掘中的對(duì)比研究[J]. 電子技術(shù)與軟件工程, 2013(10): 47-48.
趙文濤, 孟令軍, 趙好好, 等. 樸素貝葉斯算法的改進(jìn)與應(yīng)用[J]. 測(cè)控技術(shù), 2016, 35(2): 143-147.
劉松華, 張軍英, 許進(jìn), 等. Kernel-kNN:基于信息能度量的核k-最近鄰算法[J]. 自動(dòng)化學(xué)報(bào), 2010, 36(12): 1681-1688.
薛寧?kù)o. 多類支持向量機(jī)分類器對(duì)比研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2011, 32(5): 1792-1795.
張鈴, 張鈸. 遺傳算法機(jī)理的研究[J]. 軟件學(xué)報(bào), 2000, 11(7): 000945-952.
王美玲, 王念平, 李曉. BP神經(jīng)網(wǎng)絡(luò)算法的改進(jìn)及應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 45(35): 47-48.
馮杰, 屈志毅, 李志輝. 基于分類稀疏表示的人臉表情識(shí)別[J]. 軟件, 2013, 34(11): 59-61.
馮偉. 大數(shù)據(jù)時(shí)代面臨的信息安全機(jī)遇和挑戰(zhàn)[J]. 中國(guó)科技投資, 2012(34): 49-53.