亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于電商平臺的大數(shù)據(jù)挖掘系統(tǒng)的設(shè)計與研究

        2023-03-28 18:46:08索紅升
        互聯(lián)網(wǎng)周刊 2023年6期
        關(guān)鍵詞:電商平臺

        摘要:網(wǎng)絡(luò)技術(shù)的更新與進(jìn)步,為電子商務(wù)行業(yè)的可持續(xù)性發(fā)展提供了基礎(chǔ)條件,尤其是在網(wǎng)絡(luò)購物已經(jīng)成為當(dāng)下主流購物方式的背景下,電商平臺交易量表現(xiàn)出急速增長的整體趨勢,而過程中將會積累較多的用戶評論數(shù)據(jù),從中反映出較多的產(chǎn)品缺陷信息與用戶對產(chǎn)品功能改進(jìn)的切實需求。本文簡述了基于云計算的大數(shù)據(jù)存儲技術(shù)的主要內(nèi)容,對電商平臺大數(shù)據(jù)挖掘流程進(jìn)行深入分析,闡述電商平臺的大數(shù)據(jù)挖掘系統(tǒng)的設(shè)計算法(聚類算法),希望能夠為同行業(yè)工作者提供一些幫助。

        關(guān)鍵詞:電商平臺;大數(shù)據(jù)挖掘系統(tǒng);設(shè)計算法

        引言

        電子商務(wù)在經(jīng)濟(jì)全球化發(fā)展背景下獲得了越來越多人的關(guān)注,輕松便捷的商務(wù)模式正在潛移默化地改變著人們的生活習(xí)慣與購物方式。從電商平臺的應(yīng)用特點來看,改變了以往只能夠通過詢問獲得商品性能與質(zhì)量等相關(guān)信息的購物模式,并擺脫了時間與空間的限制,讓用戶獲得了良好的購物體驗。無論是商家還是平臺均對具有價值的商品購買反饋信息有較為迫切的需求,這也是擴(kuò)大用戶群體并提升用戶口碑的關(guān)鍵因素,因此針對評論數(shù)據(jù)采取深入挖掘模式具有極為重要的現(xiàn)實意義。

        1. 基于云計算的大數(shù)據(jù)存儲技術(shù)

        1.1 Hadoop框架

        作為一類具有分布式并行編程特點的開源框架,Hadoop真正實現(xiàn)了模型計算,并能夠在MapReduce基礎(chǔ)上適應(yīng)計算機(jī)模型所處的分布式環(huán)境,執(zhí)行大數(shù)據(jù)存儲與處理任務(wù),同時可根據(jù)需要連接上千臺機(jī)器進(jìn)行功能拓展,提供給使用者本地計算與相應(yīng)數(shù)據(jù)存儲的關(guān)鍵條件。MapReduce屬于基于云計算的一類核心計算模式,該種編程模式實際上已經(jīng)經(jīng)過簡化處理,在分布式運(yùn)算技術(shù)的協(xié)助下可解決固定問題,并能夠?qū)栴}進(jìn)行自動分割[1]。程序員能夠基于Hadoop編寫相應(yīng)的使用程序,從而保證海量數(shù)據(jù)的處理及時性。Hadoop同樣能夠為使用人員提供數(shù)據(jù)存儲的固定地點,讓其能夠根據(jù)實際需要對計算節(jié)點中的分布式文件系統(tǒng)信息進(jìn)行部署或儲存,從而充分發(fā)揮分布式數(shù)據(jù)庫的應(yīng)用優(yōu)勢。在Hadoop與云計算等新技術(shù)的共同幫助下,即使是大規(guī)模數(shù)據(jù)也能夠確保處理的及時性與完整性,并能夠在所搭建的云計算框架中融入HDFS與HBase,基于所設(shè)計的云計算分布式與并行計算方案,實現(xiàn)預(yù)期的數(shù)據(jù)處理與存儲的相關(guān)工作目標(biāo)。

        1.2 以云計算為基礎(chǔ)的數(shù)據(jù)存儲模型

        基于海量數(shù)據(jù)的應(yīng)用特點,能夠聯(lián)系云計算等相關(guān)技術(shù)構(gòu)建海量的數(shù)據(jù)存儲模型,其中包含各個存儲節(jié)點與主服務(wù)器集群,配合使用HDFS與HBase即可實現(xiàn)針對所需求的數(shù)據(jù)資源的實時存儲與需求控制[2]。HDFS與HBase在這一過程中所起到的主要作用,是將需求的數(shù)據(jù)在各個計算節(jié)點上部署和存儲,并能夠借助MapReduce與Hadoop框架實現(xiàn)對數(shù)據(jù)的實時調(diào)度與科學(xué)維護(hù),從而避免出現(xiàn)系統(tǒng)阻塞或框架使用故障等不良現(xiàn)象[3]。而使用者同樣能夠在Hadoop框架下,通過對節(jié)點數(shù)據(jù)的直接存取達(dá)到預(yù)期的交互操作目的。

        2. 電商平臺大數(shù)據(jù)挖掘框架的構(gòu)建

        結(jié)合電商平臺大數(shù)據(jù)挖掘的實際特點,所執(zhí)行的數(shù)據(jù)挖掘任務(wù)的根本目的在于為所組織的電商活動提供更有價值的活動信息與相應(yīng)的平臺支持。由于保證了信息提供的準(zhǔn)確性與響應(yīng)的及時性,所以組建出基于電商平臺的大數(shù)據(jù)挖掘框架,主要包含六個層級:

        第一是數(shù)據(jù)來源層。該層次主要包括電商平臺、移動終端、社交網(wǎng)絡(luò)以及供應(yīng)商;

        第二是數(shù)據(jù)收集層。該層級主要包括針對數(shù)據(jù)進(jìn)行全面收集、針對文件進(jìn)行全面收集以及各類消息與事件的及時響應(yīng);

        第三是數(shù)據(jù)組織層。該層級主要包括過濾實施分析與接收分析,其中過濾實施分析對應(yīng)結(jié)構(gòu)化數(shù)據(jù),接收分析則對應(yīng)半/非結(jié)構(gòu)化數(shù)據(jù)。通過對數(shù)據(jù)的過濾轉(zhuǎn)化與抽取注解實現(xiàn)關(guān)聯(lián)分類,其中的數(shù)據(jù)映射又可分為三個對應(yīng)節(jié)點,包括語言庫、索引以及構(gòu)建的工作模型等[4];

        第四是數(shù)據(jù)存儲層。該層級主要包括企業(yè)級的數(shù)據(jù)庫、數(shù)據(jù)倉庫以及元數(shù)據(jù)管理等相關(guān)內(nèi)容;

        第五是數(shù)據(jù)分析層。數(shù)據(jù)分析需基于所提供的搜索引擎,在明確需要后進(jìn)行普通或高級分析,用以構(gòu)建相應(yīng)的預(yù)測模型,可提供給用戶可視化查詢的相應(yīng)條件[5];

        第六是數(shù)據(jù)應(yīng)用層。該層級主要面對的是各類電商平臺的實際應(yīng)用軟件/網(wǎng)頁,并陸續(xù)開發(fā)出針對商家與個人用戶的應(yīng)用級數(shù)據(jù)軟件。

        3. 電商平臺大數(shù)據(jù)挖掘流程

        作為電商平臺維持正常運(yùn)營狀態(tài)的重要基礎(chǔ),電商數(shù)據(jù)的重要性毋庸置疑?;诤A康碾娚虜?shù)據(jù)能夠關(guān)聯(lián)其他的業(yè)務(wù)類型,從而對用戶在平臺所產(chǎn)生的一系列消費(fèi)行為進(jìn)行深入分析,基于數(shù)據(jù)挖掘技術(shù)能夠進(jìn)一步提升平臺的自我競爭性,進(jìn)而全面提高商業(yè)價值[6]。在大數(shù)據(jù)深入挖掘的背景下,平臺同樣能夠進(jìn)行主動與自我學(xué)習(xí),并在人工智能算法與科學(xué)的機(jī)器學(xué)習(xí)方式幫助下,獲取更多的學(xué)習(xí)數(shù)據(jù),將過程中所學(xué)習(xí)到的所有內(nèi)容自動儲存到相應(yīng)的知識庫中,為后續(xù)的學(xué)習(xí)以及平臺運(yùn)營提供基礎(chǔ)條件,奠定海量數(shù)據(jù)應(yīng)用與挖掘分析的基礎(chǔ)。

        首先由電商網(wǎng)站對用戶的數(shù)據(jù)進(jìn)行收集,主要包括電商平臺數(shù)據(jù)、移動終端數(shù)據(jù)以及社交網(wǎng)絡(luò)數(shù)據(jù);隨后進(jìn)入數(shù)據(jù)預(yù)處理環(huán)節(jié)。分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)轉(zhuǎn)化以及數(shù)據(jù)抽取三部分。數(shù)據(jù)準(zhǔn)備包括交易數(shù)據(jù)、觀測數(shù)據(jù)以及互動數(shù)據(jù),根據(jù)實際需要進(jìn)行解析與重構(gòu)[7];數(shù)據(jù)轉(zhuǎn)化則主要對結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,包括對數(shù)據(jù)進(jìn)行過濾與映射;數(shù)據(jù)抽取主要為數(shù)據(jù)關(guān)聯(lián)與數(shù)據(jù)融合;接著進(jìn)入數(shù)據(jù)挖掘過程。需要對關(guān)聯(lián)的規(guī)則進(jìn)行分析,做好分類與相應(yīng)的聚類分析處理后,即可構(gòu)建相應(yīng)的數(shù)據(jù)模型,為后續(xù)的挖掘數(shù)據(jù)全面應(yīng)用奠定基礎(chǔ);最后是挖掘數(shù)據(jù)的正式應(yīng)用??筛鶕?jù)客戶的實際需要推薦計劃展示頁面,借助網(wǎng)頁數(shù)據(jù)挖掘與相應(yīng)的商品內(nèi)容搜索,保證客戶能夠獲得更為全面的平臺服務(wù)。過程中一旦發(fā)現(xiàn)異常情況即可進(jìn)行自動定位,并將異常數(shù)據(jù)上傳至云端網(wǎng)絡(luò),由相應(yīng)的工作人員進(jìn)行快速處理。

        過程中所收集的所有數(shù)據(jù)均需要進(jìn)行預(yù)處理,具有簡單化與獨(dú)立性特點的數(shù)據(jù)在解析與重構(gòu)后即可進(jìn)行數(shù)據(jù)轉(zhuǎn)換,并在數(shù)據(jù)過濾與科學(xué)抽取的條件下,解析出具有分析意義的相應(yīng)數(shù)據(jù),從而明確各個用戶群體的實際數(shù)據(jù)特點,獲取到具有更高價值的知識數(shù)據(jù)[8]。該過程為將知識數(shù)據(jù)的應(yīng)用價值進(jìn)一步體現(xiàn),需要根據(jù)客戶的行為習(xí)慣以及電商平臺的學(xué)習(xí)特點,展開對專業(yè)知識的解釋與數(shù)據(jù)的深入挖掘工作,并應(yīng)根據(jù)實際需要選擇使用合適的數(shù)據(jù)挖掘應(yīng)用方法,從而將大數(shù)據(jù)應(yīng)用優(yōu)勢予以全面發(fā)揮。

        4. 基于MapReduce的聚類方法分析

        4.1 聚類算法的分類

        現(xiàn)階段未能出現(xiàn)一類能夠?qū)Χ嗑S數(shù)據(jù)及所呈現(xiàn)各類結(jié)構(gòu)進(jìn)行揭示的算法類型,一般使用聚類分析計算方法明確聚類模型、聚類密度以及對應(yīng)的使用網(wǎng)格。

        首先是劃分方法。這種方法的應(yīng)用原理簡單來說就是聚類一堆散點,需要達(dá)到的聚類效果是同類點足夠近或不同類點足夠遠(yuǎn),在過程最為常見的使用算法為K-means算法。此種算法的應(yīng)用優(yōu)勢在于可針對大型數(shù)據(jù)集進(jìn)行高效處理,無論是時間還是空間的復(fù)雜度均相對較低,但同樣具有優(yōu)先選擇k點較為敏感的應(yīng)用缺陷。

        其次是基于層次的方法。這種方法一般包括層次聚類與分裂層次聚類,其核心原理在于各個點均作為底層聚類,并對聚類間的距離進(jìn)行計算,合并相近聚類并在達(dá)到終止條件后結(jié)束[9];分裂層次聚類以包含全部數(shù)據(jù)點的聚類為起點,并能夠依據(jù)一定距離將子聚類進(jìn)行分裂,且能夠持續(xù)推進(jìn)分裂進(jìn)程,直至分裂為每個聚類只有一個對應(yīng)的數(shù)據(jù)點后即可結(jié)束,此過程最為常見的代表算法為BIRCH算法。從實際的算法應(yīng)用情況來看,不僅具有較好的可解釋性,且聚類所產(chǎn)生的數(shù)據(jù)質(zhì)量相對較高,但同樣有著較高的時間復(fù)雜度,即使在進(jìn)行后續(xù)的改進(jìn)處理后仍無法降低。

        4.2 在評論語句聚類前所使用的關(guān)鍵技術(shù)

        從當(dāng)下的大數(shù)據(jù)應(yīng)用環(huán)境來看,由于數(shù)據(jù)量相對較為龐大,因此想要將運(yùn)算效率進(jìn)一步提升需要針對數(shù)據(jù)展開相應(yīng)的分類與挖掘處理工作。一般需要聯(lián)合使用MapReduce框架,這也是需要在電商平臺中使用基于MapReduce語句聚類方法的主要原因。

        獲得相應(yīng)的評論數(shù)據(jù)集后,即可展開相應(yīng)的預(yù)處理工作,可獲得經(jīng)過精練簡化處理的語句,用以將特征詞全部提取出來,包括分詞與過濾兩種操作。隨后即可對特征詞權(quán)重數(shù)據(jù)進(jìn)行計算,該過程一般選擇使用TF-IDF計算方法,配合相似度計算方案即可在向量空間模型的幫助下,將獲取到的相似度數(shù)據(jù)轉(zhuǎn)化為相應(yīng)的距離,最后即可展開相應(yīng)的聚類操作[10]。通常使用K-means算法進(jìn)行聚類,并在MapReduce框架下達(dá)到并行處理的相應(yīng)目的。針對選取語句間的相似度方法,一般采取向量空間模型法,需要相關(guān)人員在對文本進(jìn)行向量化處理后,基于所獲得的向量夾角余弦值最終確定文本語句之間的相似度。

        4.2.1 特征詞的選取

        在對文本向量化進(jìn)行評價處理時,一般不將全部的詞匯在向量中表示,以免浪費(fèi)性能,只需要顯示出能夠?qū)⒄Z句含義全部表達(dá)的詞語即可,該部分分詞也被稱為特征詞。

        第一是分詞。分詞的操作簡單來說就是將原本完整的語句劃分為多個字或詞,一般使用軟件實現(xiàn)分詞操作。若想要將分詞準(zhǔn)確度進(jìn)一步提升,建議最大限度地將產(chǎn)品的屬性詞與相關(guān)領(lǐng)域的詞匯予以保留,從而使得保留的詞匯具有一定的語句意義,使得經(jīng)過處理后的詞匯仍然能夠表達(dá)出相應(yīng)的語句含義,這也是保證最終聚類效果的重要基礎(chǔ);

        第二是去助詞、介詞及連詞。此類詞匯通常為虛詞,并不具備實際意義,因此在將相應(yīng)的語句去除后并不會影響語句的本身含義。此種方法可在將向量維度降低后仍能夠保證語句的語義信息,起到了運(yùn)算量簡化的重要作用;

        第三是去代詞。雖然代詞并非虛詞,但代詞自身并不具有相應(yīng)的準(zhǔn)確含義,主要用于對某個主語進(jìn)行指代。因此在后續(xù)操作過程中,所使用的軟件算法并不會將其放在相應(yīng)的語境中獲取到相應(yīng)的指代含義,建議在對此語進(jìn)行過濾時選擇將其去除。

        4.2.2 文本向量化表示

        文本向量化簡單來說就是針對文本中的特征詞匯的句子向量的分量。在進(jìn)行分詞處理時需要基于所組建的過濾詞庫將不需要的部分完全去除,所獲得的特征詞集合則是構(gòu)建相似度計算模型的重要基礎(chǔ)。后續(xù)則需要對特征值在文本中所占據(jù)的權(quán)重進(jìn)行計算,從而明確空間向量的相應(yīng)數(shù)值,達(dá)到評論文本向量化的目的。

        4.2.3 特征值權(quán)重

        作為一種被經(jīng)常應(yīng)用的統(tǒng)計方法,TF-IDF被用于數(shù)據(jù)挖掘的加權(quán)過程,能夠?qū)σ活愇募凶衷~的重要程度進(jìn)行評估。一般來說文件中字詞的出現(xiàn)次數(shù)越多,則表示其重要性越高。TF為詞頻,簡單來說就是在文檔中所出現(xiàn)的語句頻率,在計算時需要將特征詞匯出現(xiàn)的次數(shù)除以文檔的總字?jǐn)?shù)。一般來說建議使用MapReduce框架,在Map階段統(tǒng)計各個節(jié)點所存儲的詞句,并在后續(xù)的Reduce階段完成對結(jié)果的匯總與計算。如此,不僅能夠?qū)⑦\(yùn)算速度進(jìn)一步加快,也能夠省略重復(fù)計算過程,縮短了權(quán)重的運(yùn)算時間,將算法的整體執(zhí)行效率全面提升。

        結(jié)語

        綜上所述,電子商務(wù)平臺在信息技術(shù)快速發(fā)展的背景下具備了強(qiáng)勢崛起的基礎(chǔ)條件,但需要注意的是互聯(lián)網(wǎng)仍然存在著自身的局限性。對于顧客來說,只能通過商家的宣傳了解產(chǎn)品的質(zhì)量,在無法辨別產(chǎn)品實際使用效果的情況下可能會出現(xiàn)一定的經(jīng)濟(jì)損失。為此需選擇使用針對海量評論數(shù)據(jù)的處理方案,將真正具有價值的信息進(jìn)行充分挖掘,為客戶提供商品選擇關(guān)鍵引導(dǎo)條件,從而保證平臺與商家的權(quán)益,這也是需要特別關(guān)注基于電商平臺大數(shù)據(jù)挖掘系統(tǒng)設(shè)計流程的主要原因。

        參考文獻(xiàn):

        [1]宋文智,白洪林,官潼筑,等.基于數(shù)據(jù)挖掘的跨境電商RCEP國別用戶畫像研究[J].中國新通信,2021,23(19):66-67.

        [2]秦宇.基于人工智能的電商大數(shù)據(jù)分類與挖掘算法[J].電子技術(shù)與軟件工程,2021(14):146-147.

        [3]郭燕萍.電商客戶數(shù)據(jù)挖掘中的模糊運(yùn)算聚類算法分析[J].現(xiàn)代電子技術(shù),2021,44(13):130-134.

        [4]王治博.基于Hadoop的電商平臺用戶數(shù)據(jù)挖掘研究[D].北京:華北電力大學(xué),2021.

        [5]賈咪雪.基于差分進(jìn)化粒子群算法的電商評論數(shù)據(jù)挖掘研究[D].上海:華中師范大學(xué),2021.

        [6]楊晨.基于數(shù)據(jù)挖掘技術(shù)的電商用戶購買行為預(yù)測研究[D].南京:南京大學(xué),2021.

        [7]吳濤.基于數(shù)據(jù)挖掘的電商客戶流失預(yù)測建模方法研究[J].安徽水利水電職業(yè)技術(shù)學(xué)院學(xué)報,2021,21(1):37-40.

        [8]張書月.數(shù)據(jù)挖掘技術(shù)在電商情感規(guī)律分析中的應(yīng)用研究[J].電腦知識與技術(shù),2021,17(5):258-259.

        [9]劉洪博.基于數(shù)據(jù)挖掘的電商網(wǎng)紅帶貨向量影響因素分析與預(yù)測[D].北京:對外經(jīng)濟(jì)貿(mào)易大學(xué),2020.

        [10]鐘磊.基于電商消費(fèi)大數(shù)據(jù)的客戶忠誠度預(yù)測方法研究[D].深圳:深圳大學(xué),2020.

        作者簡介:索紅升,碩士研究生,研究方向:軟件工程。

        猜你喜歡
        電商平臺
        第三方物流行業(yè)發(fā)展現(xiàn)狀及發(fā)展趨勢
        基于以電商平臺為核心的互聯(lián)網(wǎng)金融研究
        互聯(lián)網(wǎng)+冷鏈物流運(yùn)營模式研究
        科技視界(2016年26期)2016-12-17 18:01:29
        基于電商平臺的特色農(nóng)產(chǎn)品營銷策略探究
        商情(2016年40期)2016-11-28 10:11:15
        奢侈品電商平臺功能與發(fā)展研究
        基于電商平臺的大學(xué)生互聯(lián)網(wǎng)創(chuàng)業(yè)經(jīng)濟(jì)研究
        試析我國個人消費(fèi)信貸領(lǐng)域發(fā)展面臨的主要挑戰(zhàn)
        基于用戶體驗的電商平臺界面管理影響因素研究
        科技視界(2016年20期)2016-09-29 11:07:22
        網(wǎng)絡(luò)交易不正當(dāng)競爭行為中電商平臺的責(zé)任
        商(2016年22期)2016-07-08 14:38:23
        我國跨境電商發(fā)展研究的文獻(xiàn)綜述
        商(2016年16期)2016-06-12 17:34:47
        日本a在线免费观看| 国产欧美在线观看不卡| 色欲av伊人久久大香线蕉影院 | 人妻少妇中文字幕久久hd高清| 日本a级一级淫片免费观看| 久久无码字幕中文久久无码| 国产成人无码a区在线观看视频| 性夜夜春夜夜爽aa片a| 亚洲国产视频精品一区二区| 扒开女性毛茸茸的视频| 中文字幕亚洲精品久久| 国产成人无码精品久久二区三区| 欧美老妇与zozoz0交| 一区欧美在线动漫| 日韩亚洲在线一区二区| 久久久免费看少妇高潮| 日韩一区国产二区欧美三区 | 狠狠躁夜夜躁AV网站中文字幕 | 干日本少妇一区二区三区| 国产免费a∨片在线软件| 亚洲学生妹高清av| 亚洲性无码av在线| 国产精品美女主播在线| 加勒比色老久久爱综合网| 色偷偷av男人的天堂| 亚洲AV成人无码久久精品四虎| 偷柏自拍亚洲综合在线| 国产成人精品日本亚洲i8| 国产精久久一区二区三区| 少妇寂寞难耐被黑人中出| 男女高潮免费观看无遮挡| 国产高清在线精品一区二区三区| 国产成人a级毛片| 国产一区二区在线视频| 久久婷婷色香五月综合激情| 高清少妇一区二区三区| 日韩女优精品一区二区三区| 国内精品卡一卡二卡三| 久久半精品国产99精品国产| 亚洲中文字幕日本日韩| 国产精品一区二区三区在线蜜桃 |