王玉玲
(西安航空職業(yè)技術(shù)學(xué)院 航空管理工程學(xué)院, 陜西 西安 710089)
近年來,隨著網(wǎng)絡(luò)和電子商務(wù)不斷發(fā)展,電子商務(wù)逐漸步入大數(shù)據(jù)時(shí)代,電子商務(wù)大數(shù)據(jù)化為人們工作和生活提供便利,電子商務(wù)數(shù)據(jù)量增加為計(jì)算機(jī)研究學(xué)者帶來極大挑戰(zhàn)[1]。電子商務(wù)大數(shù)據(jù)是指針對(duì)不同需求者通過不同數(shù)據(jù)挖掘方法為客戶提供需要信息,大數(shù)據(jù)背景的電子商務(wù)具有商品種類繁多,商品數(shù)據(jù)質(zhì)量參差不齊以及異構(gòu)性和多源性特點(diǎn)[2],不同電子商務(wù)平臺(tái)對(duì)相同商品定義并不相同,導(dǎo)致電子商務(wù)大數(shù)據(jù)平臺(tái)中商品應(yīng)用和分析受到影響。
大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別是電子商務(wù)數(shù)據(jù)不斷發(fā)展而出現(xiàn)的重要研究課題[3],通過大數(shù)據(jù)背景的電子商務(wù)平臺(tái)識(shí)別所需商品實(shí)體,為大數(shù)據(jù)分析與集成提供基礎(chǔ)。研究大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別算法,將電子商務(wù)商品實(shí)體識(shí)別算法應(yīng)用于Hadoop云計(jì)算平臺(tái)中,Hadoop云計(jì)算平臺(tái)可有效應(yīng)用于海量大數(shù)據(jù)處理中,該算法可有效識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體。
Hadoop平臺(tái)是可對(duì)電子商務(wù)商品實(shí)體大數(shù)據(jù)實(shí)施分布式處理的基礎(chǔ)架構(gòu)平臺(tái)。Hadoop平臺(tái)主要部分是Hadoop分布式文件系統(tǒng),通過分布式文件系統(tǒng)存儲(chǔ)Hadoop集群內(nèi)全部節(jié)點(diǎn)文件[4]。Hadoop平臺(tái)通過特定節(jié)點(diǎn)建立,主要包括可控制外部客戶機(jī)訪問與負(fù)責(zé)管理文件系統(tǒng)名稱的姓名節(jié)點(diǎn),可回應(yīng)分布式文件系統(tǒng)客戶機(jī)讀寫記錄并存儲(chǔ)將文件分成不同數(shù)量塊的多個(gè)數(shù)據(jù)節(jié)點(diǎn)[5],Hadoop分布式文件系統(tǒng)位于Hadoop平臺(tái)最底層。分布式文件系統(tǒng)最上層為Map-Reduce執(zhí)行引擎,其中包括Task Tracker以及Job Tracker,Job Tracker數(shù)量為1,并且單獨(dú)運(yùn)行于主節(jié)點(diǎn)中;Task Tracker數(shù)量眾多,運(yùn)行于集群節(jié)點(diǎn)[6],Task Tracker中運(yùn)行任務(wù)主要通過Job Tracker調(diào)度與協(xié)調(diào)。
Map-Reduce執(zhí)行引擎是應(yīng)用于大數(shù)據(jù)任務(wù)處理和分布式計(jì)算的軟件架構(gòu),Map-Reduce執(zhí)行引擎主要包括映射(MAP)與化簡(jiǎn)(REDUCE),通過鍵-值對(duì)
電子商務(wù)平臺(tái)存在大量等價(jià)的屬性/值節(jié)點(diǎn),但表達(dá)方法并不相同,大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別前需要將等價(jià)的屬性/值節(jié)點(diǎn)合并[8],便于電子商務(wù)商品實(shí)體識(shí)別。設(shè)大數(shù)據(jù)背景的電子商務(wù)商品中的倒排索引集合為R,依據(jù)R內(nèi)的全部屬性/值記錄設(shè)置全局模式圖用G=
Simvalue(Ui,Uj)≥μ1
(1)
通過構(gòu)建基于值文本語義相似度聚類獲取等價(jià)值集合,利用Brown所提方法語義相似性分析Ui與Uj兩值式,如式(2)。
(2)
等價(jià)值結(jié)合建立方法如下。
通過上文屬性/值的規(guī)范化處理獲取可體現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體間相似關(guān)系的實(shí)體對(duì)集合[12]。將全部相似對(duì)用圖表示,用不同實(shí)體以及實(shí)體間的相似關(guān)系表示圖的頂點(diǎn)與邊,利用圖聚類思想的實(shí)體劃分算法實(shí)現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別,該算法可依據(jù)電子商務(wù)商品實(shí)體節(jié)點(diǎn)收縮鄰居信息關(guān)系[13],劃分圖獲取具有統(tǒng)一實(shí)體的實(shí)體簇。圖聚類思想的實(shí)體劃分算法具體實(shí)現(xiàn)過程如下。
算法中,W(v)為圖中頂點(diǎn)v的鄰居節(jié)點(diǎn)集合,且滿足v∈W(v)。
算法:
輸入:依據(jù)相似實(shí)體對(duì)建立圖H=(V,F)以及參數(shù)λ;
輸出:識(shí)別電子商務(wù)商品實(shí)體D={H1,H2,…,HN},其中Hi={Fj|Fj表示相同類別實(shí)體}。
1. In order to independenceF=(a,b) do;
2. What If |W(a)∩W(b)|≥λ|W(a)∩W(b)| and then;
3. Commingle (a,b);
4. Renew=real;
5. Over if
6. What If renew=real then
7. Return 2;
8. Over if
9. Over for
10. Send out H;
以上算法中通過迭代的圖聚類方式實(shí)現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別,由大數(shù)據(jù)背景的電子商務(wù)商品構(gòu)成的圖內(nèi)的隨機(jī)邊用(a,b)表示,通過以上算法判斷圖的頂點(diǎn)a和b是否符合|W(a)∩W(b)|≥λ|W(a)∩W(b)|,參數(shù)λ依據(jù)實(shí)際情況設(shè)置,當(dāng)符合以上條件時(shí),收縮a以及b至相同頂點(diǎn)a′={a,b},重復(fù)迭代直至不存在邊符合收縮條件為止。圖中剩余頂點(diǎn)表示的頂點(diǎn)集即為采用該算法劃分圖結(jié)果[14],不同頂點(diǎn)集表示相同實(shí)體類實(shí)體。
大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別過程中,獲取結(jié)果|W(a)∩W(b)|與|W(a)∪W(b)|的代價(jià)為O(d),圖中結(jié)點(diǎn)平均度用d表示,最大迭代次數(shù)為O(|F|),其中|F|表示圖中存在邊數(shù),通過以上過程可知,該算法最差時(shí)間復(fù)雜度用O(d×[F])表示,以上聚類算法僅通過頂點(diǎn)所屬聯(lián)通分量集合獲取[15],依據(jù)圖的聯(lián)通分量實(shí)現(xiàn)并行識(shí)別處理,利用各結(jié)點(diǎn)負(fù)載平衡獲取最優(yōu)識(shí)別速度。
為有效檢測(cè)本文研究大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體有效性,通過開源的虛擬化軟件Oracle Virtualbox利用浪潮英信NF8560M2服務(wù)器設(shè)置50個(gè)主機(jī)節(jié)點(diǎn)布置分布式大數(shù)據(jù)硬件環(huán)境。選取CPU為銳龍 5 2600X 處理器、內(nèi)存為8 GB的計(jì)算機(jī)作為實(shí)驗(yàn)主機(jī),選取Ubuntu12操作系統(tǒng)的Hadoop 0.20.2平臺(tái)作為實(shí)驗(yàn)節(jié)點(diǎn)平臺(tái)。實(shí)驗(yàn)數(shù)據(jù)集來源于我國綜合B2C電子商務(wù)平臺(tái)天貓、京東、拼多多三個(gè)主流平臺(tái)實(shí)時(shí)數(shù)據(jù),通過Map-Reduce框架的開源平臺(tái)實(shí)現(xiàn)實(shí)驗(yàn)。
統(tǒng)計(jì)2019年3月的10類30個(gè)二級(jí)分類共848 430件電子商務(wù)商品,來自各平臺(tái)不同類別的電子商務(wù)商品數(shù)量如表1所示。
表1 不同類別實(shí)驗(yàn)數(shù)據(jù)集分類情況
(3)
算法平均召回率如式(4)。
(4)
算法平均綜合評(píng)價(jià)指標(biāo)如式(5)。
(5)
三種算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體結(jié)果如表2所示。
表2 不同算法電子商務(wù)商品實(shí)體識(shí)別結(jié)果
通過表2實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體的平均識(shí)別精度,并將本文算法與HMM算法以及Winnow算法對(duì)比,對(duì)比結(jié)果如圖1所示。
圖1 不同算法平均識(shí)別精度對(duì)比
通過圖1可以看出,采用本文方法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體平均識(shí)別精度均高于98%,對(duì)于不同類別電子商務(wù)商品實(shí)體均具有較高的平均識(shí)別精度,有效驗(yàn)證本文方法的識(shí)別準(zhǔn)確性。
統(tǒng)計(jì)采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)實(shí)體平均召回率,并將本文算法與HMM算法以及Winnow算法對(duì)比,結(jié)果如圖2所示。
圖2 不同算法平均召回率對(duì)比
通過圖2可以看出,采用本文算法識(shí)別電子商務(wù)商品實(shí)體平均召回率明顯高于另兩種算法,本文算法的平均召回率均在98%以上;而HMM算法以及Winnow算法的平均召回率均低于98%,再次驗(yàn)證本文算法識(shí)別性能。
統(tǒng)計(jì)采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)實(shí)體的平均綜合評(píng)價(jià)指標(biāo),并將本文算法與HMM算法以及Winnow算法對(duì)比,結(jié)果如圖3所示。
圖3 不同算法平均綜合評(píng)價(jià)指標(biāo)對(duì)比
通過圖3可以看出,采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體平均綜合評(píng)價(jià)指標(biāo)明顯高于另兩種方法。
以上實(shí)驗(yàn)結(jié)果表明,采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)實(shí)體準(zhǔn)確率、召回率以及綜合評(píng)價(jià)指標(biāo)均優(yōu)于另兩種方法,具有較高的識(shí)別性能。
為進(jìn)一步檢測(cè)本文算法在大數(shù)據(jù)背景下識(shí)別性能,統(tǒng)計(jì)不同算法在不同數(shù)據(jù)量情況下識(shí)別效率,結(jié)果如表3所示。
表3 不同算法識(shí)別效率對(duì)比
通過表3可以看出,數(shù)據(jù)量較小時(shí),本文算法運(yùn)行效率并不高;大數(shù)據(jù)量情況下,本文算法識(shí)別性能顯著上升。主要原因是數(shù)據(jù)量較小時(shí),本文算法無法發(fā)揮并行性能,運(yùn)行效率較低;隨著數(shù)據(jù)量提升,本文算法可充分發(fā)揮算法優(yōu)良性能,利用不同進(jìn)程執(zhí)行并行任務(wù),獲取較好的識(shí)別效率。采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體,不同數(shù)據(jù)量以及復(fù)雜的數(shù)據(jù)環(huán)境下均具有良好識(shí)別結(jié)果,驗(yàn)證本文算法具有較優(yōu)的適用性。
電子商務(wù)商品具有數(shù)據(jù)來源復(fù)雜、數(shù)據(jù)量龐大的異構(gòu)多源特征,導(dǎo)致傳統(tǒng)電子商務(wù)商品實(shí)體識(shí)別算法無法識(shí)別大數(shù)據(jù)下電子商務(wù)商品實(shí)體。研究大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別算法,利用圖聚類思想的實(shí)體劃分算法實(shí)現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別。選取京東、天貓和拼多多3個(gè)電子商務(wù)平臺(tái)數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,驗(yàn)證該算法具有較高的識(shí)別準(zhǔn)確率以及識(shí)別性能,對(duì)大數(shù)據(jù)下的電子商務(wù)商品實(shí)體具有較優(yōu)的識(shí)別性能。