亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別算法

        2021-06-24 09:30:36王玉玲
        微型電腦應(yīng)用 2021年6期
        關(guān)鍵詞:背景

        王玉玲

        (西安航空職業(yè)技術(shù)學(xué)院 航空管理工程學(xué)院, 陜西 西安 710089)

        0 引言

        近年來,隨著網(wǎng)絡(luò)和電子商務(wù)不斷發(fā)展,電子商務(wù)逐漸步入大數(shù)據(jù)時(shí)代,電子商務(wù)大數(shù)據(jù)化為人們工作和生活提供便利,電子商務(wù)數(shù)據(jù)量增加為計(jì)算機(jī)研究學(xué)者帶來極大挑戰(zhàn)[1]。電子商務(wù)大數(shù)據(jù)是指針對(duì)不同需求者通過不同數(shù)據(jù)挖掘方法為客戶提供需要信息,大數(shù)據(jù)背景的電子商務(wù)具有商品種類繁多,商品數(shù)據(jù)質(zhì)量參差不齊以及異構(gòu)性和多源性特點(diǎn)[2],不同電子商務(wù)平臺(tái)對(duì)相同商品定義并不相同,導(dǎo)致電子商務(wù)大數(shù)據(jù)平臺(tái)中商品應(yīng)用和分析受到影響。

        大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別是電子商務(wù)數(shù)據(jù)不斷發(fā)展而出現(xiàn)的重要研究課題[3],通過大數(shù)據(jù)背景的電子商務(wù)平臺(tái)識(shí)別所需商品實(shí)體,為大數(shù)據(jù)分析與集成提供基礎(chǔ)。研究大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別算法,將電子商務(wù)商品實(shí)體識(shí)別算法應(yīng)用于Hadoop云計(jì)算平臺(tái)中,Hadoop云計(jì)算平臺(tái)可有效應(yīng)用于海量大數(shù)據(jù)處理中,該算法可有效識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體。

        1 大數(shù)據(jù)背景下的電子商務(wù)商品實(shí)體識(shí)別算法

        1.1 Hadoop平臺(tái)

        Hadoop平臺(tái)是可對(duì)電子商務(wù)商品實(shí)體大數(shù)據(jù)實(shí)施分布式處理的基礎(chǔ)架構(gòu)平臺(tái)。Hadoop平臺(tái)主要部分是Hadoop分布式文件系統(tǒng),通過分布式文件系統(tǒng)存儲(chǔ)Hadoop集群內(nèi)全部節(jié)點(diǎn)文件[4]。Hadoop平臺(tái)通過特定節(jié)點(diǎn)建立,主要包括可控制外部客戶機(jī)訪問與負(fù)責(zé)管理文件系統(tǒng)名稱的姓名節(jié)點(diǎn),可回應(yīng)分布式文件系統(tǒng)客戶機(jī)讀寫記錄并存儲(chǔ)將文件分成不同數(shù)量塊的多個(gè)數(shù)據(jù)節(jié)點(diǎn)[5],Hadoop分布式文件系統(tǒng)位于Hadoop平臺(tái)最底層。分布式文件系統(tǒng)最上層為Map-Reduce執(zhí)行引擎,其中包括Task Tracker以及Job Tracker,Job Tracker數(shù)量為1,并且單獨(dú)運(yùn)行于主節(jié)點(diǎn)中;Task Tracker數(shù)量眾多,運(yùn)行于集群節(jié)點(diǎn)[6],Task Tracker中運(yùn)行任務(wù)主要通過Job Tracker調(diào)度與協(xié)調(diào)。

        Map-Reduce執(zhí)行引擎是應(yīng)用于大數(shù)據(jù)任務(wù)處理和分布式計(jì)算的軟件架構(gòu),Map-Reduce執(zhí)行引擎主要包括映射(MAP)與化簡(jiǎn)(REDUCE),通過鍵-值對(duì)作為Map-Reduce執(zhí)行引擎輸入與輸出,通過Map函數(shù)接受數(shù)據(jù)并轉(zhuǎn)換至列表后發(fā)送至Reduce函數(shù),Reduce函數(shù)接受數(shù)據(jù)列表后通過鍵縮小列表,實(shí)現(xiàn)大數(shù)據(jù)高速處理[7]。

        1.2 屬性/值的規(guī)范化處理

        電子商務(wù)平臺(tái)存在大量等價(jià)的屬性/值節(jié)點(diǎn),但表達(dá)方法并不相同,大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別前需要將等價(jià)的屬性/值節(jié)點(diǎn)合并[8],便于電子商務(wù)商品實(shí)體識(shí)別。設(shè)大數(shù)據(jù)背景的電子商務(wù)商品中的倒排索引集合為R,依據(jù)R內(nèi)的全部屬性/值記錄設(shè)置全局模式圖用G=表示。其中M與N分別為全部屬性與值形成點(diǎn)集合,連接屬性與值點(diǎn)集的帶權(quán)邊集合用J表示。設(shè)存在隨機(jī)屬性與值分別滿足A∈M和U∈N,倒排索引集合R內(nèi)存在特征項(xiàng)的商品集合和商品數(shù)量分別為Z和k,可得J內(nèi)具有邊且權(quán)重為k時(shí),用ω〈A,U〉標(biāo)記。

        Simvalue(Ui,Uj)≥μ1

        (1)

        通過構(gòu)建基于值文本語義相似度聚類獲取等價(jià)值集合,利用Brown所提方法語義相似性分析Ui與Uj兩值式,如式(2)。

        (2)

        等價(jià)值結(jié)合建立方法如下。

        1.3 實(shí)體識(shí)別算法

        通過上文屬性/值的規(guī)范化處理獲取可體現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體間相似關(guān)系的實(shí)體對(duì)集合[12]。將全部相似對(duì)用圖表示,用不同實(shí)體以及實(shí)體間的相似關(guān)系表示圖的頂點(diǎn)與邊,利用圖聚類思想的實(shí)體劃分算法實(shí)現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別,該算法可依據(jù)電子商務(wù)商品實(shí)體節(jié)點(diǎn)收縮鄰居信息關(guān)系[13],劃分圖獲取具有統(tǒng)一實(shí)體的實(shí)體簇。圖聚類思想的實(shí)體劃分算法具體實(shí)現(xiàn)過程如下。

        算法中,W(v)為圖中頂點(diǎn)v的鄰居節(jié)點(diǎn)集合,且滿足v∈W(v)。

        算法:

        輸入:依據(jù)相似實(shí)體對(duì)建立圖H=(V,F)以及參數(shù)λ;

        輸出:識(shí)別電子商務(wù)商品實(shí)體D={H1,H2,…,HN},其中Hi={Fj|Fj表示相同類別實(shí)體}。

        1. In order to independenceF=(a,b) do;

        2. What If |W(a)∩W(b)|≥λ|W(a)∩W(b)| and then;

        3. Commingle (a,b);

        4. Renew=real;

        5. Over if

        6. What If renew=real then

        7. Return 2;

        8. Over if

        9. Over for

        10. Send out H;

        以上算法中通過迭代的圖聚類方式實(shí)現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別,由大數(shù)據(jù)背景的電子商務(wù)商品構(gòu)成的圖內(nèi)的隨機(jī)邊用(a,b)表示,通過以上算法判斷圖的頂點(diǎn)a和b是否符合|W(a)∩W(b)|≥λ|W(a)∩W(b)|,參數(shù)λ依據(jù)實(shí)際情況設(shè)置,當(dāng)符合以上條件時(shí),收縮a以及b至相同頂點(diǎn)a′={a,b},重復(fù)迭代直至不存在邊符合收縮條件為止。圖中剩余頂點(diǎn)表示的頂點(diǎn)集即為采用該算法劃分圖結(jié)果[14],不同頂點(diǎn)集表示相同實(shí)體類實(shí)體。

        大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別過程中,獲取結(jié)果|W(a)∩W(b)|與|W(a)∪W(b)|的代價(jià)為O(d),圖中結(jié)點(diǎn)平均度用d表示,最大迭代次數(shù)為O(|F|),其中|F|表示圖中存在邊數(shù),通過以上過程可知,該算法最差時(shí)間復(fù)雜度用O(d×[F])表示,以上聚類算法僅通過頂點(diǎn)所屬聯(lián)通分量集合獲取[15],依據(jù)圖的聯(lián)通分量實(shí)現(xiàn)并行識(shí)別處理,利用各結(jié)點(diǎn)負(fù)載平衡獲取最優(yōu)識(shí)別速度。

        2 實(shí)驗(yàn)結(jié)果與分析

        為有效檢測(cè)本文研究大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體有效性,通過開源的虛擬化軟件Oracle Virtualbox利用浪潮英信NF8560M2服務(wù)器設(shè)置50個(gè)主機(jī)節(jié)點(diǎn)布置分布式大數(shù)據(jù)硬件環(huán)境。選取CPU為銳龍 5 2600X 處理器、內(nèi)存為8 GB的計(jì)算機(jī)作為實(shí)驗(yàn)主機(jī),選取Ubuntu12操作系統(tǒng)的Hadoop 0.20.2平臺(tái)作為實(shí)驗(yàn)節(jié)點(diǎn)平臺(tái)。實(shí)驗(yàn)數(shù)據(jù)集來源于我國綜合B2C電子商務(wù)平臺(tái)天貓、京東、拼多多三個(gè)主流平臺(tái)實(shí)時(shí)數(shù)據(jù),通過Map-Reduce框架的開源平臺(tái)實(shí)現(xiàn)實(shí)驗(yàn)。

        統(tǒng)計(jì)2019年3月的10類30個(gè)二級(jí)分類共848 430件電子商務(wù)商品,來自各平臺(tái)不同類別的電子商務(wù)商品數(shù)量如表1所示。

        表1 不同類別實(shí)驗(yàn)數(shù)據(jù)集分類情況

        (3)

        算法平均召回率如式(4)。

        (4)

        算法平均綜合評(píng)價(jià)指標(biāo)如式(5)。

        (5)

        三種算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體結(jié)果如表2所示。

        表2 不同算法電子商務(wù)商品實(shí)體識(shí)別結(jié)果

        通過表2實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體的平均識(shí)別精度,并將本文算法與HMM算法以及Winnow算法對(duì)比,對(duì)比結(jié)果如圖1所示。

        圖1 不同算法平均識(shí)別精度對(duì)比

        通過圖1可以看出,采用本文方法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體平均識(shí)別精度均高于98%,對(duì)于不同類別電子商務(wù)商品實(shí)體均具有較高的平均識(shí)別精度,有效驗(yàn)證本文方法的識(shí)別準(zhǔn)確性。

        統(tǒng)計(jì)采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)實(shí)體平均召回率,并將本文算法與HMM算法以及Winnow算法對(duì)比,結(jié)果如圖2所示。

        圖2 不同算法平均召回率對(duì)比

        通過圖2可以看出,采用本文算法識(shí)別電子商務(wù)商品實(shí)體平均召回率明顯高于另兩種算法,本文算法的平均召回率均在98%以上;而HMM算法以及Winnow算法的平均召回率均低于98%,再次驗(yàn)證本文算法識(shí)別性能。

        統(tǒng)計(jì)采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)實(shí)體的平均綜合評(píng)價(jià)指標(biāo),并將本文算法與HMM算法以及Winnow算法對(duì)比,結(jié)果如圖3所示。

        圖3 不同算法平均綜合評(píng)價(jià)指標(biāo)對(duì)比

        通過圖3可以看出,采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體平均綜合評(píng)價(jià)指標(biāo)明顯高于另兩種方法。

        以上實(shí)驗(yàn)結(jié)果表明,采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)實(shí)體準(zhǔn)確率、召回率以及綜合評(píng)價(jià)指標(biāo)均優(yōu)于另兩種方法,具有較高的識(shí)別性能。

        為進(jìn)一步檢測(cè)本文算法在大數(shù)據(jù)背景下識(shí)別性能,統(tǒng)計(jì)不同算法在不同數(shù)據(jù)量情況下識(shí)別效率,結(jié)果如表3所示。

        表3 不同算法識(shí)別效率對(duì)比

        通過表3可以看出,數(shù)據(jù)量較小時(shí),本文算法運(yùn)行效率并不高;大數(shù)據(jù)量情況下,本文算法識(shí)別性能顯著上升。主要原因是數(shù)據(jù)量較小時(shí),本文算法無法發(fā)揮并行性能,運(yùn)行效率較低;隨著數(shù)據(jù)量提升,本文算法可充分發(fā)揮算法優(yōu)良性能,利用不同進(jìn)程執(zhí)行并行任務(wù),獲取較好的識(shí)別效率。采用本文算法識(shí)別大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體,不同數(shù)據(jù)量以及復(fù)雜的數(shù)據(jù)環(huán)境下均具有良好識(shí)別結(jié)果,驗(yàn)證本文算法具有較優(yōu)的適用性。

        3 總結(jié)

        電子商務(wù)商品具有數(shù)據(jù)來源復(fù)雜、數(shù)據(jù)量龐大的異構(gòu)多源特征,導(dǎo)致傳統(tǒng)電子商務(wù)商品實(shí)體識(shí)別算法無法識(shí)別大數(shù)據(jù)下電子商務(wù)商品實(shí)體。研究大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別算法,利用圖聚類思想的實(shí)體劃分算法實(shí)現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實(shí)體識(shí)別。選取京東、天貓和拼多多3個(gè)電子商務(wù)平臺(tái)數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,驗(yàn)證該算法具有較高的識(shí)別準(zhǔn)確率以及識(shí)別性能,對(duì)大數(shù)據(jù)下的電子商務(wù)商品實(shí)體具有較優(yōu)的識(shí)別性能。

        猜你喜歡
        背景
        “三新”背景下關(guān)于高考一輪復(fù)習(xí)策略的思考
        “新四化”背景下汽車NVH的發(fā)展趨勢(shì)
        《論持久戰(zhàn)》的寫作背景
        黑洞背景知識(shí)
        基于高考背景下的高中數(shù)學(xué)教學(xué)探討
        活力(2019年21期)2019-04-01 12:18:06
        I ROBOT AI背景下的2018火人節(jié)
        晚清外語翻譯人才培養(yǎng)的背景
        背景鏈接
        從背景出發(fā)還是從文本出發(fā)
        “雙背景”院長(zhǎng)獲認(rèn)同
        有坂深雪中文字幕亚洲中文| 国产日韩欧美911在线观看| 亚洲午夜久久久精品国产| 野花视频在线观看免费| 奇米影视7777久久精品| 最近免费中文字幕| 国产高清白浆| 国产精品久久av色婷婷网站 | 精品一区二区三区在线观看| 久久青草国产免费观看| 日韩一区三区av在线| 亚洲精品无码专区在线在线播放| 国产又色又爽无遮挡免费 | 久久精品亚洲国产成人av| 中文字幕漂亮人妻在线| av无码精品一区二区三区宅噜噜| 免费视频一区二区| 少妇人妻出水中文字幕乱码| 国产一区亚洲二区三区| 国产成人一区二区三区影院动漫| 专区亚洲欧洲日产国码AV| 亚洲一区二区三区1区2区| 日本真人添下面视频免费| 300部国产真实乱| 91在线区啪国自产网页| 国产中文字幕免费视频一区| 怡红院av一区二区三区| 热99精品| av在线不卡一区二区三区| 中文字幕无码成人片| 韩国精品一区二区三区无码视频| 高清高速无码一区二区| 国产精品国产三级国产剧情| 人妻少妇乱子伦精品无码专区电影 | 国产免费又爽又色又粗视频| 欧美午夜精品久久久久久浪潮| 国产精品一区二区三区不卡| 亚洲一区二区三区四区地址| 欧美精品videossex少妇| 国产精品国产三级国产专播| 亚洲熟女av在线观看|