亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于大數(shù)據(jù)環(huán)境下的電子商務(wù)商品實(shí)體同一性識(shí)別的研究

        2016-03-24 08:12:54于帥
        中國(guó)新通信 2016年4期
        關(guān)鍵詞:同一性識(shí)別大數(shù)據(jù)

        于帥

        【摘要】 經(jīng)濟(jì)與科技的發(fā)展帶動(dòng)了電子商務(wù)的發(fā)展,在電子商務(wù)平臺(tái)中對(duì)數(shù)據(jù)的收集與分析是相關(guān)人員應(yīng)當(dāng)重視的關(guān)鍵性問(wèn)題,不同的電子商務(wù)主體其擁有的數(shù)據(jù)是不同的,且具有相對(duì)獨(dú)立自治,數(shù)據(jù)異構(gòu)等特征,為了對(duì)商品信息進(jìn)行識(shí)別與判定,應(yīng)當(dāng)設(shè)計(jì)相應(yīng)的模型,提高對(duì)商品實(shí)體同一性的識(shí)別率。文中將對(duì)這一問(wèn)題展開研究。

        【關(guān)鍵詞】 大數(shù)據(jù) 電子商務(wù) 商品實(shí)體 同一性 識(shí)別

        信息化的發(fā)展是人們進(jìn)入了大數(shù)據(jù)時(shí)代,商品交易對(duì)網(wǎng)絡(luò)的依賴性與利用率迅猛提升,電子商務(wù)已經(jīng)逐漸成為人們生活中不可分割的一部分。為了更好的在網(wǎng)絡(luò)上開展生產(chǎn)經(jīng)營(yíng)活動(dòng),需要對(duì)大量的數(shù)據(jù)進(jìn)行收集與分析,從眾多的數(shù)據(jù)源中找到能夠描述具有同一性的商品實(shí)體的網(wǎng)頁(yè),如何開展商品實(shí)體同一性識(shí)別是應(yīng)當(dāng)思考的重點(diǎn)問(wèn)題。

        一、電子商務(wù)在大數(shù)據(jù)環(huán)境中進(jìn)行商品實(shí)體同一性識(shí)別面臨的挑戰(zhàn)

        在大數(shù)據(jù)環(huán)境中,對(duì)同一性商品進(jìn)行識(shí)別具有較大的難度。首先數(shù)據(jù)極為龐大,這一特點(diǎn)主要表現(xiàn)在三個(gè)方面,第一是數(shù)據(jù)量本身較多,我國(guó)現(xiàn)有的電子商務(wù)平臺(tái)在100家以上,而商品數(shù)量則超過(guò)200萬(wàn)件,識(shí)別難度較大;第二是數(shù)據(jù)具有多樣性,商品的描述方式、屬性結(jié)構(gòu)、數(shù)據(jù)模態(tài)、商品布局等均存在差異,因此很難在一個(gè)模型下進(jìn)行選擇與分析;第三是數(shù)據(jù)增長(zhǎng)與更新速度快,商品的數(shù)量與價(jià)格、用戶評(píng)價(jià)、交易記錄等都會(huì)成倍的增長(zhǎng),因此數(shù)據(jù)篩選難度大。其次,商務(wù)平臺(tái)中,商家與商品均較多、交雜,而不同商家對(duì)同一商品的定義與設(shè)計(jì)也存在或多或少的差異性,因此在進(jìn)行關(guān)鍵詞搜索時(shí),兩個(gè)相似度較高或相同的商品不一定會(huì)顯示在同一個(gè)頁(yè)面中,相似度相對(duì)較低的商品也可能因?yàn)槟骋魂P(guān)鍵詞而出現(xiàn)在同一頁(yè)面中。在對(duì)商品描述性語(yǔ)言進(jìn)行分析時(shí),傳統(tǒng)方法很難準(zhǔn)確判定兩個(gè)描述的語(yǔ)義是否具有一致性,因此識(shí)別相對(duì)困難。

        二、大數(shù)據(jù)環(huán)境下電子商務(wù)商品實(shí)體同一性識(shí)別的模型研究

        1、對(duì)象數(shù)據(jù)模型。在數(shù)據(jù)背景下可用對(duì)象來(lái)描述數(shù)據(jù)特征,商務(wù)平臺(tái)中商品數(shù)據(jù)通常以網(wǎng)頁(yè)的形式呈現(xiàn)出來(lái),網(wǎng)頁(yè)可被稱作為對(duì)象頁(yè)面,每一商品對(duì)應(yīng)的網(wǎng)頁(yè)頁(yè)面都含有獨(dú)特的結(jié)構(gòu)信息,由對(duì)象、對(duì)象頁(yè)面以及頁(yè)面信息所構(gòu)成的模型極為對(duì)象數(shù)據(jù)模型。為了更準(zhǔn)確的進(jìn)行同一性識(shí)別,整個(gè)網(wǎng)站會(huì)被描述為非空樹,由五個(gè)層次組成,其中根節(jié)點(diǎn)為網(wǎng)站數(shù)據(jù)源,中間節(jié)點(diǎn)為各級(jí)欄目,葉子節(jié)點(diǎn)為頁(yè)面,用戶在網(wǎng)站主最多只需點(diǎn)擊四次就可以到達(dá)目標(biāo)頁(yè)面。

        2、樹模型。關(guān)系模式難以對(duì)電子商務(wù)中的復(fù)雜數(shù)據(jù)進(jìn)行描述與定義,而樹模型以值或者屬性為基礎(chǔ),并與鍵值型進(jìn)行適當(dāng)結(jié)合,可以滿足多樣性的需求。整個(gè)模型由數(shù)據(jù)單元關(guān)系以及鍵值型對(duì)應(yīng)的數(shù)據(jù)單元兩部分組成,對(duì)象數(shù)據(jù)則包括不同層次的元數(shù)據(jù),元數(shù)據(jù)包括實(shí)體、父級(jí)對(duì)象、鍵名以及數(shù)據(jù)值,如商品實(shí)體OPPO手機(jī),可分為N1、N3等多個(gè)型號(hào)即多個(gè)商品對(duì)象,各型號(hào)存在的不同的屬性即為值。由于樹模型不會(huì)對(duì)數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)內(nèi)容進(jìn)行識(shí)別與解析,它可適用于任何類型的數(shù)據(jù),其擴(kuò)展性極強(qiáng)。

        3、索引設(shè)計(jì)。在找尋具有同一性的商品實(shí)體時(shí),需要對(duì)每?jī)蓚€(gè)商品進(jìn)行一次比較,這一過(guò)程是極為復(fù)雜與繁瑣的,為了解決這一問(wèn)題,可將商品對(duì)應(yīng)的屬性值構(gòu)造進(jìn)行倒排,從而形成新的索引表,完成對(duì)商品的查詢。屬性名稱、取值、子樹中滿足要求的頁(yè)面集合共同組成索引記錄集合。當(dāng)用戶鍵入關(guān)鍵詞后,模型會(huì)根據(jù)條件形成層次樹,即建立樹模型,然后索引設(shè)計(jì)模型再對(duì)符合條件的項(xiàng)目進(jìn)行檢查,如果節(jié)點(diǎn)中存在索引集合,那么記錄中將會(huì)增加該頁(yè)面,通過(guò)這種方式可以完成初步的聚類處理。

        4、值與屬性處理。電子商務(wù)平臺(tái)中商家、商品都極多,而其商品可能會(huì)采取不同的形式表述,雖然其值或?qū)傩怨?jié)點(diǎn)是等價(jià)的,由于表述不一,篩選起來(lái)十分困難,如蘋果手機(jī)與iPhone這種表述等。若想準(zhǔn)確找到具有同一性的商品就需要對(duì)商品的值或?qū)傩赃M(jìn)行規(guī)范化的處理,在索引設(shè)計(jì)中采取倒排索引,設(shè)計(jì)人員應(yīng)當(dāng)將可以表示商品值與屬性的點(diǎn)集進(jìn)行分析,然后判定各值或?qū)傩运嫉臋?quán)重。如果某兩件商品的某一屬性完全等價(jià),則可將其納入到同一商品的集合中。

        5、層次概率模型。對(duì)同一體進(jìn)行識(shí)別的過(guò)程最終是在層次概率模型的基礎(chǔ)上完成的,在實(shí)際的電子商務(wù)中幾乎沒(méi)有頁(yè)面的相關(guān)描述是百分百一致的,因此同一性識(shí)別的依據(jù)只能是相似度,由于不同屬性對(duì)商品識(shí)別產(chǎn)生的影響具有差異性,因此在識(shí)別與比較前需根據(jù)實(shí)際需求對(duì)各屬性賦予不同的權(quán)值,然后就商品比較的需求設(shè)計(jì)由三個(gè)層次構(gòu)成的概率樹,最后以此對(duì)概率樹種的屬性進(jìn)行篩選與比較,找出其中相似度較高的屬性,找出具有同一性的商品。

        結(jié)語(yǔ):在電子商務(wù)活動(dòng)中對(duì)商品實(shí)體進(jìn)行同一性的識(shí)別是十分必要且重要的,信息時(shí)代數(shù)據(jù)量迅猛增長(zhǎng),為了準(zhǔn)確、迅速的找到具有同一性的商品,設(shè)計(jì)人員應(yīng)當(dāng)建立有效的對(duì)象數(shù)據(jù)模型、樹模型、索引、值與屬性處理系統(tǒng)以及層次概率模型等,對(duì)數(shù)據(jù)進(jìn)行合理的篩選與分析。

        參 考 文 獻(xiàn)

        [1]胡亞慧,李石君,余偉,等.大數(shù)據(jù)環(huán)境下的電子商務(wù)商品實(shí)體同一性識(shí)別[J].計(jì)算機(jī)研究與發(fā)展,2015(08).

        [2]劉顯敏.XML數(shù)據(jù)實(shí)體同一性相關(guān)技術(shù)的研究[D].哈爾濱工業(yè)大學(xué),2013.

        猜你喜歡
        同一性識(shí)別大數(shù)據(jù)
        麥金太爾對(duì)現(xiàn)代性自我的批判
        淺談哈密瓜病蟲害的防治措施
        蘋果樹常見(jiàn)病蟲害防治技術(shù)
        青島市中山公園園林樹木易混淆品種識(shí)別
        淺探《安恩與奶?!返墓陋?dú)性與同一性
        考試周刊(2016年74期)2016-10-08 13:47:42
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        論馬克思的人與自然同一性和非同一性思想
        商(2016年15期)2016-06-17 08:31:07
        論犯罪危險(xiǎn)人格的識(shí)別
        不同監(jiān)控視頻角度同一姿態(tài)的同一性研究
        科技視界(2016年12期)2016-05-25 11:09:19
        亚洲2022国产成人精品无码区 | 91亚洲精品福利在线播放 | 亚洲综合欧美在线| 亚洲天堂av社区久久 | 国产精品国产精品国产专区不卡| 国产精品无码av天天爽 | 亚洲国产av一区二区四季| 高清精品一区二区三区| 天堂а√在线最新版中文| 亚洲色欲色欲大片WWW无码| 精品亚洲一区二区三洲| 五月av综合av国产av| 亚洲最大av资源站无码av网址 | 亚洲AV无码日韩一区二区乱| 亚洲一区二区三区在线最新| 中文字幕视频二区三区| 国产偷国产偷亚洲高清| 国产亚洲欧美精品永久| 国产人妻久久精品二区三区特黄 | 久久婷婷成人综合色| 久久99热精品免费观看欧美| av男人天堂网在线观看| 久久精品国产亚洲av无码偷窥 | 熟妇人妻无码中文字幕| 无码视频一区二区三区在线播放 | 一 级做人爱全视频在线看| 久久九九久精品国产| 欧美日韩国产另类在线观看| 日韩av一区二区蜜桃| 日韩av无码中文无码电影| 亚洲av成人一区二区三区av| 精品国产福利片在线观看| 亚洲大胆美女人体一二三区| 久久人妻少妇嫩草av| 日本在线观看| 视频精品熟女一区二区三区| 国产精品美女久久久网站三级| 久激情内射婷内射蜜桃| 免费无码中文字幕A级毛片| 亚洲粉嫩视频在线观看| 国产av一区二区三区天堂综合网|