任秀春
(渤海大學(xué) 管理學(xué)院,遼寧 錦州 121013)
基于RDF三元組的電子商務(wù)競爭者數(shù)據(jù)挖掘
任秀春
(渤海大學(xué) 管理學(xué)院,遼寧 錦州 121013)
越來越多的消費者通過互聯(lián)網(wǎng)從事商務(wù)活動,電子商務(wù)的數(shù)據(jù)規(guī)模逐漸擴大。互聯(lián)網(wǎng)上的商家希望了解競爭對手及其信息,以調(diào)整經(jīng)營策略。提出一種利用RDF三元組的語義特征和結(jié)構(gòu)特征來檢測具有競爭關(guān)系的商家,利用淘寶網(wǎng)的商店數(shù)據(jù),使用MapReduce作為處理可擴展性的工具。實驗證明了基于RDF的電子商務(wù)競爭者數(shù)據(jù)挖掘的有效性。
電子商務(wù);RDF;數(shù)據(jù)挖掘;MapReduce
在日常生活中,越來越多的人使用互聯(lián)網(wǎng)從事商務(wù)活動。由于電子商務(wù)數(shù)據(jù)的飛速擴張,網(wǎng)絡(luò)銷售商迫切希望可以找到網(wǎng)絡(luò)上競爭者,獲取競爭對手的經(jīng)營數(shù)據(jù),分析商品的交叉信息,以便對經(jīng)營策略做出調(diào)整,從而獲取較大的市場份額。
電子商務(wù)的數(shù)據(jù)有4個主題[1]:商品、銷售商(賣家)、消費者(買家)、交易記錄。在電子商務(wù)領(lǐng)域,傳統(tǒng)的數(shù)據(jù)挖掘方法通常采用邏輯上的方法找出潛在和有用的模式[2],例如采用ILP模式[3],聚類分析方法[4-5],協(xié)同過濾算法[6-7]等。對電子商務(wù)競爭者進行數(shù)據(jù)挖掘,有幾種模式產(chǎn)生預(yù)先確定的競爭關(guān)系,通過邏輯運算將其結(jié)合,參照這個結(jié)果,可以很容易對新目標(biāo)檢測到競爭關(guān)系[8]。文中采用RDF三元組表示網(wǎng)店里的所有商品特征和屬性。RDF是W3C規(guī)范的一部分,最初是作為元數(shù)據(jù)的數(shù)據(jù)模型設(shè)計的[9]。RDF是用于表示網(wǎng)絡(luò)信息的通用語言,RDF三元組可以表示網(wǎng)絡(luò)結(jié)構(gòu)、屬性、關(guān)系等[10-11]。此外,本文使用MapReduce在分布式計算中處理此類數(shù)據(jù)。MapReduce是由谷歌提出和實施的分布式存儲的文件系統(tǒng),作為一個開源項目,MapReduce是一個分布式計算框架[12]。通過采用MapReduce,我們可以做大量的計算用來減少時間成本。
1.1 數(shù)據(jù)預(yù)處理
電子商務(wù)中的基本數(shù)據(jù)包括商品、賣家、買家的交易記錄,我們?yōu)槊恳患唐贩峙湟粋€URI,通過對頁面的分析,可以將商品通過一個RDF三元組來進行描述。
基于RDF三元組生成的商品信息如下:
1)product商品,每件商品都會給消費者展示一些商品信息,如商品的名稱,價格,所屬類別,產(chǎn)地等基本屬性。生成的三元組如“product1 named XXX”,另外,有些商品會與其他商品放在一起查看,所以也會 產(chǎn) 生 三 元 組 如 “product1 viewed together product2”。
2)shop商店,各個商店的主要屬性是相同的,其描述如下,商店的所有者、商店的位置、買家對商店評價產(chǎn)生的商店信譽評估,由此建立如下三元組:“shop1 owner XXX”。此外,商店與商品之間存在明確的銷售關(guān)系:“shop sell product”。
3)record交易記錄,交易記錄描述了賣家與買家的活動,每條記錄都包括買家、產(chǎn)品、成交價格、交易日期等,每個項目及其值作為三元組的謂詞和對象,作為記錄URI的主題表達(dá)式:“record data X-X-X”。
4)subClassOf商品所屬類別。網(wǎng)站對所有銷售的商品進行了分類,這種分類具有較好的層次性,層次信息存在于各個類別,由此提取的屬性三元組如:rdfs:subClassOf
針對以上的 RDF三元組信息,可以使用SPARQL進行檢索,用來獲取RDF模型的特征[13-14]。獲取商品及商店的SPARQL語句查詢示例如下:
1.2 商品相似度
商品是電子商務(wù)交易中最重要的實體,經(jīng)過以上步驟對數(shù)據(jù)進行預(yù)處理后,對商品相似性作如下定義:
其中:propertySet(product1),表示product1的所有屬性的集合。Size(A),表示集合A的大小。
采用SPSS 20.0進行統(tǒng)計學(xué)處理,計量資料采用(均數(shù)±標(biāo)準(zhǔn)差)描述,組間差異比較采取t檢驗,等級資料采取Wilcoxon Mann-Whitney U檢驗,計數(shù)資料采用率或百分比表示,組間差異比較采取χ2檢驗,以P<0.05表示差異具有統(tǒng)計學(xué)意義。
目前已有研究使用向量距離來定義相似度的方法[15],通過不同的謂詞創(chuàng)建不同的向量空間,每種屬性建立一個向量。由于網(wǎng)絡(luò)上抓取的數(shù)據(jù)向量空間非常少,相似度的計算時間復(fù)雜度很高。因此,不采用向量空間的方法來定義商品相似度。
1.3 商店相似度
作為可以提供競爭商品的商店,與其他商店具有很高的相似性。每件商品均與商店存在聯(lián)系,至少存在一個三元關(guān)系代表商店銷售的產(chǎn)品,有定義2和定義3。
定義2:
其中productSet(shop)表示在這個商店中銷售的商品集合,sim(product,shop)表示商品與商店相似度。
定義3:
sin(shop1,shop2)=Σx∈productSet(shop1)sim(x,shop2)
定義2和定義3表明,商品的相似度與商店的相似度存在較大的關(guān)聯(lián)性,商店之間的相似性是通過一個商品在一家商店與另一家商店的相似性來計算的。
算法 SimMapReduce
然后利用SPARQL查詢對商品的交易記錄來進行檢測,以便獲取競爭商品的信息,
3.1 RDF數(shù)據(jù)集
實驗數(shù)據(jù)采用爬蟲程序獲取產(chǎn)品的網(wǎng)頁,每個網(wǎng)頁代表一件商品的全部信息,選取了2015年3月—2016年3月之間的交易數(shù)據(jù),有51 307個商店的1 780 509件商品被收錄。
在這些數(shù)據(jù)中,對于每一個商品,屬性的數(shù)量最少4個,最多17個,平均9.4個。每個商店在售商品最少1個,最多8 457個,平均121.7個。
3.2 商品相似度
我們隨機選擇100件商品作為需要相似比較的主題,topN表示商品具有最高相似度的計算結(jié)果。采用top1,top5,top10進行實驗,并計算每一組實驗的準(zhǔn)確度。計算的平均相似度的結(jié)果如圖1所示。
圖1 商品相似度
為了便于分析商品相似度的關(guān)系,限定了商品至少有6個屬性。對商品數(shù)據(jù)庫進行修改并再次實驗,兩個實驗的對比結(jié)果見圖1,平均相似度提高了0.05。
3.3 商店相似度
隨機選擇了100家商店作為目標(biāo),其余的都視為競爭對手不參與相似度計算,分別計算相似度為top1,top5,top10的返回結(jié)果。平均相似度如圖2所示。
圖2 商店相似度
從實驗結(jié)果可以發(fā)現(xiàn),擁有極少量商品的商店總是返回錯誤的競爭者信息,這是由于擁有極少量商品的商店提供的資料很少,使得其結(jié)果是存在誤報。一個商店只銷售很少商品是噪音數(shù)據(jù),因此,篩選出銷售超過3個商品的商店1 512家,經(jīng)過調(diào)整后,顯示如圖2的對比圖。從圖2中可以看出,準(zhǔn)確度沒有明顯改善,原因在于,只銷售極少量產(chǎn)品的商店很難進行正確的分類。
3.4 推薦競爭者信息
數(shù)據(jù)集中有51 307個商店,給定100個目標(biāo)商店找出相似度最高的前N個競爭者,分別計算準(zhǔn)確率為top1,top5,top10的返回結(jié)果。構(gòu)建一個51 307× 51 307的矩陣,每個元素代表商店i與j的相似度值,通過這個矩陣,可以獲取任意兩個商店的相似度。通過對各類數(shù)據(jù)進行統(tǒng)計,可以看出,商店主要集中在如下幾類:服裝,化妝品,數(shù)碼產(chǎn)品。各類商店的數(shù)量最多為13 764家,最少47家,平均754家。計算結(jié)果如圖3所示。
圖3 競爭者信息
對計算結(jié)果進行分析可以發(fā)現(xiàn),銷售服裝類商品的商店返回的競爭者信息準(zhǔn)確度較高,因為服裝類商店具有明確和詳細(xì)描述的同類商品,具有顯而易見的特征。而其他類商店出售的商品沒有清晰的描述,它們被歸類到不相關(guān)的類和錯誤分類的前N個商店。
文中利用RDF三元組的語義特征和結(jié)構(gòu)特征來檢測具有競爭關(guān)系的商家,提取淘寶網(wǎng)的商店數(shù)據(jù),利用Sparql進行交易記錄的信息查詢,使用Map Reduce作為處理可擴展性的工具,計算商品與商店的相似性,從而進行電子商務(wù)競爭者信息推薦。實驗證明了基于RDF的電子商務(wù)競爭者數(shù)據(jù)挖掘方法的有效性。
[1]張野,于湛麟,趙宏霞.基于RDF的電子商務(wù)信息抽取技術(shù)研究[J].渤海大學(xué)學(xué)報:自然科學(xué)版,2014(3):261-264,269.
[2]王旭.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)銷售中的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟,2015(24):87-89.
[3]Muggleton S,Raedt L D.Inductive logic programming:Theory and methods[J].Journal of Logic Programming,1994,s19-20(94):629-679.
[4]崔義童,馮志勇,王鑫,等.基于圖聚類算法的大規(guī)模RDF數(shù)據(jù)查詢方法研究[J].小型微型計算機系統(tǒng),2015(12):2625-2628.
[5]樊同科.云環(huán)境下基于MapReduce的用戶聚類研究與實現(xiàn)[J].電子設(shè)計工程,2016(10):35-37,41.
[6]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學(xué)報,2014(2):16-24.
[7]羅辛,歐陽元新,熊璋,等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J].計算機學(xué)報,2010(8):1437-1445.
[8]袁柳,張龍波.一種基于聚類模式的RDF數(shù)據(jù)聚類方法[J].計算機科學(xué),2015(10):266-270,296.
[9]熊振輝,于娟.OWL應(yīng)用接口的比較分析[J].情報探索,2015(2):72-76.
[10]Han J,Kamber M.Data Mining:Concepts and techniques [J].Data Mining Concepts Models Methods&Algorithms Second Edition,2000,5(4):1-18.
[11]杜方,陳躍國,杜小勇.RDF數(shù)據(jù)查詢處理技術(shù)綜述[J].軟件學(xué)報,2013(6):1222-1242.
[12]冷泳林,魯富宇.基于MapReduce的SimRank算法在圖聚類中的應(yīng)用[J].電子設(shè)計工程,2015(6):9-11,15.
[13]郭少友,魏朋爭,洪娜,等.四種SPARQL查詢構(gòu)建器及其比較研究[J].情報科學(xué),2015(3):80-84.
[14]王海榮,馬宗民.基于相對量詞的RDF模糊查詢方法[J].東北大學(xué)學(xué)報:自然科學(xué)版,2014(3):342-346.
[15]劉宏哲,須德.基于本體的語義相似度和相關(guān)度計算研究綜述[J].計算機科學(xué),2012(2):8-13.
[16]顧榮,王芳芳,袁春風(fēng),等.YARM:基于MapReduce的高效可擴展的語義推理引擎[J].計算機學(xué)報,2015(1):74-85.
E-Commerce competitor mining based on RDF triples
REN Xiu-chun
(College of Management,Bohai University,Jinzhou 121013,China)
The scale of e-commerce data on Internet has expanded day by day since consumers do business through websites more and more.Businesses on the Internet and its competitors want to know the information to adjust business strategy.Proposed to detect a competing business use of Taobao.com to deal with scalability using semantic and structural features RDF triples,MapReduce was used as a tool to deal with the scalability.The experiment show that the effectiveness of e-commerce competitors based on RDF data mining.
e-commerce;RDF triples;data mining;MapReduce
TN911
A
1674-6236(2017)10-0018-04
2016-08-11稿件編號:201608079
國家自然科學(xué)基金(71502017)
任秀春(1963—),女,遼寧葫蘆島人,碩士,副教授。研究方向:電子商務(wù)技術(shù)。