王晗璐,夏 斌
(上海海事大學 信息工程學院,上海 201306)
?
基于機器學習的B2B電子商務(wù)平臺產(chǎn)品排名研究
王晗璐,夏斌
(上海海事大學 信息工程學院,上海 201306)
隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)已經(jīng)成為一種新的商業(yè)活動模式。商品在電子商務(wù)平臺的排名,直接決定了產(chǎn)品的銷量。如何優(yōu)化產(chǎn)品的排名,是所有電子商務(wù)公司關(guān)注的問題。從商品的文本信息角度出發(fā),利用機器學習方法來研究文本信息與產(chǎn)品排名之間的關(guān)系。從特征提取方法和分類算法兩個角度進行了比較研究。首先比較了TFIDF和詞頻法(WF)兩種特征提取方法,進一步又比較了樸素貝葉斯、支持向量機(SVM)以及隨機森林(RF)三個分類算法。研究結(jié)果表明,在該文的數(shù)據(jù)集上進行文本分類排名分析,詞頻法結(jié)合隨機森林取得了最好的分類效果。
產(chǎn)品排名; 詞頻法; 隨機森林; 文本分類
引用格式:王晗璐,夏斌. 基于機器學習的B2B電子商務(wù)平臺產(chǎn)品排名研究[J].微型機與應(yīng)用,2016,35(11):45-47.
電子商務(wù)的概念起源于1995年,阿里巴巴國際站(簡稱:阿里國際站)是一個主要的電商平臺[1],它為小型商家的國際貿(mào)易提供良好的平臺。商家們通過在平臺上展示商品,從而獲得商機[2-3]。為了獲得更多的商機,改善產(chǎn)品在阿里平臺上的排名十分重要。平臺中產(chǎn)品展示的信息包括產(chǎn)品標題、屬性、圖片等,還有一些無法看到的信息,如產(chǎn)品關(guān)鍵詞。當用戶輸入關(guān)鍵詞后,阿里平臺會根據(jù)相關(guān)產(chǎn)品的信息進行打分,然后生成一個產(chǎn)品列表,得分越高的產(chǎn)品排名越靠前,被用戶瀏覽到的可能性越大,反之,產(chǎn)品分數(shù)越低,排名越靠后,產(chǎn)品銷量越小。
如今,有很多人討論如何做好阿里平臺產(chǎn)品的信息優(yōu)化,從而改善產(chǎn)品排名,但大多是更換產(chǎn)品關(guān)鍵詞、更新標題、增加屬性、多使用熱搜詞、展示更清晰精美的圖片等。這些都需要大量的手動工作,而且效果也不盡人意,可行性較低。
根據(jù)阿里國際站的官方白皮書介紹,商品的標題及相關(guān)的商品屬性描述,是影響商品排名的重要因素。在本文中,考慮利用商品的標題和屬性特征進行分析,研究這類文本信息與商品排名之間的關(guān)系。假設(shè)產(chǎn)品標題及屬性的組合,在排名靠前的商品中有一些共同的特性。為了分析這樣的共性,結(jié)合自然語言處理技術(shù)和機器學習方法,擬利用文本分類的方法來研究,如果排名相近的產(chǎn)品在標題和屬性的組合上存在一些共性,則它們應(yīng)該會被分到同一類別中。
1.1特征提取
本文中,使用的產(chǎn)品標題和屬性屬于文本數(shù)據(jù),首先要對其進行特征提取,轉(zhuǎn)化為數(shù)字樣本。本文應(yīng)用了兩種自然語言處理中常用的特征提取方法[4]。
(1)TFIDF
假如一個詞語在一篇文檔中頻繁出現(xiàn),但在其他文檔中極少出現(xiàn),則可用這個詞語去區(qū)分這篇文檔。其中TF和IDF分別計算如下:
(1)
(2)
式(1)中,nij表示第i個詞在文檔dj中出現(xiàn)的次數(shù),分母表示文檔dj中包括詞語的總數(shù)。式(2)中,|D|表示數(shù)據(jù)集中的文檔總數(shù),|{j:ti∈dj}|表示包含詞ti的文檔數(shù)。于是TF-IDF計算如下:
TFIDFi,j=TFi,j*IDFi
(3)
(2)WF
對文檔中出現(xiàn)的詞語進行計數(shù)。如果單詞在文檔中出現(xiàn),計數(shù)加1,本文還應(yīng)用了2-gram方法,即每兩個相鄰的詞語,也記為一項。
1.2分類器
(1)樸素貝葉斯
在短文本分類問題中,x=(x1,x2,…,xn)表示一篇文檔,每篇文檔均表示為一個類似于x的向量,樣本集合記作X。對應(yīng)地,類別集合記作C={c1,c2,…,cm}。樸素貝葉斯分類器的原理是:假設(shè)每個特征之間是相互獨立的,通過比較后驗概率值的大小,把該樣本判別為后驗概率值最大的那一類。后驗概率的計算公式為:
(4)
(2)支持向量機
SVM是基于間隔最大化的一種分類算法[5-6]。對于線性數(shù)據(jù)而言,它希望空間中的樣本點盡可能地遠離分類超平面。對于非線性輸入,SVM可以應(yīng)用核函數(shù),將其映射到高維空間轉(zhuǎn)換輸入為線性的。SVM具有良好的泛化能力,在各種文本分類問題中表現(xiàn)良好。
(3)隨機森林
隨機森林是BreimanLeo和AdeleCutler于2001年提出的, 它是一種基于決策樹的機器學習算法[7]。其訓練模型的方法是訓練多棵決策樹,并綜合每棵樹的分類結(jié)果進行最終的決策。在該算法中,需要考慮的參數(shù)有兩個,一個是決策樹的數(shù)量,另一個是分裂節(jié)點輸入的特征數(shù),通常設(shè)置為總特征數(shù)的開方,文本也是使用這種方法。
隨機森林的分類結(jié)果取決于每個決策樹的分類結(jié)果[8]。本文應(yīng)用對每棵樹判別為每個類別的概率取平均值,將概率最大的那類判別為樣本的類別。
2.1實驗數(shù)據(jù)
本文使用10個類別(包括:服裝、運輸、電子產(chǎn)品、工藝品、玩具、箱包、食品、鞋子、家具和照明)的100個詞,在阿里國際站平臺抓取產(chǎn)品信息。每個類別選取了10個詞,每個詞選擇前三頁和后三頁的產(chǎn)品信息作為數(shù)據(jù)集。移除了首頁前5個付費(P4P)產(chǎn)品。綜上,共有100個關(guān)鍵詞,每個有6頁產(chǎn)品信息,每頁有38個產(chǎn)品。因此,數(shù)據(jù)集中共有22 800個樣本。其中前三頁的產(chǎn)品被記為正類樣本,后三頁記為負類樣本。整個數(shù)據(jù)集按照7 ∶3劃分為訓練樣本集和測試樣本集,并以5次實驗得到的分類準確率的平均值作為最終的結(jié)果。
2.2實驗結(jié)果
(1)特征提取方法比較結(jié)果
為了尋找適合表示產(chǎn)品信息的方法,本文采用了WF和TFIDF兩種文本特征提取方法。應(yīng)用這兩種方法對文本信息進行特征提取后,應(yīng)用RF分類算法進行分類模型的訓練和驗證。表1是測試準確率的對比結(jié)果。結(jié)果很顯然,不論森林中決策樹的數(shù)量為多少,WF在分類準確率方面始終優(yōu)于TFIDF。但是使用相同的分類器模型時,TFIDF擁有較少的特征數(shù),所以計算時間要比WF短。
表1 不同特征提取方法的測試準確率對比
表2 使用WF特征提取,三種分類器的測試準確率對比
表3 使用TFIDF特征提取,三種分類器的測試準確率對比
(2)分類器比較結(jié)果
為了找到適合本課題的分類算法,分別采用了樸素貝葉斯、SVM以及RF三種分類算法。應(yīng)用WF和TFIDF進行特征提取,并輸入到上述三種分類器中,測試準確率結(jié)果對比分別如表2和表3。結(jié)果很顯然,在三種分類器的分類效果對比中,RF表現(xiàn)最好。
2.3實驗分析
首先,采用RF作為分類器,分別應(yīng)用WF和TFIDF,結(jié)果顯示W(wǎng)F的分類效果始終優(yōu)于TFIDF。這應(yīng)該是由阿里國際站中產(chǎn)品的信息結(jié)構(gòu)決定的,因為產(chǎn)品標題主要由產(chǎn)品核心詞以及部分屬性構(gòu)成。因此同類產(chǎn)品中出現(xiàn)近似詞匯的可能性極大,這樣TFIDF算法中的IDF將無法發(fā)揮出有效區(qū)分文檔的作用。而WF方法很好地表現(xiàn)了產(chǎn)品標題和屬性包含哪些詞。因此WF是更適合對產(chǎn)品標題進行特征提取的方法。
其次,可以看到RF表現(xiàn)最好,準確率達到了86.88%。因為SVM的缺點是不適合大數(shù)據(jù)集。樸素貝葉斯的缺點是,當特征維數(shù)較高時表現(xiàn)較差。
本文利用機器學習方法研究了商品文本信息對排名的影響。研究結(jié)果表明,排名相近的商品在文本屬性上也有相似性,在分類問題中表現(xiàn)為可以被分到同一類中。根據(jù)本文的比較分析,針對本文應(yīng)用的數(shù)據(jù)集,WF與RF結(jié)合的方法在分類性能上表現(xiàn)最佳,也有最好的計算效率。
[1] Hu Yongquan, Zhao Shukun. A case study of online retail innovation system on alibaba Taobao[C]. E-Business and E-Government(ICEE), 2010: 224-227.
[2] Bai Ou. Governance of innovation network in services: The case of alibaba[C]. International Symposium on Management of Technology (ISMOT), 2012: 81-86.
[3] Guo Jingzhi, LAM J H, LEI J, et al. Alibaba international: building a global electronic marketplace[C].IEEE International Conference on e-Business engineering (ICEBE), 2006:545-548.
[4] Li Shengdong, Lv Xueqiang, Zhou Qiang, et al. Study on key technology of topic tracking based on VSM[C]. IEEE International Conference on Information and Automation (ICIA), 2010: 2419-2423.
[5] Thorsten Joachims. Text Categorization with support vector machines: learning with many relevant feature[C]. Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz,Germany, 1998.
[6] Li Tianbing. On KNN and SVM text classification technology in knowledge management[J]. Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011, 36(3):3923-3926.
[7] 李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012.
[8] BERNARD S, ADAM S, HEUTTE L. Using random forests for handwritten digit recognition[J]. Document Analysis and Recognition, 2007, 12(10):1043-1047.
Research on the ranking of products of B2B e-commerce platform based on machine learning
Wang Hanlu,Xia Bin
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)
With the development of the Internet, e-commerce has become a new business model. The ranking of products in the electronic commerce platform directly determines the products’ sales. How to optimize the ranking of products is the problem which is concerned by electronic business company. In this paper, from the perspective of the text information of products, we use machine learning methods to study the relationship between text information and product ranking. We make a comparative study from the point of feature extraction methods and classification algorithms. Firstly, we compared two feature extraction methods, which are TFIDF and word frequency(WF). Further more we compared three classification algorithms, which are Naive Bayes, Support Vector Machine(SVM) and Random Forest(RF). The research results show that the method of text classification and ranking analysis which is carried on the data set in this paper, WF combined with RF obtained the best classification results.
ranking of products; word frequency; random forest; text classification
TP391.9
A
10.19358/j.issn.1674- 7720.2016.11.015
2016-03-11)
王晗璐(1992-),女,碩士研究生,主要研究方向:機器學習與智能信息處理。
夏斌(1975-),通信作者,男,博士,副教授,碩士生導師,主要研究方向:腦-機接口,云計算及人工智能。E-mail:xawen267@gmail.com。