楊茂保
文章編號: 2095-2163(2018)03-0118-04中圖分類號: 文獻標志碼: A
摘要: 關(guān)鍵詞: customer preference and emotional evaluation in E-commerce
(School of Electronic Commerce, Jiujiang University, Jiujiang Jiangxi 332005, China)
Abstract: In the era of e-commerce, online customer reviews have become a source of information for the general and valuable customers and businessmen to make business decisions. Based on sentiment evaluation,the paper finds potential customers' preferences, proposes an improved collaborative filtering algorithm, and predicts customers' future needs for enterprise services or products (collectively referred to as entities). Specifically, the method consists of three main steps: level emotion assessment, customer preference mining and personalized recommendation. First, the level of the structural review of the transformation of optical character recognition is evaluated by the level of emotion. Second, customer preference mining uses the vector to extract the feature words from the emotion, and assigns the polarity to each emotion. Finally, the customer preference and customer similarity are calculated by using characteristic words and emotional polarity score. Personalized recommendation of services and products is utterly generated based on customer similarity. The experimental results show that the method is superior to the traditional collaborative filtering method.
Key words:
基金項目:
作者簡介:
收稿日期: 引言
隨著電子商務(wù)網(wǎng)站的快速發(fā)展,網(wǎng)上用戶選擇合適的實體即已成為一個繁瑣的過程。為了有效應(yīng)對這樣一個廣泛的商業(yè)問題,大多數(shù)電子商務(wù)網(wǎng)站將互聯(lián)網(wǎng)技術(shù)和客戶數(shù)據(jù)結(jié)合起來,開發(fā)一個推薦系統(tǒng),利用顧客的背景和行為來預(yù)測其興趣偏好,再借此助力零售站點做出適當和個性化的建議。這些個性化的推薦系統(tǒng)可以有利于提升信息處理和現(xiàn)場互動效果,并且運用了多種技術(shù),最終目的是向客戶展示最相關(guān)和最吸引人的信息。
到目前為止,各種推薦的方法已獲提出,包括基于內(nèi)容的推薦、基于規(guī)則的推薦和協(xié)同過濾等方法。其中,協(xié)同過濾算法還可細分為基于用戶的推薦、基于項目的推薦和基于模型的推薦。只是在每一種方法中,仍然存在一些不足,削弱了推薦的實效性,必須引入后續(xù)的研究改進。例如,基于項目的推薦只考慮Web頁面的內(nèi)容而非客戶的興趣或需求,這將導(dǎo)致推薦結(jié)果與客戶期望之間存在差距?;谝?guī)則的推薦使用基于信息屬性或客戶興趣的規(guī)則,但是當面對大量規(guī)則時,特別是當某些規(guī)則發(fā)生沖突時,很難選出適當?shù)囊?guī)則并確保推薦質(zhì)量。根據(jù)用戶對物品或者信息的偏好,發(fā)現(xiàn)物品或者內(nèi)容本身的相關(guān)性,或者是發(fā)現(xiàn)用戶的相關(guān)性,而后再基于這些關(guān)聯(lián)性進行推薦。一般來說,傳統(tǒng)的方法通常只注重某一方面,如客戶的需求或客戶的行為,并沒有充分利用客戶呈現(xiàn)的一些主體信息,特別是在線客戶評論時的情緒因素。而在各類實踐中,消費者對某一實體不同方面的偏好和情感極性在生成個性化推薦中將具有重要的學術(shù)研究價值。
此外,雖然協(xié)同過濾已成為學界常用的信息推薦方法之一,但卻仍然存在一些問題。研究發(fā)現(xiàn),協(xié)同過濾在計算客戶相似度時總是使用客戶的背景信息。背景信息通常是在客戶注冊過程中提供的。然而,由于其準確性和完整性有限,這些信息不足以支持生成有效推薦。為了收集更多有用的數(shù)據(jù),在線網(wǎng)站試圖收集互聯(lián)網(wǎng)上客戶的所有活動信息,不僅是采購記錄,還包括搜索的短語和瀏覽的產(chǎn)品。然而,當網(wǎng)站建成歷史較短時,關(guān)于這些活動的信息采集就很難達到設(shè)計預(yù)期。
通過整合客戶偏好和情感轉(zhuǎn)化為推薦的驅(qū)動,以在線客戶評價來考慮推薦的方法來分析客戶的情緒對其購買產(chǎn)品的影響。具體來說,這種方法是將光學字符識別的內(nèi)容,以水平向量,從情感方面的特征詞提取和分配進行極性評價每一份感情。此后,再利用特征詞和情感極性評分計算顧客偏好和顧客相似性。通過這種分析,電子商務(wù)網(wǎng)站可以在一定程度上避免客戶背景信息不足,解決冷啟動和數(shù)據(jù)稀疏問題。此外,電子商務(wù)網(wǎng)站還可以出臺高度靈活策略來向客戶推薦更多相關(guān)信息,提高推薦算法的性能。
1基于情感評估的協(xié)同過濾
協(xié)同過濾技術(shù)在傳統(tǒng)的推薦算法中得到了廣泛的應(yīng)用,其優(yōu)勢顯而易見。然而,如前所述,協(xié)同過濾也存在一些問題,如冷啟動和數(shù)據(jù)稀疏。為此,研究提出一種情感評估與協(xié)同過濾相結(jié)合的新方法,該方法優(yōu)化了基于光學字符識別和研究致力解決的個性化推薦的準確度。
情感評價是對語境中的主觀信息進行識別和提取,如觀點和情感,針對協(xié)同推薦中的協(xié)同過濾問題,研究者擬將更加重視情感評價,產(chǎn)生意見挖掘和實體推薦。迄今為止,對不同文化背景和語言背景的顧客情感進行了廣泛的研究,如漢語、英語和歐洲語言。
本文在回顧前人工作的基礎(chǔ)上,提出了情感分析中經(jīng)常論及的2個主要任務(wù),即情緒極性和情感強度評價。首先,情感極性通??梢曌饕粋€分類過程,將在線客戶評論的極性分類為正、負或中性。根據(jù)極性,研究人員可以直接顯示顧客的偏好。在該項任務(wù)中,應(yīng)突出表達評論,并著重顯示相應(yīng)的實體特性。其次,情感強度通常被認為是特征權(quán)重,因為具有相同極性的情緒可能反映不同程度的情緒強度。測量情緒強度可以推得顧客對實體的偏好。例如,這句話“電腦的圖形真的酷”,表示一種強烈的積極情緒,而“這臺電腦的圖形是好的”表示部分積極的情緒。因此,有必要對極性和強度進行情感評估。
電子商務(wù)活動中尋找客戶偏好具有重要性,相當多的研究工作始終立足于開發(fā)商業(yè)智能,其中包括客戶偏好,為個別在線客戶發(fā)送提供個性化的建議,然而,忽略了光學字符識別效應(yīng)在解釋客戶偏好的原因以及分析客戶偏好的影響因素中的作用,只有少數(shù)研究利用這些信息來處理產(chǎn)生建議,與本文的工作相比,層面的客戶偏好被全面納入。研究中將重點劃定3個主要步驟:層面情感評價,客戶偏好挖掘和個性化推薦。一方面,情感評價變換光學字符識別的結(jié)構(gòu)化審查方面水平向量。另一方面,客戶偏好挖掘使用向量從情感中提取層面特征詞,并將極性分值分配給每個情感。最后,利用特征詞和情感極性評分來衡量顧客偏好和顧客相似性。
2基于客戶偏好和情感評估的協(xié)同過濾算法
基于偏好挖掘和情感評估的擬議推薦方法的研究設(shè)計由3個內(nèi)容組成:層面情感評估、客戶偏好挖掘、個性化推薦生成,整體研發(fā)結(jié)構(gòu)如圖1所示。其中,層面情感評價是客戶偏好挖掘的基礎(chǔ),可將原始數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化層面的數(shù)據(jù),如價格、物流服務(wù)和硬件屬性等;然后,客戶偏好挖掘則綜合考慮了顧客對各個層面特征的意見極性和強度。最后,利用層面上的極性和強度數(shù)據(jù),應(yīng)用增強的協(xié)同過濾過程生成推薦結(jié)果。對此,可展開研究論述如下。
2.1層面情感評價
層面情感評價的主要目的是將原始數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。層面情感評價可分解為如下3個步驟:預(yù)處理、識別與還原、情緒評估。預(yù)處理在設(shè)計上就是從原始數(shù)據(jù)中刪除重復(fù)的評論,并對評審詞進行分段,以獲得一個精煉的數(shù)據(jù)集。然后,特征識別步驟從細化的數(shù)據(jù)集中提取特征詞,特征約簡步驟則將其轉(zhuǎn)化到實體識別的方面。最后,情感評價步驟可求得評審中各方面的情感程度,構(gòu)建了一個結(jié)構(gòu)化的評審數(shù)據(jù)集。各部分研究工作可詳見如下。
2.1.1預(yù)處理
預(yù)處理即是指處理重復(fù)的條目、缺失值和拼寫錯誤的單詞以及單詞和短語。首先,重復(fù)評審(通常是在虛假評審或系統(tǒng)默認評審時發(fā)生)。其次,漢語詞法分析系統(tǒng)對原評論分割成單詞和短語,這意味著大多數(shù)名詞、形容詞、副詞、程度副詞和否定詞都是作為結(jié)構(gòu)化數(shù)據(jù)集來保存和形成的。此外,根據(jù)漢語的性質(zhì)和習慣,只需指定每個復(fù)習的句型,以確保其意義是公正的。基本句型包括陳述句、感嘆句和疑問句,可以通過復(fù)習的標點符號來識別。如果標點符號是“!”,模式設(shè)置為“感嘆”;如果標點符號為“?”,模式設(shè)置為“詢問”;其它設(shè)置為“語句”。具體地說,給定一個原始的在線客戶評價數(shù)據(jù)集R=(r1,r2,…,r|R|),研究定義一個向量S存儲數(shù)據(jù)預(yù)處理的在線客戶評價數(shù)據(jù)集,S=(s1,s 2,…,sn)。對每個評審Si,可將其剖分為一些層面的觀點,si=(o1,o2,…,on),例如,“計算機非常漂亮!然而,硬盤的大小對于商業(yè)用途來說實在是有限的?!笨梢赃M行如下的預(yù)處理:
O1=(計算機,非常漂亮,感嘆)
O2=(大小,硬盤,有限,商業(yè)用途,聲明)
2.1.2識別與還原
客戶通常提供評級和回饋評論以評估實體,然而,不同的客戶可能會使用不同的特征詞來意指某一方面。例如,客戶對個人電腦的評論可能會使用“計算機成本非常高”或“產(chǎn)品價格友好”來描述價格的具體方面。因此,為了識別此類方面級別的評論,可從預(yù)處理結(jié)果中提取前100個常用的層面詞,再通過人工檢查和總結(jié)這些方面來創(chuàng)建一個列表。
此外,上面創(chuàng)建的列表需要減少,因為可能會相當長。在此步驟中,刪除初始方面列表,同時一并刪除一些相似的方面用語,形成規(guī)范的方面列表。首先,每一個方面都有3~5個詞作為種子詞匯,這些種子可以根據(jù)實驗運行模式產(chǎn)生一個良好的結(jié)果。然后,其它相關(guān)的特征詞可以根據(jù)候選特征詞f和a的種子之間的依賴關(guān)系來評定衡量,數(shù)學定義如下:
x2f,a=N×(AD-CB)2(A+C)×(B+D)×(A+B)×(C+D)(1)
其中,f表示發(fā)生的一個短句子種子詞的頻率(短句子之間用標點符號互相分隔的條款);B是頻率f不同時出現(xiàn)在同一句的任何種子詞;C是一個簡短的句子,包括但不包括f;種子字頻率是短句子不含f和任何一個種子詞的頻率。對一個具有高度依賴性的詞進行聚類,以更新相應(yīng)的種子詞匯詞典,用于在下一次迭代中搜索其它高度依賴的特征詞。
2.1.3情感評估
情感評估的研發(fā)重點是識別情緒極性和強度以及每個客戶評論的層面級別特征加權(quán)。針對這一問題,研究定義了向量s={(t1,ω1),(t2,ω2),…,(tn,ωn)},并且s∈S代表某客戶的評論,ti是一個向量,代表一名特定客戶方面的意見。首先,將情感極性和強度信息結(jié)合起來,用4個變量表示形容詞的修飾語:形容詞、程度副詞、否定詞和句型。例如,形容詞、如“好”等,可以表達情感極性的趨勢。程度副詞、如“太”等,也會加重意見詞的極性,對評論的情感傾向產(chǎn)生強烈的影響。漢語中有30多個常用的程度副詞可以用來強調(diào)個人情感,因此,這些詞是單獨提取出來研究的。否定詞可以顛倒意見詞的極性,句型可以表達觀點的語氣。因此,準確估計這4個變量是測量情緒極性和極性強度的基礎(chǔ)。每個基于方面的向量都可以規(guī)整為七元組向量,數(shù)學形式可表述為:
ti=(f,adj,advd,nadvd,sadvd,neg,p)
其中,f表示前文所述的層面級特征詞;adj表示修改特征f的意見詞;advd是程度副詞的縮寫;nadvd是程度副詞的數(shù)量;sadvd是程度副詞的平均得分;neg是否定變量,用0或1代表評價趨向;p是句型,可以通過使用標點符號標識客戶評價內(nèi)容。例如:“計算機非常漂亮!然而,硬盤的大小對于商業(yè)用途來說實在是有限的?!边@種檢查可以用向量做出如下表示:
(計算機,漂亮,很,1,4,0,感嘆)
(硬盤,有限,真的,1,4,0,聲明)
研究中,運用漢語詞匯的屬性關(guān)系和詞句對程度副詞進行分級,而關(guān)于每個層面的特征,同時又測量了程度副詞的平均得分,并用得分來表示極性的強度。引入方面級特征加權(quán)ωi,以往的研究多是集中在特征詞的詞頻測量意見權(quán)重,也就是研發(fā)得到的基于TF-IDF算法。然而一般情況下,情感并不是通過重復(fù)相同的特征詞來宣泄表達的。在漢語語境中,客戶傾向于使用程度副詞來表達其評判意見。因此,本文提出了一種改進的TF-IDF算法,則是基于特征和程度副詞來測量方面的水平特征的重要性。對于某個特定si中的每個特性fi,該算法可具體解析為如下公式:TFfi,si=nadvd(fi)×sadvd(fi)∑fnf1nadvd(fi)×sadvd(fi)(2)
IDFfi,si=log (NSNF+0.01)(3)
ωi=TF(fi,si)×IDF(fi,si)(4)其中,NS表示客戶評價的總數(shù),NF表示包含特征fi的客戶評價數(shù)。
2.2客戶偏好挖掘和個性化推薦
客戶相似性是基于協(xié)同過濾的個性化推薦方法中的一個關(guān)鍵因素。在這一步中,將情感極性、情感強度和特征權(quán)重作為衡量客戶偏好和計算客戶相似性的依據(jù)。大多數(shù)傳統(tǒng)的方法都關(guān)注客戶或?qū)嶓w之間的共性,通常忽略了關(guān)于不同客戶偏好的多樣化信息。利用結(jié)構(gòu)化向量水平來判定客戶的相似性,并旨在提高個性化推薦的性能。在單個客戶的決策過程中,由于顧客的不同看法和期望,各方面的權(quán)重不同。例如,高消費能力的顧客傾向于購買具有最佳配置的電子產(chǎn)品,而其它人在購買電子產(chǎn)品時可能更注重成本效率。因此,客戶的購買行為在很大程度上取決于吸引其喜歡的重要方面。在這方面,通過層面的喜好,即客戶的看法和期望,開發(fā)一種新的方法來衡量客戶的相似性。
提出了一種客戶偏好挖掘方法,根據(jù)客戶評論中重要的程度,分析計算不同客戶之間的相似性。假定向量s={(t1,ω1),(t2,ω2),…,(tn,ωn)}是客戶對實體不同方面的意見的匯總,各方面在聚合中有著不同的貢獻和極性,給定一個客戶ui和方面fk,客戶偏好可按如下公式進行計算,即:CPui, fk=∑ej∈eiSijsijk∑ej∈EiS2ij∑ej∈Eis2ijk(5)其中,sijk代表客戶的意見,Ei為實體評論數(shù)據(jù)集。
協(xié)同過濾的概念是,一個單獨的客戶喜歡與其自身有相同偏好的其它人推薦的實體。因此,一個客戶ui,具有較高的候選人評分實體ei將選作首席推薦。針對候選人的數(shù)學運算可推得如下公式:CSui, fk=i+∑un∈UNsin(ui,um)×(smk,m)∑un∈UNsin(ui,um)(6)3結(jié)束語
提出了一種增強的基于偏好挖掘和情感評價的協(xié)同過濾算法。這種方法的主要理論貢獻是從在線客戶評價的特征詞提取方面的有效性,并將情感極性以更適合中國語境的程度副詞進行描述,基于特征詞和情感極性,計算得出客戶偏好和客戶相似度。此后的仿真實驗表明,該方法優(yōu)于傳統(tǒng)的協(xié)同過濾,未來的研究將專業(yè)收集更多的數(shù)據(jù),并進一步提高該模型的通用性和可伸縮性。
參考文獻
[1] 張昊,紀宏超,張紅宇. XGBoost算法在電子商務(wù)商品推薦中的應(yīng)用[J]. 物聯(lián)網(wǎng)技術(shù),2017,7(2):102-104.
[2] 王許輝,呂肖飛. 電子商務(wù)個性化推薦系統(tǒng)模型介紹[J]. 信息與電腦(理論版),2017(10):85-89.
[3] 楊志平,徐騫,馬銘. 基于中間商品興趣度加權(quán)的內(nèi)容推薦算法[J]. 北華大學學報(自然科學版),2017,18(6):831-834.
[4] 葉建龍. 基于Mahout的個性化電子商務(wù)推薦系統(tǒng)研究[J]. 信息通信,2017(10):129-130.
[5] 陳星星. 基于多最小支持度關(guān)聯(lián)規(guī)則的電子商務(wù)推薦系統(tǒng)的研究與實現(xiàn)[D]. 廣州:暨南大學,2017.
[6] 張光. 基于離群數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)研究[J]. 自動化與儀器儀表,2017(8):21-22,25.
[7] 吳金李,張建明. 基于二分K-means的協(xié)同過濾推薦算法[J]. 軟件導(dǎo)刊,2017,16(1):26-29.
[8] 余明艷,郁春蘭. 農(nóng)產(chǎn)品電子商務(wù)推薦系統(tǒng)設(shè)計與實現(xiàn)[J]. 經(jīng)濟研究導(dǎo)刊,2017(28):21-22.
[9] 戰(zhàn)凱. 基于遺忘函數(shù)和項目流行度的推薦算法研究[D]. 銀川:北方民族大學,2017.
[10]張航,葉東毅. 一種基于多正則化參數(shù)的矩陣分解推薦算法[J]. 計算機工程與應(yīng)用,2017,53(3):74-79.
[11]王茜,王均波. 一種改進的協(xié)同過濾推薦算法[J]. 計算機科學,2010,37(6):226-228,243.
[12]文俊浩,袁培雷,曾駿,等. 基于標簽主題的協(xié)同過濾推薦算法研究[J]. 計算機工程,2017,43(1):247-252,258.(上接第117頁)
[2] 趙越,喬玉燈. 基于嵌入式的人臉識別考勤系統(tǒng)的研究[J]. 電子技術(shù)與軟件工程,2015(17):211.
[3] 王威. 基于ARM9硬件平臺的人臉識別系統(tǒng)設(shè)計與研究[D]. 成都:電子科技大學,2013.
[4] 儲清翠. 復(fù)雜光照條件下人臉跟蹤算法研究[D]. 合肥:安徽大學,2014.
[5] 王茜,肖國強,吳松,等. 基于LBP直方圖的復(fù)雜光照下的人臉識別[J]. 計算機工程與應(yīng)用,2012,48(15):181-186.
[6] 易焱,蔣加伏. 基于LBP和棧式自動編碼器的人臉識別算法研究[J]. 計算機工程與應(yīng)用,2018,54(12):163-167,245.
[7] 胡沐晗. 基于PCA和SVM的人臉識別系統(tǒng)[J]. 計算機時代,2017(12):60-63,67.
[8] 楊梅芳,石義龍. 基于2DPCA+PCA與SVM的人臉識別[J]. 信息技術(shù),2018(2):32-36.
[12] EricA.Meyer. CSS權(quán)威指南[M]. 中國電力出版社, 2007.
[13]Sbelley Powers. JavaScript學習指南[M]. 人民郵電出版社.2009.
[14]Julie C.Meloni Michael Morrison. HTML與CSS入門經(jīng)典[M]. 人民郵電出版社,2011.
[15]Elisabeth Freeman,Eric Freeman. 深入淺出html[M]. 中國電力出版社.2008.
[16]MATT RICHARDSON,SHAWN_WALLACE.愛上Raspberry Pi[M]. 科學出版社,2013.