王鵬越 西安理工大學電氣工程學院
關鍵字:電商評論 文本分析 邏輯回歸
亞馬遜在線市場上有一項售后服務,使客戶能夠對購買進行評分和評論,其中包括“星級評定”、“評論”和“幫助評分”。陽光公司計劃在網(wǎng)上市場上出售微波爐,嬰兒奶嘴和吹風機。本文主要對上述售后服務中提供的三個產(chǎn)品數(shù)據(jù)集進行分析和支持,以幫助該公司能夠成功開發(fā)三個新產(chǎn)品。
根據(jù)現(xiàn)有要求,需要預處理三個指標的數(shù)據(jù)集-星級,評論和幫助等級。因此,首先要對數(shù)據(jù)進行基本清理,然后提取與上述三個指標有關的數(shù)據(jù)字段。分析結果表明,對產(chǎn)品給予高評價的購買者應該在評價內容中寫正面評價的評論,反之亦然。在此基礎上,本文嘗試提取評論中的關鍵詞,并以評論的有用性作為判斷評論中關鍵詞正確性的基礎。通過查找評論中關鍵詞與用戶評分之間的相關性,可以建立星級、評論和幫助評分的相關公式,并可以計算其準確性。
由于產(chǎn)品的類別不能影響產(chǎn)品評論的內容與用戶對產(chǎn)品的評價之間的關系,用戶的惡意否定評論應反映在所尋找的數(shù)學關系中,因此本文暫時忽略了數(shù)據(jù)內容邏輯的清除,僅清除存在明顯問題的數(shù)據(jù)記錄。在確認數(shù)據(jù)的基本有效性之后,將著重分析與評論相關的字段,包括兩個字段:verified_purchase 和review_body。對于這兩個字段將使用“單詞袋”的思想進行單詞分割,即將這兩個字段的內容分為一個單詞列表,每個單詞的頻率將被記錄。然后將標點符號和停止詞過濾掉,保留具有實際意義的詞。
在獲得每個評論的關鍵詞之后,再計算每個評論的每個關鍵詞的數(shù)目。由于兩位有用的字段可以有效地表達評論的有用性,因此很明顯,表明該評論無用的票數(shù)是total_votes-helpful_votes,將評論的參考值設置為V,用下式表示為:
為了避免當有用票數(shù)等于無用票數(shù)時V 為零,將V+1 用作評論的權重W。
本文將每個評論的權重W 乘以每個評論的關鍵詞數(shù),最終結果視為每個評論的預期關鍵詞數(shù)。計算評論中帶有負色或正色的預期關鍵字數(shù)(評估得分不等于3),并由所有關鍵字及其對應的頻率構成字典。同時去除那些頻率太低的關鍵詞,評論權重W 將影響關鍵詞的排名,從而影響它們是否被去除。最后,找到在高頻下使用的關鍵詞,這些關鍵詞將根據(jù)頻率排列以形成關鍵詞組。
將每段文本劃分為關鍵詞,并判斷上述關鍵詞組是否分別出現(xiàn)在文本中。如果有,則在文本向量的相應位置將其標記為1,否則將其標記為0。E 反映了關鍵字組中的第j 個關鍵字是否存在于評論內容的第i 行中,具體可以用下式表示:
由于星級評定既反映了負面態(tài)度也反映了積極態(tài)度,因此被認為是衡量反對派重要性的指標。星級被標準化為(-1,1)范圍內的值,以適用于邏輯回歸[2]。得分是標準化的得分指標,可以通過下式計算:
由于邏輯回歸可以很好地建立文本向量Xi和得分之間的相關性,因此通過提供的三種商品的數(shù)據(jù)集訓練邏輯回歸模型,可以寫成:
綜上,模型訓練結束后即可以確定θ的值。
本文結合亞馬遜在線市場的三種產(chǎn)品的數(shù)據(jù),通過建立Logistic回歸模型以定量評估商品評論。首先,基于文本挖掘清理了文本數(shù)據(jù)集,并考慮了關鍵字頻率統(tǒng)計信息。同時,考慮到有效投票對詞頻的影響,通過自建詞庫對文本進行矢量化處理。最后與購買者的評價標準建立了邏輯回歸模型,以獲取定量得分。本文模型合理地消除了高頻人稱代詞和低頻詞的干擾,使結果更加準確。