王鵬越 西安理工大學(xué)電氣工程學(xué)院
關(guān)鍵字:電商評(píng)論 文本分析 邏輯回歸
亞馬遜在線市場上有一項(xiàng)售后服務(wù),使客戶能夠?qū)徺I進(jìn)行評(píng)分和評(píng)論,其中包括“星級(jí)評(píng)定”、“評(píng)論”和“幫助評(píng)分”。陽光公司計(jì)劃在網(wǎng)上市場上出售微波爐,嬰兒奶嘴和吹風(fēng)機(jī)。本文主要對(duì)上述售后服務(wù)中提供的三個(gè)產(chǎn)品數(shù)據(jù)集進(jìn)行分析和支持,以幫助該公司能夠成功開發(fā)三個(gè)新產(chǎn)品。
根據(jù)現(xiàn)有要求,需要預(yù)處理三個(gè)指標(biāo)的數(shù)據(jù)集-星級(jí),評(píng)論和幫助等級(jí)。因此,首先要對(duì)數(shù)據(jù)進(jìn)行基本清理,然后提取與上述三個(gè)指標(biāo)有關(guān)的數(shù)據(jù)字段。分析結(jié)果表明,對(duì)產(chǎn)品給予高評(píng)價(jià)的購買者應(yīng)該在評(píng)價(jià)內(nèi)容中寫正面評(píng)價(jià)的評(píng)論,反之亦然。在此基礎(chǔ)上,本文嘗試提取評(píng)論中的關(guān)鍵詞,并以評(píng)論的有用性作為判斷評(píng)論中關(guān)鍵詞正確性的基礎(chǔ)。通過查找評(píng)論中關(guān)鍵詞與用戶評(píng)分之間的相關(guān)性,可以建立星級(jí)、評(píng)論和幫助評(píng)分的相關(guān)公式,并可以計(jì)算其準(zhǔn)確性。
由于產(chǎn)品的類別不能影響產(chǎn)品評(píng)論的內(nèi)容與用戶對(duì)產(chǎn)品的評(píng)價(jià)之間的關(guān)系,用戶的惡意否定評(píng)論應(yīng)反映在所尋找的數(shù)學(xué)關(guān)系中,因此本文暫時(shí)忽略了數(shù)據(jù)內(nèi)容邏輯的清除,僅清除存在明顯問題的數(shù)據(jù)記錄。在確認(rèn)數(shù)據(jù)的基本有效性之后,將著重分析與評(píng)論相關(guān)的字段,包括兩個(gè)字段:verified_purchase 和review_body。對(duì)于這兩個(gè)字段將使用“單詞袋”的思想進(jìn)行單詞分割,即將這兩個(gè)字段的內(nèi)容分為一個(gè)單詞列表,每個(gè)單詞的頻率將被記錄。然后將標(biāo)點(diǎn)符號(hào)和停止詞過濾掉,保留具有實(shí)際意義的詞。
在獲得每個(gè)評(píng)論的關(guān)鍵詞之后,再計(jì)算每個(gè)評(píng)論的每個(gè)關(guān)鍵詞的數(shù)目。由于兩位有用的字段可以有效地表達(dá)評(píng)論的有用性,因此很明顯,表明該評(píng)論無用的票數(shù)是total_votes-helpful_votes,將評(píng)論的參考值設(shè)置為V,用下式表示為:
為了避免當(dāng)有用票數(shù)等于無用票數(shù)時(shí)V 為零,將V+1 用作評(píng)論的權(quán)重W。
本文將每個(gè)評(píng)論的權(quán)重W 乘以每個(gè)評(píng)論的關(guān)鍵詞數(shù),最終結(jié)果視為每個(gè)評(píng)論的預(yù)期關(guān)鍵詞數(shù)。計(jì)算評(píng)論中帶有負(fù)色或正色的預(yù)期關(guān)鍵字?jǐn)?shù)(評(píng)估得分不等于3),并由所有關(guān)鍵字及其對(duì)應(yīng)的頻率構(gòu)成字典。同時(shí)去除那些頻率太低的關(guān)鍵詞,評(píng)論權(quán)重W 將影響關(guān)鍵詞的排名,從而影響它們是否被去除。最后,找到在高頻下使用的關(guān)鍵詞,這些關(guān)鍵詞將根據(jù)頻率排列以形成關(guān)鍵詞組。
將每段文本劃分為關(guān)鍵詞,并判斷上述關(guān)鍵詞組是否分別出現(xiàn)在文本中。如果有,則在文本向量的相應(yīng)位置將其標(biāo)記為1,否則將其標(biāo)記為0。E 反映了關(guān)鍵字組中的第j 個(gè)關(guān)鍵字是否存在于評(píng)論內(nèi)容的第i 行中,具體可以用下式表示:
由于星級(jí)評(píng)定既反映了負(fù)面態(tài)度也反映了積極態(tài)度,因此被認(rèn)為是衡量反對(duì)派重要性的指標(biāo)。星級(jí)被標(biāo)準(zhǔn)化為(-1,1)范圍內(nèi)的值,以適用于邏輯回歸[2]。得分是標(biāo)準(zhǔn)化的得分指標(biāo),可以通過下式計(jì)算:
由于邏輯回歸可以很好地建立文本向量Xi和得分之間的相關(guān)性,因此通過提供的三種商品的數(shù)據(jù)集訓(xùn)練邏輯回歸模型,可以寫成:
綜上,模型訓(xùn)練結(jié)束后即可以確定θ的值。
本文結(jié)合亞馬遜在線市場的三種產(chǎn)品的數(shù)據(jù),通過建立Logistic回歸模型以定量評(píng)估商品評(píng)論。首先,基于文本挖掘清理了文本數(shù)據(jù)集,并考慮了關(guān)鍵字頻率統(tǒng)計(jì)信息。同時(shí),考慮到有效投票對(duì)詞頻的影響,通過自建詞庫對(duì)文本進(jìn)行矢量化處理。最后與購買者的評(píng)價(jià)標(biāo)準(zhǔn)建立了邏輯回歸模型,以獲取定量得分。本文模型合理地消除了高頻人稱代詞和低頻詞的干擾,使結(jié)果更加準(zhǔn)確。