亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于邏輯回歸的電商評論文本分析模型

        2020-06-18 03:12:16王鵬越西安理工大學電氣工程學院
        數(shù)碼世界 2020年4期
        關鍵詞:單詞文本模型

        王鵬越 西安理工大學電氣工程學院

        關鍵字:電商評論 文本分析 邏輯回歸

        引言

        亞馬遜在線市場上有一項售后服務,使客戶能夠對購買進行評分和評論,其中包括“星級評定”、“評論”和“幫助評分”。陽光公司計劃在網(wǎng)上市場上出售微波爐,嬰兒奶嘴和吹風機。本文主要對上述售后服務中提供的三個產(chǎn)品數(shù)據(jù)集進行分析和支持,以幫助該公司能夠成功開發(fā)三個新產(chǎn)品。

        1 數(shù)據(jù)處理

        根據(jù)現(xiàn)有要求,需要預處理三個指標的數(shù)據(jù)集-星級,評論和幫助等級。因此,首先要對數(shù)據(jù)進行基本清理,然后提取與上述三個指標有關的數(shù)據(jù)字段。分析結果表明,對產(chǎn)品給予高評價的購買者應該在評價內容中寫正面評價的評論,反之亦然。在此基礎上,本文嘗試提取評論中的關鍵詞,并以評論的有用性作為判斷評論中關鍵詞正確性的基礎。通過查找評論中關鍵詞與用戶評分之間的相關性,可以建立星級、評論和幫助評分的相關公式,并可以計算其準確性。

        由于產(chǎn)品的類別不能影響產(chǎn)品評論的內容與用戶對產(chǎn)品的評價之間的關系,用戶的惡意否定評論應反映在所尋找的數(shù)學關系中,因此本文暫時忽略了數(shù)據(jù)內容邏輯的清除,僅清除存在明顯問題的數(shù)據(jù)記錄。在確認數(shù)據(jù)的基本有效性之后,將著重分析與評論相關的字段,包括兩個字段:verified_purchase 和review_body。對于這兩個字段將使用“單詞袋”的思想進行單詞分割,即將這兩個字段的內容分為一個單詞列表,每個單詞的頻率將被記錄。然后將標點符號和停止詞過濾掉,保留具有實際意義的詞。

        2 邏輯回歸模型

        在獲得每個評論的關鍵詞之后,再計算每個評論的每個關鍵詞的數(shù)目。由于兩位有用的字段可以有效地表達評論的有用性,因此很明顯,表明該評論無用的票數(shù)是total_votes-helpful_votes,將評論的參考值設置為V,用下式表示為:

        為了避免當有用票數(shù)等于無用票數(shù)時V 為零,將V+1 用作評論的權重W。

        本文將每個評論的權重W 乘以每個評論的關鍵詞數(shù),最終結果視為每個評論的預期關鍵詞數(shù)。計算評論中帶有負色或正色的預期關鍵字數(shù)(評估得分不等于3),并由所有關鍵字及其對應的頻率構成字典。同時去除那些頻率太低的關鍵詞,評論權重W 將影響關鍵詞的排名,從而影響它們是否被去除。最后,找到在高頻下使用的關鍵詞,這些關鍵詞將根據(jù)頻率排列以形成關鍵詞組。

        將每段文本劃分為關鍵詞,并判斷上述關鍵詞組是否分別出現(xiàn)在文本中。如果有,則在文本向量的相應位置將其標記為1,否則將其標記為0。E 反映了關鍵字組中的第j 個關鍵字是否存在于評論內容的第i 行中,具體可以用下式表示:

        由于星級評定既反映了負面態(tài)度也反映了積極態(tài)度,因此被認為是衡量反對派重要性的指標。星級被標準化為(-1,1)范圍內的值,以適用于邏輯回歸[2]。得分是標準化的得分指標,可以通過下式計算:

        由于邏輯回歸可以很好地建立文本向量Xi和得分之間的相關性,因此通過提供的三種商品的數(shù)據(jù)集訓練邏輯回歸模型,可以寫成:

        綜上,模型訓練結束后即可以確定θ的值。

        3 結論

        本文結合亞馬遜在線市場的三種產(chǎn)品的數(shù)據(jù),通過建立Logistic回歸模型以定量評估商品評論。首先,基于文本挖掘清理了文本數(shù)據(jù)集,并考慮了關鍵字頻率統(tǒng)計信息。同時,考慮到有效投票對詞頻的影響,通過自建詞庫對文本進行矢量化處理。最后與購買者的評價標準建立了邏輯回歸模型,以獲取定量得分。本文模型合理地消除了高頻人稱代詞和低頻詞的干擾,使結果更加準確。

        猜你喜歡
        單詞文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        国产精品久久久精品三级18| 男女高潮免费观看无遮挡| 中字幕人妻一区二区三区| 亚洲国产美女精品久久久| 无码丰满少妇2在线观看| 中文字幕在线久热精品| 无码啪啪人妻| 久久久精品亚洲人与狗| 国产无套中出学生姝| 久久久精品一区aaa片| 国产乱子伦在线观看| 欧美日韩国产一区二区三区地区| 天堂在线观看av一区二区三区| 精品蜜桃一区二区三区| 性色国产成人久久久精品二区三区| 亚洲av调教捆绑一区二区三区| 一区二区三区最新中文字幕| 亚洲乱亚洲乱妇无码麻豆| 射死你天天日| 亚洲精品中文字幕观看| 手机av在线观看视频| 久久亚洲中文字幕精品二区| 精品人妻伦一二三区久久| 精品视频一区二区三区在线观看 | 国产极品少妇一区二区| 国产亚洲精品精品精品| 在线观看国产成人av片| 国内精品伊人久久久久av| 国产精品人人爱一区二区白浆| 国产精品一二三区亚洲| 久久精品99国产精品日本| 久久亚洲私人国产精品va| 亚洲欧美日韩一区在线观看| 日韩激情网| 国产交换精品一区二区三区| 老妇高潮潮喷到猛进猛出| 日韩毛片免费无码无毒视频观看| 粉嫩少妇内射浓精videos| 国产精品久久久久免费看| 亚洲女同性恋激情网站| 国产精品女直播一区二区|