亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MLP神經(jīng)網(wǎng)絡的商品評論情感分析

        2021-07-18 07:12:42江濤
        電子制作 2021年12期
        關鍵詞:神經(jīng)元向量資料

        江濤

        (廣東理工學院信息技術學院,廣東肇慶,526000)

        本文研究對商品評論進行正負評價分類,希望通過準確的評價分類,讓消費者可以快速地找出大眾評價良好的產(chǎn)品,以減少信息取得成本,進而加速購買效率。分類結果也可以提供廠商作為產(chǎn)品在銷售與決策上的依據(jù),能更有效地掌握消費者的喜好,找出正確的產(chǎn)品發(fā)展方向,以提升產(chǎn)品品質,增加消費者購買的可能性,減少顧客流失,進而提高市場占有率。

        本研究結合分詞工具、詞嵌入工具及MLP 深度學習方法,建構出產(chǎn)品評論的正負評價分類方法。首先使用斷詞工具將評論文本以詞匯為單位做切割,使計算機可以更好的處理自然語言。接著用詞嵌入工具將文本進行特征詞向量的提取。最后,利用MLP 神經(jīng)網(wǎng)絡訓練文本分類模型,對評論資料進行正負評價的分類。在實驗的過程中,調整各項參數(shù)進行多次訓練,并分析實驗結果。

        1 系統(tǒng)結構

        系統(tǒng)架構如圖1 所示,先將內(nèi)含大量中文詞匯的維基百科中文資料做預處理及斷詞,以此訓練詞向量模型。接著,將商品評論資料做預處理及斷詞,并基于已經(jīng)訓練好的詞向量模型做特征詞向量的抽取。最后,把整個資料集降維后分成訓練資料集及測試資料集,以訓練資料集訓練分類模型,再以測試資料集驗證模型成效。

        圖1 系統(tǒng)結構

        對于其中的幾個重要的環(huán)節(jié),在此做出必要的剖析。

        ■1.1 資料預處理

        有了前述的基礎資料,在分析算法之前,先對資料進行預處理,讓資料在格式上比較標準一致,目的是讓算法不會因為資料所產(chǎn)生的瑕疵而發(fā)生誤判。

        1.1.1 編碼處理

        編碼可以分成地區(qū)編碼及國際編碼,UTF-8 是國際編碼的一種,此編碼系統(tǒng)對世界上大部分的文字系統(tǒng)進行了整理、編碼,其中包含中文。因此,本研究將來源資料都先轉換成 UTF-8 編碼,使得計算機可以用更為簡單的方式來處理文字。

        1.1.2 去除干擾

        進行機器學習時,一般會希望減少分析目標外的干擾(例如停用詞、標點符號、特殊字元、轉義字元等),以達到更高的準確率。本研究先對文本進行去除所有半角、全角符號,只保留字母、數(shù)字及中文字的處理。接下來去除停用詞,為節(jié)省存儲空間和提高搜尋效率,在處理自然語言數(shù)據(jù)之前或之后會自動過濾掉某些較無意義的字或詞,這些字或詞即被稱為停用詞(Stop Words)。

        1.1.3 中文分詞

        中文的語句詞匯是相連的,相較印歐語系等語言,詞匯間并無空格,必須先將原始資料進行斷詞步驟,把詞匯以意義為單位切割出來,能夠達到更好的自然語言處理效果,幫助系統(tǒng)理解復雜的中文語言。本研究采用結巴分詞工具,結巴分詞算法是建立 Trie DAG,使用全切分方法,以統(tǒng)計模型計算出最佳結果;對于未知詞(新詞)則使用 HMM 模型計算辨識出來。

        ■1.2 詞向量及特征提取

        文字在經(jīng)過分詞后會形成一個詞語集合,對于這些詞語集合,機器學習算法無法直接使用,需要將它們轉化成可以被機器學習算法識別的數(shù)值特征(由固定長度的向量表示之),然后再交給機器學習的算法進行操作,此轉化過程,稱為特征提取。由于特征詞向量的提取是基于已經(jīng)訓練好的詞向量模型,而中文維基百科是公認的大型中文資料庫,因此本研究將從中文維基百科資料中訓練出詞向量模型,再以此詞向量模型為基礎,從前述已分詞處理完的本文語料中提取特征詞向量。

        本研究使用 Word2Vec 做為訓練詞向量模型及特征提取的工具。在訓練詞向量模型時,選用語意分析效果較好的Skip-gram model,補足一般文件分類常欠缺的語意分析。本研究所使用的word2vec 詞向量模型,是由維基百科提供開放下載的最新中文內(nèi)容所訓練而成,評論文本經(jīng)過此模型,可將詞匯轉換成一個400 維度的特征詞向量。

        ■1.3 降維

        因為在原始的高維度向量資料中,包含有冗余信息以及噪音信息,在實際應用中會造成誤差,并降低資料分析的準確率,同時海量的高維向量資料也導致演算法越來越慢。而通過降維,可以減少冗余信息所造成的誤差,提高識別的精準度,并提高計算效率。

        本研究的降維方法使用主成分分析(Principal Com ponents Analysis)縮寫為PCA,是一種無監(jiān)督式學習的降維演算法。PCA 將可能具有相關性的高維向量轉換成線性無關的低維向量,即主成分(Principal Components),此低維向量數(shù)據(jù)集可保持原數(shù)據(jù)集中的對變異數(shù)貢獻最大的特征。

        ■1.4 文本分類

        許多深度學習方法可實現(xiàn)文本分類,本論文將研究有標準答案的監(jiān)督式學習,使用多層感知機(MLP)深度學習方法進行文本分類,在實驗過程中將嘗試進行參數(shù)調教以得出更好的結果。

        MLP 是一種前向結構的人工神經(jīng)網(wǎng)路,每一層中可包含許多各自獨立的神經(jīng)元,這些位于同一層的神經(jīng)元彼此之間并沒有任何連接,但對位于上下兩層的每一個神經(jīng)元,都有相對的連接。也就是下層的每一個神經(jīng)元,對上層的每一個神經(jīng)元,都會學習到一個權重值,來表達上下兩層神經(jīng)元連接的強度。這個連接的強度,對于分類任務而言,可能是屬于某一類別的獨有特征。

        MLP 的網(wǎng)絡學習方式是采用監(jiān)督式學習,網(wǎng)絡的訓練算法是由屬于錯誤更正學習法則的反向傳播算法來訓練網(wǎng)絡的鍵結值,也可以視為是最小均方法(LMS 算法)的一種推廣。反向傳播算法利用網(wǎng)絡輸出與目標之間的差異,計算損失函數(shù)相對于每一層網(wǎng)絡參數(shù)的梯度值,再以梯度值修正參數(shù),最小化損失函數(shù)。

        2 實驗與分析

        本研究以GitHub 上 的 LSTM 情緒分析實驗所使用到的淘寶網(wǎng)商品評論語料作為資料來源,此語料已預先完成正負向文本分類,并分割成訓練資料集 17466 筆及測試資料集2632 筆,兩個資料集的內(nèi)容都是不重覆的。

        本研究在實驗 MLP 時,使用神經(jīng)網(wǎng)路函式庫 Keras 進行訓練。本研究使用具有四層隱藏層的深層 MLP,各層神經(jīng)元數(shù)量分別為 256、128、64、32,采用ReLU 激勵函數(shù),且在每個隱藏層后加入 dropout=0.5 以防止過擬合的狀況發(fā)生。輸出層為 1 個神經(jīng)元的全連接層,采用 Sigmoid 激勵函數(shù)。訓練過程中優(yōu)化器使用具有自適應學習速率的梯度下降算法(Adam),并嘗試調整 epochs 及 batch size 以找出最佳參數(shù)值,如表1 所示,找出 epochs=100 和 batch size=16 為效果較好的數(shù)值,使得在訓練語料中精確度最大值約 94%,實驗結果如表2 所示。

        表1 MLP 參數(shù)調整與分類精確度的影響

        表2 MLP 分類結果(混淆矩陣)

        3 結語

        本文針對商品評論的正負評價分類問題,設計基于深度學習的情感分析方法,使用 Word2Vec 做為詞嵌入的方法,并使用PCA 降低資料維度,以減少冗馀信息所造成的誤差,最后用MLP 深度學習方法進行文本分類實驗。由實驗結果得出的該方法文本分類的精確度較好,且不易受參數(shù)調整影響,是相對穩(wěn)定且有效的分類方法。

        猜你喜歡
        神經(jīng)元向量資料
        向量的分解
        《從光子到神經(jīng)元》書評
        自然雜志(2021年6期)2021-12-23 08:24:46
        聚焦“向量與三角”創(chuàng)新題
        Party Time
        PAIRS & TWOS
        JUST A THOUGHT
        躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
        向量垂直在解析幾何中的應用
        向量五種“變身” 玩轉圓錐曲線
        基于二次型單神經(jīng)元PID的MPPT控制
        電源技術(2015年5期)2015-08-22 11:18:38
        亚洲日韩精品一区二区三区| 一区二区三区在线观看视频| 国产在线av一区二区| 日韩中文字幕在线丰满| 国产女人18毛片水真多18精品| 亚洲aⅴ在线无码播放毛片一线天| 激情五月天伊人久久| 亚洲色图第一页在线观看视频| av影片在线免费观看| 极品av麻豆国产在线观看| 国产成人亚洲综合一区| 亚洲美女主播一区二区| av毛片亚洲高清一区二区 | 欧美综合天天夜夜久久| 久久久久久久性潮| 一区二区三区国产高潮| 熟妇人妻丰满少妇一区| 桃红色精品国产亚洲av| av在线亚洲欧洲日产一区二区| 国产一区二区牛影视| 国产一区二区三区最新视频| 大屁股流白浆一区二区三区| 久久精品国产亚洲av影院| 99久久精品免费看国产情侣| 日韩美女高潮流白浆视频在线观看| 国产激情小视频在线观看| 18国产精品白浆在线观看免费| 国产女人高潮叫床视频| 91精品国产91久久久无码95| av成人资源在线观看| 国产蜜桃传媒在线观看| 在办公室被c到呻吟的动态图 | 丰满人妻被公侵犯的视频| 久久99国产精品久久| 美丽人妻被按摩中出中文字幕| 视频精品熟女一区二区三区| 水蜜桃网站视频在线观看| 97久久精品人妻人人搡人人玩 | 亚洲精品蜜夜内射| 日韩毛片基地一区二区三区| 亚洲av乱码一区二区三区观影|