亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于支持向量機的中文文本情感分析方法研究

        2022-11-15 06:59:36劉祉燊張倩周菠汪志霖顧永昊
        科技創(chuàng)新與應用 2022年32期
        關鍵詞:分類文本情感

        劉祉燊,張倩,周菠,汪志霖,顧永昊

        (山東石油化工學院,山東 東營 257000)

        隨著網(wǎng)絡的發(fā)展和技術的提高,人們的精神需求也向更高層次發(fā)展,大眾表達自我的意愿更為強烈,自媒體平臺成為大眾表達感情,發(fā)表言論的重要渠道。尤其是大學生群體具有勇于表達自己觀點,熱衷表達自己態(tài)度的特點。2021年2月3日中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布的第47次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示:截至2020年12月,我國網(wǎng)民規(guī)模達9.89億,手機網(wǎng)民規(guī)模達9.86億,互聯(lián)網(wǎng)普及率達70.4%。其中,學生網(wǎng)民最多,占比為21.0%[1]。因此,學生網(wǎng)民在網(wǎng)絡上的情感表達和輿論觀點更值得關注。通過爬取網(wǎng)絡大數(shù)據(jù)中學生的言論并以此文本為依據(jù),挖掘當今大學生的關注話題和情感傾向,分析大學生的所思所想,對于及時掌握高校大學生的思想動態(tài)和疏導大學生的不良情緒有重要作用。同時,對高校在學生管理方面具有重要意義。

        1 相關研究技術

        1.1 網(wǎng)絡爬蟲

        當今社會已進入大數(shù)據(jù)時代,手動獲取數(shù)據(jù)已不適合現(xiàn)在的發(fā)展趨勢,網(wǎng)絡爬蟲可以很好解決這類問題。網(wǎng)絡爬蟲是一種能夠自動抓取互聯(lián)網(wǎng)信息的程序或者腳本,廣泛應用于網(wǎng)頁或網(wǎng)站內容的檢索。網(wǎng)絡爬蟲的實現(xiàn)形式多樣,其工作原理也各不相同。典型的網(wǎng)絡爬蟲有通用網(wǎng)絡爬蟲和聚焦網(wǎng)絡爬蟲2類。本文采用通用網(wǎng)絡爬蟲,其實現(xiàn)基本原理及流程如圖1所示。

        圖1 通用網(wǎng)絡爬蟲的工作原理

        首先,根據(jù)初始爬取的網(wǎng)頁得到初始統(tǒng)一資源定位系統(tǒng)(uniform resource locator,URL),接著由初始URL爬取網(wǎng)頁內容并存儲數(shù)據(jù),在爬取數(shù)據(jù)過程中可獲得新的URL地址,然后將新的URL地址加入URL列表。根據(jù)新URL地址重復以上步驟繼續(xù)爬取數(shù)據(jù),最后直到滿足條件的數(shù)據(jù)爬取完后結束整個過程。

        1.2 分詞技術

        詞語是一句話中能夠體現(xiàn)獨立含義的最小單位,通過詞語分析理解文本含義是情感分析和數(shù)據(jù)挖掘的重要方法。對中文文本的情感分析需要將語句按照一定邏輯關系劃分為詞語后再進行分析。相比于英文單詞在句子中用空格間隔開的自然分割,中文詞語之間沒有明顯的區(qū)分標志,因此對中文語句中的詞語劃分要更加復雜和困難。

        對語句分詞時采用Python提供的第三方分詞庫——jieba庫,jieba分詞是一款開源工具,在中文文本分詞方面廣泛使用且分詞效果較好。jieba分詞工具對應有3種不同模式:精確模式、全模式和搜索引擎模式。如:對“山東石油化工學院新增3個本科專業(yè)”這句文本用3種模式分詞,精確模式分詞后為“山東/石油化工/學院/新增/3/個/本科專業(yè)”,全模式分詞結果為“山東/東石/石油/石油化工/化工/化工學院/工學/工學院/學院/新增/3/個/本科/本科專業(yè)/專業(yè)”,搜索引擎模式分詞結果為“山東/石油/化工/石油化工/學院/新增/3/個/本科/專業(yè)/本科專業(yè)”。從分詞效果可以看出,精確模式可以對語句進行最精確的切分,并且不存在冗余數(shù)據(jù),適合做文本分析。

        1.3 情感分析

        在大數(shù)據(jù)時代,對文本情感手工分類已無法滿足需要,當下通常選擇機器學習算法對文本情感分類。常用的機器學習算法有:支持向量機、K近鄰算法、樸素貝葉斯和神經(jīng)網(wǎng)絡等。其中,樸素貝葉斯模型是基于貝葉斯定理和特征條件獨立假設的一種預測模型,主要應用在文本分類、疾病診斷等領域[2]。該方法簡單有效,但在使用時假設屬性之間相互獨立,在實際應用中往往是不成立的,影響預測結果。神經(jīng)網(wǎng)絡模型包括卷積神經(jīng)網(wǎng)絡、時間遞歸神經(jīng)網(wǎng)絡和結構遞歸神經(jīng)網(wǎng)絡等不同模型,卷積神經(jīng)網(wǎng)絡在文本分析方面的優(yōu)勢不及在圖像領域,多模型組合是未來神經(jīng)網(wǎng)絡在文本分析領域的改進方向[3]。支持向量機(SVM)在求解過程中避開了局部收斂的缺陷致使所得解準確率同比其他算法更高。因此,SVM算法回歸分析所得解具有全局性和高準確性,該算法被廣泛應用[4]。

        支持向量機是機器學習算法的一種,于1995年由Vapnik等提出。該方法以訓練誤差為優(yōu)化問題的約束條件,以置信范圍值最小化為訓練目標,是一種基于結構風險最小化的學習方法,推廣能力優(yōu)于其他傳統(tǒng)學習算法。

        支持向量機分類的基本思想是找到能夠正確劃分訓練數(shù)據(jù)集并且使幾何間隔最大的超平面,同時有少許不能準確分類的樣本點。假設(xi,yi),xi∈Rm,yi∈{-1,1},i=1,2…m,則得到最有超平面為ω·xi+b=0。要使超平面的分類間隔最大,即求2/||ω||最大的問題,轉化為(1/2)||ω||2最小。引入懲罰系數(shù)C表示樣本點與最優(yōu)超平面的距離程度。該問題可闡述為

        式中:ω為權重向量;C為懲罰系數(shù);ξ為松弛因子。C越大,未落在正確分類的樣本對最優(yōu)超平面的懲罰越大。

        SVM提供了不同的核函數(shù)。常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和Sigmoid核函數(shù)。核函數(shù)的選擇根據(jù)具體使用情境選擇,如:是否線性可分、樣本數(shù)量的多少等。所以,在使用SVM訓練時,需經(jīng)過大量調試,在考慮準確率、運算速度等問題的前提下選擇合適的參數(shù)。

        2 研究思路

        本文中文文本情感分析的數(shù)據(jù)來源采用山東石油化工學院官方微博上的評論,用以分析該校學生在日常生活和熱點問題上的情緒表達。研究的整體思路如下:首先需要利用網(wǎng)絡爬蟲對網(wǎng)站數(shù)據(jù)進行采集,得到的數(shù)據(jù)集中包含了文字、符號和表情等多種信息,對無用信息進行剔除,并篩選出有效信息,將有用的語句作為文本情感分析的內容,并根據(jù)文本的情感傾向標注積極和消極情感標簽。該文本為大多為語句式結構,接下來對文本預處理,將語句分詞處理,轉換為詞語的形式,并生成詞向量,形成機器學習的數(shù)據(jù)集和訓練集。最后,將精簡數(shù)據(jù)集輸入SVM訓練器進行分類訓練,得到預測結果。中文文本情感分類過程示意圖如圖2所示。

        圖2 中文文本情感分類過程示意圖

        2.1 文本獲取

        文本數(shù)據(jù)通過對山東石油化工學院官方微博下方評論數(shù)據(jù)的爬取獲得。除了用戶評論內容外,還可得到相應的用戶id、用戶昵稱和評論時間等相關信息。在爬取數(shù)據(jù)時,首先根據(jù)瀏覽器中的開發(fā)者工具查看抓包過程中的相關信息,接著使用Python編程模擬發(fā)出網(wǎng)絡請求,由于返回的數(shù)據(jù)是json數(shù)據(jù),還需要用Python自帶的json庫對其進行解析,最后將解析后的數(shù)據(jù)保存為.csv文件。數(shù)據(jù)爬取結果如圖3所示,為.csv文件中保存的微博評論區(qū)獲取的用戶id、用戶昵稱、用戶所在城市和評論內容等相關數(shù)據(jù)。

        圖3 數(shù)據(jù)爬取結果

        2.2 文本處理

        直接從網(wǎng)頁爬取的數(shù)據(jù)中存在一定的無效信息,無法直接使用,如存在空白項、重復項和存在表情符號等問題,需先進行數(shù)據(jù)清洗,過濾掉無用信息。保留下來的中文文本的處理需將整個句子劃為單詞的形式,包括對中文的分詞、去停用詞和提取關鍵詞等。文本中含有標點符號、介詞和語氣詞等,這些詞對理解文本沒有實際意義,應從分詞結果中去除,這些詞稱之為停用詞[5]。利用哈爾濱工業(yè)大學創(chuàng)建的停用詞列表,過濾文本中的停用詞,減少停用詞對語句分析造成的干擾。過濾后的文本按照語意劃分分詞,采用開源的jieba分詞工具的精確模式切分。

        文本向量化是自然語言處理的重要一步。文本向量化即將文本以向量的形式表現(xiàn)出來,這樣就把自然語言的分析問題轉化為機器學習的問題。通常,以詞為基本單位進行文本向量化。本文采用2013年由Google公司提出的生成詞向量的神經(jīng)網(wǎng)絡算法“Word2vec”[6]。該算法基于神經(jīng)網(wǎng)絡模型,通過對給定語料庫的學習,生成維度不同的詞向量空間,由于該方法是基于上下文對詞語進行分析處理,因而能夠達到本文需要達到的情感傾向性分類目的。

        2.3 模型預測

        本文將微博評論區(qū)爬取的評論文本經(jīng)過初步篩選和標注,得到積極情感文本329條和消極情感文本406條,共735條。該文本信息作為情感分析的原始信息,將經(jīng)過處理的文本向量分為訓練集和測試集2部分。采用支持向量機模型預測,將訓練集和測試集輸入支持向量機分類器訓練,得到預測的準確率。由于支持向量機的分類效果與所選擇的核函數(shù)、懲罰因子等有一定關系,所以選擇合適的參數(shù)是達到良好分類效果的關鍵。

        3 實驗結果分析

        根據(jù)以上分析,經(jīng)過數(shù)據(jù)爬取、數(shù)據(jù)預處理等步驟,將生成的詞向量分為訓練集和測試集輸入SVM進行訓練,得到預測模型。SVM的懲罰因子選擇默認參數(shù)1,核函數(shù)分別選擇常用的線性核函數(shù)、多項式核函數(shù)和徑向基核函數(shù)進行測試。在不同核函數(shù)下的分類準確率見表1。

        表1 SVM選擇不同核函數(shù)的分類結果

        由表1可知,當核函數(shù)選擇多項式核函數(shù)時,分類效果最好,可達到91.2%,遠高于其他2種核函數(shù)下的準確率。所以,選擇多項式核函數(shù)作為中文文本情感分類預測模型的核函數(shù)。除了核函數(shù)影響分類結果準確率之外,懲罰因子與分類結果密切相關。在選擇多項式核函數(shù)的前提下,測試不同懲罰因子對分類結果的影響,見表2。

        表2 SVM選擇不同懲罰因子的分類結果

        由表2的分類結果可知,選擇懲罰因子為0.8,核函數(shù)為多項式核函數(shù)能夠達到較好的分類效果,分類準確率可達到95.2%。由于本文所采用的文本數(shù)量有限,且選取學校官方微博下的評論作為數(shù)據(jù)集,數(shù)據(jù)集的內容不夠全面,因此,測試結果具有一定的局限性。未來可在該方面繼續(xù)研究,得到更為廣泛適用的預測模型。

        4 結論

        本文建立了基于支持向量機的中文文本情感分析模型,通過支持向量機訓練對山東石油化工學院微博下的評論進行情感傾向分析,可以達到分類正確率95%以上。該模型的分析,可以得到負面情緒文本內容,以及所對應的用戶和話題等信息,可以針對性地分析學生的心理變化,對學校疏導和緩解學生負面情緒有一定的幫助。

        猜你喜歡
        分類文本情感
        分類算一算
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        国产午夜精品视频在线观看| 欧美大屁股xxxx高潮喷水| 欧美人与动人物牲交免费观看久久| 黄 色 人 成 网 站 免 费| 爆乳无码AV国内| 亚洲乱码中文字幕三四区| 97精品国产一区二区三区| 欧美成人看片黄a免费看| 美女极度色诱视频国产免费| 久久91精品国产一区二区| 乱码1乱码2美美哒| 国语对白做受xxxxx在线中国| 男女激情床上视频网站| 中文字幕av人妻少妇一区二区| 秘书边打电话边被躁bd视频| 久久综合第一页无码| 亚洲AV无码精品一区二区三区l| 亚洲国内精品一区二区在线| 一个色综合中文字幕人妻激情视频 | 强d漂亮少妇高潮在线观看 | 成人国产激情自拍视频| 天天做天天爱天天综合网2021| 欧美日韩精品乱国产| av免费在线观看在线观看| 国产激情久久久久久熟女老人| 国产尤物精品福利视频| 精品国产性色av网站| 蜜桃噜噜一区二区三区 | 老师脱了内裤让我进去| 狠狠干视频网站| 五月激情狠狠开心五月| 丰满少妇被猛进去高潮| 久久久精品国产sm调教网站| 国产成人免费a在线视频| 美利坚亚洲天堂日韩精品| 久久久国产精品va麻豆| 亚洲人成无码网www| 蜜桃视频在线免费观看完整版| 久久午夜精品人妻一区二区三区| 亚洲熟少妇在线播放999| 鲁丝一区鲁丝二区鲁丝三区|