亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯算法的心理測(cè)試情感分析

        2023-04-29 18:23:59宋海燕
        信息系統(tǒng)工程 2023年6期
        關(guān)鍵詞:Python語言機(jī)器學(xué)習(xí)

        宋海燕

        摘要:隨著社會(huì)的快速發(fā)展,大學(xué)生的各種心理問題日益突出。從研究大學(xué)生心理情感的角度出發(fā),介紹了文本情感分析模型相關(guān)理論和實(shí)現(xiàn)過程,詳細(xì)論述了應(yīng)用Python語言進(jìn)行心理情感數(shù)據(jù)標(biāo)注、預(yù)處理、構(gòu)建貝葉斯模型、測(cè)試模型、評(píng)估模型性能的過程,通過測(cè)試,模型預(yù)測(cè)正確率達(dá)到0.862。針對(duì)存在的問題,提出了下一步改進(jìn)模型性能的實(shí)施方案,為廣泛篩查大學(xué)生的心理問題提供參考。

        關(guān)鍵詞:文本情感分析;機(jī)器學(xué)習(xí);貝葉斯算法;python語言;F1 Score

        一、前言

        隨著人工智能技術(shù)的不斷發(fā)展,心理測(cè)試在社會(huì)生活中的應(yīng)用越來越廣泛,對(duì)心理測(cè)試進(jìn)行情感分析的需求也越來越迫切。但是由于心理測(cè)試本身的特殊性,如主觀性、被測(cè)者的不同和被測(cè)者自身情緒波動(dòng)等因素,使得基于機(jī)器學(xué)習(xí)的心理測(cè)試情感分析技術(shù)成為一種有效的方法[1]。在國(guó)家相關(guān)政策的指導(dǎo)下,各高校十分重視學(xué)生心理健康工作,但是在開展工作時(shí)存在“兩難”問題。“一難”是難發(fā)現(xiàn):有的學(xué)生心理問題較輕或者缺乏心理健康知識(shí),自己沒有意識(shí)到心理有問題;有的學(xué)生知道自己心理有問題,但是對(duì)周圍人產(chǎn)生警惕,不愿意表達(dá)。對(duì)于這兩類學(xué)生,教師很難發(fā)現(xiàn)他們的心理問題,也就不能在早期進(jìn)行干預(yù)?!岸y”是難治療:高校心理教師少,學(xué)生多,師資力量薄弱。對(duì)于心理問題較嚴(yán)重的學(xué)生,教師很難多次長(zhǎng)期開展心理療愈[2]。針對(duì)上述問題,應(yīng)用機(jī)器學(xué)習(xí)技術(shù),本文提出基于貝葉斯算法的心理測(cè)試情感分析模型,便于開展學(xué)生早期心理問題篩查,幫助學(xué)校做好學(xué)生心理問題防御工作。

        二、文本情感分析

        文本情感分析,又稱傾向性分析或意見挖掘,是對(duì)帶有感情色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。常見的情感分析方法有兩種:基于情感詞典的分析方法和基于機(jī)器學(xué)習(xí)的分析方法[3]?;谇楦性~典的分析方法,是通過制訂一系列的情感詞典和規(guī)則,拆解文本、分析句法、計(jì)算情感值,使用情感值判斷文本的情感傾向。此方法簡(jiǎn)單,應(yīng)用廣泛,但是遇到新詞或者特殊詞就無法識(shí)別,擴(kuò)展性不好[4]?;跈C(jī)器學(xué)習(xí)的分析方法,通常會(huì)把問題轉(zhuǎn)換成分類問題看待,將目標(biāo)情感分為“正、負(fù)”兩類,或者根據(jù)情感程度的不同劃分為1-5類,然后人工標(biāo)注訓(xùn)練文本,進(jìn)行有監(jiān)督的機(jī)器學(xué)習(xí)。例如,樸素貝葉斯就是經(jīng)典的機(jī)器學(xué)習(xí)算法之一,也是極少的基于概率論的分類算法。它的思想基礎(chǔ)是:對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別[5]。

        本文采用基于機(jī)器學(xué)習(xí)的情感分析方法,開展大學(xué)生心理測(cè)試。開展測(cè)試時(shí),教師給學(xué)生提供一個(gè)寬松的生活場(chǎng)景、顏色或圖片,讓學(xué)生寫一段文字,在文字中會(huì)包含情感傾向的詞語,如正向詞語“高興、開心”,反向詞語“難過、痛苦”,中性詞語“吃飯、睡覺”等等。教師收集到這些文字后,經(jīng)過數(shù)據(jù)標(biāo)注等預(yù)處理操作,再輸入到模型中,開展心理問題篩查,初步診斷學(xué)生的心理健康狀況。

        三、數(shù)據(jù)預(yù)處理

        收集到原始文本后,需要進(jìn)行一系列數(shù)據(jù)預(yù)處理工作,主要包括數(shù)據(jù)去重、分詞、詞形歸一化、刪除停用詞。經(jīng)過這幾個(gè)階段,原始文本轉(zhuǎn)換成詞語列表,之后輸入到模型中進(jìn)行訓(xùn)練[6]。

        (一)分詞

        分詞是指將連續(xù)字符組成的語句,按照一定的規(guī)則劃分成獨(dú)立詞語的過程。不同語言具有不同的語法結(jié)構(gòu),分詞方法也存在差異[7]。比如,英文句子中單詞和單詞之間以空格分隔,在分詞時(shí)可以使用空格作為分詞的標(biāo)記,而中文句子中詞和詞之間沒有形式上的分界符,只能靠語義來理解。因此,中文分詞要比英文分詞困難很多。

        根據(jù)中文的結(jié)構(gòu)特點(diǎn),分詞算法分為三類:基于規(guī)則的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法。

        目前,文本分詞已經(jīng)有很多成熟的算法和工具,本文使用的是Jieba庫(kù)和NLTK庫(kù)。Jieba庫(kù)用于中文分詞,NLTK庫(kù)用于外文分詞。Jieba支持三種分詞模式:精確模式、全模式和搜索引擎模式。本文采用精確模式分詞,根據(jù)日常的中文語義分詞。

        (二)詞形歸一化

        詞形歸一化針對(duì)英文而言。在英文中,一個(gè)單詞經(jīng)常會(huì)有多種變換形式,比如cooking是cook的現(xiàn)在分詞,cooked是cook的過去式,這些會(huì)影響語料庫(kù)學(xué)習(xí)的準(zhǔn)確度。因此,在進(jìn)行機(jī)器學(xué)習(xí)前,需要把單詞的不同形態(tài)轉(zhuǎn)換成原型,稱為詞形歸一化[8]。

        詞形歸一化主要有兩種方法:詞干提取和詞形還原。詞干提取是指刪除不影響詞形的詞綴,得到單詞詞干的過程,只能提取規(guī)范的詞形變換,例如將cooking變?yōu)閏ook。詞形還原不僅可以提取規(guī)范的詞形變換,還能夠捕捉不規(guī)范的詞形變換,例如將better變?yōu)間ood。

        NLTK中的stem模塊提供了多種詞干提取器,如波特詞干提取器、蘭卡斯特詞干提取器。同時(shí)stem模塊也提供了詞形還原類WordNetLemmatizer,在使用此類前,要確保已安裝WordNet語料庫(kù)。

        (三)刪除停用詞

        停用詞是指在自然語言中沒有實(shí)際意義的字或詞,如英文單詞“a”“the”,中文單詞“啊”“吧”等。停用詞的存在增加了文本的特征難度,降低了文本分析的效率,停用詞過多時(shí)還有可能導(dǎo)致數(shù)據(jù)分析結(jié)果的較大偏差,因此,通常在數(shù)據(jù)預(yù)處理過程中將它們刪除[9]。

        停用詞是人工輸入的一個(gè)文本文檔,稱為停用詞表。中文停用詞表主要有中文停用詞庫(kù)、哈工大停用詞表、百度停用詞表。NLTK中自帶外文停用詞表,使用前要先安裝stopwords語料庫(kù)。

        四、樸素貝葉斯算法

        樸素貝葉斯算法(Naive Bayesian algorithm)是使用概率統(tǒng)計(jì)的方法對(duì)樣本數(shù)據(jù)集進(jìn)行分類,是應(yīng)用最廣泛的分類算法之一。它假設(shè)特征條件之間相互獨(dú)立,先通過給定的訓(xùn)練集,學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于學(xué)習(xí)到的模型,對(duì)給定的輸入X求出后驗(yàn)概率最大輸出Y。貝葉斯算法結(jié)合了先驗(yàn)概率和后驗(yàn)概率,避免了只使用先驗(yàn)概率的主觀偏見,也避免了單獨(dú)使用樣本信息的過擬合現(xiàn)象。貝葉斯公式如下[10]:

        五、基于貝葉斯算法的心理測(cè)試模型設(shè)計(jì)與實(shí)現(xiàn)

        (一)數(shù)據(jù)來源

        本文采集陽(yáng)光心理論壇1294份情感文本進(jìn)行實(shí)例分析建模,通過人工標(biāo)注將文本分成“積極”和“消極”兩類情感數(shù)據(jù)。情感文本表達(dá)的畫面充滿活力,如陽(yáng)光明媚、美麗等,被認(rèn)為是“積極”情感;畫面中性,如客觀描述一個(gè)事物,也被認(rèn)為是“積極”情感;畫面昏暗無光,如毛骨悚然、黑洞等,被認(rèn)為是“消極”情感。進(jìn)行數(shù)據(jù)標(biāo)注時(shí),“積極”情感用1表示,“消極”情感用-1表示。文本部分內(nèi)容和標(biāo)簽如圖1所示。

        (二)數(shù)據(jù)預(yù)處理

        1.刪除重復(fù)值

        在采集的情感文本中使用data = data.drop_duplicates()刪除重復(fù)的數(shù)據(jù),提高分析的準(zhǔn)確性。執(zhí)行完此語句后,文本數(shù)據(jù)量仍然是1294條,說明采集到的文本中沒有重復(fù)值。

        2.分詞

        導(dǎo)入中文分詞工具Jieba庫(kù),調(diào)用jieba.lcut()方法,使用精確模式劃分情感文本,部分分詞結(jié)果如圖2所示。

        從圖2中可以看出,“世外桃源”“紅彤彤”“太陽(yáng)”這些詞能夠表達(dá)情感和心情,將這些詞保存下來進(jìn)行下一步的機(jī)器學(xué)習(xí);而“這”“是”“個(gè)”這些詞沒有實(shí)際的含義,對(duì)分析結(jié)果沒有價(jià)值,屬于停用詞,需要?jiǎng)h除。

        3.刪除停用詞

        本文從百度下載停用詞表,此表是文本文件,可以根據(jù)需要自行添加停用詞。先加載停用詞表,再?gòu)姆衷~表cut_word中,依次選取每個(gè)詞,判斷是否在停用詞表中,如果不在,則放入一個(gè)新列表中,最終得到的新列表就是后續(xù)機(jī)器學(xué)習(xí)用到的數(shù)據(jù)表。新數(shù)據(jù)表如圖3所示。

        (三)心理測(cè)試模型

        1.構(gòu)建數(shù)據(jù)集

        情感文本data中的每段描述text都需要進(jìn)行上述的文本預(yù)處理,轉(zhuǎn)換成新數(shù)據(jù)表,新數(shù)據(jù)表和對(duì)應(yīng)的label標(biāo)簽合并成一個(gè)列表,合成包含1294個(gè)列表的數(shù)據(jù)集,如圖4所示。

        2.劃分?jǐn)?shù)據(jù)集

        將上述構(gòu)建好的數(shù)據(jù)集劃分成兩類:訓(xùn)練集和測(cè)試集。本文選取前1100條數(shù)據(jù)作為訓(xùn)練集,剩下的194條數(shù)據(jù)作為測(cè)試集。訓(xùn)練集用來訓(xùn)練模型;測(cè)試集使用訓(xùn)練好的模型進(jìn)行預(yù)測(cè)分析,并為每條數(shù)據(jù)貼上標(biāo)簽“1”或“-1”,以判斷是積極情感還是消極情感。將人工標(biāo)注的標(biāo)簽與分析預(yù)測(cè)結(jié)果標(biāo)簽做比對(duì),以此評(píng)價(jià)模型的準(zhǔn)確度。

        3.建立貝葉斯模型

        導(dǎo)入貝葉斯分類器,建立貝葉斯模型,使用上述訓(xùn)練集訓(xùn)練模型。

        from nltk.classify import NaiveBayesClassifier

        demo_model = NaiveBayesClassifier.train(train_data[0:1099])

        (四)模型測(cè)試

        使用訓(xùn)練好的貝葉斯模型,用194條測(cè)試數(shù)據(jù)集測(cè)試模型,測(cè)試結(jié)果如圖5所示。

        從測(cè)試結(jié)果可以看出,文本1的描述是積極的,測(cè)試結(jié)果是1,也是積極的;文本2的描述是消極的,測(cè)試結(jié)果是-1,也是消極的;文本3是消極的,但是測(cè)試結(jié)果是1,是積極的。對(duì)于文本1和文本2,在訓(xùn)練文本中出現(xiàn)過其中的關(guān)鍵詞,所以機(jī)器學(xué)到了,就能給出正確的判斷;對(duì)于文本3,在訓(xùn)練文本中沒出現(xiàn)過的關(guān)鍵詞,機(jī)器沒有學(xué)會(huì),給出了錯(cuò)誤的判斷。因此,對(duì)于模型的訓(xùn)練需要大量數(shù)據(jù),數(shù)據(jù)量越大,模型越準(zhǔn)確,性能越高。

        (五)性能評(píng)價(jià)

        模型訓(xùn)練好后,使用正確率、精度、召回率、F1 Score幾個(gè)指標(biāo)衡量模型的性能,如表6所示。

        從圖6可以看出,模型的正確率為0.862,預(yù)測(cè)結(jié)果良好。

        六、結(jié)語

        本文使用Python語言構(gòu)建心理測(cè)試貝葉斯模型,取得了良好的預(yù)測(cè)效果,但是也存在一些不足。下一步,計(jì)劃從以下三個(gè)方面入手,提高模型的性能。一是增加測(cè)試樣本數(shù)據(jù)。機(jī)器學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)型技術(shù),海量數(shù)據(jù)與機(jī)器學(xué)習(xí)算法結(jié)合才能帶來預(yù)測(cè)效果的提升。數(shù)據(jù)量不足時(shí),機(jī)器學(xué)習(xí)容易出現(xiàn)過擬合,泛化效果差。二是保證測(cè)試樣本數(shù)據(jù)分布均衡。選取測(cè)試樣本時(shí),正向樣本和負(fù)向樣本數(shù)量盡量保證均衡,防止出現(xiàn)某類樣本測(cè)試正確率高而另一類樣本低的情況。三是大規(guī)模開展學(xué)生測(cè)試。網(wǎng)絡(luò)獲取的數(shù)據(jù)人員結(jié)構(gòu)比較復(fù)雜,不一定完全符合大學(xué)生的心理狀態(tài),因此在大學(xué)生群體中開展測(cè)試,獲得測(cè)試樣本數(shù)據(jù),測(cè)試結(jié)果更有針對(duì)性。

        參考文獻(xiàn)

        [1]Zhai S, Zhang ZM. Semisupervised autoencoder for sentiment analysis[C]//Thirtieth AAAI Conference on Artificial Intelligence. AAAI Press, 2016.

        [2]黑馬程序員.python數(shù)據(jù)分析與應(yīng)用[M].北京:中國(guó)鐵道出版社有限公司,2021.

        [3]胡夢(mèng)雅,樊重俊,朱玥.基于機(jī)器學(xué)習(xí)的微博評(píng)論情感分析[J].信息與電腦,2020,32(12):71-73.

        [4]宋冠諭,程登,張森,等.基于情感詞典的文本情感分?jǐn)?shù)計(jì)算模型[J].信息與電腦(理論版),2021,33(22):56-58.

        [5]胡晶.基于樸素貝葉斯的新聞分類問題算法改進(jìn)問題的研究[J].電腦與信息技術(shù),2023,31(2):5-8.

        [6]劉鑫,王皓晨,黃宇煦.基于樸素貝葉斯分類的電信詐騙信息的識(shí)別[J].計(jì)算機(jī)時(shí)代,2023,370(4):29-32+38.

        [7]鄧慈云,余國(guó)清.基于樸素貝葉斯的影評(píng)情感分析研究[J].智能計(jì)算機(jī)與應(yīng)用,2023,13(2):210-212+217.

        [8]魏超.機(jī)器學(xué)習(xí)算法在大學(xué)生綜合素質(zhì)測(cè)評(píng)預(yù)警中的對(duì)比研究[J].電腦編程技巧與維護(hù),2022,450(12):127-129.

        [9]陳可嘉,夏瑞東,林鴻熙,等.基于在線評(píng)論的顧客滿意感地區(qū)差異分析[J].福州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2022,36(6):69-75.

        [10]王恒,唐孝國(guó),郭俊亮.基于電商評(píng)價(jià)的文本情感分析研究與應(yīng)用[J].黑龍江科學(xué),2022,13(12):29-31.

        基金項(xiàng)目:2019年度內(nèi)蒙古自治區(qū)高等學(xué)校產(chǎn)學(xué)研科技創(chuàng)新平臺(tái)項(xiàng)目“新工科ICT信息服務(wù)技術(shù)中心”(課題編號(hào):NJCXY-19-03)

        猜你喜歡
        Python語言機(jī)器學(xué)習(xí)
        Python語言程序設(shè)計(jì)教學(xué)體系建設(shè)
        面向計(jì)算生態(tài)的Python語言入門課程教學(xué)方案
        基于Python語言和支持向量機(jī)的字符驗(yàn)證碼識(shí)別
        論P(yáng)ython程序設(shè)計(jì)語言
        基于Python語言的面向?qū)ο笳n程實(shí)踐教學(xué)探討
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于Android的Python語言英漢維電子詞典設(shè)計(jì)與實(shí)現(xiàn)
        亚洲av成人无遮挡网站在线观看| 亚洲成人色黄网站久久| 成人男性视频在线观看| 欧美激欧美啪啪片| 黑人玩弄漂亮少妇高潮大叫| 欧美日韩国产成人综合在线影院| 精品蜜臀国产av一区二区| 久久777国产线看观看精品| 午夜成人鲁丝片午夜精品| 亚洲AV无码成人品爱| 亚洲自偷自拍另类第一页| 国产精品久久久天天影视| 亚洲日本在线电影| 欧洲一区在线观看| 中文字幕人妻av一区二区| 成人免费a级毛片无码片2022| 无码精品a∨在线观看十八禁 | 91成人自拍视频网站| av中文字幕一区不卡| 亚洲精品一区久久久久久| 丝袜美女污污免费观看的网站| 午夜国产在线精彩自拍视频| 国产人成视频在线视频| 国产伦精品一区二区三区免费| 骚片av蜜桃精品一区| 国产91在线播放九色快色| 放荡的少妇2欧美版| 精品乱码一区二区三区四区| 亚洲香蕉av一区二区蜜桃| 国产成年人毛片在线99| 亚洲精品一区二区| 99热这里只有精品国产66| 久久久黄色大片免费看| 国产成人无码综合亚洲日韩| 精品少妇一区二区三区视频| 亚洲一码二码在线观看| 精品日韩一级免费视频| 内谢少妇xxxxx8老少交| 国产精品反差婊在线观看| 日韩精品中文字幕一区二区| 中字幕人妻一区二区三区|