亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學習的開放教育在線文本情感分析

        2023-04-29 00:00:00張黎娜檀娟伢李梅董露露
        廣西廣播電視大學學報 2023年2期

        [摘 要]教育信息化的快速發(fā)展,各個網(wǎng)絡學習平臺上的文本情感數(shù)據(jù)迅速增長,在線文本數(shù)據(jù)的情感研究廣受關注,但開放教育在線文本數(shù)據(jù)情感分析的研究較少。文章針對現(xiàn)有研究的不足,通過檢索、分析,闡述研究價值,介紹當前廣泛用于文本情感分析的方法,構建了樸素貝葉斯分類模型,采用此模型進行開放教育在線文本數(shù)據(jù)情感傾向分析。根據(jù)分析結果,管理者可以采取合理的干預措施,為完善教學平臺、提高在線教學的質(zhì)量提供借鑒。

        [關鍵詞]開放教育;在線文本;機器學習;情感分析

        [中圖分類號]TP391.1 [文獻標識碼]A [文章編號]1008-7656(2023)02-0016-06

        引言

        開放大學是我國開展繼續(xù)教育的重要力量,在加快建設學習型社會、大力提高國民素質(zhì)的背景下,怎樣提高開放教育學習者的在線學習質(zhì)量和學習效果成為各界關注的熱點。

        以往開放教育的學習評價、效果評估,通常是采用一些結構化數(shù)據(jù)分析技術,如分析網(wǎng)上的行為數(shù)據(jù),包括登錄天數(shù)、發(fā)帖數(shù)、形考等。但是,對于一些非結構化、交互式的在線文本數(shù)據(jù),如課程評論、聊天群文本、論壇等數(shù)據(jù)缺乏相應研究。這些在線文本數(shù)據(jù)反而更能貼切地反映出開放教育學習者在網(wǎng)絡學習平臺學習時所關注的話題及情感傾向[1]。

        以關鍵詞“文本數(shù)據(jù)”“Text Data”在中國知網(wǎng)和萬方數(shù)據(jù)庫進行檢索,總共檢索到文獻31 013篇,再以關鍵詞“情感分析”檢索到文獻527篇如下頁圖1所示,再以關鍵詞“開放教育”檢索到文獻1篇。從“文本數(shù)據(jù)—情感分析”為關鍵詞檢索到的文獻結果示意圖中可以看出,以文本數(shù)據(jù)進行情感分析來改善教學平臺、提升學習者的學習效果和學習質(zhì)量、開展課程評價的文獻占比不足10%,應用于開放教育的文獻不多,基于文本數(shù)據(jù)進行開放教育情感分析的研究更少。

        通過對開放教育在線文本數(shù)據(jù)情感傾向研究,探索教師、學生使用學習平臺參與線上教學過程中的情感態(tài)度。在理論上對師生情感的問題進行歸納和總結,尋找有效的干預措施,旨在為提高在線教、學質(zhì)量提供幫助;為學習平臺的優(yōu)化提供建設性意見;為管理者進行教學監(jiān)督、質(zhì)量監(jiān)控提供非結構性數(shù)據(jù)參考;為同類型的學習平臺進行網(wǎng)上學習產(chǎn)生的文本數(shù)據(jù)情感分析提供可參考的研究方法。

        一、研究設計

        (一)方法理論

        在線文本的情感分析是指通過對在線文本數(shù)據(jù)進行量化,找出文本數(shù)據(jù)隱含的情感態(tài)度和觀點,探索用戶的情感傾向。常用的文本情感分析方法有情感詞典分析方法和機器學習方法。

        基于情感詞典的情感分析方法是通過對文本數(shù)據(jù)中的每一個情感詞與人工構造的情感詞典進行比較,然后計算出情感詞數(shù)量,再根據(jù)情感得分計算規(guī)則算出文本數(shù)據(jù)的情感得分,最后得出文本數(shù)據(jù)的情感類別。情感詞典是人工采集建立的。采用情感詞典進行文本數(shù)據(jù)情感分析時,詞典的質(zhì)量直接影響文本數(shù)據(jù)情感分析的質(zhì)量,因此,需要根據(jù)情感分析的需求不斷地更新和完善現(xiàn)有的情感詞典。但是,基于各行業(yè)的專用詞語、網(wǎng)絡新興的詞語不斷涌現(xiàn),僅通過人工數(shù)據(jù)需求來擴充情感詞典,不僅耗時耗力,也難以囊括所有的詞語。

        基于機器學習的文本數(shù)據(jù)情感分析方法是利用幾個經(jīng)典的機器學習算法,由人工提取文本特征,利用計算機按照特定的算法進行文本處理與情感分類。這種方法具有以下兩個優(yōu)勢:第一,可以有效地減少研究人員的工作量及情感分析過程中的一些感性判斷;第二,可以根據(jù)數(shù)據(jù)庫的變化動態(tài)地對詞庫進行更新,具體方法如下。

        1.支持向量機

        支持向量機是定義在特征空間上間隔最大的二分類算法??衫斫鉃榍蠼馔苟我?guī)劃的問題 [2]。簡而言之,就是解凸二次規(guī)劃的最優(yōu)化過程,解是一個最優(yōu)超平面,這個解到兩邊間隔距離最大,如圖2所示。

        其中,“wx+b=0”為分類超平面,這種超平面的解是無窮多的,情感判定的過程就是要求解間隔最大的分類超平面。若要處理的數(shù)據(jù)集是文本數(shù)據(jù)(非線性的),求解的過程中需要把文本數(shù)據(jù)由低維空間映射到高維空間,這樣就可以把需要處理的數(shù)據(jù)由非線性轉換成高維的線性數(shù)據(jù)來處理,更容易求解。

        2.樸素貝葉斯分類算法

        樸素貝葉斯分類算法是基于貝葉斯理論和特征條件獨立假設的分類算法。它在貝葉斯的基礎上作了一些改進。兩者的區(qū)別在于,樸素貝葉斯認為,一個特征的出現(xiàn)概率與其他的特征屬性是否出現(xiàn)無關。傳統(tǒng)的機器學習算法普遍應用于情感分類,針對文本數(shù)據(jù)數(shù)量不大的,樸素貝葉斯分類器在文本數(shù)據(jù)情感判別方面分類效果好、算法復雜程度低[3] [4]。

        定義文本數(shù)據(jù)qk={q1,q2,..., qn},文本數(shù)據(jù)的情感類別為C= {C正,C負},C正為正面,C負為負面。文本數(shù)據(jù)情感類別的計算公式為(1)。

        其中,公式(2)計算的是情感類別的先驗概率,qtk(qi)為聊天記錄文本qk中詞qi的權值,公式(3)為情感類別的后驗概率,NUM(Cj)為屬于情感類別Cj的聊天記錄文本數(shù)。

        3.決策樹

        決策樹是一種常用的分類方法,它是一種樹形結構,每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。

        此方法采用樹形結構進行情感傾向分析,它是一種有監(jiān)督的分類學習算法。非葉子節(jié)點是屬性的測試,邊為測試結果,葉子節(jié)點為判定后的情感類別。判定過程如下:自根節(jié)點起,逐個判定條件分支,確定情感類別,直到某葉子節(jié)點,該葉子節(jié)點的類別就是文本的情感類別。

        (二)研究思路

        下文主要從情感分類模型的構建和開放教育在線文本數(shù)據(jù)的采集與分析兩個方面加以介紹。

        情感分類模型的構建:使用公開數(shù)據(jù)集,隨機分為訓練集與測試集兩部分,訓練分類模型。通過對比模型分類準確率,選取分類效果較好的模型進行文本數(shù)據(jù)情感分析。

        開放教育在線文本數(shù)據(jù)的采集與分析:數(shù)據(jù)采集后,首先進行文本預處理和文本向量化,然后運用分類模型進行文本情感傾向分析,具體采用的技術方法如圖3所示。

        (三)文本情感分類器構建

        1.數(shù)據(jù)集

        用于情感分析的文本數(shù)據(jù)一般是通過網(wǎng)絡爬蟲獲取或是人工制作,數(shù)據(jù)集建立的過程耗時耗力,為了方便研究,從網(wǎng)絡獲取現(xiàn)有ChnSentiCorp_htl_all數(shù)據(jù)集進行模型訓練。 此數(shù)據(jù)集是某酒店評論文本數(shù)據(jù),數(shù)據(jù)字段(Label,數(shù)值1表示正面評論,數(shù)值0表示負面評論)和評論內(nèi)容(Review),共采用7 000條評論數(shù)據(jù),正面數(shù)據(jù)5 000條,負面數(shù)據(jù)2 000條。數(shù)據(jù)格式如表1所示。

        2.文本預處理

        經(jīng)過文本數(shù)據(jù)預處理過程,將文本數(shù)據(jù)處理成計算機便于識別的自然語言。預處理過程主要包括以下幾個步驟:第一,數(shù)據(jù)清洗,將采集數(shù)據(jù)中的圖片、語音、視頻、系統(tǒng)消息等無效本文、重復文本數(shù)據(jù)進行剔除;第二,分詞,使用比較成熟的Python中jieba分詞庫對文本進行分詞操作;第三,使用已有的停用詞詞庫去除數(shù)據(jù)中容易影響情感分析的無用、停用詞。

        3.文本向量化

        采用Word2vec中的連續(xù)詞袋模型[5],通過對給定語料庫的學習,生成不同維度的詞向量,滿足文本情感傾向性分類要求。詞袋模型有分為三層:第一層為輸入層,輸入當前詞W前后的n個詞向量;第二層為隱藏層,將輸入層的2n個詞向量進行累加;第三次為輸出層,輸出層為一棵二叉樹,以詞庫中的詞作為葉子結點,以詞頻為權重計算出來的概率最高的詞向量。

        4.模型訓練

        用三種機器學習算法訓練模型。使用train_test_split函數(shù)將原始數(shù)據(jù)集按照8∶2的比例進行隨機劃分成訓練集和測試集。文本數(shù)據(jù)較多的作為訓練集進行模型訓練,數(shù)量少的作為測試集擬合模型,數(shù)據(jù)代入模型進行訓練,計算模型準確率。訓練過程重復進行60次,得到60個訓練集和測試集準確率,計算60次結果的平均值[6],結果如表2所示。

        由表2可以看出,決策樹模型在訓練集上的準確率為0.914 2,結果較好,但在測試集上的準確率為0.826 3,在三種訓練模型中排最后。支持向量機模型在訓練集、測試集的準確率為0.910 8、0.887 5,訓練結果都不錯。使用樸素貝葉斯訓練出來的模型在訓練集準確率為0.901 3,測試集準確率為0.900 7,在三種模型中最好。對比三種模型訓練結果,樸素貝葉斯模型在兩個數(shù)據(jù)集上的訓練結果都較好,數(shù)值比較接近。因此,開放教育在線文本情感分析最終采用樸素貝葉斯模型。

        二、開放教育文本數(shù)據(jù)情感分析

        (一)數(shù)據(jù)獲取

        2022年10月26日,筆者從 “一網(wǎng)一平臺-安徽分部”在線服務聊天群中導出自群建立以來的聊天記錄,總共9 747條。通過txt、word、execl等處理工具進行去段落標記、空格,分列,形成一條聊天數(shù)據(jù)一行記錄,再對一些聊天中的圖片、語音、視頻、系統(tǒng)消息等無效聊天本文、重復聊天文本數(shù)據(jù)進行剔除,得到有效文本數(shù)據(jù)6 139條[7]。

        (二)數(shù)據(jù)處理與分析

        對有效文本數(shù)據(jù)進行預處理和文本向量化,選擇樸素貝葉斯模型進行文本情感傾向分類,模型輸出結果為正面情感文本和負面情感文本。

        1.正面、負面情感文本統(tǒng)計

        基于樸素貝葉斯模型的開放教育在線文本情感傾向分析,得到的正面情感文本、負面情感文本數(shù)量按月統(tǒng)計后如表3所示。可以看出,每個月的正面文本數(shù)量高于負面,師生在群里進行交流時情感還是偏于正面。

        2.負面情感分析

        可以對負面情感文本數(shù)在總文本數(shù)量中占比進行分析,橫向為時間,縱向為負面情感在總文本數(shù)中的百分比。2022年3月份負面情感傾向占比最少,2022年10月份負面情感傾向占比最多。2022年3月至7月負面情感文本占呈遞增趨勢。3月份處于春季學期開學、平臺啟用前期,師生剛進入平臺教、學過程。隨著學期的推進,教、學過程的深入,負面的情感增多。8月份負面情感文本占比驟降,原因可能是春季學期結束進入暑假,教師和學生使用平臺教、學頻次減少,呈現(xiàn)的負面情感少。9月份秋季學期開學,9月到10月負面情感文本占比呈上升趨勢。可以看出,負面情感占比和學期的周期性之間呈現(xiàn)一定的規(guī)律性。

        按時間順序?qū)ω撁媲楦形谋局谐霈F(xiàn)頻次在前五位的詞語進行匯總分析,如表4所示。

        可以看出,在平臺使用初期(3月),負面情感主要出現(xiàn)在賬號注冊、權限分配、平臺管理、登錄、使用等方面;學期中(4月—5月、9月—10月),隨著教、學工作的深入,負面情感主要集中在課程、選課、作業(yè)、成績、系統(tǒng)穩(wěn)定、數(shù)據(jù)異常等方面;學期末,面臨學期結束和新學期的到來,負面情感集中在成績,招生、照片采集、學籍等方面。整個文本中出現(xiàn)次數(shù)較多的詞匯為“系統(tǒng)”“課程”“注冊”“照片”。可見,在系統(tǒng)的穩(wěn)定、課程學習、課程注冊、照片采集等方面,負面情緒比較集中。

        開放教育在線文本情感整體傾向偏于正面,負面情感傾向所占比例不高。但是,負面文本占比最高月份(10月)超過20%,數(shù)據(jù)采集日期截至10月26日,學期還在進行中,隨著教、學過程的深入,后期負面情感文本占比可能還有增長。管理者可以有針對性地采取一些干預措施緩解師生的負面情緒。

        三、結語

        通過了解開放教育文本數(shù)據(jù)情感分析的研究現(xiàn)狀,闡述對開放教育在線文本進行情感分析的重要性,構建了樸素貝葉斯分類模型,并采用該模型進行開放教育在線文本情感傾向的分析。針對負面情感傾向以及發(fā)生的時間順序,管理者可以有針對性地采取一些措施來緩解師生的負面情緒。一是學期前,進行系統(tǒng)性能優(yōu)化、平臺功能完善。對平臺功能、性能進行測試、完善,減少在平臺使用過程中因平臺功能缺失、系統(tǒng)故障、數(shù)據(jù)同步等問題導致師生負面情感出現(xiàn),保障學期進行中平臺的穩(wěn)定運行、教與學過程的順利開展。二是提高服務意識。基層平臺運行與維護的專職人員有限,多數(shù)是兼職平臺技術支持,解決平臺問題占用大量工作時間,影響了工作效率。建議多從基層工作人員角度考慮問題,并及時處理出現(xiàn)的問題;難以及時處理的問題,應第一時間進行情緒安撫,避免由正常情緒下的問題反饋轉化為無人回應的負面情感發(fā)泄。三是定期組織操作培訓。新平臺使用過程中,多數(shù)負面情感是因為不熟悉平臺功能導致操作不當引起的。建議在整個學期分層次、分階段、有針對性地開展平臺使用培訓,提升師生在教學過程中的教學體驗,提高在線教學的質(zhì)量。

        [參考文獻]

        [1]Zhang D,Xu H,Su Z,et al.Chinese comments sentiment classification based on word2vec and SVMperf[J]." Expert" " Systems" "with" Applications,2015,42(4):1857-1863.

        [2]羅玉萍,潘慶先,劉麗娜,等.基于情感挖掘的學生評教系統(tǒng)設計及其應用[J].中國電化教育,2018(4):91-95.

        [3]王澤辰,王樹鵬,孫立遠,等.基于情感對象識別和情感規(guī)則的微博傾向性分析[J].北京航空航天大學學報,2022(2):301-310.

        [4]辛雨璇,王曉東.基于文本挖掘的電影評論情感分析研究[J].牡丹江師范學院學報(自然科學版),2021(1):25-28.

        [5]MikolovT,Chen K,Corrado G,et al. Efficientestimation of word representations in vector space[J].Computer Science,2013(1):47-61.

        [6]侯佩玲.云岡石窟景區(qū)在線評論文本情感分析研究[D].大連:東北財經(jīng)大學,2022:22-26.

        [7]張黎娜,張月蓉,童敏,基于成人學習者在線文本數(shù)據(jù)的挖掘和情感分析.安徽開放大學學報,2022(2):93-96.

        [作者簡介]張黎娜,安徽開放大學工程師,碩士,研究方向:數(shù)據(jù)挖掘、情感分析;檀娟伢,安徽開放大學工程師,碩士,研究方向:數(shù)據(jù)挖掘;李梅,安徽開放大學工程師,碩士,研究方向:計算機軟件與理論;董露露,安徽開放大學講師,碩士,研究方向:自然語言處理、數(shù)據(jù)挖掘。

        [責任編輯 方 仁]

        [基金項目] 安徽省高校自然科學研究重點項目 “基于成人學習者網(wǎng)上課程討論區(qū)的數(shù)據(jù)挖掘和情感分析”(編號:KJ2020A1220);安徽省高校自然科學研究重點項目“基于數(shù)據(jù)挖掘技術的個性化學習模式研究”(編號:KJ2020A1218)

        [收稿日期] 2023-02-16

        亚洲免费在线视频播放| 亚洲一级毛片免费在线观看| 娇柔白嫩呻吟人妻尤物| 日本一区二区午夜视频| 日本一二三四高清在线| 欧美精品videosex极品| 少妇精品久久久一区二区三区| 成人午夜免费福利| 中文字幕有码久久高清| 欧美黑人又粗又大xxxx| 五月天激情婷婷婷久久| 亚洲AV无码国产精品久久l| 亚洲天堂av在线免费播放| 粗大猛烈进出高潮视频大全| 少妇无码吹潮| 久久精品国产热| 亚洲全国最大的人成网站| 男女视频在线观看一区| 熟妇丰满多毛的大隂户| 中文字幕无码专区一VA亚洲V专 | 最近最好的中文字幕2019免费| 国产视频网站一区二区三区| 精品国产亚洲av久一区二区三区| 国产高颜值女主播在线| 欧美日韩色另类综合| 亚洲av一二三四又爽又色又色| 人妻少妇中文字幕在线观看| 欧美性猛交xxxx乱大交3| jlzzjlzz全部女高潮| 少妇高潮呻吟求饶视频网站| 欧美亚洲一区二区三区| 亚洲av无码精品色午夜果冻不卡| 天天射色综合| 丝袜美腿丝袜美腿丝袜美腿丝袜| 人人妻人人狠人人爽| 香蕉成人啪国产精品视频综合网| 在线日本高清日本免费| 国产一区二区三区在线综合视频| 曰批免费视频播放免费直播| 波多野结衣一区二区三区免费视频| 国产一区二区av在线免费观看|