亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        直播網站在線彈幕情感分析

        2022-05-26 08:56:16陳朝明
        軟件導刊 2022年5期
        關鍵詞:彈幕語料詞典

        陳朝明

        (中南民族大學計算機科學學院,湖北武漢 430027)

        0 引言

        近年來,隨著在線影音平臺的興起,網絡直播成為一種影像娛樂的流行模式。直播與其他各種傳統(tǒng)影視的最大區(qū)別在于,觀眾能隨時通過彈幕文本和視頻主播之間進行實時交互,主播也同樣可以根據其受眾的直播需求進行實時反饋——通過彈幕及時地調整自己的直播節(jié)目動態(tài)內容并更好地通過直播取悅其受眾,以獲得更多關注。其中,演出或主持直播的主角一般稱之為“主播”或是“實況主”。彈幕則指一種用戶觀看直播的評論方式。這些評論文本從屏幕上呈現一閃而過的視覺效果,看上去如高速飛行的子彈一般,因而人們將其稱之為彈幕[1]。

        在對文本的情感分析中,傳統(tǒng)方法大多是基于對情感知識的認知構建一個情感詞典,然后以這些情感詞典為主要工具進行分類。國內外研究者在情感分析的研究和應用上已取得突破性進展,但對于彈幕文本情感分析的深入研究卻較少。最早提出情感分析字典的whissell[2],他們先招募了148 名受試者,首先使用5 個附加單詞,其中包括描述一個數學術語、物理科學術語、電視技術術語、報紙技術術語和生物學等術語,然后與其他情感詞典頻次度最高的情感字詞互相匹。Kim 等[3]利用同義詞、近義詞的關系,將一批人工標注的初始種子情感詞作為基礎,將與種子詞同義詞語的情感傾向設置為相同,與種子詞反義相反則設置為對應的情感極性。上文提出的情感詞典都比較基礎,即只對使用最為廣泛的詞如“漂亮”“好”“不行”等進行了收集整理?;A情感詞典鎖覆蓋的文本有限,無法結合語境、語義分析,在情感分類性能上存在不足。有一些年份比較久遠的情感詞典應用到具有新含義情感詞的語料中時,由于受到語境遷移影響從而導致分類效果較差。

        在文檔和句子層次上,目前研究主要集中在基于機器學習的情感分類方法上。這種方法將預先標記數據的情感極性作為訓練數據[4]。根據訓練數據,對情感分類模型進行訓練,優(yōu)化分類精度,然后對文本進行情感極性分類。謝鐵等[5]利用深度遞歸神經網絡算法獲取句子語義信息,并引入漢語“情感訓練樹圖數據庫”作為訓練數據,找到詞語中的情感信息;Appel 等[6]提出一種結構混合式的句子級情感分析方法,在已有情感詞典的基礎上,利用自然語言處理技術對情感詞典進行增強,并利用模糊集估計句子的語義方向、極性和強度,為情感計算提供了基礎。這兩種方法都忽略了句子間的依存關系;Abbasi 等[7]提出一種基于語言學規(guī)則的多文本語義特征選取方法,該選取方法不但考慮了語義信息,還利用語法特征之間的相互關系,可以有效去除文本中的雜質、無關信息和其他冗余的語義特征;黨蕾等[8]首先分析不同語法之間的相關性,然后根據語法結構提取距離因子,并對否定模式匹配后的句子極性算法進行改進,最后提高了句子級情感分析的準確性。在分析相關基礎知識和語義特征的基礎上,Shi 等[9]提出基于隨機條件的情感信息聯(lián)合識別模型,并給出一個關于詞語情感強度的計算公式。他們提出的模型對于彈幕這樣的短文本評論語言適用性較差。

        盡管國內外研究者對傳統(tǒng)文本的情感分析進行了大量深入研究,已取得較為成熟的成果[10],但對彈幕情感的研究與分析并不多。并且,由于彈幕獨特的在線實時、語言簡略與互聯(lián)網化特征,現有方法難以直接用于彈幕情感分析。因此,采用新的方法對直播彈幕的情感進行分析具有非常重要的實際意義與應用價值[11]。

        已有研究中尚沒有對彈幕的特征進行研究,也缺乏對彈幕領域情感詞典的完善。針對該問題,本文做了如下工作:提出一個基于改進SVM 算法的情感分析模型;在收集處理直播網站在線彈幕文本后構建一個彈幕文本語料庫,結合現有情感詞典構建一個彈幕專屬情感詞典,在對優(yōu)化模型進行實驗后實現分類性能提高;考慮了彈幕中能表達情感的各項特征[12]。

        1 情感分析流程

        情感強度評價是對情感極性的判斷,將判斷結果細分為強、中、弱等不同程度。文本情感分析一般過程如下:①從互聯(lián)網上收集和整理原始語料庫數據,首先對數據進行清理,去除非文本數據,然后對文本進行預處理[13];②根據不同的算法,對預處理后的文本數據進行情感極性判斷和情感強度評價;③將情感分析過程的結果應用到事物評價、企業(yè)經營、政府監(jiān)管等相關領域,實現研究的意義和價值[14]。

        彈幕情感分析流程如圖1 所示,首先從直播平臺收集和整理原始語料庫數據,對原始彈幕數據進行清理,去除非文本數據形成彈幕語料庫[15],然后對文本進行預處理。通過對語料進行特征提取,構建彈幕情感詞典[16]。

        Fig.1 Flow of bullet screen sentiment analysis圖1 彈幕情感分析流程

        2 彈幕數據情感分析模型

        2.1 系統(tǒng)模型

        如圖2 所示,系統(tǒng)模型由語料庫、特征工程、分類器組成。首先,原始數據由直播網站后臺獲取,分別經過分詞、停用詞進行處理,將其進行人工分類后組成的語料庫;然后,通過特征工程提取每個W特征,轉化為,其中x為W提取的各項特征,y為W的分類結果(包含正向和負向);再經過本文改進的分類器進行分類得到S{W1,W2,...,Wn},通過輸出數據優(yōu)化分類器使分類器得到更好的性能評價指標P。因此,該模型的核心問題可以描述為:

        2.2 數據預處理

        本文選取虎牙直播網站的彈幕數據作為本文的語料數據來源。通過虎牙直播網站開放接口,使用Python 接收后臺數據,并將所需直播間的彈幕文本保存在本地中。本文以虎牙的官方直播間——《英雄聯(lián)盟賽事》(https://www.huya.com/lpl)為主要數據獲取對象。經過一段時間的實時彈幕獲取,累計得到61萬條文本。

        Fig.2 System model圖2 系統(tǒng)模型

        由于彈幕的口語化嚴重,彈幕文本往往包含大量與情感表達無關的文字。為了保證后續(xù)情感分析結果的有效性,需要進行嚴格的文本預處理操作,以保證文本數據的標準化。對彈幕文本的預處理包括以下幾個步驟:過濾無意義文本、情感極性標注、文本分詞和去除停止詞[17]。

        在對彈幕文本進行分詞處理后,出現了大量的無意義詞。這些詞在各種漢語文本中都很豐富,但并不參與文本意義的表達,這些詞被稱為停止詞。停止詞指在語篇中頻繁出現但對語義研究毫無意義的詞,如“和”“德”“在”“然后”,以及一些使用過于頻繁的詞,如“我”“就”“啊”“把”。此外,作為網絡文本,彈幕還包含一些英文、數字、表情符號和特殊符號。彈幕的口語化現象嚴重,因此去除停止詞也是文本預處理的一個重要步驟。本文將收集所有的停止詞,形成停止詞列表。分詞后匹配停止詞列表,過濾文本,避免分詞后過多干擾。使用for 循環(huán)遍歷seg_str,通過if 語句判斷該詞是否存在于停止詞列表中,將該詞后面的停止詞移到seg 列表的內容中[18]。

        2.3 情感特征構造

        在考慮特征構造時,本文選取幾種常見的情感特征。通過組合這些特征得到最優(yōu)分類效果。其中,詞向量化是最基礎的工作,標記了每個詞在訓練文檔中的空間特征,在后文的實驗中稱為word 特征[19];情感詞典則依據情感詞進行分類,在實驗中稱為pos(詞性)特征;依存句法分析則通過綜合算法判斷句子的情感特性,叫作dep(句法)特征。

        針對直播彈幕情感詞典缺乏的不足,為了構造一個彈幕領域性詞典,本文在大連理工信息檢索研究室情感詞匯本體(Dalian University of Technology Sentiment Ontology,DUTSO)的基礎上,通過增加彈幕專屬情感詞的方式,構建新的情感分析詞典。獲取新的情感詞首先要將文本數據進行預處理,目前的預處理工作一般包含數據清洗、停用詞處理、分詞、詞性標注、詞頻統(tǒng)計等。情感詞匯如表1所示。

        在評論語言中,情感詞和評價目標詞之間通常存在某種修飾關系,這種修飾關系可以通過依存分析找到。依存分析通過分析詞與詞之間的依存關系,揭示句子的句法結構。在依存句法理論中,句法結構實質上包含了詞與詞之間的依存(修飾)關系。依存關系可以分為不同的類型以表達句子中兩個詞之間的特定句法關系,并且用于連接主導詞和從屬詞。采用依存句法描述句子的好處在于不需要理解單詞本身的意思,而是通過所承載的語法關系表達單詞,而且其數量遠遠少于單詞數量[20]。同時,一個句子中的核心動詞是支配其他成分的中心成分,它不受自身支配,并作為句子的根節(jié)點,這樣的詞在依存關系中被記錄為“根”。當然,非正式不完整句子中可能沒有動詞。此時,形容詞或名詞也可能成為根節(jié)點。并且,依賴于根節(jié)點,其他組件之間也存在依賴關系。除詞匯本身特征外,還需組合的情感特征如表2所示。

        Table 1 Emotional vocabulary表1 情感詞匯

        Table 2 Emotional characteristics explanation表2 情感特征示意表

        基于依存語法的方法是利用依賴語法分析提取文本的主干,然后利用其他分類方法對其進行分類。該方法提取的主文本大多包含明顯的情感詞和情感對象,文本中沒有明顯情感詞的部分往往被忽略,但這些被忽略的部分也可能表達情感。因此,從提高文本預期利用率的角度出發(fā),考慮了其他部分的影響:利用句法依存關系提取評論句中的短語,并在此基礎上進行分句[21],提取出可能表達意見的句子部分,并利用訓練好的監(jiān)督分類模型識別意見類別類別。

        2.4 基于改進SVM 算法的情感分類

        彈幕文本經過特征提取,得到了一個高維空間的向量矩陣,這些數據的分類依賴于有效的分類器。在對比多個機器學習方法后,本文選取支持向量機(Support Vector Machine,SVM)算法構建情感分類的分類器[22]。SVM 算法在面向本文所提彈幕語料庫這種數據量不大的樣本時仍然有效。其分類準確率高、泛化能力強。假設彈幕文本訓練資料為:

        樣本空間中任一個樣本點到超平面(ω,b)的距離可寫為:

        SVM 的優(yōu)化目標是使r最大。正向分類滿足wTx+b>=1,負向分類滿足wTx+b<=-1。將這兩類可整理如下:

        分類問題即滿足上式條件的優(yōu)化問題,總結為:

        將情感分類模型轉化為無限制經驗損失最小化問題,考慮到誤差問題引入Hinge Loss,l(ω,(x,y))。最小化問題的定義函數如下:

        其中,l(ω,(x,y))如下:

        使用隨機梯度下降求解目標函數。

        為了平衡泛化與學習,提高內核函數的自適應性,引入分類處理因子與梯度下降因子對SVM 進行算法改進[23]。用Smooth Loss 替換Hinge Loss,即將式l(ω,(x,y))轉化為,將問題進一步轉化為超平面下的無約束平滑優(yōu)化問題。

        隨機選取超平面空間下的一個訓練樣本it,其中i為某一情感特征,a為樣本活躍度即迭代次數。將式(8)轉化為式(9)。

        進行子梯度求解,如下:

        可以看到,引入了分類處理因子與梯度下降因子后,可以得到一個降低了泛化誤差的預測器。本文將通過實驗對改進SVM 后的情感分類模型進行效果驗證。

        3 實驗

        3.1 實驗環(huán)境

        為了驗證本文方法的有效性,采用Pycharm 工具在Windows 平臺實現本文提出的彈幕情感分析算法。實驗環(huán)境如表3所示。

        Table 3 Experimental environment表3 實驗環(huán)境

        實驗所使用的語料庫為本文獲取的虎牙后臺彈幕數據,這些經過上述處理步驟,即過濾無意義文本、情感極性標注、文本分詞和去除停止詞。原始彈幕總共有61 萬條,經過第一步處理還有11 萬條,再從11 萬條彈幕中隨機抽取1 萬條進行標注,其中有明確情感傾向的數據形成數據集DTDS,部分數據如圖3 所示。其中,有1 250 個正向語料和1 250個負向語料,共計2 500條語料。

        Fig.3 Processed corpus圖3 處理后的語料

        3.2 不同模型實驗比較

        為了比較模型好壞,實驗中加入最大熵、未改進的SVM 算法和樸素貝葉斯算法作為比較,這3 種算法均為SKlearn 工具包提供的基本分類算法。本實驗的評價標準為準確率、召回率和F1值[24]。

        實驗設置了5 組分組實驗,其中每組由250 個正向語料和250 個負向語料,4 組增量實驗各組分別由150 對、300對、450 對和600 對正負語料構成。4 種算法實驗結果如表4所示。

        通過對比可以看出,本文提出的改進SVM 分類器模型比未改進模型的評價指標(精確率、召回率、F1 值)分別高3.8%、2.3%與1.1%,而傳統(tǒng)SVM 又比樸素貝葉斯算法和最大熵算法模型高3.7%、5.3%與4.5%和5.7%、5%、5.4%。這充分表明,通過增加彈幕詞典及改進特征組合,能有效提升在線彈幕情感分析的準確性和有效性[25]。

        3.3 特征組合對性能的影響

        在機器學習分類器的訓練算法確定為SVM 后,接下來需要選擇一定的特征組合方法,并對組合的特征進行篩選。本文將彈幕文本特征分成單詞(word)、詞性(pos)與句法(dep),按照word、word+pos、word+dep、word+pos +dep 4 種特征組合進行實驗,分析精確率、召回率與F1 值。不同特征組合的性能如圖4所示。

        Table 4 Comparison of experimental results of each method表4 各方法實驗結果比較

        Fig.4 Experimental results of different feature combinations in improved SVM algorithm圖4 不同特征組合在改進SVM算法下的實驗結果

        從圖4 可以看出,加入了特征組合后,實驗效果均比單一word 特征性能更優(yōu)。僅考慮word 特征時,精確率、召回率與F1 值分別為61.47%、65.26% 與67.13%,通過增加詞性(pos),精確率與召回率分別提升到66.97%、73.41%。這充分說明特征項的增加對模型性能有顯著影響,尤其是在彈幕文本中,由于文本短以及口語化,詞性與文本情感具有明顯相關性。

        word+dep 的特征組合性能要優(yōu)于word+pos 的特征組合,精確率、召回率與F1值分別提升到70.85%、71.47%、77.93%,這表明了句子特征對于彈幕文本的有效性。其主要原因在于,彈幕具有文本短及表達簡潔的特征,僅從詞性與單詞的角度分析還不夠。而將3 組特征進行全部結合的word+pos+dep 效果最好。word+pos+dep 在評價指標(精確率、召回率、F1 值)上與word+pos 相比分別高4.2%、0.2%、30.9%,與word+dep 特征組合的性能相比高0.4%、2.2%與9%,其中word 特征,也即直接將語料轉化為詞向量的性能時最差,這一結果意味著短語類別分類更依賴于詞和詞之間的依存句法關系,這也驗證了本文基于改進SVM 算法融合4項情感特征的情感分析模型的有效性。

        4 結語

        情感分析作為近年來自然語言處理的熱點之一,在熱點分析、輿情監(jiān)測和自動答疑等方面具有廣闊的應用前景。彈幕作為一種新興的應用,具有篇幅短、用詞口語化、網絡詞語和符號較多等特點,給傳統(tǒng)情感分析方法帶來了挑戰(zhàn)。本文著眼于彈幕文本情感分析,對直播彈幕與情感分析相關技術進行了深入分析,同時分析出用戶對直播內容的喜好程度,提高彈幕情感分析準確性。

        本文針對彈幕語料庫缺乏、語言簡略及互聯(lián)網化特征,構建了彈幕專屬情感詞典;針對直播彈幕語言的特性,提出了一種基于改進SVM 的情感分析模型。通過引入分類處理因子與梯度下降因子,降低了預測器的泛化誤差。在此基礎上,提出了詞向量、情感詞、否定詞和標點符號等多種融合特征的方法。通過實驗優(yōu)化調整模型參數,得到適合直播彈幕的特征組合,提高了分類準確度[27]。實驗結果表明,本文提出的方法在精確率、F1 值及召回率性能上更優(yōu)。同時,本文研究也存在一些不足:本文只使用了虎牙直播的彈幕文本作為實驗數據,由于直播內容的多樣性,可能不能完全說明本文情感分析模型的穩(wěn)定性和魯棒性。并且,本文提出的情感分析模型基于情感分類中的二分類方法,通過分類結果計算單位時間的情感。在實際應用中,情感具有多樣復雜的特征,對彈幕文本進行更加細分的多分類情感分析是下一步研究方向。

        猜你喜歡
        彈幕語料詞典
        彈幕
        HOLLOW COMFORT
        漢語世界(2021年2期)2021-04-13 02:36:18
        “彈幕”防御大師
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        一大撥彈幕正在向你襲來……
        評《現代漢語詞典》(第6版)
        詞典例證翻譯標準探索
        基于語料調查的“連……都(也)……”出現的語義背景分析
        華語電影作為真實語料在翻譯教學中的應用
        《苗防備覽》中的湘西語料
        久久久精品毛片免费观看| 国产成人久久精品区一区二区| 久久尤物av天堂日日综合| 国产一区二区av在线观看| 99久久国产精品网站| 亚洲日韩精品无码专区网站| 人妻在线中文字幕| 中文字幕人妻一区色偷久久| 亚洲悠悠色综合中文字幕| 久久国产精品久久久久久| 亚洲成年网站在线777| 在线视频日韩精品三区| 一区二区三区天堂在线| 日本精品αv中文字幕| 中国美女a级毛片| 水蜜桃亚洲一二三四在线| 精品一区二区三区四区少妇| 91久久大香伊蕉在人线国产| 亚洲欧洲国产码专区在线观看| 日本精品人妻无码77777| 久久青草亚洲AV无码麻豆| 免费在线亚洲视频观看| 久久伊人少妇熟女大香线蕉| 亚洲影院天堂中文av色| 秀人网嫩模李梓熙大尺度 | 人妻免费一区二区三区免费| 国产精品久久久久久亚洲av| 丁香婷婷色| 少妇精品偷拍高潮少妇在线观看| 内射干少妇亚洲69xxx| 韩日美无码精品无码| 中文字幕一区二区三区在线视频| h视频在线播放观看视频| 久精品国产欧美亚洲色aⅴ大片| 激情人妻在线视频| 99视频一区二区日本| 亚洲av无码专区亚洲av网站| 视频一区二区在线播放| 国产精品又黄又爽又色| 免费在线黄色电影| 中国精学生妹品射精久久 |