亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成深度學習的培養(yǎng)評估大數據分析與跟蹤算法

        2023-11-10 05:42:20高曉梅張永紅
        電子設計工程 2023年21期
        關鍵詞:特征文本情感

        高曉梅,張永紅

        (西安航空職業(yè)技術學院,陜西西安 710089)

        畢業(yè)生的就業(yè)質量受到諸多因素的影響,但傳統(tǒng)的問卷方法無法分析眾多變量間的復雜關系[1-3],且嚴重依賴人工,進而造成了額外成本。因此利用集成深度學習算法(Integrated Deep Learning,IDL)來構建畢業(yè)生就業(yè)質量預測模型[4],研究一種可自動分析文本,并高效、準確地提取到文本評價內所包含的方面項與情感極性的學習算法,不僅能節(jié)約因手動理解、統(tǒng)計文本內容而帶來的人力成本,還對高校教育的改革優(yōu)化、提高人才培養(yǎng)質量具有重要意義。

        該文基于集成深度學習中的方面詞抽?。ˋspect Term Extraction,ATE)及情感極性分類(Affective Polarity Classification,APC)聯(lián)合學習模型LCFATEPC,針對文本信息展開了多方面話題的情感分析(Sentiment Analysis)。在以往的情感問題研究中,主要關注提升的是情感極性分類子任務的精度,而忽略了對于文本方面項提取的研究。LCF-ATEPC克服了上述問題,并在模型內部集成了面向文本情感分析的局部上下文聚焦與BERT(Bidirectional Encoder Representation from Transformers)機制。通過對少量的評價方面項及其極性的標注數據進行訓練,最終實現(xiàn)了在大規(guī)模數據集中的自動提取并預測情感極性。

        1 算法模型設計

        1.1 框架設計

        就業(yè)質量預測研究框架如圖1 所示。

        圖1 就業(yè)質量預測研究框架

        該文在上述研究框架的基礎上進行以下工作:

        1)數據爬取。針對研究主題的對象,對多源頭媒體文本信息進行廣泛收集。盡可能爬取到各媒體源下的不同立場、狀態(tài)與人群的評論文本,從而使本模型內的方面項提取任務所得到的結果更加充分、全面。除了對文本數據的采集外,同時還挖掘研究主題的相關數值型數據,以確保輸入的特征更加豐富,并使預測結果更為準確。

        2)數據預處理。預處理工作主要聚焦于對評論文本進行多方面的話題情感分析,其主要依賴于LCF-ATEPC 模型進行處理。

        3)模型訓練與評估。通過建立深度學習模型,基于數據集進行大量的訓練操作,并不斷修改模型參數,從而適配此次所要評估的內容。最終的評估指標,可輔助進行不同模型的效果評價。

        該研究主要有兩個支撐模型:

        1)采集文本數據的LCF-ATEPC 多方面情感分析模型。在情感分析過程中,基于網絡上爬取得到的多數據源文本數據,對文本內包含的不同方面項進行挖掘。進而為后續(xù)情感極性分類提供人工理解的粒度,且打破模型輸出結果的黑盒效應。

        2)最終的目標預測模型。LCF-ATEPC 負責挖掘評論文本中所包含的方面項與情感分數。第二個預測模型將LCF-ATEPC 產出的方面項及情感分數作為部分特征,與數據采集階段得到的數字化數據共同作為特征,輸入模型便可得到最終就業(yè)質量的預測結果。

        1.2 多方面話題情感分類

        情感分析是指通過處理帶有主觀性的文本或觀點,挖掘出包含態(tài)度、情感的一種計算研究[5]。文本的情感分析并非是僅基于正負性質,也可在其他維度或是多維度上進行[6]。文檔級、語句級和方面級是研究者進行情感分析研究的三個主要粒度級別[7]。其中,方面級的情感分析在對文本的挖掘與處理上更為細膩,其任務主要是由實體提取、方面項提取及方面項情感分類這三個子任務組成的[8]。

        由于長短期記憶網絡(Long Short-Term Memory,LSTM)算法在處理上下文語義關系方面的表現(xiàn)較為優(yōu)秀,近年來諸多學者提出了基于LSTM 變體的深度學習網絡[9-13]。但由于對同一目標特征,不同句子、不同語境詞會給token 的情感帶來截然不同的影響,所以方面級的情感分析始終具備難度。為了提高模型的分析效果,文中搭建了一個擁有兩個獨立BERT層的多目標學習模型[14],同時完成方面級情感分析的方面項提取與情感極性分類兩個子任務。在模型訓練的過程中,通過兩個子任務的交互,使得模型整體在方面項抽取及情感極性分類上表現(xiàn)更加優(yōu)異。

        1.3 LCF-ATEPC模型

        方面級情感分類主要采用神經網絡(Artificial Neural Network,ANN)算法解決?;谧⒁饬Φ纳疃葘W習系統(tǒng),已被證明是一種較為理想且可用于方面級情緒分析的方法論[15-16]。LCF-ATEPC 模型在處理文本分析任務中,將ATE 與APC 兩個子任務相結合。再針對文本內全局與局部上下文,采用兩個獨立的BERT 層,即BERT-BASE 和BERT-SPC 分別進行訓練。LCF-ATEPC 的算法結構如圖2 所示。

        圖2 LCF-ATEPC的算法結構

        在模型內,輸入序列中的每個詞匯均被標記為兩個不同標簽:1)是否為方面詞;2)標記方面詞的情感極性。圖2 左側的LCF 結構通過CDM/CDW 及一個MHSA(Multi-Head Self-Attention)提取局部上下文特征。右側的ATEPC 結構負責學習全局上下文特征。特征交互學習層則結合局部與全局上下文特征之間的交互學習來預測情感極性,并基于全局上下文特征提取方面項。

        圖3-4 是兩個上下文焦點機制的實現(xiàn),分別是特征動態(tài)掩碼層及動態(tài)加權層。圖的底部是每個token 的特征輸入,頂部則是token 的輸出位置。箭頭表示在自我注意力機制下token 對箭頭位置的貢獻。其中,圖3的箭頭指向位置特征會被掩蓋;而圖4指向的特征將會加權衰減。

        圖3 特征動態(tài)掩碼層

        圖4 特征動態(tài)加權層

        圖5 數據特征實驗設計流程圖

        在情感極性分類時,ATE 模型首先對token 進行分類,假設Ti是T對應位置上的特征,則有:

        其中,N是token 的類別數量,Yterm表示模型推論的token 所屬情感類別。

        在APC 過程中,模型對抽取到的上下文特征進行POOL 池化。池化提取輸入文本序列首個token 相應位置的隱藏狀態(tài),然后進行Softmax 運算,預測token 所歸為的情感極性。

        2 實證分析

        2.1 特征處理

        實驗過程中的數據特征處理步驟,如5 所示。

        在完成數據清洗后,對爬取的文本數據進行去停用詞等預處理,并按發(fā)布時間戳進行分組。在模型訓練階段,選用方面項及情感值預達標的評論數據集訓練LCF-ATEPC 模型。保存好最優(yōu)模型后,將已按時間戳分組好的文本數據輸入至預訓練的最優(yōu)模型,并輸出提取后的方面項及情感極性。文中在梳理影響畢業(yè)生就業(yè)質量的相關文獻后,將方面項納入預先已進行人工分類的主體維度中,進而得到主體維度下方面項的情感極性,再進行標準化處理以得到情感得分。

        數據采集階段所獲取的數值型數據,在ATE任務得到的主體維度下分別進行聚合處理[17-18]。將情感得分與數值型數據輸入至機器學習模型中進行滿意度預測訓練,并根據評價標準比較模型的預測誤差,從而確定最優(yōu)模型。同時將不同情感分析深度學習的最優(yōu)模型輸入特征按特點加以分組,且分批次輸入。最終考慮不同算法與不同特征集對模型預測結果的作用,進而證明LCFATEPC 算法的有效性與將媒體文本納入預測的可行性、重要性。

        2.2 實驗預測

        在LCF-ATEPC 算法識別到多方面情感后,得到了方面項及與其對應的情感極性。從刻畫就業(yè)質量的因素出發(fā),為多方面情感分析得到的方面項找到了對應的主體。對于數值型特征數據,則在主體維度下進行統(tǒng)計學求和及最大-最小標準化處理。最終把不同主體維度下情感傾向得分、對口度與落實率等數值特征分別加入不同機器學習模型中進行訓練。

        在預測模型中,選取了線性回歸(Linear Regression,LR)、支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forest,RF)及XGBoost(eXtreme Gradient Boosting)等較為有效的機器學習算法進行訓練。

        為了對各個模型準確度做出有效評價,采用了預測誤差對模型效果進行量化。其中,均方根誤差(Root Mean Squared Error,RMSE)是對真實值與估計值差的平方的數學期望計算其算術平方根。若N為樣本個數,則其計算方式為:

        決定系數R2 是指可相互以直線關系來說明的部分所占的比重,計算公式如下:

        其中,SESS為回歸平方和,SRSS為殘差平方和,STSS為總體平方和。

        2.3 實驗結果

        XGBoost 是一種改進的梯度提升算法,在Gradient Boosting 框架下提供并行樹且進行分布式運算優(yōu)化。由輸入數據的性質,進一步將模型輸入特征按數值型數據與媒體信息分為不同特征集,再分別傳輸至XGBoost 中,進而研究不同特征集的影響程度。將提取到的特征輸入至不同模型內,由表1可知,輸入不同特征,LCF-ATEPC 的多方面情感分析效果為最優(yōu);在輸入相同特征的情況下,XGBoost模型的預測效果最佳。

        表1 不同機器學習算法預測效果

        根據結果可知,數值型特征數據與社交媒體文本數據均具有提升預測準確度的作用。通過表1 可以發(fā)現(xiàn),基于梯度提升的XGBoost 算法的預測效果R2 指標值達到了0.927。因此,該文選擇將提取到的特征數據輸入到XGBoost 機器學習模型中,再進行后續(xù)針對不同特征集的預測,所得結果如表2 所示。

        表2 不同特征集預測效果對比

        由表2 可知,在納入LCF-ATEPC 算法提取到的社交媒體數據后,該文算法預測結果較傳統(tǒng)方法提升了3.58%,故預測更為準確。由此說明了LCFATEPC 算法的有效性,更凸顯了將媒體文本納入預測的可行性與重要性。

        3 結束語

        高校就業(yè)質量是現(xiàn)今社會關注的重點問題,但傳統(tǒng)的問卷方法無法分析諸多變量間的復雜關系。為此,該文建立了一種聯(lián)合學習模型LCF-ATEPC,由于該模型集成了局部上下文聚焦與BERT 機制,通過子任務交互的方法,使得模型整體在方面項抽取及情感極性分類上的表現(xiàn)更為理想。在實驗過程中,通過對社交媒體上文本數據的多方面情感分析,拓寬了特征提取的角度。從建模實驗的結果來看,加入LCF-ATEPC 算法的特征后,模型的表現(xiàn)與結果均有了進一步提升,因此可以將其應用于實際工程中。

        猜你喜歡
        特征文本情感
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達“特征”
        情感
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        永久免费a∨片在线观看| 日韩极品视频在线观看| 国产成人一区二区三区| 国产精品人成在线观看免费| 久久婷婷人人澡人人喊人人爽| 学生妹亚洲一区二区| 99国产综合精品-久久久久| 亚洲性av少妇中文字幕| 日本欧美大码a在线观看| 国产xxxx99真实实拍| 日韩中文字幕不卡网站| 一区二区免费国产a在亚洲| 高清中文字幕一区二区| www射我里面在线观看| 不卡无毒免费毛片视频观看| 无码AV午夜福利一区| 国产一区二区资源在线观看| 中文字幕日韩精品有码视频| 18禁裸男晨勃露j毛免费观看| 亚洲电影一区二区三区| 久久精品国产福利亚洲av| 精品人妻一区二区三区久久| 国精品无码一区二区三区在线蜜臀| 国产日韩欧美网站| 亚洲男女视频一区二区| 日韩中文字幕版区一区二区三区| 一边吃奶一边摸做爽视频| 无码精品色午夜| 免费黄网站永久地址进入| 亚洲精品无码精品mv在线观看| 亚洲精品久久中文字幕| 国产女奸网站在线观看| 午夜桃色视频在线观看| 国产又猛又黄又爽| 护士奶头又白又大又好摸视频| 午夜av内射一区二区三区红桃视 | 亚洲国产一区在线二区三区| 日本高清免费播放一区二区| 精品一区二区三区在线视频| 四川少妇大战4黑人| 国产一起色一起爱|