馬婉貞 陳淑婷 李雅潔 明濤
摘要:隨著數(shù)字化轉型的新趨勢到來,為解決企業(yè)審計或辦公人員面對海量數(shù)字化文檔工作效率低、重復工作等問題,本文在傳統(tǒng)機器學習SVM的基礎上,加入文本預處理、TF-IDF算法、LDA算法,構建了一套多策略混合的文本關鍵情感詞識別模型。通過模型測試及與單一SVM分類器模型的對比實驗,結果顯示本文構建的混合模型F1值達到了89.08%,比單一SVM分類器模型提升了22.58%,證明該模型對關鍵情感詞的識別有一定程度的提升,應用于辦公或項目管控場景,可以有效提升企業(yè)審計辦公智能化水平。
關鍵詞:機器學習;情緒識別;TF-IDF;SVM;LDA
引言
隨著互聯(lián)網(wǎng)技術及各個政府機構或企事業(yè)單位數(shù)字化建設的快速發(fā)展,各類文本信息數(shù)據(jù)呈爆發(fā)性增長,為進一步提高辦公文件審校效率,及時下發(fā)日常相關文件文書;進一步優(yōu)化項目資料規(guī)范化管理檢查流程,提升項目文檔審計效率,降低工作成本,防范項目審計風險,本文對TF-IDF(詞頻-逆文檔頻率)算法、LDA(隱狄利克雷)算法及SVM(支持向量機)算法進行融合,以句子為最小分析單元,以辦公文件敏感詞及項目建設負面清單關鍵字為情感詞典,計算整句情感詞得分,輸出整個文本內(nèi)容情感傾向性,深入開展智慧辦公和智能化管控場景應用,提升工作效率。
1.相關工作
現(xiàn)如今,對自然語言的文本數(shù)據(jù)分析已成為當下研究的熱點。單從文本分類而言,其指的是在人為規(guī)定好的分類標準下,根據(jù)文本自身含義對文本數(shù)據(jù)進行分類的過程。而文本情緒分析則是對文本內(nèi)容中的關鍵情感信息進行挖掘,并進一步分析處理,進行文本情緒識別的過程。通過對文本中的情感成分進行提取,分析出文本中的隱含情感,對文本的情緒、觀點和態(tài)度作出歸納判斷。
隨著機器學習模型在自然語言處理領域的不斷發(fā)展,對其模型的優(yōu)化也隨之引起了各類研究學者的關注。機器學習模型廣泛被分成監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習,其中應用最為廣泛的則是監(jiān)督學習模型,比如Pang等人對比了樸素貝葉斯、最大熵和SVM算法在多個特征集中的應用,得出了SVM相較于其它學習模型表現(xiàn)出了較高的優(yōu)勢。針對半監(jiān)督學習方面,文獻證明了圖形半監(jiān)督學習算法具有較優(yōu)性能。針對無監(jiān)督學習方面,文獻提出了一種基于非隨機初始化的無監(jiān)督學習模型,并在特征中采用文本統(tǒng)計分析算法進行擴展,獲得了較好效果?,F(xiàn)如今隨著對單一模型的研究日漸成熟,效果已然到達瓶頸期,開始有研究學者將目光轉移到混合學習模型領域,比如文獻構建出一種基于 SVM 和 CRF(條件隨機場算法)的情感分析系統(tǒng),輸出結果表現(xiàn)出了良好的反饋效果,證明多策略混合模型有著相對于單個模型的優(yōu)越性。
TF-IDF算法是一種針對關鍵詞的統(tǒng)計分析方法,具有簡單、可靠性高等特征,用于評估一個詞對一個文件集或者一個語料庫的重要程度,這類算法能有效減弱常用詞對關鍵詞的影響,提高關鍵詞與文本間的關聯(lián)性。LDA是一種監(jiān)督學習的降維技術,就是將數(shù)據(jù)在低維度上進行投影,投影后獲得類內(nèi)方差最小,類間方差最大的輸出。LDA既可以用來降維,又可以用來分類,并且它在降維過程中可以使用關鍵詞分類的先驗知識,這也符合本文多策略混合模型構建技術路線要求。因此通過以上研究及大量調(diào)研分析工作,本文確定了主要機器學習模型SVM,再使用TF-IDF及LDA(線性判別分析)進行特征空間優(yōu)化完善。
2.基于多策略混合的文本關鍵情感詞識別方法
2.1算法流程
為解決以上眾多困境,本文實驗方法及流程如圖1所示,首先通過文本去噪、基于同義詞詞林和互信息量的方法對已有的辦公文書敏感詞和項目負面清單關鍵詞情緒詞典進行進一步擴展;使用TF-IDF算法對文本數(shù)據(jù)中的關鍵詞計算權重值,并以此權重建立文本提取特征矩陣;采用線性SVM分類器對文本內(nèi)容進行關鍵情感詞分類,對每個句子有無關鍵詞進行判斷;其次,使用LDA算法對關鍵詞判斷進行細化分析,得到文本特征矩陣;最后使用非線性SVM對特征變量優(yōu)化映射,得到最終句子的關鍵詞傾向結果。
2.2數(shù)據(jù)預處理
本文分析的情感詞并非屬于廣泛理解的情感詞典,而是針對具體辦公或者項目管控情景下的關鍵詞,因此開展文本情緒分析前,需進行數(shù)據(jù)預處理,流程如圖2:
1)輸入a.初始文檔數(shù)據(jù):包含通報、通知、批示等辦公文書以及項目全過程資料;
b.辦公文件敏感詞:定密模型文件、公文敏感詞庫;
c.項目負面清單:項目負面清單庫;
2)文本去噪:對以上輸入數(shù)據(jù)去除語氣副詞、助詞等無用信息,提取基礎關鍵詞;
3)同義詞詞林:對基礎關鍵詞通過同義詞詞典找到關鍵詞的同義詞,從而擴展基礎關鍵詞詞典;
4)互信息量:對全文本文檔數(shù)據(jù)及關鍵詞詞典,借助網(wǎng)絡共享程序包(https://www.omegaxyz.com/2018/08/03/mifs/),進行文本數(shù)據(jù)與關鍵詞的互信息量計算,進一步擴展基礎關鍵詞詞典;
5)輸出本文所定于的關鍵情感詞詞典。
2.3 TF-IDF算法處理
TF-IDF算法是一種根據(jù)單詞在語料庫中出現(xiàn)頻次判斷其重要程度的統(tǒng)計方法,主要思想是先對詞頻(term frequency,TF) 進行統(tǒng)計,認為詞語出現(xiàn)次數(shù)越多,則文檔可能與該詞語有越多的正向關聯(lián)性,再通過逆文檔頻率(inverse document frequency,IDF) 減少常見詞的權重[8],計算公式為:
其中TFIDF表示詞頻TF和逆文檔頻率IDF的乘積,TFIDF值越大,對當前文本的重要性越大。本文利用TF-IDF算法,給關鍵情感詞賦予權重,進行特征提取,將關鍵情感詞轉化為詞頻向量,建立文本提取矩陣。
2.4線性SVM分析
SVM是一種用于分類的算法,分為線性可分和非線性可分,通俗理解所謂線性和非線性就是指能夠用一條直線直接劃分數(shù)據(jù)。
本文根據(jù)特征矩陣高維、稀疏特征,先采用線性SVM分類器對文本內(nèi)容進行關鍵情感詞分類,對每個句子有無關鍵詞進行判斷。
經(jīng)過LDA細化分析后,再采用非線性SVM分類器將低維變量映射到高維特征空間,在高維特征空間計算內(nèi)積,建立非線性分類器,實現(xiàn)文本關鍵情感詞的識別。
2.5 LDA細化分析
LDA算法的原理就是將帶上標簽的數(shù)據(jù)/點,通過投影到維度更低的空間中,促使投影后的點將會按類別區(qū)分,形成一簇一簇情形,最終相同類別的數(shù)據(jù)/點,將會在投影后的空間中更接近。
本文利用LDA算法對經(jīng)過線性SVM分類器處理后的帶有標簽的數(shù)據(jù)進行投影,將有無關鍵詞的句子區(qū)分更開;將有關鍵詞的句子按隱含關鍵情感詞進行進一步聚類,得到句子與隱含關鍵情感詞的對應概率矩陣,以此作為文本特征矩陣。
3.實驗
3.1實驗環(huán)境搭建
本文依托于企業(yè)智能化辦公項目,數(shù)據(jù)集均來自企業(yè)內(nèi)部文件及模型:
a)初始文檔數(shù)據(jù):包含企業(yè)2017-2021年發(fā)布的通報、通知、批示等辦公文書以及項目全過程資料,共計5899條;
b)辦公文件敏感詞:企業(yè)自有的定密模型文件、公文敏感詞庫;
c)項目負面清單:企業(yè)自有的項目負面清單庫。
實驗環(huán)境:i7-8700CPU/64,內(nèi)存/256G,固態(tài)/2T硬盤,RTX2080ti-11G顯卡的高性能工作站,運行操作系統(tǒng)為:Ubuntu18.04。
3.2實驗評估指標
模型效果優(yōu)劣廣泛采用精確率P、召回率R以及 F1 值 3 個標準作為實驗評估指標,值越高,則模型效果越好。
在本文中,精確率P又稱查準率,就是指預測為關鍵情感的文件條目中實際關鍵情感的文件條目占比。
召回率R又稱查全率,就是指實際關鍵情感的文件條目中被預測為關鍵情感的文件條目占比。
F1值,就是指精確率和召回率的加權調(diào)和平均值,是綜合性的評價指標。本文采用綜合評價指標F1值衡量模型的關鍵情感識別效果。公式為:
3.3實驗結果
使用數(shù)據(jù)預處理后的關鍵情感詞典及基礎數(shù)據(jù)作為訓練數(shù)據(jù),通過本文構建的多策略混合的文本關鍵情感識別模型進行訓練,再使用測試集合對模型進行多個方面的測試,模型關鍵情感傾向評估結果如表1(由于本文涉及企業(yè)內(nèi)部事項,這里選取部分關鍵情感詞進行結果展示):
由表1可知,此次模型測試測出的精確率、召回率以及F1值得均值分別達到了89.57%、88.61%以及89.08%。為進一步評估構建的混合模型優(yōu)越性,本文采取了對比分析法,利用單個傳統(tǒng)機器學習SVM分類器,同樣輸入數(shù)據(jù)預處理后的關鍵情感詞典及基礎數(shù)據(jù)作為訓練數(shù)據(jù)進行訓練,使用相同測試指標進行測試,測試結果如圖3:
由圖3可知,本文構建的混合模型比單個傳統(tǒng)機器學習模型精確率提升了23.58%、召回率提升了21.58%、F1值提升了22.58%,綜合性能大大提高。
綜上所述,本文構建的多策略混合文本關鍵情感詞識別模型整體性能優(yōu)于單一傳統(tǒng)機器學習模型,且具有良好的識別效果,應用于辦公或項目管控場景,可以有效提高工作效率,提升企業(yè)審計智能化水平。
4.結束語
為有效迎接企業(yè)數(shù)字化轉型新趨勢,解決企業(yè)審計或辦公人員面對海量數(shù)字化文檔工作效率低、重復工作等問題,本文在傳統(tǒng)機器學習SVM的基礎上,加入文本預處理、TF-IDF算法、LDA算法,構建出一套多策略混合的文本關鍵情感詞識別模型。通過模型測試及與單一SVM分類器模型的對比實驗,結果顯示本文構建的混合模型在性能上有了顯著的提高。
參考文獻:
[1]張膂.基于LPAL模型的超文本分析[J].微型電腦應用,2016,32(03):77-80.
[2]袁彬. 基于語義特征的文本分類算法研究[D].北京郵電大學,2016.
[3]焦桐. 面向微博文本的情緒內(nèi)容分類系統(tǒng)設計與實現(xiàn)[D].北京郵電大學,2018.
[4]Pang B .Thumbs up? sentiment classification using machine learning techniques[J]. Proc. EMNLP,2002,2002.
[5]Sindhwani P V . Document-Word Co-regularization for Semi-supervised Sentiment Analysis[J]. IEEE Computer Society,2008.
[6]AAS ,AFL ,B M P . Sentiment analysisAn automatic contextual analysis and ensemble clustering approach and comparison[J]. Data & Knowledge Engineering,2018,115:194-213.
[7]Ting-Ting L I ,Dong-Hong J I ,Computer S O ,et al. Sentiment analysis of micro-blog based on SVM and CRF using various combinations of features[J]. Application Research of Computers,2015.
[8]張蕾,姜宇,孫莉.一種改進型TF-IDF文本聚類方法[J].吉林大學學報(理學版),2021,59(05):1199-1204.
[9]顏端武,梅喜瑞,楊雄飛,朱鵬.基于主題模型和詞向量融合的微博文本主題聚類研究[J].現(xiàn)代情報,2021,41(10):67-74.
國家電網(wǎng)公司電力數(shù)據(jù)“口袋書”關鍵技術及產(chǎn)品設計研發(fā)科技項目基金支持。