鄭森 ZHENG Sen;齊曉軒 QI Xiao-xuan;柳億霖 LIU Yi-lin
(①沈陽大學機械工程學院,沈陽 110000;②沈陽大學應用技術學院,沈陽 110000)
情感分類是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[1]。隨著互聯(lián)網(wǎng)技術的普及,越來越多的用戶會在網(wǎng)絡平臺上發(fā)表帶有主觀情感的評論,對用戶情感以及需求的分類成為網(wǎng)絡平臺重點關注的技術之一。情感分類是對文本作者傾向性觀點、態(tài)度的劃分,所以又被稱為觀點分析、傾向性分析等。其目的是根據(jù)文本所表達的含義和情感信息將文本劃分為積極或消極的兩種或多種類別,機器學習是目前解決情感分類問題的主流方法[2]。現(xiàn)實中收集到的情感數(shù)據(jù)往往存在數(shù)據(jù)不平衡問題,即不同類別的樣本數(shù)量相差較大。在面對不平衡數(shù)據(jù)集時,傳統(tǒng)分類方法為了確保整體分類性能最佳,往往會將少數(shù)類樣本錯分為多數(shù)類[3]。
SMOTE 算法[4]通過合成新樣本的方式使得數(shù)據(jù)集達到平衡。但該方法未對少數(shù)類樣本進行區(qū)分,導致合成樣本質(zhì)量不佳,造成數(shù)據(jù)冗余。針對SMOTE 算法存在的問題,本文提出一種基于邊界度的過采樣方法(BDSMOTE)。將BD-SMOTE 算法與SVM 分類器相結合,解決了不平衡情感數(shù)據(jù)分類問題,驗證了該算法的有效性。
目前解決情感分類問題主要通過機器學習或深度學習的方法。陳璐[5]采用KNN 和SVM 對公司年報文本進行分類,驗證了年報舞弊行為在文本語義分布的差異化。Xue[6]等用LDA 主題模型實現(xiàn)了對2200 萬條Twitter 信息中與新冠肺炎相關的主題及情感的識別。孫鐵錚[7]等構建了CNN、RCNN、FastText 和Transform 四種深度學習模型,通過實驗證明了深度學習對問政文本具有較為理想的適用性。許浪[8]等提出了一種基于BERT、CNN 和BiLSTM 的醫(yī)學文本分類模型CMNN,實現(xiàn)了網(wǎng)絡問診平臺的自動準確科室推薦。
文本為非結構化數(shù)據(jù),需要事先將文本轉化為數(shù)值形式才能被計算機所處理。本文使用空間向量模型來表示文本:
其中,v 代表一段文本的向量,fi代表文本的第i 個特征屬性,n 代表向量緯度,即字典長度。
TF-IDF 又稱為詞頻-逆文檔頻率,是信息檢索領域中常用的一種文本表示方法,用以評估詞對文本的重要性。TF-IDF 認為一個詞的重要程度與它在文檔中出現(xiàn)的次數(shù)成正比,與它在語料庫中出現(xiàn)的頻率成反比。因此,TFIDF 可以很好的實現(xiàn)提取文檔中關鍵詞的目的,避免了緯度災難。本文使用TF-IDF 對情感數(shù)據(jù)集進行文本向量化處理。
BD-SMOTE 算法的具體流程主要由三部分組成:首先,根據(jù)少數(shù)類樣本xi的多數(shù)類最近鄰和少數(shù)類最近鄰計算xi的邊界度;其次,根據(jù)邊界度計算每一個少數(shù)類樣本的采樣權重;最后,根據(jù)權重自適應確定每一個少數(shù)類樣本需要生成新樣本的數(shù)量。
考慮位于分類邊界附近的樣本會攜帶更多信息,本文通過計算每個少數(shù)類樣本的邊界度來確定少數(shù)類樣本在不平衡數(shù)據(jù)集中的分布。在后續(xù)過采樣過程中,使靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高新樣本質(zhì)量。
給定一個不平衡數(shù)據(jù)集,如圖1 所示,其中白色圓形為少數(shù)類樣本,灰色圓形為多數(shù)類樣本。對于每一個少數(shù)類樣本xi,計算xi與最近的少數(shù)類樣本間的歐式距離dist(xi,xmin)。以xi為圓心,以dist(xi,xmin)為半徑形成的超球體稱為xi的N 鄰域,如圖1 中的白色圓盤所示;類似的,計算xi與最近的多數(shù)類樣本間的歐式距離dist(xi,xmaj)。以xi為圓心,以dist(xi,xmaj)為半徑形成的超球體稱為xi的J 鄰域,如圖1 中的灰色圓盤所示。N 鄰域與J 鄰域的并集稱為NJ 鄰域。
圖1 少數(shù)類樣本的鄰域
xi的NJ 鄰域內(nèi)的多數(shù)類和少數(shù)類樣本的數(shù)量可以反映xi在不平衡數(shù)據(jù)集中的分布。如果xi的NJ 鄰域內(nèi)少數(shù)類樣本數(shù)量遠大于多數(shù)類樣本,則xi為安全樣本,如圖1中的D 樣本;如果xi的NJ 鄰域內(nèi)多數(shù)類樣本數(shù)量遠大于少數(shù)類樣本,則xi為噪聲,如圖1 中的A 樣本;如果xi的NJ 鄰域內(nèi)少數(shù)類樣本數(shù)量和多數(shù)類樣本趨近相同,則xi為邊界樣本,如圖1 中的B 樣本和C 樣本?;谏鲜龇治?,提出以下定義用于確定少數(shù)類樣本xi在不平衡數(shù)據(jù)集中的分布:
定義1:邊界度:少數(shù)類樣本xi的邊界度(si)定義為xi的NJ 鄰域內(nèi)少數(shù)類和多數(shù)類樣本數(shù)量差值的平方:
其中,ai為NJ 鄰域內(nèi)少數(shù)類樣本的數(shù)量,bi為NJ 鄰域內(nèi)多數(shù)類樣本的數(shù)量。
針對SMTOE 算法未對少數(shù)類樣本進行區(qū)分性選擇,導致新生成樣本質(zhì)量不佳這一問題。本文提出了一種基于邊界度的過采樣方法,該方法根據(jù)少數(shù)類樣本的邊界度計算采樣權重。在后續(xù)過采樣過程中,通過權重自適應確定每一個少數(shù)類樣本需要生成新樣本的數(shù)量。
定義2:采樣權重:少數(shù)類樣本xi的采樣權重(Wi)定義為xi的邊界度的倒數(shù):
其中,si為少數(shù)類樣本的邊界度,A 為修正參數(shù),為了避免出現(xiàn)分母為0 的情況。
定義3:采樣倍率:少數(shù)類樣本xi的采樣倍率(gi)定義為Wi與多數(shù)類和少數(shù)類樣本數(shù)量差值的乘積:
其中,Wi為少數(shù)類樣本xi的采樣權重,G 為多數(shù)類和少數(shù)類樣本數(shù)量的差值。
在后續(xù)過采樣過程中,使用下式合成新樣本:
其中,xnew為新生成樣本,xi為種子樣本,xn為候選近鄰,rand(0,1)為0~1 的隨機數(shù)。
由式(3)可知,少數(shù)類樣本xi越靠近分類邊界,其邊界度越小,取倒數(shù)后式(3)的分子越大,那么xi的采樣權重也就越大;相反,少數(shù)類樣本xi越遠離分類邊界,其邊界度越大,取倒數(shù)后式(3)的分子越小,那么xi的采樣權重也就越小,因此,該算法不易受噪聲影響。BD-SMOTE 算法確定了每一個少數(shù)類樣本在不平衡數(shù)據(jù)集中的分布,并且不需要預定參數(shù)。在后續(xù)過采樣過程中,BD-SMOTE 算法使靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高了新樣本質(zhì)量,避免數(shù)據(jù)冗余。BD-SMOTE 算法的具體流程如算法1 所示。
為了驗證BD-SMOTE 算法處理非平衡情感數(shù)據(jù)集的有效性,實驗采用來自GitHub 的公開語料數(shù)據(jù)集Online-Shopping,語料包含書籍評論、電子產(chǎn)品評論、生活用品評論等,其中積極評論5000 條,消極評論2000 條,語料數(shù)據(jù)集部分樣本如表1 所示。
表1 不平衡語料數(shù)據(jù)集部分樣本
為了驗證BD-SMOTE 算法在處理非平衡情感數(shù)據(jù)時的性能,本文設計了5 種非平衡情感數(shù)據(jù)預處理與SVM分類器相結合的分類實驗。實驗1:原始不平衡數(shù)據(jù)集+SVM;實驗2:原始不平衡數(shù)據(jù)集+SMOTE+SVM;實驗3:原始不平衡數(shù)據(jù)集+Borderline-SMOTE+SVM;實驗4:原始不平衡數(shù)據(jù)集+BD-SMOTE+SVM;實驗5:原始不平衡數(shù)據(jù)集+SVM。非平衡情感數(shù)據(jù)選用Online-Shopping 語料數(shù)據(jù)集,其不平衡比率為2.5。使用二分類中常用的F1、G-mean和AUC 這3 個評價指標來評估分類效果。
由圖2 可知,經(jīng)過任何一種過采樣方法預處理后的Online-Shopping 數(shù)據(jù)集的評價指標均優(yōu)于原始數(shù)據(jù)集。所有過采樣方法中,表現(xiàn)最差的為ADASYN 算法,經(jīng)過分析得出原因,Online-Shopping 數(shù)據(jù)集中含有噪聲,而ADASYN 算法易受噪聲干擾;表現(xiàn)最好的為BD-SMOTE算法,證明了BD-SMOTE 算法解決非平衡情感數(shù)據(jù)分類問題的有效性。
圖2 非平衡情感數(shù)據(jù)分類實驗結果
本文提出了一種基于邊界度的過采樣方法??紤]位于分類邊界附近的少數(shù)類樣本會攜帶更多信息,選擇為靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高新樣本質(zhì)量,并且該算法受噪聲影響較小。實驗結果證明提出的BD-SMOTE 算法在處理多個不平衡數(shù)據(jù)集時,其效果優(yōu)于其他過采樣算法,并且將BD-SMOTE 算法應用于不平衡情感數(shù)據(jù)集時,有效提高了分類準確率。未來可嘗試將該算法應用到多類別的不平衡情感數(shù)據(jù)集當中,力求提升情感分類性能。