楊雪寒, 焦瑋, 張倩, 孟潔
(河北醫(yī)科大學(xué)第三醫(yī)院, 河北 石家莊 050051)
互聯(lián)網(wǎng)中許多社交平臺和評論社區(qū)為公眾提供了大量自由表達(dá)意見的平臺,這導(dǎo)致與醫(yī)院相關(guān)的公眾意見或評論的數(shù)據(jù)集十分龐大,通過研究這些公眾意見,可以分析公眾對醫(yī)患關(guān)系、醫(yī)療事故爭議等與醫(yī)院相關(guān)事件的主觀態(tài)度和情感取向,從而為取得輿論導(dǎo)向主動權(quán)提供科學(xué)的數(shù)據(jù)支撐[1-3]。因此,開展針對醫(yī)院輿論的文本挖掘和情感分析具有重要的現(xiàn)實意義。為此,本文提出了附加特征、奇異值分解(SVD)[4]和主成分分析(PCA)[5]的情感文本挖掘方法,實現(xiàn)提高分析準(zhǔn)確性并減少文本挖掘的時間,并基于詞干設(shè)計了五個具有不同功能的模塊實驗,以比較性能并探索哪些因素會影響性能分類精度。本研究的目標(biāo)如下:1)提出一種基于附加特征方法的情感文本挖掘方法,以提高情感評論大數(shù)據(jù)分析的分類準(zhǔn)確性;2)提出一種特征提取算法,以提高情感分類的準(zhǔn)確性;3)利用有效的SVD和PCA文本挖掘方法來減少數(shù)據(jù)維數(shù),提高情感分類效率。
情感分類的目標(biāo)是將文檔、文本或評論分類為已標(biāo)記的情感類別(例如正面、負(fù)面、快樂、悲傷等)。情感分類中最具挑戰(zhàn)性的工作是如何提高分類結(jié)果的準(zhǔn)確性。許多因素會影響分析,例如不同的數(shù)據(jù)預(yù)處理方法、情感分類(文檔或句子)的級別、所提取各種文本特征、特征詞典以及不同的機(jī)器學(xué)習(xí)方法。已有研究表明不同的特征選擇方法,例如詞語組合、雙字、詞性(POS)標(biāo)記[6]、帶有POS標(biāo)記的n-gram序列[7]和詞語頻率-反向文檔頻率(TF-IDF)[8]等,會導(dǎo)致情感分類結(jié)果的不同。為此,本文將實驗擴(kuò)展到其他特征上以提高準(zhǔn)確性,并結(jié)合SVD和PCA方法來減小特征維度、縮短文本分類的時間。此外,本研究利用詞干設(shè)計了五個具有不同功能的模塊實驗,以比較其性能并發(fā)現(xiàn)影響分類器準(zhǔn)確性的因素。
本研究所提出的情感文本挖掘方法的過程,如圖1所示。
首先,將收集的數(shù)據(jù)集用于情感分類;然后,采用R統(tǒng)計的標(biāo)記化,去除的停用詞和POS標(biāo)記的預(yù)處理步驟;隨后,定義和提取特征,包括TF-IDF、每個文檔的情感分?jǐn)?shù)、正負(fù)頻率以及形容詞和副詞的數(shù)量,之后,應(yīng)用分類算法訓(xùn)練和預(yù)測數(shù)據(jù);最后,評估分類結(jié)果。
圖1 情感文本分類方法
下面結(jié)合所收集的數(shù)據(jù)集對上述方法中五個主要步驟展開闡述以展示該方法的詳細(xì)過程。
步驟1,數(shù)據(jù)集收集。所搜集的一個數(shù)據(jù)集是基于使用Python程序從微博平臺中所爬取的數(shù)據(jù)組成了針對疫苗的用戶評論數(shù)據(jù)集。該數(shù)據(jù)集由WEB文檔組成,包括1 000條正面評論和1 000條負(fù)面評論。本研究使用Excel VBA(Microsoft)程序?qū)λ廊〉腤EB文檔進(jìn)行導(dǎo)入處理,形成帶有標(biāo)簽的Excel格式的情感文檔。
步驟2,數(shù)據(jù)預(yù)處理。通常從網(wǎng)絡(luò)收集的數(shù)據(jù)包含噪聲。在實施各種機(jī)器學(xué)習(xí)方法之前,始終需要通過以下五個步驟來處理所收集的數(shù)據(jù):標(biāo)記化、停用詞刪除、詞干與詞性標(biāo)記(POS標(biāo)記)、特征提取和表現(xiàn)[9-10]。標(biāo)記化的目的是刪除文本中的標(biāo)點符號。這些標(biāo)記對分類算法的準(zhǔn)確性沒有幫助。停用詞是在文章中經(jīng)常使用的詞,即“在”、“也”、“的”、“它”、“為”等。這些詞會降低分類結(jié)果的準(zhǔn)確性。詞干將單詞還原為詞根形式,而忽略單詞的POS。POS標(biāo)記是用于識別文本中單個文字的詞性不同部分的過程。由于爬取數(shù)據(jù)經(jīng)常涉及噪聲,因此需要進(jìn)行特征提取以幫助獲得相關(guān)信息。此步驟使用了兩個稱為RTextTools和openNLP的R語言包來處理POS[11]。特征提取將在下面詳細(xì)討論。除了特征提取之外,特征選擇也是影響分析結(jié)果重要的一步。
表1 特征說明
此步驟將所有文檔轉(zhuǎn)換為TF-IDF矩陣權(quán)重,同時讓正負(fù)頻率形成另一個特征集。接下來,利用POS標(biāo)記對形容詞和副詞的數(shù)量進(jìn)行計數(shù),并添加附加特征。TF-IDF參數(shù),如表2所示。特征提取算法,如表3所示。
步驟4,縮減TF-IDF矩陣維度。由于TF-IDF矩陣是具有許多零元素的大型稀疏矩陣,因此分析該矩陣需要耗費大量計算時間。因此,本研究采用SVD和PCA相結(jié)合的方法縮減矩陣維度。特征提取后,將預(yù)處理的矩陣用作SVD輸入。將SVD技術(shù)用于分解TF-IDF矩陣,使得接近零的值轉(zhuǎn)
表2 TF-IDF算法參數(shù)說明
表3 特征提取算法
換為零。然后,應(yīng)用PCA技術(shù)處理縮小后的矩陣,以進(jìn)一步縮小矩陣維度。PCA的輸出,如表4所示。
表4 PCA降維算法的輸出
以本研究從微博等社交平臺所收集的疫苗評論數(shù)據(jù)集為例,經(jīng)過降維處理后,TF-IDF矩陣維度從2 000×46 467縮減至2 000×2 000。
步驟5,應(yīng)用四個分類算法訓(xùn)練處理后的數(shù)據(jù)集以實現(xiàn)對文本的分類,對數(shù)據(jù)集進(jìn)行分類。所使用的四個分類算法包括樸素貝葉斯分類算法(NB)[12]、最大熵分類算法(ME)[13]、SVM[14]和隨機(jī)森林(RF)[15]分類算法。在本研究中,四個分類器的所有參數(shù)設(shè)置為默認(rèn)值,并使用10次隨機(jī)采樣和10倍交叉驗證來驗證準(zhǔn)確性。詳細(xì)說明和參數(shù)設(shè)置,如表5所示。
步驟6,準(zhǔn)確度評估分類算法的性能。使用分類混淆矩陣計算準(zhǔn)確度,如表6所示。
以對帶有正負(fù)標(biāo)簽的文檔級情感進(jìn)行分類。因為本研究所涉及的實驗數(shù)據(jù)集具有明顯的正面和負(fù)面情緒評論,所以本研究基于混淆矩陣使用來計算分類結(jié)果的準(zhǔn)確度,如式(1)。
(1)
基于提出的算法,本研究收集了針對疫苗的公眾評論數(shù)據(jù)集,并利用不同的實驗?zāi)K進(jìn)行了實驗,并將結(jié)果與列表方法進(jìn)行了比較。數(shù)據(jù)集從微博等社交平臺收集的評論文本。實驗數(shù)據(jù)集的詳細(xì)屬性,如表7所示。
對醫(yī)院來說,人才是立院之本、發(fā)展之基。齊魯醫(yī)院副院長陳玉國表示,通過三年住培,培養(yǎng)出了基本功扎實、達(dá)到主治醫(yī)師水平的臨床醫(yī)師,為醫(yī)院提供了真正“好用”的臨床醫(yī)師,縮短了用人單位與醫(yī)師的“磨合期”,充實與壯大了醫(yī)院醫(yī)療力量,為醫(yī)院的人才梯隊建設(shè)和學(xué)科發(fā)展提供了優(yōu)良儲備,也為醫(yī)療服務(wù)質(zhì)量提供了根本和長遠(yuǎn)保障?!白鳛槌袚?dān)住培任務(wù)的基地醫(yī)院,教學(xué)相長使其保有優(yōu)良的教學(xué)氛圍,提升醫(yī)院帶教醫(yī)師的能力水平,獲得可持續(xù)發(fā)展、追求卓越的強(qiáng)勁動力。”
基于TF-IDF的不同參數(shù)設(shè)置和是否進(jìn)行詞干提取,設(shè)計了五個實驗?zāi)K,并采用列表方法對實驗結(jié)果進(jìn)行比較,討論了哪些因素會影響分類算法的準(zhǔn)確性,如表8所示。
表5 分類算法的參數(shù)設(shè)置
表6 情感分類的混淆矩陣
表7 實驗數(shù)據(jù)集的屬性
表8 實驗?zāi)K
實驗在提出的算法的第2步和第3步之后,從特征集中一共提取了46 467個特征。為了測試不同設(shè)置的效果,將SVD和 PCA相結(jié)合方法與列出的方法進(jìn)行比較。實驗采用十次隨機(jī)采樣和十倍交叉測試方法以驗證算法性能,如表9、表10所示。
表9 不降維的實驗結(jié)果
表10 降維的實驗結(jié)果
如表9顯示,就五個分類算法的平均準(zhǔn)確性而言,所建議的具有附加特征的方法要比不具有附加特征的方法更好。在準(zhǔn)確性方面,SVM和最大熵分類算法優(yōu)于其他分類算法。表10顯示了在沒有詞干的情況下,模塊1和模塊4在縮小和不縮小矩陣大小之間的比較結(jié)果??傮w而言,在帶有和不帶有矩陣大小縮減的情況,所提出的具有附加特征的方法要比沒有附加特征的方法性能更好。在大多數(shù)設(shè)置中,SVM和最大熵分類算法更為準(zhǔn)確。
5個分類算法的總實現(xiàn)時間,在五個模塊中,除了模塊5以外,4個模塊可以減少運行時間。因此,為該方法中添加附加特征和矩陣降維是可行的,如表11所示。
表11 五個分類算法的運行時間
基于上述實驗結(jié)果可以發(fā)現(xiàn)。
1) 從表9可以看出,在特征提取方面,所提出的方法在模塊1和模塊4上表現(xiàn)最優(yōu)。模塊4在所有實驗中均獲得最高的準(zhǔn)確度,并且特征數(shù)量減少到9.4%(4 366/46 467否)。表11的數(shù)據(jù)表明,在本實驗中的詞干特征的分類效果不明顯。
2) 從表9和圖2可以看出,將附加特征組合到特征集中后,可以提高分類性能,尤其是使用帶有徑向基函數(shù)的SVM算法時。
3) 從表10可以看出,采用附加特征和SVD、PCA相結(jié)合的矩陣降維方法可以增強(qiáng)情感分類的性能。此外基于表11的數(shù)據(jù)可知,采用附加特征和SVD、PCA相結(jié)合的矩陣降維方法后算法的運行效率較好,因此該方法具有良好的可行性,如圖2所示。
圖2 附加特征對不同模塊的影響
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的普及,互聯(lián)網(wǎng)人口覆蓋率越來越高,互聯(lián)網(wǎng)已經(jīng)成為人們生活,工作和學(xué)習(xí)的不可或缺的組成部分。因此通過對網(wǎng)絡(luò)評論進(jìn)行情感分析,把握公眾對醫(yī)院焦點事件的心里態(tài)度和行動趨勢,對醫(yī)院相關(guān)部門了解輿論動態(tài)和政府相關(guān)部門控制輿論導(dǎo)向都具有現(xiàn)實意義。為此本研究提出了一種通過附加特征方法來提高網(wǎng)絡(luò)文本情感趨向分類準(zhǔn)確性,并采用SVD和PCA結(jié)合的方法則縮短情感文本挖掘中的實現(xiàn)時間。附加特征包括正面和負(fù)面形容詞和副詞的頻率。針對兩個實驗數(shù)據(jù)集的測試結(jié)果表明,所提出的方法比其他方法具有更高的精度,并且添加附加特征可以提高分類精度。此外,實驗數(shù)據(jù)表明,相對于本實驗中的其他算法,SVM和最大熵分類算法被證明是實現(xiàn)情感文本分類的更好選擇。將來,本研究從以下兩個方面繼續(xù)進(jìn)行深入探討:1)從使用特定于領(lǐng)域的詞典來查找或過濾特征、為特征分配不同的權(quán)重、考慮文字和文檔之間的關(guān)系三個方面優(yōu)化特征選擇,以提高分類準(zhǔn)確性;2)將該方法應(yīng)用于醫(yī)院聲譽監(jiān)控和患者情感檢測等不同的應(yīng)用領(lǐng)域。