高慧穎,公孟秋,于思佳
(北京理工大學 管理與經(jīng)濟學院,北京 100081)
隨著在線醫(yī)療平臺和網(wǎng)絡健康社區(qū)的發(fā)展,眾多在線的醫(yī)療評論語料成為知識的重要來源,許多學者對醫(yī)療評論語料展開了特征挖掘研究. 網(wǎng)絡在線評論特征挖掘是指從大量的在線用戶評論中自動地獲取其關注的重要對象特征,挖掘方法主要分為有監(jiān)督、半監(jiān)督和無監(jiān)督學習算法. 基于無監(jiān)督學習算法的特征挖掘是利用算法自動識別評論文本特征,再進行篩選的過程,此方法不需要人工標注,省時省力且效率較高,其應用較為廣泛的算法代表是主題模型. BLEI 等[1]提出利用LDA 主題模型進行主題特征提??;佘維軍等[2]基于句法分析結(jié)合LDA 進行特征挖掘;PEROTTE[3]提出了自動決定層次主題數(shù)的LDA 模型;在醫(yī)療領域,HAO 等[4]使用LDA 主題模型對在線醫(yī)療評論進行挖掘以了解中國健康消費者的看法;高慧穎等[5]基于詞共現(xiàn)分析改進LDA 模型進行醫(yī)療評論主題特征的挖掘;WU 等[6]考慮到從用戶文本轉(zhuǎn)換而來的向量空間模型的高維性,提出了一種基于LDA 的新方法挖掘在線健康社區(qū)的主題特征;YAN 等[7]為了解決短文本稀疏的問題,提出了BTM 主題模型.
雖然評論挖掘中基于無監(jiān)督學習的特征提取自動化程度高且更為客觀,但由于特征的挖掘有較強的領域針對性,且醫(yī)療評論文本存在其特殊性,如評論長度較短、規(guī)范性較差、語義較稀疏等,因此在主題挖掘方法上需要更多的探索. 針對在線醫(yī)療評論文本的特點,提出一種改進的BTM 模型進行醫(yī)療評論主題挖掘,提高主題挖掘的質(zhì)量,并結(jié)合服務質(zhì)量SERVQUAL 模型的五性,在前人研究的基礎上,更全面地識別醫(yī)療服務質(zhì)量影響因素.
患者在網(wǎng)絡平臺中發(fā)表的醫(yī)療評論,往往以短文本的形式呈現(xiàn). 針對短文本的挖掘,目前已有學者研究出專門處理短文本的主題模型,如BTM 主題模型. BTM 模型通過整個語料庫建立BTM 語料庫,不是利用簡單的詞頻進行建模,而是挖掘短文本深層的語義關系. BTM 主題模型與傳統(tǒng)主題模型的代表LDA 主題模型不同的地方在于,它是通過將文本中的詞語排列組合成詞對進行訓練,擴展了訓練的詞語數(shù)量,如原評論包含{醫(yī)生}、{態(tài)度}、{非常}、{和藹}四個單詞,BTM 會首先抽取Biterm 詞對,構(gòu)造{醫(yī)生,態(tài)度}、{醫(yī)生,非常}、{醫(yī)生,和藹}、{態(tài)度,非常}、{態(tài)度,和藹}、{非常,和藹}六個詞對來參與訓練.
然而由于未考慮語義相關性,BTM 主題模型仍存在一些不足之處,它往往假設出現(xiàn)在同一條評論的詞對中的兩個詞語具有一定的相關性,但是并未考慮詞對語義相關性大小對主題特征挖掘效果的影響,如有些詞對雖然在一條評論中出現(xiàn),但共現(xiàn)信息差,語義相關性較小,將這些相關性較小的詞對導入訓練,可能會導致挖掘出來的主題質(zhì)量并不理想. 由于醫(yī)療評論短文本包含的詞語數(shù)量較少,語義比較稀疏和分散,直接將傳統(tǒng)的主題模型應用到短文本中,會面臨主題特征單詞共現(xiàn)信息少,無豐富的上下文等問題,使得文本特征高維稀疏,難以有效提取短文本的信息,導致無法挖掘出理想的醫(yī)療服務質(zhì)量影響因素. 因此,本文基于這個問題,改進BTM 主題模型中詞對的篩選方式,利用詞共現(xiàn)分析方法計算詞對的語義相關性,使其更適用于在線醫(yī)療評論短文本挖掘.
已有的國內(nèi)醫(yī)療服務質(zhì)量影響因素的識別大多依靠文獻資料和臨床指標,忽略了在線醫(yī)療評論中患者的真實感受. 一些學者針對在線醫(yī)療評論提出一種基于特征加權(quán)詞向量的在線醫(yī)療評論情感分析方法[8],取得了一定的成果. 一些學者研究了中文文本及短文本特征提取的方法,例如基于主題和預防模型進行主題特征提取[9]、利用BTM 模型進行文本挖掘,然而由于醫(yī)療評論長度短,同一評論中的詞量少且相關性不一定高,所以單純采用以上方法無法得到理想效果.
根據(jù)在線醫(yī)療評論長度短、語義稀疏的特點,提出一種基于詞共現(xiàn)分析的雙詞主題模型(co-occurrence analysis biterm topic model,COA-BTM). 研究方法如圖1 所示,具體分為3 個步驟:①爬取在線醫(yī)療評論,通過篩選、分詞、去停用詞等預處理建立規(guī)范的醫(yī)療評論語料庫. ②將規(guī)范的評論語料庫中的文本詞語進行兩兩組合,生成詞對,利用詞共現(xiàn)分析計算共現(xiàn)詞對之間的相關性,通過設置共現(xiàn)閾值,篩選參與訓練的詞對. ③設置參數(shù)并進行吉布斯采樣,更新每個詞對所對應的主題,重復操作直到吉布斯采樣收斂.
圖1 基于COA-BTM 模型的在線醫(yī)療評論主題挖掘方法Fig. 1 Topic mining method of online medical reviews based on COA-BTM model
在BTM 主題模型詞對的選擇過程中,引入詞共現(xiàn)分析計算語義相關性,通過設定閾值,篩選參與訓練的詞對,最終提高生成的主題質(zhì)量,COA-BTM 算法模型圖如圖2 所示.
圖2 COA-BTM 算法模型圖Fig. 2 COA-BTM algorithm model diagram
圖2 中各個參數(shù)的含義分別是:NB是規(guī)范語料庫中詞對的集合,集合中包含文本中詞語排列組合得到的所有詞對(wi,wj),wi、wj是一組詞對中的兩個詞 語,z表示 詞對的主題,k表 示主題的維 度, θ 和 ?為文檔主題和主題詞語的分布, α 和 β為 參數(shù), ω為詞語共現(xiàn)閾值. 所提出的COA-BTM 算法具體的步驟如下.
步驟1 生成詞對. 首先獲取規(guī)范評論語料庫中的文檔,將每條文本中的詞語進行兩兩組合,生成Biterm 詞對(wi,wj),得到初始文檔-詞對列表.
步驟2 基于詞共現(xiàn)分析篩選詞對. 提取評論詞匯表,計算共現(xiàn)詞對之間的相關性,通過設置共現(xiàn)閾值ε,篩選掉語義相關性較低的詞對,得到篩選后的文檔-詞對列表.
利用點互信息(pointwise mutual information,PMI)來判斷詞對中兩個詞語的語義相關性,統(tǒng)計兩詞在文本中同時出現(xiàn)的概率,越大表示詞語的語義相關性越大. 計算公式如(1)所示,其中p(w1,w2)代表詞語w1和w2共同出現(xiàn)的概率,p(w1)和p(w2)分別表示詞語w1和w2單獨出現(xiàn)的概率;為了判斷詞語共現(xiàn)的質(zhì)量,選擇歸一化互信息(normalized pointwise mutual information, NPMI)來篩選詞對,公式如(2)所示.
步驟3 參數(shù)設置. 在吉布斯采樣之前,需要設置參數(shù),根據(jù)經(jīng)驗值設置參數(shù) α 和 β,利用困惑度Pp確定主題數(shù)k,如公式(3)所示,它表明預測的不確定度,該值越小表示性能越好,但主題過多可能會導致過擬合.
評價主題挖掘效果的兩個常用標準是主題一致性(topic coherence,TC)和JS 散度(Jensen-Shannon divergence). 主題一致性是通過測量主題中出現(xiàn)頻率高的詞語之間的語義相關度來衡量主題好壞,在之前的研究中,主題詞分布的差異性通常采用KL 距離(Kullback-Leibler divergence) 來度量. 由于KL 距離是不對稱的,而通常兩個主題詞具有語義相關性,因此采用具有對稱性的JS 散度[10].
TC 值反映的是主題內(nèi)的一致性即內(nèi)聚程度,能夠很好地應用于主題模型的主題內(nèi)聚效果的對比,公式如(7)所示.
從公式(7)可以看出,主題中的一個詞語和其他詞語在文檔集合中共現(xiàn)次數(shù)越多,且這個詞在文檔集合中出現(xiàn)的次數(shù)越少,主題一致性就越大. TC 值一般小于0,TC 值越高主題的內(nèi)聚程度就越大.
JS 散度體現(xiàn)的是主題之間的差異性即離散程度.JS 散度越大則主題間的差距越大,主題的質(zhì)量越高,公式如(8)所示.
目前國內(nèi)具有豐富的醫(yī)療評論信息網(wǎng)站,其中,大眾點評網(wǎng)(http://www.dianping.com)是中國知名的第三方綜合服務評價網(wǎng)站,醫(yī)療服務作為服務的一種,人們也常在大眾點評網(wǎng)發(fā)表醫(yī)療服務的相關評論. 相比于一些在線醫(yī)療評論網(wǎng)站只針對醫(yī)生進行評價的特點,用戶在大眾點評網(wǎng)可以針對不同醫(yī)療機構(gòu)做出評價,尤其是大眾點評網(wǎng)可以定位到不同的城市,且針對不同城市的三甲醫(yī)院,均有用戶發(fā)表一定數(shù)量的評論. 因此利用Python 爬取大眾點評網(wǎng)上北京地區(qū)和西部地區(qū)所有省份(或直轄市)的在線醫(yī)療評論,獲取總計31 399 條在線評論信息,隨機抽取22 000 條評論作為原始評論語料庫. 利用Python 程序進行評論文本預處理后得到最終的規(guī)范語料庫,共18 904 條在線醫(yī)療評論文本.
3.2.1 詞對語義相關性計算
STUDHOLME[11]等提出基于歸一化互信息的方法,彌補了互信息方法的不足. 歸一化互信息可以有效平滑配準函數(shù),提高配準精度,較傳統(tǒng)的互信息具有更強的魯棒性,因此本文采用歸一化互信息作為相似性測度. 從規(guī)范評論語料庫中隨機抽取10 000 條評論數(shù)據(jù)進行實驗,獲取所有詞對后,計算詞對中兩個詞語的歸一化互信息NPMI,來衡量詞語間的語義相關性,表1 為通過計算NPMI 得到的部分詞語間的語義相關性.
表1 部分詞語間的語義相關性Tab. 1 Semantic correlation between some words
從表1 可以看出,詞對中的兩個詞語經(jīng)常在一起出現(xiàn)時,會得到較高的語義相關性,如“{核酸,檢測}”這一詞對. 從結(jié)果看,利用詞共現(xiàn)計算出的語義相關性和人們的主觀認知基本相同.
3.2.2 閾值選取
主題一致性不僅取決于COA-BTM 主題模型算法本身,還取決于閾值 ε的選擇. 通過選取不同的閾值 ε來對模型進行對比驗證,選取最好的TC 值對應的閾值 ε. 根據(jù)計算所得的語義相關性的范圍,分別選取閾值 ε為0.1、0.2、0.3、0.4、0.5,選取語義相關性大于閾值 ε的詞對. 參考經(jīng)驗值[12]將參數(shù) α設置為50/k, β設置為0.01. 分別設置主題數(shù)k為5、10、15、20,取3 次實驗的平均值,得到的主題一致性結(jié)果如圖3 所示.
圖3 不同閾值的主題一致性Fig. 3 Topic consistency for different thresholds
根據(jù)圖3 中的數(shù)據(jù)和折線走勢可以看出,當閾值 ε=0.2 時,主題一致性最高,而當閾值繼續(xù)上升時,由于醫(yī)療評論短文本中的詞語數(shù)量較少,內(nèi)容比較稀疏,對其進行詞共現(xiàn)分析時不會存在很多的雙詞,且對于大部分評論,并不會存在語義相關性特別高的詞對,造成采樣時詞對更加稀疏,不能得到更高的主題一致性. 而當閾值設置得過小時,雖然詞對數(shù)量相對較多,但詞對間的語義相關性不大,也不能獲得良好的挖掘效果. 通過分析發(fā)現(xiàn),雖然主題數(shù)量的選取不同,但是閾值ε=0.2 時取得的主題一致性都是最高的,因此選取閾值ε=0.2 來進行詞對的篩選.
3.2.3 基于COA-BTM 模型的醫(yī)療評論主題挖掘
為了驗證本文提出的COA-BTM 主題模型算法對在線醫(yī)療評論文本挖掘的有效性,將本算法與LDA 和BTM 主題模型進行對比. 將參數(shù)統(tǒng)一設定,并利用主題一致性和JS 散度來驗證主題挖掘效果.首先將參數(shù)統(tǒng)一設定為 α=50/k, β=0.01,迭代次數(shù)為1 000 次. 然后分別設置主題數(shù)為5、10、15、20、25,對于COA-BTM 模型,參考3.2.2 節(jié)的實驗結(jié)果,設置閾值 ε=0.2 來篩選語義相關性大于閾值的詞對,實驗結(jié)果如表2 所示.
表2 不同主題模型實驗結(jié)果Tab. 2 Experimental results of different subject models
從COA-BTM、LDA、BTM 三種主題模型的實驗結(jié)果來看,所提出的COA-BTM 主題模型算法在醫(yī)療評論文本上具有更高的主題一致性和JS 散度. 且在不同的主題數(shù)下, COA-BTM 主題模型相較于LDA 和BTM 主題模型均具有更高的主題一致性和JS 散度,說明了COA-BTM 主題模型挖掘結(jié)果的主題內(nèi)聚性更高,主題間離散性更大. 因此COA-BTM主題模型在醫(yī)療評論挖掘中具有更好的效果,因此對在線醫(yī)療評論文本有良好的適用性,證明了此算法的有效性.
3.2.4 醫(yī)療評論主題挖掘
基于3.2.3 節(jié)得知,模型中不同主題數(shù)得到的結(jié)果的主題一致性和JS 散度不同,因此主題數(shù)k直接影響主題挖掘結(jié)果的質(zhì)量. 使用困惑度來確定最優(yōu)主 題 數(shù)k值,分 別 選 取 主 題 數(shù) 為 5、10、······、150,困惑度計算結(jié)果如圖4 所示.
圖4 不同主題數(shù)下的COA-BTM 模型困惑度Fig. 4 Confusion degree of coa-btm model under different subject numbers
由圖4 可以得知,困惑度與主題數(shù)量呈反向趨勢,且隨著主題數(shù)增大,困惑度下降的速率逐漸變慢,主題數(shù)再增加時不會有明顯的改善效果,而且會提高模型的復雜程度,可能會導致過擬合. 綜合考慮,困惑度在主題數(shù)為150 時逐漸趨于平穩(wěn),且此時的時間空間成本不會太大,為了防止出現(xiàn)過擬合現(xiàn)象,本文選擇主題數(shù)k=150. 并且選取每個主題中主題-詞分布排名前10 的詞語作為特征描述詞,此時主題具有較強的可讀性. 同時根據(jù)上一節(jié)的經(jīng)驗,設置參數(shù) α=50/k, β=0.01,使 用COA-BTM 主 題 模型 對 規(guī)范評論語料庫進行主題特征挖掘,部分主題特征示例如表3 所示.
表3 部分主題特征示例Tab. 3 Examples of some topic features
基于改進的BTM 模型進行醫(yī)療評論主題挖掘,可以提高主題挖掘的質(zhì)量. 在此基礎上將結(jié)合SERVQUAL 模型的五性,識別醫(yī)療服務質(zhì)量影響因素.
國內(nèi)外醫(yī)療服務質(zhì)量影響因素相關研究表明在線評論體現(xiàn)了患者的真實就醫(yī)體驗,包含大量有關醫(yī)療服務質(zhì)量的信息,直接體現(xiàn)了患者的需求. 張琪運用Probit 對醫(yī)療服務質(zhì)量影響因素研究得出就醫(yī)體驗類指標,如醫(yī)生給予尊重等對醫(yī)療服務質(zhì)量影響顯著[13]. 毛瑛通過患者感知的中介效應分析得出,就醫(yī)流程、醫(yī)生技術水平等因素對醫(yī)療服務質(zhì)量具有顯著影響[14]. 基于上述的在線醫(yī)療評論主題挖掘結(jié)果,結(jié)合服務質(zhì)量SERVQUAL 模型五性的定義及組成進行醫(yī)療服務質(zhì)量影響因素識別,識別流程如圖5 所示.
圖5 醫(yī)療服務質(zhì)量影響因素識別流程圖Fig. 5 Construction flow chart of influencing factor model of medical service quality
3.3.1 關鍵特征詞組選取
SERVQUAL 模型是常用服務質(zhì)量模型之一.SERVQUAL 為英文“Service Quality”(服務質(zhì)量)的縮寫[15],包括有形性、可靠性、響應性、保證性和移情性五個維度,每一維度又包含多個問題. 根據(jù)SERVQUAL 模型的各維度定義及組成問題篩選維度關鍵特征詞,同時對上一節(jié)得到的主題特征集進行特征詞頻統(tǒng)計,根據(jù)各維度的定義人工選取符合各維度的高頻詞,從而根據(jù)五性關鍵特征對主題詞進行分組,由這兩部分組成各維度的關鍵特征詞組.
以“有形性”維度為例,展示關鍵特征詞選取的過程. SERVQUAL 模型的有形性指服務過程中的有形部分,包括現(xiàn)代化的設備等. 首先從SERVQUAL模型的有形性維度定義和組成問題中抽取關鍵特征詞,如“設備”、“設施”、“穿著”、“服裝”、“外觀”,然后從主題特征集高頻詞中抽取符合有形性定義的關鍵特征詞,如“科室”、“機器”、“窗口”、“病房”、“床位”等,由這兩部分的關鍵特征詞取并集組成有形性維度的關鍵特征詞組,其他維度以同樣的步驟選取關鍵特征詞組. 最終得到的五性關鍵特征詞組如表4 所示.
表4 五性關鍵特征詞組Tab. 4 Five key characteristic phrases
3.3.2 醫(yī)療服務質(zhì)量因素識別結(jié)果分析
本文基于文本挖掘的結(jié)果和SERVQUAL 模型,以及上一小節(jié)得到的五性關鍵特征詞組,依據(jù)醫(yī)療領域相關特征,識別并總結(jié)得到五性維度下的42 個醫(yī)療服務質(zhì)量影響因素. 為了驗證所識別的醫(yī)療服務質(zhì)量影響因素的有效性和全面性,查閱相關的文獻資料,分析以往的文獻中學者提出的醫(yī)療服務質(zhì)量影響因素. 例如,林金雄等[16]提出病房情況屬于有形性中的影響因素,羅海波等[17]提出就診等候時間屬于響應性中的影響因素,張慧等[18]、范關榮等[19]、馬勇[20]提出治療效果屬于保證性中的影響因素,具體如表5 所示.以三甲醫(yī)院為代表,本文基于文本挖掘和SERVQUAL 模型識別的醫(yī)療服務質(zhì)量影響因素如圖6所示.
表5 醫(yī)療服務質(zhì)量影響因素文獻分析Tab. 5 Literature analysis on influencing factors of medical service quality
圖6 三甲醫(yī)院醫(yī)療服務質(zhì)量影響因素Fig. 6 Influencing factors model of medical service quality in third class hospitals
將表5 文獻資料中已有的醫(yī)療服務質(zhì)量影響因素與圖6 中因素進行對比發(fā)現(xiàn),基于改進BTM 模型進行在線醫(yī)療評論挖掘得到的結(jié)果包含文獻中不存在的醫(yī)療服務質(zhì)量影響因素,包括“醫(yī)院位置”、“停車設施”、“窗口分布”、“履行承諾”、“口碑聲望”、“診療記錄”、“醫(yī)生職稱”、“掛號自助程度”、“預約平臺”、“號源情況”、“藥品種類”、“支付渠道”、“共情能力”和“服務周到”,說明利用本文提出的主題模型算法挖掘得到的醫(yī)療服務質(zhì)量影響因素,具有一定的可靠性和創(chuàng)新性.
根據(jù)在線醫(yī)療評論長度短、語義稀疏的特點,本文利用詞共現(xiàn)分析方法計算詞對的語義相關性,設置閾值改進BTM 模型中詞對的篩選方式,提出基于詞共現(xiàn)分析的COA-BTM 主題模型,該算法在醫(yī)療評論文本上的挖掘結(jié)果相比LDA 主題模型和BTM主題模型具有更高的主題一致性和JS 散度,驗證了此方法在醫(yī)療評論文本挖掘上的有效性和適用性,提高了在線醫(yī)療評論主題挖掘的質(zhì)量. 基于主題挖掘的結(jié)果,并參考SERVQUAL 模型的五性,通過關鍵特征詞組選取等過程,識別了三甲醫(yī)院醫(yī)療服務質(zhì)量的影響因素. 本研究依然存在一些有待改進之處,后期實驗可以針對多個平臺的醫(yī)療評論文本展開研究,并可進一步分析患者對醫(yī)療服務質(zhì)量的滿意度.