唐曉波 李津
(1.武漢大學(xué)信息資源研究中心,武漢 430072;2.武漢大學(xué)信息管理學(xué)院,武漢 430072)
隨著居民生活水平的提高,健康管理意識(shí)的增強(qiáng),以及互聯(lián)網(wǎng)的快速發(fā)展,人們通過(guò)網(wǎng)絡(luò)獲取健康信息的需求越來(lái)越大。據(jù)統(tǒng)計(jì),截至2016年12月,我國(guó)互聯(lián)網(wǎng)醫(yī)療用戶(hù)規(guī)模為1.95億人,大量用戶(hù)通過(guò)網(wǎng)絡(luò)平臺(tái)獲取醫(yī)療健康的相關(guān)服務(wù)[1]。對(duì)這些在線(xiàn)健康社區(qū)的信息進(jìn)行分析研究,發(fā)掘用戶(hù)的健康信息需求,可以提高社區(qū)健康信息服務(wù)的質(zhì)量,促進(jìn)網(wǎng)絡(luò)社區(qū)平臺(tái)的建設(shè)和發(fā)展?!吨袊?guó)心血管病報(bào)告》指出,2012年全國(guó)18歲及以上成人的高血壓患病率為25.2%,根據(jù)第六次全國(guó)人口普查數(shù)據(jù),測(cè)算中國(guó)高血壓患病人數(shù)約為2.7億人[2]。高血壓是目前最常見(jiàn)的慢性病,我國(guó)每年約200萬(wàn)人的死亡與高血壓有關(guān),該病已成為重要公共衛(wèi)生問(wèn)題[3]。本文選取在線(xiàn)健康社區(qū)中用戶(hù)的高血壓?jiǎn)柎馂槔?,利用文本挖掘方法?duì)其進(jìn)行聚類(lèi)分析,提取主題,通過(guò)對(duì)比不同時(shí)間段主題分布的變化,了解用戶(hù)需求的特征和變化趨勢(shì),為健康信息服務(wù)提供參考。
在線(xiàn)健康社區(qū)是一個(gè)包含信息、用戶(hù)和社區(qū)3個(gè)要素的復(fù)雜系統(tǒng)。信息是用戶(hù)在社區(qū)中反映自身需求、認(rèn)知和情感的記錄;用戶(hù)是在線(xiàn)健康社區(qū)的參與者,不斷地產(chǎn)生、搜索、獲取和使用健康信息;社區(qū)是為用戶(hù)提供線(xiàn)上信息交流的平臺(tái)[4]。研究者主要從信息、用戶(hù)和社區(qū)三個(gè)維度展開(kāi)對(duì)在線(xiàn)健康社區(qū)的研究。
從信息維度,研究者聚焦于在線(xiàn)健康社區(qū)中信息的主要內(nèi)容,對(duì)信息的主題和情感進(jìn)行研究,挖掘社區(qū)用戶(hù)的健康信息需求。Roberts等[5]對(duì)美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館和罕見(jiàn)病信息中心網(wǎng)站上的提問(wèn)信息進(jìn)行分析,得到病因、診斷、并發(fā)癥、臨床表現(xiàn)等共13個(gè)類(lèi)別的主題;鄧勝利等[6]以百度知道中高血壓提問(wèn)記錄作為研究對(duì)象,利用文本挖掘軟件分析發(fā)現(xiàn)用戶(hù)更關(guān)心日常疾病管理、疾病確診和治療,并希望在社區(qū)中獲得情感支持。從用戶(hù)維度,研究者主要探討在線(xiàn)健康社區(qū)中用戶(hù)健康信息的獲取、搜索和共享等行為。Wong等[7]調(diào)查發(fā)現(xiàn)在15歲以上的患者中,使用互聯(lián)網(wǎng)和搜索健康信息頻率與年齡呈反比,具社會(huì)經(jīng)濟(jì)優(yōu)勢(shì)的患者在網(wǎng)上獲取健康信息的可能性明顯高于弱勢(shì)群體,但是患者的性別、英語(yǔ)水平和地理位置不影響他們搜索健康信息;張克永等[8]構(gòu)建了網(wǎng)絡(luò)健康社區(qū)用戶(hù)知識(shí)共享的影響因素模型,調(diào)查發(fā)現(xiàn)自我效能、利他主義、社會(huì)信任等因素與用戶(hù)知識(shí)共享行為呈現(xiàn)顯著正相關(guān)。從社區(qū)維度,研究主要集中在社區(qū)的價(jià)值、運(yùn)行模式和發(fā)展現(xiàn)狀等方面。Lee等[9]發(fā)現(xiàn)在搜索健康信息時(shí),谷歌導(dǎo)航并不能滿(mǎn)足用戶(hù)的需求,解決社區(qū)網(wǎng)頁(yè)設(shè)計(jì)不足的問(wèn)題非常必要;楊化龍等[10]在分析薄荷網(wǎng)用戶(hù)的相關(guān)數(shù)據(jù)后,發(fā)現(xiàn)社區(qū)中用戶(hù)獲得的社會(huì)支持和個(gè)人目標(biāo)都對(duì)用戶(hù)的健康有積極影響,且對(duì)男性和女性用戶(hù)影響程度不同,建議在線(xiàn)健康社區(qū)的設(shè)計(jì)者對(duì)不同性別的用戶(hù)開(kāi)發(fā)不同的主頁(yè)和系統(tǒng)。
早期對(duì)在線(xiàn)健康社區(qū)信息需求的研究大多采用問(wèn)卷調(diào)查或者訪(fǎng)談的方式,以社區(qū)的用戶(hù)作為調(diào)查對(duì)象,統(tǒng)計(jì)他們?cè)谏鐓^(qū)中討論的熱點(diǎn)話(huà)題。Armstrong等[11]通過(guò)對(duì)糖尿病患者的訪(fǎng)談,了解他們?cè)谠诰€(xiàn)健康社區(qū)中討論的熱點(diǎn)話(huà)題。但這些方法經(jīng)常受到樣本數(shù)量的限制以及問(wèn)卷設(shè)計(jì)等因素的影響,導(dǎo)致結(jié)果具有一定的局限性,難以從整體上反映用戶(hù)的信息需求。隨著在線(xiàn)健康社區(qū)的快速發(fā)展,用戶(hù)在社區(qū)上發(fā)布大量信息,有些研究者開(kāi)始通過(guò)對(duì)這些信息文本進(jìn)行深入分析,以此來(lái)反映在線(xiàn)健康社區(qū)的用戶(hù)信息需求。最初研究者普遍采用基于統(tǒng)計(jì)分析和人工標(biāo)注的方法。Zhang[12]統(tǒng)計(jì)分析雅虎問(wèn)答社區(qū)的糖尿病患者的問(wèn)答記錄,發(fā)現(xiàn)了糖尿病患者關(guān)心的12類(lèi)健康主題;金碧漪等[13]選取Yahoo!Answers網(wǎng)站和Diabetic Connect論壇中糖尿病相關(guān)文本,采用人工編碼和文本處理等方法,得到8類(lèi)主題,對(duì)比兩種網(wǎng)絡(luò)社區(qū)的主題分布情況,大體趨于一致,但在診斷和檢查、社會(huì)生活主題上各有側(cè)重。郭海紅等[14]對(duì)尋醫(yī)問(wèn)藥網(wǎng)站的高血壓相關(guān)問(wèn)句進(jìn)行了人工標(biāo)注,得到包含診斷、治療、病情管理、流行病學(xué)、健康生活、擇醫(yī)及其他共7個(gè)一級(jí)主題類(lèi)目。
近年來(lái),隨著自然語(yǔ)言處理研究的快速發(fā)展,基于主題識(shí)別和文本挖掘的方法也逐漸應(yīng)用到在線(xiàn)健康社區(qū)信息需求分析的研究中。Chen[15]采用K-means方法對(duì)3個(gè)網(wǎng)絡(luò)健康社區(qū)的發(fā)帖文本進(jìn)行聚類(lèi)分析,發(fā)現(xiàn)不同社區(qū)熱點(diǎn)主題不同,同時(shí)也有如患者經(jīng)驗(yàn)、治療、藥物和身體管理等相同主題;呂英杰[16]采用EM聚類(lèi)方法對(duì)Medhelp網(wǎng)站的發(fā)帖進(jìn)行主題分析、成員角色分析和情感分析,最終定義了個(gè)人詳細(xì)介紹、情感支持、癥狀、檢查、并發(fā)癥、用藥和治療共7個(gè)熱點(diǎn)主題;李重陽(yáng)等[17]結(jié)合LDA和人工標(biāo)注方法,對(duì)百度知道的癌癥問(wèn)答進(jìn)行分析,發(fā)現(xiàn)用戶(hù)對(duì)癌癥信息的需求集中在基礎(chǔ)病理知識(shí)、疾病預(yù)防、診斷檢查、治療和其他共5個(gè)主題,且各個(gè)主題的關(guān)注隨時(shí)間變化而變化。
綜上所述,在線(xiàn)健康社區(qū)信息需求分析早期采用問(wèn)卷調(diào)查或訪(fǎng)談的方法,兩種方法會(huì)受到樣本數(shù)量等因素的影響,難以客觀(guān)全面地反映在線(xiàn)健康社區(qū)的熱點(diǎn)話(huà)題。以社區(qū)中實(shí)際發(fā)布的文本信息作為研究對(duì)象,數(shù)據(jù)更加真實(shí)可信,但依靠人工編碼的方式需要消耗大量的人力和時(shí)間成本,LDA方法在文本的語(yǔ)義層面也有欠缺。本文以在線(xiàn)健康網(wǎng)站中用戶(hù)提出的高血壓相關(guān)問(wèn)題以及醫(yī)生回答中的最佳答案作為研究對(duì)象,抽取并融合文本的詞語(yǔ)特征和詞權(quán)重特征,采用K-means++方法對(duì)文本聚類(lèi),提取關(guān)鍵詞識(shí)別主題并進(jìn)行分析。
本文研究方案如圖1所示,包括數(shù)據(jù)采集與預(yù)處理、特征抽取與融合、主題識(shí)別。
圖1 研究方案
本文利用python爬取在線(xiàn)健康社區(qū)中高血壓?jiǎn)柎鹞谋?、高血壓常用藥品名稱(chēng)及高血壓相關(guān)文章,搜集常見(jiàn)疾病名稱(chēng)、癥狀、體征和臨床表現(xiàn)等。所有相關(guān)文本作為語(yǔ)料庫(kù)訓(xùn)練詞向量,同時(shí)高血壓常用藥品數(shù)據(jù)用于構(gòu)建常用藥品詞典,疾病名稱(chēng)、癥狀、體征和臨床表現(xiàn)用于構(gòu)建疾病相關(guān)詞典。利用jieba對(duì)文本進(jìn)行預(yù)處理(包括分詞和去停用詞),過(guò)程中使用了常用藥品詞典、疾病相關(guān)詞典和停用詞表。藥品詞典和疾病相關(guān)詞典用于句子分詞時(shí)藥品名和醫(yī)學(xué)專(zhuān)有詞不被劃分開(kāi),以保證藥品和醫(yī)學(xué)詞匯表達(dá)得完整;停用詞表則用于消除句子中沒(méi)有意義的詞,本文以哈爾濱工業(yè)大學(xué)中文停用詞表為基礎(chǔ)并作部分修改。
(1)詞語(yǔ)特征。最早由Hinton[18]提出將詞映射成多維向量,通過(guò)詞語(yǔ)向量間的余弦來(lái)判斷詞之間的距離。詞向量廣泛應(yīng)用于自然語(yǔ)言處理,它可以很好地表達(dá)詞語(yǔ)的語(yǔ)義以及詞之間存在的相似關(guān)系。本文使用Google發(fā)布的word2vec詞向量計(jì)算工具訓(xùn)練詞向量,選擇skip-gram模型,采用negative sampling訓(xùn)練算法,詞向量維度為200,訓(xùn)練窗口為5。
(2)詞權(quán)重特征。本文使用TF-IDF方法計(jì)算文本中詞語(yǔ)的權(quán)重,該方法主要思想是當(dāng)某個(gè)詞語(yǔ)在一篇文檔中出現(xiàn)的頻率高,且在其他文檔中很少出現(xiàn),則認(rèn)為該詞語(yǔ)具有很好的類(lèi)別區(qū)分能力[19]。其中,TF(Term Frequency)指詞頻,計(jì)算詞語(yǔ)在文檔中出現(xiàn)的頻率,見(jiàn)公式(1);IDF(Inverse Document Frequency)指逆向文件頻率,反應(yīng)詞語(yǔ)在所有文檔中出現(xiàn)的頻率,見(jiàn)公式(2);TF-IDF實(shí)際是指TF和IDF的乘積,見(jiàn)公式(3)。
公式(1)中,f(t,d)表示詞語(yǔ)t在文檔d中出現(xiàn)的次數(shù),∑kf(wk,d)表示文檔d中所有詞語(yǔ)出現(xiàn)的次數(shù)之和。公式(2)中,|D|表示文檔集中文檔的總個(gè)數(shù),|d∈D:t∈d|表示文檔集中包含詞語(yǔ)t的文檔數(shù)量,為避免分母為0的情況,一般使用1+|d∈D:t∈d|。
(3)特征融合。詞語(yǔ)特征揭示了詞間的語(yǔ)義關(guān)系,詞權(quán)重特征反映了詞語(yǔ)的重要程度,將文檔的詞語(yǔ)特征和詞權(quán)重特征采用特征相乘的方式進(jìn)行融合。文檔d的向量可由文檔中k個(gè)詞語(yǔ)的詞語(yǔ)特征和詞權(quán)重特征乘積之和表示,見(jiàn)公式(4)。
其中,tfidf(t,d)表示文檔d中詞語(yǔ)t的TF-IDF值,word2vec(t)表示詞語(yǔ)t的詞向量。
首先利用K-means++算法對(duì)問(wèn)答文本聚類(lèi),然后對(duì)每個(gè)類(lèi)別分別提取關(guān)鍵詞并擴(kuò)展關(guān)鍵詞,最后識(shí)別主題。K-means++算法是基于原始K-means算法,具體算法過(guò)程如下[20]。
通過(guò)文本聚類(lèi)后,每個(gè)文檔分配到距離最近的簇中,即對(duì)應(yīng)一個(gè)類(lèi)別;每個(gè)類(lèi)別包含多個(gè)文檔,即對(duì)應(yīng)一個(gè)文檔集。對(duì)于這些文檔集,我們無(wú)法直觀(guān)地看出每個(gè)類(lèi)別的主題。利用TF-IDF算法,計(jì)算多個(gè)文檔集中詞語(yǔ)的權(quán)重,選擇權(quán)重高的詞語(yǔ)作為該類(lèi)別的關(guān)鍵詞,然后利用詞向量余弦相似度對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展,最后基于關(guān)鍵詞識(shí)別主題。
本文利用python爬取39健康網(wǎng)站高血壓相關(guān)問(wèn)答對(duì)共14 507條、高血壓常用藥品439種、高血壓相關(guān)文章共42 396篇。搜集到39健康網(wǎng)站中主要科室的常見(jiàn)標(biāo)簽515個(gè),包含常見(jiàn)疾病名稱(chēng)和癥狀等。所有文本作為語(yǔ)料庫(kù)訓(xùn)練詞向量,同時(shí)高血壓常用藥品數(shù)據(jù)用于構(gòu)建常用藥品詞典,疾病名稱(chēng)和癥狀等數(shù)據(jù)用于構(gòu)建疾病相關(guān)詞典。39健康網(wǎng)站問(wèn)醫(yī)生專(zhuān)欄用戶(hù)以患者和醫(yī)生為主,由用戶(hù)提問(wèn),具有行醫(yī)資格的醫(yī)生在線(xiàn)回答。本文以健康網(wǎng)站的問(wèn)題和最佳答案作為研究對(duì)象,問(wèn)答文本部分示例見(jiàn)表1。
表1 高血壓?jiǎn)柎鹞谋臼纠?/p>
根據(jù)網(wǎng)站用戶(hù)發(fā)布問(wèn)題的時(shí)間,將2014—2018年問(wèn)答文本分為5組,數(shù)量分布如圖2所示,數(shù)據(jù)量總體呈逐年上升趨勢(shì)。
利用python中sklearn包對(duì)文本聚類(lèi),計(jì)算不同類(lèi)別個(gè)數(shù)的誤差平方和SSE,并據(jù)此確定聚類(lèi)個(gè)數(shù)6大類(lèi),每個(gè)大類(lèi)再分別重新計(jì)算SSE確定小類(lèi)共16個(gè),依據(jù)各個(gè)類(lèi)別提取出來(lái)的關(guān)鍵詞合并相似類(lèi)別,最終得到8個(gè)子類(lèi)目,4個(gè)主題,主題分布如表2和圖3所示。治療類(lèi)相關(guān)問(wèn)答記錄最多(36.28%),其次是并發(fā)癥(24.61%)和生活類(lèi)(23.89%),診斷類(lèi)最少(15.22%)。
圖2 問(wèn)答文本數(shù)量分布
診斷類(lèi)問(wèn)答文本最少,說(shuō)明用戶(hù)對(duì)高血壓的診斷標(biāo)準(zhǔn)比較熟悉,高血壓以收縮壓超過(guò)140毫米汞柱和舒張壓超過(guò)90毫米汞柱作為主要標(biāo)準(zhǔn),可能伴有頭暈嘔吐等臨床表現(xiàn)。治療類(lèi)問(wèn)答文本最多,高血壓治療以藥物治療為主,西藥問(wèn)答記錄遠(yuǎn)高于中藥,用戶(hù)對(duì)西藥的服用方法和副作用關(guān)注度較高,治療高血壓常用的西藥是硝苯地平和氨氯地平等,中藥以三七、天麻粉等作為輔助治療。用戶(hù)對(duì)高血壓的并發(fā)癥關(guān)注度較高,并發(fā)癥以心腦血管疾病、腎臟疾病和眼部疾病為主。高血壓是目前最常見(jiàn)的慢性病,疾病所帶來(lái)的并發(fā)癥嚴(yán)重影響患者的健康生活。網(wǎng)站上生活類(lèi)問(wèn)答文本也較多,說(shuō)明用戶(hù)日常生活中自我管理的意識(shí)較強(qiáng),在藥物治療的基礎(chǔ)上,通過(guò)清淡飲食、增強(qiáng)鍛煉和調(diào)整心態(tài)等方法控制高血壓。
表2 信息需求主題及其分布情況
2014—2018年,39健康網(wǎng)站用戶(hù)對(duì)高血壓健康信息的需求呈現(xiàn)一定的變化,見(jiàn)圖4。
圖3 信息需求主題分布
圖4 2014—2018年信息主題分布
診斷類(lèi)信息的需求呈現(xiàn)下降趨勢(shì),高血壓作為最常見(jiàn)的慢性病,已逐步被大眾所認(rèn)知和熟悉,用戶(hù)對(duì)高血壓的診斷標(biāo)準(zhǔn)更加了解。治療類(lèi)信息需求一直很高,但也有下降的趨勢(shì),與此同時(shí)生活類(lèi)信息需求呈現(xiàn)上升趨勢(shì)。目前高血壓的治療方法比較成熟和完善,需要患者長(zhǎng)期服藥控制和對(duì)自我生活的管理。隨著健康意識(shí)和知識(shí)的增強(qiáng),患者對(duì)高血壓的治療也有更全面和清晰的認(rèn)識(shí),在藥物治療的基礎(chǔ)上,保持健康的生活方式。關(guān)于高血壓并發(fā)癥類(lèi)的信息需求呈現(xiàn)上升趨勢(shì),高血壓并發(fā)癥對(duì)患者生活的影響日益明顯,用戶(hù)對(duì)并發(fā)癥的危害也越來(lái)越重視,并積極地學(xué)習(xí)相關(guān)知識(shí)。
在線(xiàn)健康社區(qū)用戶(hù)信息需求主題主要包括診斷、治療、并發(fā)癥和生活,其中治療的關(guān)注度最高。2014—2018年,用戶(hù)對(duì)診斷和治療的關(guān)注度有下降趨勢(shì),對(duì)并發(fā)癥和生活方式的關(guān)注度有上升趨勢(shì)。這說(shuō)明用戶(hù)對(duì)高血壓的基本知識(shí)有了一定的了解和掌握,更關(guān)心高血壓并發(fā)癥可能帶來(lái)的更嚴(yán)重傷害;同時(shí)在日常生活中注意健康飲食等自我管理和控制,健康意識(shí)在逐步提升。
本文采用文本挖掘技術(shù)對(duì)在線(xiàn)健康社區(qū)信息需求展開(kāi)了主題識(shí)別和分析,探討了其中的現(xiàn)象和原因,為在線(xiàn)健康社區(qū)信息服務(wù)提供參考。在之后的研究中,還可以從以下兩個(gè)方面進(jìn)行改進(jìn):①其他疾病的熱點(diǎn)主題與高血壓可能有差異,有待繼續(xù)研究;②采用更前沿的技術(shù)對(duì)文本做深層次、細(xì)粒度的挖掘和分析。