,,
[作者單位]1.上海財(cái)經(jīng)大學(xué)信息管理與工程學(xué)院,上海 200433;2.上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院中醫(yī)科,上海 200092
大氣污染問題日益突出,對人類健康尤其是對呼吸系統(tǒng)的威脅越來越嚴(yán)重。鼻炎作為主要的呼吸道疾病之一,其全球發(fā)病率約為10%~25%;我國高發(fā)地區(qū)已達(dá)37.9%[1],且呈逐年上升趨勢。鼻炎發(fā)病率高、病程長、容易反復(fù)發(fā)作且難治愈,引起的鼻塞、頭痛、記憶力衰退、食欲不振、失眠、易疲倦等給患者工作、學(xué)習(xí)和生活都帶來了巨大影響。
隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)資源呈爆炸式增長。網(wǎng)絡(luò)中存在大量的文本數(shù)據(jù),傳統(tǒng)的信息檢索技術(shù)不能滿足用戶需求。文本挖掘作為數(shù)據(jù)挖掘的一個分支,從非結(jié)構(gòu)化或者半結(jié)構(gòu)化的文本中檢索信息,并將提取的知識呈現(xiàn)給用戶。近年來,文本挖掘技術(shù)在醫(yī)療健康領(lǐng)域的運(yùn)用逐漸成為研究熱點(diǎn)。
本文基于在線醫(yī)療網(wǎng)站的醫(yī)患互動信息和中國知網(wǎng)的文獻(xiàn)信息,采用文本挖掘技術(shù),發(fā)現(xiàn)鼻炎及其并發(fā)癥的常用中西藥、非藥物治療規(guī)律。
文本挖掘技術(shù)能抽取分散在文本數(shù)據(jù)中未被發(fā)現(xiàn)的、有價(jià)值的、能被用戶理解的知識,隨著自然語言處理技術(shù)的進(jìn)步,近年發(fā)展迅速。國外基于文本挖掘技術(shù)的醫(yī)學(xué)疾病研究應(yīng)用廣泛,但由于漢字分詞、數(shù)據(jù)來源的限制,現(xiàn)階段國內(nèi)并沒有普遍的研究與應(yīng)用。
隨著醫(yī)療信息文獻(xiàn)數(shù)據(jù)庫的建立和完善,目前很多國內(nèi)學(xué)者青睞基于文獻(xiàn)數(shù)據(jù)利用文本挖掘技術(shù)研究某種中藥成分(如玉屏風(fēng)散[2]、青風(fēng)藤[3]等)的用藥規(guī)律,研究某種病(如慢性腎臟疾病[4]、乙型肝炎[5]等)的中醫(yī)治療用藥規(guī)律,以及對中藥的病證方藥相應(yīng)規(guī)律[6]等的研究。由于中醫(yī)藥自身注重藥材、藥方的特點(diǎn),學(xué)者基于文本挖掘技術(shù)對中醫(yī)藥的研究較多,西醫(yī)方面的文章較少。在數(shù)據(jù)來源上,多來自中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(CBM),來自網(wǎng)絡(luò)的數(shù)據(jù)源則較少使用,也未與臨床數(shù)據(jù)相結(jié)合。在國外,有許多基于網(wǎng)絡(luò)和社會媒體數(shù)據(jù)相關(guān)的研究,如進(jìn)行疾病監(jiān)測和生物事件的探測[7],提取藥物不良反應(yīng)信息[8],探索自我披露健康信息支持公共健康監(jiān)測和醫(yī)療保健[9],監(jiān)控濫用處方藥[10]等。
國內(nèi)相關(guān)文獻(xiàn)中并無實(shí)質(zhì)的基于文本挖掘的鼻炎治療研究,目前研究主要采用三種方式。第一種是以文本數(shù)據(jù)作為數(shù)據(jù)來源做數(shù)據(jù)挖掘,把文本數(shù)據(jù)轉(zhuǎn)成數(shù)值數(shù)據(jù)來處理。蘇奎國等[11]以《中醫(yī)方劑大辭典精選本》作為方劑基本信息來源采集文本,結(jié)合《中華醫(yī)典》《方劑學(xué)》做文本篩選,挖出治療變應(yīng)性鼻炎的方劑信息;韓東岳等[12]在PubMed、Embase、中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫、中國知網(wǎng)數(shù)據(jù)庫、萬方數(shù)據(jù)庫和維普全文期刊數(shù)據(jù)庫中檢索采集關(guān)鍵詞為鼻炎、過敏性、變應(yīng)性、穴位敷貼的文獻(xiàn),通過閱讀文獻(xiàn)的題目、關(guān)鍵詞和摘要篩選文獻(xiàn),結(jié)合《經(jīng)絡(luò)腧穴學(xué)》和《中藥學(xué)》做數(shù)據(jù)清理后把數(shù)據(jù)錄入Excel做詞頻統(tǒng)計(jì),運(yùn)用SPSS軟件進(jìn)行分層聚類挖掘出穴位貼敷治療鼻炎的選、配穴規(guī)律和用藥規(guī)律。第二種是采用文獻(xiàn)計(jì)量學(xué)的方法進(jìn)行研究。如劉妮波等[13]對《中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫》中關(guān)于鼻炎相關(guān)的醫(yī)學(xué)科技論文進(jìn)行分析,分別從載文量、高頻作者、研究機(jī)構(gòu)和關(guān)鍵詞等方面進(jìn)行深度挖掘;王鵬等[14]檢索CNKI 2006—2010年間的針灸治療鼻炎研究的全部文獻(xiàn),采用文獻(xiàn)計(jì)量學(xué)方法進(jìn)行統(tǒng)計(jì)分析。第三是基于現(xiàn)成文本分析軟件進(jìn)行分析。如宋立家等[15]收集CNKI中運(yùn)用中醫(yī)藥方劑治療變應(yīng)性鼻炎的文獻(xiàn),篩選并建立方劑數(shù)據(jù)庫,運(yùn)用中醫(yī)傳承輔助平臺軟件挖掘其中的用藥規(guī)律。
主要使用文本挖掘方法,分為文本采集、文本預(yù)處理、文本分析、知識獲取和相關(guān)性分析5個過程。
文本采集:從中國知網(wǎng)導(dǎo)出相關(guān)文獻(xiàn),從在線醫(yī)療網(wǎng)站上抓取醫(yī)患互動論壇的問答帖。
文本預(yù)處理:將文本轉(zhuǎn)化成文本挖掘工具可以處理的形式,去掉不需要的部分,主要包括文本分詞和文本清洗。文本分詞的準(zhǔn)確性和質(zhì)量好壞對后繼工作有很大影響,分詞僅針對中文,需要導(dǎo)入專業(yè)研究相關(guān)的詞典以提高分詞質(zhì)量;文本清洗是把分詞后的文本去除對研究無意義的停用詞,如標(biāo)點(diǎn)符號、連詞、助詞、語氣詞等,避免干擾后續(xù)文本挖掘,另外也要考慮同義詞和近義詞的合并。
文本分析:用詞頻統(tǒng)計(jì)、特征提取等方法,找出一些特征以便分析使用。
知識獲?。航Y(jié)合專業(yè)知識對整理分析后的文本進(jìn)行解釋,獲取有用的知識。
相關(guān)性分析:從一個同類或不同類的文檔集合中尋找某些關(guān)鍵詞之間的相關(guān)性,根據(jù)某兩個或多個詞同時出現(xiàn)的頻率找出相關(guān)系數(shù)。相關(guān)系數(shù)主要通過詞頻統(tǒng)計(jì)來計(jì)算,例如包含氯雷他定的文本數(shù)有100個,同時包含粉塵螨的文本有50個,二者相關(guān)系數(shù)為0.5=50/100。本文用相關(guān)性分析方法分析鼻炎常見并發(fā)癥的思路步驟是:篩選出含有鼻炎的某個常見并發(fā)癥的文本,在這些文本中查找癥狀或藥物名詞進(jìn)行合并和抓取原詞;統(tǒng)計(jì)詞頻和計(jì)算相關(guān)系數(shù)。
同時,使用文獻(xiàn)研究法梳理文本挖掘在醫(yī)學(xué)中的研究現(xiàn)狀,綜述當(dāng)前文本挖掘研究鼻炎的方式,并對比驗(yàn)證本文的一些研究結(jié)論。
2.2.1 文本數(shù)據(jù)采集
綜上所述,在初中英語教學(xué)中,做好教學(xué)目標(biāo)設(shè)計(jì)尤為重要,教師應(yīng)該從明確教學(xué)目標(biāo)設(shè)計(jì)依據(jù)、加強(qiáng)自身目標(biāo)設(shè)計(jì)意識、掌握正確的目標(biāo)設(shè)計(jì)方法與策略等方面有效設(shè)計(jì)好課堂教學(xué)目標(biāo),有效保證課堂教學(xué)質(zhì)量,提升學(xué)生綜合素質(zhì)與能力。
文本來源于中國知網(wǎng)CNKI、好大夫在線網(wǎng)(http://www.haodf.com)和尋醫(yī)問藥網(wǎng)(http://www.xywy.com)。中國知網(wǎng)的內(nèi)容以數(shù)據(jù)庫形式進(jìn)行有序管理,有明確的來源、出處,內(nèi)容可信度很高,可以作為學(xué)術(shù)研究、科學(xué)決策的依據(jù);好大夫在線網(wǎng)和尋醫(yī)問藥網(wǎng)是我國當(dāng)前醫(yī)療信息較為完備,用戶較多的醫(yī)患互動平臺。
選用八爪魚采集器獲取醫(yī)患互動文本。分別在好大夫在線網(wǎng)站和尋醫(yī)問藥網(wǎng)鼻炎專題“患者咨詢”下提取文本,每條文本內(nèi)容包括發(fā)帖時間、性別、年齡、標(biāo)題、病人描述、醫(yī)生回答;在中國知網(wǎng)中以主題詞“鼻炎”為搜索條件搜索到1950年2月至2016年2月間的相關(guān)文獻(xiàn),導(dǎo)出題名、關(guān)鍵詞、摘要;最終醫(yī)患互動平臺采集到文本37 809條,中國知網(wǎng)采集到文本19 318條,共計(jì)57 127條文本數(shù)據(jù)(已去重)。
將相關(guān)文獻(xiàn)的文本數(shù)據(jù)拆分為title,keyword,summary 3個數(shù)據(jù)集,合并兩個醫(yī)患互動論壇數(shù)據(jù),然后拆分病人咨詢文本數(shù)據(jù)和醫(yī)生診斷文本數(shù)據(jù),得到patient_desc和doctor_diag數(shù)據(jù)集。
2.2.2 文本數(shù)據(jù)處理
新詞典的安裝及特殊新詞的手動添加是兩項(xiàng)很重要的工作。下載搜狗細(xì)胞詞庫,使用深藍(lán)詞庫轉(zhuǎn)換工具2.0版本,將.scel的搜狗細(xì)胞詞庫格式轉(zhuǎn)換成.txt格式。文本處理中特征詞的定義將決定最后分詞質(zhì)量的好壞。由于事先沒有一個相對完整的特征詞,這里主要對采集文本進(jìn)行觀察,在網(wǎng)絡(luò)上搜集相關(guān)信息,然后針對藥品、非藥物治療手段定義特征詞(例如藥品的特征詞如噴霧、噴劑、顆粒、沖劑、他定、西替、咪唑、滴鼻液、鼻炎水、膠囊、片等,非藥物的特征詞有激素、針灸、清洗、治法、清潔、清除、充血劑、鹽水、洗鼻、冷水、慢跑、鍛煉等),并把這些特征詞加入到自定義詞典中。
Keyword數(shù)據(jù)集中的文本是由一個個詞語組成,不需要分詞,直接對keyword數(shù)據(jù)集做文本清洗;title、summary、patient_desc和doctor_diag中的文本均為句子,需要分別進(jìn)行分詞處理。將之前提取的keyword關(guān)鍵詞也加入到詞典中,然后基于詞典使用Rwordseg包進(jìn)行分詞處理和文本清洗。
詞頻統(tǒng)計(jì)分別見表1-表3,圖1-圖3。從表1-表3,圖1-圖3可見根據(jù)頻次由多到少治療鼻炎相關(guān)的西藥依次是氯雷他定、粉塵螨、布地奈德、西替利嗪、輔舒良等,根據(jù)頻次多少治療鼻炎用的中藥依次是玉屏風(fēng)散或顆粒、蒼耳子等。 在鼻炎的非藥物治療手段的關(guān)鍵詞中,“針灸”的詞頻最高,然后依次是糖皮質(zhì)激素、生理鹽水、脫敏療法、激素、免疫療法、減充血劑、針刺、按摩等,中西醫(yī)結(jié)合療法詞頻也較高。鼻炎并發(fā)癥發(fā)病較高的依次是鼻竇炎、氣管炎、咽炎、中耳炎、肺炎等。
表1 鼻炎的治療藥物及詞頻
表2 鼻炎的非藥物治療方法及詞頻
表3 鼻炎的并發(fā)癥及其詞頻
圖1 鼻炎的藥物治療方法詞云
圖2 鼻炎的非藥物治療方法詞云
圖3 鼻炎的并發(fā)癥詞云
基于詞頻統(tǒng)計(jì)的分析,以采集到的原始文本(病人描述+醫(yī)生描述)為單位,選擇鼻炎最常見三種并發(fā)癥(鼻竇炎、氣管炎、咽炎)為對象,分析某個并發(fā)癥的癥狀和治療用藥特點(diǎn)。各并發(fā)癥狀及相關(guān)用藥見表4-表9。癥狀表示的是鼻炎并發(fā)某種并發(fā)癥的癥狀。如表4中,鼻粘膜問題是鼻炎并發(fā)鼻竇炎的表現(xiàn)癥狀,目前基于我們的數(shù)據(jù)樣本看,與其他癥狀相比,鼻炎并發(fā)鼻竇炎的相關(guān)度高,是表現(xiàn)得比較多的癥狀;與鼻炎并發(fā)鼻竇炎相關(guān)的用藥,蒼耳子的使用沒有通竅鼻炎片多,并發(fā)癥的相關(guān)程度排在第二。
表4 鼻炎并發(fā)鼻竇炎相關(guān)癥狀
表5 鼻炎并發(fā)鼻竇炎相關(guān)用藥
表6 鼻炎并發(fā)氣管炎相關(guān)癥狀
表7 鼻炎并發(fā)氣管炎相關(guān)用藥
表8 鼻炎并發(fā)咽炎相關(guān)癥狀
表9 鼻炎并發(fā)咽炎相關(guān)用藥
研究發(fā)現(xiàn),中藥蒼耳子被普遍應(yīng)用于鼻炎的治療,對緩解鼻塞、鼻炎、抑制變態(tài)反應(yīng)具有一定的療效,但蒼耳子具有一定毒性,超過劑量或長期使用可致神經(jīng)系統(tǒng)及肝腎損害,需要在醫(yī)生指導(dǎo)下謹(jǐn)慎、小劑量使用。
中藥方劑玉屏風(fēng)由黃芪、白術(shù)、防風(fēng)組成,具有益氣固表抗過敏的功效,大量臨床研究證實(shí)“玉屏風(fēng)顆粒”或“玉屏風(fēng)散”治療鼻炎療效確切,是治療鼻炎的重要中成藥之一。
中醫(yī)外治療法被廣泛應(yīng)用于鼻炎臨床。如針灸通過辨證取穴,可應(yīng)用于過敏性鼻炎的急性期和緩解期,有良好療效[16];穴位敷貼通過中藥藥物或者遠(yuǎn)紅外磁熱材料,刺激相應(yīng)穴位,療效好、無針刺痛苦,是代替?zhèn)鹘y(tǒng)針灸的外治方法,經(jīng)臨床證明療效顯著;鐘娟等[17]確認(rèn)了針刺、艾灸、推拿、拔罐、刺血療法、穴位埋線、耳穴壓丸等鼻炎的非藥物治療的有效性。但我們的數(shù)據(jù)里,拔罐、刺血、埋線等療法的頻次較低或未出現(xiàn),尚待進(jìn)一步探究。
糖皮質(zhì)激素主要用于急性感染、自身免疫性和過敏性疾病,可以明顯緩解哮喘、鼻炎的氣道炎癥。
利用生理鹽水沖洗鼻腔可以獲得較好療效,趙秀華[18]和劉杰等[19]等認(rèn)為生理鹽水沖洗對小兒鼻炎更加有效。
隨著醫(yī)學(xué)的進(jìn)步,免疫療法和脫敏療法逐漸成為研究的熱點(diǎn),通過調(diào)節(jié)免疫進(jìn)而間接治療鼻炎,從詞頻上來看,這個治療思路更容易被患者接受。
鼻炎的并發(fā)癥較多,依次為鼻竇炎、氣管炎、咽炎、中耳炎、肺炎等,前三個并發(fā)癥均有咳嗽、流涕、鼻出血等癥狀,除共有癥狀外,經(jīng)詞頻統(tǒng)計(jì),鼻炎并發(fā)鼻竇炎還有嗅覺減退、呼吸困難等癥狀。鼻炎并發(fā)咽炎可伴有下鼻甲肥大、扁桃體肥大等。通過區(qū)分鼻炎并發(fā)癥,可指導(dǎo)臨床精準(zhǔn)用藥。
文本挖掘發(fā)現(xiàn)治療鼻炎并發(fā)鼻竇炎藥物有:鼻炎片、蒼耳子、糖皮質(zhì)激素、布地奈德等。由于鼻炎與鼻竇炎常常相伴發(fā)生,同為鼻腔內(nèi)黏膜炎癥,僅僅是發(fā)病部位不同,因此鼻炎并發(fā)鼻竇炎的相關(guān)藥品與鼻炎的藥品一致。
鼻炎并發(fā)氣管炎的治療藥物為磺胺類藥物、糖皮質(zhì)激素、鵝不食草等,鼻炎并發(fā)咽炎藥物有咽喉噴劑、地氯雷他定、抗組胺藥等。
目前中醫(yī)藥人研究治療鼻炎的用藥規(guī)律時基本上都是基于文獻(xiàn)數(shù)據(jù)庫。雖然文獻(xiàn)數(shù)據(jù)更具有權(quán)威性,但已被人為處理過。
國外的研究成果證明,網(wǎng)絡(luò)數(shù)據(jù)在醫(yī)學(xué)某方面應(yīng)用的有效性,直接從網(wǎng)上抓取的數(shù)據(jù)更新及時,具有客觀性、先進(jìn)性以及臨床價(jià)值。因此,本文在研究方法和數(shù)據(jù)源選擇方面進(jìn)行了新的嘗試,驗(yàn)證網(wǎng)絡(luò)數(shù)據(jù)源的可用性和運(yùn)用文本挖掘技術(shù)的可行性。
本文存在以下4個方面的局限性。
4.3.1 醫(yī)生的回答權(quán)威性不足
文本數(shù)據(jù)源中2/3來自醫(yī)患互動論壇的醫(yī)患問答。盡管回答問題的醫(yī)生都是在全國各地醫(yī)院持證問診的醫(yī)生,但是無法與患者面對面診斷,對疾病或患者信息了解得不夠全面,可能導(dǎo)致醫(yī)生的回答權(quán)威性不足。
4.3.2 文本挖掘分詞的準(zhǔn)確性和有效性有待提高
研究課題涉及了大量醫(yī)學(xué)方面的專業(yè)知識。由于經(jīng)驗(yàn)不足,在文本挖掘的分詞過程中對專業(yè)字典的構(gòu)造不夠理想,會影響分詞的準(zhǔn)確性和有效性,使得個別干擾詞匯出現(xiàn)。
4.3.3 特征詞的定義存在主觀性
文本處理中特征詞的定義基于觀察和分析,具有主觀性,定義好壞會影響分詞的質(zhì)量,進(jìn)而影響研究結(jié)果。以后要研究更為科學(xué)合理的特征詞提取方法,減少主觀隨意性,避免遺漏。
4.3.4 文本數(shù)據(jù)量有限
文本數(shù)據(jù)量不夠大,不能夠完全覆蓋龐大的鼻炎患者群體,詞頻統(tǒng)計(jì)未必能精準(zhǔn)地反映出相關(guān)信息,得到結(jié)論可能會有偏差。
治療,特別是中醫(yī)治療,多強(qiáng)調(diào)單個臨床試驗(yàn)的療效情況。挖掘技術(shù)能從大量散在的臨床試驗(yàn)中,把握共性的規(guī)律,為今后指導(dǎo)臨床用藥或標(biāo)準(zhǔn)化臨床治療提供參考。本文嘗試基于網(wǎng)絡(luò)數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)用文本挖掘方法來研究鼻炎問題,只是對新數(shù)據(jù)源、新方法的初步探索,希望拋磚引玉,引發(fā)更多的思考和研究。
中華醫(yī)學(xué)圖書情報(bào)雜志2017年10期