王 君 姚 唐 王亞妮
(1北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院 北京 100191 2首都醫(yī)科大學(xué)燕京醫(yī)學(xué)院 北京 101300)
互聯(lián)網(wǎng)醫(yī)療作為我國(guó)健康科技創(chuàng)新的重要組成部分,是互聯(lián)網(wǎng)技術(shù)在醫(yī)療行業(yè)的落地應(yīng)用?;ヂ?lián)網(wǎng)醫(yī)療平臺(tái)是以醫(yī)療健康信息交流為主的媒介,患者與醫(yī)生可以通過其進(jìn)行健康咨詢、經(jīng)驗(yàn)分享和交流互動(dòng)等活動(dòng),對(duì)日常健康管理和疾病控制有著重要影響[1- 2]。目前國(guó)內(nèi)比較知名的互聯(lián)網(wǎng)醫(yī)療平臺(tái)有“丁香園”“春雨醫(yī)生”“好大夫在線”等。平臺(tái)信息質(zhì)量是影響互聯(lián)網(wǎng)醫(yī)療可持續(xù)發(fā)展的關(guān)鍵因素。然而互聯(lián)網(wǎng)醫(yī)療平臺(tái)在提供便捷資源的同時(shí),面臨著醫(yī)療數(shù)據(jù)龐大、信息質(zhì)量參差不齊等問題[3],影響患者信息瀏覽和健康決策。提高互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量,幫助患者更好地利用平臺(tái)管理健康并預(yù)防疾病,使互聯(lián)網(wǎng)醫(yī)療服務(wù)更好地滿足患者需求,對(duì)互聯(lián)網(wǎng)醫(yī)療平臺(tái)的可持續(xù)發(fā)展具有重要意義。
目前學(xué)術(shù)界有關(guān)信息質(zhì)量評(píng)價(jià)的研究已有一定基礎(chǔ)[4- 5]。在互聯(lián)網(wǎng)醫(yī)療平臺(tái)方面,主要圍繞平臺(tái)信息服務(wù)質(zhì)量[6-7]、用戶使用意愿[8]及用戶滿意度[9]進(jìn)行研究。互聯(lián)網(wǎng)醫(yī)療信息質(zhì)量評(píng)價(jià)主要借助問卷調(diào)研[10]、專家訪談[11]等定性分析方法,采用文本內(nèi)容分析法對(duì)信息質(zhì)量進(jìn)行評(píng)價(jià)的研究還比較欠缺。因此,本文基于國(guó)內(nèi)典型互聯(lián)網(wǎng)醫(yī)療平臺(tái)數(shù)據(jù),對(duì)用戶發(fā)布的文本內(nèi)容信息進(jìn)行自然語(yǔ)言處理和聚類分析,提取信息質(zhì)量評(píng)價(jià)的特征指標(biāo)建立邏輯回歸模型并進(jìn)行灰色關(guān)聯(lián)度修正,構(gòu)建互聯(lián)網(wǎng)醫(yī)療平臺(tái)的信息質(zhì)量評(píng)價(jià)指標(biāo)體系,以期幫助互聯(lián)網(wǎng)醫(yī)療平臺(tái)構(gòu)建合適的信息搜索規(guī)則、提高服務(wù)質(zhì)量和效率,促進(jìn)互聯(lián)網(wǎng)醫(yī)療資源最大化利用。
本研究聚焦“丁香園”論壇腫瘤醫(yī)學(xué)板塊用戶主頁(yè)的信息及其發(fā)布的帖子信息。于2021年9—12月基于Python的selenium庫(kù)編寫程序爬取腫瘤醫(yī)學(xué)版塊的29 300篇帖子及其評(píng)論,通過對(duì)帖子進(jìn)行清洗過濾,獲得有效帖子22 057條,涉及發(fā)帖用戶10 725名。爬取的信息主要有文本型和數(shù)值型兩類,帖子信息包括標(biāo)題、內(nèi)容、發(fā)表時(shí)間、標(biāo)簽、評(píng)論、瀏覽量和點(diǎn)贊數(shù)、收藏?cái)?shù)等;用戶信息包括昵稱、職業(yè)、等級(jí)、積分、既往發(fā)帖鏈接、粉絲數(shù)、作品總瀏覽量、帖子被收藏總次數(shù)等。
首先對(duì)文本內(nèi)容清洗和處理,借助北京大學(xué)語(yǔ)言計(jì)算與機(jī)器學(xué)習(xí)組提供的pkuseg多領(lǐng)域分詞庫(kù)對(duì)文本信息進(jìn)行分詞和詞性標(biāo)注;借助哈爾濱工業(yè)大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室創(chuàng)建的停用詞表、百度停用詞表和基于詞頻統(tǒng)計(jì)的人工選擇停用詞方法對(duì)數(shù)據(jù)進(jìn)行停用詞去除;然后根據(jù)詞頻-逆向文件頻率(term frequency-inverse document frequency,TF-IDF)生成文檔向量并基于k-means聚類算法進(jìn)行文本聚類,結(jié)合聚類后的關(guān)鍵詞抽取確定文本類別;最后抽取信息質(zhì)量評(píng)價(jià)指標(biāo),利用Python開源庫(kù)statsmodels提供的統(tǒng)計(jì)分析方法實(shí)現(xiàn)邏輯回歸模型并進(jìn)行灰色關(guān)聯(lián)度修正,構(gòu)建信息質(zhì)量評(píng)價(jià)指標(biāo)體系,見圖1。
圖1 數(shù)據(jù)處理過程
pkuseg分詞工具致力于為不同領(lǐng)域數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型。用戶可以根據(jù)分詞文本領(lǐng)域特點(diǎn),自由選擇不同模型[11]。分詞后,進(jìn)行停用詞去除。首先利用停用詞表去除常規(guī)無用字詞,接著采用詞頻統(tǒng)計(jì)方法人工選擇進(jìn)一步去除停用詞,最后基于詞匯詞性標(biāo)注去除介詞、副詞、語(yǔ)氣詞、嘆詞、擬聲詞等對(duì)于文本分析無用的字詞。
聚類分析可以幫助分析文本信息的大致分類屬性。采用向量空間模型對(duì)每一個(gè)文檔都用向量dj表示:
dj=(w1,j,w1,j,…,wt,j)
(1)
文檔向量的每個(gè)維度對(duì)應(yīng)一個(gè)詞組。通過TF-IDF方法計(jì)算文檔向量各維度的取值,選取權(quán)重較大的前10 000個(gè)詞組作為TF-IDF各維度對(duì)應(yīng)詞組,構(gòu)建針對(duì)整個(gè)文檔集的TF-IDF矩陣。并采用基于Python的numpy庫(kù)的linalg.svd方法對(duì)TF-IDF矩陣進(jìn)行奇異值分解,在盡可能保留文檔信息的情況下選取r=300,得到原矩陣近似表示。TF-IDF矩陣近似表示如下:
(2)
其中,Ur矩陣是取U矩陣的前r列所得矩陣,Wr矩陣是取對(duì)角陣W前r個(gè)對(duì)角元素所得對(duì)角陣,Vr矩陣是選取V矩陣前r行所得矩陣。
利用構(gòu)建的文檔近似矩陣,采取基于sklearn庫(kù)的聚類方法實(shí)現(xiàn)k-means聚類[12]。在隨機(jī)選取初始聚類中心的前提下,不同k值的聚類算法運(yùn)行結(jié)果對(duì)應(yīng)的輪廓系數(shù)不同。k取值為6時(shí)對(duì)應(yīng)的輪廓系數(shù)最大,因此k-means聚類k值設(shè)置為6。采用隨機(jī)選取初始聚類中心并設(shè)定k值為6的條件將文檔集聚成6類。對(duì)各類別文檔進(jìn)行詞頻統(tǒng)計(jì),并根據(jù)高頻詞匯將各類別進(jìn)行歸納。
借鑒醫(yī)學(xué)信息和信息管理領(lǐng)域信息質(zhì)量評(píng)價(jià)的相關(guān)研究,結(jié)合互聯(lián)網(wǎng)醫(yī)療平臺(tái)特征,選取一級(jí)指標(biāo)和對(duì)應(yīng)的二級(jí)指標(biāo),見表1。
表1 互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)
因變量為離散變量的計(jì)量模型稱為離散被解釋變量模型。在離散被解釋變量模型中,邏輯回歸模型因其具有簡(jiǎn)單、可并行化、可解釋性強(qiáng)等特點(diǎn)而被廣泛使用[13]。邏輯回歸模型思想是使個(gè)體為某一類別的概率最大化,采用最大似然法進(jìn)行參數(shù)估計(jì)。
灰色關(guān)聯(lián)度分析是灰色系統(tǒng)理論中非?;钴S的分支,其基本思想是根據(jù)各序列的相似程度來判斷其之間聯(lián)系是否緊密[14]?;疑P(guān)聯(lián)度分析可以從多角度對(duì)物品質(zhì)量進(jìn)行評(píng)價(jià),具有操作性強(qiáng)、效果好等優(yōu)點(diǎn)。基于互聯(lián)網(wǎng)醫(yī)療信息質(zhì)量評(píng)價(jià)指標(biāo),采用邏輯回歸模型和灰色關(guān)聯(lián)度修正對(duì)影響信息質(zhì)量評(píng)價(jià)的影響因素進(jìn)行分析:
lnP=βXT
(3)
其中P為使帖子為高質(zhì)量帖子的概率,β為系數(shù)向量,X為指標(biāo)向量。
3.1.1 詞云圖展示 對(duì)文本進(jìn)行分詞和停用詞處理后繪制詞云圖,見圖2。詞云圖主要是對(duì)文本數(shù)據(jù)進(jìn)行視覺表示,通過不同的字體大小和顏色展示每個(gè)詞的重要性,便于讀者迅速直觀地了解詞的重要程度和文本內(nèi)容主旨?!岸∠銏@”腫瘤醫(yī)學(xué)板塊的帖子及評(píng)論出現(xiàn)頻次最高的關(guān)鍵詞主要涉及腫瘤、資訊、發(fā)現(xiàn)、情況、免疫、治療等,這些關(guān)鍵詞都與用戶的健康咨詢、知識(shí)分享、病例共享等內(nèi)容和服務(wù)密切相關(guān)。
圖2 基于文本內(nèi)容的詞云圖構(gòu)建
3.1.2 聚類分析結(jié)果 共得到6個(gè)聚類結(jié)果。第1類高頻詞包含腫瘤、研究、細(xì)胞、治療、免疫、患者、癌癥、基因、臨床等,稱為醫(yī)學(xué)研究;第2類高頻詞包括下載、指南、鏈接、翻譯、臨床、腫瘤等,稱為知識(shí)分享;第3類高頻詞包括治療、患者、腫瘤、化療、藥物、手術(shù)、轉(zhuǎn)移、方案、檢查等,稱為治療方案;第4類高頻詞有患者、癌癥、治療、食物、作用、飲食、化療、營(yíng)養(yǎng)等,稱為患者養(yǎng)護(hù);第5類高頻詞有腫瘤、治療、臨床、手術(shù)、醫(yī)師、化療、內(nèi)科、患者、解剖等,稱為醫(yī)患交流;第6類包含許多無醫(yī)學(xué)含義詞匯,歸為雜項(xiàng)。對(duì)聚類后各類別分布情況進(jìn)行分析,治療方案類帖子數(shù)量最多,醫(yī)患交流類、知識(shí)分享類和雜項(xiàng)類帖子占比很小,見圖3。
在實(shí)證模型中,以帖子標(biāo)簽為被解釋變量,提取到的二級(jí)指標(biāo)為自變量,進(jìn)行邏輯回歸,見表2。其中系數(shù)指各自變量對(duì)被解釋變量的影響系數(shù)。對(duì)模型的整體檢驗(yàn)log-likelihood值為-4 032.2,說明自變量組合對(duì)被解釋變量的影響具有統(tǒng)計(jì)學(xué)意義。在α=0.05的顯著性水平下,除可讀性(RE)、主題相關(guān)度(TS)及發(fā)布者粉絲數(shù)(AS_1)3項(xiàng)指標(biāo)外,其他指標(biāo)對(duì)信息質(zhì)量評(píng)價(jià)的影響均具有統(tǒng)計(jì)學(xué)意義(P<0.05)。
表2 信息質(zhì)量評(píng)價(jià)模型(一)
對(duì)模型進(jìn)行灰色關(guān)聯(lián)度修正,見圖4?;疑P(guān)聯(lián)度值大于0.9表示指標(biāo)間具有較強(qiáng)的相關(guān)性,基于邏輯回歸的結(jié)果剔除完整性(CT)、可讀性(RE)、信息量(AI)、主題相關(guān)度(TS)及發(fā)布者粉絲數(shù)(AS_1)變量,對(duì)數(shù)據(jù)進(jìn)行第2次邏輯回歸,見表3。結(jié)果顯示所有變量均具有統(tǒng)計(jì)學(xué)意義(P<0.05),修正前后回歸模型的擬合系數(shù)R2分別為0.284 6和0.278 5,均方誤差相近,表明兩次回歸結(jié)果對(duì)樣本的擬合效果相近。灰色關(guān)聯(lián)度修正之后的邏輯回歸模型如下:
表3 信息質(zhì)量評(píng)價(jià)模型(二)
圖4 灰色關(guān)聯(lián)度分析結(jié)果
lnP=28.207 3×R+0.007 1×E+0.000 026 9×
PO+1.627 9×CS+0.997 9×CR+0.025 6×I+
0.121 8×AS_2-0.002 6×AS_3-2.791 4
(4)
基于邏輯回歸和灰色關(guān)聯(lián)度修正的模型分析后的信息質(zhì)量評(píng)價(jià)指標(biāo)體系,見圖5。
圖5 互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)體系
互聯(lián)網(wǎng)醫(yī)療平臺(tái)中的信息特征在其質(zhì)量評(píng)價(jià)中具有至關(guān)重要的作用,且主要體現(xiàn)在信息的豐富度方面。信息形式是用戶瀏覽時(shí)的直觀印象,對(duì)于嘗試在平臺(tái)上尋求信息支持的患者來說非常重要?;ヂ?lián)網(wǎng)醫(yī)療平臺(tái)應(yīng)當(dāng)采取措施鼓勵(lì)用戶發(fā)布信息量大、信息豐富多樣的帖子,吸引更多用戶參與平臺(tái)互動(dòng),信息呈現(xiàn)的豐富度直接決定信息被接納的難易程度[15]。面對(duì)種類繁多的信息,互聯(lián)網(wǎng)醫(yī)療平臺(tái)發(fā)展不應(yīng)局限于單一的文字信息形式,還可以發(fā)布如短視頻、圖片等有趣的信息吸引用戶,讓用戶更愿意投入平臺(tái)。
互聯(lián)網(wǎng)醫(yī)療平臺(tái)上用戶發(fā)布的信息被其他用戶瀏覽并產(chǎn)生具體的互動(dòng)如點(diǎn)贊、收藏和評(píng)論等行為時(shí),此信息得到的正面評(píng)價(jià)會(huì)顯著提升。用戶之間的交流互動(dòng)一方面使用戶發(fā)布的信息被更多信息搜尋者知曉;另一方面,用戶之間的交流互動(dòng)也可以引導(dǎo)其他用戶更精準(zhǔn)、專業(yè)地貢獻(xiàn)信息,平臺(tái)用戶作為醫(yī)療信息接收者的同時(shí),也可作為信息提供者來分享知識(shí),促進(jìn)互聯(lián)網(wǎng)醫(yī)療服務(wù)的發(fā)展[16]。用戶的積極參與和交流互動(dòng)有助于實(shí)現(xiàn)互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息價(jià)值。
發(fā)布者的權(quán)威性是指發(fā)布者對(duì)該領(lǐng)域知識(shí)的掌握及專業(yè)程度,身份權(quán)威發(fā)布者的帖子更具有說服力,對(duì)于其他用戶來說更有價(jià)值[17]。互聯(lián)網(wǎng)醫(yī)療平臺(tái)應(yīng)注意采取適當(dāng)措施控制用戶積分的發(fā)放,因?yàn)楫?dāng)用戶獲得較高積分時(shí),反而不利于其提供高質(zhì)量信息。在信息過載時(shí)代,只有在源頭保證信息質(zhì)量,即確保信息發(fā)布者的權(quán)威性,平臺(tái)中發(fā)布的信息才會(huì)有參考和借鑒意義。平臺(tái)可以讓瀏覽信息的用戶對(duì)發(fā)布信息進(jìn)行打分,再結(jié)合發(fā)布者的特征如年齡、受教育程度、患病時(shí)長(zhǎng)等加權(quán)得到該發(fā)布者的總體權(quán)威性得分。
本研究以國(guó)內(nèi)典型互聯(lián)網(wǎng)醫(yī)療平臺(tái)為研究對(duì)象,借助Python網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù),采用自然語(yǔ)言處理和文本內(nèi)容分析對(duì)用戶發(fā)布的帖子進(jìn)行聚類分析和特征提取,并設(shè)計(jì)了基于邏輯回歸模型和灰色關(guān)聯(lián)度修正實(shí)驗(yàn)的互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)體系,有助于用戶發(fā)布高質(zhì)量信息并快速識(shí)別有價(jià)值的信息,也將有助于互聯(lián)網(wǎng)醫(yī)療平臺(tái)構(gòu)建合適的信息搜索規(guī)則,以及提高信息服務(wù)質(zhì)量和效率。