亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HSM_LDA模型的在線醫(yī)院特色挖掘研究*

        2023-11-09 10:26:18黃錦泉劉靈濤翟菊葉劉玉文
        關(guān)鍵詞:詞匯特色文本

        黃錦泉 張 楚 劉靈濤 潘 瑋 翟菊葉 劉玉文

        (1蚌埠醫(yī)學(xué)院衛(wèi)生管理學(xué)院 蚌埠 233030 2蚌埠醫(yī)學(xué)院護(hù)理學(xué)院 蚌埠 233030)

        1 引言

        隨著我國“互聯(lián)網(wǎng)+醫(yī)療健康”事業(yè)的迅速發(fā)展,以“好大夫在線”“春雨醫(yī)生”等為代表的在線健康社區(qū)(online health communities,OHCs)逐步涌現(xiàn)[1],為在線醫(yī)院的興起提供了平臺基礎(chǔ)。截至目前,眾多國內(nèi)醫(yī)院已在健康社區(qū)內(nèi)注冊賬號[2]成為在線醫(yī)院。與傳統(tǒng)線下就醫(yī)模式相比,在線醫(yī)院打破時(shí)空局限,實(shí)現(xiàn)了患者與醫(yī)生的跨時(shí)空交互,對提高醫(yī)療資源利用率[3]、促進(jìn)醫(yī)療均衡發(fā)展具有推動作用。但OHCs尚缺乏全局性的在線醫(yī)院特色導(dǎo)航服務(wù),用戶在線問診時(shí)無法根據(jù)自身病情選擇合適的醫(yī)院[4],這在一定程度上限制了在線醫(yī)院服務(wù)質(zhì)量的提升。所以,從全局角度挖掘在線醫(yī)院的醫(yī)療特色,實(shí)現(xiàn)醫(yī)療特色精準(zhǔn)導(dǎo)航,對提升在線醫(yī)院服務(wù)質(zhì)量、改善用戶問診體驗(yàn)具有重要意義。

        當(dāng)前,在線醫(yī)療特色識別相關(guān)研究主要圍繞醫(yī)生和醫(yī)院兩方面展開。其中,醫(yī)生特色識別相關(guān)研究較多,主要是利用機(jī)器學(xué)習(xí)、自然語言處理等方式探索OHCs中醫(yī)生的專業(yè)領(lǐng)域,為患者提供高效便利的醫(yī)生推薦服務(wù)。例如,孟秋晴等[5]利用文本相似度和隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型對患者問診文本和醫(yī)生回答文本進(jìn)行挖掘,試圖分析在線醫(yī)生的診療特色。梁建樹等[6]利用Word2Vec和LDA等技術(shù)對OHCs中的醫(yī)生特征進(jìn)行挖掘,并結(jié)合三支決策思想提出多維度的三支醫(yī)生推薦方法。該方法深入挖掘醫(yī)生特色,大幅度提高醫(yī)生推薦精準(zhǔn)度。Li Y Y等[7]提出一種組合條件的目標(biāo)醫(yī)生挖掘模型,該模型分為相似患者、相似領(lǐng)域和醫(yī)生績效3部分,最后采用線性加權(quán)整合3部分結(jié)果,挖掘符合患者需求的目標(biāo)醫(yī)生。武家偉等[8]以O(shè)HCs中用戶評論文本作為數(shù)據(jù)源,融合知識圖譜和深度學(xué)習(xí)技術(shù)挖掘醫(yī)生服務(wù)特色。葉佳鑫等[9]利用Word2Vec模型對OHCs中醫(yī)生相關(guān)文本進(jìn)行挖掘,從而找尋與目標(biāo)醫(yī)生相似的醫(yī)生人群,進(jìn)而對目標(biāo)醫(yī)生進(jìn)行標(biāo)注,豐富醫(yī)生特征。在醫(yī)院特色識別方面,諸多學(xué)者開始挖掘目標(biāo)醫(yī)院的特色科室,幫助患者解決掛錯(cuò)號等問題。例如,寧建飛等[10]使用詞向量和句子相似度方法分析患者在線問診文本的語言特征,并進(jìn)一步以詞向量代替詞頻比對問診文本和問答知識庫的相似度,從而挖掘目標(biāo)醫(yī)院特色科室。鄭姝雅[11]提出一種基于線性支持向量機(jī)的醫(yī)院科室匹配方法,利用科室內(nèi)的接診記錄推算符合目標(biāo)患者需求的特色科室。何慧茹[12]利用統(tǒng)計(jì)學(xué)原理對醫(yī)療資源進(jìn)行收集與分析,通過徑向基函數(shù)(radical basis function,RBF)神經(jīng)網(wǎng)絡(luò)模型和模糊算法模型推導(dǎo)醫(yī)院中不同科室具備的特色。以上研究使用不同方式對在線醫(yī)院特色進(jìn)行挖掘,雖然有助于改善OHCs的患者體驗(yàn),挖掘用戶需求,但無法從全局角度挖掘不同醫(yī)院之間的特色差異,且患者與醫(yī)院匹配不精準(zhǔn)問題仍未得到較好解決。

        因此,本研究將醫(yī)院ID融入傳統(tǒng)LDA模型中,構(gòu)建醫(yī)院特色識別模型(hospital special medical based LDA,HSM_LDA)。該模型將原始的“文本-詞匯”矩陣轉(zhuǎn)化為“醫(yī)院-詞匯”矩陣,聯(lián)合醫(yī)院、主題、詞匯3個(gè)變量進(jìn)行建模,生成“醫(yī)院-主題”(E)和“主題-詞匯”(F)兩個(gè)分布矩陣,從而識別出醫(yī)院特色。

        2 相關(guān)技術(shù)介紹

        2.1 詞頻-逆文本頻率指數(shù)算法

        詞頻-逆文本頻率指數(shù)[13](term frequency-inverse document frequency,TF-IDF)是文本數(shù)據(jù)挖掘的重要方法,主要用于度量文本中詞語的重要程度。一般情況下,詞語的重要程度不僅與該詞在文本中出現(xiàn)的次數(shù)有關(guān),還與包含該詞語的文本數(shù)量有關(guān)。如果某個(gè)詞語在文本中出現(xiàn)的次數(shù)越高,且包含它的其他文檔數(shù)量越少,則該詞的重要程度就越高。

        TF-IDF(wi)=TF(wi)×IDF(wi)

        (1)

        其中,TF(wi)表示詞語wi在文檔di中出現(xiàn)的頻率,IDF(wi)表示詞語wi的逆向文檔頻率。

        2.2 LDA模型

        LDA模型[14]是一種無監(jiān)督學(xué)習(xí)的文檔生成模型,于2003年被提出,可以計(jì)算文檔集中每篇文檔的主題概率分布和每個(gè)詞語的概率分布,主要用于文檔主題的聚類和分類。LDA建模過程可以分為4步:一是選擇一篇文檔,以α為超參數(shù)進(jìn)行Dirichlet分布采樣生成“文檔-主題”概率θ;二是由θ分布生成所有文檔中詞語的主題Z;三是以β為超參數(shù)進(jìn)行Dirichlet分布采樣生成“主題-詞匯”概率φ;四是由φ分布生成詞語W。

        3 基于HSM_LDA模型的醫(yī)院特色識別方法

        基于HSM_LDA模型的醫(yī)院特色挖掘過程主要包括3個(gè)步驟:下載在線醫(yī)院問診數(shù)據(jù),并對問診文本進(jìn)行分詞、去停用詞等,生成問診文本語料庫;將預(yù)處理后的文本進(jìn)行TF-IDF運(yùn)算,計(jì)算文本中詞匯的重要程度;建立HSM_LDA模型并對問診語料庫進(jìn)行建模,生成“醫(yī)院-主題”(E)和“主題-詞匯”(F)兩個(gè)分布矩陣;根據(jù)分布F人工標(biāo)注特色主題含義,再根據(jù)分布E獲取特色主題在醫(yī)院的分布,見圖1。

        圖1 研究總體框架

        3.1 HSM_LDA模型建立

        設(shè)在線醫(yī)院的問診文本語料庫為D=[d1,d2,…,dm]T,其中,di=是個(gè)二元組,H_ID表示醫(yī)院編號,Text表示問診文本。K表示D中的主題數(shù),W表示D中所有詞匯組成的集合。根據(jù)HSN_LDA模型的生成關(guān)系作如下定義。

        3.1.1 定義1:“醫(yī)院-主題”分布E對任意醫(yī)院Hi的問診文本,生成主題的概率分布為EHi=,pz=nz/n,其中,nz表示醫(yī)院Hi問診文本中分配給主題z的詞匯數(shù)量,n表示醫(yī)院Hi問診文本的詞匯總數(shù),則主題z在醫(yī)院Hi中生成概率如下:

        (2)

        3.1.2 定義2:“主題-詞匯”分布F對任意主題zi,生成詞匯的概率分布可表示為Fzi=,pi=ni/n,其中,ni表示詞語wi在主題zi中的頻數(shù),n表示屬于主題zi的詞匯總數(shù),k表示主題的數(shù)量。詞匯w在主題zi中的生成概率如下:

        (3)

        與LDA模型相比,HSM_LDA通過醫(yī)院ID參數(shù)在迭代采樣時(shí),將屬于同一醫(yī)院ID的文本進(jìn)行連接視為一條文本,從而將傳統(tǒng)LDA模型生成的“文本-主題”分布轉(zhuǎn)化為“醫(yī)院-主題”分布,見圖2。

        圖2 HSM_LDA模型結(jié)構(gòu)

        HSM_LDA與LDA的不同之處表現(xiàn)在以下兩方面:框架的外層表示醫(yī)院層,C表示醫(yī)院數(shù)量;E表示“醫(yī)院-主題”分布,F(xiàn)表示“主題-詞匯”分布。

        3.2 模型公式推導(dǎo)

        HSM_LDA模型運(yùn)用超參數(shù)α生成一個(gè)“醫(yī)院-主題”概率分布,再運(yùn)用β生成N個(gè)“主題-詞匯”概率分布,最后再生成問診文本的N個(gè)詞的聯(lián)合概率公式:

        (4)

        由于只有W是唯一可觀測值,如果要計(jì)算W的生成概率就需要對E和Z進(jìn)行邊緣概率求解,從而消除E和Z。最終的詞匯生成概率計(jì)算方式如下:

        (5)

        得到詞匯生成概率后,可以通過采樣算法對模型中的E和F參數(shù)進(jìn)行估計(jì)。常用估計(jì)方法是吉布斯采樣,通過期望最大化(expectation-maximum,EM)算法對E和F進(jìn)行反復(fù)迭代,使其逐步收斂。基于HSM_LDA模型的醫(yī)院特色識別算法描述如下:

        Input:α,β

        Output:E,F(xiàn)

        (1)Get{D,V} //讀入文本語料庫

        (2)Fork=1 toK

        (3) //計(jì)算問診文本主題

        (4)Computeα,β

        (5) //計(jì)算模型超參數(shù)

        (6)Run Gibbs (α,β)

        (7)//進(jìn)行Gibbs采樣

        (8) For eachwd

        (9) Choose awfromEw~Multi(α)

        (10) Choose awfromFw~Multi(β)

        (11)End For

        (12)GetE,F(xiàn)

        (13) End For

        3.3 最優(yōu)主題數(shù)計(jì)算

        在運(yùn)用HSM_LDA模型進(jìn)行主題挖掘時(shí),主題數(shù)K是影響主題挖掘效果的關(guān)鍵因素,本研究采用主題困惑度曲線估計(jì)K值。困惑度是主題不確定性的一種表達(dá)方式,困惑度越低表明主題聚類效果越好,其計(jì)算方式如下:

        (6)

        其中,N表示語料庫中的詞語總數(shù),p(w)表示詞語w出現(xiàn)的概率。利用困惑度P和主題數(shù)K建立主題困惑度曲線,當(dāng)P值最小時(shí)K最優(yōu)。但困惑度只是判定最優(yōu)主題數(shù)的一個(gè)粗略指標(biāo)。所以,本研究在實(shí)驗(yàn)過程中以困惑度最低點(diǎn)作為參考值,在最低點(diǎn)兩邊取值進(jìn)行多次實(shí)驗(yàn),選擇效果最好的K值作為HSM_LDA模型的主題數(shù)。

        4 實(shí)驗(yàn)分析

        4.1 數(shù)據(jù)來源及預(yù)處理

        “好大夫在線”是我國常用的網(wǎng)絡(luò)醫(yī)療資源平臺,集合了1萬多家在線醫(yī)院,注冊醫(yī)生近60萬人[15]。眾多訪問用戶在平臺內(nèi)積累了大量問診數(shù)據(jù)。以“好大夫在線”為數(shù)據(jù)源,運(yùn)用“八爪魚”網(wǎng)絡(luò)數(shù)據(jù)采集器獲取2022年4—5月患者問診數(shù)據(jù)148 376條,每條數(shù)據(jù)包括醫(yī)院ID、醫(yī)院名稱、患者性別、患者年齡、問診時(shí)間、問診文本和科室等信息。然后,按照問診數(shù)量由高到低對醫(yī)院排序,并選擇前100家醫(yī)院的問診記錄作為實(shí)驗(yàn)數(shù)據(jù)集。運(yùn)用jieba分詞工具[16]對問診文本進(jìn)行分詞,并去除停用詞、介詞以及無用詞,建立醫(yī)院問診文本矩陣D。

        4.2 實(shí)驗(yàn)結(jié)果及分析

        4.2.1 醫(yī)院醫(yī)療特色識別 HSM_LDA模型需要設(shè)置4個(gè)參數(shù):超參數(shù)α、β,主題數(shù)K以及迭代采樣次數(shù)。通常情況下:α設(shè)置為0.5/K,β設(shè)置為0.1,迭代次數(shù)設(shè)置為1 000。當(dāng)K設(shè)置為13時(shí),主題困惑度最低。因此以13為主題數(shù)參考點(diǎn),在13±5范圍內(nèi)進(jìn)行多次實(shí)驗(yàn),最終結(jié)果顯示當(dāng)主題數(shù)設(shè)置為15時(shí)主題識別效果最佳。運(yùn)行HSM_LDA模型得到“主題-詞匯”(F)和“醫(yī)院-主題”(E)兩個(gè)分布矩陣。在F分布中,主題生成詞匯概率越大,詞匯的主題屬性越強(qiáng)。按照生成概率的大小選擇生成概率前15位的詞語作為主題關(guān)鍵詞,然后,根據(jù)詞匯表達(dá)出的語義,對特色主題含義進(jìn)行人工標(biāo)注,見表1。

        表1 醫(yī)院特色主題識別結(jié)果(主題前10位)

        從F分布中只能識別出特色主題的含義,不能確定醫(yī)院特色主題。因此,還需要進(jìn)一步結(jié)合E分布來確定醫(yī)院的特色主題。問診量排名前10位的醫(yī)院主題識別結(jié)果,見表2。

        表2 “醫(yī)院-主題”識別結(jié)果(H_ID前10位)

        根據(jù)醫(yī)院生成主題的概率結(jié)果,在保證醫(yī)院特色主題有較高鮮明度的情況下,特色主題不至于太多。設(shè)置醫(yī)院特色主題概率閾值為0.1,高于閾值的主題定義為醫(yī)院特色主題。例如,編號為H_ID1的醫(yī)院特色主題包括主題1、主題3、主題6和主題11。

        結(jié)合表1和表2可以得出醫(yī)院診療特色。例如,編號為H_ID1的醫(yī)院診療特色有:心血管系統(tǒng)疾病、耳鼻喉科疾病、男性生殖系統(tǒng)疾病與肛腸科疾病。依此類推,獲得每家醫(yī)院的醫(yī)療特色。

        4.2.2 醫(yī)院醫(yī)療特色對比 由于多家醫(yī)院中會存在相同醫(yī)療特色,不利于患者選擇就診醫(yī)院,所以對相同醫(yī)療特色下的醫(yī)院進(jìn)行排名。以醫(yī)院主題概率值表示醫(yī)院特色強(qiáng)度,對比同一特色下的多家醫(yī)院,見圖3。該排名有助于患者在多家醫(yī)院特色相同的情況下優(yōu)先選擇特色強(qiáng)度最高的醫(yī)院進(jìn)行就診。

        以安徽醫(yī)科大學(xué)第一附屬醫(yī)院為例,統(tǒng)計(jì)并分析其各科室問診量條數(shù),見圖4。

        圖4 不同科室問診量大小

        再利用本文提出的HSM_LDA模型識別該醫(yī)院特色包含男性生殖系統(tǒng)疾病、心血管系統(tǒng)疾病和兒科疾病。與前文圖4中問診量前3位的科室相符,說明該模型識別出的醫(yī)院特色具有一定準(zhǔn)確性。

        4.2.3 模型評價(jià) 為驗(yàn)證HSM_LDA模型的有效性,以醫(yī)院特色官方介紹作為評價(jià)標(biāo)準(zhǔn),用準(zhǔn)確率作為評價(jià)指標(biāo)。準(zhǔn)確率表示模型識別結(jié)果中符合官方特色數(shù)量(DS)除以模型識別出的特色總量(HS):

        (7)

        結(jié)果發(fā)現(xiàn),本文提出的HSM_LDA模型識別準(zhǔn)確率達(dá)87%(100家醫(yī)院識別準(zhǔn)確率均值),見表3。

        表3 官方特色與模型識別結(jié)果對比(H_ID前5位)

        5 結(jié)語

        本文在梳理OHCs相關(guān)研究時(shí)發(fā)現(xiàn)其無法從全局角度衡量不同醫(yī)院之間的特色差異。為彌補(bǔ)這一缺陷,提出一種基于在線醫(yī)院問診文本的醫(yī)院特色挖掘模型(HSM_LDA)。該模型在傳統(tǒng)LDA模型3層結(jié)構(gòu)的基礎(chǔ)上,用醫(yī)院層代替文本層,建立醫(yī)院、主題、詞匯之間的依賴關(guān)系,通過吉布斯多次采樣生成“醫(yī)院-主題”和“主題-詞匯”兩個(gè)分布矩陣,利用人工標(biāo)注對主題詞匯進(jìn)行識別,從而挖掘醫(yī)院特色。實(shí)驗(yàn)證明,HSM_LDA模型在醫(yī)院特色識別中能達(dá)到較好效果。

        本文提出的HSM_LDA模型易于挖掘OHCs中的醫(yī)院特色,有助于滿足患者選擇最佳就診醫(yī)院的需求,對推動OHCs發(fā)展具有一定積極意義。在后續(xù)研究中,可加入醫(yī)院官網(wǎng)公布的問診記錄,以增強(qiáng)醫(yī)院特色的鮮明程度;進(jìn)一步細(xì)化特色主題含義,提高特色判定的準(zhǔn)確性。目前模型的評價(jià)指標(biāo)較少,后續(xù)研究會加入多種定量指標(biāo),以更好地展示模型性能以及更全面、細(xì)致的醫(yī)院醫(yī)療特色。

        猜你喜歡
        詞匯特色文本
        特色種植促增收
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        在808DA上文本顯示的改善
        中醫(yī)的特色
        本刊可直接用縮寫的常用詞匯
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        完美的特色黨建
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        什么是真正的特色
        亚洲国产精品成人一区二区在线| 99精品视频在线观看| 国产香蕉尹人综合在线观| 日韩精品一二区在线视频| 国产av天堂亚洲av刚刚碰| 精品区2区3区4区产品乱码9| 中国极品少妇videossexhd| 男人深夜影院无码观看| 国产精品久久av高潮呻吟| 无码中文字幕人妻在线一区| 国产免费无码一区二区三区| 中文字幕亚洲好看有码| 亚洲av综合色区久久精品| 新婚少妇无套内谢国语播放| 少妇无码一区二区三区免费| chinese国产在线视频| 国内揄拍国内精品久久| av大片网站在线观看| 午夜被窝精品国产亚洲av香蕉| 亚洲成a v人片在线观看| 人妻丰满熟妇av无码区hd| 一区二区免费国产a在亚洲| 色哟哟亚洲色精一区二区 | 蜜桃视频一区二区三区在线观看| 亚洲日产无码中文字幕| 亚洲天堂av在线观看免费| 美国少妇性xxxx另类| a国产一区二区免费入口| 精品久久久无码不卡| 精品国产中文字幕久久久| 私人毛片免费高清影视院| 乱子伦av无码中文字幕| 在线观看国产自拍视频| 国产成人小视频| 国产激情з∠视频一区二区| 国产亚洲三级在线视频| 日韩一区二区中文字幕| 欧美xxxxx在线观看| 久久日本三级韩国三级| 国产颜射视频在线播放| 中文字幕成人乱码熟女精品国50|