亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本內(nèi)容分析的互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)研究*

        2024-01-03 00:16:44王亞妮
        醫(yī)學(xué)信息學(xué)雜志 2023年11期
        關(guān)鍵詞:文本用戶評(píng)價(jià)

        王 君 姚 唐 王亞妮

        (1北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院 北京 100191 2首都醫(yī)科大學(xué)燕京醫(yī)學(xué)院 北京 101300)

        1 引言

        互聯(lián)網(wǎng)醫(yī)療作為我國(guó)健康科技創(chuàng)新的重要組成部分,是互聯(lián)網(wǎng)技術(shù)在醫(yī)療行業(yè)的落地應(yīng)用?;ヂ?lián)網(wǎng)醫(yī)療平臺(tái)是以醫(yī)療健康信息交流為主的媒介,患者與醫(yī)生可以通過其進(jìn)行健康咨詢、經(jīng)驗(yàn)分享和交流互動(dòng)等活動(dòng),對(duì)日常健康管理和疾病控制有著重要影響[1- 2]。目前國(guó)內(nèi)比較知名的互聯(lián)網(wǎng)醫(yī)療平臺(tái)有“丁香園”“春雨醫(yī)生”“好大夫在線”等。平臺(tái)信息質(zhì)量是影響互聯(lián)網(wǎng)醫(yī)療可持續(xù)發(fā)展的關(guān)鍵因素。然而互聯(lián)網(wǎng)醫(yī)療平臺(tái)在提供便捷資源的同時(shí),面臨著醫(yī)療數(shù)據(jù)龐大、信息質(zhì)量參差不齊等問題[3],影響患者信息瀏覽和健康決策。提高互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量,幫助患者更好地利用平臺(tái)管理健康并預(yù)防疾病,使互聯(lián)網(wǎng)醫(yī)療服務(wù)更好地滿足患者需求,對(duì)互聯(lián)網(wǎng)醫(yī)療平臺(tái)的可持續(xù)發(fā)展具有重要意義。

        目前學(xué)術(shù)界有關(guān)信息質(zhì)量評(píng)價(jià)的研究已有一定基礎(chǔ)[4- 5]。在互聯(lián)網(wǎng)醫(yī)療平臺(tái)方面,主要圍繞平臺(tái)信息服務(wù)質(zhì)量[6-7]、用戶使用意愿[8]及用戶滿意度[9]進(jìn)行研究。互聯(lián)網(wǎng)醫(yī)療信息質(zhì)量評(píng)價(jià)主要借助問卷調(diào)研[10]、專家訪談[11]等定性分析方法,采用文本內(nèi)容分析法對(duì)信息質(zhì)量進(jìn)行評(píng)價(jià)的研究還比較欠缺。因此,本文基于國(guó)內(nèi)典型互聯(lián)網(wǎng)醫(yī)療平臺(tái)數(shù)據(jù),對(duì)用戶發(fā)布的文本內(nèi)容信息進(jìn)行自然語(yǔ)言處理和聚類分析,提取信息質(zhì)量評(píng)價(jià)的特征指標(biāo)建立邏輯回歸模型并進(jìn)行灰色關(guān)聯(lián)度修正,構(gòu)建互聯(lián)網(wǎng)醫(yī)療平臺(tái)的信息質(zhì)量評(píng)價(jià)指標(biāo)體系,以期幫助互聯(lián)網(wǎng)醫(yī)療平臺(tái)構(gòu)建合適的信息搜索規(guī)則、提高服務(wù)質(zhì)量和效率,促進(jìn)互聯(lián)網(wǎng)醫(yī)療資源最大化利用。

        2 資料與方法

        2.1 數(shù)據(jù)來源

        本研究聚焦“丁香園”論壇腫瘤醫(yī)學(xué)板塊用戶主頁(yè)的信息及其發(fā)布的帖子信息。于2021年9—12月基于Python的selenium庫(kù)編寫程序爬取腫瘤醫(yī)學(xué)版塊的29 300篇帖子及其評(píng)論,通過對(duì)帖子進(jìn)行清洗過濾,獲得有效帖子22 057條,涉及發(fā)帖用戶10 725名。爬取的信息主要有文本型和數(shù)值型兩類,帖子信息包括標(biāo)題、內(nèi)容、發(fā)表時(shí)間、標(biāo)簽、評(píng)論、瀏覽量和點(diǎn)贊數(shù)、收藏?cái)?shù)等;用戶信息包括昵稱、職業(yè)、等級(jí)、積分、既往發(fā)帖鏈接、粉絲數(shù)、作品總瀏覽量、帖子被收藏總次數(shù)等。

        2.2 數(shù)據(jù)處理思路

        首先對(duì)文本內(nèi)容清洗和處理,借助北京大學(xué)語(yǔ)言計(jì)算與機(jī)器學(xué)習(xí)組提供的pkuseg多領(lǐng)域分詞庫(kù)對(duì)文本信息進(jìn)行分詞和詞性標(biāo)注;借助哈爾濱工業(yè)大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室創(chuàng)建的停用詞表、百度停用詞表和基于詞頻統(tǒng)計(jì)的人工選擇停用詞方法對(duì)數(shù)據(jù)進(jìn)行停用詞去除;然后根據(jù)詞頻-逆向文件頻率(term frequency-inverse document frequency,TF-IDF)生成文檔向量并基于k-means聚類算法進(jìn)行文本聚類,結(jié)合聚類后的關(guān)鍵詞抽取確定文本類別;最后抽取信息質(zhì)量評(píng)價(jià)指標(biāo),利用Python開源庫(kù)statsmodels提供的統(tǒng)計(jì)分析方法實(shí)現(xiàn)邏輯回歸模型并進(jìn)行灰色關(guān)聯(lián)度修正,構(gòu)建信息質(zhì)量評(píng)價(jià)指標(biāo)體系,見圖1。

        圖1 數(shù)據(jù)處理過程

        2.3 數(shù)據(jù)預(yù)處理

        pkuseg分詞工具致力于為不同領(lǐng)域數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型。用戶可以根據(jù)分詞文本領(lǐng)域特點(diǎn),自由選擇不同模型[11]。分詞后,進(jìn)行停用詞去除。首先利用停用詞表去除常規(guī)無用字詞,接著采用詞頻統(tǒng)計(jì)方法人工選擇進(jìn)一步去除停用詞,最后基于詞匯詞性標(biāo)注去除介詞、副詞、語(yǔ)氣詞、嘆詞、擬聲詞等對(duì)于文本分析無用的字詞。

        2.4 聚類分析

        聚類分析可以幫助分析文本信息的大致分類屬性。采用向量空間模型對(duì)每一個(gè)文檔都用向量dj表示:

        dj=(w1,j,w1,j,…,wt,j)

        (1)

        文檔向量的每個(gè)維度對(duì)應(yīng)一個(gè)詞組。通過TF-IDF方法計(jì)算文檔向量各維度的取值,選取權(quán)重較大的前10 000個(gè)詞組作為TF-IDF各維度對(duì)應(yīng)詞組,構(gòu)建針對(duì)整個(gè)文檔集的TF-IDF矩陣。并采用基于Python的numpy庫(kù)的linalg.svd方法對(duì)TF-IDF矩陣進(jìn)行奇異值分解,在盡可能保留文檔信息的情況下選取r=300,得到原矩陣近似表示。TF-IDF矩陣近似表示如下:

        (2)

        其中,Ur矩陣是取U矩陣的前r列所得矩陣,Wr矩陣是取對(duì)角陣W前r個(gè)對(duì)角元素所得對(duì)角陣,Vr矩陣是選取V矩陣前r行所得矩陣。

        利用構(gòu)建的文檔近似矩陣,采取基于sklearn庫(kù)的聚類方法實(shí)現(xiàn)k-means聚類[12]。在隨機(jī)選取初始聚類中心的前提下,不同k值的聚類算法運(yùn)行結(jié)果對(duì)應(yīng)的輪廓系數(shù)不同。k取值為6時(shí)對(duì)應(yīng)的輪廓系數(shù)最大,因此k-means聚類k值設(shè)置為6。采用隨機(jī)選取初始聚類中心并設(shè)定k值為6的條件將文檔集聚成6類。對(duì)各類別文檔進(jìn)行詞頻統(tǒng)計(jì),并根據(jù)高頻詞匯將各類別進(jìn)行歸納。

        2.5 指標(biāo)提取及說明

        借鑒醫(yī)學(xué)信息和信息管理領(lǐng)域信息質(zhì)量評(píng)價(jià)的相關(guān)研究,結(jié)合互聯(lián)網(wǎng)醫(yī)療平臺(tái)特征,選取一級(jí)指標(biāo)和對(duì)應(yīng)的二級(jí)指標(biāo),見表1。

        表1 互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)

        2.6 模型構(gòu)建

        因變量為離散變量的計(jì)量模型稱為離散被解釋變量模型。在離散被解釋變量模型中,邏輯回歸模型因其具有簡(jiǎn)單、可并行化、可解釋性強(qiáng)等特點(diǎn)而被廣泛使用[13]。邏輯回歸模型思想是使個(gè)體為某一類別的概率最大化,采用最大似然法進(jìn)行參數(shù)估計(jì)。

        灰色關(guān)聯(lián)度分析是灰色系統(tǒng)理論中非?;钴S的分支,其基本思想是根據(jù)各序列的相似程度來判斷其之間聯(lián)系是否緊密[14]?;疑P(guān)聯(lián)度分析可以從多角度對(duì)物品質(zhì)量進(jìn)行評(píng)價(jià),具有操作性強(qiáng)、效果好等優(yōu)點(diǎn)。基于互聯(lián)網(wǎng)醫(yī)療信息質(zhì)量評(píng)價(jià)指標(biāo),采用邏輯回歸模型和灰色關(guān)聯(lián)度修正對(duì)影響信息質(zhì)量評(píng)價(jià)的影響因素進(jìn)行分析:

        lnP=βXT

        (3)

        其中P為使帖子為高質(zhì)量帖子的概率,β為系數(shù)向量,X為指標(biāo)向量。

        3 結(jié)果

        3.1 數(shù)據(jù)處理結(jié)果

        3.1.1 詞云圖展示 對(duì)文本進(jìn)行分詞和停用詞處理后繪制詞云圖,見圖2。詞云圖主要是對(duì)文本數(shù)據(jù)進(jìn)行視覺表示,通過不同的字體大小和顏色展示每個(gè)詞的重要性,便于讀者迅速直觀地了解詞的重要程度和文本內(nèi)容主旨?!岸∠銏@”腫瘤醫(yī)學(xué)板塊的帖子及評(píng)論出現(xiàn)頻次最高的關(guān)鍵詞主要涉及腫瘤、資訊、發(fā)現(xiàn)、情況、免疫、治療等,這些關(guān)鍵詞都與用戶的健康咨詢、知識(shí)分享、病例共享等內(nèi)容和服務(wù)密切相關(guān)。

        圖2 基于文本內(nèi)容的詞云圖構(gòu)建

        3.1.2 聚類分析結(jié)果 共得到6個(gè)聚類結(jié)果。第1類高頻詞包含腫瘤、研究、細(xì)胞、治療、免疫、患者、癌癥、基因、臨床等,稱為醫(yī)學(xué)研究;第2類高頻詞包括下載、指南、鏈接、翻譯、臨床、腫瘤等,稱為知識(shí)分享;第3類高頻詞包括治療、患者、腫瘤、化療、藥物、手術(shù)、轉(zhuǎn)移、方案、檢查等,稱為治療方案;第4類高頻詞有患者、癌癥、治療、食物、作用、飲食、化療、營(yíng)養(yǎng)等,稱為患者養(yǎng)護(hù);第5類高頻詞有腫瘤、治療、臨床、手術(shù)、醫(yī)師、化療、內(nèi)科、患者、解剖等,稱為醫(yī)患交流;第6類包含許多無醫(yī)學(xué)含義詞匯,歸為雜項(xiàng)。對(duì)聚類后各類別分布情況進(jìn)行分析,治療方案類帖子數(shù)量最多,醫(yī)患交流類、知識(shí)分享類和雜項(xiàng)類帖子占比很小,見圖3。

        3.2 信息質(zhì)量評(píng)價(jià)模型結(jié)果

        在實(shí)證模型中,以帖子標(biāo)簽為被解釋變量,提取到的二級(jí)指標(biāo)為自變量,進(jìn)行邏輯回歸,見表2。其中系數(shù)指各自變量對(duì)被解釋變量的影響系數(shù)。對(duì)模型的整體檢驗(yàn)log-likelihood值為-4 032.2,說明自變量組合對(duì)被解釋變量的影響具有統(tǒng)計(jì)學(xué)意義。在α=0.05的顯著性水平下,除可讀性(RE)、主題相關(guān)度(TS)及發(fā)布者粉絲數(shù)(AS_1)3項(xiàng)指標(biāo)外,其他指標(biāo)對(duì)信息質(zhì)量評(píng)價(jià)的影響均具有統(tǒng)計(jì)學(xué)意義(P<0.05)。

        表2 信息質(zhì)量評(píng)價(jià)模型(一)

        3.3 灰色關(guān)聯(lián)度修正結(jié)果

        對(duì)模型進(jìn)行灰色關(guān)聯(lián)度修正,見圖4?;疑P(guān)聯(lián)度值大于0.9表示指標(biāo)間具有較強(qiáng)的相關(guān)性,基于邏輯回歸的結(jié)果剔除完整性(CT)、可讀性(RE)、信息量(AI)、主題相關(guān)度(TS)及發(fā)布者粉絲數(shù)(AS_1)變量,對(duì)數(shù)據(jù)進(jìn)行第2次邏輯回歸,見表3。結(jié)果顯示所有變量均具有統(tǒng)計(jì)學(xué)意義(P<0.05),修正前后回歸模型的擬合系數(shù)R2分別為0.284 6和0.278 5,均方誤差相近,表明兩次回歸結(jié)果對(duì)樣本的擬合效果相近。灰色關(guān)聯(lián)度修正之后的邏輯回歸模型如下:

        表3 信息質(zhì)量評(píng)價(jià)模型(二)

        圖4 灰色關(guān)聯(lián)度分析結(jié)果

        lnP=28.207 3×R+0.007 1×E+0.000 026 9×
        PO+1.627 9×CS+0.997 9×CR+0.025 6×I+
        0.121 8×AS_2-0.002 6×AS_3-2.791 4

        (4)

        3.4 互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)體系

        基于邏輯回歸和灰色關(guān)聯(lián)度修正的模型分析后的信息質(zhì)量評(píng)價(jià)指標(biāo)體系,見圖5。

        圖5 互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)體系

        4 討論

        4.1 互聯(lián)網(wǎng)醫(yī)療平臺(tái)在發(fā)布信息時(shí)應(yīng)注重信息呈現(xiàn)的豐富度

        互聯(lián)網(wǎng)醫(yī)療平臺(tái)中的信息特征在其質(zhì)量評(píng)價(jià)中具有至關(guān)重要的作用,且主要體現(xiàn)在信息的豐富度方面。信息形式是用戶瀏覽時(shí)的直觀印象,對(duì)于嘗試在平臺(tái)上尋求信息支持的患者來說非常重要?;ヂ?lián)網(wǎng)醫(yī)療平臺(tái)應(yīng)當(dāng)采取措施鼓勵(lì)用戶發(fā)布信息量大、信息豐富多樣的帖子,吸引更多用戶參與平臺(tái)互動(dòng),信息呈現(xiàn)的豐富度直接決定信息被接納的難易程度[15]。面對(duì)種類繁多的信息,互聯(lián)網(wǎng)醫(yī)療平臺(tái)發(fā)展不應(yīng)局限于單一的文字信息形式,還可以發(fā)布如短視頻、圖片等有趣的信息吸引用戶,讓用戶更愿意投入平臺(tái)。

        4.2 用戶之間的交流互動(dòng)有助于提升互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量

        互聯(lián)網(wǎng)醫(yī)療平臺(tái)上用戶發(fā)布的信息被其他用戶瀏覽并產(chǎn)生具體的互動(dòng)如點(diǎn)贊、收藏和評(píng)論等行為時(shí),此信息得到的正面評(píng)價(jià)會(huì)顯著提升。用戶之間的交流互動(dòng)一方面使用戶發(fā)布的信息被更多信息搜尋者知曉;另一方面,用戶之間的交流互動(dòng)也可以引導(dǎo)其他用戶更精準(zhǔn)、專業(yè)地貢獻(xiàn)信息,平臺(tái)用戶作為醫(yī)療信息接收者的同時(shí),也可作為信息提供者來分享知識(shí),促進(jìn)互聯(lián)網(wǎng)醫(yī)療服務(wù)的發(fā)展[16]。用戶的積極參與和交流互動(dòng)有助于實(shí)現(xiàn)互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息價(jià)值。

        4.3 信息發(fā)布者的權(quán)威性是互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)的重要因素

        發(fā)布者的權(quán)威性是指發(fā)布者對(duì)該領(lǐng)域知識(shí)的掌握及專業(yè)程度,身份權(quán)威發(fā)布者的帖子更具有說服力,對(duì)于其他用戶來說更有價(jià)值[17]。互聯(lián)網(wǎng)醫(yī)療平臺(tái)應(yīng)注意采取適當(dāng)措施控制用戶積分的發(fā)放,因?yàn)楫?dāng)用戶獲得較高積分時(shí),反而不利于其提供高質(zhì)量信息。在信息過載時(shí)代,只有在源頭保證信息質(zhì)量,即確保信息發(fā)布者的權(quán)威性,平臺(tái)中發(fā)布的信息才會(huì)有參考和借鑒意義。平臺(tái)可以讓瀏覽信息的用戶對(duì)發(fā)布信息進(jìn)行打分,再結(jié)合發(fā)布者的特征如年齡、受教育程度、患病時(shí)長(zhǎng)等加權(quán)得到該發(fā)布者的總體權(quán)威性得分。

        5 結(jié)語(yǔ)

        本研究以國(guó)內(nèi)典型互聯(lián)網(wǎng)醫(yī)療平臺(tái)為研究對(duì)象,借助Python網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù),采用自然語(yǔ)言處理和文本內(nèi)容分析對(duì)用戶發(fā)布的帖子進(jìn)行聚類分析和特征提取,并設(shè)計(jì)了基于邏輯回歸模型和灰色關(guān)聯(lián)度修正實(shí)驗(yàn)的互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)體系,有助于用戶發(fā)布高質(zhì)量信息并快速識(shí)別有價(jià)值的信息,也將有助于互聯(lián)網(wǎng)醫(yī)療平臺(tái)構(gòu)建合適的信息搜索規(guī)則,以及提高信息服務(wù)質(zhì)量和效率。

        猜你喜歡
        文本用戶評(píng)價(jià)
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        如何獲取一億海外用戶
        如何快速走進(jìn)文本
        少妇被粗大的猛进69视频| 熟女熟妇伦av网站| 99re久久精品国产| 正在播放国产多p交换视频| 国产伦码精品一区二区| 国产区一区二区三区性色| 丰满大爆乳波霸奶| 躁躁躁日日躁| 亚洲国产成人无码电影| 白白色最新福利视频二| 亚洲sm另类一区二区三区| a国产一区二区免费入口| 综合色久七七综合尤物| 国产成年无码久久久免费 | 深夜福利啪啪片| 69久久夜色精品国产69| 国产精品乱子伦一区二区三区 | 色综合久久丁香婷婷| 大量老肥熟女老女人自拍| 日韩三级一区二区三区| www射我里面在线观看| 成人激情四射网| 精品一区二区三区老熟女少妇| 日本在线观看一二三区| 人人爽人人爽人人片av| 亚洲精品成人区在线观看| 亚洲区偷拍自拍29p| 久久成人永久婷婷99精品| 亚洲精品欧美精品日韩精品| 乱子伦视频在线看| 亚洲成a人片77777kkkkk| 精品一区2区3区4区| 高h小月被几个老头调教 | 色一情一乱一伦一区二区三欧美| 欧美韩国精品另类综合| 日本一区二区三区在线视频播放| 青青手机在线观看视频| 精品国产人成亚洲区| 亚洲狼人社区av在线观看| 91精品国产九色综合久久香蕉| 国产午夜成人av在线播放|