亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文本內(nèi)容分析的互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)研究*

2024-01-03 00:16:44王亞妮

醫(yī)學(xué)信息學(xué)雜志 2023年11期

王君姚唐王亞妮

(1北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院北京 100191 2首都醫(yī)科大學(xué)燕京醫(yī)學(xué)院北京 101300)

1 引言

互聯(lián)網(wǎng)醫(yī)療作為我國(guó)健康科技創(chuàng)新的重要組成部分，是互聯(lián)網(wǎng)技術(shù)在醫(yī)療行業(yè)的落地應(yīng)用?；ヂ?lián)網(wǎng)醫(yī)療平臺(tái)是以醫(yī)療健康信息交流為主的媒介，患者與醫(yī)生可以通過其進(jìn)行健康咨詢、經(jīng)驗(yàn)分享和交流互動(dòng)等活動(dòng)，對(duì)日常健康管理和疾病控制有著重要影響[1- 2]。目前國(guó)內(nèi)比較知名的互聯(lián)網(wǎng)醫(yī)療平臺(tái)有“丁香園”“春雨醫(yī)生”“好大夫在線”等。平臺(tái)信息質(zhì)量是影響互聯(lián)網(wǎng)醫(yī)療可持續(xù)發(fā)展的關(guān)鍵因素。然而互聯(lián)網(wǎng)醫(yī)療平臺(tái)在提供便捷資源的同時(shí)，面臨著醫(yī)療數(shù)據(jù)龐大、信息質(zhì)量參差不齊等問題[3]，影響患者信息瀏覽和健康決策。提高互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量，幫助患者更好地利用平臺(tái)管理健康并預(yù)防疾病，使互聯(lián)網(wǎng)醫(yī)療服務(wù)更好地滿足患者需求，對(duì)互聯(lián)網(wǎng)醫(yī)療平臺(tái)的可持續(xù)發(fā)展具有重要意義。

目前學(xué)術(shù)界有關(guān)信息質(zhì)量評(píng)價(jià)的研究已有一定基礎(chǔ)[4- 5]。在互聯(lián)網(wǎng)醫(yī)療平臺(tái)方面，主要圍繞平臺(tái)信息服務(wù)質(zhì)量[6-7]、用戶使用意愿[8]及用戶滿意度[9]進(jìn)行研究。互聯(lián)網(wǎng)醫(yī)療信息質(zhì)量評(píng)價(jià)主要借助問卷調(diào)研[10]、專家訪談[11]等定性分析方法，采用文本內(nèi)容分析法對(duì)信息質(zhì)量進(jìn)行評(píng)價(jià)的研究還比較欠缺。因此，本文基于國(guó)內(nèi)典型互聯(lián)網(wǎng)醫(yī)療平臺(tái)數(shù)據(jù)，對(duì)用戶發(fā)布的文本內(nèi)容信息進(jìn)行自然語(yǔ)言處理和聚類分析，提取信息質(zhì)量評(píng)價(jià)的特征指標(biāo)建立邏輯回歸模型并進(jìn)行灰色關(guān)聯(lián)度修正，構(gòu)建互聯(lián)網(wǎng)醫(yī)療平臺(tái)的信息質(zhì)量評(píng)價(jià)指標(biāo)體系，以期幫助互聯(lián)網(wǎng)醫(yī)療平臺(tái)構(gòu)建合適的信息搜索規(guī)則、提高服務(wù)質(zhì)量和效率，促進(jìn)互聯(lián)網(wǎng)醫(yī)療資源最大化利用。

2 資料與方法

2.1 數(shù)據(jù)來源

本研究聚焦“丁香園”論壇腫瘤醫(yī)學(xué)板塊用戶主頁(yè)的信息及其發(fā)布的帖子信息。于2021年9—12月基于Python的selenium庫(kù)編寫程序爬取腫瘤醫(yī)學(xué)版塊的29 300篇帖子及其評(píng)論，通過對(duì)帖子進(jìn)行清洗過濾，獲得有效帖子22 057條，涉及發(fā)帖用戶10 725名。爬取的信息主要有文本型和數(shù)值型兩類，帖子信息包括標(biāo)題、內(nèi)容、發(fā)表時(shí)間、標(biāo)簽、評(píng)論、瀏覽量和點(diǎn)贊數(shù)、收藏?cái)?shù)等；用戶信息包括昵稱、職業(yè)、等級(jí)、積分、既往發(fā)帖鏈接、粉絲數(shù)、作品總瀏覽量、帖子被收藏總次數(shù)等。

2.2 數(shù)據(jù)處理思路

首先對(duì)文本內(nèi)容清洗和處理，借助北京大學(xué)語(yǔ)言計(jì)算與機(jī)器學(xué)習(xí)組提供的pkuseg多領(lǐng)域分詞庫(kù)對(duì)文本信息進(jìn)行分詞和詞性標(biāo)注；借助哈爾濱工業(yè)大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室創(chuàng)建的停用詞表、百度停用詞表和基于詞頻統(tǒng)計(jì)的人工選擇停用詞方法對(duì)數(shù)據(jù)進(jìn)行停用詞去除；然后根據(jù)詞頻-逆向文件頻率(term frequency-inverse document frequency，TF-IDF)生成文檔向量并基于k-means聚類算法進(jìn)行文本聚類，結(jié)合聚類后的關(guān)鍵詞抽取確定文本類別；最后抽取信息質(zhì)量評(píng)價(jià)指標(biāo)，利用Python開源庫(kù)statsmodels提供的統(tǒng)計(jì)分析方法實(shí)現(xiàn)邏輯回歸模型并進(jìn)行灰色關(guān)聯(lián)度修正，構(gòu)建信息質(zhì)量評(píng)價(jià)指標(biāo)體系，見圖1。

圖1 數(shù)據(jù)處理過程

2.3 數(shù)據(jù)預(yù)處理

pkuseg分詞工具致力于為不同領(lǐng)域數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型。用戶可以根據(jù)分詞文本領(lǐng)域特點(diǎn)，自由選擇不同模型[11]。分詞后，進(jìn)行停用詞去除。首先利用停用詞表去除常規(guī)無用字詞，接著采用詞頻統(tǒng)計(jì)方法人工選擇進(jìn)一步去除停用詞，最后基于詞匯詞性標(biāo)注去除介詞、副詞、語(yǔ)氣詞、嘆詞、擬聲詞等對(duì)于文本分析無用的字詞。

2.4 聚類分析

聚類分析可以幫助分析文本信息的大致分類屬性。采用向量空間模型對(duì)每一個(gè)文檔都用向量dj表示：

dj=(w1，j，w1，j，…，wt，j)

(1)

文檔向量的每個(gè)維度對(duì)應(yīng)一個(gè)詞組。通過TF-IDF方法計(jì)算文檔向量各維度的取值，選取權(quán)重較大的前10 000個(gè)詞組作為TF-IDF各維度對(duì)應(yīng)詞組，構(gòu)建針對(duì)整個(gè)文檔集的TF-IDF矩陣。并采用基于Python的numpy庫(kù)的linalg.svd方法對(duì)TF-IDF矩陣進(jìn)行奇異值分解，在盡可能保留文檔信息的情況下選取r=300，得到原矩陣近似表示。TF-IDF矩陣近似表示如下：

(2)

其中，Ur矩陣是取U矩陣的前r列所得矩陣，Wr矩陣是取對(duì)角陣W前r個(gè)對(duì)角元素所得對(duì)角陣，Vr矩陣是選取V矩陣前r行所得矩陣。

利用構(gòu)建的文檔近似矩陣，采取基于sklearn庫(kù)的聚類方法實(shí)現(xiàn)k-means聚類[12]。在隨機(jī)選取初始聚類中心的前提下，不同k值的聚類算法運(yùn)行結(jié)果對(duì)應(yīng)的輪廓系數(shù)不同。k取值為6時(shí)對(duì)應(yīng)的輪廓系數(shù)最大，因此k-means聚類k值設(shè)置為6。采用隨機(jī)選取初始聚類中心并設(shè)定k值為6的條件將文檔集聚成6類。對(duì)各類別文檔進(jìn)行詞頻統(tǒng)計(jì)，并根據(jù)高頻詞匯將各類別進(jìn)行歸納。

2.5 指標(biāo)提取及說明

借鑒醫(yī)學(xué)信息和信息管理領(lǐng)域信息質(zhì)量評(píng)價(jià)的相關(guān)研究，結(jié)合互聯(lián)網(wǎng)醫(yī)療平臺(tái)特征，選取一級(jí)指標(biāo)和對(duì)應(yīng)的二級(jí)指標(biāo)，見表1。

表1 互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)

2.6 模型構(gòu)建

因變量為離散變量的計(jì)量模型稱為離散被解釋變量模型。在離散被解釋變量模型中，邏輯回歸模型因其具有簡(jiǎn)單、可并行化、可解釋性強(qiáng)等特點(diǎn)而被廣泛使用[13]。邏輯回歸模型思想是使個(gè)體為某一類別的概率最大化，采用最大似然法進(jìn)行參數(shù)估計(jì)。

灰色關(guān)聯(lián)度分析是灰色系統(tǒng)理論中非?；钴S的分支，其基本思想是根據(jù)各序列的相似程度來判斷其之間聯(lián)系是否緊密[14]?；疑P(guān)聯(lián)度分析可以從多角度對(duì)物品質(zhì)量進(jìn)行評(píng)價(jià)，具有操作性強(qiáng)、效果好等優(yōu)點(diǎn)。基于互聯(lián)網(wǎng)醫(yī)療信息質(zhì)量評(píng)價(jià)指標(biāo)，采用邏輯回歸模型和灰色關(guān)聯(lián)度修正對(duì)影響信息質(zhì)量評(píng)價(jià)的影響因素進(jìn)行分析：

lnP=βXT

(3)

其中P為使帖子為高質(zhì)量帖子的概率，β為系數(shù)向量，X為指標(biāo)向量。

3 結(jié)果

3.1 數(shù)據(jù)處理結(jié)果

3.1.1 詞云圖展示對(duì)文本進(jìn)行分詞和停用詞處理后繪制詞云圖，見圖2。詞云圖主要是對(duì)文本數(shù)據(jù)進(jìn)行視覺表示，通過不同的字體大小和顏色展示每個(gè)詞的重要性，便于讀者迅速直觀地了解詞的重要程度和文本內(nèi)容主旨?！岸∠銏@”腫瘤醫(yī)學(xué)板塊的帖子及評(píng)論出現(xiàn)頻次最高的關(guān)鍵詞主要涉及腫瘤、資訊、發(fā)現(xiàn)、情況、免疫、治療等，這些關(guān)鍵詞都與用戶的健康咨詢、知識(shí)分享、病例共享等內(nèi)容和服務(wù)密切相關(guān)。

圖2 基于文本內(nèi)容的詞云圖構(gòu)建

3.1.2 聚類分析結(jié)果共得到6個(gè)聚類結(jié)果。第1類高頻詞包含腫瘤、研究、細(xì)胞、治療、免疫、患者、癌癥、基因、臨床等，稱為醫(yī)學(xué)研究；第2類高頻詞包括下載、指南、鏈接、翻譯、臨床、腫瘤等，稱為知識(shí)分享；第3類高頻詞包括治療、患者、腫瘤、化療、藥物、手術(shù)、轉(zhuǎn)移、方案、檢查等，稱為治療方案；第4類高頻詞有患者、癌癥、治療、食物、作用、飲食、化療、營(yíng)養(yǎng)等，稱為患者養(yǎng)護(hù)；第5類高頻詞有腫瘤、治療、臨床、手術(shù)、醫(yī)師、化療、內(nèi)科、患者、解剖等，稱為醫(yī)患交流；第6類包含許多無醫(yī)學(xué)含義詞匯，歸為雜項(xiàng)。對(duì)聚類后各類別分布情況進(jìn)行分析，治療方案類帖子數(shù)量最多，醫(yī)患交流類、知識(shí)分享類和雜項(xiàng)類帖子占比很小，見圖3。

3.2 信息質(zhì)量評(píng)價(jià)模型結(jié)果

在實(shí)證模型中，以帖子標(biāo)簽為被解釋變量，提取到的二級(jí)指標(biāo)為自變量，進(jìn)行邏輯回歸，見表2。其中系數(shù)指各自變量對(duì)被解釋變量的影響系數(shù)。對(duì)模型的整體檢驗(yàn)log-likelihood值為-4 032.2，說明自變量組合對(duì)被解釋變量的影響具有統(tǒng)計(jì)學(xué)意義。在α=0.05的顯著性水平下，除可讀性(RE)、主題相關(guān)度(TS)及發(fā)布者粉絲數(shù)(AS_1)3項(xiàng)指標(biāo)外，其他指標(biāo)對(duì)信息質(zhì)量評(píng)價(jià)的影響均具有統(tǒng)計(jì)學(xué)意義(P<0.05)。

表2 信息質(zhì)量評(píng)價(jià)模型(一)

3.3 灰色關(guān)聯(lián)度修正結(jié)果

對(duì)模型進(jìn)行灰色關(guān)聯(lián)度修正，見圖4?；疑P(guān)聯(lián)度值大于0.9表示指標(biāo)間具有較強(qiáng)的相關(guān)性，基于邏輯回歸的結(jié)果剔除完整性(CT)、可讀性(RE)、信息量(AI)、主題相關(guān)度(TS)及發(fā)布者粉絲數(shù)(AS_1)變量，對(duì)數(shù)據(jù)進(jìn)行第2次邏輯回歸，見表3。結(jié)果顯示所有變量均具有統(tǒng)計(jì)學(xué)意義(P<0.05)，修正前后回歸模型的擬合系數(shù)R2分別為0.284 6和0.278 5，均方誤差相近，表明兩次回歸結(jié)果對(duì)樣本的擬合效果相近。灰色關(guān)聯(lián)度修正之后的邏輯回歸模型如下：

表3 信息質(zhì)量評(píng)價(jià)模型(二)

圖4 灰色關(guān)聯(lián)度分析結(jié)果

lnP=28.207 3×R+0.007 1×E+0.000 026 9×
PO+1.627 9×CS+0.997 9×CR+0.025 6×I+
0.121 8×AS_2-0.002 6×AS_3-2.791 4

(4)

3.4 互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)體系

基于邏輯回歸和灰色關(guān)聯(lián)度修正的模型分析后的信息質(zhì)量評(píng)價(jià)指標(biāo)體系，見圖5。

圖5 互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)體系

4 討論

4.1 互聯(lián)網(wǎng)醫(yī)療平臺(tái)在發(fā)布信息時(shí)應(yīng)注重信息呈現(xiàn)的豐富度

互聯(lián)網(wǎng)醫(yī)療平臺(tái)中的信息特征在其質(zhì)量評(píng)價(jià)中具有至關(guān)重要的作用，且主要體現(xiàn)在信息的豐富度方面。信息形式是用戶瀏覽時(shí)的直觀印象，對(duì)于嘗試在平臺(tái)上尋求信息支持的患者來說非常重要?；ヂ?lián)網(wǎng)醫(yī)療平臺(tái)應(yīng)當(dāng)采取措施鼓勵(lì)用戶發(fā)布信息量大、信息豐富多樣的帖子，吸引更多用戶參與平臺(tái)互動(dòng)，信息呈現(xiàn)的豐富度直接決定信息被接納的難易程度[15]。面對(duì)種類繁多的信息，互聯(lián)網(wǎng)醫(yī)療平臺(tái)發(fā)展不應(yīng)局限于單一的文字信息形式，還可以發(fā)布如短視頻、圖片等有趣的信息吸引用戶，讓用戶更愿意投入平臺(tái)。

4.2 用戶之間的交流互動(dòng)有助于提升互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量

互聯(lián)網(wǎng)醫(yī)療平臺(tái)上用戶發(fā)布的信息被其他用戶瀏覽并產(chǎn)生具體的互動(dòng)如點(diǎn)贊、收藏和評(píng)論等行為時(shí)，此信息得到的正面評(píng)價(jià)會(huì)顯著提升。用戶之間的交流互動(dòng)一方面使用戶發(fā)布的信息被更多信息搜尋者知曉；另一方面，用戶之間的交流互動(dòng)也可以引導(dǎo)其他用戶更精準(zhǔn)、專業(yè)地貢獻(xiàn)信息，平臺(tái)用戶作為醫(yī)療信息接收者的同時(shí)，也可作為信息提供者來分享知識(shí)，促進(jìn)互聯(lián)網(wǎng)醫(yī)療服務(wù)的發(fā)展[16]。用戶的積極參與和交流互動(dòng)有助于實(shí)現(xiàn)互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息價(jià)值。

4.3 信息發(fā)布者的權(quán)威性是互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)的重要因素

發(fā)布者的權(quán)威性是指發(fā)布者對(duì)該領(lǐng)域知識(shí)的掌握及專業(yè)程度，身份權(quán)威發(fā)布者的帖子更具有說服力，對(duì)于其他用戶來說更有價(jià)值[17]。互聯(lián)網(wǎng)醫(yī)療平臺(tái)應(yīng)注意采取適當(dāng)措施控制用戶積分的發(fā)放，因?yàn)楫?dāng)用戶獲得較高積分時(shí)，反而不利于其提供高質(zhì)量信息。在信息過載時(shí)代，只有在源頭保證信息質(zhì)量，即確保信息發(fā)布者的權(quán)威性，平臺(tái)中發(fā)布的信息才會(huì)有參考和借鑒意義。平臺(tái)可以讓瀏覽信息的用戶對(duì)發(fā)布信息進(jìn)行打分，再結(jié)合發(fā)布者的特征如年齡、受教育程度、患病時(shí)長(zhǎng)等加權(quán)得到該發(fā)布者的總體權(quán)威性得分。

5 結(jié)語(yǔ)

本研究以國(guó)內(nèi)典型互聯(lián)網(wǎng)醫(yī)療平臺(tái)為研究對(duì)象，借助Python網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)，采用自然語(yǔ)言處理和文本內(nèi)容分析對(duì)用戶發(fā)布的帖子進(jìn)行聚類分析和特征提取，并設(shè)計(jì)了基于邏輯回歸模型和灰色關(guān)聯(lián)度修正實(shí)驗(yàn)的互聯(lián)網(wǎng)醫(yī)療平臺(tái)信息質(zhì)量評(píng)價(jià)指標(biāo)體系，有助于用戶發(fā)布高質(zhì)量信息并快速識(shí)別有價(jià)值的信息，也將有助于互聯(lián)網(wǎng)醫(yī)療平臺(tái)構(gòu)建合適的信息搜索規(guī)則，以及提高信息服務(wù)質(zhì)量和效率。