亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        在線健康社區(qū)中用戶畫像及主題特征分布下信息需求研究
        ——以醫(yī)享網(wǎng)結(jié)直腸癌圈數(shù)據(jù)為例

        2021-04-21 07:31:54鄭姝雅解綺雯秦新國
        情報學(xué)報 2021年3期
        關(guān)鍵詞:類目畫像社區(qū)

        盛 姝,黃 奇,鄭姝雅,楊 洋,解綺雯,張 戈,秦新國

        (1. 南京大學(xué)信息管理學(xué)院,南京 210046;2. 南京大學(xué)國家信息資源管理南京研究基地,南京 210093;3. 南京大學(xué)工程管理學(xué)院,南京 210093;4. 南京審計大學(xué)信息化辦公室,南京 211815)

        1 引 言

        當(dāng)前,各國政府對于公眾的健康信息有著極大的關(guān)注。 “歐盟健康計劃” 將健康信息管理確定為23 個優(yōu)先領(lǐng)域之一。中國共產(chǎn)黨第十九次全國代表大會中習(xí)總書記指出,要 “實施健康中國戰(zhàn)略。要完善國民健康策略,為人民群眾提供全方位全周期健康服務(wù)” 。對于我國尚未成熟的在線健康平臺來說,這也意味著更大的發(fā)展空間。同時,根據(jù)艾瑞咨詢《在線醫(yī)療市場規(guī)模報告》①http://www.360doc.com/content/17/0228/16/9693582_632729063.shtml發(fā)布的數(shù)據(jù),截至2016 年,我國在線醫(yī)療市場規(guī)模已經(jīng)達(dá)到223 億元,醫(yī)療類APP 市場格局已基本成型,并且形成了一批具有影響力的在線健康社區(qū),如 “尋藥問醫(yī)” “好大夫在線” 等通過網(wǎng)絡(luò)服務(wù)為互聯(lián)網(wǎng)用戶提供各類健康信息咨詢服務(wù)。在線健康社區(qū)中,公眾不再僅僅作為互聯(lián)網(wǎng)信息的受眾者,同時也成為了互聯(lián)網(wǎng)內(nèi)容的創(chuàng)造者。因此,積累下了豐富的用戶生成內(nèi)容(user generated content,UGC),蘊(yùn)含著大量的包括公眾需求傾向的文字、圖片和音頻等非結(jié)構(gòu)化數(shù)據(jù)資源。在海量數(shù)據(jù)下,精準(zhǔn)識別患者用戶信息需求,不僅可有效改善社區(qū)患者自我管理行為和疾病控制狀況,減少甚至消除知識不對稱現(xiàn)象;而且對于促進(jìn)線上醫(yī)療健康行業(yè)發(fā)展,發(fā)揮在線健康社區(qū)的積極作用,推動我國健康服務(wù)產(chǎn)業(yè)的發(fā)展具有重大意義。

        2 文獻(xiàn)綜述

        2.1 健康信息行為研究現(xiàn)狀

        當(dāng)前,各國學(xué)者從不同的經(jīng)典模型及理論出發(fā),對在線健康社區(qū)用戶信息需求分析方面做出許多具有實踐意義的研究成果。吳江等[1]以Web of Science 中1899 篇相關(guān)文獻(xiàn)為來源,梳理了國內(nèi)外在線醫(yī)療健康領(lǐng)域的主題演化、研究熱點(diǎn)和研究方法,將健康信息行為劃分為信息獲取、信息搜索行為、信息質(zhì)量評估、信息素養(yǎng)與信息利用等內(nèi)容。其中,信息搜索行為研究最為廣泛。張海濤等[2]基于概念格刻畫細(xì)分用戶畫像,揭示了不同類型群體用戶多維度的特征以及不同情境下的行為特征;李敏等[3]探索了微博環(huán)境下用戶健康信息擴(kuò)散行為的影響因素;張敏等[4]通過調(diào)查問卷等形式,研究了在線健康社區(qū)診療信息求助行為研究的行程路徑。

        由于互聯(lián)網(wǎng)信息質(zhì)量參差不齊,用戶在得到檢索結(jié)果后通常會對獲得的信息進(jìn)行質(zhì)量評估。例如,李月琳等[5]針對我國在線健康平臺的信息服務(wù)質(zhì)量構(gòu)建評價指標(biāo)體系,搭建起了信息服務(wù)質(zhì)量與用戶參與度之間的關(guān)系模型。錢明輝等[6]通過構(gòu)建指標(biāo)評價基于用戶參與的在線健康平臺信息服務(wù)質(zhì)量,研究表明,在線平臺的信息服務(wù)質(zhì)量對用戶參與度有一定影響,用戶參與度則可以有效的改變用戶自我管理行為和疾病控制。

        2.2 社交媒體健康研究現(xiàn)狀

        Facebook、Twitter、微博等社交媒體的發(fā)展豐富了醫(yī)療健康信息的來源,也為用戶獲取知識、交流情感和表達(dá)個人觀點(diǎn)提供了平臺。Pérez-Pérez等[7]根據(jù)Twitter 平臺上的數(shù)據(jù),挖掘了活躍用戶,并通過實體識別等技術(shù)識別用戶關(guān)注主題。Zhang等[8]發(fā)現(xiàn),用戶主要圍繞疾病信息、個人情感、社區(qū)建設(shè)等內(nèi)容進(jìn)行互動交流,并形成一個相互陪伴與支持的社交網(wǎng)絡(luò)。Sudau 等[9]認(rèn)為,用戶在論壇或者在社區(qū)中發(fā)布的健康信息主要來自社交媒體,一小部分活躍用戶推動話題的討論和傳播。

        此外,越來越多醫(yī)療衛(wèi)生組織在媒體中發(fā)布健康相關(guān)的信息或視頻,而社交媒體中的評論和評分反映了受眾對這些活動的觀點(diǎn)和情緒。劉冰等[10]認(rèn)為,健康類社交網(wǎng)絡(luò)平臺不但成為滿足其獲得用戶健康信息需求的重要途徑,也成為其獲得用戶有效心理關(guān)愛和情感需求的重要渠道。Kwak 等[11]研究發(fā)現(xiàn),Twitter 熱門話題中的博文在轉(zhuǎn)發(fā)后信息得到快速擴(kuò)散,且按照粉絲數(shù)量、PageRank 算法以及轉(zhuǎn)發(fā)數(shù)量對Twitter 用戶進(jìn)行影響力排名,發(fā)現(xiàn)意見領(lǐng)袖的影響力不受限于意見領(lǐng)袖的個人屬性。Rodgers等[12]對某個乳腺癌社區(qū)的3 萬多條消息進(jìn)行內(nèi)容分析后,發(fā)現(xiàn)社區(qū)成員在得到所需信息或者其他人的鼓勵之后,心理壓力得到緩解。

        2.3 在線醫(yī)療健康社區(qū)研究現(xiàn)狀

        在線醫(yī)療健康社區(qū)是指能夠?qū)⒉∪嘶蜥t(yī)生聚集在一起的互聯(lián)網(wǎng)平臺,醫(yī)療專家、病人及其家屬、護(hù)理者和其他支持者能在這個平臺上分享信息并尋求支持。在線醫(yī)療健康社區(qū)主要提供兩種功能:一是提供醫(yī)療健康類的信息;二是提供社會支持,主要研究方向在情感支持上。吳江等[13]融合用戶個人屬性、網(wǎng)絡(luò)特征、行為特征以及文本特征構(gòu)建領(lǐng)袖識別的綜合體系,挖掘不同生命周期的領(lǐng)袖人物,并分析領(lǐng)袖情感傾向?qū)Υ蟊娗楦械囊龑?dǎo)作用。

        在技術(shù)支持方面,針對主題識別以及領(lǐng)域?qū)嶓w識別方面,陳東華等[14]對醫(yī)療大數(shù)據(jù)類型與SNOMED CT 體系進(jìn)行關(guān)聯(lián)分析,提出了評估映射需求、構(gòu)建映射模型、模型驗證以及審查和維護(hù)四個階段。陸泉等[15]使用LSI(latent semantic indexing)模型與MapReduce 分布式文本聚類技術(shù)對在線健康平臺問答數(shù)據(jù)進(jìn)行用戶需求挖掘。金碧漪等[16]給出了健康論壇八大類主題,分別是病因、診斷、治療、疾病管理、并發(fā)癥、社會生活、疾病預(yù)防、教育與研究。吳江等[17]研究了在線醫(yī)療社區(qū)用戶的知識互動行為,以此了解社區(qū)的知識共享特征和用戶群體特征。Park 等[18]基于Reddit 平臺研究在線心理健康社區(qū)中討論的主題相似性及差異,研究在線健康社區(qū)中用戶在不同年齡段下關(guān)注主題的冷熱分布。

        為了更好地展示在線醫(yī)療健康領(lǐng)域研究方法與技術(shù),本文將國內(nèi)外學(xué)者研究文獻(xiàn)進(jìn)行了梳理,具體結(jié)果如表1 所示。

        表1 在線醫(yī)療健康領(lǐng)域研究方法與技術(shù)的研究現(xiàn)狀

        當(dāng)前,國內(nèi)外在線健康社區(qū)研究中,無論是用戶健康信息行為,又或是社交媒體健康研究以及在線醫(yī)療社區(qū)的研究,最終目的都是為了滿足用戶信息需求,提供更好的用戶體驗。然而,由表1 可知,大部分研究方法與分析角度可以升等、升級。例如,在考慮性別、年齡、活躍時長,分析整個用戶群體行為及信息需求,最好能實現(xiàn)數(shù)據(jù)轉(zhuǎn)化,加強(qiáng)用戶群體在不同行為與不同主題特征之間的屬性關(guān)聯(lián)。針對現(xiàn)有在線健康社區(qū)信息需求研究的不足之處,本文構(gòu)建了三種維度的典型用戶識別指標(biāo)和主題分類體系構(gòu)建用戶畫像概念模型;通過用戶行為識別算法進(jìn)一步挖掘用戶與用戶、用戶與頁面之間的交互行為,剔除僵尸用戶,提升挖掘用戶代表性;隨后通過滑動窗口內(nèi)詞頻量化,計算關(guān)鍵詞權(quán)重進(jìn)行主題聚類;結(jié)合用戶行為與主題需求實現(xiàn)更精準(zhǔn)、更細(xì)粒度的分析用戶信息需求,在數(shù)據(jù)轉(zhuǎn)化方面極大程度上保留了數(shù)據(jù)細(xì)節(jié)。例如,以中國唯一重大疾病醫(yī)療分享平臺醫(yī)享網(wǎng)為數(shù)據(jù)源,通過劃分四種不同的用戶角色,從多種維度分析用戶畫像,以此了解不同角色用戶群體行為特征和信息需求,為在線健康社區(qū)個性化服務(wù)提供一定數(shù)據(jù)支持與建議。圖1 總結(jié)了本文的研究邏輯。

        圖1 研究邏輯圖

        3 在線醫(yī)療社區(qū)用戶畫像概念模型構(gòu)建

        3.1 用戶畫像概念

        用戶畫像概念包含兩個層次:第一層次的用戶畫像是從用戶群體中抽象出的典型用戶,能夠在產(chǎn)品設(shè)計與運(yùn)營時提出最主要的需求及期望;第二層次的用戶畫像是在某種特定的情境下,抽取出的真實用戶行為數(shù)據(jù),所形成的描述用戶角色屬性及行為的標(biāo)簽集合。本文構(gòu)建用戶畫像將二者結(jié)合,旨在刻畫細(xì)粒度、多維度的活躍用戶畫像,用于更加精準(zhǔn)地挖掘用戶行為數(shù)據(jù),識別用戶信息需求。

        3.2 社區(qū)內(nèi)典型用戶識別指標(biāo)構(gòu)建

        典型用戶識別指標(biāo)構(gòu)建過程為將獲取的數(shù)據(jù)進(jìn)行顯著性檢驗,得到皮爾遜相關(guān)系數(shù)以及統(tǒng)計量,剔除 “人氣” “地區(qū)” “微信一鍵轉(zhuǎn)發(fā)” “發(fā)布時間” “回復(fù)時間” 等未能通過置信水平的顯著性檢驗等指標(biāo),最終在線健康社區(qū)典型用戶識別指標(biāo)如表2所示。用戶的角色屬性包括:用戶年齡、性別、圈內(nèi)職位和活躍時長,活躍時長是指用戶注冊時長,圈內(nèi)職位以及活躍時長也是圈內(nèi)用戶影響力的直觀衡量標(biāo)準(zhǔn);用戶的行為屬性包括:用戶發(fā)帖、被回復(fù)、主動評論和收藏行為,用戶發(fā)帖、被回復(fù)等行為越頻繁,行為屬性指標(biāo)值越高,表明用戶發(fā)布內(nèi)容越被人認(rèn)可,即具有較高的威望與影響力;用戶的文本特征包含主題的多樣性與熱門話題的相似度,多樣性越高,表示用戶被回復(fù)、收藏等行為的潛在概率也越大,而與熱門話題語義相似度越高,表明用戶關(guān)注內(nèi)容更符合大眾關(guān)注熱點(diǎn)。

        表2 在線健康社區(qū)典型用戶識別指標(biāo)

        3.3 社區(qū)內(nèi)主題分類體系構(gòu)建

        主題的劃分參考Gao 等[19]對于中文電子病歷命名實體的劃分,本文根據(jù)結(jié)直腸癌疾病特征做出了部分改動,結(jié)合醫(yī)享網(wǎng)中實際內(nèi)容,分析歸類,不斷調(diào)整主題類目,最終將其分為疾病、治療方案、診斷檢查、癥狀描述和社會生活等五大類主題。主題及子類目如表3 所示。

        3.4 用戶畫像概念模型構(gòu)建

        本文結(jié)合典型用戶識別指標(biāo)及主題分類體系構(gòu)建的類目與子類目,制定了完整的用戶畫像概念模型,如圖2 所示。用戶畫像概念模型將用戶角色進(jìn)行劃分的標(biāo)簽分別為:信息提供者、信息接收者、信息分享者和信息尋求者。用戶行為動機(jī)則分為搜索信息、提供信息、分享信息與瀏覽行為。

        信息提供者可定義為用戶可自主提供、分享生成內(nèi)容,與在線健康社區(qū)交互頻繁,且能夠根據(jù)其他用戶角色行為做出有效回應(yīng),如發(fā)帖、被回復(fù)、主動評論以及收藏等行為,在社區(qū)內(nèi)有較高威望的群體。信息尋求者在追求信息時動機(jī)較為強(qiáng)烈,具有鮮明的目的性,需求認(rèn)知程度較高,一般以搜索信息為主,該類用戶主要行為是發(fā)帖提問。信息接收者信息需求相較于信息提供者與尋求者較為模糊,在信息需求認(rèn)知較弱的情境下,偶遇并瀏覽信息,一般在看到能引起共鳴的信息情況下,會對信息內(nèi)容進(jìn)行收藏行為。信息分享者與信息接收者行為類似,區(qū)別在于信息分享者具有一定的目的性與動機(jī)去主動分享知識,用戶參與感相較于信息接收者更強(qiáng)。信息角色會隨著用戶參與感的強(qiáng)弱而發(fā)生改變。

        表3 結(jié)直腸癌主題分類體系

        4 在線健康社區(qū)用戶畫像概念模型實現(xiàn)方法

        4.1 用戶畫像概念模型實現(xiàn)框架

        用戶畫像概念模型的實現(xiàn),主要基于用戶行為識別算法挖掘綜合信任值較高的用戶,剔除僵尸用戶,將用戶角色進(jìn)行數(shù)據(jù)轉(zhuǎn)換,保留角色信息數(shù)據(jù)細(xì)節(jié)。隨后,監(jiān)測挖掘出的用戶在頁面消息流中的生成內(nèi)容,將滑動窗口中關(guān)鍵詞抽取并量化,以便后續(xù)得到更精確的主題聚類結(jié)果。結(jié)合用戶行為識別算法與主題聚類算法,實現(xiàn)在線健康社區(qū)用戶畫像模型的框架構(gòu)建。框架如圖3 所示。

        圖2 用戶畫像概念模型

        圖3 用戶畫像概念模型實現(xiàn)框架

        4.2 用戶行為識別算法

        在線健康社區(qū)用戶行為主要包括:用戶瀏覽頁面、發(fā)帖、被回復(fù)、收藏和評論等行為,反映了各個用戶在在線健康社區(qū)的參與程度。本文的用戶行為識別算法定義了用戶交互次數(shù)、用戶交互質(zhì)量和歷史用戶交互值,結(jié)合上述構(gòu)建的典型用戶識別指標(biāo),在挖掘出活躍用戶后,可以進(jìn)一步提升挖掘用戶的精確度與用戶代表性。

        用戶交互行為的挖掘融合了社交網(wǎng)絡(luò)的基本思想,將模型分為用戶交互次數(shù)、用戶交互質(zhì)量以及用戶演變?nèi)糠帧S脩艚换ゴ螖?shù)定義為:假設(shè)對于任意用戶U1與U2,用戶U1主動對用戶U2發(fā)布的內(nèi)容進(jìn)行主動評論、被回復(fù)等交互行為,而用戶U2對于用戶U1行為無交互動作,則此過程描述為單向社交互動,U1為社交互動行為中主動用戶,U2為與被動用戶;當(dāng)用戶U2對于用戶U1的評論、回復(fù)以及收藏等社交互動行為進(jìn)行回應(yīng),此過程為雙向社交互動,也稱用戶U2對于用戶U1的被動社交互動。

        (1)用戶交互次數(shù)。假設(shè)用戶交互次數(shù)N(i,w)為在窗口w中用戶之間的雙向社交互動數(shù),則用戶交互次數(shù)計算方式為

        其中,ui,w表示用戶在頁面w的所有社交互動行為的集合;kij為以用戶Ui與Uj的主動評論與被回復(fù)為基準(zhǔn)的雙向社交互動次數(shù)。根據(jù)用戶在數(shù)據(jù)收集期間特定頁面窗口的社交互動行為,D(i,w)為用戶Ui與Uj在頁面窗口w的用戶交互次數(shù),計算方式為

        (2)用戶交互質(zhì)量。用戶交互質(zhì)量Q(i,w)由窗口w中用戶之間的雙向社交互動頻次決定,計算公式為

        其中,I(i,w)代表用戶Ui與用戶Uj在窗口w的社交互動次數(shù)。這里社交互動次數(shù)是指主動社交互動用戶與被動社交互動用戶之間至少有一次社交互動動作,且主動用戶與其他用戶社交互動次數(shù)少于主動用戶與被動用戶的交互次數(shù)。根據(jù)用戶交互次數(shù)與用戶交互質(zhì)量的計算,可以將用戶信任值表述為T(i,w),計算方法為

        其中,λ(0 ≤λ≤1)為計算用戶信任值的不同權(quán)重的調(diào)節(jié)因子。

        (3)歷史用戶交互值。由于社區(qū)的動態(tài)性以及事件演變性,上述用戶信任值會隨著時間演進(jìn)性而發(fā)生改變,因此,需要考慮用戶的歷史信任度。結(jié)合歷史信任度與用戶信任值建立一種用戶行為識別算法。歷史信任值的計算公式為

        其中,Ta(i)為歷史信任值;W為用戶最近訪問的頁面窗口數(shù),約束條件為1 ≤w≤W;θW-w表示在第w個歷史頁面窗口的用戶信任權(quán)重值,約束條件為0 ≤θ≤1,1 ≤w≤W。用戶信任權(quán)重值可以根據(jù)歷史信任頁面窗口訪問頻率計算得出。

        (4)綜合用戶信任值。用戶信任值結(jié)合當(dāng)前信任窗口的用戶信任值T(i,w)與歷史信任窗口的用戶歷史信任值Ta(i),構(gòu)造出一個長期用戶信任模型。因此,根據(jù)用戶交互次數(shù)、用戶交互質(zhì)量以及歷史用戶交互值,得出特征詞檢測的用戶信任值T(i)計算公式為

        其中,α+β= 1(0 ≤α≤1,0 ≤β≤1),α與β分別為當(dāng)前用戶信任值與歷史用戶信任值的調(diào)節(jié)因子。

        因此,綜合用戶信任值,可以有效的提取出參與度較高的用戶,有助于更精準(zhǔn)地了解用戶群體,對于后續(xù)了解全面的用戶畫像具有突出優(yōu)勢。

        4.3 主題聚類模型

        本節(jié)通過挖掘在線健康社區(qū)用戶關(guān)注主題,以及主題之間的冷熱程度的差異,可以明確典型用戶文本屬性指標(biāo)內(nèi)容,分析這些用戶所關(guān)注的健康信息領(lǐng)域主題特征,能夠有效了解社區(qū)內(nèi)用戶需求,及時發(fā)布積極引導(dǎo)信息,提升社區(qū)服務(wù)質(zhì)量。

        4.3.1 消息流監(jiān)測

        本小節(jié)介紹基于消息流監(jiān)測的關(guān)鍵詞權(quán)重量化過程,主要是根據(jù)設(shè)定的滑動窗口對消息流進(jìn)行劃分,融合用戶信任度計算每個消息流中關(guān)鍵詞的權(quán)重。在檢測發(fā)帖信息用于抓取關(guān)鍵詞過程中,按照信息發(fā)布時間劃分至對應(yīng)窗口序列中,動態(tài)窗口序列化表示定義為

        其中,n為時間序列中窗口序列號;表示特征詞在第n個窗口中的序列號。

        因此,結(jié)合動態(tài)窗口序列中特征詞以及用戶信任度,關(guān)鍵詞權(quán)重計算方法為

        其中,d為發(fā)帖消息流中的關(guān)鍵詞;ms 為消息序列中的消息集合;tftagd代表關(guān)鍵詞d在動態(tài)窗口序列中的詞頻;tfd表示關(guān)鍵詞d不屬于動態(tài)窗口序列而屬于其他動態(tài)窗口中的詞頻;ξ為特征詞權(quán)重的調(diào)節(jié)因子。wti表示發(fā)布消息用戶可信度權(quán)重。計算方法為

        其中,T(i)為綜合用戶信任值。

        綜上所述,本文將用戶行為識別算法和消息流監(jiān)測應(yīng)用于關(guān)鍵詞的檢測以及量化,多方面考慮頁面用戶交互繁雜的特性,提取了用戶交互質(zhì)量、用戶交互次數(shù)等因素挖掘關(guān)鍵詞,并使用詞頻量化關(guān)鍵詞權(quán)重,為后續(xù)主題聚類提供了良好的基礎(chǔ)。

        4.3.2 主題聚類階段

        根據(jù)上述用戶行為識別算法所得到的用戶生成內(nèi)容,本文在劃分主題前結(jié)合醫(yī)學(xué)領(lǐng)域通用詞典將類目中特征詞集合進(jìn)行人工標(biāo)注,將文本中提取的關(guān)鍵詞與人工標(biāo)注的特征詞匹配,判斷關(guān)鍵詞與特征詞相似度用于主題聚類。算法將消息流中第一個挖掘到的關(guān)鍵詞作為聚類的初始中心點(diǎn),算法模型如下。

        算法1:基于時間窗口發(fā)帖內(nèi)容的聚類算法

        輸入:BMi為窗口消息集合,bmi為窗口消息,Ui為發(fā)帖用戶,BE 為主題類目,MT 為相似度平均閾值,Ej為各主題類目中特征詞。

        輸出:更新后的主題類目集合BE 及對應(yīng)關(guān)鍵詞。

        其中,消息bmi與特征詞Ej=[M,U,F]相似度主要采用改進(jìn)的Jaccard 相似系數(shù)(Jaccard coefficient) 可得,在特征詞Ej的形式化描述中,M為消息流中主題相關(guān)消息流,U為聚類后發(fā)布評論的用戶集合,F(xiàn)為描述主題類目Ej的其他子類目特征詞集合。相似度計算為

        Jaccard 系數(shù)是一種度量集合個體間相似性的算法。假設(shè)bmi=[FE, NFE],其中,消息bmi的形式化表示FE 與NFE 分別為特征詞集合與關(guān)鍵詞集合。

        通過監(jiān)測消息流內(nèi)用戶生成內(nèi)容,用于區(qū)分每個主題類目下具有較高權(quán)重的關(guān)鍵詞,而后進(jìn)行主題聚類,將數(shù)據(jù)量化可以在極大程度上保留數(shù)據(jù)代表的細(xì)節(jié),深入挖掘用戶討論內(nèi)容信息,精準(zhǔn)定位用戶需求。

        最終,基于用戶畫像概念模型的實現(xiàn),結(jié)合典型用戶識別指標(biāo)與主題分類體系,在線健康社區(qū)用戶信息需求分析流程如圖4 所示。

        5 實驗過程及需求結(jié)果分析

        5.1 實驗環(huán)境與數(shù)據(jù)處理

        醫(yī)享網(wǎng)是中國唯一重大疾病醫(yī)療分享平臺,給予患者及其親友提供病歷查詢與分享、圈友交流與互助等功能,目前有超過25 萬會員參與互動。由于該社區(qū)功能以及帖子主題更符合在線健康社區(qū)的定義,因此,本文挖掘醫(yī)享網(wǎng)2019 年年初至2019年10 月13 日的數(shù)據(jù)作為數(shù)據(jù)源。首先,本文使用Python 爬取當(dāng)前結(jié)直腸癌圈所有圈友的ID、性別、圈職位、活躍時長等,總計3265 人。同時,爬取結(jié)直腸癌圈所有用戶發(fā)帖內(nèi)容、回復(fù)、主動評論與收藏數(shù)。用戶中有1938 人參與發(fā)帖,總計發(fā)帖824條,訪問量總計605157 次。

        本文實驗環(huán)境為Windows 8(64 位)操作系統(tǒng),系統(tǒng)處理器為Intel(R)core(TM)i5-5200U。在數(shù)據(jù)預(yù)處理階段,利用ICTCLAS 分詞工具對文本進(jìn)行分詞。根據(jù)李月琳等[5]構(gòu)建的偽健康信息特征列表,數(shù)據(jù)清洗過程剔除掉具有無節(jié)制的語言符號(如多個感嘆號)、標(biāo)點(diǎn)錯誤、文字錯誤、語法錯誤、不當(dāng)空格等偽健康信息。隨后根據(jù)用戶畫像概念模型篩選典型用戶,利用用戶生成內(nèi)容挖掘關(guān)鍵詞并進(jìn)行主題聚類,精準(zhǔn)定位不同用戶角色下用戶信息需求。下面將對數(shù)據(jù)采集、處理、用戶識別和主題聚類分析結(jié)果進(jìn)行數(shù)據(jù)化展示。

        圖4 在線健康社區(qū)信息需求典分析流程

        5.2 用戶角色建立與分析

        根據(jù)用戶畫像概念模型的實現(xiàn),本文將挖掘出的用戶群體進(jìn)行人工標(biāo)注和處理,若用戶信息不明確及信息缺失或用戶行為綜合信任值為0,則將用戶剔除。在上述3265 個用戶中,篩選出1092 個符合典型用戶識別指標(biāo)的用戶。根據(jù)畫像概念模型中用戶角色及行為,將用戶群體劃分為四類,用戶角色的人工標(biāo)注步驟如下。

        (1)所有指標(biāo)均超出均值情況下,將角色判定為信息提供者。

        (2)信息尋求者:若發(fā)帖數(shù)目和收藏數(shù)目大于均值,則判定為信息尋求者;若在所有指標(biāo)都未能大于均值情況下,則按照指標(biāo)進(jìn)行判定。

        由于用戶行為屬性在多種情境下可以有多種信息行為需求,因此,用戶角色也會相對重復(fù),若用戶同時滿足兩種及以上角色,則將其按照百分比較高的一方,即特征較顯著的一方作為判定依據(jù)。部分標(biāo)注結(jié)果如表4 所示。

        表4 部分用戶角色標(biāo)注結(jié)果

        由表4 可知,1092 名用戶分為了4 種用戶角色。在醫(yī)享網(wǎng)中,信息尋求者占比最高,為46%;信息分享者總?cè)藬?shù)占比為27%,信息接收者占比23%,信息提供者占比4%。用戶數(shù)量分布結(jié)果表明,信息搜索及瀏覽行為占比較高,社區(qū)運(yùn)營人員應(yīng)關(guān)注網(wǎng)站服務(wù)質(zhì)量,增強(qiáng)信息服務(wù)效率,使得用戶能夠快速找到自身所需的信息,從而提升用戶網(wǎng)絡(luò)留存黏性。

        表5 部分結(jié)直腸癌患者信息需求類目、部分關(guān)鍵詞及權(quán)重值結(jié)果

        表6 部分結(jié)直腸癌圈用戶角色關(guān)注主題占比

        5.3 主題聚類分析

        了解在線健康社區(qū)用戶在談?wù)撌裁春痛_定受到更多關(guān)注的主題,能夠使新的決策更好地與社區(qū)的利益保持一致。本小節(jié)根據(jù)上述用戶角色劃分,針對構(gòu)建的主題分類體系,分析信息分享者、信息提供者、信息接收者以及信息尋求者的關(guān)注需求。表5 給出了結(jié)直腸癌用戶信息需求類目、部分關(guān)鍵詞及權(quán)重值。表6 為每個用戶角色在關(guān)注主題內(nèi)子類目的占比。

        由表5 和表6 可知, “社會生活-資訊” 類話題以及 “治療方案” 等主題為各類用戶的主要需求。在 “疾病” 類中,對于其子類目 “病史” 的關(guān)注要比 “并發(fā)癥” 及 “身體部位” 少得多,這也從側(cè)面揭示了結(jié)直腸癌癥引發(fā)并發(fā)癥較少,用戶反而更加關(guān)注導(dǎo)致癌癥病變的疾病史;在 “治療方案” 主題中,用戶關(guān)注度多以 “疾病護(hù)理” 及 “藥物” 為主,說明大多數(shù)的結(jié)直腸癌治療方案是化療而非手術(shù),對于化療后如何有效結(jié)合膳食以及中醫(yī)調(diào)理進(jìn)行自我調(diào)理,降低癌癥復(fù)發(fā)率的 “疾病護(hù)理” 用戶具有較高需求;在 “社會生活” 主題中, “情感支持” 與 “資訊” 類子類目占比最高,結(jié)合醫(yī)享網(wǎng)給予患者交流互助及知識科普信息服務(wù)定位,用戶行為集中在情緒表達(dá)及治療指南的關(guān)注中。通過上述用戶信息需求行為分析,從網(wǎng)站信息服務(wù)層面來看,實驗挖掘數(shù)據(jù)及分析結(jié)果符合醫(yī)享網(wǎng)及結(jié)直腸癌疾病特征,這也從側(cè)面證明了實驗的可行性。此外,在較為 “冷門” 的主題中,四種用戶角色均對 “診斷檢查” 主題的關(guān)注較少,這些主題關(guān)注度較低是由于社區(qū)類型以及疾病特征所決定的,如結(jié)直腸癌確診手段的局限性以及醫(yī)享網(wǎng)網(wǎng)站的知識科普性及疾病分享性等特征。

        5.4 用戶信息需求分析

        5.4.1 用戶信息需求性別差異分布

        用戶角色劃分下對于結(jié)直腸癌信息需求的性別分布差異如圖5 所示,包括主題類目分布在性別內(nèi)占比以及類目中子類目用戶最高關(guān)注占比。根據(jù)2018 年美國發(fā)布的最新結(jié)直腸癌流行病學(xué)結(jié)果所示,男性患者發(fā)病數(shù)高于女性患者,結(jié)合在線社區(qū)中男女比例為1.184∶1,這說明男性用戶在互聯(lián)網(wǎng)求助意愿大于女性患者。從信息分享者角度來看,兩者對于 “社會生活” (分別占比37%、39%)主題更為關(guān)注,其中,男性更加關(guān)注 “資訊” 類信息,而女性更加傾向于 “情感支持” 子類目,進(jìn)行情感傾訴;在信息尋求者角度而言,男性更加注重 “癥狀描述” ,發(fā)布自身病歷尋求藥物、治療方案等幫助,而女性則更加關(guān)注 “治療方案” 中 “疾病護(hù)理” 子類目;在信息提供者角度而言,男性在 “治療方案” 中更加關(guān)注 “藥物” 類信息??傮w來看,四類角色中男性最傾向于關(guān)注 “社會生活-資訊” 類信息,女性更傾向關(guān)注 “癥狀描述” 類目。由此可見,不同的性別用戶對于主題需求各有不同,因此,醫(yī)享網(wǎng)可針對不同用戶性別主題需求推送個性化服務(wù)。

        圖5 不同用戶角色性別下主題分布差異

        5.4.2 用戶信息需求年齡差異分布

        用戶角色劃分下對于結(jié)直腸癌信息需求的年齡分布差異如圖6 所示。根據(jù)2018 年美國發(fā)布的最新結(jié)直腸癌流行病學(xué)結(jié)果所示,45 歲以上發(fā)病患者占所有結(jié)直腸癌發(fā)病率的93.28%。根據(jù)本文挖掘的數(shù)據(jù)可得,35~60 歲中年群體是醫(yī)享網(wǎng)中主要用戶。從圖6 來看,不同年齡用戶對于各個主題類目下子類目需求相差較大,其中,對于16 歲以下用戶群體主要關(guān)注 “社會生活” 主題,表明青少年群體較為關(guān)注知識疾病原理;16~35 歲青年群體角度來看,信息分享者與信息提供者更加關(guān)注 “治療方案” ,信息接收者與信息尋求者更加關(guān)注 “社會生活” 類目;而36~60 歲中年群體作為主要用戶群體,除信息提供者更加關(guān)注 “治療方案” 外,其他三類用戶群體信息需求主要集中在 “社會生活” 主題中。上述情況表明,信息提供者與信息分享者作為醫(yī)享網(wǎng)中具有影響力的用戶群體,更樂于向用戶提供及分享結(jié)直腸癌治療、預(yù)防、藥物、治療效果等信息;而信息尋求者與接收者,則迫切的需要病理及病因、治療指南、醫(yī)療保險等專業(yè)知識。60 歲以上老年用戶群體中,信息分享者與信息提供者更關(guān)注 “治療方案” ;而信息接收者更關(guān)注 “疾病描述” ,找尋與自己病程相似患者;信息尋求者則更關(guān)注 “社會生活” 類主題。老年用戶主題需求分布特征最為不明顯。

        因此,結(jié)合不同用戶角色在性別、年齡下的主題分布差異,本文可以得出結(jié)論:男性更關(guān)注疾病治療指南、疾病預(yù)防、等資訊類信息,女性更傾向描述癥狀并尋求情感支持;年齡在36~60 歲中年群體用戶信息需求高于其他用戶,及其對結(jié)直腸癌治療方案最為關(guān)注。

        圖6 不同角色年齡段下主題差異分布

        5.4.3 用戶畫像下不同信息需求差異分布

        根據(jù)用戶畫像及用戶主題需求的挖掘,本文將實驗結(jié)果進(jìn)行整理則可得到不同用戶角色下用戶行為差異及信息需求差異,如表7 所示。信息分享者與信息提供者對在線社區(qū)中參與用戶交互較為頻繁,由表7 可知,信息提供者相較于其他三類角色雖人數(shù)較少,但用戶較為活躍,發(fā)帖、被回復(fù)、主動評論以及收藏數(shù)量較為均等且互動分布多元化,大都關(guān)注 “社會生活” 中 “疾病預(yù)防” 與 “資訊” 類信息,這表明了該類用戶在社區(qū)中的主導(dǎo)地位,能夠為圈子的發(fā)展提供積極作用。社區(qū)運(yùn)營人員應(yīng)大力發(fā)展此類及重視用戶,在推送用戶感興趣的資訊類信息的同時,將相關(guān)尋求幫助發(fā)帖推送給用戶,提升該類用戶參與感和答疑成就感,增強(qiáng)信息提供者對在線健康社區(qū)平臺依賴性與用戶行為交互頻率。信息分享者主動評論行為占比較高,屬于較為活躍用戶,主要分享內(nèi)容在于 “情感支持” 及 “疾病護(hù)理” 子類目,說明該類用戶關(guān)注他人情感訴求且具有較高的知識素養(yǎng),問題解決能力較強(qiáng)。此類用戶角色屬性最接近于信息提供者,社區(qū)運(yùn)營人員應(yīng)重視并積極加以引導(dǎo),促進(jìn)角色的轉(zhuǎn)變。信息接收者主要標(biāo)簽為被回復(fù)以及收藏行為占比較高,往往不具有發(fā)帖行為與主動回復(fù)行為,此類用戶往往樂于接受別人的知識分享,在其信息需求得到滿足后便不再參與社區(qū)互動。因此,醫(yī)享網(wǎng)中針對此類用戶應(yīng)采用獎勵手段提升用戶參與感,豐富平臺服務(wù)內(nèi)容的全面性,加快平臺處理用戶需求的響應(yīng)與反饋速度,增強(qiáng)用戶黏性。信息尋求者發(fā)帖數(shù)量遠(yuǎn)高于其他三類用戶角色,主要圍繞 “疾病描述” 主題找尋所需信息,具有鮮明的目的性與問題認(rèn)知度。但被回復(fù)、收藏與主動評論數(shù)極低,這說明該類群體在社區(qū)中留存率較低,往往在信息需求得以滿足后就離開社區(qū),進(jìn)一步主動獲取信息意愿較弱。因此,平臺首先應(yīng)保證用戶信息檢索結(jié)果的相關(guān)性,其次通過激勵機(jī)制促進(jìn)用戶參與成就感,提升用戶之間的持續(xù)參與互動頻率。

        綜上所述,在線健康社區(qū)平臺應(yīng)針對不同用戶角色制定不同的運(yùn)營手段。醫(yī)享網(wǎng)應(yīng)從信息服務(wù)質(zhì)量入手,建立專屬搜索渠道以覆蓋用戶基本信息需求,豐富服務(wù)內(nèi)容的全面性,增強(qiáng)平臺對信息搜索行為的響應(yīng)與反饋速度,構(gòu)建獎勵制度提升用戶知識貢獻(xiàn)以及激勵用戶平臺參與意愿,鼓勵用戶創(chuàng)造有價值信息,加強(qiáng)整個在線醫(yī)療社區(qū)活躍度。

        表7 不同用戶角色下用戶行為差異

        6 結(jié) 語

        本文在梳理相關(guān)人員研究成果的基礎(chǔ)上,提出了一種在線健康社區(qū)中用戶畫像及主題特征分布下用戶信息需求的識別方法。首先,本文結(jié)合在線健康社區(qū)典型用戶識別指標(biāo)及主題分類體系構(gòu)建了用戶畫像概念模型;其次,通過用戶行為識別算法與主題聚類算法挖掘用戶群體下不同角色關(guān)注的主題內(nèi)容,用于用戶畫像概念模型的實現(xiàn)。根據(jù)醫(yī)享網(wǎng)中結(jié)直腸癌圈的數(shù)據(jù)驗證研究結(jié)果,該方法可以有效的識別用戶行為及主題刻畫用戶畫像,識別更精準(zhǔn)、更細(xì)粒度的用戶信息需求。本文的研究結(jié)果在一定程度上為我國在線健康社區(qū)平臺的不同用戶群體行為及信息需求的深入研究提供參考價值,對于推動未來行業(yè)整體健康發(fā)展具有一定的積極意義。

        本文的局限性在于只選取了一種疾病圈進(jìn)行實證分析,未能考慮多個在線健康社區(qū)的信息多源融合,樣本數(shù)量不足以覆蓋在線健康社區(qū)所有用戶信息需求,今后可以針對不同疾病圈內(nèi)乃至多個社區(qū)內(nèi)用戶在不同主題關(guān)注差異入手,提供更加精確、客觀的研究結(jié)論。

        猜你喜歡
        類目畫像社區(qū)
        威猛的畫像
        社區(qū)大作戰(zhàn)
        幼兒園(2021年6期)2021-07-28 07:42:08
        “00后”畫像
        本期練習(xí)題類目參考答案及提示
        畫像
        3D打印社區(qū)
        在社區(qū)推行“互助式”治理
        《中圖法》第5版交替類目研究綜述
        黃三角、長三角、珠三角明、清及民國通志一級類目比較*
        圖書館論壇(2015年2期)2015-01-03 01:43:00
        潛行與畫像
        女优av一区二区三区| 性欧美暴力猛交69hd| 少妇性饥渴bbbbb搡bbbb| av蓝导航精品导航| 国产毛片视频网站| 午夜福利试看120秒体验区| 情侣黄网站免费看| 精品性影院一区二区三区内射 | 麻花传媒68xxx在线观看| 少妇粉嫩小泬喷水视频www| 另类内射国产在线| 国产精品半夜| 久久99热精品免费观看欧美| 人妻av一区二区三区高| 亚洲伊人av综合福利| 国产91九色视频在线播放| 女主播国产专区在线观看| 国产精品成人自拍在线观看| 在厨房拨开内裤进入毛片| 亚洲av无码一区二区三区乱子伦 | 手机在线免费av网址| 一区视频免费观看播放| 久久精品国产亚洲av麻豆会员 | 加勒比一区二区三区av| 五月开心婷婷六月综合| 国产农村乱子伦精品视频| 久久精品国产亚洲婷婷| 久久精品日本美女视频| 手机av在线播放网站| 久久无码字幕中文久久无码| 人人妻人人妻人人片av| 极品尤物高潮潮喷在线视频| 国产美女久久久亚洲综合| 男女视频一区二区三区在线观看| 人人妻人人澡人人爽人人精品浪潮| 国产suv精品一区二区6| 97视频在线观看免费| 米奇亚洲国产精品思久久| 日本一二三四高清在线| 又嫩又硬又黄又爽的视频| 国产剧情麻豆女教师在线观看|