摘? 要:在線健康社區(qū)已成為公眾獲取健康信息和服務(wù)的重要平臺(tái),構(gòu)建在線健康社區(qū)用戶畫(huà)像,有利于明確社區(qū)用戶的群體特征和信息需求,為社區(qū)提高信息服務(wù)質(zhì)量提供借鑒。從信息行為學(xué)角度出發(fā)構(gòu)建群體用戶畫(huà)像分析模型,對(duì)用戶行為指標(biāo)進(jìn)行提取,利用高斯混合模型對(duì)用戶進(jìn)行聚類分析,將社區(qū)中群體用戶分為三類。通過(guò)對(duì)社區(qū)關(guān)鍵用戶的識(shí)別和特征分析,一方面可以準(zhǔn)確了解社區(qū)用戶的信息需求,提供健康信息服務(wù);另一方面可以提高關(guān)鍵用戶的數(shù)量,促進(jìn)在線健康社區(qū)的良好發(fā)展。
關(guān)鍵詞:在線健康社區(qū);行為指標(biāo);用戶畫(huà)像;高斯混合模型;信息服務(wù)
中圖分類號(hào):TP391? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)06-0144-04
User Portrait Research on Online Health Community Based on User Behavior Indices
CAI Chunyu
(School of Management, Shandong University of Technology, Zibo? 255012, China)
Abstract: Online health community has become an important platform for the public to obtain health information and services. Building online health community user portrait is beneficial to clarify the community user population characteristics and information requirements, and it provides reference for the community to improve the quality of information service. From the perspective of information behavior, the group user portrait analysis model is constructed, the user behavioral indices are extracted, and the Gaussian mixture model is used for cluster analysis of users, and the group users in the community are divided into three categories. Through identifying and analyzing the characteristics of key users in the community, on the one hand, it can accurately know the information requirements of community users and provide health information services. On the other hand, it can increase the quantity of key users and promote the good development of online health community.
Keywords: online health community; behavioral indice; user portrait; Gaussian mixture model; information service
0? 引? 言
截至2020年,我國(guó)65歲及以上人口占比高達(dá)12.6%,人口老齡化、慢性病及醫(yī)療資源分布不均的痛點(diǎn)對(duì)我國(guó)現(xiàn)在的醫(yī)療體系產(chǎn)生巨大壓力[1],促使互聯(lián)網(wǎng)醫(yī)療行業(yè)不斷發(fā)展,在線醫(yī)療用戶規(guī)模高達(dá)2.76億人[2]。如何促進(jìn)在線健康社區(qū)的發(fā)展,在于怎樣利用用戶大數(shù)據(jù)準(zhǔn)確識(shí)別在線健康社區(qū)用戶的特征,用戶畫(huà)像則能夠?qū)崿F(xiàn)用戶屬性與行為的關(guān)聯(lián)[3]。通過(guò)用戶的信息數(shù)據(jù)提取出用戶的行為指標(biāo),可以準(zhǔn)確識(shí)別用戶的信息需求行為和內(nèi)容特征。
基于此,本文以在線健康社區(qū)—膽管癌、膽囊癌QQ群為例,對(duì)在線健康社區(qū)用戶進(jìn)行群體用戶畫(huà)像研究,從用戶的基本特征、信息特征、交互特征、情感特征四個(gè)維度出發(fā),基于用戶的行為指標(biāo)構(gòu)建在線健康社區(qū)的群體用戶畫(huà)像;并通過(guò)聚焦于在線健康社區(qū)群體用戶行為指標(biāo)的研究,致力于準(zhǔn)確識(shí)別用戶類型,從而為用戶提供準(zhǔn)確合理的健康信息服務(wù)。
1? 用戶畫(huà)像研究
1.1? 在線健康社區(qū)研究現(xiàn)狀
在線健康社區(qū)(Online Health Community)是以健康為主題的在線社區(qū),醫(yī)生、患者及其家屬就健康或疾病治療等相關(guān)問(wèn)題,用發(fā)文、回復(fù)等形式完成信息交互[4]。目前,關(guān)于在線健康社區(qū)的研究主要從社區(qū)內(nèi)信息、社區(qū)和用戶三個(gè)維度展開(kāi)。在信息維度,學(xué)者們主要采用文本挖掘、機(jī)器學(xué)習(xí)等方法對(duì)信息內(nèi)容或主題分析;在社區(qū)維度,研究大多集中于如何利用在線社區(qū)如微博、博客等進(jìn)行健康消息的傳播和共享;對(duì)于用戶關(guān)系網(wǎng)絡(luò)的研究主要從網(wǎng)絡(luò)的整體結(jié)構(gòu)、網(wǎng)絡(luò)形成的影響因素、網(wǎng)絡(luò)特征等角度展開(kāi)。吳江等[5]用社會(huì)網(wǎng)絡(luò)分析方法構(gòu)建在線健康社區(qū)知識(shí)共享網(wǎng)絡(luò),發(fā)現(xiàn)在線健康社區(qū)的知識(shí)網(wǎng)絡(luò)具有小世界效應(yīng),且存在核心知識(shí)貢獻(xiàn)者,使得知識(shí)可以在社區(qū)內(nèi)快速傳播。
1.2? 用戶畫(huà)像研究思路
用戶畫(huà)像(User Profile)是基于數(shù)據(jù)挖掘提取用戶的屬性及行為特征,抽象出用戶社交屬性、生活習(xí)慣、消費(fèi)者行為等信息標(biāo)簽,再利用這些標(biāo)簽將用戶形象具體化,從而為用戶提供有針對(duì)性的服務(wù)。71017D22-5E0E-468A-AB2F-A4DDF023E9BF
本文針對(duì)在線健康社區(qū)進(jìn)行用戶畫(huà)像研究,主要從用戶的基本特征、信息特征、交互特征和情感特征四個(gè)維度出發(fā),獲取用戶活躍度、互惠度,信息多樣性、均質(zhì)性,正向情感頻數(shù)、負(fù)向情感頻數(shù)共6個(gè)行為指標(biāo),構(gòu)建用戶畫(huà)像分析框架。
2? 用戶畫(huà)像構(gòu)建及分析
2.1? 畫(huà)像構(gòu)建
用戶畫(huà)像構(gòu)建框架如圖1所示,首先對(duì)獲取的數(shù)據(jù)進(jìn)行預(yù)處理,并完成用戶行為指標(biāo)的提取;其次,融合用戶的多維屬性,構(gòu)建用戶畫(huà)像分析模型,進(jìn)行用戶群體的劃分;最后,根據(jù)群體用戶的行為指標(biāo)特征分析用戶的特征,從而促進(jìn)社區(qū)合理的信息服務(wù)。
2.2? 框架分析
2.2.1? 數(shù)據(jù)預(yù)處理
通過(guò)對(duì)社區(qū)內(nèi)用戶的群內(nèi)標(biāo)簽信息進(jìn)行文本挖掘后,可以得到用戶的基本特征,包括性別、患病類型和地域。但是性別數(shù)據(jù)列存在少量的缺失值,為了保證用戶基本特征的完整性,需要對(duì)性別缺失值進(jìn)行填充。首先利用文本挖掘的方法,根據(jù)缺失值用戶整個(gè)時(shí)間段的聊天文本,通過(guò)具有代表性別的字、詞完成第一輪的性別填充;最后利用已知性別用戶的男女比例,用隨機(jī)概率的方法進(jìn)行第二輪性別填充,完善性別特征。
2.2.2? 用戶行為指標(biāo)的提取
本文在線健康社區(qū)用戶畫(huà)像構(gòu)建的行為指標(biāo)共包括:用戶的活躍度、互惠度;信息的多樣性、均質(zhì)性;正向情感頻數(shù)、負(fù)向情感頻數(shù)等6個(gè)指標(biāo)。用戶行為指標(biāo)計(jì)算的參數(shù)及描述如表1所示。
(1)用戶交互特征:活躍度、互惠度?;钴S度表示一個(gè)用戶在整個(gè)時(shí)間段內(nèi)的交互過(guò)程中活躍程度的高低。用戶i的活躍度表示為ai,通過(guò)用戶i在整個(gè)時(shí)間段內(nèi)的交互次數(shù)的占社區(qū)總的交互次數(shù)的比值度量,計(jì)算公式為:
(1)
其中,wi是用戶i在整個(gè)時(shí)間段內(nèi)的加權(quán)度,是整個(gè)時(shí)間段內(nèi)社區(qū)全部用戶的加權(quán)度之和。
互惠度表示一個(gè)用戶在整個(gè)時(shí)間段內(nèi)的交互過(guò)程中信息傳播傾向性的大小。用戶i的互惠度表示為vi,通過(guò)用戶i在整個(gè)時(shí)間段內(nèi)的出度與入度的比值度量。當(dāng)互惠度值大于1,表示用戶傾向于信息傳播;當(dāng)互惠度值小于1,表示用戶傾向于信息接收。計(jì)算公式為:
vi=ikout/ikin(2)
其中,ikout是用戶i的出度,ikin是用戶i的入度。
(2)用戶信息特征:多樣性、均質(zhì)性。信息多樣性表示一個(gè)用戶在整個(gè)時(shí)間段內(nèi)的交互過(guò)程中包含信息量的多少,代表用戶信息質(zhì)量的高低。用戶i的信息多樣性表示為di,通過(guò)用戶i整個(gè)時(shí)間段內(nèi)的關(guān)鍵詞種類與社區(qū)內(nèi)關(guān)鍵詞種類的比值度量,計(jì)算公式為:
di=ni/N(3)
其中,ni代表該用戶i在整個(gè)時(shí)間段內(nèi)出現(xiàn)的關(guān)鍵詞的種類,N代表整個(gè)時(shí)間段內(nèi)社區(qū)內(nèi)的關(guān)鍵詞種類。
信息均質(zhì)性表示用戶在整個(gè)時(shí)間段內(nèi)的交互過(guò)程中信息的全面程度。用戶i的信息均質(zhì)性表示為ji,通過(guò)用戶i在整個(gè)時(shí)間段內(nèi)在不同信息主題間的信息熵與用戶i最大信息熵的比值度量。均質(zhì)性j的取值范圍為[0-1],當(dāng)j越接近1時(shí),信息全面性越高;反之,信息全面性越低。計(jì)算公式為:
ji=Hi/(4)
(5)
(6)
其中,H(i)代表用戶信息主題的信息熵,P(it)表示用戶i在主題t的概率,S代表用戶i的信息主題個(gè)數(shù)。
(3)用戶情感特征:正向情感頻數(shù)、負(fù)向情感頻數(shù)。情感傾向度表示用戶在整個(gè)時(shí)間段內(nèi)的交互過(guò)程中情感的傾向性。用戶i的正向情感頻數(shù)表示為Pei,表示一個(gè)用戶在整個(gè)時(shí)間段內(nèi)的交互過(guò)程中,正向信息數(shù)量的多少。負(fù)向情感頻數(shù)表示為nei,表示一個(gè)用戶在整個(gè)時(shí)間段內(nèi)的交互過(guò)程中,負(fù)向信息數(shù)量的多少。
2.2.3? 高斯混合模型(GMM)
高斯混合模型(Gaussian Mixed Model)是一種基于概率模型的聚類方法。GMM假設(shè)樣本數(shù)據(jù)服從k個(gè)高斯分布,服從同一分布的樣本聚為一類,再利用最大期望算法擬合k個(gè)混合高斯分布,以求得每個(gè)分布的均值μj和協(xié)方差εj(1≤j≤k)。以下為具體步驟:
步驟1:初始化k個(gè)多元高斯分布的參數(shù)μj和εj,假設(shè)每個(gè)混合元素具有各自的對(duì)角矩陣。
步驟2:遍歷所有樣本點(diǎn),計(jì)算樣本點(diǎn)xi(i=1,2,…,m)屬于第j個(gè)高斯分布的概率γi,j。
(1)
式中:p(·)為概率函數(shù);zi表示xi所屬的類;d為xi的維度。
步驟3:按照公式2和3得到各高斯分布參數(shù)的新值和。
(2)
(3)
步驟4:重復(fù)步驟2和3,直至各高斯參數(shù)收斂。
步驟5:利用高斯參數(shù),遍歷所有樣本,將樣本歸于概率γi,j最大的一類。
3? 實(shí)證結(jié)果分析
3.1? 構(gòu)建用戶畫(huà)像分析模型
本文在線健康社區(qū)用戶畫(huà)像構(gòu)建的行為指標(biāo)共包括:用戶的活躍度、互惠度;信息的多樣性、均質(zhì)性;正向情感頻數(shù)、負(fù)向情感頻數(shù)等6個(gè)指標(biāo)。(1)通過(guò)交互網(wǎng)絡(luò)中節(jié)點(diǎn)的加權(quán)度進(jìn)行用戶活躍度指標(biāo)的計(jì)算,其中節(jié)點(diǎn)的加權(quán)度代表著用戶整個(gè)時(shí)間段內(nèi)的交互次數(shù),體現(xiàn)著用戶活躍度的大小;通過(guò)交互網(wǎng)絡(luò)中節(jié)點(diǎn)的出度和入度兩個(gè)指標(biāo)進(jìn)行用戶互惠度的指標(biāo)計(jì)算。節(jié)點(diǎn)的出度代表用戶在信息交互過(guò)程中的信息傳播行為;節(jié)點(diǎn)的入度代表用戶在信息交互過(guò)程中的信息接收行為。(2)根據(jù)2020.07—2020.12時(shí)間段內(nèi)每個(gè)用戶交互的健康信息,進(jìn)行關(guān)鍵詞提取,每個(gè)用戶關(guān)鍵詞種類的頻數(shù)與社區(qū)中所有用戶頻數(shù)的比值度量信息的多樣性;首先基于LDA主題模型,結(jié)合切詞工具pkuseg的醫(yī)學(xué)模塊詞典和用戶自定義詞典(該類疾病的相關(guān)專業(yè)詞匯),完成對(duì)社區(qū)中健康信息的主題識(shí)別和抽取工作。(3)用戶情感特征的提取,主要通過(guò)對(duì)社區(qū)內(nèi)的信息利用情感極性分析詞典進(jìn)行情感極性分析,可以將信息中的情感分為正向情感(score>0)、負(fù)向情感(score<0)和中性情感(score=0)三門類。71017D22-5E0E-468A-AB2F-A4DDF023E9BF
由于社區(qū)內(nèi)用戶的交互特征、信息特征和情感特征的行為指標(biāo)數(shù)據(jù)是離散型數(shù)據(jù),而高斯混合模型對(duì)于該類型數(shù)據(jù)的處理有較好的結(jié)果,因此,根據(jù)社區(qū)內(nèi)用戶的行為指標(biāo),利用高斯混合模型進(jìn)行用戶群體劃分。依據(jù)高斯混合模型的BIC和AIC的值判斷最優(yōu)聚類個(gè)數(shù),如圖2所示。
從圖2可以看出,當(dāng)社區(qū)用戶類別為大于5時(shí),兩者值的曲線變得相對(duì)平緩,故用戶聚類結(jié)果最優(yōu)。最后,根據(jù)高斯混合模型的用戶聚類結(jié)果,可以將社區(qū)內(nèi)用戶大致分成五類。用戶的行為指標(biāo)如表2所示。
3.2? 群體劃分
根據(jù)自然斷點(diǎn)法,將該社區(qū)用戶活躍度分成5個(gè)等級(jí),分別是1=非常不活躍、2=不活躍、3=一般、4=活躍、5=非常活躍。用戶活躍度等級(jí)劃分如表3所示。
結(jié)合表2中用戶活躍度區(qū)間可以看出,Class0、Class3兩類用戶的活躍度處于非常不活躍等級(jí),導(dǎo)致用戶其余行為指標(biāo)沒(méi)有參考價(jià)值,無(wú)法準(zhǔn)確體現(xiàn)用戶的特征,因此將這兩類用戶群體刪除。最后只得到Class1、Class2、Class4類用戶群體。
3.3? 信息服務(wù)
Class1類關(guān)鍵用戶是社區(qū)中的志愿者組成,主要特征是活躍性高,傾向于信息傳播;健康信息質(zhì)量高,且健康信息全面;以正向情感信息為主;男女性別相當(dāng),主要是膽管癌患者。該類用戶屬于久病成醫(yī)的用戶,在社區(qū)中積累足夠的知識(shí)后,成為社區(qū)中的志愿者。主要在社區(qū)中分享樂(lè)觀的健康信息,滿足社區(qū)成員的健康信息需求,減少患者及家屬的心理壓力,屬于正向健康信息傳播者。
Class2類關(guān)鍵用戶是社區(qū)中的患者及家屬組成,主要特征是活躍性較低,既有大量的信息接收者,也有大量的信息傳播者;健康信息質(zhì)量較低,健康信息不全面,且有一定的主題傾向,偏向于醫(yī)生醫(yī)院類健康信息;以負(fù)向情感信息為主;男女性別相當(dāng),主要是膽管癌患者。主要在社區(qū)中尋求健康信息,且在信息交互過(guò)程中經(jīng)常帶有負(fù)面的情緒,屬于負(fù)向健康信息傳播者。
Class4類關(guān)鍵用戶是社區(qū)中的管理者組成,主要特征活躍性高,傾向于信息傳播;健康信息質(zhì)量高,健康信息全面;保持理性情感,以男性為主,患病類別相當(dāng)。主要在社區(qū)中提供理性的健康信息,既要闡明疾病治療的后果,同時(shí)提供樂(lè)觀的治療經(jīng)驗(yàn)信息,屬于理性健康信息傳播者。
4? 結(jié)? 論
本文以國(guó)內(nèi)具有代表性的在線健康社區(qū)—膽管癌、膽囊癌QQ群社區(qū)為例,從用戶的交互特征、信息特征和情感特征三個(gè)維度出發(fā),通過(guò)用戶的活躍度、互惠度,信息的多樣性、均質(zhì)性,正向情感頻數(shù)、負(fù)向情感頻數(shù)等6個(gè)行為指標(biāo),利用高斯混合模型進(jìn)行社區(qū)關(guān)鍵用戶的識(shí)別。為了全面刻畫(huà)社區(qū)中關(guān)鍵用戶的基本特征,結(jié)合用戶基本特征,分析關(guān)鍵用戶的基本特征。
最后該類社區(qū)的關(guān)鍵用戶分成3類:一類是正向健康信息傳播者,該類用戶活躍度高,傾向于信息傳播,健康信息質(zhì)量高,且信息全面,以正向情感信息為主;男女性別相當(dāng),主要是膽管癌患者;一類是負(fù)向健康信息傳播者,該類用戶活躍度較低,既有大量的信息接收者,也有大量的信息傳播者;健康信息質(zhì)量較低,且信息不全面,且有一定的主題傾向,偏向于醫(yī)生醫(yī)院類健康信息;以負(fù)向情感信息為主;男女性別相當(dāng),主要是膽管癌患者;一類是理性健康信息傳播者,該類用戶活躍度高,傾向于信息傳播;健康信息質(zhì)量高,且信息全面;保持理性情感,以男性為主,患病類別相當(dāng)。通過(guò)對(duì)社區(qū)關(guān)鍵用戶的識(shí)別和特征分析,一方面可以準(zhǔn)確了解社區(qū)用戶的信息需求,提供健康信息服務(wù);一方面提高關(guān)鍵用戶的數(shù)量,促進(jìn)在線健康社區(qū)的良好發(fā)展。
參考文獻(xiàn):
[1]艾瑞.2020年中國(guó)互聯(lián)網(wǎng)+醫(yī)療行業(yè)研究報(bào)告[EB/OL].(2020-09-03).https://baijiahao.baidu.com/s?id=1676775102649072258&wfr=spider&for=pc.
[2]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第46次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告 [EB/OL].(2020-09-29).http://www.cac.gov.cn/2020-09/29/c_1602939918747816.htm.
[3] 陳慧香,邵波.國(guó)外圖書(shū)館領(lǐng)域用戶畫(huà)像的研究現(xiàn)狀及啟示[J].圖書(shū)館學(xué)研究,2017(20):16-20.
[4] YOUNG C. Community Management that Works: How to Build and Sustain a Thriving Online Health Community [J/OL].Journal of Medical Internet Research,2013,15(6):e119.[2022-12-20].http://med.wanfangdata.com.cn/Paper/Detail/PeriodicalPaper_PM23759312.
[5]吳江,周露莎.在線醫(yī)療社區(qū)中知識(shí)共享網(wǎng)絡(luò)及知識(shí)互動(dòng)行為研究[J].情報(bào)科學(xué),2017,35(3):144-151.
作者簡(jiǎn)介:蔡春雨(2001.03—),女,漢族,山東濟(jì)寧人,本科在讀,研究方向:在線用戶畫(huà)像。
收稿日期:2022-01-2171017D22-5E0E-468A-AB2F-A4DDF023E9BF