亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融入信息推薦場景要素的在線健康社區(qū)用戶畫像研究

        2023-07-01 12:44:12夏立新胡畔劉坤華翟姍姍
        圖書情報(bào)知識 2023年3期
        關(guān)鍵詞:畫像標(biāo)簽要素

        夏立新 胡畔 劉坤華 翟姍姍

        1 引言

        Web2.0時代為在線健康社區(qū)用戶帶來了全新的、自由的、互動的社交體驗(yàn),但在用戶無拘束表達(dá)自我的同時卻受到諸多問題的困擾。一方面,健康社區(qū)相對于普通社區(qū)具有特殊性,這主要是由醫(yī)療健康問題的復(fù)雜性及專業(yè)性所決定的?;颊哂脩敉ǔ2痪邆淝逦磉_(dá)以及快速定位自身所需信息并進(jìn)行鑒別的能力,在健康社區(qū)搜索、瀏覽的過程中被海量無關(guān)信息裹挾會使得用戶對于自身疾病的困惑情緒難以排遣,極易產(chǎn)生對于社區(qū)的不信任感,進(jìn)而使其社區(qū)參與感難以得到保障。另一方面,我國在線醫(yī)療用戶規(guī)模不斷增加,加速了在線健康社區(qū)服務(wù)場景范圍的擴(kuò)大以及服務(wù)場景深度的進(jìn)一步細(xì)化,傳統(tǒng)導(dǎo)航、關(guān)鍵詞檢索等信息服務(wù)模式已難以全面滿足醫(yī)學(xué)健康領(lǐng)域用戶的實(shí)時信息需求。在此情形下,信息推薦作為一種具有高度交互性的數(shù)字化信息服務(wù),隨著相關(guān)算法的逐步成熟越來越受到各行業(yè)信息服務(wù)研究者們的重視。

        憑借對象聚焦化、需求精準(zhǔn)化、特征標(biāo)簽化等優(yōu)勢,用戶畫像為該系列問題提供了新的解決途徑:從用戶群體中抽象出典型用戶需求,在某種特定的情境下抽取出真實(shí)用戶行為數(shù)據(jù),形成描述用戶需求與行為的標(biāo)簽集合,刻畫細(xì)粒度、多維度的活躍用戶畫像,從而為用戶提供更加個性化、多樣化的信息推薦等服務(wù)。基于此,本文以信息推薦服務(wù)為導(dǎo)向,融入信息推薦場景要素,豐富用戶畫像的標(biāo)簽體系,從而更為全面地刻畫在線健康社區(qū)用戶。

        2 相關(guān)研究

        2.1 用戶畫像概念及其應(yīng)用研究

        用戶畫像即用戶信息標(biāo)簽化,采用一定的技術(shù)方法將用戶的自然屬性、社會屬性、行為習(xí)慣等維度的特征提煉成標(biāo)簽,形成較為完善的用戶標(biāo)簽體系。用戶畫像作為描述目標(biāo)用戶、提高決策效率的有效工具,一經(jīng)提出便被廣泛應(yīng)用到電子商務(wù)領(lǐng)域[1]。當(dāng)前,國內(nèi)外已有較多領(lǐng)域開展了有關(guān)用戶畫像的理論與應(yīng)用研究。相關(guān)學(xué)者結(jié)合當(dāng)前的環(huán)境和用戶畫像理論基礎(chǔ),通過內(nèi)容分析、主題挖掘、社會關(guān)系網(wǎng)絡(luò)、聚類、可視化等方法,對圖書情報(bào)、旅游、教育、醫(yī)療等行業(yè)進(jìn)行應(yīng)用研究,揭示了多個領(lǐng)域下用戶的需求與行為特征規(guī)律[2-5]。

        在“健康中國”的戰(zhàn)略下,全民健康意識大幅提升,用戶健康信息需求個性化、多樣化特征愈發(fā)顯著,用戶畫像在健康醫(yī)療方面的應(yīng)用也越來越廣泛,涉及多種應(yīng)用模式。如個人信息管理方面,健康醫(yī)療用戶畫像聚焦于用戶健康信息資源管理,Wang等人提出并研發(fā)的用戶個性化健康信息管理系統(tǒng)[6];劉莉等人從患者個性化需求的角度出發(fā),基于慢性疾病患者健康畫像開發(fā)了健康管理系統(tǒng)[7]。在精準(zhǔn)服務(wù)方面,唐暉嵐等人通過采集書簽數(shù)據(jù)構(gòu)建了網(wǎng)絡(luò)健康信息精準(zhǔn)服務(wù)模式[8];郭順利等人采用用戶群體畫像為高校大學(xué)生提供精準(zhǔn)化服務(wù)[9];張海濤等人利用概念格進(jìn)行在線健康社區(qū)用戶群體聚類以實(shí)現(xiàn)精準(zhǔn)服務(wù)[10];王凱等人基于模糊概念格建立多粒度用戶細(xì)分模型,精準(zhǔn)化定位用戶的需求[11]。在個性化推薦方面,Abidi等人根據(jù)用戶的談話內(nèi)容進(jìn)行健康信息的推薦[12],Lerouge等人研發(fā)了面向老年用戶的健康信息推薦系統(tǒng)[13],翟姍姍等人基于用戶病情畫像與用戶興趣構(gòu)建了個性化信息推薦模型[14]。由此可知,用戶畫像在個人信息管理、精準(zhǔn)服務(wù)、個性化推薦等多個方面都有一定研究成果,在健康醫(yī)療領(lǐng)域具有良好的應(yīng)用前景。

        2.2 用戶在線健康信息行為研究

        在線健康社區(qū)內(nèi),用戶行為所包含的信息量巨大,是構(gòu)建與完善醫(yī)學(xué)用戶畫像重要的參考維度。在線健康信息行為是指用戶利用互聯(lián)網(wǎng)尋求、獲取、評價、分類和利用健康信息以滿足個體的健康信息意識和需求的一系列信息行為。目前國外與國內(nèi)在線健康信息行為方面的研究方向存在一定區(qū)別,但均已取得顯著成果。國外用戶在線健康信息行為研究主要包括4個研究方向,分別是在線健康信息搜尋行為、在線健康信息素養(yǎng)教育、在線健康信息服務(wù)使用行為和在線健康信息交流行為;國內(nèi)在線健康社區(qū)用戶健康信息行為的研究涉及信息披露行為、信息獲取與搜尋行為、信息共享行為、信息服務(wù)使用及持續(xù)使用行為、社會支持行為等多種行為類型。由此可見,從傳統(tǒng)的信息科學(xué)角度而言,用戶在線健康信息行為主要包括健康信息瀏覽行為、信息搜尋行為、信息共享行為和信息利用行為。

        近年來,一些學(xué)者在前人研究成果的基礎(chǔ)上,借鑒相關(guān)理論或方法對用戶在線健康信息行為進(jìn)一步探索。如張鑫通過案例研究方法將在線健康社區(qū)的用戶參與行為類型劃分為求助類、提問類、描述類、情感表達(dá)類、經(jīng)歷記述類、知識分享類、社交類、質(zhì)疑類、廣告類以及無關(guān)行為共十大類參與行為[15];翟羽佳等人采用社會網(wǎng)絡(luò)分析方法按照長短期和活躍度劃分用戶,對用戶的社交支持需求進(jìn)行深入分析[16];楊夢晴和朱慶華采用K-Means聚類方法將在線健康社區(qū)中個人健康管理行為界定為健康信息發(fā)現(xiàn)、健康信息互動和健康信息分享行為[17]。在線健康領(lǐng)域用戶信息行為的研究方興未艾,探索用戶參與在線健康行為的特征和內(nèi)在機(jī)制,有助于把握用戶需求及其演化規(guī)律,為在線健康信息服務(wù)提供有益的參考和目標(biāo)導(dǎo)向。

        2.3 在線健康社區(qū)信息服務(wù)方式研究

        在線健康社區(qū)信息服務(wù)的方式是由社區(qū)運(yùn)營的首要功能和服務(wù)內(nèi)容所決定的。如美國權(quán)威醫(yī)患交流論壇MedHelp,主要提供用戶個人健康管理和專家問答服務(wù),用戶可以通過網(wǎng)站導(dǎo)航、檢索框和信息推薦的方式獲取健康信息;PatientsLikeMe作為綜合疾病的病友交流社區(qū),聚焦于個人病歷管理、相似病理展示以及疾病自查等服務(wù)內(nèi)容,社區(qū)為用戶提供導(dǎo)航、檢索等基本服務(wù)的同時也為其推送有類似健康狀況的病友信息。國內(nèi)健康網(wǎng)站“好大夫在線”為用戶提供就診、問診咨詢搜索服務(wù)及疾病、藥品、保健知識的推送服務(wù);“甜蜜家園”通過主題帖分享的形式為用戶提供糖尿病問答、疾病自查及知識科普推薦等服務(wù)。通過上述國內(nèi)外典型的在線健康社區(qū)服務(wù)與運(yùn)行模式可知,市場上已有的在線健康社區(qū)信息服務(wù)方式,按照健康用戶需求可大致分為個人健康信息管理服務(wù)、健康信息搜索服務(wù)、健康信息咨詢服務(wù)和健康信息推送服務(wù),其信息服務(wù)方式較為多樣。然而,對尚未明確病情的用戶而言,傳統(tǒng)的網(wǎng)站導(dǎo)航和搜索功能難以滿足其實(shí)時需求,易出現(xiàn)重復(fù)查詢、返回?zé)o關(guān)網(wǎng)頁等問題。其中,信息推薦服務(wù)模式充分利用了用戶個人數(shù)據(jù)、行為數(shù)據(jù)、社會關(guān)系數(shù)據(jù)和UGC等各類數(shù)據(jù),能夠更好地為用戶提供個性化的健康信息[18]。

        綜上所述,目前已有的在線健康社區(qū)信息服務(wù)方式具有交互性強(qiáng)、多樣化等特點(diǎn),但滿意度卻普遍不高。而用戶畫像已在多領(lǐng)域、多研究情境中取得相對成熟的應(yīng)用成果,在醫(yī)學(xué)領(lǐng)域中也顯現(xiàn)出極大的發(fā)展?jié)摿Γ軌蚪璐税l(fā)現(xiàn)在線健康社區(qū)用戶群體特征、挖掘用戶核心健康需求從而提升用戶滿意度。然而,用戶畫像起源于電子商務(wù)領(lǐng)域,大多是以企業(yè)或平臺的利益為主要目標(biāo),而不是以用戶需求為主要目標(biāo),因此并非完全適用于在線健康社區(qū)的信息服務(wù)。此外,常見的用戶畫像構(gòu)建標(biāo)簽體系維度較為單一,局限于用戶自然屬性與領(lǐng)域?qū)傩?,未充分考慮健康社區(qū)信息服務(wù)的場景屬性、病情屬性等維度,難以適應(yīng)個性化、多樣化的用戶健康信息需求特征?;诖?,本文以精準(zhǔn)投放、場景化推薦等信息服務(wù)方式為導(dǎo)向,充分利用用戶信息行為數(shù)據(jù),以刻畫出更為細(xì)致完善的用戶全貌。

        3 面向用戶信息需求的在線健康社區(qū)信息推薦場景及其要素分析

        用戶“井噴式”的健康信息需求使得用戶信息行為產(chǎn)生大幅差異,其在在線健康社區(qū)內(nèi)的活動場景也愈加豐富,因此在社區(qū)場景布局上便要充分考慮信息推薦的多維度場景及各場景中的代表性要素。故本文以用戶信息需求為準(zhǔn)則,在劃分在線健康社區(qū)信息推薦場景的基礎(chǔ)上,歸納信息推薦的場景要素,為在線健康社區(qū)用戶畫像建模與實(shí)證提供理論支持。

        3.1 在線健康社區(qū)用戶信息需求分析

        不同類型的用戶信息行為能夠一定程度上體現(xiàn)用戶的心理狀況和信息需求。本文通過調(diào)研在線健康社區(qū)“甜蜜家園”帖子標(biāo)題的方式,采集兒童糖尿病板塊下2020年1月至2021年1月用戶發(fā)布和回復(fù)的主題帖標(biāo)題文本,參考在線健康社區(qū)已有研究中對用戶興趣偏好、參與內(nèi)容和行為類型的分類結(jié)果[15-17],結(jié)合用戶信息需求特質(zhì)進(jìn)行用戶行為類型的劃分。

        (1)搜索類用戶需求

        在線健康社區(qū)搜索類用戶行為包含求助、提問類行為和社交擴(kuò)展類行為。發(fā)生求助類行為的用戶傾向于在發(fā)布主題帖時使用強(qiáng)情緒類詞匯,如“真心”“(著)急”等,十分需要情感上的支持;發(fā)生提問類行為的用戶對相關(guān)病情認(rèn)知較淺,因而容易產(chǎn)生觀望的心態(tài)難以決斷;發(fā)生社交擴(kuò)展類行為的用戶社交能力較強(qiáng),發(fā)帖內(nèi)容中包含較強(qiáng)互動需求。發(fā)生搜索類行為的用戶共同特征表現(xiàn)在對知識、社交等新事物強(qiáng)烈而迫切的探求心理。

        (2)分享類用戶需求

        在線健康社區(qū)分享類用戶行為包含知識分享和醫(yī)療廣告類信息行為,該類型用戶具有較強(qiáng)的創(chuàng)作能力。發(fā)生知識分享類行為的用戶包括專家和普通用戶兩類,發(fā)帖內(nèi)容主要是專家提供專業(yè)信息咨詢服務(wù),以及普通知識分享類用戶搬運(yùn)專業(yè)人士生產(chǎn)知識;醫(yī)療廣告類行為是指在在線健康社區(qū)中發(fā)布以治療方案、藥物、治療儀器等廣告以及求購信息等主題帖。對于發(fā)生分享類行為的用戶,應(yīng)關(guān)注其社交方面與自我展示方面的需求。

        (3)提供類用戶需求

        在線健康社區(qū)提供類用戶行為包含記敘描述類行為和情感互動類行為,該類用戶行為的動機(jī)一般包括記錄生活、尋求認(rèn)同或即時的感受。如記敘描述類信息行為敘述了用戶自身或患病親屬的患病、治療等相關(guān)情況或經(jīng)歷;情感互動類用戶并不展示具體的問題等,而僅為了抒發(fā)當(dāng)前心理狀況及情緒情感。該類行為體現(xiàn)用戶個性化需求、創(chuàng)作需求、社交需求以及即時需求。

        3.2 用戶需求驅(qū)動下的在線健康社區(qū)信息推薦服務(wù)場景劃分

        通過上文對在線健康社區(qū)用戶信息需求與信息行為的深入分析,本文采用網(wǎng)頁定位的策略劃分場景,將在線健康社區(qū)信息推薦場景劃分為社區(qū)首頁、個人主頁、信息詳情頁、用戶發(fā)帖頁四類[14],并初步建立在線健康社區(qū)網(wǎng)頁定位與用戶行為間的聯(lián)系,再結(jié)合不同場景下用戶對信息推送內(nèi)容的實(shí)時需求,關(guān)聯(lián)場景與用戶需求,最終確定以“網(wǎng)頁位置-行為-需求”為依據(jù)的在線健康社區(qū)信息推薦場景劃分策略,如表1所示。

        表1 在線健康社區(qū)信息推薦場景劃分標(biāo)準(zhǔn)Table1 Classification Criteria for Online Health Community Information Recommendation Scenarios

        社區(qū)首頁場景下,用戶一般有較強(qiáng)的欲望探索新的主題信息,其信息行為以瀏覽、搜索為主;個人主頁場景下則側(cè)重于與用戶自身興趣、偏好相關(guān)的信息,部分用戶易產(chǎn)生社交需求,發(fā)生社交擴(kuò)展類信息行為;信息詳情頁場景下則常常更需要與當(dāng)前信息相關(guān)的內(nèi)容,用戶易被當(dāng)前主題觸發(fā)情感互動和記敘描述類提供行為;發(fā)布頁面下用戶具有較強(qiáng)的表達(dá)欲和求知欲,易發(fā)生分享和提供類信息行為。

        基于此,本文綜合網(wǎng)頁位置、用戶需求和用戶行為特征,最終將在線健康社區(qū)信息推薦場景劃分為四類,即:基于獵奇心理的社區(qū)首頁場景、基于用戶自我意識的個人主頁場景、基于當(dāng)前主題的詳情頁場景、基于用戶內(nèi)容生產(chǎn)能力的發(fā)布頁場景。

        3.3 面向信息推薦服務(wù)的場景要素分析

        學(xué)者們關(guān)于場景要素的研究已有精辟的論述,具有代表性的觀點(diǎn)包括羅伯特和謝爾提出的場景五力理論[19],彭蘭提出的移動時代場景四要素等[20]。然而,這些場景要素并不都是面向信息推薦服務(wù)的,甚至不都是面向信息服務(wù)的。目前面向信息推薦服務(wù)的場景要素研究主要集中于圖書館、電子商務(wù)等領(lǐng)域。圖書館領(lǐng)域有關(guān)場景劃分或構(gòu)造策略的研究成果較為豐富,例如,針對高校移動圖書館資源推薦的用戶、興趣、時間、位置、設(shè)備五類場景要素的理念[21],以及從“場景-情境-用戶”三個維度實(shí)現(xiàn)的移動圖書館場景化服務(wù)要素配置的策略[22]。電子商務(wù)領(lǐng)域場景要素的分類主要傾向于用戶個性化,有學(xué)者將移動電商環(huán)境下的場景推薦要素歸納為用戶、位置、時間、環(huán)境、設(shè)備五類[23];還有學(xué)者將傳統(tǒng)場景五力要素嵌入創(chuàng)新商業(yè)服務(wù)模式中,促使推薦服務(wù)效用由“千人一面”向“千人千面”轉(zhuǎn)變[24]。

        因此,本文綜合已有的場景要素相關(guān)研究,著重考慮各場景要素對信息推薦服務(wù)的支撐能力,并結(jié)合實(shí)體物理環(huán)境和虛擬網(wǎng)絡(luò)環(huán)境,將在線健康社區(qū)場景要素歸納綜合為四類,即用戶要素、興趣要素、時空要素和設(shè)備要素。如圖1所示。在線健康社區(qū)信息推薦的場景要素歸類需要充分考量在線健康社區(qū)的特有性,并對于其中各類要素信息進(jìn)行合理的取舍,如刪除難以體現(xiàn)用戶健康特質(zhì)的職業(yè)、婚姻狀況等冗余信息,增加病情、居住地等信息的精準(zhǔn)獲取。對場景進(jìn)行精準(zhǔn)化處理,能夠增強(qiáng)后續(xù)構(gòu)建用戶畫像模型過程中對用戶標(biāo)簽進(jìn)行取舍與分類的合理性與科學(xué)性,以提升用戶畫像模型在信息推薦服務(wù)中的可用性。

        圖1 面向信息推薦服務(wù)的在線健康社區(qū)場景要素Fig.1 Scenarios Elements of Online Health Community Oriented to Information Recommendation Services

        4 在線健康社區(qū)用戶畫像模型構(gòu)建

        上文基于用戶需求劃分了信息推薦的四類基本場景,并明確了面向在線健康社區(qū)信息推薦服務(wù)的四大場景要素?;诖?,本文通過建立信息推薦場景要素與用戶畫像標(biāo)簽的關(guān)聯(lián)關(guān)系,識別不同信息推薦場景下的要素標(biāo)簽,構(gòu)建在線健康社區(qū)用戶標(biāo)簽體系,并基于形式概念分析實(shí)現(xiàn)用戶畫像建模。

        4.1 基于信息推薦場景要素的用戶畫像特征標(biāo)簽分布

        用戶畫像是實(shí)現(xiàn)信息推薦的重要參考體系,不同場景下用戶的需求具有明顯的差異,這種差異也體現(xiàn)在用戶畫像的標(biāo)簽識別上,各場景下用戶需求特征屬性標(biāo)簽識別的過程也是場景與標(biāo)簽建立連接的過程。

        本文對四種網(wǎng)頁位置中用戶的需求-行為特征展開分析,并將用戶畫像標(biāo)簽與其適應(yīng)的場景關(guān)聯(lián),以識別不同信息推薦場景下的要素標(biāo)簽,如表2所示。

        表2 四類信息推薦場景下的要素標(biāo)簽分布Table 2 Distribution of Element Labels in Four Types of Information Recommendation Scenarios

        社區(qū)首頁的任務(wù)是捕獲用戶興趣點(diǎn),來源于用戶瀏覽首頁時尋求新奇事物的獵奇心理。因此,該場景與用戶的當(dāng)前情境聯(lián)系緊密,在社區(qū)首頁,用戶常常沒有明確的需求傾向,對推薦信息的類型、主題具有較強(qiáng)的包容性。因而,用戶傾向于獲得熱門信息和最新信息的推送,時空要素和設(shè)備要素所包含的標(biāo)簽內(nèi)容更能體現(xiàn)用戶在該場景下的動態(tài)需求。

        在基于用戶自我意識的個人主頁的場景下,用戶顯然希望獲取能夠滿足其個性化需求的信息,既包括需求內(nèi)容的個性化,也包括其信息閱覽、交互中的偏好信息,如不喜歡視頻類資源。因而,對其進(jìn)行信息推薦時可以綜合利用用戶要素、興趣要素、時空要素和設(shè)備要素所包含的各類標(biāo)簽,使用個性化推薦策略滿足其多維度需求。該場景下用戶的需求仍然是以搜索行為為主,部分用戶易萌生社交類需求。

        用戶進(jìn)入詳情頁后,即提供了一個捕獲用戶即時需求和獵奇心理的獨(dú)特場景,進(jìn)入這一場景的用戶是受到某主題的吸引,更易對相似的主題或該主題帖作者所生產(chǎn)的其他內(nèi)容產(chǎn)生興趣。因而,用戶傾向于獲得與當(dāng)前主題相似的信息推送,但推送結(jié)果需融合主題語義和用戶病情雙重特征,用戶要素和興趣要素所包含的標(biāo)簽便不可忽視。在該場景下,用戶更愿意表達(dá)自己對該主題的見解,發(fā)生描述記敘或情感分享的提供類信息行為。

        在線健康社區(qū)的帖子發(fā)布頁面較為特殊,一般平臺的發(fā)布頁面只有當(dāng)前熱門話題的推薦,而在線健康社區(qū)用戶發(fā)帖時往往是需要解決病情上的困惑。因此在在線健康社區(qū)用戶帖子發(fā)布頁面的場景下,需要調(diào)動用戶要素、興趣要素、設(shè)備要素為其進(jìn)行推薦,此時的用戶兼具求知欲與創(chuàng)作欲,其分享類和提供類信息行為特征明顯。

        4.2 基于要素標(biāo)簽的用戶標(biāo)簽體系構(gòu)建

        本文所構(gòu)建的用戶標(biāo)簽體系以用戶場景化需求為出發(fā)點(diǎn),基于上文識別的信息推薦場景要素標(biāo)簽,將用戶特征屬性劃分為以下幾個維度。(1)用戶基本信息屬性維度,包括用戶自然屬性和用戶病情屬性,屬于用戶要素的范疇。其中,用戶的病情屬性是在線健康社區(qū)中最具有代表性的一類特征。(2)用戶信息行為屬性維度和用戶能力屬性維度,屬于用戶興趣的范疇,相對于用戶信息行為屬性中各類行為數(shù)據(jù)的量化,設(shè)置用戶能力屬性則傾向于采用二值判斷的方式直觀反映用戶能力的強(qiáng)弱。(3)情境屬性維度中的特征標(biāo)簽分別對應(yīng)兩個范疇的要素標(biāo)簽,即時空要素和設(shè)備要素,收集各類標(biāo)簽主要用于滿足用戶的即時需求,以及用于判斷用戶是否具有明顯的個性化特征。

        由此可知,不同用戶屬性維度包含的特征標(biāo)簽內(nèi)容有所差異,與其所屬的信息推薦場景要素范疇具有一定的映射規(guī)則,具體如表3所示。

        表3 信息推薦場景要素標(biāo)簽范疇與畫像維度映射表Table 3 Mapping Table of Label Categories of Information Recommendation Scenario Elements and Portrait Dimensions

        一般而言,用戶標(biāo)簽體系的構(gòu)建信息維度越完善,屬性描述越詳細(xì),則越可能挖掘更多的用戶特征與關(guān)聯(lián)規(guī)則。然而,在構(gòu)建用戶標(biāo)簽體系時,還需要參考業(yè)務(wù)流程及服務(wù)目標(biāo)對各級標(biāo)簽進(jìn)行合理取舍,使其能夠適應(yīng)系統(tǒng)服務(wù)的目標(biāo)?;谏鲜龅囊貥?biāo)簽映射規(guī)則,綜合不同信息推薦場景下的用戶需求構(gòu)建在線健康社區(qū)用戶標(biāo)簽體系,如圖2所示。

        圖2 基于要素標(biāo)簽的在線健康社區(qū)用戶畫像標(biāo)簽體系Fig.2 User Portrait Label System of Online Health Community Based on Element Labels

        4.3 基于形式概念的用戶畫像建模

        形式概念分析又叫概念格(concept lattice),是一個以概念為元素的偏序集,它可以通過Hasse圖可視化,其中每個節(jié)點(diǎn)是一個形式概念,實(shí)際意義是揭示每個節(jié)點(diǎn)或者說屬性特征間的關(guān)系。其工作原理是通過對頻繁項(xiàng)集的挖掘,建立形式概念背景模型,從而找到用戶需求的特征和關(guān)聯(lián),進(jìn)一步實(shí)現(xiàn)相同需求用戶的聚類和不同需求用戶的區(qū)分。因此,基于形式概念構(gòu)建在線健康社區(qū)用戶畫像模型,其實(shí)現(xiàn)流程主要包括用戶特征標(biāo)簽化、概念格構(gòu)建和關(guān)聯(lián)規(guī)則生成。

        (1)用戶定位與特征細(xì)分

        該步驟即用戶特征標(biāo)簽化的過程,借助于結(jié)構(gòu)化信息處理的思想實(shí)現(xiàn)自然語言處理以便計(jì)算機(jī)理解和應(yīng)用。用戶信息包括結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),對于結(jié)構(gòu)化數(shù)據(jù),例如發(fā)帖量、好友數(shù)可以直接用于標(biāo)簽的生成處理,而大量的用戶標(biāo)簽需要通過對非結(jié)構(gòu)化文本的分析才能獲取。因此,可以采用對整體文本切分詞的方式統(tǒng)計(jì)詞頻,保留有實(shí)際意義的中高頻詞,即可用于判斷用戶需求、劃分用戶類別以及確定用戶屬性的詞。以糖尿病為例,通過構(gòu)建用戶畫像標(biāo)簽體系細(xì)分模型維度,將用戶特征屬性標(biāo)簽與各維度一一映射,形成更加全面的用戶特征標(biāo)簽集,如圖3所示。

        圖3 在線健康社區(qū)用戶定位與特征細(xì)分Fig.3 User Orientation and Feature Segmentation of Online Health Community

        基于形式概念的用戶標(biāo)簽體系構(gòu)建需對各屬性數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。以本文在線健康社區(qū)用戶畫像中最為典型的病情特征標(biāo)簽為例,就患病類型、癥狀及治療方案等屬性而言,相對于數(shù)值型數(shù)據(jù)形式,文本型屬性特征更能代表用戶的健康特征,且在健康社區(qū)內(nèi)容中出現(xiàn)頻率更高,因而以糖尿病為例,在對主題文本進(jìn)行語義抽取后,采取文本標(biāo)簽分類的形式進(jìn)行處理,如表4所示。

        表4 用戶病情屬性標(biāo)簽分類表Table.4 Tags Classification of User State of Illness

        (2)構(gòu)建概念格

        概念格的出發(fā)點(diǎn)是布爾型數(shù)據(jù),因而本文研究中存在的大量數(shù)值型、文本型數(shù)據(jù)需要經(jīng)過處理才能生成Lattice形式。

        就概念格對象而言,其對應(yīng)指標(biāo)屬性只有“空白”(不存在)和“X”(存在)兩種可能,為降低概念形式分解后的高維稀疏數(shù)據(jù)矩陣的消極影響,需采用RFM模型對用戶進(jìn)行精細(xì)化篩選。該模型是通過三個指標(biāo),即消費(fèi)時間間隔(recency)、消費(fèi)頻率(frequency)和消費(fèi)金額(monetary)將用戶劃分為8個類別,從而能夠幫助企業(yè)為每個類別的客戶推送不同的服務(wù)。其后再對典型用戶群體實(shí)現(xiàn)概念格聚類,就概念格屬性而言,概念格的呈現(xiàn)需要嚴(yán)格控制屬性的數(shù)量,過多的屬性會導(dǎo)致最終可視化圖形效果不佳,所以在編輯形式概念背景時,盡可能保留最能體現(xiàn)用戶特征和偏好的屬性標(biāo)簽,而對其他屬性標(biāo)簽采取刪減、合并等方式進(jìn)行整合,形成形式概念背景(context)。

        (3)關(guān)聯(lián)規(guī)則生成

        概念格聚類統(tǒng)計(jì)的結(jié)果是每種標(biāo)簽出現(xiàn)的頻率,以及各標(biāo)簽屬性之間的聯(lián)系,這種關(guān)系可以通過各頻繁項(xiàng)集的推理從而實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘。利用屬性聯(lián)系可以實(shí)現(xiàn)各頻繁項(xiàng)集的推理,挖掘其中的關(guān)聯(lián)規(guī)則。對于大量Lattice生成的規(guī)則,可以通過對最小支持度和置信度的設(shè)置進(jìn)行規(guī)則篩選,從而得出符合推薦和應(yīng)用場景的用戶類型,通過Hasse圖中標(biāo)簽屬性之間的關(guān)系可以實(shí)現(xiàn)用戶畫像聚類。

        基于關(guān)聯(lián)規(guī)則的分析旨在搜尋屬性兩兩之間的關(guān)系,置信度和支持度作為關(guān)聯(lián)規(guī)則中兩個評價指標(biāo),通常用來判斷關(guān)聯(lián)規(guī)則的可靠性和重要性。其中,支持度是指規(guī)則中某屬性出現(xiàn)的頻率,若是屬性集合D有s%的屬性包含XY,則稱在D中關(guān)聯(lián)規(guī)則XY的支持度為s%,實(shí)際上,可以表示為概率P(XY),即Support(X,Y)=P(XY),如公式(1)所示。

        置信度指規(guī)則的強(qiáng)度,含義是集合D中c%的屬性包含X的同時包含XY ?如果說X支持度是Suppor(tX),那么規(guī)則的置信度則表示為:Support(XY)/Support(X),此時為條件概率P(Y|X),即Confidence(XY)=P(Y|X),如公式(2)所示。

        5 在線健康社區(qū)用戶畫像實(shí)證分析

        本文獲取典型在線健康社區(qū)用戶數(shù)據(jù),采用RFM模型對用戶進(jìn)行篩選,定位目標(biāo)用戶群體;再對用戶特征進(jìn)行標(biāo)簽化處理;最后對典型用戶群體實(shí)現(xiàn)概念格聚類。

        5.1 數(shù)據(jù)預(yù)處理

        傳統(tǒng)以醫(yī)生為中心的垂直型社區(qū)中信息并不能集中呈現(xiàn),而是散落分布于各個疾病板塊中,而以糖尿病這一單一疾病為背景的綜合類在線健康社區(qū)具有極高的專指度,用戶需求相對集中,信息資源特征更為突出。因此,本文選取糖尿病論壇“甜蜜家園”作為在線健康社區(qū)實(shí)證的數(shù)據(jù)來源,使用python爬取其“兒童糖尿病論壇”相關(guān)數(shù)據(jù)(爬取時間為2021年1月25日),總樣本為2020年1月至2021年1月有回復(fù)的主題共150個,主題下的評論帖2,328條,涉及用戶1,097名。獲取的用戶屬性僅包含用戶昵稱、用戶性別、年齡、關(guān)注主題、發(fā)表主題貼及評論帖、注冊時長、在線時長、患病類型、癥狀和治療方案。

        以上的用戶數(shù)據(jù)兼具文本、布爾、數(shù)值類型,與概念格構(gòu)建的出發(fā)點(diǎn)相去甚遠(yuǎn),因此結(jié)合用戶篩選模型,并對照用戶畫像概念模型細(xì)分模型維度。本文采用的用戶篩選模型是RFM模型,指標(biāo)映射規(guī)則如圖4所示。

        圖4 RFM 指標(biāo)映射Fig.4 The RFM Indicator Mapping

        因此,首先篩選出一年內(nèi)有回復(fù)的主題帖發(fā)表者和最近一年內(nèi)發(fā)布評論的用戶,去除身份重復(fù),保留用戶共103人;其次對103名用戶RFM三項(xiàng)指標(biāo)的數(shù)值取均值進(jìn)行比較;最后按每項(xiàng)高于平均值或低于均值分為八類,每種類型選擇2名用戶,共計(jì)16名典型用戶,為保護(hù)用戶隱私,對其昵稱進(jìn)行處理,如表5所示。

        表5 RFM 典型用戶Table 5 Typical RFM Users

        5.2 用戶畫像聚類

        定位RFM模型篩選出的目標(biāo)用戶群體,并采用畫像標(biāo)簽對其進(jìn)行概念格聚類,其實(shí)現(xiàn)過程分為以下幾個步驟。

        (1)編輯context

        利用Conexp工具構(gòu)建概念格,構(gòu)建對象即RFM模型的16名典型用戶,構(gòu)建標(biāo)簽包括男、女、成年人、未成年人、I型糖尿病、II型糖尿病、妊娠型糖尿病、其他、酮癥酸中毒、血糖異常、感冒發(fā)燒、嘔吐腹瀉、體型異常、無特殊癥狀、預(yù)防、手術(shù)治療、藥物治療、日常護(hù)理、社交型、非社交型、內(nèi)容生產(chǎn)能力強(qiáng)、內(nèi)容生產(chǎn)能力弱、搜索行為>Avg、搜索行為≤Avg、提供行為>Avg、提供行為≤Avg、分享行為>Avg、分享行為≤Avg,共28個維度,如表6所示。其中“X”格代表1,即用戶有該標(biāo)簽,空白格代表0,即用戶沒有該標(biāo)簽,某列越稀疏則意味著具備該屬性的對象數(shù)量越少。

        表6 context 標(biāo)簽編輯(部分)Table 6 Context Label Editing(Partial)

        (2)Lattice用戶畫像生成

        對構(gòu)建好的概念形式標(biāo)簽生成Lattice,得到整體Hasse圖,如圖5所示。其中每個圓形節(jié)點(diǎn)代表一個概念,連線表示超概念與其子概念間隱含的關(guān)聯(lián)關(guān)系,每個節(jié)點(diǎn)上的數(shù)字標(biāo)簽表示該概念具有的對象數(shù)量及其概率??梢钥吹?,Hasse圖中共包含四類圓形節(jié)點(diǎn),綠白色節(jié)點(diǎn)表示該概念包含一個屬性,白黑色節(jié)點(diǎn)表示該概念含有一個對象,綠黑色節(jié)點(diǎn)即代表該概念有一個屬性且有一個對象,而白色的節(jié)點(diǎn)則是潛在概念,圓形節(jié)點(diǎn)越大則說明能支持該概念成立的對象越多。概念包含的屬性名稱用灰色矩形標(biāo)識,隨著層次的增加,該層概念具有的屬性逐漸增多,具有這些概念的對象數(shù)量逐漸減少。

        (3)用戶畫像聚類

        由Lattice進(jìn)行用戶畫像聚類后的屬性標(biāo)簽可以揭示社區(qū)內(nèi)用戶群體的主要特征,并借助屬性出現(xiàn)的頻率完成用戶特征等級的排序。以對象所含標(biāo)簽數(shù)量降序排列,聚類得到特征最為突出的四類用戶群體,即“觀望型用戶群體”“宣傳型用戶群體”“高產(chǎn)型用戶群體”和“經(jīng)驗(yàn)型用戶群體”。這四類用戶群體所具有的屬性及其數(shù)量,以及含有該屬性對象數(shù)量、占比如表7所示。

        表7 用戶類別及其屬性-對象Table 7 User Categories and Their Attributes-Objects

        5.3 聚類結(jié)果分析

        通過用戶畫像聚類得出上述四類典型用戶群體,均為“甜蜜家園”中具有代表性的用戶群體,屬性標(biāo)簽數(shù)量越多,對于該用戶群體的描述便越精細(xì),基于這部分標(biāo)簽構(gòu)建的畫像準(zhǔn)確性就更強(qiáng)。此外,對用戶進(jìn)行信息推薦的前提是確定用戶的具體類型,本文通過比較用戶標(biāo)簽與具體用戶類型屬性標(biāo)簽的重合數(shù)量來明確用戶類型。當(dāng)某用戶標(biāo)簽與多個類別的用戶屬性標(biāo)簽重合數(shù)量相同時,說明該用戶隸屬于多個類別,則采用混合推薦的方式,即綜合不同類型用戶群體的推薦方案進(jìn)行推薦。不同類型的用戶群體具體分析與健康信息推薦方案如下。

        (1)觀望型用戶群體

        該類群體聚集了81%的典型用戶樣本量,是維持社區(qū)運(yùn)行最重要的基數(shù),主要圍繞患病類型、治療手段和相關(guān)癥狀的病情問題進(jìn)行提問和討論,其Hasse圖生成結(jié)果如圖6所示,圖中節(jié)點(diǎn)與連線內(nèi)涵同圖5。以觀望型用戶群體Hasse圖中所含概念標(biāo)簽及對象占比生成用戶群體畫像,如圖7所示。該類型用戶在社區(qū)內(nèi)傾向于潛水、觀望,在社區(qū)中也缺乏互相關(guān)注的好友。同時,該類用戶的注冊和發(fā)帖時間較早,但用戶活躍度不高、等級較低。其中,用戶A注冊時長1,040天,好友數(shù)仍為0,總發(fā)帖量僅有7篇,帖子的評論回復(fù)總數(shù)共20條,是“觀望型”用戶的典型代表。

        圖6 “觀望型”用戶群體概念格Hasse 圖(部分)Fig.6 Hasse Diagram of Concept Lattice of "Wait-and-See" User Group(Partial)

        圖7 “觀望型”用戶群體畫像Fig.7 Portraits of "Wait-and-See" User Group

        該類型用戶個人信息普遍不夠完善,對其進(jìn)行信息推薦的重點(diǎn)是在社區(qū)首頁場景下,結(jié)合當(dāng)前日歷以及用戶IP地址推薦最新信息以及熱門社區(qū)活動,充分調(diào)動用戶對于各類健康信息的好奇心理與社區(qū)參與度,從而增加發(fā)文、交友、評論回復(fù)等行為。因此,針對該類型用戶,“甜蜜家園”需要提高其忠誠度,使其對社區(qū)產(chǎn)生信任的同時增加發(fā)文量。

        (2)宣傳型用戶群體

        該類群體聚集了75%的典型用戶樣本量,傾向于科普預(yù)防知識、分享較為權(quán)威的健康信息,不常發(fā)生記錄日常或是抒發(fā)情緒的提供類信息行為。這類用戶發(fā)帖頻率較為穩(wěn)定,發(fā)文也是圍繞糖尿病病情展開探討,但由于其中部分用戶頻繁發(fā)布醫(yī)療廣告信息,活躍度過高,在社區(qū)內(nèi)獲得的好友關(guān)注反而較少。其中,用戶B注冊時長611天,在線時長423小時,發(fā)布的1,264篇主題帖的評論回復(fù)數(shù)量僅有26條,且多數(shù)為自評或廣告宣傳,提供自身情況類的信息行為發(fā)生0次,是“宣傳型”用戶代表。

        該類型用戶提供類信息行為不足,其他用戶對其信任度不高,因而對其進(jìn)行信息推薦的重點(diǎn)是在帖子發(fā)布頁面場景下,為其推薦能夠引起其他用戶關(guān)注和共鳴的主題標(biāo)簽信息,從而增加該類型用戶的內(nèi)容影響力。因此,針對該類型用戶,“甜蜜家園”應(yīng)該重視其內(nèi)容生產(chǎn)能力,但需要加強(qiáng)對其發(fā)布內(nèi)容的審核以保障患者類用戶的權(quán)益與健康需求。

        (3)高產(chǎn)型用戶群體

        該類群體聚集了69%的典型用戶樣本量,在社區(qū)內(nèi)影響力較高,普遍關(guān)注病情癥狀和治療手段等主題。該類型用戶的內(nèi)容生產(chǎn)能力、分享與提供行為均高于平均水平,且受好友關(guān)注程度較高,可推測其文章質(zhì)量也高。高產(chǎn)型用戶群體一般自身無特殊癥狀或疾病,用戶角色主要為專業(yè)知識較為豐富的用戶。例如,用戶C注冊時長5,285天,在線時長9,709小時,發(fā)帖總量為357篇,提供自身情況的信息行為發(fā)生126次,分享類信息行為發(fā)生223次,發(fā)帖內(nèi)容較為權(quán)威,如“[原創(chuàng)] [2011更新]我們反對什么樣的干細(xì)胞移植手術(shù)&常見誤解辨析...”,且所發(fā)主題帖的評論回復(fù)達(dá)17,464條,是“高產(chǎn)型”用戶群體中的典型代表。

        該類型用戶內(nèi)容影響力高,為其進(jìn)行信息推薦的重點(diǎn)是在信息詳情頁和個人詳情頁場景。一方面通過用戶歷史參與主題構(gòu)建興趣模型,為用戶推薦興趣內(nèi)容相似度高的信息列表以激發(fā)其創(chuàng)作熱情;另一方面,依據(jù)用戶的社交能力,為其推薦好友圈用戶參與或發(fā)布的主題,從而激活社區(qū)內(nèi)互動行為。因此,針對該類用戶,可以增設(shè)活動日歷,帶動社區(qū)話題討論氛圍,以新穎應(yīng)季的活動主題擴(kuò)大其影響力,可以考慮為其開設(shè)專欄,從而提高信息傳播效率。

        (4)經(jīng)驗(yàn)型用戶群體

        該類群體聚集了69%的典型用戶樣本量,患病類型主要是I型糖尿病,患該類型糖尿病的兒童通常是遺傳性獲得。這部分用戶包含兒童患者的監(jiān)護(hù)人以及兒童時期患病的成年人,已養(yǎng)成在社區(qū)發(fā)布病情相關(guān)的主題帖和評論帖的習(xí)慣,各類病理知識儲備豐富,屬于資深糖友,平臺黏性高。其中,用戶D平臺注冊時長5,558天,在線時長13,172小時,發(fā)帖總量300篇,主題帖評論回復(fù)15,317次,提供自身情況類信息行為發(fā)生139次,好友數(shù)高達(dá)118,是“經(jīng)驗(yàn)型”用戶群體中的典型代表。

        該類型用戶個人信息完善,發(fā)布信息行為成熟,推薦重點(diǎn)是在個人詳情頁和帖子發(fā)布頁面。在個人詳情頁需要更加關(guān)注經(jīng)驗(yàn)值、好友互動等信息管理,為其提供個性化推薦服務(wù)以及增值服務(wù);此外,該類型用戶發(fā)帖數(shù)量高,在帖子發(fā)布頁面除了為其提供與病情相關(guān)的主題短語式標(biāo)簽選項(xiàng),還需推薦搜索熱度高、專業(yè)化程度高的標(biāo)簽以增強(qiáng)其發(fā)布內(nèi)容的閱讀權(quán)重。因此,針對該類型用戶,平臺可以考慮將其設(shè)置為管理員,輔助論壇開展后續(xù)活動交流,鼓勵其推送更為專業(yè)化的內(nèi)容,并設(shè)置考核激勵制度。

        6 結(jié)束語

        本文聚焦于在線健康社區(qū)信息推薦場景劃分和用戶畫像構(gòu)建整個環(huán)節(jié),通過構(gòu)建社區(qū)內(nèi)用戶畫像以支持在線健康社區(qū)信息推薦服務(wù)新模式,以對傳統(tǒng)的網(wǎng)站導(dǎo)航和關(guān)鍵詞檢索的信息獲取方式進(jìn)行補(bǔ)充。基于此,本文在充分考慮到在線健康社區(qū)自身特殊性的基礎(chǔ)上,首先,采用文本分析方法,對在線健康社區(qū)用戶信息需求與信息行為進(jìn)行分解與歸類;其次,基于用戶需求劃分在線健康社區(qū)信息推薦的四類場景,并明確了面向在線健康社區(qū)信息推薦服務(wù)的場景要素;再次,建立信息推薦場景要素與用戶畫像標(biāo)簽的關(guān)聯(lián)關(guān)系,識別不同信息推薦場景下的要素標(biāo)簽;然后,構(gòu)建在線健康社區(qū)用戶標(biāo)簽體系,并基于形式概念分析實(shí)現(xiàn)用戶畫像建模。最后以糖尿病為例進(jìn)行實(shí)證研究,構(gòu)建了針對信息推薦服務(wù)模式的在線健康社區(qū)用戶畫像并通過聚類得到四類核心用戶群體,便于平臺針對各類群體特征屬性的標(biāo)簽表現(xiàn),為用戶推薦符合其真實(shí)需求的健康類信息資源。

        作者貢獻(xiàn)說明

        夏立新:提出研究思路,設(shè)計(jì)研究方案;

        胡畔:論文起草與修訂;

        劉坤華:數(shù)據(jù)采集與處理分析;

        翟姍姍:提出修訂意見。

        支撐數(shù)據(jù)

        支撐數(shù)據(jù)由作者自存儲, E-mail:1160708724@qq.com。

        1.胡畔,劉坤華.Users.xlsx.用戶數(shù)據(jù)及聚類結(jié)果數(shù)據(jù).

        猜你喜歡
        畫像標(biāo)簽要素
        威猛的畫像
        “00后”畫像
        畫像
        掌握這6點(diǎn)要素,讓肥水更高效
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        觀賞植物的色彩要素在家居設(shè)計(jì)中的應(yīng)用
        論美術(shù)中“七大要素”的辯證關(guān)系
        標(biāo)簽化傷害了誰
        也談做人的要素
        山東青年(2016年2期)2016-02-28 14:25:36
        亚洲无人区一码二码国产内射| 精品乱码一区二区三区四区| 99精品免费视频| 久久五月精品中文字幕| 三级黄色片免费久久久| 亚洲国产精品综合久久网各| 日本不卡视频免费的| 蜜桃视频中文字幕一区二区三区| 国产白浆一区二区在线| 国产免费拔擦拔擦8x高清在线人| 亚洲肥老太bbw中国熟女| 一区二区三区四区亚洲综合| 毛片在线播放亚洲免费中文网| а天堂8中文最新版在线官网| 九九99无码精品视频在线观看 | 国内嫩模自拍偷拍视频| 97日日碰曰曰摸日日澡| 久久婷婷综合色丁香五月| 国产熟女自拍视频网站| 日韩人妻中文字幕专区| 成人性生交大片免费| 色yeye免费视频免费看| 日韩美女人妻一区二区三区 | 国产高跟黑色丝袜在线| 国产一级大片免费看| 国产成版人性视频免费版| 级毛片内射视频| 亚洲av无码av制服丝袜在线 | 国产一级做a爱视频在线| 久草手机视频在线观看| 97久久草草超级碰碰碰| 青春草国产视频| 免费黄网站永久地址进入| 精品卡一卡二卡3卡高清乱码| 天天做天天躁天天躁| 视频女同久久久一区二区三区| 亚洲国产熟女精品传媒| 国产真人性做爰久久网站| 国产精品原创av片国产日韩 | 337p日本欧洲亚洲大胆色噜噜| 日日猛噜噜狠狠扒开双腿小说 |