周 歡,張培穎
(湖南工業(yè)大學(xué)商學(xué)院,湖南 株洲 412007)
習(xí)近平總書記在全國衛(wèi)生與健康大會(huì)上的講話中提到“要倡導(dǎo)健康文明的生活方式,樹立大衛(wèi)生、大健康的觀念,建立健全健康教育體系,提升全民健康素養(yǎng),推動(dòng)全民健身和全民健康深度融合。健康中國就是看病更方便,更容易”[1]。2018年,國務(wù)院辦公廳印發(fā)的《關(guān)于促進(jìn)“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的意見》[2]中提出要健全“互聯(lián)網(wǎng)+醫(yī)療健康”服務(wù)體系,完善“互聯(lián)網(wǎng)+醫(yī)療健康”支撐體系。2021年第48次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[3]顯示,截至2021年6月,我國的網(wǎng)民規(guī)模高達(dá)10.11 億,其中,在線醫(yī)療用戶規(guī)模達(dá)到了2.39億。這意味著隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,國家對(duì)在線健康領(lǐng)域關(guān)注度在不斷提升,在線醫(yī)療健康行業(yè)的發(fā)展規(guī)模也在不斷擴(kuò)大。
在線健康社區(qū)是用戶搜集和交流健康信息的平臺(tái),其科普文章板塊是用科普的方式,以文字或視頻的形式將健康領(lǐng)域的科學(xué)知識(shí)、科學(xué)方法、科學(xué)思想和科學(xué)精神傳播給用戶,從而培養(yǎng)和提高公眾健康素養(yǎng)。對(duì)在線健康社區(qū)的用戶實(shí)現(xiàn)個(gè)性化科普文章的推薦,可以減少醫(yī)療資源的浪費(fèi)、消除患者的就醫(yī)誤區(qū),為醫(yī)患溝通建立起良好的橋梁,減少疾病的發(fā)生,從而提高個(gè)人的衛(wèi)生素質(zhì)、提升整體國民身體素質(zhì)。但是科普文章的數(shù)量是海量的,如何從這些海量的科普文章中找到對(duì)用戶有用的信息,是亟待解決的一個(gè)問題。目前,還未有研究對(duì)此方面展開分析,因此,本文以“好大夫在線”為例,運(yùn)用Latent Dirichlet Allocation(LDA)主題模型、Term Frequency-Inverse Word Frequency(TF-IWF)詞頻統(tǒng)計(jì)方法、Collaborative Filtering Recommendation(CF)以及Content-Based Recom?mendations(CB)等方法,從“好大夫在線”經(jīng)典問答板塊中的用戶提問文本分析用戶需求,再從“好大夫在線”所提供的科普文章分析文章所表達(dá)的主題,進(jìn)而為用戶生成個(gè)性化科普文章推薦。
本文的主要貢獻(xiàn)如下:(1)從融合用戶觀點(diǎn)和科普文章內(nèi)容的新視角出發(fā)展開研究,避免了從單一視角進(jìn)行研究的局限;(2)使用LDA 主題模型,從文本中挖掘隱含主題,并結(jié)合基于TF-IDF算法改進(jìn)的TF-IWF算法,降低了同一類型的文本數(shù)據(jù)影響詞語及主題權(quán)重的比重,更精確、合理地判斷詞語及主題在文檔中的重要程度;(3)提出的科普文章推薦算法,拓寬了在線健康社區(qū)領(lǐng)域及推薦領(lǐng)域的研究范圍。
通過梳理在線健康社區(qū)、健康科普文章及主題提取的相關(guān)文獻(xiàn),對(duì)其進(jìn)行綜合和分析,并進(jìn)行簡要評(píng)述。
在線健康社區(qū)是用戶搜集和交流健康信息的平臺(tái)。隨著人們生活水平的提高,健康問題成為社會(huì)關(guān)注的重點(diǎn),這推動(dòng)了在線健康社區(qū)的發(fā)展,也吸引了眾多專家對(duì)此展開研究的目光。目前,在線健康社區(qū)的研究主要集中在以下幾個(gè)方面:在用戶參與行為的研究方面,劉萌萌和鄧朝華[4]認(rèn)為用戶參與行為包括社會(huì)支持和網(wǎng)絡(luò)社交行為,例如醫(yī)患交互和情感支持屬于社會(huì)支持的行為,而用戶的瀏覽、評(píng)論、點(diǎn)贊或收藏等此類行為則歸于網(wǎng)絡(luò)社交行為;Mark和Debra[5]表示用戶之所以會(huì)加入到在線健康社區(qū)中,是因?yàn)樗麄兛梢栽谏鐓^(qū)中獲得社會(huì)支持,也可以從其他成員那里得到動(dòng)力及建議;許云紅等[6]進(jìn)一步將用戶行為劃分為三個(gè)級(jí)別,利用增長模型對(duì)其參與行為進(jìn)行研究,研究結(jié)果發(fā)現(xiàn)用戶積分、活躍度、好友平均隱私數(shù)、好友平均發(fā)帖數(shù)等變量對(duì)于三個(gè)級(jí)別的用戶在增長模型的類別產(chǎn)生的影響的顯著性和影響程度均有差異。在醫(yī)生推薦方面,熊回香等[7]利用word2vec模型、TF-IDF算法、余弦相似度和文本相似度分別計(jì)算患者和醫(yī)生的相似度關(guān)系,形成基于患者的醫(yī)生推薦集和基于醫(yī)生的醫(yī)生推薦集,然后融合兩個(gè)推薦集進(jìn)行醫(yī)生推薦;潘有能和倪秀麗[8]基于Labeled-LDA 模型挖掘健康問題的潛在主題,進(jìn)而明確醫(yī)生的專長,達(dá)到精準(zhǔn)醫(yī)療專家推薦的目的;Mondal 等[9]沒有從關(guān)系型數(shù)據(jù)模型進(jìn)行研究,而是通過建立一個(gè)比關(guān)系型數(shù)據(jù)模型更加有效的多層圖數(shù)據(jù)模型,并在實(shí)驗(yàn)過程中引入信任因子,實(shí)現(xiàn)更加精準(zhǔn)的醫(yī)生推薦。
當(dāng)前對(duì)在線健康社區(qū)的研究,主要是通過研究用戶的參與行為,明確用戶使用在線健康社區(qū)的目的,并以用戶參與行為所產(chǎn)生的數(shù)據(jù)為基礎(chǔ),對(duì)醫(yī)生推薦進(jìn)行研究,幫助用戶快速、高效地獲得自己想要的信息及資源。
健康科普是以科普的方式將健康領(lǐng)域的科學(xué)知識(shí)、方法、思想和精神傳播給公眾,旨在培養(yǎng)和提高公眾健康素養(yǎng)的長期性活動(dòng)。健康科普文章則是以文字進(jìn)行健康信息傳播的一種健康科普形式。目前,有關(guān)健康科普文章的研究還比較少,對(duì)健康科普展開研究的學(xué)者有:梁海柱[10]就如何充分利用文章素材,將專家的表述和作者的提問巧妙地連接在一起,形成一篇邏輯清晰、結(jié)構(gòu)合理的文章,對(duì)文章寫作方法進(jìn)行了研究;賈建敏等[11]分析了高校醫(yī)學(xué)期刊開展健康科普的意義,新媒體在推動(dòng)健康科普中的優(yōu)勢(shì)以及提出了高效醫(yī)學(xué)期刊實(shí)施健康科普的策略;還有部分學(xué)者對(duì)健康科普在微信公眾號(hào)中的傳播領(lǐng)域展開研究,如高菲等[12]探究了腫瘤專科醫(yī)院微信公眾號(hào)健康科普內(nèi)容及傳播規(guī)律、朱秋艷和韋婉[13]對(duì)全國6所三甲精神??漆t(yī)院微信公眾號(hào)健康科普傳播現(xiàn)狀進(jìn)行了分析。
目前,已有的對(duì)健康科普的研究大多集中在健康科普的內(nèi)容及其寫作、實(shí)施健康科普的意義方面,而未將研究的重點(diǎn)放在用戶規(guī)模在不斷增大的在線健康社區(qū)及社區(qū)中健康科普文章推薦方面。
主題模型是通過將高維單詞空間映射到低維目標(biāo)主題空間,以使讀者能更好地理解文檔集合所討論的主題信息,早期的主題模型主要有La?tent Semantic Analysis(LSA)和Probabilistic Latent Semantic Analysis(PLSA)。然而,LSA 模型面臨著“一詞多義”和“多詞一義”等問題,PLSA模型對(duì)特定文檔中的主題的混合比例權(quán)重沒有做任何假設(shè),在實(shí)際訓(xùn)練中會(huì)出現(xiàn)過擬合的情況[14]。針對(duì)早期這兩種模型的缺點(diǎn),Blei 等[15]提出了LDA 主題模型這種無監(jiān)督機(jī)器學(xué)習(xí)技術(shù),其通過一個(gè)概率生成模型將所有文檔參數(shù)聯(lián)系起來,進(jìn)而揭示文檔的主題信息。LDA 主題模型提出之后,大量的專家學(xué)者對(duì)此模型展開了更為深入的研究,同時(shí)也將此模型應(yīng)用于眾多領(lǐng)域。如:李莉等[16]基于LDA模型,以客服聊天記錄為例,對(duì)交互式文本主題挖掘進(jìn)行了研究,其研究表明,LDA模型有較好的主題挖掘效果;王珠美等[17]利用LDA 主題模型對(duì)農(nóng)產(chǎn)品在線評(píng)論進(jìn)行情感分析;楊磊等[18]通過構(gòu)建Q-LDA 模型對(duì)在線健康社區(qū)的主題進(jìn)行挖掘;李振鵬等[19]利用LDA主題模型,基于天涯雜談2015 年全年帖子,對(duì)其標(biāo)題進(jìn)行文本挖掘。此外,TF-IWF 詞頻統(tǒng)計(jì)方法常用于詞項(xiàng)權(quán)重計(jì)算,其是由IF-IDF 詞頻-逆文檔頻率演化而來的,IFIDF 方法通過單詞在整個(gè)文檔語料庫中的反比來確定特定文檔中單詞的相對(duì)頻率[20],但這種方法存在特征詞提取不準(zhǔn)確、特征詞權(quán)重方差較小的問題,導(dǎo)致文本之間區(qū)分度低、分類效果不佳。因此,李昌兵等人[21]提出使用IF-IWF方法擴(kuò)大特征詞權(quán)重值的范圍,增加文本集權(quán)重值的方差,在一定程度上解決了短文本內(nèi)容稀疏的問題,提高了短文本分類的性能。
目前,關(guān)于主題提取的研究,主要集中于LDA主題模型及TF-IWF 詞頻統(tǒng)計(jì)方法方面。基于LDA 主題模型的研究涉及很多領(lǐng)域,如農(nóng)產(chǎn)品領(lǐng)域和論壇領(lǐng)域。TF-IWF主要用于文本分類,然而應(yīng)用LDA 主題模型及TF-IWF 于在線健康社區(qū)領(lǐng)域的研究數(shù)量很少,而利用這種模型對(duì)在線健康社區(qū)中的科普文章板塊進(jìn)行分析的研究則是更為少見。
健康科普文章提供的健康醫(yī)療信息可以幫助在線醫(yī)療用戶提高健康素養(yǎng),養(yǎng)成良好衛(wèi)生習(xí)慣,還能幫助用戶進(jìn)行健康自測(cè),并有針對(duì)性地就醫(yī)問診,減少醫(yī)療資源的浪費(fèi),提高就醫(yī)問診的效率,而LDA 主題模型和TF-IWF 可以清楚地表達(dá)出科普文章的主題信息。因此,本文提出基于LDA和TF-IWF的健康科普文章推薦方法,旨在更加有效地利用在線健康社區(qū)中的科普文章主題信息,從而為社區(qū)中用戶自動(dòng)推薦滿足其需求的科普文章,實(shí)現(xiàn)個(gè)性化推薦。
本研究基于python獲取在線健康社區(qū)中醫(yī)患問答文本及科普文章文本并進(jìn)行分析,其中用戶提問文本研究分兩部分進(jìn)行:第一部分涉及的是用戶提問文本中的其中一個(gè)主體即患者,本文擬從患者所患疾病類型、可能患有的疾病類型及患者需求意向3個(gè)維度進(jìn)行分析;第二部分涉及的是用戶提問文本內(nèi)容,具體是獲取患者提問的主題特征和意向特征,采用LDA 主題模型、TF-IWF 詞頻統(tǒng)計(jì)等方法進(jìn)行主題揭示,并通過CF推薦算法生成基于用戶的推薦列表。對(duì)科普文章的分析同樣分兩部分進(jìn)行:第一部分是從文章的類型及所科普疾病的類型2個(gè)維度展開;第二部分是對(duì)科普文章的特征分析,應(yīng)用LDA 主題模型、TF-IWF 詞頻統(tǒng)計(jì)等方法進(jìn)行主題揭示,并通過CB推薦算法生成基于文章的推薦列表。最后,對(duì)基于用戶的推薦列表和基于文章的推薦列表基于相同主題進(jìn)行加權(quán)混合,生成最終的混合推薦列表。推薦框架如圖1所示。
圖1 基于LDA和TF-IWF的健康科普文章混合推薦方法框架
3.2.1 文檔主題聚類
本研究擬從“好大夫在線”平臺(tái)中的提問文檔集和科普文章語料庫中提取出各自包含的主題,并基于提取的主題完成用戶文章推薦。LDA主題模型常用于文檔主題聚類,是一種無監(jiān)督機(jī)器學(xué)習(xí)技術(shù),其認(rèn)為每篇文章是由多個(gè)主題混合而成的,而每個(gè)主題可以由多個(gè)詞的概率表征。因此,本實(shí)驗(yàn)使用LDA主題模型來識(shí)別用戶提問文檔集和健康科普文章語料庫中潛在的主題信息。此外,該模型也是典型的詞袋模型,認(rèn)為文檔是由互不關(guān)聯(lián)且無先后順序的詞匯組成,因此使用此模型可以將本研究采集的文檔,根據(jù)詞在文中的概率分布來反映用戶提問文檔及健康科普文章文檔中的主題分布。對(duì)于語料庫中的每篇文檔,LDA定義了如下生成過程:
(1)從狄利克雷分布α中取樣生成提問文檔i1和文章文檔i2的主題分布θi;
(2)從主題的多項(xiàng)式分布θi中取樣生成提問文檔i1和文章文檔i2的第j1和j2個(gè)詞的主題,i jZ;
(3)從狄利克雷分布β中取樣生成主題Zi,j對(duì)應(yīng)的詞語分布φZi,j;
(4)從詞語的多項(xiàng)式分布φZi,j中采樣最終生成詞語Wi,j。
LDA的圖模型結(jié)構(gòu)如圖2所示:
圖2 LDA圖模型結(jié)構(gòu)
其中,K為主題個(gè)數(shù),M為文檔總數(shù),N是第m個(gè)文檔的單詞總數(shù)。本研究設(shè)置K=15,提問文檔M=5 000,文章文檔M=1 000。
3.2.2 詞項(xiàng)權(quán)重計(jì)算
計(jì)算各個(gè)詞項(xiàng)的權(quán)重,可以更為清楚地表示各個(gè)主題所包含的詞項(xiàng)及這些詞項(xiàng)所占的比重,以及每個(gè)文檔所表示的主題及這些主題在文檔中的重要程度。本文采用的詞項(xiàng)權(quán)重計(jì)算方法為TF-IWF 詞頻統(tǒng)計(jì)方法,其中TF 如公式(1)和(2)所示表示的是詞頻,其中分子nj,i表示詞語tj在提問文本i1和文章文本i2中的頻數(shù),分母表示文檔中所有詞匯量之和。如公式(3)和(4)所示,IWF計(jì)算的是逆詞頻,其中分子表示語料庫中所有詞語的頻數(shù)之和,分母ntj表示詞語tj在提問文本和文章文本語料庫中的總頻數(shù)。
因此,本實(shí)驗(yàn)采用TF-IWF 詞頻統(tǒng)計(jì)方法,先計(jì)算文檔集中每個(gè)詞語的詞頻TF,再計(jì)算每個(gè)詞語的逆詞頻IWF,最后將兩者生成的結(jié)果對(duì)應(yīng)相乘,其表達(dá)式如公式(5)所示:
3.2.3 關(guān)系矩陣構(gòu)建
用戶-需求主題矩陣建模及主題提?。喝糁惶崛∧硞€(gè)健康問題的文本,其內(nèi)容較少,無法獲得完整充分的醫(yī)學(xué)主題。因此,本文根據(jù)“好大夫在線”平臺(tái)的經(jīng)典問答板塊提取用戶需求所涉及的醫(yī)學(xué)主題,將用戶提問文本中的提問標(biāo)題、疾病描述和用戶希望得到的幫助3 個(gè)文本集作為建模的訓(xùn)練集,通過TF-IWF 詞頻統(tǒng)計(jì)方法加入權(quán)重,得到提問文本主題-詞項(xiàng)的概率分布,從而生成用戶-需求主題矩陣。
文章-關(guān)系主題矩陣建模及主題提?。簡为?dú)提取某類疾病的科普文章,并不能充分地獲取到醫(yī)學(xué)主題,推薦效果也會(huì)大打折扣。因此,本文根據(jù)醫(yī)院對(duì)“好大夫在線”平臺(tái)中的“醫(yī)學(xué)科普”類文章進(jìn)行提取,對(duì)文章的標(biāo)題和文章的科普內(nèi)容文本集進(jìn)行分析,將其作為訓(xùn)練集,通過TF-IWF 詞頻統(tǒng)計(jì)方法加入權(quán)重,得到科普文章主題-詞項(xiàng)分布,進(jìn)而生成文章-關(guān)系主題矩陣。
3.3.1 基于用戶或文章的推薦
數(shù)據(jù)預(yù)處理后得到的文本通過運(yùn)用LDA主題模型和TF-IWF加權(quán)計(jì)算后會(huì)生成用戶-需求主題矩陣和文章-關(guān)系主題矩陣,研究需要運(yùn)用相關(guān)推薦算法,對(duì)上述得到的兩個(gè)矩陣進(jìn)行處理,從而為用戶推薦符合其需求的健康科普文章。目前,常用于推薦的算法有CF 推薦算法和CB 推薦算法,本文運(yùn)用基于文章的CF 推薦算法為用戶推薦科普文章,具體步驟為:
(1)根據(jù)主題和詞語計(jì)算各篇健康科普文章之間的相似度;
(2)根據(jù)各篇文章的相似度和用戶的需求數(shù)據(jù)為用戶生成基于文章的推薦列表。
利用CB 推薦算法為用戶推薦科普文章的具體步驟為:
(1)根據(jù)用戶提問文本中的提問標(biāo)題、疾病描述和意向需求生成用戶需求特征表示;
(2)根據(jù)健康科普文章文本中的文章標(biāo)題和文章內(nèi)容生成文章關(guān)系特征表示;
(3)通過比較之前兩步生成的用戶需求特征和文章關(guān)系特征為用戶推薦一組相關(guān)性最大的科普文章。
3.3.2 加權(quán)混合推薦
本文采用加權(quán)混合推薦技術(shù)對(duì)基于用戶的推薦列表和基于文章的推薦列表進(jìn)行混合推薦,利用CF 和CB 推薦算法的推薦結(jié)果,通過加權(quán)來獲得每篇推薦文章的加權(quán)得分,根據(jù)最終的加權(quán)得分來排序。具體加權(quán)步驟為:以主題作為連接中介,從用戶-需求主題矩陣及文章-關(guān)系主題矩陣找到相對(duì)應(yīng)的主題編號(hào),根據(jù)主題編號(hào)分別在兩個(gè)矩陣中找到主題關(guān)聯(lián)度即用戶-需求主題矩陣中的主題權(quán)重和文章-關(guān)系主題矩陣中的主題權(quán)重,對(duì)應(yīng)的主題關(guān)聯(lián)度相乘后相加,形成最終的用戶-文章關(guān)聯(lián)度矩陣,以清楚地表示符合用戶需求的文章及其需求程度即權(quán)重。
本文通過采集真實(shí)數(shù)據(jù),基于python 平臺(tái)對(duì)所提出的方法進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)得到的結(jié)果進(jìn)行檢驗(yàn)和評(píng)估。
4.1.1 數(shù)據(jù)獲取
好大夫在線、春雨醫(yī)生、39健康網(wǎng)、丁香醫(yī)生、尋醫(yī)問藥等是我國當(dāng)前較為大型且知名的在線健康社區(qū)平臺(tái),考慮到“好大夫在線”所收錄的醫(yī)院、醫(yī)生規(guī)模量大,數(shù)據(jù)較為容易獲得以及此平臺(tái)功能強(qiáng)大等方面的因素,本文選擇以“好大夫在線”作為實(shí)驗(yàn)的數(shù)據(jù)來源,利用python爬蟲獲得“好大夫在線”經(jīng)典問答板塊中的患者提問文本集合和以“好大夫在線”所收錄的醫(yī)院為單位,爬取各單位醫(yī)生所發(fā)布的“醫(yī)學(xué)科普”類健康科普文章集合。截至2021 年9 月15 日,“好大夫在線”平臺(tái)收錄了全國9 759家正規(guī)醫(yī)院863 058位醫(yī)生以及這些醫(yī)生累計(jì)發(fā)表的總數(shù)達(dá)到1 484 038篇的科普文章,對(duì)各類疾病都有很好的指導(dǎo)意義。另外,此平臺(tái)經(jīng)典問答板塊提供了共9 000 條經(jīng)典的用戶健康提問問題。
本文從1 484 038篇科普文章中選取了11 911篇“醫(yī)學(xué)科普”類文章,考慮到設(shè)備運(yùn)行時(shí)間的問題,實(shí)驗(yàn)隨機(jī)抽取了11 911 篇中的1 000 篇文章,以及從9 000 條經(jīng)典用戶健康提問問題中選取了5 000條提問文本,其中用戶健康提問問題文本的獲取分為3個(gè)部分進(jìn)行:一是用戶提問標(biāo)題;二是用戶對(duì)于疾病的描述;三是用戶希望得到的幫助。科普文章文本的獲取從兩方面展開:一是科普文章標(biāo)題文本的獲??;二是科普文章內(nèi)容的獲取。本文后續(xù)實(shí)驗(yàn)皆是基于以上兩個(gè)文本集的共5個(gè)部分的數(shù)據(jù)來進(jìn)行的。
4.1.2 數(shù)據(jù)處理
利用python爬蟲獲取到的原始文本數(shù)據(jù)充斥著大量的噪音數(shù)據(jù),若直接利用這些文本數(shù)據(jù)進(jìn)行分析和主題挖掘,所得到的效果必然不理想。因此,必須要對(duì)這些原始文本數(shù)據(jù)進(jìn)行降噪處理。在對(duì)用戶健康提問問題和“醫(yī)學(xué)科普”類文章進(jìn)行LDA 建模前,需要對(duì)其進(jìn)行分詞及停用詞過濾等操作,以降低文本的空間維度及提高LDA 建模的效果。
本文采用的是jieba中文分詞算法對(duì)原始文本數(shù)據(jù)進(jìn)行分詞,但分詞后的文本中還包含著大量的無用詞,如方位詞、語氣助詞、代詞和介詞等,這些無用詞不僅對(duì)本文的實(shí)驗(yàn)分析毫無用處,還會(huì)對(duì)實(shí)驗(yàn)效果產(chǎn)生負(fù)面影響。本研究主要通過增加停用詞表以及人工添加語料庫中的無意義字符,以實(shí)現(xiàn)對(duì)文本的降噪處理,提高LDA 的建模效果。此外,由于文本數(shù)據(jù)中會(huì)包含一些疾病的英文縮寫,對(duì)主題的揭示具有一定的作用。因此,不能直接刪除文本數(shù)據(jù)中的英文。本文通過整合百度停用詞表、中文停用詞表、哈爾濱工業(yè)大學(xué)停用詞表和四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫,形成了一個(gè)新的停用詞表,并利用這個(gè)新的停用詞表對(duì)文本數(shù)據(jù)進(jìn)行處理。
為了驗(yàn)證本研究所采取的數(shù)據(jù)預(yù)處理方法的正確性和有效性,首先將小部分文本數(shù)據(jù)經(jīng)過上述預(yù)處理后,輸入到LDA模型中運(yùn)算,觀察主題與詞項(xiàng)的分布,通過人工篩選過濾掉未成功處理掉的不必要的特殊停用詞,并將這些停用詞添加到本研究所采用的停用詞表中,將最終整合的停用詞表用于所有數(shù)據(jù)處理。
本研究將LDA 主題模型設(shè)置超參數(shù)α=1,β=0.01。令K=15,表示最終獲得15 個(gè)主題,n=60,表示循環(huán)迭代抽樣的次數(shù)為60次。將用戶提問文檔中的提問標(biāo)題、疾病描述和意向需求以及健康科普文章文檔中的文章標(biāo)題和文章內(nèi)容進(jìn)行數(shù)據(jù)清洗后運(yùn)行LDA 主題模型,得到關(guān)于用戶提問文本和科普文章文本的15 個(gè)主題-詞項(xiàng)分布;隨后運(yùn)用TF-IWF詞頻統(tǒng)計(jì)方法使上個(gè)步驟得到的主題-詞項(xiàng)分布的權(quán)重值更加合理化,從而得到結(jié)果更加明確清楚的主題-詞項(xiàng)分布和文本-主題分布;再以所得到的主題為中介,通過運(yùn)用CF推薦算法和CB 推薦算法分別生成基于文章的推薦列表和基于用戶的推薦列表,并通過對(duì)基于文章和基于用戶的推薦列表進(jìn)行加權(quán)計(jì)算生成最終的混合推薦列表。
4.2.1 提問文本主題聚類結(jié)果
提問文本的數(shù)據(jù)獲取分為3個(gè)部分,分別是提問標(biāo)題、疾病描述和意向需求。對(duì)這3個(gè)部分?jǐn)?shù)據(jù)預(yù)處理后分別運(yùn)用LDA 和TF-IWF 方法進(jìn)行實(shí)驗(yàn),將每個(gè)主題的前10個(gè)單詞顯示出來,由此生成提問文本的提問主題-詞項(xiàng)分布和提問-主題分布,其中一條提問文本代表一個(gè)用戶。
生成的提問主題-詞項(xiàng)分布表示提問文本的主題及表示主題的詞項(xiàng),提問-主題分布顯示的是用戶提問文本及其文本表示的主題信息,其中提問文本所包含的主題數(shù)量不一,包含主題數(shù)量較多的提問文本較包含主題數(shù)量少的提問文本的提問內(nèi)容更多。提問主題更為分散,這可能是由于以下幾種原因造成的:第一,提問的用戶自身掌握的醫(yī)療專業(yè)知識(shí)不足、所知道的醫(yī)學(xué)專有名詞少,難以用簡潔、有效的語言描述自身病情或身體狀況;第二,提問用戶不了解自身患病情況,在對(duì)自身病情的描述中難以集中在某種或某類病狀;第三,本文爬取的包含主題較少的用戶提問文本,可能在線下或者其他線上就醫(yī)問診流程中已經(jīng)獲知自身患病情況,因此在提問板塊進(jìn)行提問時(shí),目標(biāo)較為明確。
4.2.2 科普文本主題聚類結(jié)果
實(shí)驗(yàn)從文章標(biāo)題和文章內(nèi)容兩方面來獲取科普文章文本數(shù)據(jù),并對(duì)預(yù)處理后的數(shù)據(jù)運(yùn)用LDA和TF-IWF 方法,將每個(gè)主題的前10 個(gè)單詞顯示出來,并生成科普主題-詞項(xiàng)分布和科普-主題分布。
科普主題-詞項(xiàng)分布顯示的是文章主題及表示主題的詞項(xiàng),科普-主題分布代表的是文章表達(dá)的主題,其中大部分文章包含多個(gè)主題,而存在少部分文章卻沒有包含任何主題,這表明前者文章中的主題豐富,涉及的健康知識(shí)偏多,而后者文章的主題并沒有被包含在本實(shí)驗(yàn)所獲得的主題庫中。從算法視角來看,這可能是在進(jìn)行主題聚類計(jì)算時(shí),主題數(shù)K設(shè)置過小或循環(huán)次數(shù)n過多所導(dǎo)致的。從文本內(nèi)容來看,這可能是由于當(dāng)前科普文章內(nèi)容過少所致。此外,與提問主題-詞項(xiàng)分布和提問-主題分布對(duì)比,科普主題-詞項(xiàng)分布和科普-主題分布的權(quán)重值均偏小,這可能是由于在運(yùn)用TF-IWF計(jì)算詞項(xiàng)權(quán)重時(shí),科普文章文本包含的詞語數(shù)量比用戶提問文本包含的詞語數(shù)量多得多所而導(dǎo)致的結(jié)果。
4.2.3 混合推薦結(jié)果
本研究的混合推薦以4.2.1 和4.2.2 所生成的提問-主題分布和科普-主題分布中的主題為連接媒介,提取提問-主題分布中的主題權(quán)重與科普-主題分布中的主題權(quán)重相乘后相加實(shí)現(xiàn)混合加權(quán),定義Rm*n為用戶-主題評(píng)分矩陣,Hx*n為科普文章-主題評(píng)分矩陣,rui為用戶u 對(duì)主題i 的評(píng)分,hai為科普文章a 對(duì)主題i 的評(píng)分,經(jīng)加權(quán)混合生成最終的主題評(píng)分預(yù)測(cè)矩陣,并以推薦列表的形式顯示推薦結(jié)果。加權(quán)步驟如圖3所示。
圖3 混合加權(quán)步驟
本實(shí)驗(yàn)將推薦列表的長度設(shè)置為10,即為每位用戶推薦混合權(quán)重最高的前10 篇科普文章,其結(jié)果如表1所示。本實(shí)驗(yàn)以5作為閾值,相同文章推薦數(shù)超過5篇?jiǎng)t表示用戶具有相似需求,3號(hào)、4號(hào)及650 號(hào)用戶所推薦的10 篇文章均相同,僅排序不同,即文章的權(quán)重不同,因此可以判斷3號(hào)、4號(hào)和650號(hào)用戶是具有相似需求的用戶,即這些用戶處于同一個(gè)相似用戶集合中;648號(hào)和649號(hào)被推薦的文章有8篇是相同的,因此這兩位用戶也是具有相似需求的用戶,處于另一個(gè)相似用戶集合中。另外,有多篇文章被同時(shí)推薦給不同的用戶,這既說明被推薦的這些用戶具有相似的需求,也說明這些文章所表達(dá)的主題是相似的,即這些文章屬于相似文章,其處于同一個(gè)相似文章集合中,進(jìn)而實(shí)現(xiàn)基于相似用戶和相似文章的混合推薦。
表1 用戶-文章推薦列表
實(shí)驗(yàn)通過對(duì)提問文本聚類和科普文本聚類發(fā)現(xiàn),語料庫中權(quán)重值位于前15 位的主題和各個(gè)主題中所包含的權(quán)重值排名前10 的詞項(xiàng),通過詞項(xiàng)與主題的關(guān)系以及主題與文檔的關(guān)系,為每位用戶推薦與其需求相似度最高的前10 篇科普文章。從實(shí)驗(yàn)結(jié)果可以看到,所推薦的文章集中有多篇文章同時(shí)存在于幾個(gè)推薦列表中,這說明這些文章所包含的主題是相似的。同時(shí),這些推薦列表也存在于具有相似需求的用戶集中。實(shí)驗(yàn)結(jié)果表明,本文所使用的基于LDA 主題模型和TF-IWF方法,結(jié)合基于協(xié)同過濾推薦算法和基于內(nèi)容的推薦算法的混合推薦算法,可以在分別生成相似用戶集和相似文章集后,實(shí)現(xiàn)混合推薦,找到用戶需求主題,并為具有相似需求的用戶推薦具有相似主題的健康科普文章,從而實(shí)現(xiàn)精準(zhǔn)及個(gè)性化推薦,提升在線健康社區(qū)用戶健康素養(yǎng),并降低用戶尋找文章的時(shí)間成本,減少醫(yī)療資源的浪費(fèi)。
總的來看,使用本文提出的混合推薦算法具有較好的推薦效果。一方面,能夠更加精確地發(fā)現(xiàn)和表示用戶提問文本及健康科普文章的特征,采用LDA 和TF-IWF 方法對(duì)用戶提問文本及健康科普文章進(jìn)行主題聚類,并對(duì)兩種方法得到的結(jié)果進(jìn)行混合加權(quán),從多個(gè)方面考慮了用戶提問文本和健康科普文章的主題和特征,增強(qiáng)了推薦結(jié)果的可解釋性,使得最終的推薦結(jié)果更加合理;另一方面,可以基于用戶提問文本和健康科普文章的特征相似性,挖掘用戶與用戶、文章與文章以及用戶與文章之間的關(guān)聯(lián)關(guān)系,并利用這些關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)相似用戶集合和相似科普文章集合,進(jìn)一步地通過加權(quán)混合方法,為用戶推薦與其關(guān)聯(lián)關(guān)系最強(qiáng)的前10 篇科普文章,提升了推薦結(jié)果的精準(zhǔn)性,也有助于實(shí)現(xiàn)更好的推薦效果。
本文提出了基于LDA 主題模型和TF-IWF 詞頻統(tǒng)計(jì)算法的健康科普文章推薦模型構(gòu)建過程。首先,對(duì)所需要的提問文本及科普文章文本進(jìn)行采集和預(yù)處理。其次,對(duì)預(yù)處理后的文本數(shù)據(jù)進(jìn)行LDA 建模,并對(duì)其結(jié)果加入TF-IWF 權(quán)重,再對(duì)加入權(quán)重后的結(jié)果采用協(xié)同過濾和基于內(nèi)容兩種推薦算法生成基于用戶的推薦列表和基于文章的推薦列表。最后,對(duì)這兩個(gè)推薦列表以主題為中介進(jìn)行加權(quán)混合,生成最終的混合推薦列表,實(shí)現(xiàn)為用戶精準(zhǔn)推薦符合其需求的健康科普文章的目的。從實(shí)驗(yàn)結(jié)果看,本研究采用LDA主題模型,可以降低數(shù)據(jù)維度及計(jì)算的復(fù)雜度,從而找到用戶潛在需求主題及文章主題,結(jié)合TF-IWF方法使權(quán)重取值更加合理化,幫助用戶高效、高質(zhì)地獲取基于自身需求的科普文章推薦結(jié)果。
本文所提出的集合LDA 和TF-IWF 算法的優(yōu)勢(shì)在于使用此算法可以融合用戶觀點(diǎn)和科普文章內(nèi)容,從語義層面為用戶推薦更符合其自身需求及潛在需求的科普文章,避免了僅從單一的“提問文本”或“科普文章”出發(fā)生成推薦列表的弊端,實(shí)現(xiàn)范圍更廣、更全面,質(zhì)量更高的個(gè)性化推薦,同時(shí)使得用戶按照主題在平臺(tái)上查找的時(shí)間成本也更低。然而,本研究仍存在不足之處,選取的數(shù)據(jù)規(guī)模小且數(shù)據(jù)均為文本型數(shù)據(jù),類型單一,而對(duì)“好大夫在線”平臺(tái)上所提供的其他類型的數(shù)據(jù),如數(shù)值型數(shù)據(jù)和視頻數(shù)據(jù),并未充分利用。因此,在后續(xù)研究中,將考慮選取更大規(guī)模的數(shù)據(jù),結(jié)合“好大夫在線”所提供的其他類型的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以求取效果更好的推薦結(jié)果。