亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生存分析理論的電子資源用戶(hù)流失預(yù)測(cè)研究

        2023-07-10 07:18:33刁羽薛紅
        新世紀(jì)圖書(shū)館 2023年5期
        關(guān)鍵詞:生存分析

        刁羽?薛紅

        摘 要 基于電子資源校外訪問(wèn)系統(tǒng)用戶(hù)行為數(shù)據(jù),運(yùn)用生存分析理論中的Kaplan-Meier、COX比例風(fēng)險(xiǎn)模型研究用戶(hù)整體流失概率變化規(guī)律、用戶(hù)個(gè)體訪問(wèn)行為與其流失概率之間的發(fā)展變化規(guī)律及相關(guān)關(guān)系,并在預(yù)測(cè)用戶(hù)流失臨界點(diǎn)的基礎(chǔ)上建立用戶(hù)流失預(yù)警機(jī)制,從而為進(jìn)一步采取用戶(hù)流失干預(yù)措施提前布局。本研究能反映出用戶(hù)訪問(wèn)行為與用戶(hù)流失概率之間的變化情況,具有較高的應(yīng)用價(jià)值和推廣價(jià)值。

        關(guān)鍵詞 用戶(hù)流失;流失預(yù)警;生存分析;校外訪問(wèn)系統(tǒng);電子資源行為數(shù)據(jù)

        分類(lèi)號(hào) G252.62

        DOI 10.16810/j.cnki.1672-514X.2023.05.009

        Research on Electronic Resource User Churn Prediction: Taking Off-campus Access System of Electronic Resource as Example

        Diao Yu, Xue Hong

        Abstract Based on the user behavior data of the off-campus access system of electronic resources, the Kaplan-Meier and COX proportional risk models in the survival analysis theory were used to study the change law of the overall probability of user churn, the law of development change and the correlation between the individual user access behavior and the churn probability, and a user churn warning mechanism based on predicting the critical point of user churn was established. Therefore, the further implementation of user churn intervention measures in advance layout. This study can reflect the change between user access behavior and user churn probability, and has high application value and promotion value.

        Keywords User churn. Churn prediction. Survival analysis. Off-campus access system. Electronic re-source behavior data.

        0 引言

        隨著數(shù)字化新技術(shù)的迅猛發(fā)展,傳統(tǒng)科學(xué)研究范式已悄然發(fā)生變革,電子資源已成為各種不同層次的用戶(hù)獲取信息的主要類(lèi)型[1]。目前,各高校圖書(shū)館的電子資源購(gòu)置費(fèi)所占館藏的經(jīng)費(fèi)比例過(guò)半,自2006年以來(lái)均值與比例基本上呈抬升趨勢(shì),雖然在2019年發(fā)生下滑,但2020年隨即恢復(fù)上升[2]。盡管各種類(lèi)型電子資源在圖書(shū)館中不斷得到補(bǔ)充,較大地滿(mǎn)足了用戶(hù)需求,但即便如此,仍存在不少用戶(hù)在訪問(wèn)電子資源過(guò)程中由積極使用轉(zhuǎn)向消極使用甚至徹底放棄的現(xiàn)象,這已成為高校圖書(shū)館電子資源服務(wù)運(yùn)營(yíng)面臨的挑戰(zhàn)和難題,對(duì)此采取用戶(hù)流失干預(yù)措施,滿(mǎn)足用戶(hù)需求,提升老用戶(hù)訪問(wèn)資源行為是關(guān)鍵。通常情況下,拓展新用戶(hù)與挽留老用戶(hù)相比,無(wú)論在花費(fèi)的成本上,還是在為企業(yè)或系統(tǒng)平臺(tái)帶來(lái)的價(jià)值上,后者皆?xún)?yōu)于前者[3]。因此,為最大程度挽留老用戶(hù),有效預(yù)測(cè)瀕臨流失用戶(hù)的關(guān)鍵臨界點(diǎn)顯得尤為重要。為此,本文基于生存分析理論[4]重點(diǎn)研究用戶(hù)訪問(wèn)行為與用戶(hù)流失概率之間的發(fā)展變化規(guī)律及相關(guān)關(guān)系,來(lái)預(yù)測(cè)用戶(hù)流失的臨界點(diǎn),并在此基礎(chǔ)上形成用戶(hù)預(yù)警分析,從而為圖書(shū)館分析流失原因、挽留瀕臨流失用戶(hù)夯實(shí)基礎(chǔ)。

        1 研究綜述

        用戶(hù)流失最早由Keaveney和Parthasarathy于2010年針對(duì)在線服務(wù)提出[5],流失類(lèi)型主要分為兩種,一是用戶(hù)中斷在線服務(wù),即在使用一段時(shí)間后停止使用該服務(wù);二是用戶(hù)“服務(wù)切換”,即改變所使用服務(wù)的提供商或運(yùn)營(yíng)商。對(duì)于流失用戶(hù)的定義依行業(yè)或訪問(wèn)方式的不同而不同,移動(dòng)設(shè)備App領(lǐng)域以用戶(hù)一定時(shí)期內(nèi)不再登錄、卸載軟件及二次安裝或選擇其他同類(lèi)替代為界定標(biāo)準(zhǔn)[6]。

        近年來(lái),業(yè)界關(guān)于用戶(hù)流失的研究主要是以S-O-R理論、扎根理論等為基礎(chǔ),利用訪談設(shè)計(jì)、問(wèn)卷調(diào)查等方式來(lái)統(tǒng)計(jì)分析研究不同類(lèi)型平臺(tái)用戶(hù)流失的重要因素。對(duì)于用戶(hù)流失預(yù)測(cè)研究也有一些學(xué)者利用用戶(hù)訪問(wèn)系統(tǒng)時(shí)留下的客觀行為數(shù)據(jù)進(jìn)行分析,如賀芳以“新浪微博”為例,在用戶(hù)細(xì)分的基礎(chǔ)上采用典型判別分析法構(gòu)建用戶(hù)流失預(yù)測(cè)模型, 并通過(guò)交叉驗(yàn)證法判別預(yù)測(cè)精度[7]。王若佳,嚴(yán)承希,郭鳳英等使用LDA抽取用戶(hù)關(guān)注主題的文本向量,使用SMOTE算法對(duì)模型進(jìn)行修正,以解正數(shù)據(jù)集中流失與非流失用戶(hù)比例失衡的問(wèn)題,并使用C4.5決策樹(shù)等6個(gè)算法對(duì)比研究預(yù)測(cè)用戶(hù)流失情況的優(yōu)劣,對(duì)比顯示Gradient Boosting和ExtraTrees模型效果較好[8]。在圖書(shū)館領(lǐng)域,有些學(xué)者基于生存分析理論對(duì)文獻(xiàn)采購(gòu)、引文分析、關(guān)鍵詞等方面展開(kāi)分析研究,如:Jiang Z、 Fitzgerald S R、Walker K W等學(xué)者使用生存分析法分析出版者、出版時(shí)間、價(jià)格、美國(guó)國(guó)會(huì)圖書(shū)館分類(lèi)法等與圖書(shū)館文獻(xiàn)采購(gòu)的相關(guān)關(guān)系[9]。朱世琴,蔣辛未等利用生存分析的Cox回歸研究CSSCI來(lái)源期刊中2000-2014年9個(gè)學(xué)科的論文被引頻度的年代分布,以確定文獻(xiàn)的老化風(fēng)險(xiǎn)率[10]。劉智鋒,李信通過(guò)生存分析方法對(duì)作者關(guān)鍵詞進(jìn)行分析,以反映作者關(guān)鍵詞生存情況[11]。孫佳佳,李雅靜通過(guò)客戶(hù)價(jià)值細(xì)分RFM模型對(duì)CSSCI收錄的圖情檔文獻(xiàn)的作者關(guān)鍵詞建模,在此基礎(chǔ)上利用Kaplan-Meier曲線挖掘熱點(diǎn)主題[12]。也有學(xué)者將生存分析應(yīng)用于信息系統(tǒng)用戶(hù)流失的研究,但總體數(shù)量較少。賴(lài)院根等為反映國(guó)家科技圖書(shū)文獻(xiàn)中心(NSTL)的總體運(yùn)行狀況,對(duì)NSTL在2003-2008年間的用戶(hù)進(jìn)行了用戶(hù)流失分析,并使用壽命表方法揭示了NSTL用戶(hù)的生存時(shí)間分布[13];賴(lài)院根,劉礪利在通過(guò)利用SPSS生存分析模塊中的壽命表分析了NSTL用戶(hù)生存時(shí)間的基礎(chǔ)上,使用Kaplan-Meier模塊對(duì)贈(zèng)卡用戶(hù)和無(wú)贈(zèng)卡用戶(hù)進(jìn)行了生存時(shí)間比較,并使用COX模塊分析了流失用戶(hù)的影響因素[14]。

        2 用戶(hù)訪問(wèn)電子資源行為數(shù)據(jù)分析的相關(guān)性理論和分析模型

        在大數(shù)據(jù)時(shí)代,如何通過(guò)電子資源行為數(shù)據(jù)有效揭示其與用戶(hù)流失概率的相關(guān)性,如何發(fā)掘?yàn)l臨流失的用戶(hù)并建立預(yù)警信號(hào),不僅是進(jìn)一步分析用戶(hù)流失原因并精準(zhǔn)施策的基礎(chǔ),也是提高電子資源服務(wù)效能的根本?;谶@樣的考慮,那么能夠真實(shí)反映用戶(hù)對(duì)校外訪問(wèn)系統(tǒng)黏性的用戶(hù)訪問(wèn)電子資源行為數(shù)據(jù)即成為研究用戶(hù)檢索行為和科研方向的重要信息源。高質(zhì)量的電子資源行為數(shù)據(jù)不僅是用戶(hù)獲取電子文獻(xiàn)資源時(shí)與平臺(tái)自然產(chǎn)生的最為客觀的數(shù)據(jù),也是新數(shù)據(jù)范式下快捷高效地發(fā)現(xiàn)事物間的內(nèi)在關(guān)聯(lián),明確用戶(hù)的使用規(guī)律和關(guān)注焦點(diǎn),對(duì)此相關(guān)性的研究分析可為圖書(shū)館預(yù)防電子資源用戶(hù)流失提供科學(xué)依據(jù)。

        目前,在業(yè)界相關(guān)研究中,數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究第四范式開(kāi)始注重分析數(shù)據(jù)間的相關(guān)關(guān)系,即某數(shù)據(jù)的發(fā)生與其他數(shù)據(jù)變化規(guī)律間的關(guān)系[15],而非拘泥于揭示現(xiàn)實(shí)的“實(shí)體性的物與發(fā)生性的事”之間的因果關(guān)系[16]。目前,數(shù)據(jù)相關(guān)分析已然有效地應(yīng)用于推薦系統(tǒng)、商業(yè)分析、公共管理、醫(yī)療診斷等領(lǐng)域,通過(guò)時(shí)序分析、空間分析等方法進(jìn)行數(shù)據(jù)分析[17]。故此,本研究基于生存分析理論利用用戶(hù)訪問(wèn)系統(tǒng)時(shí)留下的客觀行為數(shù)據(jù)進(jìn)行的分析,不是探究用戶(hù)訪問(wèn)電子資源各行為特征變量與造成用戶(hù)流失之間的直接因果關(guān)系,而是基于大數(shù)據(jù)思維,分析用戶(hù)行為數(shù)據(jù)特征值隨著時(shí)間變化與其流失概率之間的發(fā)展變化情況及相關(guān)關(guān)系,以期為下一步找出造成用戶(hù)流失的關(guān)鍵性原因打下堅(jiān)實(shí)基礎(chǔ)。

        基于電子資源校外訪問(wèn)系統(tǒng)(以下簡(jiǎn)稱(chēng)校外訪問(wèn)系統(tǒng))用戶(hù)流失概率及流失臨界點(diǎn)的計(jì)算,本文運(yùn)用生存分析理論中的Kaplan-Meier和COX比例風(fēng)險(xiǎn)模型來(lái)研究用戶(hù)整體隨時(shí)間推移流失概率的變化規(guī)律,解析用戶(hù)個(gè)體訪問(wèn)行為與其流失概率之間發(fā)展變化情況及相關(guān)關(guān)系,以及預(yù)測(cè)用戶(hù)流失臨界點(diǎn),并最終形成用戶(hù)流失預(yù)警分析。

        首先定義用戶(hù)的生存變化規(guī)律,用生存函數(shù)(survival function)來(lái)表示。將用戶(hù)定義為r;將用戶(hù)使用校外訪問(wèn)系統(tǒng)的時(shí)間長(zhǎng)度定義為T(mén),即用戶(hù)生存時(shí)長(zhǎng);將t定義為計(jì)算r生存概率的隨機(jī)時(shí)間。生存函數(shù)值反映T≥指定時(shí)間t時(shí),用戶(hù)繼續(xù)使用校外訪問(wèn)系統(tǒng)的概率,其公式[4]如下:

        從公式一可以看出,生存函數(shù)是t的單調(diào)下降函數(shù),代表用戶(hù)流失的風(fēng)險(xiǎn)隨著時(shí)間的增加而增加。函數(shù)下降快慢,反映了用戶(hù)使用校外訪問(wèn)系統(tǒng)流失速率的總體情況。

        在本研究中,由于用戶(hù)開(kāi)始使用校外訪問(wèn)系統(tǒng)的時(shí)間以及在觀察期間處于流失或刪失的狀態(tài)各有差異,單純地使用生存函數(shù)或危險(xiǎn)率函數(shù)對(duì)含有刪失數(shù)據(jù)的樣本數(shù)據(jù)評(píng)估校外訪問(wèn)系統(tǒng)用戶(hù)的流失規(guī)律顯然偏差較大。為此,針對(duì)存在刪失數(shù)據(jù)的生存分析,可使用1958年由卡普蘭和梅爾聯(lián)合提出的一種基于不完全樣本估計(jì)總體生存函數(shù)的非參數(shù)估計(jì)量(Kaplan-Meier estimator)進(jìn)行計(jì)算,公式[4]如下:

        其中i=(1,2,…,n)為用戶(hù)集合,y(1)≤y(2)≤…≤y(n)是y1,y2,…,yn的順序量,y為出現(xiàn)用戶(hù)流失事件的時(shí)間點(diǎn),δ(1),δ(2),…,δ(n)是與之相對(duì)應(yīng)的y1,y2,…,yn的δ值。從公式二可以看出,Kaplan-Meier的每個(gè)時(shí)間節(jié)點(diǎn)的生存概率都是以上一個(gè)時(shí)間節(jié)點(diǎn)為基礎(chǔ)并剔除刪失數(shù)據(jù)進(jìn)行計(jì)算的,因此能較好地解決刪失問(wèn)題。

        雖然使用Kaplan-Meier可以預(yù)估用戶(hù)在指定時(shí)間節(jié)點(diǎn)流失的概率,但沒(méi)有考慮相關(guān)變量在其中的作用,因此還需采用COX比例風(fēng)險(xiǎn)模型(cox proportional-hazards model,以下簡(jiǎn)稱(chēng)COX模型)。COX模型是一種半?yún)?shù)回歸模型,考慮了一種或多種因素對(duì)用戶(hù)生存時(shí)長(zhǎng)的影響。設(shè)與用戶(hù)生存的相關(guān)的因素:X=(X1,X2,…,Xm),則根據(jù)COX模型,可以建立以h(t,X)為因變量的指數(shù)回歸方程[18]:

        其中1,…,m為導(dǎo)致用戶(hù)死亡的因素X1,…,Xm的回歸系數(shù),h(t,X)為風(fēng)險(xiǎn)率函數(shù),計(jì)算當(dāng)用戶(hù)在時(shí)間t時(shí)仍然在使用校外訪問(wèn)系統(tǒng),那么計(jì)算其在t至?t(?t無(wú)限趨近于0)之間流失的概率,公式如下[19]:

        本研究的重要目的是預(yù)測(cè)用戶(hù)流失的臨界點(diǎn),其原理是在擴(kuò)展公式一的基礎(chǔ)上計(jì)算用戶(hù)在時(shí)間s的生存概率。因此在預(yù)測(cè)生存時(shí)間的計(jì)算上,設(shè)s為用戶(hù)已經(jīng)存活的時(shí)長(zhǎng),可利用公式五計(jì)算該用戶(hù)已經(jīng)存活到s時(shí)間的條件下,還能存活到t時(shí)的概率,其中因在s前用戶(hù)尚未流失,所以在計(jì)算概率時(shí)需將s前用戶(hù)的生存概率設(shè)置為1.0[20]:

        3 數(shù)據(jù)來(lái)源與數(shù)據(jù)結(jié)構(gòu)

        本研究所采集、利用用戶(hù)特征數(shù)據(jù)與用戶(hù)訪問(wèn)電子資源的行為數(shù)據(jù)(以下簡(jiǎn)稱(chēng)行為數(shù)據(jù)),是指用戶(hù)在利用校外訪問(wèn)系統(tǒng)過(guò)程中登錄、檢索、瀏覽、下載等隨著時(shí)間變化的歷次會(huì)話的集合。這些數(shù)據(jù)是用戶(hù)對(duì)校外訪問(wèn)系統(tǒng)用戶(hù)黏性的真實(shí)體現(xiàn),它們中每個(gè)特征值的變化情況,皆可體現(xiàn)校外訪問(wèn)系統(tǒng)對(duì)用戶(hù)的吸引力,即校外訪問(wèn)系統(tǒng)價(jià)值[21]。之所以選取校外訪問(wèn)系統(tǒng)行為數(shù)據(jù)作為數(shù)據(jù)來(lái)源之一,首先在于該系統(tǒng)具備廣泛的使用率,能確保采集的樣本數(shù)據(jù)的多樣性及準(zhǔn)確性,且只涉及用戶(hù)訪問(wèn)電子資源的行為數(shù)據(jù),提取容易;其次該系統(tǒng)詳細(xì)、全面記錄了用戶(hù)每次訪問(wèn)的不同維度的行為數(shù)據(jù),能客觀、真實(shí)地反映出用戶(hù)利用校外訪問(wèn)系統(tǒng)情況;第三在技術(shù)保障方面,筆者在前期研究成果中已經(jīng)提出并實(shí)現(xiàn)了基于電子資源校外訪問(wèn)系統(tǒng)的數(shù)據(jù)采集關(guān)鍵技術(shù)和實(shí)施方案[22]。

        3.1 圖書(shū)館集成管理系統(tǒng)數(shù)據(jù)結(jié)構(gòu)

        圖書(shū)館集成管理系統(tǒng)(以下簡(jiǎn)稱(chēng)LIS)中的“讀者庫(kù)”表存儲(chǔ)了用戶(hù)基本人口統(tǒng)計(jì)學(xué)特征數(shù)據(jù)。而校外訪問(wèn)系統(tǒng)的登錄名為用戶(hù)在LIS中的“借書(shū)證號(hào)”,因此,可方便地將登錄名與LIS的借書(shū)證號(hào)進(jìn)行關(guān)聯(lián),并從LIS中獲取本研究所需要的數(shù)據(jù)。根據(jù)學(xué)校的實(shí)際情況,本研究提取了借書(shū)證號(hào)、姓名、讀者類(lèi)別字段作為數(shù)據(jù)來(lái)源。

        3.2 行為數(shù)據(jù)來(lái)源及其數(shù)據(jù)結(jié)構(gòu)

        本館購(gòu)置的校外訪問(wèn)系統(tǒng)用戶(hù)行為日志數(shù)據(jù)以JSON格式存儲(chǔ),每條JSON數(shù)據(jù)代表用戶(hù)與校外系統(tǒng)的一次會(huì)話,JSON數(shù)據(jù)的文件名為用戶(hù)的登錄名,同一天所有用戶(hù)的日志數(shù)據(jù)存儲(chǔ)在以當(dāng)天日期命名的文件夾中。單條JSON日志數(shù)據(jù)結(jié)構(gòu)如圖1所示。

        在校外訪問(wèn)系統(tǒng)中,本研究涉及的主要數(shù)據(jù)有:(1)文件夾名,用于提取用戶(hù)的訪問(wèn)時(shí)間;(2)JSON日志名,用于提取用戶(hù)的登錄名;(3)日志文件的RES元素,通過(guò)其SEARCH、DOWNLOAD、VIEW4個(gè)子元素獲取每次會(huì)話用戶(hù)檢索、下載、瀏覽的次數(shù)。

        3.3 數(shù)據(jù)融合

        因?yàn)樾M庠L問(wèn)系統(tǒng)的登錄名與LIS的借書(shū)證號(hào)完全一致,故將借書(shū)證號(hào)作為主鍵,登錄名作外鍵進(jìn)行連接,從而可以融合上述兩個(gè)系統(tǒng)中的數(shù)據(jù)并存儲(chǔ)在以“SurvivalDataset”命名的數(shù)據(jù)庫(kù)中。該數(shù)據(jù)庫(kù)各表及表間關(guān)系如圖2所示。

        SurvivalDataset數(shù)據(jù)庫(kù)涉及的表及其中字段含義如表1所示:

        4 校外訪問(wèn)系統(tǒng)用戶(hù)數(shù)據(jù)相關(guān)性流失分析

        本文根據(jù)校外訪問(wèn)系統(tǒng)的實(shí)際使用情況,將用戶(hù)在6個(gè)月內(nèi)不再使用校外訪問(wèn)系統(tǒng)定義為“流失”,其余情況則被定義為“刪失”。此外,本研究由于學(xué)生在校時(shí)間有一定時(shí)間限制,必然出現(xiàn)自然流失的現(xiàn)象,故本文僅選擇以本校教職工為研究對(duì)象。其分析思路如圖3所示。

        首先,使用Kaplan-Meier分析用戶(hù)整體行為數(shù)據(jù)在不同時(shí)期其生存概率的變化情況,并以此揭示出用戶(hù)整體流失風(fēng)險(xiǎn)變化趨勢(shì);其次,通過(guò)使用COX比例風(fēng)險(xiǎn)模型,分析用戶(hù)各行為數(shù)據(jù)特征值與用戶(hù)流失概率之間發(fā)展變化規(guī)律及相關(guān)關(guān)系。當(dāng)特征值的變化與用戶(hù)流失概率呈正相關(guān)時(shí),則可以將之視為用戶(hù)瀕臨流失的重要信號(hào);第三,通過(guò)公式五預(yù)測(cè)用戶(hù)流失臨界點(diǎn)(日期),為預(yù)防用戶(hù)瀕臨流失提前布局;第四,以python 3.8.3+lifelines 0.26.3為工具進(jìn)行上述生存分析。

        4.1 基于Kaplan-Meier的用戶(hù)整體流失風(fēng)險(xiǎn)分析

        通過(guò)LIS讀者庫(kù)的用戶(hù)級(jí)別字段篩選出1165名教職工的行為數(shù)據(jù),研究時(shí)間范圍為2017年3月14日至2021年8月31日。根據(jù)前文公式二,從SurvivalDataset中提取以下數(shù)據(jù)并以xlsx格式保存。為了對(duì)不同時(shí)間階段校外訪問(wèn)系統(tǒng)的運(yùn)行態(tài)勢(shì)進(jìn)行對(duì)比,本環(huán)節(jié)將數(shù)據(jù)分割為2017年3月14日至2020年8月31日、2018年3月14日至2021年8月31日兩組數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)見(jiàn)表2。

        通過(guò)Kaplan-Meier分析,并利用python的lifelines庫(kù)進(jìn)行對(duì)比,形成不同時(shí)間段用戶(hù)生存曲線對(duì)比圖(圖4)。圖4中“At_risk”表示生存時(shí)長(zhǎng)與橫坐標(biāo)不一致的用戶(hù)數(shù);“Censored”表示刪失用戶(hù)數(shù);“Events”表示在此及以前的累積流失用戶(hù)數(shù)。

        以圖4中2018—2021年生存期為10個(gè)月的數(shù)據(jù)為例,在前0~10月期間,校外訪問(wèn)系統(tǒng)累積流失人數(shù)為287人,有178名用戶(hù)的使用時(shí)長(zhǎng)正好為10個(gè)月,因沒(méi)有后續(xù)統(tǒng)計(jì)數(shù)據(jù)揭示用戶(hù)體整體是否趨于流失,故這些標(biāo)記為刪失數(shù)據(jù),另有522名用戶(hù)的使用時(shí)長(zhǎng)超過(guò)10個(gè)月。在此基礎(chǔ)上,調(diào)用Kaplan-Meier的logrank_test函數(shù)對(duì)上述兩組時(shí)間段的用戶(hù)(按時(shí)間劃分的兩組數(shù)據(jù))的生存曲線做Log-rank 檢驗(yàn),p值均等于0.21,表明這兩條生命曲線沒(méi)有統(tǒng)計(jì)學(xué)意義上的差異。從圖4的生存對(duì)比還可以看出,雖用戶(hù)整體生存概率在2018年至2021年間的略高于2017年至2020年間,但總體來(lái)看,兩個(gè)時(shí)間段用戶(hù)生存概率走勢(shì)幾乎一致,表明校外訪問(wèn)系統(tǒng)運(yùn)行狀態(tài)穩(wěn)定且在2018—2021年期間用戶(hù)流失風(fēng)險(xiǎn)還略有降低。總之,結(jié)果表明:通過(guò)對(duì)比不用時(shí)期校外訪問(wèn)系統(tǒng)用戶(hù)整體的生存概率,可從宏觀層面上有效監(jiān)測(cè)系統(tǒng)各時(shí)期其流失風(fēng)險(xiǎn)變化情況;當(dāng)各時(shí)期校外訪問(wèn)系統(tǒng)用戶(hù)整體生存概率趨于平穩(wěn)時(shí),則可將瀕臨流失的用戶(hù)個(gè)體作為重點(diǎn)監(jiān)測(cè)目標(biāo)。以下將利用COX模型解析用戶(hù)訪問(wèn)行為與其流失概率之間發(fā)展變化規(guī)律及相關(guān)關(guān)系。

        4.2 基于COX模型的用戶(hù)流失概率相關(guān)特征分析

        本研究從最能反映用戶(hù)粘性的訪問(wèn)頻率、有效訪問(wèn)行為,以及用戶(hù)對(duì)系統(tǒng)掌握的熟練度等角度出發(fā),根據(jù)經(jīng)驗(yàn)提取了登錄頻繁度等7個(gè)指標(biāo)作為可能反映用戶(hù)流失概率變化的相關(guān)特征值,再融合用戶(hù)名等基礎(chǔ)數(shù)據(jù)生成進(jìn)行COX分析所使用數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)見(jiàn)表3。

        通過(guò)分析計(jì)算,其結(jié)果如表4所示。表4中,coef欄為COX回歸方程中各自變量的回歸系數(shù)。exp(coef)代表風(fēng)險(xiǎn)比(HR,hazard ratio),coef欄的值為此欄的自然對(duì)數(shù)。當(dāng)HR=1時(shí),coef的值為0,則變量對(duì)用戶(hù)流失概率沒(méi)有影響;當(dāng)HR>1時(shí),coef的值為正,表示變量值越大,則用戶(hù)流失風(fēng)險(xiǎn)也越大;當(dāng)HR<1時(shí),coef的值為負(fù),表示變量越大用戶(hù)流失風(fēng)險(xiǎn)越小。se(coef)為系數(shù)的標(biāo)準(zhǔn)誤差。表中后面4列分別代表coef和exp(coef)在95%置信區(qū)間的上限與下限。

        從表4中可得出以下結(jié)論:用戶(hù)活躍度為用戶(hù)流失概率的不良相關(guān)因素,即每次登錄后進(jìn)行大量檢索操作的用戶(hù)更具有流失風(fēng)險(xiǎn)。其余為良性相關(guān)因素,即它們所代表的用戶(hù)訪問(wèn)行為指標(biāo)越活躍,流失風(fēng)險(xiǎn)越低,其中登錄頻繁度尤為突出。

        為評(píng)估COX模型的精準(zhǔn)度,本研究通過(guò)一致性指數(shù)(Concordance Index,C-index)進(jìn)行評(píng)價(jià)。其值在0.5到1之間,數(shù)值越大,模型的準(zhǔn)確性越高。當(dāng)為0.5時(shí),表示模型的預(yù)測(cè)完全隨機(jī),無(wú)任何意義;當(dāng)?shù)扔?時(shí),則表示模型與實(shí)際情況完全符合。其原理為將樣本數(shù)據(jù)隨機(jī)進(jìn)行兩兩配對(duì),并比較他們的協(xié)變量與其生存時(shí)長(zhǎng)的關(guān)系是否相符,即協(xié)變量顯示生存時(shí)間更短的用戶(hù)實(shí)際生存時(shí)長(zhǎng)也更短,則為相符,反之,為不相符[23]。最后計(jì)算相符的結(jié)果在所有情況中的比例。經(jīng)過(guò)計(jì)算,本研究的C-index值等于0.82,準(zhǔn)確度良好。

        5 預(yù)測(cè)用戶(hù)流失臨界點(diǎn)(critical point)及預(yù)警分析

        利用lifelines可以計(jì)算留存用戶(hù)在最后一次登錄時(shí)間(d)后每一天的生存概率,在此基礎(chǔ)上即可簡(jiǎn)捷地預(yù)測(cè)用戶(hù)流失臨界點(diǎn)(以p表示)。首先,根據(jù)公式五計(jì)算用戶(hù)生存概率剛剛小于0.5時(shí)距離d的時(shí)長(zhǎng)(即剩余生存時(shí)間),以t_s表示;其次,計(jì)算用戶(hù)流失臨界點(diǎn)的公式為:p=d+t_s。在該日期,用戶(hù)的生存概率剛剛小于0.5,用戶(hù)留存概率剛好低于用戶(hù)流失概率。需要注意的是,lifelines默認(rèn)最多計(jì)算1640天的生存概率,如果用戶(hù)在1640天時(shí)的生存概率仍然未小于0.5,則它不再計(jì)算t值,而是將用戶(hù)的生存時(shí)長(zhǎng)標(biāo)記為無(wú)窮大。在這種情況下就無(wú)法預(yù)測(cè)流失臨界點(diǎn),故予以剔除。本環(huán)節(jié)使用的數(shù)據(jù)與基于COX模型的用戶(hù)流失概率計(jì)算使用的數(shù)據(jù)一致,具體結(jié)果如下:

        第一步,通過(guò)調(diào)用CoxPHFitter對(duì)象的predict_survival_function函數(shù)預(yù)測(cè)用戶(hù)剩余生存時(shí)間。結(jié)果顯示可預(yù)測(cè)160名用戶(hù)的剩余生存時(shí)間,其中最長(zhǎng)時(shí)間為1308天,最短為56天,平均剩余時(shí)間約為568天。預(yù)測(cè)部分結(jié)果見(jiàn)表5。

        第二步,計(jì)算用戶(hù)流失臨界點(diǎn)。表5中的索引欄為用戶(hù)在導(dǎo)出數(shù)據(jù)的excel文件中的行號(hào)(以0開(kāi)始),可用于定位具體用戶(hù)并獲得該用戶(hù)的最后一次登錄時(shí)間(d)。以790號(hào)用戶(hù)為例,其d值為2021年4月26日,t_s值為141,則可以計(jì)算出其流失臨界點(diǎn)為p=t_s+d,即2021年9月14日。

        當(dāng)用戶(hù)流失臨界點(diǎn)計(jì)算值出來(lái)后,即可進(jìn)行預(yù)警。用戶(hù)流失預(yù)警分析是指通過(guò)建立操作性強(qiáng)、可實(shí)現(xiàn)的流失識(shí)別指標(biāo)體系,衡量流失跡象是否存在以及存在的邊界狀態(tài)[24]。主要涉及以下三個(gè)方面。

        (1)監(jiān)測(cè)用戶(hù)整體的生存概率變化情況。通過(guò)Kaplan-Meier對(duì)比不同時(shí)期用戶(hù)整體生存概率的變化情況。當(dāng)近期用戶(hù)組生存曲線下降幅度增加,同時(shí)與前期對(duì)照組用戶(hù)生存曲線作Log-rank檢驗(yàn)時(shí)且p值<0.05,則表示用戶(hù)整體生存概率總體趨于惡化,校外訪問(wèn)系統(tǒng)的用戶(hù)粘性降低,這時(shí)就需發(fā)出用戶(hù)整體的流失預(yù)警信號(hào);反之,除此之外,還可將瀕臨流失的用戶(hù)個(gè)體作為重點(diǎn)監(jiān)測(cè)目標(biāo)。

        (2)監(jiān)測(cè)反映用戶(hù)個(gè)體流失概率的相關(guān)特征值變化。通過(guò)COX定時(shí)監(jiān)測(cè)行為數(shù)據(jù)中反映用戶(hù)個(gè)體流失概率變化的相關(guān)特征值的變化情況,有助于及時(shí)發(fā)現(xiàn)瀕臨流失的用戶(hù)個(gè)體。當(dāng)用戶(hù)流失概率的良性相關(guān)因素在一定時(shí)間內(nèi)持續(xù)走低時(shí),或不良因素持續(xù)升高的情況下,可以認(rèn)定該用戶(hù)正處于疲憊瓶頸期,且具有較高的流失風(fēng)險(xiǎn),需及時(shí)發(fā)出預(yù)警信號(hào)。

        (3)預(yù)測(cè)用戶(hù)流失預(yù)警日期。根據(jù)用戶(hù)流失臨界點(diǎn)(p)確定用戶(hù)流失預(yù)警日期(churn warning date,以w表示)。當(dāng)用戶(hù)位于流失臨界點(diǎn)時(shí),其留存的概率剛剛小于流失的概率。此時(shí),可認(rèn)定該用戶(hù)已處于瀕臨流失的狀態(tài)。但如前文所述,判斷用戶(hù)流失的標(biāo)準(zhǔn)是在提取用戶(hù)行為數(shù)據(jù)的截止日期前推6個(gè)月內(nèi)未登錄,會(huì)出現(xiàn)用戶(hù)流失臨界點(diǎn)早于完成數(shù)據(jù)分析的時(shí)間(以ad表示),如790號(hào)用戶(hù)的p值為9月14日,而本次實(shí)證的分析完成之日為9月20日),為精準(zhǔn)統(tǒng)計(jì),這部分用戶(hù)也需要納入預(yù)警范圍。另外,因本研究只能發(fā)現(xiàn)用戶(hù)可能流失的相應(yīng)征兆,而不能明確造成用戶(hù)流失的具體原因,為真正實(shí)現(xiàn)在相對(duì)精確的時(shí)期介入干預(yù)避免用戶(hù)流失,需耗費(fèi)一定時(shí)間做量的用戶(hù)調(diào)研、數(shù)據(jù)分析工作,故需在p日前置某個(gè)時(shí)間段(pd)進(jìn)行提前預(yù)警。該時(shí)間可以根據(jù)實(shí)際情況自定,本研究擬設(shè)置為7(天),則計(jì)算用戶(hù)流失預(yù)警日期(w)的公式如下:

        當(dāng)p-ad- pd ≤0時(shí):

        w= ad

        如790號(hào)用戶(hù)的流失預(yù)警期為數(shù)據(jù)分析完成之日,即9月20日。

        當(dāng)p-ad- pd >0時(shí):

        w=p- pd

        如279號(hào)用戶(hù)的最后登錄時(shí)間為2021年8月9日,剩余生存時(shí)間為272天,則p等于2022年5月8日,流失預(yù)警之日為2022年5月1日。

        6 結(jié)語(yǔ)

        本研究采用Kaplan-Meier、COX對(duì)用戶(hù)整體流失風(fēng)險(xiǎn)變化趨勢(shì)、用戶(hù)訪問(wèn)行為與用戶(hù)流失概率之間的變化情況,揭示了電子資源用戶(hù)流失變化規(guī)律, 可及時(shí)發(fā)現(xiàn)用戶(hù)對(duì)校外訪問(wèn)系統(tǒng)電子資源黏性降低時(shí)的行為表征,并在此基礎(chǔ)上顯現(xiàn)瀕臨流失用戶(hù),不僅在生存函數(shù)的基礎(chǔ)上進(jìn)一步拓展了關(guān)于預(yù)測(cè)用戶(hù)流失的研究,填補(bǔ)了該研究領(lǐng)域的空白,具有較好的可行性及普及推廣價(jià)值,還能從用戶(hù)整體和個(gè)體兩個(gè)層面有效發(fā)現(xiàn)電子資源用戶(hù)瀕臨流失的預(yù)兆,為及時(shí)改進(jìn)與完善圖書(shū)館電子資源服務(wù)工作提供參考依據(jù)。然而,本研究還存在諸多不足:其一,實(shí)證研究的對(duì)象較為單一,方法可能存在缺陷,在今后的研究中應(yīng)根據(jù)具體情況適當(dāng)?shù)臄U(kuò)大研究范圍。其二,在本研究的基礎(chǔ)上,尚需過(guò)濾出瀕臨流失用戶(hù),進(jìn)一步挖掘出導(dǎo)致其可能流失的真正原因。其三,在判斷用戶(hù)瀕臨流失的標(biāo)準(zhǔn)方面,尚未經(jīng)過(guò)實(shí)踐反復(fù)復(fù)檢驗(yàn),后期需采集用戶(hù)主觀數(shù)據(jù)并結(jié)合經(jīng)驗(yàn)來(lái)進(jìn)行多角度的綜合分析及判斷。這些探索點(diǎn)將是筆者后續(xù)努力研究的方向。

        參考文獻(xiàn)

        孔青青.科研人員電子資源需求調(diào)查分析[J].圖書(shū)情報(bào)工作,2016,60(10):47-54.

        吳漢華,王波.文獻(xiàn)2020年中國(guó)高校圖書(shū)館基本統(tǒng)計(jì)數(shù)據(jù)報(bào)告[J]. 大學(xué)圖書(shū)館學(xué)報(bào),2021,39(4):5-7.

        零客戶(hù)流失:服務(wù)業(yè)的質(zhì)量革命[EB/OL].[2021-10-04].https://wenku.baidu.com/view/38f0e71275232f60ddccda38376baf1ffc4fe38d.html.

        《數(shù)學(xué)辭?!肪庉嬑瘑T會(huì).數(shù)據(jù)辭海:第四卷[M].太原:山西教育出版社,2002.8.

        KEAVENEY S M,PARTHASARATHY M.Journal of the Academy of Marketing Science [J].2001,29(4):374-390.

        陳靜,余建波,李艷冰.基于隨機(jī)森林的用戶(hù)流失預(yù)警研究[J].精密制造與自動(dòng)化,2021(2):21-24,51.

        賀芳.基于用戶(hù)細(xì)分的微博社區(qū)用戶(hù)流失預(yù)測(cè)研究[J].情報(bào)探索,2018(12):21-27.

        王若佳,嚴(yán)承希,郭鳳英,等.基于用戶(hù)畫(huà)像的在線健康社區(qū)用戶(hù)流失預(yù)測(cè)研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2022(Z1):1-16.

        JIANG Z, FITZGERALD S R, WALKER K W. Modeling time-to-trigger in library demand-driven acquisitions via survival analysis[J]. Library & Information Science Research, 2019, 41(3): 100968.

        朱世琴,蔣辛未.基于CSSCI的人文社科期刊文獻(xiàn)老化風(fēng)險(xiǎn)率研究[J].情報(bào)學(xué)報(bào),2017,36(10):1031-1037.

        劉智鋒,李信.作者關(guān)鍵詞生存分析:以國(guó)內(nèi)圖情領(lǐng)域?yàn)槔齕J].圖書(shū)館雜志,2020,39(7):48-57.

        孫佳佳,李雅靜.基于關(guān)鍵詞價(jià)值細(xì)分的高價(jià)值熱點(diǎn)主題識(shí)別方法研究[J].情報(bào)學(xué)報(bào),2022,41(2):118-129.

        賴(lài)院根,劉敏健,王星.網(wǎng)絡(luò)環(huán)境下的信息用戶(hù)流失分析[J].情報(bào)科學(xué),2011,29(11):1736-1741.

        賴(lài)院根,劉礪利.基于生存分析的信息用戶(hù)流失研究與實(shí)證[J].情報(bào)雜志,2011,30(4):129-132,171.

        程學(xué)旗,梅宏,趙偉,等.數(shù)據(jù)科學(xué)與計(jì)算智能:內(nèi)涵、范式與機(jī)遇[J].中國(guó)科學(xué)院院刊,2020,35(12):1470-1481.

        陳志偉.大數(shù)據(jù)方法論的新特征及其哲學(xué)反思[J].湖南師范大學(xué)社會(huì)科學(xué)學(xué)報(bào),2020,49(1):24-31.

        數(shù)據(jù)相關(guān)性[EB/OL].[2022-04-04].https://baike.so.com/doc/26482622-27741494.html.

        Cox回歸生存分析[EB/OL].[2021-09-01].https://www.jianshu.com/p/e80eb4168043.

        劉桂琴,許新華.基于機(jī)器學(xué)習(xí)的圖書(shū)館用戶(hù)流失影響因素研討[J].新世紀(jì)圖書(shū)館,2020(1):9-13.

        Prediction on censored subjects[EB/OL].[2021-09-01].https://lifelines.readthedocs.io/en/latest/Survival%20Regression.html#prediction-on-censored-subjects.

        刁羽,薛紅.高校圖書(shū)館用戶(hù)校外訪問(wèn)系統(tǒng)電子資源滿(mǎn)意度畫(huà)像研究:基于小數(shù)據(jù)的視角[J].圖書(shū)館工作與研究,2021(9):76-83.

        刁羽,賀意林.用戶(hù)訪問(wèn)電子資源行為數(shù)據(jù)的獲取研究:基于創(chuàng)文圖書(shū)館電子資源綜合管理與利用系統(tǒng)[J].圖書(shū)館學(xué)研究,2020(3):40-47.

        How the concordance index is calculated in Cox model if the actual event times are not predicted? [EB/OL].[2021-09-01].https://stats.stackexchange.com/questions/478294/how-the-concordance-index-is-calculated-in-cox-model-if-the-actual-event-times-a/478305#478305.

        董堅(jiān)峰. 經(jīng)濟(jì)不發(fā)達(dá)地區(qū)公共圖書(shū)館用戶(hù)穩(wěn)定機(jī)制研究[J]. 現(xiàn)代情報(bào),2012,32(5):25-29.

        猜你喜歡
        生存分析
        不同分子分型的35歲以下乳腺癌患者的臨床特點(diǎn)及預(yù)后情況分析
        中國(guó)對(duì)西亞地區(qū)出口持續(xù)時(shí)間的研究
        關(guān)于貿(mào)易持續(xù)時(shí)間的文獻(xiàn)綜述
        基于生存分析法的降鈣素原在ICU膿毒血癥患者抗生素使用時(shí)間的研究
        寧夏耐多藥結(jié)核病患者和非耐多藥患者生存情況的比較分析
        城市廉租住房保障時(shí)間及家庭特征研究
        制造業(yè)出口貿(mào)易生存分析與跨國(guó)比較探討
        乙型肝炎相關(guān)慢加急性肝衰竭死因與HBV抗原變異相關(guān)性的探討
        貿(mào)易持續(xù)時(shí)間的文獻(xiàn)綜述
        醫(yī)學(xué)中生存分析的多結(jié)局風(fēng)險(xiǎn)比例模型的實(shí)踐應(yīng)用
        无码人妻精品中文字幕| 亚洲先锋影院一区二区| 亚洲日韩成人无码不卡网站| 亚洲av第二区国产精品| 国产熟女露脸91麻豆| 婷婷色香五月综合缴缴情| 国产特级毛片aaaaaaa高清| 亚洲男女免费视频| 久久精品国产亚洲av热一区| 日韩女优视频网站一区二区三区 | 国产韩国一区二区三区| 欧美精品无码一区二区三区| 久久久亚洲欧洲日产国码αv| 美女大量吞精在线观看456 | 亚洲乱码中文字幕视频| 亚洲av综合av国产av中文| 精品无码人妻一区二区三区品| 一本大道久久东京热无码av| 精品国产一区二区三区毛片| av天堂手机免费在线| 免费a级毛片无码a∨中文字幕下载| 亚洲av无码一区二区三区四区 | 国产女高清在线看免费观看| 国产在线精品亚洲视频在线| 一区二区三区视频亚洲| 亚洲av成人片色在线观看高潮| 亚洲乱码av中文一区二区| 色噜噜狠狠色综合欧洲| 我想看久久久一级黄片| 日本添下边视频全过程| a级毛片成人网站免费看| 亚洲欧美日韩中文v在线| 日韩av在线免费观看不卡| 日本一区二区三级在线观看 | 亚洲女同成av人片在线观看| 久久狠狠髙潮曰十八女人| 二区三区三区视频在线观看| 国产在线观看无码免费视频| 狠狠久久精品中文字幕无码| 国产偷拍盗摄一区二区| 国产亚洲一区二区三区|