劉桂琴 許新華
摘 要 論文針對圖書館用戶流失問題,基于圖書館用戶數(shù)據(jù),構(gòu)建用戶特征矩陣,利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測用戶流失風險;將存在流失風險的用戶作為重點研究對象,根據(jù)用戶特征,結(jié)合S-O-R理論設(shè)計圖書館用戶流失影響因素模型。采用扎根理論方法設(shè)計問卷,提取影響圖書館用戶流失的指標因素,并構(gòu)建結(jié)構(gòu)方程模型進行分析,將技術(shù)研究與質(zhì)性研究相結(jié)合,挖掘影響用戶流失的核心因素,并在此基礎(chǔ)上,構(gòu)建了圖書館智慧型服務(wù)空間設(shè)計模型,為圖書館創(chuàng)新服務(wù)提供決策支持。
關(guān)鍵詞 用戶流失 影響因素 機器學習 用戶服務(wù) 智慧圖書館
分類號 G250
0 引言
隨著新媒體時代的到來,圖書館用戶流失一直是學者所重點關(guān)注的問題,如何最大限度地減少用戶流失,采取措施留住老用戶并吸引新用戶成為圖書館亟需解決的問題。針對用戶流失問題,學者們從不同角度進行了探討,如徐孝娟等人基于S-O-R理論構(gòu)建了社交網(wǎng)站用戶流失行為整合模型 [1]。鄒衛(wèi)韶等人針對經(jīng)濟不發(fā)達地區(qū)公共圖書館用戶流失問題,在調(diào)研的基礎(chǔ)上,分析了用戶流失的原因[2]。賴院根等人對信息用戶流失分析中的相關(guān)問題展開了研究,提出基于客戶價值的流失預(yù)測模型[3]。郭順利等人構(gòu)建高校圖書館微信公眾平臺用戶流失行為模型,為高校圖書館微信公眾平臺運營推廣提供理論依據(jù)和參考建議[4]。王繼華基于S-O-R理論,構(gòu)建了公共圖書館微信公眾平臺用戶流失行為模型[5]。分析發(fā)現(xiàn)有些已有研究主要集中在圖書館微信公眾平臺用戶流失行為的探討,而沒有著眼于從預(yù)測流失可能性到探尋影響因素的完整過程。因此,本文從技術(shù)研究和質(zhì)性研究兩個角度出發(fā),以黃石市圖書館為例,基于用戶的借閱數(shù)據(jù)、到館數(shù)據(jù)以及資源數(shù)據(jù),通過深度學習技術(shù),構(gòu)建圖書館用戶流失預(yù)測模型,并在流失預(yù)測的基礎(chǔ)上,以存在流失風險的用戶作為重點研究對象,根據(jù)用戶特征及S-O-R理論設(shè)計調(diào)查問卷,采用扎根理論方法抽取影響因素,然后借助解釋結(jié)構(gòu)方程模型分析影響因素,探尋影響用戶流失的根本原因。最后根據(jù)分析結(jié)果,為黃石市圖書館智慧型服務(wù)構(gòu)建空間設(shè)計模型,以此提高其智能化技術(shù)的應(yīng)用能力,創(chuàng)新用戶服務(wù)提供理論參考與決策支持。
1 用戶流失預(yù)測分析步驟與模型構(gòu)建
1.1 用戶流失預(yù)測模型構(gòu)建
在數(shù)據(jù)預(yù)處理方面,本研究首先獲取用戶的借閱數(shù)據(jù)、到館數(shù)據(jù)以及資源數(shù)據(jù),對用戶指標進行判別,經(jīng)過特征工程算法處理得到訓練數(shù)據(jù),選定用戶特征生成特征矩陣,并確定目標數(shù)據(jù)。其次,將特征矩陣中的類別信息進行數(shù)值轉(zhuǎn)化,通過多個變量組合進行類別表示,并對變量組合進行處理,避免陷入“虛擬變量陷阱”。第三,對特征矩陣進行標準化處理,消除不同類別數(shù)據(jù)之間的差異。最后,分割特征矩陣,以20%的數(shù)據(jù)作為測試集,80%的數(shù)據(jù)作為訓練集。
在搭建神經(jīng)網(wǎng)絡(luò)層方面,依據(jù)神經(jīng)網(wǎng)絡(luò)理論,首先搭建輸入層,根據(jù)特征矩陣的維數(shù)確定輸入層神經(jīng)元數(shù)量;其次搭建隱藏層,根據(jù)輸入層和輸出層的神經(jīng)元數(shù)量推測隱藏層中每層的神經(jīng)元數(shù)量,并嘗試搭建不同的隱藏層數(shù)(>=3層),為了加快模型訓練收斂速度,在隱藏層采用relu 函數(shù)作為激活函數(shù);最后搭建輸出層,為實現(xiàn)二元分類功能,選用softmax作為激活函數(shù),獲取分類結(jié)果。
為了更好地保證研究數(shù)據(jù)具有準確性,先對用戶流失進行預(yù)測。首先將作為訓練集的用戶特征矩陣作為原始輸入,輸入到深度神經(jīng)網(wǎng)絡(luò)模型中進行模型訓練;再根據(jù)精準度和損失度來調(diào)整隱含層的層數(shù),確定最優(yōu)預(yù)測模型;最后將測試集輸入到已訓練好的模型中,經(jīng)過Sigmoid 激活函數(shù)進行二元分類輸出之后,得到每位用戶流失可能性的判別結(jié)果,對其精準度進行統(tǒng)計。具體實踐過程見圖1。
1.2 圖書館用戶流失影響因素分析模型
基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果,將流失概率超過50%,但沒有退卡的用戶作為重點研究對象。針對這些用戶構(gòu)建用戶特征矩陣,并基于S-O-R理論設(shè)計圖書館用戶流失影響因素模型,見圖2。其中,圖書館的刺激主要包含信息資源、館員服務(wù)、圖書館環(huán)境、基礎(chǔ)管理與服務(wù)、外部環(huán)境五方面;有機體的變化主要包括情感、認知和物理等三個方面;反應(yīng)是指用戶受到刺激后作出的反應(yīng)和決策,主要為用戶申請退借閱卡,不再到館享受服務(wù)?;趫D書館用戶流失影響因素模型,通過專家咨詢,結(jié)合扎根理論方法設(shè)計調(diào)查問卷,對存在流失風險的用戶進行調(diào)查,根據(jù)調(diào)查結(jié)果,繼續(xù)通過專家咨詢的方式,提取影響因素的指標,通過構(gòu)建結(jié)構(gòu)方程模型分析圖書館用戶流失行為的影響因素。
2 實驗數(shù)據(jù)來源與處理方法
本文數(shù)據(jù)來源于黃石市圖書館的用戶,統(tǒng)計近三年辦理借書卡的用戶信息,選取其中的3000名用戶作為樣例數(shù)據(jù),經(jīng)過特征工程算法處理,選擇具有代表性和重要性的用戶特征,包括年齡、性別、地區(qū)、到館次數(shù)、借書數(shù),續(xù)借數(shù),預(yù)約數(shù)、期刊閱覽次數(shù)、電子資源使用次數(shù)、是否退卡等。按照用戶流失預(yù)測模型的構(gòu)建過程,首先對數(shù)據(jù)進行預(yù)處理,利用用戶數(shù)據(jù)的前9項構(gòu)建特征矩陣,將是否退卡作為目標數(shù)據(jù),判斷用戶是否流失的依據(jù);進而利用python 的pandas和numpy包進行數(shù)據(jù)清洗,將性別、地區(qū)等類別數(shù)據(jù)轉(zhuǎn)化成數(shù)值;為了消除量綱,對特征矩陣進行標準化處理;對特征矩陣進行分割。考慮到數(shù)據(jù)量原因,本文在實驗過程中僅構(gòu)建訓練集和測試集,以80%的數(shù)據(jù)用來訓練機器學習模型,以20%的數(shù)據(jù)用作測試,不設(shè)置驗證集,只通過測試集實現(xiàn)神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整以及性能檢測的功能。
在構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型之前,首先采用Scikit-learn中的支持向量機模型和決策樹模型作為baseline進行預(yù)測評估。相比于神經(jīng)網(wǎng)絡(luò),支持向量機和決策樹也是模型預(yù)測中的有效方法。支持向量機是一種有堅實理論基礎(chǔ)的新穎的小樣本學習方法,它避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓練樣本到預(yù)報樣本的“轉(zhuǎn)導推理”,大大簡化了通常的分類和回歸等問題;而決策樹的突出優(yōu)點是可以抽取可讀性規(guī)律,從訓練集數(shù)據(jù)中自動地構(gòu)造決策樹,從而可以根據(jù)這個決策樹對任意實例進行判定[6]。在利用支持向量機和決策樹模型預(yù)測之后,采用建立在Tensorflow之上的高度抽象框架Tflearn構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型,逐步搭建神經(jīng)網(wǎng)絡(luò)層,其中輸入層包含9個神經(jīng)元,輸出層包含2個神經(jīng)元,依據(jù)工程學的通用做法,輸入層和輸出層的神經(jīng)元數(shù)量相加除以2取整,就作為隱含層的神經(jīng)元數(shù)量,因此在搭建隱藏層的過程中,每層神經(jīng)元數(shù)量確定為5,而層數(shù)分別取3至9,以獲得最高的預(yù)測準確率。
3 實驗用戶流失預(yù)測分析
神經(jīng)網(wǎng)絡(luò)的深度與用戶流失預(yù)測準確率之間的關(guān)系如圖3所示,當隱藏層層數(shù)達到4層時,對應(yīng)模型的預(yù)測準確率最高,因此在搭建神經(jīng)網(wǎng)絡(luò)層的過程中,嘗試增加隱藏層提高預(yù)測的準確率。
本文的實驗樣例中的3000名用戶,其中2400名用戶用作模型訓練,而另外600名用戶作為測試集數(shù)據(jù)輸入到預(yù)測模型中,進行模型評估,通過參數(shù)調(diào)整,確定最優(yōu)預(yù)測模型,獲取每位用戶流失的概率。在評估深度神經(jīng)網(wǎng)絡(luò)的預(yù)測效果時,使用Tflearn框架內(nèi)的evaluate函數(shù)評價模型,獲取模型測試準確性。根據(jù)測試結(jié)果,通過多次模型調(diào)整比較,統(tǒng)計模型的預(yù)測準確率達到89%。
為了驗證本文所提出的深度神經(jīng)網(wǎng)絡(luò)模型在圖書館用戶流失預(yù)測中的有效性,通過Python中Scikit-learn提供的決策樹和支持向量機模型分別進行用戶流失預(yù)測。利用訓練集訓練模型,將數(shù)據(jù)輸入測試集,通過調(diào)用Scikit-learn的classification_report模塊評估預(yù)測效果,生成分析報告,獲取查全率、查準率及F值,見表1。通過對比,基于決策樹和支持向量機進行的預(yù)測,F(xiàn)值分別為81%和71%,低于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測準確率,驗證了基于深度神經(jīng)網(wǎng)絡(luò)的圖書館用戶流失預(yù)測模型具備較高的預(yù)測準確率??梢哉f通過深度神經(jīng)網(wǎng)絡(luò)得到的預(yù)測結(jié)果可用于用戶流失影響因素的分析中。
4 實驗用戶流失影響因素分析
根據(jù)深度神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果,查看測試集中600名用戶的預(yù)測結(jié)果,其中流失概率達到50%以上,但仍沒有退卡的用戶,共337位。將這部分用戶作為重點調(diào)查對象,用于挖掘影響圖書館用戶流失的因素。
研究問卷設(shè)計采取開放式編碼定義原則,首先從館內(nèi)選擇兩位專家,通過上述圖書館用戶流失行為模型,對每個因素進行分散式問題采集,每個因素下提供 6~10 個參考問項。收集專家的提問項后,對兩名專家共同采集的問題予以采納,對單個專家提出的問項,再次由兩位專家共同商議后,再決定應(yīng)用或放棄。經(jīng)過 30分鐘時間的專家編碼后,最終得到 6 個維度 2個問題的問卷項。問題項確定后,根據(jù)研究情境,經(jīng)過專家小組討論,對相關(guān)量表的測量項進行調(diào)整和完善。最后對存在流失風險可能性的用戶進行電話訪談,問卷采用李克特5分量表編制,其中,1 表示 “非常不同意”,3表示“中立”,5表示 “非常同意”。問卷針對模型中的 6 個潛變量[7],共設(shè)立21個題項。調(diào)查結(jié)束后,經(jīng)篩選,有效訪談記錄305份,訪談的有效率為90.5%。兩位專家分別根據(jù)問卷中設(shè)置的問題,對他們認為重要的要素進行抽取解碼,用最簡短的詞語或詞組表示抽取的要素。由于采用開放式編碼抽取方式,兩位專家所表示的要素存在重復(fù)項、個別詞組較長、同一概念采用不同的表達方式、抽取要素不夠精煉等問題。
本研究利用小組討論方式對兩位專家抽取的表達圖書館用戶流失的影響因素進行歸納和精煉,并將要素返回原訪談材料驗證和比較,驗證抽取要素的可靠性,最終合并兩位專家抽取到的要素和關(guān)系,總計得到 21個影響要素。依據(jù)解釋結(jié)構(gòu)方程模型方法的步驟,首先根據(jù)要素之間關(guān)系構(gòu)建鄰接矩陣,并根據(jù)鄰接矩陣的矩陣運算,求出可達矩陣;進而對可達矩陣進行分解,分別進行抽取層級,建立層級結(jié)構(gòu)模型;然后根據(jù)層級結(jié)構(gòu)模型建立系統(tǒng)問題的解釋結(jié)構(gòu)模型;最后計算各影響因素對用戶流失行為的影響比重,計算結(jié)果見表2。
根據(jù)解釋結(jié)構(gòu)方程模型理論,層級結(jié)構(gòu)模型可以分為表象層、中間層和根本原因?qū)尤龑?,而分析?發(fā)現(xiàn),21項用戶流失影響因素根據(jù)其對用戶流失行為產(chǎn)生影響的比重也明顯分為三個層級。其中根本原因?qū)影ˋ3、B1、C1、D1;中間層包括A1、C2、C3、D3、E2、E4、F2;表象層主要包括E1、F1。
5 實驗結(jié)果與討論
通過以上分析發(fā)現(xiàn),為用戶開放網(wǎng)絡(luò)資源、館員有效為用戶提供服務(wù)、圖書館為用戶提供干凈優(yōu)美的環(huán)境以及開展多樣的活動是影響黃石市圖書館用戶是否流失的關(guān)鍵性因素,而根本原因?qū)又械钠渌齻€因素,也為黃石市圖書館提升服務(wù)水平提供了借鑒。需要說明的是,本文在構(gòu)建模型時,數(shù)據(jù)量較小,構(gòu)建的用戶特征矩陣并不完善;而訪談的對象重點僅限于存在流失可能性的用戶,樣本較少;并且模型并沒有推廣實施,其適用性還有待進一步確認。以上這些都會對本文結(jié)論產(chǎn)生一定影響,下一步我們將擴大數(shù)據(jù)樣本,改進當前存在不足,將技術(shù)和質(zhì)性研究更好的結(jié)合。
綜合考慮以上因素,黃石市圖書館在構(gòu)建智慧型服務(wù)空間時,還應(yīng)從數(shù)據(jù)分析、特色服務(wù)、創(chuàng)客空間、空間再造四個方面入手設(shè)計空間模型,具體見圖4。
圖4 智慧型服務(wù)空間設(shè)計模型
5.1 通過數(shù)據(jù)互聯(lián)服務(wù)提高圖書館服務(wù)效率
技術(shù)是圖書館發(fā)展的驅(qū)動性因素,也是圖書館智慧服務(wù)的基礎(chǔ)。圖書館在尋求技術(shù)突破時,要充分考慮人與人之間、人與物之間、物與物之間的智慧互聯(lián)互通,基于人工智能、情景感知、深度學習等方法,實現(xiàn)圖書館內(nèi)外部數(shù)據(jù)資源對用戶的智慧化服務(wù)模式[8]。首先可借助Hadoop、Spark等大數(shù)據(jù)分析平臺,對門禁系統(tǒng)的進館數(shù)據(jù)進行采集、加工、分析,生成可視化報表,為圖書館工作人員提供準確時段數(shù)據(jù)和用戶畫像,有利于圖書館根據(jù)讀者類型制定服務(wù)策略,根據(jù)到館人流量的變化趨勢進行工作人員的調(diào)配和管理,合理安排人員工作,避免人員閑置,提高圖書館的服務(wù)質(zhì)量。其次開發(fā)功能全面的移動端APP,用戶通過在個人移動終端安裝圖書館網(wǎng)站提供的相應(yīng)軟件,即可實現(xiàn)書目檢索、讀者服務(wù)、你問我答、圖書借閱等服務(wù)功能;在此基礎(chǔ)上,基于圖像識別技術(shù),使用戶拍攝書籍條形碼即可查詢書目是否借出及書評信息。最后重視對人工智能技術(shù)的應(yīng)用,將圖書館海量資源與前沿技術(shù)結(jié)合,大力打造人工智能引擎,進一步升級學習語料庫與行業(yè)知識智能,開展“智慧虛擬館員”服務(wù),為用戶提供智能咨詢、聊天、檢索等服務(wù),提升用戶體驗與服務(wù)效率。
5.2 通過空間環(huán)境再造提供多元化學習場所
以用戶需求為導向,對圖書館傳統(tǒng)空間格局進行改造,精心打造新型的圖書館互動體驗學習區(qū),提升用戶粘性。整個學習區(qū)可分為四個主題,每個主題展區(qū)各有特點,具有不同的功能,其中共享空間體驗區(qū)用于讀者自我展現(xiàn)與交流,內(nèi)設(shè)若干功能舒適的個性化定制桌椅,提供使用方便的互聯(lián)網(wǎng)絡(luò)和電腦;閱讀體驗區(qū)可展示圖書館多媒體數(shù)字資源,包括數(shù)字化形式的圖書、期刊、報紙、論文等,并通過屏幕展示和試聽體驗的方式向讀者演示各類數(shù)字資源的獲取和使用,使廣大讀者能夠了解館藏各種數(shù)字資源;信息共享空間展示區(qū)可提供屏幕、投影儀等設(shè)備,定期播放教育資料和電視節(jié)目,內(nèi)容可為新聞、財經(jīng)、地理、重大事件和重要賽事;學科服務(wù)體驗區(qū)通過引進數(shù)字學科服務(wù)平臺來實現(xiàn)其功能,用戶可在此進行自主學習,自我成長。
5.3 通過推廣特色服務(wù)滿足用戶個性化需求
在智慧環(huán)境下,公共圖書館要在傳統(tǒng)個性化服務(wù)的基礎(chǔ)上,借助大數(shù)據(jù)、云計算、移動互聯(lián)等方法技術(shù)采集更多的讀者特征和行為數(shù)據(jù),關(guān)注用戶焦點訴求,不斷更新形式、豐富內(nèi)容,提高服務(wù)水平,增強用戶與圖書館的互動性。通過用戶數(shù)據(jù)采集,了解用戶關(guān)注的圖書資源和數(shù)據(jù)庫,并根據(jù)反饋結(jié)果制定個性化的服務(wù)方案。在向智慧圖書館發(fā)展的過程中,黃石市圖書館首先可考慮在凸顯 “用戶至上”原則下,深度推動信用借閱、在線借閱,逐步構(gòu)建“互聯(lián)網(wǎng)+O2O+圖書館”在線借閱服務(wù)圈;其次與政府市民信息數(shù)據(jù)庫對接,進一步完善讀者基本信息,以通過用戶分類、畫像來實現(xiàn)個性化推薦服務(wù);最后,構(gòu)建館內(nèi)智慧感知系統(tǒng),根據(jù)用戶在館內(nèi)的活動軌跡,進行數(shù)據(jù)分析,開展有針對性的服務(wù)推薦,以打造全方位的圖書館“智慧服務(wù)”。
5.4 通過構(gòu)建創(chuàng)客空間實現(xiàn)圖書館向上生長
隨著智慧時代的來臨,公共圖書館智慧服務(wù)對空間價值的要求更高,公共圖書館在傳統(tǒng)空間服務(wù)的基礎(chǔ)上,需進一步將線下的物理空間與線上的虛擬空間進行融合,以體現(xiàn)圖書館作為信息共享與創(chuàng)新空間的重要地位。因此,黃石市圖書館可考慮為讀者用戶提供動手實踐、實現(xiàn)創(chuàng)意想法的創(chuàng)客空間,增強圖書館與社區(qū)的互動性,提升圖書館的社會價值。為滿足創(chuàng)客群體的需求,在空間服務(wù)上應(yīng)具備實時感知、資源分析、個性化定制、及時反饋等一站式功能。在空間設(shè)置上,合理布局,提供信息技術(shù)區(qū)域、學習討論區(qū)域、學習討論區(qū)域和產(chǎn)品設(shè)計區(qū)域,以此吸引更多用戶回歸圖書館。