孫龍杰 俞凱君
摘 ?要: 大數(shù)據(jù)人工智能時(shí)代實(shí)時(shí)產(chǎn)生的大量圖書(shū)館用戶(hù)行為數(shù)據(jù)需要更高效更科學(xué)的分析技術(shù)幫助圖書(shū)館提升個(gè)性化服務(wù)水平和質(zhì)量,同時(shí)日益普及的校園物聯(lián)網(wǎng)系統(tǒng)需要更加積極的網(wǎng)絡(luò)安全防范措施,主動(dòng)檢測(cè)出網(wǎng)絡(luò)不可信的異常行為并反饋警告用戶(hù),提升安全意識(shí)。針對(duì)上述需求,本文在國(guó)內(nèi)外權(quán)威數(shù)據(jù)庫(kù)輸入用戶(hù)行為分析等關(guān)鍵詞查找相關(guān)文獻(xiàn),根據(jù)文獻(xiàn)分析法綜合比較剔除篩選出55篇核心技術(shù)文獻(xiàn)進(jìn)行細(xì)讀研究,梳理了技術(shù)發(fā)展歷程,明確了用戶(hù)行為個(gè)性分析和可信性分析的核心技術(shù)和方法并做了重點(diǎn)拓展性研究,根據(jù)文獻(xiàn)研究成果結(jié)合圖書(shū)館當(dāng)前實(shí)際發(fā)展的需要,探究出一套基于傳統(tǒng)數(shù)據(jù)挖掘和分類(lèi)學(xué)習(xí)的用戶(hù)行為大數(shù)據(jù)分析模型,該模型將用戶(hù)個(gè)性分析和異常行為的檢測(cè)高度有機(jī)結(jié)合能有效解決上述兩大難題。
關(guān)鍵詞: 數(shù)據(jù)挖掘;監(jiān)督學(xué)習(xí);用戶(hù)畫(huà)像;支持向量機(jī)
中圖分類(lèi)號(hào): TP393.02 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.06.025
本文著錄格式:孫龍杰,俞凱君. 基于物聯(lián)網(wǎng)的圖書(shū)館用戶(hù)行為大數(shù)據(jù)分析模型探究[J]. 軟件,2019,40(6):113118
【Abstract】: A large number of library user behavior data generated in real time in the era of big data artificial intelligence requires more efficient and scientific analysis technology to help libraries improve the level and quality of personalized services, while the increasingly popular campus Internet of Things system needs to be more Active network security precautions, proactively detect unreliable abnormal behavior of the network and feedback users to improve security awareness. In view of the above requirements, this paper searches for relevant literatures by inputting user behavior analysis and other keywords in authoritative databases at home and abroad. According to the literature analysis method, 55 core technical documents are selected and selected for detailed study, and the technical development process is sorted out. The core technologies and methods of user behavioral personality analysis and credibility analysis are clarified and key extended research is carried out.Based on the research results of the literature and the needs of the current real development of the library, a set of traditional data mining is explored. And the user behavior big data analysis model of classification learning, which combines the user personality analysis and the detection of abnormal behaviors to effectively solve the above two problems.
【Key words】: Data mining; Supervised learning; User portrait; SVM
0 ?引言
大數(shù)據(jù)物聯(lián)網(wǎng)時(shí)代下,信息交互手段更加豐富便捷、個(gè)性化趨勢(shì)日益明顯,筆記本、智能手機(jī)、IPAD、Kindle等移動(dòng)終端設(shè)備早已成為人們閱讀的主要工具,用戶(hù)對(duì)知識(shí)信息的獲取、認(rèn)知、利用、交流的主要方式逐步轉(zhuǎn)移到各大互聯(lián)網(wǎng)平臺(tái)上,隨著人工智能技術(shù)的不斷發(fā)展,圖書(shū)館各種智慧交互設(shè)備的不斷涌現(xiàn),每天圖書(shū)館用戶(hù)在使用服務(wù)產(chǎn)品時(shí)需進(jìn)行頻繁的操作和數(shù)據(jù)傳送,產(chǎn)生大量的用戶(hù)行為日志數(shù)據(jù)不斷傳送到服務(wù)器存儲(chǔ)后臺(tái)中形成海量數(shù)據(jù)。這樣一方面造成現(xiàn)有網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)難以及時(shí)分析處理這些更新迅速內(nèi)容豐富的數(shù)據(jù)導(dǎo)致對(duì)用戶(hù)行為分析的滯后缺失,難以及時(shí)推出具有個(gè)性豐富的服務(wù)產(chǎn)品;另一方面實(shí)時(shí)頻繁的用戶(hù)登錄、瀏覽、下載、發(fā)布等操作行為給用戶(hù)自身賬戶(hù)信息等帶來(lái)安全隱患,也對(duì)圖書(shū)館數(shù)字資源網(wǎng)絡(luò)安全提出更高要求,需要及時(shí)檢測(cè)出網(wǎng)絡(luò)異常有害行為,避免由此帶來(lái)的損失。本文通過(guò)檢索知網(wǎng)、萬(wàn)方、維普、IEEE Springer Link等國(guó)內(nèi)外權(quán)威數(shù)據(jù)庫(kù),輸入用戶(hù)行為關(guān)鍵技術(shù)等關(guān)鍵詞,搜索出近百篇文獻(xiàn),研究細(xì)讀后運(yùn)用文獻(xiàn)分析法綜合比對(duì)主題相似、邏輯關(guān)聯(lián)的文獻(xiàn),從中剔除陳舊、重復(fù)篩選出55篇核心技術(shù)文獻(xiàn)再仔細(xì)歸類(lèi)、整理,梳理了用戶(hù)行為數(shù)據(jù)分析技術(shù)發(fā)展歷程,明確了用戶(hù)行為個(gè)性分析和可信性分析的核心技術(shù),對(duì)照?qǐng)D書(shū)館用戶(hù)行為特征,最終選取7種核心數(shù)據(jù)分析技術(shù)作為構(gòu)建本文用戶(hù)行為大數(shù)據(jù)分析模型的骨架。文獻(xiàn)具體研究情況見(jiàn)表1。
1 ?數(shù)據(jù)分析技術(shù)演變
1.1 ?數(shù)理統(tǒng)計(jì)分析
國(guó)內(nèi)在上世紀(jì)90年代初就已有通過(guò)過(guò)借閱記錄、問(wèn)卷調(diào)查等方式進(jìn)行數(shù)理統(tǒng)計(jì)分析用戶(hù)行為的論文[1]發(fā)表,隨著21世紀(jì)初互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,基于數(shù)據(jù)統(tǒng)計(jì)原理開(kāi)發(fā)出的網(wǎng)站統(tǒng)計(jì)和定制軟件業(yè)逐步開(kāi)始商業(yè)化使用[2-4],如eXTReMeTracking提供URL實(shí)時(shí)跟蹤服務(wù)及用戶(hù)網(wǎng)站瀏覽各項(xiàng)統(tǒng)計(jì)信息,WebSiteTrafficreport以email的形式發(fā)送用戶(hù)訪(fǎng)問(wèn)流量統(tǒng)計(jì)結(jié)果,MiniTab軟件統(tǒng)計(jì)分析用戶(hù)使用習(xí)慣調(diào)查問(wèn)卷等,雖然預(yù)設(shè)固化程序僅提供部分統(tǒng)計(jì)學(xué)參量數(shù)據(jù),對(duì)預(yù)測(cè)用戶(hù)行為的范圍和準(zhǔn)確度有限,但對(duì)于進(jìn)入web2.0時(shí)代的數(shù)字圖書(shū)館來(lái)說(shuō)具有重要意義,深度的數(shù)據(jù)挖掘分析研究開(kāi)始逐步延伸到圖書(shū)館各項(xiàng)業(yè)務(wù)中,如李盼池[5]根據(jù)聚類(lèi)算法分析用戶(hù)借閱信息,魏育輝[6]等人使用關(guān)聯(lián)規(guī)則挖掘分析圖書(shū)館流通數(shù)據(jù),溫嶸生[7]等人對(duì)OPAC數(shù)據(jù)利用SQL、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行關(guān)聯(lián)挖掘等。
1.2 ?數(shù)據(jù)挖掘
近年來(lái)隨著物聯(lián)網(wǎng)的發(fā)展,圖書(shū)館相關(guān)業(yè)務(wù)數(shù)據(jù)也呈現(xiàn)逐年翻倍遞增的趨勢(shì),用戶(hù)行為信息數(shù)據(jù)程現(xiàn)多樣性和復(fù)雜性特征,也給數(shù)據(jù)挖掘技術(shù)在圖書(shū)館的應(yīng)用研究提供了絕佳機(jī)會(huì)。對(duì)于用戶(hù)日常瀏覽圖書(shū)館網(wǎng)頁(yè)、數(shù)字資源查詢(xún)、下載文獻(xiàn)資料、流通借閱等行為均有web日志記錄數(shù)據(jù),使用python等工具高效獲得可靠豐富詳實(shí)的用戶(hù)行為原始數(shù)據(jù);通過(guò)聚類(lèi)、關(guān)聯(lián)、決策樹(shù)、時(shí)間序列等主流數(shù)據(jù)挖掘分析方法,能較為準(zhǔn)確地把握?qǐng)D書(shū)館用戶(hù)基本使用概況,如趙衛(wèi)軍[8]對(duì)web和文本數(shù)據(jù)挖掘?qū)Ω咝?shù)字圖書(shū)館應(yīng)用領(lǐng)域的影響和價(jià)值,張金鐲[9]探討了決策樹(shù)算法在用戶(hù)活躍度的應(yīng)用,熊擁軍[10]等利用關(guān)聯(lián)挖掘技術(shù)構(gòu)建個(gè)性化推送服務(wù)模型,張煒[11]等通過(guò)MAR-FP算法挖掘OPAC檢索中用戶(hù)行為數(shù)據(jù)探究用戶(hù)規(guī)律性知識(shí)需求,王偉[12]則基web和書(shū)目挖掘的基礎(chǔ)探討了用戶(hù)行為分析和偏好模型所依賴(lài)的主要數(shù)據(jù)挖掘模式等等。下面就以上主要數(shù)據(jù)挖掘的技術(shù)原理和思路做一下重點(diǎn)介紹。
聚類(lèi)分析[13]就是把一個(gè)集合中各元素間按照某種相似度分組后,形成各自聚集的類(lèi),類(lèi)的內(nèi)部元素之間的差異距離較?。丛刂g更加相似),分析各類(lèi)的統(tǒng)計(jì)特性,在數(shù)據(jù)挖掘中找到感興趣的分組結(jié)果。聚類(lèi)更為嚴(yán)格的數(shù)學(xué)描述如下:被研究的樣本集為K,類(lèi)M定義為K的一個(gè)非空子集,即M K,且M K,滿(mǎn)足以下2個(gè)條件的不同類(lèi) (i=1,2,3,4,…)就是聚類(lèi):
由條件一可知,每個(gè)樣本必定屬于聚類(lèi)中某一個(gè)類(lèi),條件二可知每個(gè)樣本屬于不超過(guò)1個(gè)類(lèi)。聚類(lèi)是數(shù)據(jù)挖掘中非常重要的組成部分,也是人工智能、模式識(shí)別領(lǐng)域中機(jī)器學(xué)習(xí)[14]的重要技術(shù),屬于無(wú)監(jiān)督學(xué)習(xí)的一種。聚類(lèi)本身并不是一個(gè)特定的算法,而是一個(gè)普遍性的任務(wù)。有許多不同聚類(lèi)算法可以用來(lái)完成這個(gè)任務(wù),主要的聚類(lèi)算法有6大類(lèi)分別是基于分割的算法、基于層次的、基于密度的、基于網(wǎng)格的、基于模型的[15]。但這些算法互相之間關(guān)于什么樣的數(shù)據(jù)應(yīng)當(dāng)組成一個(gè)類(lèi),以及如何找到這些元素這兩個(gè)問(wèn)題有著巨大的差異。國(guó)內(nèi)外專(zhuān)家學(xué)者經(jīng)過(guò)長(zhǎng)期不懈的努力不斷改善基于層次、密度等主要的聚類(lèi)算法的魯棒性:Karypis[16]等人針對(duì)基于層次的聚類(lèi)算法擴(kuò)展性差的問(wèn)題在總結(jié)以往的K-means, PAM, CLARANS, DBSCAN, CURE, and ROCK等算法的不足綜合考慮了互連性、近似度及內(nèi)部特征提出動(dòng)態(tài)Chameleon算法提高了聚類(lèi)速度,改善了聚類(lèi)質(zhì)量;裴繼法等人[17]針對(duì)基于密度的聚類(lèi)劃分提出利用樣本分布密度函數(shù)作為FCM聚類(lèi)算法初始隸屬度矩陣,從而改善了FCM聚類(lèi)算法的魯棒性、收斂時(shí)間和分類(lèi)精度。
關(guān)聯(lián)分析又稱(chēng)為關(guān)聯(lián)挖掘,用于發(fā)現(xiàn)大量數(shù)據(jù)項(xiàng)集中不同項(xiàng)之間的相關(guān)或關(guān)聯(lián)聯(lián)系的過(guò)程,這些聯(lián)系可以有兩種形式,一是頻繁項(xiàng)集,指的出現(xiàn)頻率較高的物品或者項(xiàng)目的集合,另一種是關(guān)聯(lián)規(guī)則,指的是兩種物品或者項(xiàng)目之間存在著很強(qiáng)烈的關(guān)系,關(guān)聯(lián)分析的目標(biāo)是找出強(qiáng)關(guān)聯(lián)規(guī)則,支持度和置信度是判定一個(gè)關(guān)聯(lián)分析方法是否成功的重要依據(jù),現(xiàn)有的基于關(guān)聯(lián)規(guī)則的挖掘算法絕大部分都需要使用支持度和置信度來(lái)過(guò)濾掉關(guān)聯(lián)效果或者說(shuō)可靠度低的方法和模式,主要有6種關(guān)聯(lián)算法:Apriori算法[18]及其優(yōu)化算法、多維關(guān)聯(lián)挖掘、多層次關(guān)聯(lián)挖掘、基于約束的關(guān)聯(lián)挖掘、基于統(tǒng)計(jì)的關(guān)聯(lián)、非結(jié)構(gòu)化復(fù)雜類(lèi)型關(guān)聯(lián)[19]。
傳統(tǒng)的關(guān)聯(lián)挖掘的算法也如聚類(lèi)一樣自1993年Agrawal 等人針對(duì)購(gòu)物籃分析問(wèn)題而提出Apriori算法后一直受到國(guó)內(nèi)外數(shù)據(jù)挖掘研究者的關(guān)注和改進(jìn),像賀超波[20]等人利用粗糙集的特征屬性約簡(jiǎn)算法進(jìn)行屬性約簡(jiǎn),然后在構(gòu)建約簡(jiǎn)決策表的基礎(chǔ)上應(yīng)用改進(jìn)的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘;而JHan等[21]人提出的FP-growth的方法也是一種典型的優(yōu)化算法:針對(duì)所有頻繁集進(jìn)行壓縮形成頻繁模式樹(shù)(FP-tree)再將其分化為一些與長(zhǎng)度為為1的頻繁集相關(guān)的條件庫(kù)進(jìn)行挖掘,同時(shí)保留關(guān)聯(lián)信息,此方法在長(zhǎng)期的實(shí)驗(yàn)和應(yīng)用中,體現(xiàn)了對(duì)長(zhǎng)度不同的規(guī)則都能運(yùn)行良好、效率高的特點(diǎn)。上述傳統(tǒng)的算法多為同一屬性之間的單維關(guān)聯(lián)關(guān)系,掃描挖掘數(shù)據(jù)需要多遍,且產(chǎn)生和驗(yàn)證候選頻繁項(xiàng)集的操作實(shí)現(xiàn)復(fù)雜難以實(shí)現(xiàn)對(duì)多維關(guān)聯(lián)規(guī)則的挖掘,彭銀香等[22]人根據(jù)免疫記憶特性提出基于免疫算法的多維關(guān)聯(lián)規(guī)則挖掘算法把挖掘的關(guān)聯(lián)規(guī)則存入記憶庫(kù),加快了關(guān)聯(lián)規(guī)則的挖掘速度能快速、有效地進(jìn)行全局優(yōu)化搜索;吳少瑩等[23]對(duì)基于數(shù)據(jù)倉(cāng)庫(kù)和 OLAP的多維數(shù)據(jù)分析法和多維關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行了相關(guān)研究,實(shí)現(xiàn)在一定范圍內(nèi)的多維關(guān)聯(lián)規(guī)則研究、滿(mǎn)足人們一定范圍內(nèi)的對(duì)多維屬性的要求。
時(shí)間序列[24]是指將某一統(tǒng)計(jì)指標(biāo)的數(shù)據(jù)值按其發(fā)生的時(shí)間先后順序排列而成的序列,其典型的特點(diǎn)是數(shù)據(jù)規(guī)模大、數(shù)據(jù)維度高、含有噪音。時(shí)間序列分析技術(shù)己經(jīng)廣泛應(yīng)用于各行各業(yè)的發(fā)展中,技術(shù)十分成熟。時(shí)間序列的分析技術(shù)目前按階段發(fā)展分為兩類(lèi),第一類(lèi)早期基于數(shù)理統(tǒng)計(jì)的時(shí)間序列分析方法,該分析方法側(cè)重于統(tǒng)計(jì)分析離散指標(biāo)的隨機(jī)過(guò)程。第二類(lèi)為本文采用的基于數(shù)據(jù)挖掘的時(shí)間序列分析技術(shù),是數(shù)據(jù)挖掘研究的一個(gè)重要領(lǐng)域,主要研究數(shù)據(jù)類(lèi)型是時(shí)間序列的數(shù)據(jù),如金融分析、環(huán)境分析、交通分析、計(jì)算機(jī)仿真等[25-28],研究的熱點(diǎn)主要集中在時(shí)間序列的近似表示、相似性度量、分類(lèi)、聚類(lèi)、模式挖掘、異常檢測(cè)等[29-34]。
1.3 ?監(jiān)督學(xué)習(xí)分析
以上大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘分析技術(shù)給予了圖書(shū)館各項(xiàng)業(yè)務(wù)有力的支撐,實(shí)現(xiàn)了數(shù)字圖書(shū)館的目標(biāo)和要求,但隨著人臉識(shí)別、語(yǔ)音識(shí)別等智能化產(chǎn)品的不斷涌現(xiàn),傳統(tǒng)數(shù)據(jù)挖掘技術(shù)需要增添新的活力,才能完成圖書(shū)館智慧服務(wù)的自我革命。
2017年《國(guó)務(wù)院新一代人工智能發(fā)展規(guī)劃》[35]發(fā)布,標(biāo)志著我國(guó)進(jìn)入第二代人工智能發(fā)展時(shí)期,這一階段由個(gè)體智能到群體智能、由可解釋的機(jī)器學(xué)習(xí)到廣泛的機(jī)器學(xué)習(xí)、由智能機(jī)器到人機(jī)協(xié)同,因此借助該機(jī)遇智慧圖書(shū)館的各項(xiàng)目標(biāo)也將逐步實(shí)現(xiàn);在人工智能時(shí)代下,圖書(shū)館借助于人臉識(shí)別、語(yǔ)音識(shí)別、機(jī)器翻譯等交互設(shè)備將主動(dòng)獲取用戶(hù)操作行為實(shí)時(shí)產(chǎn)生的瀏覽數(shù)據(jù)、借閱數(shù)據(jù)、位置數(shù)據(jù)等信息并傳輸至大數(shù)據(jù)處理中心,而人工智能的機(jī)器學(xué)習(xí)算法會(huì)對(duì)這些實(shí)時(shí)海量數(shù)據(jù)的處理和分析更加全面和豐富,并通過(guò)智能反饋機(jī)制完成個(gè)性化服務(wù),形成以用戶(hù)行為智慧分析為導(dǎo)向的圖書(shū)館服務(wù)新模式,更能精準(zhǔn)地把握用戶(hù)行為的規(guī)律與特點(diǎn),為各項(xiàng)業(yè)務(wù)提供準(zhǔn)確依據(jù)。機(jī)器學(xué)習(xí)算法是人工智能應(yīng)用的核心領(lǐng)域,機(jī)器學(xué)習(xí)主要分為三類(lèi):監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)。人工智能發(fā)展階段對(duì)圖書(shū)館用戶(hù)行為大數(shù)據(jù)的分析需要增添監(jiān)督學(xué)習(xí)[36]分類(lèi)預(yù)測(cè)實(shí)現(xiàn)達(dá)到基于用戶(hù)行為分析向用戶(hù)推薦個(gè)性化服務(wù)的目的,主要的分類(lèi)算法有樸素貝葉斯、支持向量機(jī)、集成學(xué)習(xí)等,下面我們將逐一介紹。
在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中,樸素貝葉斯(Bayes)分析是一種運(yùn)用先驗(yàn)的概率進(jìn)行分類(lèi)和預(yù)測(cè)的算法[37]。它基于貝葉斯定理,計(jì)算一個(gè)未知類(lèi)別的數(shù)據(jù)樣本屬于各類(lèi)別的可能性大小,選擇其中可能性最大的作為最終類(lèi)別。樸素貝葉斯分類(lèi)要求特征屬性必須有條件獨(dú)立或基本獨(dú)立,此分類(lèi)工作首先是在訓(xùn)練集的數(shù)據(jù)樣本中計(jì)算每個(gè)數(shù)據(jù)特征對(duì)應(yīng)的各個(gè)類(lèi)別的條件概率和個(gè)類(lèi)別出現(xiàn)的頻率,然后對(duì)測(cè)試集的數(shù)據(jù)特征采用貝葉斯定理計(jì)算其各類(lèi)別出現(xiàn)的可能性;若不獨(dú)立則需由一個(gè)有向無(wú)環(huán)圖(DAG)和一個(gè)條件概率構(gòu)成的貝葉斯網(wǎng)絡(luò)進(jìn)行訓(xùn)練來(lái)解決。樸素貝葉斯分析主要步驟可分為:1. 劃分?jǐn)?shù)據(jù)特征屬性及屬性類(lèi)別;2. 計(jì)算訓(xùn)練數(shù)據(jù)樣本中各類(lèi)別特征屬性的條件概率估計(jì);3. 若該特征獨(dú)立,則計(jì)算測(cè)試數(shù)據(jù)在該類(lèi)別下的條件概率,取得最大值作為測(cè)試數(shù)據(jù)的類(lèi)別。
支持向量機(jī)(SVM,Support Vector Machine)[38]是根據(jù)統(tǒng)計(jì)學(xué)VC理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則基礎(chǔ)上提出的一種新的學(xué)習(xí)方法。SVM 方法是通過(guò)一個(gè)非線(xiàn)性映射K,把訓(xùn)練數(shù)據(jù)樣本低維空間映射到一個(gè)高維特征空間中(Hilbert空間),使得原本的線(xiàn)性不可分問(wèn)題轉(zhuǎn)化為在高維空間中的線(xiàn)性可分問(wèn)題。但一般升維運(yùn)算龐大復(fù)雜,易造成“維數(shù)災(zāi)難”,所以SVM中為解決上述問(wèn)題特引入核函數(shù)法。簡(jiǎn)單來(lái)說(shuō)對(duì)于只用到內(nèi)積運(yùn)算的SVM來(lái)說(shuō),設(shè)x,z∈X,X屬于低維空間,非線(xiàn)性函數(shù) 實(shí)現(xiàn)輸入低維空間X到高維空間F的映射。根據(jù)核函數(shù)技術(shù)[39]有:
通過(guò)上述變換就可以找到一個(gè)線(xiàn)性超平面[40]用來(lái)進(jìn)行分類(lèi)分析任務(wù),所以核函數(shù)是SVM最為重要的部分。這種方法的引入是為了處理非線(xiàn)性、高維數(shù)、局部極小點(diǎn)等各種問(wèn)題,提高了模型的泛化能力。較好地解決了非線(xiàn)性、高維數(shù)、局部極小點(diǎn)等問(wèn)題。在機(jī)器監(jiān)督學(xué)習(xí)模型中,支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)[41]都是非常實(shí)用的,可以分析數(shù)據(jù)、識(shí)別模式,進(jìn)行高效地分類(lèi)和回歸分析。
面對(duì)復(fù)雜的用戶(hù)個(gè)性化行為分析,往往一種分類(lèi)方法并不能滿(mǎn)足需求需要融合各種分類(lèi)器的學(xué)習(xí)能力形成優(yōu)勢(shì)互補(bǔ),減少誤差的更強(qiáng)分類(lèi)器,因此引入了集成學(xué)習(xí)在個(gè)性化推薦應(yīng)用中的相關(guān)理論[42]。集成學(xué)習(xí)的基本思路就是將多個(gè)學(xué)習(xí)算法連續(xù)調(diào)用,獲得更強(qiáng)的學(xué)習(xí)能力,整合多個(gè)學(xué)習(xí)機(jī)制進(jìn)而整合這些學(xué)習(xí)能力使其達(dá)到處理同一個(gè)問(wèn)題的能力。但到目前為止集成學(xué)習(xí)還沒(méi)有一致的分類(lèi),多數(shù)學(xué)者通過(guò)各自研究的成果傾向于歸為4大類(lèi):
1. Bagging:作為第一個(gè)最簡(jiǎn)單有效的集成學(xué)習(xí)法,是模型平均的一種特殊情形,應(yīng)用范圍廣,幾乎涵蓋了所有分類(lèi)和回歸問(wèn)題,從早期的分類(lèi)擴(kuò)展至決策樹(shù)模型,是目前對(duì)不穩(wěn)定的非線(xiàn)性模型唯一有用的方法。
2. Boosting:作為目前應(yīng)用最為廣泛的集成學(xué)習(xí)法,通過(guò)在同樣的訓(xùn)練數(shù)據(jù)集上改變權(quán)值分布來(lái)反復(fù)迭代形成最終的模型,其中目前最為流行的AdaBoost法在此基礎(chǔ)上還可以任意組合多個(gè)基分類(lèi)器,本文探究的分類(lèi)預(yù)測(cè)中即使用該種方法。
3. Stacked Generalization:是一種有思想的方法,不同種類(lèi)的基學(xué)習(xí)器非線(xiàn)性組合起來(lái)。雖然目前為止還未被廣泛接受但隨著研究的深入,會(huì)不斷挖掘出潛力。
4. Random Subspace Method:訓(xùn)練數(shù)據(jù)集采用非傳統(tǒng)的隨機(jī)選擇的輸入子空間,如訓(xùn)練數(shù)據(jù)集的特征空間,輸出采用多數(shù)投票的方式進(jìn)行組合。
協(xié)同過(guò)濾算法[43]的主要功能為預(yù)測(cè)和推薦。而基于用戶(hù)行為的協(xié)同過(guò)濾個(gè)性化推薦算法主要采用了三大步驟近鄰查詢(xún)、匹配相似、分類(lèi)推薦,思路如下:首先對(duì)以上分類(lèi)器得出的用戶(hù)行為的大量歷史特征數(shù)據(jù)進(jìn)行分析,從而勾勒出各個(gè)用戶(hù)行為的使用畫(huà)像,針對(duì)每個(gè)用戶(hù)獨(dú)特的喜好,推送用戶(hù)喜好相似或一致的產(chǎn)品服務(wù)信息。具體實(shí)現(xiàn):
1. 收集盡可能多用戶(hù)的基本背景信息、瀏覽習(xí)慣信息等
2. 匹配相似習(xí)慣或背景信息的用戶(hù)、尋找相似或一致的產(chǎn)品服務(wù),劃分不同類(lèi)別;
3. 針對(duì)不同類(lèi)別用戶(hù),推送用戶(hù)喜好的產(chǎn)品服務(wù)。
2 ?用戶(hù)行為大數(shù)據(jù)分析模型
上文對(duì)大數(shù)據(jù)時(shí)代下圖書(shū)館用戶(hù)實(shí)時(shí)產(chǎn)生的海量數(shù)據(jù)提供了多種實(shí)用高效的分析技術(shù),可以分析用戶(hù)行為個(gè)性化。
2.1 ?用戶(hù)行為個(gè)性化分析
圖書(shū)館用戶(hù)行為個(gè)性化分析是基于圖書(shū)館內(nèi)人機(jī)交互日志記錄、網(wǎng)頁(yè)瀏覽記錄、數(shù)字資源下載量、平臺(tái)互動(dòng)信息等,通過(guò)對(duì)以上行為數(shù)據(jù)的采集并進(jìn)行監(jiān)督學(xué)習(xí)分析預(yù)測(cè)用戶(hù)畫(huà)像,具體為性別信息可根據(jù)用戶(hù)對(duì)圖書(shū)館各模塊的響應(yīng)時(shí)間的不同構(gòu)造兩個(gè)訓(xùn)練數(shù)據(jù)樣本——粗粒度訓(xùn)練數(shù)據(jù)和細(xì)粒度訓(xùn)練數(shù)據(jù)[51]進(jìn)行交叉驗(yàn)證訓(xùn)練二分類(lèi)SVM分類(lèi)器獲得;以用戶(hù)瀏覽興趣、閱讀興趣等細(xì)粒度為數(shù)據(jù)特征的訓(xùn)練數(shù)據(jù),將相鄰矩陣R[52]與用戶(hù)關(guān)聯(lián)并統(tǒng)計(jì)用戶(hù)分布概率可作為貝葉斯分類(lèi)器的先驗(yàn)概率,計(jì)算出用戶(hù)和類(lèi)別的相似度來(lái)選擇用戶(hù)鄰居和類(lèi)別鄰居,就可預(yù)測(cè)以?xún)r(jià)格為導(dǎo)向的終端級(jí)別;通過(guò)對(duì)用戶(hù)發(fā)布在貼吧、留言板、聊天平臺(tái)上的圖像特征和文字特征提取構(gòu)建訓(xùn)練數(shù)據(jù),采用支持向量機(jī)和梯度提升[53]的集成學(xué)習(xí)分類(lèi)器就可以分析預(yù)測(cè)用戶(hù)發(fā)布習(xí)慣;通過(guò)每天用戶(hù)習(xí)慣發(fā)布信息的時(shí)間累積發(fā)布函數(shù)F[54],按照時(shí)間序列數(shù)據(jù)分析設(shè)定不同閾值,劃分活躍等級(jí);以上用戶(hù)性別、終端級(jí)別、平臺(tái)發(fā)布習(xí)慣、興趣愛(ài)好、活躍度、學(xué)科背景等圖書(shū)館用戶(hù)畫(huà)像[55]的基本元素逐漸清晰明了,最后協(xié)同過(guò)濾構(gòu)成完整用戶(hù)行為畫(huà)像,推送用戶(hù)個(gè)性化服務(wù)產(chǎn)品,如推薦用戶(hù)喜愛(ài)的圖書(shū)、講座、活動(dòng)等信息,完成用戶(hù)行為大數(shù)據(jù)分析。
2.2 ?用戶(hù)行為可信性數(shù)據(jù)分析
智慧圖書(shū)館本身無(wú)時(shí)無(wú)刻不處于互聯(lián)網(wǎng)中,不可避免地會(huì)遭受各種網(wǎng)絡(luò)安全問(wèn)題,交互設(shè)備各種應(yīng)用操作頻繁、個(gè)人賬戶(hù)設(shè)置的疏忽、軟件更新的滯后,極易造成用戶(hù)信息的丟失和篡改[44],導(dǎo)致賬戶(hù)被他人盜用并快速傳播各種網(wǎng)絡(luò)病毒、反動(dòng)、暴力、黃色等異常行為;如何防微杜漸及時(shí)檢測(cè)發(fā)現(xiàn)識(shí)別不可信的用戶(hù)行為成為本文研究的另一重點(diǎn)。
目前網(wǎng)絡(luò)安全廠(chǎng)商用于終端的反病毒軟件、防火墻、加密軟件的技術(shù)基本都是基于已有的病毒簽名數(shù)據(jù)庫(kù)和掃描引擎進(jìn)行數(shù)據(jù)對(duì)比查驗(yàn)安全[45-46],這里我們將這些已有的病毒特征數(shù)據(jù)庫(kù)和用戶(hù)異常行為數(shù)據(jù)特征統(tǒng)一存放一起稱(chēng)為先驗(yàn)知識(shí)庫(kù),雖然這樣可以過(guò)濾大部分已知異常行為但對(duì)于實(shí)時(shí)產(chǎn)生的各種異常行為就無(wú)能為力,現(xiàn)有知識(shí)庫(kù)破解病毒更新的速度遠(yuǎn)不及最新的變種傳播方式;針對(duì)上述問(wèn)題國(guó)內(nèi)外學(xué)者進(jìn)行了大量新技術(shù)的嘗試并取得了不俗的進(jìn)展如Rieck等人[47]提出使用機(jī)器學(xué)習(xí)分類(lèi)算法對(duì)惡意行為進(jìn)行自動(dòng)分析不僅能檢測(cè)已有的特征類(lèi)別還可以形成新的類(lèi)別增添先驗(yàn)知識(shí)庫(kù)中,Xin等人[48]根據(jù)聚類(lèi)分析等傳統(tǒng)數(shù)據(jù)挖掘方法,對(duì)病毒樣本進(jìn)行特征提取獲取其特征,對(duì)大量的病毒樣本實(shí)現(xiàn)了有效分類(lèi)不斷豐富先驗(yàn)知識(shí)庫(kù)。Burguera等人[49]提出基于安卓平臺(tái)的云檢測(cè)方式和Rajab等 ?人[50]提出瀏覽器內(nèi)置病毒檢測(cè)系統(tǒng)的分析網(wǎng)絡(luò)下載文件的方法,此方法意義在于大數(shù)據(jù)時(shí)代下的圖書(shū)館大數(shù)據(jù)分析中心可以實(shí)時(shí)監(jiān)控圖書(shū)館用戶(hù)操作行為,應(yīng)將將病毒防范檢測(cè)工作納入日常管理中并及時(shí)反饋檢測(cè)結(jié)。這樣一方面可以有效克服由于用戶(hù)終端計(jì)算和存儲(chǔ)資源有限而導(dǎo)致的檢測(cè)滯后;另一方面充分發(fā)揮傳統(tǒng)數(shù)據(jù)挖掘和監(jiān)督學(xué)習(xí)分析技術(shù)的功效,不僅可以推送用戶(hù)個(gè)性產(chǎn)品服務(wù)信息,也能及時(shí)發(fā)出網(wǎng)絡(luò)安全警告,真正體現(xiàn)出智慧圖書(shū)館的服務(wù)特色,提供良好的用戶(hù)體驗(yàn)。下面將重點(diǎn)介紹圖書(shū)館用戶(hù)行為大數(shù)據(jù)分析模型。
首先對(duì)實(shí)時(shí)產(chǎn)生的用戶(hù)行為所有數(shù)據(jù)包在大數(shù)據(jù)中心網(wǎng)關(guān)處進(jìn)行匯集,通過(guò)初步的數(shù)據(jù)預(yù)處理等步驟后開(kāi)始進(jìn)行由先驗(yàn)知識(shí)庫(kù)為依據(jù)的數(shù)據(jù)檢測(cè),若判定正常則繼續(xù)下一步訓(xùn)練分類(lèi)學(xué)習(xí)技術(shù)的數(shù)據(jù)集;若不正常則對(duì)其行為日志進(jìn)行數(shù)據(jù)挖掘,這里主要以聚類(lèi)分析為主,配合多維關(guān)聯(lián)規(guī)則和時(shí)間序列分析加速進(jìn)行大規(guī)模數(shù)據(jù)的深度全局優(yōu)化搜索,若確認(rèn)為新異常行為則提取特征后添加先驗(yàn)庫(kù)知識(shí)中并對(duì)該用戶(hù)發(fā)出警告,若無(wú)法確認(rèn)再進(jìn)行二次檢測(cè);同理在進(jìn)行分類(lèi)預(yù)測(cè)用戶(hù)個(gè)性分析時(shí)也可以發(fā)揮機(jī)器學(xué)習(xí)對(duì)病毒變種的檢測(cè)能力,將新的特征類(lèi)別添加至先驗(yàn)知識(shí)庫(kù)中,剩下的正常行為通過(guò)一系列分分析預(yù)測(cè)形成用戶(hù)個(gè)性信息,經(jīng)過(guò)協(xié)同過(guò)濾后勾勒出用戶(hù)畫(huà)像,最后將個(gè)性推薦信息發(fā)送至用戶(hù)終端完成整個(gè)用戶(hù)行為分析過(guò)程。具體流程圖如下:
3 ?結(jié)語(yǔ)
目前圖書(shū)館正在大數(shù)據(jù)人工智能技術(shù)發(fā)展的牽引下逐步轉(zhuǎn)型為智慧圖書(shū)館,借助新型的智能交互設(shè)備和分析技術(shù)讓許多夢(mèng)寐以求的圖書(shū)館服務(wù)理念得以真正實(shí)現(xiàn),本文從用戶(hù)行為分析的角度出發(fā),研究相關(guān)文獻(xiàn)技術(shù)得出兼具網(wǎng)絡(luò)安全檢測(cè)和用戶(hù)個(gè)性行為分析雙重功效的大數(shù)據(jù)分析模型,除了讓圖書(shū)館能更加及時(shí)準(zhǔn)確地向用戶(hù)推送個(gè)性化服務(wù)外,還時(shí)刻維護(hù)著用戶(hù)的安全隱私和圖書(shū)館網(wǎng)絡(luò)安全,將有害行為產(chǎn)生的影響降至最低。
參考文獻(xiàn)
[1] Leon A—Jakobovits, Diane Nahl—Jakobovits, 陸冰. 利用圖書(shū)館: 用戶(hù)行為分析[J].豫西農(nóng)專(zhuān)學(xué)報(bào), 1990(3): 131- 134.
[2] JW Hsieh, LW Huang, YS Huang. Multiple-Person Tracking System for Content Analysis [J]. Springer Berlin Heidelberg, 2001, 2195(4): 897-902.
[3] P Alpar, M Porembski, S Pickerodt. Measuring the Efficiency of Web Site Traffic Generation [J]. International Journal of Electronic Commerce, 2001, 6(1): 53-74.
[4] D Farris. Design of Experiments With MiNITAB[J]. Quality Progress, 2005, 38(5): 205-205.
[5] 李盼池. 基于核聚類(lèi)算法的高校圖書(shū)借閱信息分析方法[J]. 現(xiàn)代情報(bào), 2003, 23(9): 186-188.
[6] 魏育群, 潘潔. 圖書(shū)流動(dòng)數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J]. 現(xiàn)化情報(bào), 2005, 25(11): 108-110.
[7] 溫嶸生, 邱春蘭 . 基于 OPAC 信息庫(kù)圖書(shū)借閱數(shù)據(jù)關(guān)聯(lián)挖掘分析與應(yīng)用[J]. 情報(bào)雜志, 2007 , (7): 61-63.
[8] 趙衛(wèi)軍. 數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館中的應(yīng)用[J]. 圖書(shū)館論壇, 2007, 27(4): 126-128.
[9] 張金鐲. 基于數(shù)據(jù)挖掘的圖書(shū)館活躍讀者研究[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù), 2008, 167(7): 96-99.
[10] 熊擁軍, 陳春穎.基于關(guān)聯(lián)挖掘技術(shù)的數(shù)字圖書(shū)館個(gè)性化推送服務(wù)[J]. 圖書(shū)情報(bào)工作, 2010, 54(1): 125-129.
[11] 張煒, 洪霞. 基于 OPAC讀者行為的知識(shí)發(fā)現(xiàn)研究[J]. 圖書(shū)館論壇, 2011, 31(1): 17-19, 49.
[12] 王偉. 基于數(shù)據(jù)挖掘的圖書(shū)館用戶(hù)行為分析與偏好研究[J]. 情報(bào)科學(xué), 2012(3): 391-394.
[13] AK Jain, MN Murty, PJ Flynn. Data clustering: a review[J]. Acm Computing Surveys, 1999 , 31(3): 264-323.
[14] 李斌, 李蓉, 周蕾. 分布式 K-means 聚類(lèi)算法研究與實(shí)現(xiàn)[J]. 軟件, 2018, 39(01): 35-38.
[15] 蒲杰方, 盧熒玲. 基于聚類(lèi)算法和神經(jīng)網(wǎng)絡(luò)的客戶(hù)分類(lèi)模型構(gòu)建[J]. 軟件, 2018, 39(4): 130-136.
[16] G Karypis, EH Han, V Kumar. CHAMELEON A hierarchical clustering algorithm using dynamic modeling[J]. Computer , 2008, 32 (8): 68-75.
[17] 裴繼法, 謝維信. 聚類(lèi)的密度函數(shù)方法[J]. 西安電子科技大學(xué)學(xué)報(bào), 1997 (4): 463-467.
[18] R. Agrawal, T. Imielinski, A. Swami. Mining Association ?Rules Between Sets of Items in Large Databases. Proc. 1993 ACM SIGMOD ?IntConf. Management of Data. Washington, D. C, 1993: 207-216.
[19] 李強(qiáng). 數(shù)據(jù)挖掘中關(guān)聯(lián)分析算法研究[D]. 哈爾濱: 哈爾濱工程大學(xué). 2010.
[20] 賀超波, 陳啟買(mǎi). 基于粗糙集的關(guān)聯(lián)規(guī)則挖掘方法[J]. 計(jì)算機(jī)應(yīng)用, 2010, 30(1): 25-28.
[21] J Han, J Pei , Y Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record, 2000, 29 (2): 1-12.
[22] 彭銀香, 何小東, 朱志勇. 基于免疫算法的多維關(guān)聯(lián)規(guī)則挖掘方法[J]. 微計(jì)算機(jī)信息. 2007, 23(3): 171-173.
[23] 吳少瑩. 基多維關(guān)聯(lián)規(guī)則挖掘算法研究[D]. 天津理工大學(xué), 2008.
[24] 龍婧, 車(chē)文剛, 權(quán)鵬宇, 等. 金融時(shí)間序列 K 線(xiàn)形態(tài)的 Motif 模式挖掘研究[J]. 軟件, 2018, 39(2): 147-151.
[25] 陸珩瑱, 徐立平. 基于時(shí)間序列頻域分析的期貨市場(chǎng)周期研究[J]. 統(tǒng)計(jì)與決策》, 2011 (6): 146-147.
[26] 潘磊, 沙斐. 非線(xiàn)性時(shí)間序列門(mén)限自回歸模型在環(huán)境空氣質(zhì)量預(yù)報(bào)中的應(yīng)用[J]. 上海環(huán)境科學(xué). 2007(5): 212-214.
[27] 許倫輝, 唐德華, 鄒娜, 夏新海. 基于非線(xiàn)性時(shí)間序列分析的短時(shí)交通流特性分析[J]. 重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010, 29(1): 110-113.
[28] 邵晨曦, 童松桃, 楊明, 王子才. 非線(xiàn)性時(shí)間序列高性能仿真算法研究[J]. 系統(tǒng)仿真學(xué)報(bào). 2009, 21(15): 4598-4602.
[29] 龔薇, 肖輝, 曾海泉. 基于變化點(diǎn)的時(shí)間序列近似表示[J]. 計(jì)算機(jī)工程與應(yīng)用, 2006 , 42(10): 169-171.
[30] 陳海燕, 劉晨暉, 孫博. 時(shí)間序列數(shù)據(jù)挖掘的相似性度量綜述[J]. 控制與決策. 2017, 32(1): 1-11.
[31] 楊一鳴, 潘嶸, 潘嘉林, 楊強(qiáng), 李磊. 時(shí)間序列分類(lèi)問(wèn)題的算法比較[J]. 計(jì)算機(jī)學(xué)報(bào). 2007, 30(8): 1259-1266.
[32] 謝福鼎, 趙曉慧, 嵇敏, 平宇. 一種時(shí)間序列動(dòng)態(tài)聚類(lèi)的算法[J]. 計(jì)算機(jī)應(yīng)用研究. 2012, 29(10): 3677-3680.
[33] 張可佳, 李春生, 姜海英, 趙森. 時(shí)間序列下模式挖掘模型設(shè)計(jì)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015 , 51 (19): 146-151.
[34] 李海林, 郭崇慧, 楊麗彬. 基于時(shí)間序列數(shù)據(jù)挖掘的故障檢測(cè)方法[J]. 數(shù)據(jù)采集與處理. 2016, 31(4): 782-790.
[35] 中華人民共和國(guó)國(guó)務(wù)院. 新一代人工智能發(fā)展計(jì)劃[R/OL]. [2018-03-15]. http://www.gov.cn/zhengce/content/2017-07 /20/content_5211996.htm.
[36] 沈敏, 楊新涯, 王楷. 基于機(jī)器學(xué)習(xí)的高校圖書(shū)館用戶(hù)偏好檢索系統(tǒng)研究[J]. 圖書(shū)情報(bào)工作, 2015(11): 143-148.
[37] 文志誠(chéng), 曹春麗, 周浩. 基于樸素貝葉斯分類(lèi)器的網(wǎng)絡(luò)安全態(tài)勢(shì)評(píng)估方法[J]. 計(jì)算機(jī)應(yīng)用, 2015, 35(8): 2164-2168.
[38] 郭明瑋, 趙宇宙, 項(xiàng)俊平 , 張陳斌 , 陳宗海. 基于支持向量機(jī)的目標(biāo)檢測(cè)算法綜述[J]. 控制與決策, 2014(2): 193-200.
[39] 楊鐘瑾. 核函數(shù)支持向量機(jī)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(33): 1-6.
[40] Z. R. Gabidullina. A Linear Separability Criterion for Sets of Euclidean Space[J]. Journal of Optimization Theory and Applications. 2013, 158(1): 145-171.
[41] 沈正維, 李秋菊. 支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)的關(guān)系研究[J]. 生物數(shù)學(xué)學(xué)報(bào), 2006 , 21(2): 204-208.
[42] 方育柯. 集成學(xué)習(xí)理論研究及其在個(gè)性化推薦中的應(yīng)用[D]. 四川: 電子科技大學(xué), 2011.
[43] 張峻瑋, 楊洲. 一種基于改進(jìn)的層次聚類(lèi)的協(xié)同過(guò)濾用戶(hù)推薦算法研究[J]. 計(jì)算機(jī)科學(xué), 2014, 41(12): 176-178.
[44] 蘇嘯宇. 物聯(lián)網(wǎng)在維護(hù)公共安全中的作用[J]. 軟件, 2016, 37(3): 127-130.
[45] 金海峰. 基于數(shù)據(jù)挖掘的移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)包安全檢測(cè)技術(shù)研究[D]. 北京: 北京郵電大學(xué), 2016.
[46] 馮倩. 基于服務(wù)器端的 XSS 攻擊防御[J]. 軟件, 2018, 39(01): 45-49.
[47] K Rieck, P Trinius, C Willems. Automatic analysis of malware behavior using machine learning[J]. Journal of Computer Security, 2011, 19(4): 639-668.
[48] H Xin , S Bhatkar , K Griffin , GS Kang: scalable malware clustering based on static features[C]//Usenix Conference on Technical Conference , 2013: 187-198.
[49] I Burguera, U Zurutuza, S Nadjm-Tehrani: Crowdroid: behavior- based malware detection system for Android [C]//Acm Workshop on Security & Privacy in Smartphones, 2011: 15-26.
[50] M Rajab, L Ballard, N Lutz. CAMP: Content-agnostic malware protection[C]//Annual Network and Distributed System Security Symposium, NDSS(February 2013). 2013.
[51] 史大偉, 袁天偉. 一種粗細(xì)粒度結(jié)合的動(dòng)態(tài)污點(diǎn)分析方法[J]. 計(jì)算機(jī)工程, 2014 , 40(3): 12-17.
[52] 賀毅朝, 田海燕, 張新祿, 高鎖剛. 基于相鄰矩陣快速構(gòu)建虛擬主干網(wǎng)的近似算法[J]. 計(jì)算機(jī)科學(xué), 2012, 39(3): 83-87.
[53] 龔越, 羅小芹, 王殿海, 楊少輝. 基于梯度提升回歸樹(shù)的城市道路行程時(shí)間預(yù)測(cè)[D]. 浙江:浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2018(3).
[54] 王亦雷. 移動(dòng)互聯(lián)網(wǎng)中數(shù)據(jù)服務(wù)的關(guān)鍵技術(shù)研究[D]. 四川: 電子科技大學(xué), 2018.
[55] 王慶, 趙發(fā)珍. 基于"用戶(hù)畫(huà)像"的圖書(shū)館資源推薦模式設(shè)計(jì)與分析[J]. 現(xiàn)代情報(bào), 2018(3).