孫潔麗,朱智清,次曉峰,朱蔓莉
(1.河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,河北 石家莊 050061; 2. 河北省工業(yè)和信息化廳,河北 石家莊 050071)
基于案例推理的個(gè)性化推薦系統(tǒng)數(shù)據(jù)源研究
孫潔麗1,朱智清1,次曉峰2,朱蔓莉1
(1.河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,河北 石家莊 050061; 2. 河北省工業(yè)和信息化廳,河北 石家莊 050071)
大數(shù)據(jù)時(shí)代,海量資源給用戶快速?gòu)暮棋馁Y源中獲取所需信息帶來(lái)了難題,個(gè)性化推薦系統(tǒng)的市場(chǎng)需求越來(lái)越大。案例推理技術(shù)在個(gè)性化推薦系統(tǒng)中的應(yīng)用還很少, 因此,提出了基于案例推理的個(gè)性化推薦系統(tǒng)數(shù)據(jù)源建設(shè)方案。分析了數(shù)據(jù)源的組成,建成了包括用戶案例庫(kù)和知識(shí)庫(kù)的個(gè)性化推薦系統(tǒng)數(shù)據(jù)源,為案例推理提供了一定的基礎(chǔ)數(shù)據(jù)。系統(tǒng)研究結(jié)果表明,數(shù)據(jù)源建設(shè)對(duì)系統(tǒng)推薦結(jié)果個(gè)性化程度的質(zhì)量具有重要意義。
個(gè)性化推薦系統(tǒng);數(shù)據(jù)源;案例推理;案例庫(kù);知識(shí)庫(kù)
1982年美國(guó)耶魯大學(xué)Schank教授首先描述了案例推理(Case-Based Reasoning,CBR)[1]。案例推理是人類形象思維、邏輯思維和創(chuàng)造思維的綜合表現(xiàn)形式[2]。一般情況下,案例推理研究采用4R認(rèn)知模型:案例檢索 、案例重用、案例修正和案例保存[3]。目前,案例推理是人工智能領(lǐng)域的重要研究方向之一,已經(jīng)得到了許多應(yīng)用,如告警[4]、故障診斷[4]、預(yù)測(cè)[5,6]、決策[8,9]、應(yīng)急系統(tǒng)[10,11]等。但是,在圖書(shū)和檔案管理方面的應(yīng)用還不是太多。
普遍被人們接受的推薦系統(tǒng)的定義是 Resnick和Varian的定義[12]。個(gè)性化推薦系統(tǒng)(Personal Recommender System, PRS)是一種應(yīng)用系統(tǒng),能夠幫助用戶決定購(gòu)買商品,從而完成購(gòu)物[13]。通過(guò)對(duì)用戶行為和偏好進(jìn)行分析,可以針對(duì)性地向用戶進(jìn)行“個(gè)性化推薦”商品或信息,個(gè)性化推薦系統(tǒng)的研究主要集中在推薦算法和工程實(shí)踐兩個(gè)方面[14]。常用的推薦算法有基于過(guò)濾的推薦;基于知識(shí)的推薦;基于內(nèi)容的推薦;基于人口統(tǒng)計(jì)學(xué)的推薦;混合推薦技術(shù)[14,15]。在個(gè)性化服務(wù)方面,2016年7月,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第38次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》指出:互聯(lián)網(wǎng)企業(yè)更加注意對(duì)用戶進(jìn)行多元化、差異化的服務(wù)。由此可見(jiàn),為用戶提供個(gè)性化的服務(wù)已經(jīng)受到普遍重視。已經(jīng)有大量的個(gè)性化推薦算法[14-18]被提出,但是,將案例推理結(jié)合個(gè)性化推薦應(yīng)用到圖書(shū)和檔案管理中的算法還很少。
數(shù)據(jù)源是提供個(gè)性化推薦系統(tǒng)所需要數(shù)據(jù)的原始媒體即數(shù)據(jù)的來(lái)源。本文研究的推薦系統(tǒng)數(shù)據(jù)源主要來(lái)源于用戶行為日志,根據(jù)用戶行為日志中的記錄數(shù)據(jù)生成推薦的案例庫(kù),得到推薦系統(tǒng)的數(shù)據(jù)源。
1.1 用戶行為日志數(shù)據(jù)
用戶行為是推薦系統(tǒng)的基礎(chǔ),用戶的信息行為是推薦系統(tǒng)產(chǎn)生推薦的重要數(shù)據(jù)源。因此,用戶的信息行為是推薦系統(tǒng)案例數(shù)據(jù)獲取和分析的重要內(nèi)容。日志數(shù)據(jù)由推薦系統(tǒng)獲取用戶行為而創(chuàng)建,日志主要記錄用戶行為。日志記錄的具體內(nèi)容有:標(biāo)識(shí)碼,行為類型和行為內(nèi)容,用戶對(duì)推薦文檔項(xiàng)的操作行為類型,用戶操作的推薦文檔項(xiàng)標(biāo)識(shí)碼,用戶對(duì)推薦文檔項(xiàng)的操作時(shí)間,用戶對(duì)推薦文檔項(xiàng)的反饋信息。
1.2 生成用戶行為日志數(shù)據(jù)
用戶行為日志主要記錄系統(tǒng)用戶使用的行為數(shù)據(jù),系統(tǒng)根據(jù)用戶行為生成日志記錄并寫(xiě)入日志。生成用戶行為日志過(guò)程為:系統(tǒng)根據(jù)用戶行為信息記錄用戶行為相關(guān)的信息,生成用戶日志記錄,如果記錄能夠?qū)懭胗脩羧罩?,則生成日志,相反,如果由于存儲(chǔ)空間不足等原因使記錄無(wú)法寫(xiě)入用戶日志,則提示寫(xiě)入日志失敗的提示信息。生成用戶行為日志過(guò)程流程圖如圖1所示。
圖1 用戶行為日志生成流程圖
本文研究的推薦系統(tǒng)是利用案例進(jìn)行推薦,案例是產(chǎn)生推薦的主要數(shù)據(jù)源,基于案例推理的個(gè)性化推薦系統(tǒng)案例庫(kù)建設(shè)方案是推薦系統(tǒng)的一項(xiàng)基礎(chǔ)數(shù)據(jù)工作。基于案例推理的個(gè)性化推薦系統(tǒng)中,案例庫(kù)服務(wù)于整個(gè)推理過(guò)程,是其它各個(gè)模塊進(jìn)行工作的基礎(chǔ)。推薦系統(tǒng)采用案例庫(kù)組織系統(tǒng)案例,案例庫(kù)建設(shè)是案例推理的關(guān)鍵。
2.1 用戶行為日志數(shù)據(jù)分析
案例庫(kù)建設(shè)首先進(jìn)行用戶日志數(shù)據(jù)分析處理,把用戶日志文件中無(wú)效的信息刪除,獲取有效用戶行為數(shù)據(jù)存入用戶暫存數(shù)據(jù)庫(kù)中。
用戶日志分析的步驟為:
(1)輸入待分析的日志的日期,根據(jù)日期找相應(yīng)的日志文件,如果找到相應(yīng)的日志文件,則進(jìn)行步驟(2),否則重新輸入待分析的日志的日期。
(2)讀出用戶日志文件記錄,如果暫存數(shù)據(jù)庫(kù)有該標(biāo)識(shí)記錄,則在該標(biāo)識(shí)下添加一條新紀(jì)錄,否則,創(chuàng)建該標(biāo)識(shí)的數(shù)據(jù)記錄,然后再在該標(biāo)識(shí)下添加一條新紀(jì)錄。
(3)步驟(2)中標(biāo)識(shí)添加的新記錄添加成功,則日志數(shù)據(jù)寫(xiě)入用戶數(shù)據(jù)暫存庫(kù),否則拋出異常。用戶日志分析流程圖如圖2所示。
圖2 用戶行為日志分析流程圖
2.2 用戶案例庫(kù)建設(shè)
用戶案例生成是對(duì)用戶暫存數(shù)據(jù)庫(kù)進(jìn)行處理。提取有效數(shù)據(jù)存入案例庫(kù),有效數(shù)據(jù)是指已經(jīng)分析處理過(guò)的數(shù)據(jù),分析用戶暫存數(shù)據(jù)庫(kù)的數(shù)據(jù),讀取有效用戶數(shù)據(jù);清除用戶暫存數(shù)據(jù)庫(kù)中的無(wú)效數(shù)據(jù);把檢索字符串記錄到檢索字符串表中,則案例庫(kù)就插入一條案例記錄。用戶案例生成過(guò)程如圖3所示。
圖3 用戶案例生成過(guò)程圖
知識(shí)庫(kù)是一種特殊的數(shù)據(jù)庫(kù),知識(shí)庫(kù)是領(lǐng)域?qū)<业闹腔劢Y(jié)晶,這些專家具有領(lǐng)域?qū)W科知識(shí),熟悉推薦系統(tǒng)采用的分類法,有一定的經(jīng)驗(yàn),如能夠提取概念、處理多主題的問(wèn)題等,在進(jìn)行文獻(xiàn)資源數(shù)據(jù)和用戶案例數(shù)據(jù)分類的過(guò)程中發(fā)揮著重要作用。
推薦系統(tǒng)的知識(shí)庫(kù)建設(shè)步驟是:
(1)確定要采集的知識(shí)范圍。
(2)采集已經(jīng)確定的知識(shí)范圍內(nèi)的數(shù)據(jù)。
(3)設(shè)計(jì)分析器,并利用分析器對(duì)采集的數(shù)據(jù)進(jìn)行分析。通過(guò)分析器的分析,得出特征詞、分詞詞典和系統(tǒng)參數(shù)等信息,這些信息需要展現(xiàn)給專家審核,審核通過(guò)后再進(jìn)行步驟(4)。
(4)設(shè)計(jì)推理器,利用推理器對(duì)采集的數(shù)據(jù)進(jìn)行分類。根據(jù)特征詞等信息,利用設(shè)計(jì)的推理器對(duì)數(shù)據(jù)進(jìn)行分類 ,在設(shè)計(jì)推理器的過(guò)程中,要把推理器推理的分類結(jié)論,展示給領(lǐng)域?qū)<?,?jīng)過(guò)領(lǐng)域?qū)<覍徍撕?,最終確定數(shù)據(jù)類別,通過(guò)實(shí)驗(yàn)改善所設(shè)計(jì)的推理器,提高其分類的準(zhǔn)確率。
(5)將經(jīng)過(guò)專家審核的數(shù)據(jù)分類結(jié)果存入知識(shí)庫(kù)。知識(shí)庫(kù)可以輔助支持基于案例推理的個(gè)性化推薦推理過(guò)程。在基于案例推理的個(gè)性化推薦系統(tǒng)中,關(guān)鍵是不斷收集、規(guī)范和整理領(lǐng)域?qū)<业闹R(shí)和經(jīng)驗(yàn),以形成推薦系統(tǒng)知識(shí)庫(kù)。
基于案例推理的個(gè)性化推薦系統(tǒng)實(shí)現(xiàn)思想是把用戶案例數(shù)據(jù)和文獻(xiàn)資源數(shù)據(jù)進(jìn)行分類,以便于個(gè)性化推薦系統(tǒng)組織相關(guān)案例數(shù)據(jù)。基于案例推理的個(gè)性化推薦系統(tǒng)的關(guān)鍵技術(shù)在于案例的表示、案例的獲取以及案例的組織和應(yīng)用,基礎(chǔ)數(shù)據(jù)工作是設(shè)計(jì)與建立案例庫(kù)和知識(shí)庫(kù)。本文建立的案例庫(kù)和知識(shí)庫(kù)是產(chǎn)生個(gè)性化推薦的主要數(shù)據(jù)源,對(duì)系統(tǒng)推薦結(jié)果個(gè)性化程度的質(zhì)量具有重要意義。
[1] R.Schank,Dynamic Memory[M].NewYork:Cambridge University Press,1982.
[2] R.Schank,R Abelson,Goals and Understanding[M].Erlbanum:Eksevier Science,1977.
[3] A Aamodt, E Plaza.Case-Based Reasoning: Foundational Issues, Methodological Variation, and System Approaches [J].AI Communications, 1994,7(1):39-59.
[4] 張素琪.案例推理關(guān)鍵技術(shù)研究及其在電信告警和故障診斷中的應(yīng)用[D].天津:天津大學(xué),2014.
[5] 閻馨,付華,屠乃威.基于PCA和案例推理的煤與瓦斯突出動(dòng)態(tài)預(yù)測(cè)[J].傳感技術(shù)學(xué)報(bào),2015,28(7):1028-1034.
[6] 王蘭英,郭子雪,張玉芬,等.基于直覺(jué)模糊案例推理的應(yīng)急物資需求預(yù)測(cè)模型[J].中國(guó)礦業(yè)大學(xué)學(xué)報(bào),2015,(4):775-780.
[7] 陶連金,王煥杰,田健,等.基于AHP案例推理法的地鐵施工地表沉降預(yù)測(cè)方法[J].黑龍江科技大學(xué)學(xué)報(bào),2016, 26(2):202-206.
[8] 張薇,何瑞春.基于案例推理的交通疏導(dǎo)輔助決策方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2014,(10):3621-3625.
[9] 楊麗,周雪忠,畢斕馨,等. 基于案例推理的中醫(yī)臨床診療決策支持系統(tǒng)[J]. 世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2014,(3):474-480.
[10] Liao Z L, Mao X W, Hannam P M, Zhao T T.Adaptation methodology of CBR for environmental emergency preparedness system based on an Improved Genetic Algorithm[J].Expert Systems with Applications,2012,39(8):7029-7040.
[11] 蔡玫,曹杰,于小兵.基于應(yīng)急實(shí)例本體模型的應(yīng)急案例推理方法[J].情報(bào)雜志,2016,(6):183-188.
[12] Resnick P, Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.
[13] DIAS M B, LOCHER D.The value of personalized recommender systems to e-business:a case study[C].Proc of the 2008 ACM Conference on Recommer System,2008:291-294.
[14] 胡于響.基于Spark的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2015.
[15] 牛車攀.基于用戶細(xì)分及組合相似度的個(gè)性化推薦算法的研究與實(shí)現(xiàn)[D].長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2016.
[16] 金志福.基于大數(shù)據(jù)的教育資源個(gè)性化推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院大學(xué),2015.
[17] 喬亞飛,張霞,張文博.智能圖書(shū)系統(tǒng)中的個(gè)性化推薦[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,(9):188-192.
[18] 黃義文.大數(shù)據(jù)環(huán)境下圖書(shū)館學(xué)術(shù)資源個(gè)性化推薦服務(wù)研究[J].圖書(shū)館學(xué)刊,2016,(7):78-80.
Research on data source of case-based reasoning personal recommender system
SUN Jie-li1,ZHU Zhi-qing1,CI Xiao-feng2,ZHU Man-li1
(1.Information&TechnologyCollege,HebeiUniversityofEconomics&Business,ShijiazhuangHebei050061China;2.IndustryandInformationTechnologyDepartmentofHebeiProvince,ShijiazhuangHebei050071,China)
In the era of big data, a puzzle has been brought to users to get the information which they needed from the massive resources quickly.The market demand of personal recommender system is increasing.The application of case-based reasoning technology in personal recommender system is very little. Thus, the construction scheme of data source for personalized recommender system based on case-based reasoning is proposed.The composition of data sources are analyzed.The data source of personal recommender is build, including user case base and knowledge base of personalized recommender system,some basic data is provided by it.Research results show that data source construction have important implications for quality of the recommend results of system.
Personal recommender system (PRS);Data source;Case-based reasoning;Case base;Knowledge base
2017-03-01
河北省科技計(jì)劃項(xiàng)目(15454704D)
孫潔麗(1969-),女,博士,教授,研究方向: 個(gè)性化推薦、智能檢索和數(shù)據(jù)挖掘.
1001-9383(2017)01-0008-06
G350.7;TP39
A