呂繼續(xù) 叢靜
摘 要:隨著人民生活水平的不斷提高,閱讀越來越受到人們的關注,但如何選擇適合的書籍閱讀是困擾我們的一大難題。針對這一難題,文章采用關聯(lián)性規(guī)則算法對大學生文學類小說閱讀行為數(shù)據(jù)進行挖掘,尋找不同書籍與不同人群之間的潛在規(guī)則。為大學生閱讀提供較為科學的書籍推薦目錄。
關鍵詞:關聯(lián)性規(guī)則 文學類型小說 吸引力 推薦
中圖分類號:G43 文獻標識碼:A 文章編號:1672-3791(2018)06(b)-0212-02
世界文明傳承至今,可以說好書很多,浩如煙海。但不同的人,對于不同的書產(chǎn)生的興趣也是不同的。所以說人們很難找到能讓他們很感興趣的書籍[1]。文章以文學性小說為研究對象,以大學生這一個群體作為統(tǒng)計樣本,研究不同書籍對不同人群在吸引力這一屬性上的關聯(lián)。通過數(shù)據(jù)挖掘技術(shù),根據(jù)不同學生的閱讀偏好,給出適合他們的個性化推薦列表。文章采用問卷調(diào)查的方式收集數(shù)據(jù),然后通過關聯(lián)性規(guī)則算法對大學生文學性小說的閱讀行為數(shù)據(jù)進行分析,挖掘其中潛在的價值。
1 數(shù)據(jù)來源與樣本特征
問卷內(nèi)所選的64本書籍是參考豆瓣評分8分以上的小說推薦名單選取的,調(diào)查結(jié)果顯示未對調(diào)查對象產(chǎn)生影響的書僅有3本。充分表明所選書籍具有一定的客觀性和代表性。問卷調(diào)查時間是2018年5月5日,問卷通過社交軟件以及網(wǎng)絡發(fā)放回收,共收回問卷209份,有效問卷209份,回收率100%。如表2所示,調(diào)查對象男女比例均衡,表明數(shù)據(jù)分析結(jié)果的價值不會受到性別的干擾。如圖1所示,可以看出調(diào)查對象覆蓋11個省,其中主要集中在江蘇省、遼寧省、湖北省三個省份,地域上南北分布大體均衡[2]。
2 算法闡述
采用一種發(fā)現(xiàn)頻繁項集的基本算法,APRIOR算法尋找潛在的關聯(lián)規(guī)則。結(jié)合問卷數(shù)據(jù)具體闡述該算法的實現(xiàn)。
2.1 數(shù)據(jù)預處理
使用Pandas庫的read_csv函數(shù)導入數(shù)據(jù)集book.csv。首先對數(shù)據(jù)進行清理,篩選出個人選擇大于1本書籍的數(shù)據(jù)。一定程度上排除調(diào)查者應付答卷的行為,提高數(shù)據(jù)的價值密度。最后從書籍的本身角度出發(fā),基于推薦的最終目的,我們只關注對讀者產(chǎn)生影響的人數(shù)大于5的書籍。由于數(shù)據(jù)量較大,只展示部分數(shù)據(jù),見表3。
2.2 生成頻繁1項、k項集
由于頻繁項的長度為1,我們可以通過統(tǒng)計data中各個元素出現(xiàn)的頻次,直接生成頻繁1項集。
k>1時,根據(jù)得到的頻繁(k-1)項集,生成頻繁k項集。當數(shù)據(jù)記錄的長度很長時,算法需要逐個檢查頻繁k項集是否為空。另外,我們在具體任務中尋找的頻繁項長度也不會過長,因此我們選擇通過控制k的取值來獲取指定的頻繁k項集集合。文章在此取k<=3。具體來說,整個過程分為三步:首先是連接步,我們將頻繁(k-1)項集與自身連結(jié),生成k項候選集 。接著是剪枝步,剔除含有非頻繁項子集的項集。我們使用先驗性質(zhì)對候選項集進行過濾,減少運算量。這個性質(zhì)就是:頻繁項集的所有非空子集必然是頻繁項集,生成最終結(jié)果的中遍歷數(shù)據(jù)集data,最后對最終的元素進行統(tǒng)計,保留支持度大于最小閾值(min_support=2)的頻繁項。
項集的子集可以通過排列組合來得到,反復上述過程 得到完整的頻繁k項集集合,直到達到停止條件,集頻繁k項集為空。
2.3 關聯(lián)規(guī)則
生成頻繁項集之后,我們可以直接得到同時滿足最小支持度和最小置信度的強關聯(lián)規(guī)則[3]。也就形如“書籍A對讀者產(chǎn)生影響,那么書籍B也會對該讀者產(chǎn)生影響”的結(jié)論。例如,對于頻繁項集{'A','B'}來說,關聯(lián)規(guī)則A→B 的置信度如下所示
接下來,針對每個頻繁項集,生成關聯(lián)規(guī)則(包括條件和結(jié)論),并計算相應的置信度[4]。
2.4 分析結(jié)果展示
根據(jù)上述思路操作最后我們得出滿足設想的結(jié)果,根據(jù)置信度我們就能在大學生選擇書時進行科學有效的推薦。因為數(shù)據(jù)過大,只展示前四組的運行結(jié)果,如表3所示。
3 結(jié)語
文章主要通過問卷調(diào)查的數(shù)據(jù)獲取方式,以及關聯(lián)性規(guī)則算法的數(shù)據(jù)挖掘方式,對大學生閱讀文學性的小說行為進行分析。從結(jié)果中發(fā)現(xiàn)喜歡看《三體》的人一般都喜歡看《盜墓筆記》,喜歡看《偷影子的人》和《傲慢與偏見》的人一般會喜歡看《百年孤獨》那么我們就可以給看過《三體》的人推薦《盜墓筆記》。同樣如果讀者看過《傲慢與偏見》、《偷影子的人》卻沒有看過《百年孤獨》我們就可以給他推薦《百年孤獨》,還有很多類似的數(shù)據(jù)結(jié)果。
根據(jù)這些所得的結(jié)果也就能夠達到我們的智能推薦的目的,為大學生在選擇該方面書籍時提供較為科學的參考。
參考文獻
[1] 王連喜.一種面向高校圖書館的個性化圖書推薦系統(tǒng)[J].現(xiàn)代情報,2015,35(12):41-46.
[2] 張爾升,侯惠丹,孫廬山.知識獲取、學習行為和管理者能力提升——來自MBA學員的數(shù)據(jù)分析[J].河北經(jīng)貿(mào)大學學報(綜合版),2016,16(3):56-61.
[3] 孫云帆,齊美玲.數(shù)據(jù)挖掘在教育應用中的淺析[J].商場現(xiàn)代化,2012(24):161-162.
[4] 姜永超.基于數(shù)據(jù)挖掘的學生選課及學習行為分析算法研究[J].現(xiàn)代電子技術(shù),2016,39(13):145-148.