亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于數(shù)據(jù)挖掘的大學生閱讀行為分析

2018-12-27 11:09:56呂繼續(xù)叢靜

科技資訊 2018年17期

呂繼續(xù) 叢靜

摘要：隨著人民生活水平的不斷提高，閱讀越來越受到人們的關注，但如何選擇適合的書籍閱讀是困擾我們的一大難題。針對這一難題，文章采用關聯(lián)性規(guī)則算法對大學生文學類小說閱讀行為數(shù)據(jù)進行挖掘，尋找不同書籍與不同人群之間的潛在規(guī)則。為大學生閱讀提供較為科學的書籍推薦目錄。

關鍵詞：關聯(lián)性規(guī)則文學類型小說吸引力推薦

中圖分類號：G43 文獻標識碼：A 文章編號：1672-3791（2018）06（b）-0212-02

世界文明傳承至今，可以說好書很多，浩如煙海。但不同的人，對于不同的書產(chǎn)生的興趣也是不同的。所以說人們很難找到能讓他們很感興趣的書籍[1]。文章以文學性小說為研究對象，以大學生這一個群體作為統(tǒng)計樣本，研究不同書籍對不同人群在吸引力這一屬性上的關聯(lián)。通過數(shù)據(jù)挖掘技術(shù)，根據(jù)不同學生的閱讀偏好，給出適合他們的個性化推薦列表。文章采用問卷調(diào)查的方式收集數(shù)據(jù)，然后通過關聯(lián)性規(guī)則算法對大學生文學性小說的閱讀行為數(shù)據(jù)進行分析，挖掘其中潛在的價值。

1 數(shù)據(jù)來源與樣本特征

問卷內(nèi)所選的64本書籍是參考豆瓣評分8分以上的小說推薦名單選取的，調(diào)查結(jié)果顯示未對調(diào)查對象產(chǎn)生影響的書僅有3本。充分表明所選書籍具有一定的客觀性和代表性。問卷調(diào)查時間是2018年5月5日，問卷通過社交軟件以及網(wǎng)絡發(fā)放回收，共收回問卷209份，有效問卷209份，回收率100%。如表2所示，調(diào)查對象男女比例均衡，表明數(shù)據(jù)分析結(jié)果的價值不會受到性別的干擾。如圖1所示，可以看出調(diào)查對象覆蓋11個省，其中主要集中在江蘇省、遼寧省、湖北省三個省份，地域上南北分布大體均衡[2]。

2 算法闡述

采用一種發(fā)現(xiàn)頻繁項集的基本算法，APRIOR算法尋找潛在的關聯(lián)規(guī)則。結(jié)合問卷數(shù)據(jù)具體闡述該算法的實現(xiàn)。

2.1 數(shù)據(jù)預處理

使用Pandas庫的read_csv函數(shù)導入數(shù)據(jù)集book.csv。首先對數(shù)據(jù)進行清理，篩選出個人選擇大于1本書籍的數(shù)據(jù)。一定程度上排除調(diào)查者應付答卷的行為，提高數(shù)據(jù)的價值密度。最后從書籍的本身角度出發(fā)，基于推薦的最終目的，我們只關注對讀者產(chǎn)生影響的人數(shù)大于5的書籍。由于數(shù)據(jù)量較大，只展示部分數(shù)據(jù)，見表3。

2.2 生成頻繁1項、k項集

由于頻繁項的長度為1，我們可以通過統(tǒng)計data中各個元素出現(xiàn)的頻次，直接生成頻繁1項集。

k>1時，根據(jù)得到的頻繁（k-1）項集，生成頻繁k項集。當數(shù)據(jù)記錄的長度很長時，算法需要逐個檢查頻繁k項集是否為空。另外，我們在具體任務中尋找的頻繁項長度也不會過長，因此我們選擇通過控制k的取值來獲取指定的頻繁k項集集合。文章在此取k<=3。具體來說，整個過程分為三步：首先是連接步，我們將頻繁（k-1）項集與自身連結(jié)，生成k項候選集。接著是剪枝步，剔除含有非頻繁項子集的項集。我們使用先驗性質(zhì)對候選項集進行過濾，減少運算量。這個性質(zhì)就是：頻繁項集的所有非空子集必然是頻繁項集，生成最終結(jié)果的中遍歷數(shù)據(jù)集data，最后對最終的元素進行統(tǒng)計，保留支持度大于最小閾值（min_support=2）的頻繁項。

項集的子集可以通過排列組合來得到，反復上述過程得到完整的頻繁k項集集合，直到達到停止條件，集頻繁k項集為空。

2.3 關聯(lián)規(guī)則

生成頻繁項集之后，我們可以直接得到同時滿足最小支持度和最小置信度的強關聯(lián)規(guī)則[3]。也就形如“書籍A對讀者產(chǎn)生影響，那么書籍B也會對該讀者產(chǎn)生影響”的結(jié)論。例如，對于頻繁項集{'A'，'B'}來說，關聯(lián)規(guī)則A→B 的置信度如下所示

接下來，針對每個頻繁項集，生成關聯(lián)規(guī)則（包括條件和結(jié)論），并計算相應的置信度[4]。

2.4 分析結(jié)果展示

根據(jù)上述思路操作最后我們得出滿足設想的結(jié)果，根據(jù)置信度我們就能在大學生選擇書時進行科學有效的推薦。因為數(shù)據(jù)過大，只展示前四組的運行結(jié)果，如表3所示。

3 結(jié)語

文章主要通過問卷調(diào)查的數(shù)據(jù)獲取方式，以及關聯(lián)性規(guī)則算法的數(shù)據(jù)挖掘方式，對大學生閱讀文學性的小說行為進行分析。從結(jié)果中發(fā)現(xiàn)喜歡看《三體》的人一般都喜歡看《盜墓筆記》，喜歡看《偷影子的人》和《傲慢與偏見》的人一般會喜歡看《百年孤獨》那么我們就可以給看過《三體》的人推薦《盜墓筆記》。同樣如果讀者看過《傲慢與偏見》、《偷影子的人》卻沒有看過《百年孤獨》我們就可以給他推薦《百年孤獨》，還有很多類似的數(shù)據(jù)結(jié)果。

根據(jù)這些所得的結(jié)果也就能夠達到我們的智能推薦的目的，為大學生在選擇該方面書籍時提供較為科學的參考。

參考文獻

[1] 王連喜.一種面向高校圖書館的個性化圖書推薦系統(tǒng)[J].現(xiàn)代情報，2015，35（12）：41-46.

[2] 張爾升，侯惠丹，孫廬山.知識獲取、學習行為和管理者能力提升——來自MBA學員的數(shù)據(jù)分析[J].河北經(jīng)貿(mào)大學學報（綜合版），2016，16（3）：56-61.

[3] 孫云帆，齊美玲.數(shù)據(jù)挖掘在教育應用中的淺析[J].商場現(xiàn)代化，2012（24）：161-162.

[4] 姜永超.基于數(shù)據(jù)挖掘的學生選課及學習行為分析算法研究[J].現(xiàn)代電子技術(shù)，2016，39（13）：145-148.

科技資訊2018年17期

科技資訊的其它文章: 英文小說翻譯策略解讀; 航空物流服務供應鏈整合策略研究; 全民健身下城市居民戶外體育鍛煉現(xiàn)狀及對策研究; 淺析民族文化對民間舞蹈的影響; 當前高校加強基層黨支部建設的研究; 多球練習在羽毛球步法技術(shù)教學中的運用