亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-means的校園學(xué)生微信消費行為研究

        2022-06-03 16:18:41楊江海鄧海生婁德涵李旭東
        電腦知識與技術(shù) 2022年8期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        楊江?!∴嚭I涞潞±钚駯|

        摘要:為研究校園學(xué)生的消費行為規(guī)律,以校內(nèi)食堂的學(xué)生微信消費記錄為數(shù)據(jù)基礎(chǔ),結(jié)合數(shù)據(jù)挖掘技術(shù)對其進行研究分析,嘗試挖掘出學(xué)生消費的行為規(guī)律。通過對原始數(shù)據(jù)進行預(yù)處理、計算相關(guān)系數(shù)、選取最佳K值和評估輪廓系數(shù),采用K均值聚類算法找出不同消費行為的學(xué)生群體,研究分析其不同群體的消費行為規(guī)律特征。研究結(jié)果表明,該算法將學(xué)生分成了低中高水平的消費群體,得出了不同時段學(xué)生在食堂各樓層的消費習(xí)慣。

        關(guān)鍵詞:學(xué)生群體;微信消費;數(shù)據(jù)挖掘;消費行為;K-means聚類算法

        中圖分類號:G642? ? ? ? 文獻標(biāo)識碼:A

        文章編號:1009-3044(2022)08-0016-04

        1 引言

        國家提倡數(shù)字化以來,校園的數(shù)字化和信息化也緊跟步伐不斷發(fā)展,校園的消費方式從線下的紙幣支付轉(zhuǎn)變成了線上掃碼支付,并已在全國高校推廣應(yīng)用。對于線上支付消費,學(xué)校都有配套管理系統(tǒng)來記錄學(xué)生的消費情況,該系統(tǒng)具有用戶量大、每日交易多、單筆交易金額參差不齊等特點。通過這些龐大的數(shù)據(jù)量,對其進行有效地挖掘、分析,可發(fā)現(xiàn)消費人群的消費特點和規(guī)律。

        2 相關(guān)研究

        2.1 研究現(xiàn)狀

        2015年,姜楠、許維勝[1]在學(xué)生一卡通數(shù)據(jù)上,采用優(yōu)化的K-means算法進行聚類分析,輔助管理部門更好地服務(wù)學(xué)生。2020年,李婷等在以陜西工業(yè)職業(yè)技術(shù)學(xué)院校園“一卡通”中教職工交易流水?dāng)?shù)據(jù)為研究對象,利用分類、K-means聚類算法,研究教職工的就餐規(guī)律和消費水平等,為后勤部門優(yōu)化提供了科學(xué)依據(jù)[2]。2020年,龔黎旰以高校校園一卡通消費記錄為數(shù)據(jù)基礎(chǔ),利用K-means算法結(jié)合Spark大數(shù)據(jù)計算框架,深度分析不同群體的消費組成結(jié)構(gòu)和消費行為特征,為學(xué)校心理輔導(dǎo)提供參考依據(jù)[3]。

        2.2 學(xué)生消費行為分析

        截至目前,校園在線支付已經(jīng)得到非常廣泛的應(yīng)用,小到日用品,大到看病購藥,每天在校園群體中使用得很頻繁。

        本文研究數(shù)據(jù)由西京學(xué)院智媒體傳播研究中心資助,主要通過對西京學(xué)院的校園微信消費數(shù)據(jù)進行數(shù)據(jù)挖掘分析。第一步,整理歸納校園消費數(shù)據(jù)對于現(xiàn)實的需求;第二步,從數(shù)據(jù)庫中提取原始數(shù)據(jù),并對數(shù)據(jù)進行預(yù)處理操作,主要包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)篩選、數(shù)據(jù)集成和數(shù)據(jù)歸約等[4];第三步,對于預(yù)處理后的數(shù)據(jù),將相關(guān)的字段變量按照實際情況進行量化處理,字段包括學(xué)生性別、學(xué)生年級、消費金額、商家所在樓層和支付時間;最后,通過聚類算法對該數(shù)據(jù)進行分析,提取當(dāng)中潛在的數(shù)據(jù)價值,如消費行為規(guī)律。

        3 相關(guān)技術(shù)

        董新科等人在基于校園一卡通消費數(shù)據(jù)的幾種聚類算法的分析比較論文中,使用常用的聚類算法在校園一卡通的消費數(shù)據(jù)上進行了實驗,通過對多個指標(biāo)的分析,得出了K-means 算法最合適在當(dāng)前的數(shù)據(jù)上做聚類分析的結(jié)論[5]。本文基于該結(jié)論,使用K-means對校園微信消費數(shù)據(jù)進行聚類分析,對學(xué)生在食堂飲食的消費習(xí)慣劃分類別。

        在聚類分析中,大多數(shù)都是通過優(yōu)化初始聚類中心選擇的方式,來達到提高聚類效果的準(zhǔn)確性和類內(nèi)密集程度。本文在進行聚類分析前,使用相關(guān)系數(shù)對數(shù)據(jù)中的變量進行相關(guān)關(guān)系分析,找出正相關(guān)的變量;再通過手肘法選取數(shù)據(jù)的真實聚類數(shù);最后用輪廓系數(shù)評估聚類結(jié)果。

        3.1 皮爾遜pearson相關(guān)系數(shù)

        在本次使用的微信消費數(shù)據(jù)中,通過總體Pearson相關(guān)系數(shù)來計算數(shù)據(jù)各變量的相關(guān)性,從而找出協(xié)方差為正的變量。

        4) 誤差平方和[SSE]為全部樣本的聚類誤差,其結(jié)果表示聚類效果的優(yōu)劣。

        當(dāng)聚類數(shù)k增大,樣本會被更加細(xì)分,每個簇的聚合程度也會被提高,[SSE]也會隨著變小;相反,當(dāng)k值小于真實聚類數(shù)時,[SSE]的下降幅度會變大;當(dāng)k值接近真實聚類數(shù)時,[SSE]的下降幅度會減小,之后隨著k值的增大而趨于平緩,最終生成的關(guān)系圖是一個手肘的形狀,而數(shù)據(jù)的真實聚類數(shù)就對應(yīng)肘部的k值[6]。

        3.3 輪廓系數(shù)

        本文所研究的消費數(shù)據(jù)分類類別是未知的,故使用輪廓系數(shù)作為聚類性能的評估指標(biāo),以評估分類結(jié)果的準(zhǔn)確度。該系數(shù)的取值范圍在[-1,1]之間,當(dāng)取值靠近1時,證實聚類成果越優(yōu)越;反之,當(dāng)取值偏向-1時,則證實聚類效果越弱。其計算步驟如下:

        1) 第[i]個樣本對象到所屬簇中其他對象的平均距離,記為[ai](體現(xiàn)凝聚度)[7],稱為樣本對象[i]的簇內(nèi)不相似度;[ai]越小,則該簇對其聚類到內(nèi)的可能性越大。

        2) 第[i]個樣本對象和不包含該對象的其他任意簇,記為[bi](體現(xiàn)分離度)[7],稱為樣本對象[i]與簇[ci]間的不相似度:[bi=min{bi1,bi2,???,bik}]

        3) 依據(jù)樣本對象[i]的簇內(nèi)不相似度[ai]和簇間不相似度[bi],其樣本對象[i]的輪廓系數(shù)為:

        4 數(shù)據(jù)處理與建模

        4.1 數(shù)據(jù)提取

        本文數(shù)據(jù)從高校的服務(wù)器中提取校園學(xué)生微信消費數(shù)據(jù)樣本,包含食堂消費、卡機充值、校園公交消費及圖書館消費等數(shù)據(jù)。為了保護學(xué)生個人隱私,以上研究數(shù)據(jù)均已通過脫敏處理。該原始數(shù)據(jù)每天都會從客戶端往服務(wù)器產(chǎn)生大量的消費記錄存入數(shù)據(jù)庫中,故選取時間為2021年1~5月份校內(nèi)本科生和研究生作為研究數(shù)據(jù),約三百萬條消費記錄。表中字段如表1所示:

        4.2 數(shù)據(jù)預(yù)處理

        校園學(xué)生微信消費數(shù)據(jù)存在一些不符合規(guī)范或超出范圍的數(shù)據(jù),在分析研究學(xué)生的消費行為之前,需要通過數(shù)據(jù)預(yù)處理技術(shù)對該消費數(shù)據(jù)進行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理。為了保證數(shù)據(jù)的完整性,即消費記錄盡量保證所有學(xué)生都在校內(nèi)食堂消費,故排除2021年1月份和2月份的寒假時間,共統(tǒng)計3個月(2021年3月至2021年5月)的消費記錄;并排除在食堂消費以外的非餐飲商家消費記錄,如圖書館消費、校園公交消費、醫(yī)務(wù)室消費等,數(shù)據(jù)經(jīng)過處理后從原始包含的2983824條消費記錄降到2503243條。對于時間字段,需要將消費時間的時和分提取出來,存放于單獨的字段內(nèi)。根據(jù)食堂的就餐開放時間,將6點零分至9點零分劃分為早晨就餐時間,10點零分至13點零分為午餐就餐時間,17點零分至20點零分為晚餐就餐時間。65E71114-E2A4-42E9-96FB-4A0F5E09D398

        4.3 變量間相關(guān)性

        為了觀察消費與各變量的相關(guān)關(guān)系,以方便后面進行模型建立。對學(xué)生的消費水平進行多方面考量,分析校內(nèi)學(xué)生的消費結(jié)構(gòu)以及不同時段的消費差異,通過選用消費金額(pay_surplus)、時段(session)、樓層(level)、性別(sex)及年級(grade)這5個變量進行Pearson相關(guān)性計算。計算結(jié)果及可視化如圖1、表2所示:

        由上述圖表可看出,消費與樓層是呈正相關(guān)的,越往高的樓層,消費也在隨著增加;在消費時段上也是同樣的關(guān)系,晚上時段的消費會比上午和下午的消費高;而性別和年級呈負(fù)相關(guān)關(guān)系,不適合作為聚類。故選用時段和樓層來作為聚類模型的分類指標(biāo)。

        4.4 聚類模型建立與評估

        對上述經(jīng)過相關(guān)關(guān)系計算篩選出來的變量,采用K-means聚類算法對該消費數(shù)據(jù)進行聚類分析。

        首先,將以上3個變量指標(biāo)的數(shù)據(jù)單獨存放到新的數(shù)據(jù)框中,并對其進行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,即去均值和方差歸一化,使得經(jīng)過處理的消費數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布;然后通過手肘方法,依次做K-means聚類,計算k值取1到10的誤差平方和,看不同值對應(yīng)的簇內(nèi)誤差平方和,以找出最佳k值,結(jié)果如圖2所示,由圖可看出,k值從5開始簇內(nèi)誤差平方和趨于平緩,故k值取5效果最佳。

        因此,K-means聚類模型的參數(shù)以k值(n_clusters)為5,初始化方法(init)為K-means++,質(zhì)心初始化值(n_init)為10,最大迭代數(shù)(max_iter)為300,隨機從訓(xùn)練數(shù)據(jù)中選取初始質(zhì)心(random_state)為0。通過訓(xùn)練得出聚類模型,并以模型為基礎(chǔ)計算出預(yù)測值;最后利用輪廓系數(shù),將變量指標(biāo)數(shù)據(jù)和預(yù)測值各取60000條數(shù)據(jù)作為輸入?yún)?shù),來評估分類結(jié)果的準(zhǔn)確度,評估結(jié)果約為0.923??梢姺诸愋Ч诲e。

        5 結(jié)果分析

        校園學(xué)生微信消費數(shù)據(jù)通過K-means聚類模型的訓(xùn)練后,將分類后的標(biāo)簽并入到數(shù)據(jù)表中,對聚類后的情況進行統(tǒng)計,結(jié)果如圖3所示。可見,學(xué)生的消費情況被分成5個群體,3群的占比最大,占總學(xué)生消費記錄數(shù)的32.9%,其次是0群,占總記錄數(shù)的28.3%,而4群僅占0.1%。

        為進一步地刻畫校園內(nèi)學(xué)生的微信支付消費情況,對聚類指標(biāo)進行統(tǒng)計分析。各分類群的消費區(qū)間分布如表3所示??梢?,占比最大的3群,其消費范圍在2~28元不等,平均消費價格在7.5元;0群的消費范圍和3群接近,但平均消費在6.9元;1群的學(xué)生群體的消費則在5.9~60.8元,屬于消費偏高的群體,平均消費在15.6元;而2群體屬于低消費人群,價格在1.8~16.4元,平均消費屬于5群體中最低,在4.5元;4群的消費價格已超出普通學(xué)生的正常范圍,且僅占消費總數(shù)的0.1%,故在此不做深入分析。

        為了比較全面地分析學(xué)生在食堂的消費規(guī)律,故以類別為依據(jù),按樓層和時段的分類結(jié)果,結(jié)合各群體的消費范圍做整體分析,如表4表5所示。

        在表4樓層分類中,屬于中等消費且占總量較大的0和3群體,其消費習(xí)慣主要分布在食堂的1和2層,3層也有部分消費;屬于高消費的1群體在食堂的消費習(xí)慣大部分集中在3層,小部分在4層;而平均消費最低的2群體出現(xiàn)在1和2層,兩層的消費各占50%??梢?,1層和2層的是學(xué)生比較習(xí)慣去消費的樓層,且屬于中低消費群體,占到了總消費記錄的78.6%;而3層和4層屬于高消費群體經(jīng)常去的地方,僅占到了21.3%。由此說明校園內(nèi)學(xué)生的消費普遍屬于經(jīng)濟性。

        在表5時段分類中,中等消費的0群和3群的消費群體各集中在中午和早上時段,高消費1群體的消費分布在中午和晚上,低消費的2群體主要集中在晚上。由此可見session在群組中是較好的分群變量。

        從學(xué)生消費的整體客觀因素來看,2群的消費習(xí)慣是根據(jù)時段消費的;而1群和4群更側(cè)重于樓層的選擇,如表6所示:

        綜上分析,可得出以下結(jié)論:消費價格范圍在1.8~16.4

        元的低消費學(xué)生群體,其消費規(guī)律主要在晚上的1層和2層;處在2~28元的中消費學(xué)生群體,其出現(xiàn)在中午的1和2層,小部分在第三層;而高消費的學(xué)生在5.9~60.8元范圍消費,主要出現(xiàn)在3和4層的中午和晚上。

        6 結(jié)語

        本文通過多個計算方法對研究數(shù)據(jù)進行篩選和處理,再對其進行聚類統(tǒng)計分析,與實際情況相結(jié)合,從而大致了解學(xué)生在校的消費水平和行為規(guī)律,研究結(jié)果可為學(xué)校餐飲部門或者在獎學(xué)金的發(fā)放上提供相關(guān)參考依據(jù)。本文通過對校園學(xué)生消費數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù),來探險其中的數(shù)據(jù)價值,為以后相關(guān)的校園數(shù)據(jù)研究建設(shè)打下基礎(chǔ)。

        參考文獻:

        [1] 姜楠,許維勝.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生校園消費行為分析[J].大眾科技,2015,17(1):26-28,39.

        [2] 李婷,李海平,尉亦兵.校園“一卡通”消費行為數(shù)據(jù)分析[J].微型電腦應(yīng)用,2020,36(4):42-46.

        [3] 龔黎旰,顧坤,明心銘,等.基于校園一卡通大數(shù)據(jù)的高校學(xué)生消費行為分析[J].深圳大學(xué)學(xué)報(理工版),2020,37(S1):150-154.

        [4] 徐云.多通道數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)預(yù)處理方法研究[D].杭州:浙江大學(xué),2014:14-18.

        [5] 董新科,張暉.基于校園一卡通消費數(shù)據(jù)的幾種聚類算法的分析比較[J].計算機系統(tǒng)應(yīng)用,2014,23(1):158-161,183.

        [6] 夏海峰,陳軍華.基于文本挖掘的投訴熱點智能分類[J].上海師范大學(xué)學(xué)報(自然科學(xué)版),2013,42(5):470-475.

        [7] 張冬梅.基于輪廓系數(shù)的層次聚類算法研究[D].秦皇島:燕山大學(xué),2010.

        【通聯(lián)編輯:王力】65E71114-E2A4-42E9-96FB-4A0F5E09D398

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        日本熟妇高潮爽视频在线观看| 富婆猛男一区二区三区| 欧美人与善在线com| 亚洲色欲色欲综合网站| 人妻丰满熟妇av无码处处不卡| 亚洲嫩模高清在线视频| 日韩伦理av一区二区三区| 99久久精品费精品国产一区二| 亚洲av无码专区首页| 中字无码av电影在线观看网站 | 人人爽人人爽人人爽| av资源在线看免费观看| 男生自撸视频在线观看| 欧美奶涨边摸边做爰视频| 300部国产真实乱| 亚洲精品第一页国产精品| 色人阁第四色视频合集网| 精品人妻av一区二区三区麻豆| 色一情一乱一伦| 欧美一级特黄AAAAAA片在线看 | 91亚洲夫妻视频网站| 免费a级毛片18禁网站免费| 国产精品久久久久久影视| 99热这里只有精品国产66| 久久国产精品亚洲我射av大全| 粉嫩av国产一区二区三区| 日本巨大的奶头在线观看| 91极品尤物国产在线播放| 人妻精品一区二区三区蜜桃| 亚洲av无码国产精品永久一区| 无码国产亚洲日韩国精品视频一区二区三区| 亚洲国产精品国自产拍av在线| 国产一级二级三级在线观看视频| 另类老妇奶性生bbwbbw| 99精品免费视频| 久久精品国产亚洲av麻豆四虎| 国产三级c片在线观看| 欧洲美女熟乱av| 少妇激情av一区二区| 日本精品一区二区三本中文| 久久影院最新国产精品|