亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向?qū)W生認知數(shù)據(jù)的類關(guān)聯(lián)規(guī)則挖掘與分析

        2022-02-14 11:15:52吳軍李紅梅
        電子制作 2022年2期
        關(guān)鍵詞:項集關(guān)聯(lián)長度

        吳軍,李紅梅

        (遵義師范學(xué)院 信息工程學(xué)院,貴州遵義,563000)

        0 引言

        隨著數(shù)據(jù)庫系統(tǒng)的逐漸壯大,傳統(tǒng)數(shù)據(jù)庫提供的搜索查詢等功能已無法再滿足人們的需求,其中最主要的問題是這些數(shù)據(jù)中隱藏著許多無法通過肉眼觀察發(fā)現(xiàn)的重要信息,為了解決這一問題,誕生了數(shù)據(jù)挖掘技術(shù)[1]。數(shù)據(jù)挖掘技術(shù)在計算機科學(xué)領(lǐng)域內(nèi)具有舉足輕重的地位,且得到了廣泛的應(yīng)用[2-4],其中,關(guān)聯(lián)規(guī)則挖掘是一種常用的數(shù)據(jù)分析技術(shù)[5]。

        社會對于青少年的評價方式和標準與學(xué)生的自我認知或多或少會存在一定程度的分歧,為了調(diào)查學(xué)生群體對自我的認知以及他們心中合理的評價標準,本文將類關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用到了其中。具體研究方法為:第一步,針對研究問題設(shè)計了問卷,并將制作好的調(diào)查問卷通過線上填寫的方式進行發(fā)放。第二步,對問卷數(shù)據(jù)進行了清洗和整理,并利用Apriori算法[6]對通過調(diào)查問卷得到的初始集合進行頻繁項集挖掘。第三步,為了驗證挖掘到的頻繁項集的穩(wěn)定性和可靠性,利用了統(tǒng)計顯著性檢驗中一種比較常見的方法—置換檢驗方法[7]對挖掘結(jié)果進行驗證,并將通過驗證的項集轉(zhuǎn)化成相應(yīng)的類關(guān)聯(lián)規(guī)則形式。最后,根據(jù)生成的類關(guān)聯(lián)規(guī)則結(jié)合大學(xué)生的具體情況進行分析。這些通過分析得到的結(jié)論能夠促進大學(xué)生心理健康的發(fā)展。

        1 數(shù)據(jù)生成

        針對該研究問題,由于沒有現(xiàn)成的數(shù)據(jù),故使用了問卷調(diào)查的方式來生成研究問題所需的研究數(shù)據(jù)。設(shè)計的問卷中一共包含22個問題,且所有問題均為客觀題。舉三個例子:

        (1)三觀是否是決定一個人優(yōu)秀的重要原因?

        A.是,優(yōu)秀的人三觀都很正;

        B.不是,優(yōu)秀的人三觀也不一定正;

        C.因人而異,三觀不一定決定一個人是否優(yōu)秀。

        (2)對于你來說,學(xué)習(xí)更重要的是樂趣還是任務(wù)?

        A.樂趣;

        B.任務(wù);

        C.以前是樂趣,現(xiàn)在是為了完成任務(wù);

        D.以前為了完成任務(wù),現(xiàn)在是種一樂趣。

        (3)你認為自己是一個孤獨的人?

        A.是,性格比較內(nèi)向,生活中也沒什么朋友;

        B.不是,性格比較外向,生活中有許多朋友;

        C.是,雖然性格外向朋友也很多,但感覺他們不能走進自己內(nèi)心;

        D.不是,雖然性格內(nèi)向朋友很少,但有幾個理解自己的好朋友。

        問卷采用線上提交的方式發(fā)放,同時,為了提高數(shù)據(jù)的真實性及可靠性,發(fā)放時沒有地區(qū)局限性。經(jīng)過一個月的宣傳,共收到984份有效的調(diào)查問卷。從線上平臺提取到這些問卷后,對其中的數(shù)據(jù)進行了清洗,并整理成<編號,屬性1,屬性2, … , 屬性22 >形式以匹配后續(xù)的頻繁項集挖掘算法。

        2 頻繁項集挖掘

        在海量的數(shù)據(jù)集中有大量的長度為1的項集,這些1項集在自由組合后會產(chǎn)生數(shù)量更多長度更長的項集。為了從海量的數(shù)據(jù)集中快速的挖掘出頻繁項集,Agrawal等人發(fā)現(xiàn)了頻繁項集的所有非空子集也一定是頻繁的這一性質(zhì)[6],并根據(jù)該性質(zhì)提出了經(jīng)典的Apriori算法來挖掘頻繁項集。該算法主要由以下兩個部分組成:

        (1)連接方法

        為了找到長度為l的頻繁項集的集合Rl,Apriori算法將長度為l-1的頻繁項集與自身連接得到了Rl的超集。具體的連接方法是假定r1和r2是Rl-1中的兩個頻繁項集,ri[j]表示項集ri的第j個項,且項是具備一定的順序的。如果r1和r2中有且僅有前k-2個項是相同的,那么r1和r2是可連接的,連接后的項集為{r1[1],r1[2],…,r1[l-1],r2[l-1]}。為了不在結(jié)果中出現(xiàn)重復(fù)的項集,連接還假定r1[l-1]必須小于r2[l-1]。

        (2)剪枝方法

        上述步驟完成后便能夠得到Rl的超集,即Rl中一定包含了所有長度為l的頻繁項集,但其中也可能存在一些不頻繁的長度為l的項集。在剪枝步驟中,逐個計算Rl中每個項集的支持度值,如果某個項集的支持度值大于用戶自定義的一個閾值m_support,那么該項集就被認定為頻繁項集。該定義利用了頻繁項集的反單調(diào)性,即一個項集的任意非空子項集也必須是頻繁項集。

        詳細的Aprori算法步驟如下:

        (1)找到所有長度為1的項集,并對使用他們使用連接方法生成2長度項集的超集C2;

        (2)計算C2中每個2長度項集的支持度,將支持度值小于m_support閾值的項集刪掉,就得到了長度為2的頻繁項集集合R2;

        (3)對R2中的頻繁項集使用連接方法生成3長度項集的超集C3;

        (4)計算C3中每個3長度項集的支持度,將支持度值小于m_support閾值的項集刪掉,就得到了長度為3的頻繁項集集合R3;

        (5)重復(fù)上述步驟得到長度更長的頻繁項集集合Rl,直到通過連接方法生成的Cl+1集合為空集。

        Apriori算法的步驟比較簡單,但其計算開銷較高,原因是每次計算Cl中頻繁項集的支持度就需要掃描一次數(shù)據(jù)集合。從降低計算開銷的角度出發(fā),研究人員提出了一些計算開銷更少的頻繁項集挖掘算法,例如FP-Growth算法[7],Eclat算法[8]等。

        3 置換檢驗

        置換檢驗20世紀30年代由Fisher提出,它是一種常用的顯著性檢驗方法[9]。其根本思想是通過置換構(gòu)建零分布并從中計算出能夠度量統(tǒng)計顯著性的p-value值。根據(jù)p-value值大小能夠決定是否拒絕零假設(shè),從而保留了一些穩(wěn)定可靠的結(jié)果并剔除了一部分偶然性結(jié)果。

        使用最為廣泛的置換檢驗方法是標準置換檢驗[10]。一般而言,其包括以下3個步驟:

        (1)選擇一個與零假設(shè)匹配的量化值,該量化值能夠體現(xiàn)零假設(shè)與備擇假設(shè)的差異,并從初始集合中計算出挖掘結(jié)果的量化值。

        (2)在零假設(shè)的基礎(chǔ)上任意置換初始集合的類型屬性值,置換后會生成一個隨機集合。對該隨機集合進行頻繁項集挖掘并計算出這些項集的量化值。重復(fù)實施該過程多次后,用得到的所有量化值構(gòu)建零分布。

        (3)將初始集合中的頻繁項集的量化值放置到上述零分布中,便可以計算出每個頻繁項集的p-value值。

        在現(xiàn)實應(yīng)用中,通過執(zhí)行所有的置換得到零分布是不現(xiàn)實的。舉個例子,假設(shè)初始集合含有500條數(shù)據(jù),那么它可能產(chǎn)生的隨機集合數(shù)量為500的階乘,這是一個非常巨大數(shù)字。因此,構(gòu)建零分布時,通常指定一個合理的置換次數(shù),常用的設(shè)置為500,1000或2000。

        得到非隨機產(chǎn)生的頻繁項集后,本文通過如下步驟產(chǎn)生類關(guān)聯(lián)規(guī)則:

        (1)將帶有類型屬性的頻繁項集進行分離,以生成候選類關(guān)聯(lián)規(guī)則。

        (2)計算這些類關(guān)聯(lián)規(guī)則的置信度,若其滿足用戶自定義的最小置信度閾值m_confidence,則其被認定類關(guān)聯(lián)規(guī)則。

        4 實驗流程

        詳細的面向?qū)W生認知數(shù)據(jù)的類關(guān)聯(lián)規(guī)則挖掘方法如圖1所示。

        圖1 類關(guān)聯(lián)規(guī)則生成流程

        具體的解釋如下:

        (1)將問卷數(shù)據(jù)整理成<編號,屬性1,屬性2, … , 屬性22 >的形式。

        (2)使用Apriori算法挖掘初始集合中的初始頻繁項集,其中m_support設(shè)置為200。

        (3)對初始集合進行2000次置換得到隨機集合,挖掘這些隨機集合中的頻繁項集并計算他們的量化值。

        (4)使用第三步中的所有量化值構(gòu)建零分布,并從該零分布中計算出頻繁項集的p-value值,如果p-value值小于0.05就認為該頻繁項集不是隨機產(chǎn)生的,并將它保留下來。

        (5)將每個保留下來的頻繁項集轉(zhuǎn)化為候選類關(guān)聯(lián)規(guī)則的形式,并計算其相應(yīng)的置信度值,如果大于0.7就認為該類關(guān)聯(lián)規(guī)則是可信的,即m_confidence為0.7。

        5 結(jié)果分析

        通過挖掘得到的類關(guān)聯(lián)規(guī)則可以看出:男生比女生更容易感到孤獨;女生比男生認為家長對學(xué)生的影響更為重要;女生和男生一樣喜歡玩電腦游戲;成績好壞對學(xué)生戀愛沒有影響;男生和女生都認為在戀愛中應(yīng)當共同付出共同進步;成績好壞不影響學(xué)生對未來的規(guī)劃,大部分學(xué)生明確規(guī)劃過自己的未來,并且朝著自己的規(guī)劃努力;高年級學(xué)生比低年級學(xué)生更喜歡運動。此外,結(jié)合社會群體對大學(xué)生的認知,可以發(fā)現(xiàn)的區(qū)別是:大部分社會人士認為成績好的學(xué)生就是優(yōu)秀的,但大部分大學(xué)生不贊成將學(xué)習(xí)作為人格優(yōu)秀的評判標準;大部分社會人士認為大學(xué)生活豐富多彩,大學(xué)生能從中交到許多志同道合的朋友,但實際上大部分大學(xué)生都認為自己是孤獨的,雖然有許多朋友但很少有人能真正的了解自己。

        由上述結(jié)果可以得出的結(jié)論是大眾給大學(xué)生群體的評價和大學(xué)生群體的自我認知是存在誤差的。成績、三觀、專注程度等都不能單獨作為評判一個人的標準,看似活潑的大學(xué)生群體實際其中大部分人都感到內(nèi)心孤獨,這些結(jié)果在傳統(tǒng)的認知中是不被大家所了解的,人們應(yīng)該改變對大學(xué)生的刻板印象,從細節(jié)和生活去關(guān)愛和了解每一個學(xué)生,以促進大學(xué)生心理健康的發(fā)展。

        6 結(jié)論

        本文針對學(xué)生認知數(shù)據(jù)使用了數(shù)據(jù)挖掘領(lǐng)域中的類關(guān)聯(lián)挖掘技術(shù)挖掘其中的規(guī)則,為了增強結(jié)果的可信度,還引入了標準置換檢驗來對報告的規(guī)則進行統(tǒng)計顯著性檢驗。最后,將保留的統(tǒng)計顯著的類關(guān)聯(lián)規(guī)則與領(lǐng)域知識相結(jié)合進行了討論。在未來的工作中,不僅會專注于新的模式發(fā)現(xiàn)算法的設(shè)計,還會探索更多的統(tǒng)計顯著性檢驗方法。除此之外,后續(xù)研究也會繼續(xù)探索更多模式發(fā)現(xiàn)技術(shù)的應(yīng)用。

        猜你喜歡
        項集關(guān)聯(lián)長度
        1米的長度
        “一帶一路”遞進,關(guān)聯(lián)民生更緊
        當代陜西(2019年15期)2019-09-02 01:52:00
        奇趣搭配
        愛的長度
        怎樣比較簡單的長度
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        不同長度
        讀寫算(上)(2015年6期)2015-11-07 07:17:55
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項集的快速挖掘算法
        計算機工程(2014年6期)2014-02-28 01:26:12
        語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
        国产精品-区区久久久狼| 国产成人综合久久久久久| 国产成人喷潮在线观看| 一本一本久久a久久精品综合| 成人国产精品免费网站 | 亚洲AV无码秘 蜜桃1区| 亚洲日本国产一区二区三区| 熟女一区二区三区在线观看| 久久99久久99精品中文字幕| 91久久国产精品视频| 国产少妇一区二区三区| 性人久久久久| 精品久久久久久久久久中文字幕 | 亚洲成av人片在线观看ww| 99久久久精品免费香蕉| 久久综合九色综合久久久| 日本丰满少妇xxxx| 波多野结衣一区二区三区高清| 男人阁久久| 日韩女优视频网站一区二区三区 | 牛仔裤人妻痴汉电车中文字幕| 亚洲成a∨人片在线观看无码| 亚洲av无码不卡| 亚洲AVAv电影AV天堂18禁| 青青草中文字幕在线播放| 极品少妇小泬50pthepon| 欧美中文字幕在线| 91青青草视频在线播放| 一本无码中文字幕在线观| 中文字幕熟妇人妻在线视频 | 一边做一边说国语对白| 亚洲欧美日韩中文无线码| 国产强伦姧在线观看| 国产精品国产三级久久| 性色av浪潮av色欲av| 视频国产精品| 亚洲白嫩少妇在线喷水| 尤物在线精品视频| 日本久久久| 国产精品人成在线观看不卡| 无码人妻一区二区三区在线|