徐 凡
(西南科技大學(xué),四川 綿陽(yáng) 621010)
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最常用的方法,關(guān)聯(lián)規(guī)則挖掘的主要目的是從大量的數(shù)據(jù)中尋找關(guān)聯(lián)性,為決策分析提供理論支持[1]。關(guān)聯(lián)規(guī)則運(yùn)用最經(jīng)典的運(yùn)用是購(gòu)物籃分析“啤酒與尿布”的例子。而關(guān)聯(lián)規(guī)則中最常運(yùn)用到的是Apriori 算法,它能夠根據(jù)用戶提供的條件有效的進(jìn)行數(shù)據(jù)挖掘。
Agrawal 等人在1993年首次提出關(guān)聯(lián)規(guī)則,該規(guī)則主要用于挖掘數(shù)據(jù)之間的關(guān)聯(lián)性,對(duì)事物之間的親密度進(jìn)行描述。關(guān)聯(lián)規(guī)則可描述為:設(shè)I={i1,i2,…,in}是項(xiàng)目集,D 是全體事務(wù)的集合,集合T∈I,即T 為I 的子集,每個(gè)事務(wù)有唯一的TID 標(biāo)識(shí)。關(guān)聯(lián)規(guī)則就是形如X=>Y 的蘊(yùn)含式,其中X∈I,Y∈I 且X∩Y=φ,X 稱為規(guī)則的條件,Y 稱為規(guī)則的結(jié)果[1]。運(yùn)算結(jié)果通過(guò)支持度和可信度進(jìn)行約束。
關(guān)聯(lián)規(guī)則中的支持度(Support)S 表示D 中有S%的事務(wù)同時(shí)包含X 和Y,即事務(wù)集中同時(shí)包含X 和Y 的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記作Support(X,Y)=P(X∪Y)。置信度(Confidence)C 表示D 中有C%的事務(wù)同時(shí)也包含Y,即包含X 和Y 的事務(wù)數(shù)與包含X 的事務(wù)數(shù)之比,記作Confidence(X,Y)=P(Y/X)=P(X∩Y)/P(X)[2]。運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘就是要挖掘出滿足用戶設(shè)定的最小支持度和置信度的規(guī)則。我們把同時(shí)滿足用戶設(shè)定的最小支持度和最小置信度的規(guī)則稱為強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘,一般分為兩步:首先找出所有滿足用戶設(shè)置的最小支持度的項(xiàng)目集,其次利用最大數(shù)據(jù)項(xiàng)集所生成的關(guān)聯(lián)規(guī)則,根據(jù)用戶指定的最小置信度確定規(guī)則的取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則[1]。
Apriori 算法作為經(jīng)典的關(guān)聯(lián)規(guī)則算法,其算法的實(shí)現(xiàn)是通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行掃描從候選項(xiàng)集中找出頻繁項(xiàng),不斷對(duì)候選項(xiàng)計(jì)數(shù)來(lái)完成的。它使用的是逐層搜索的迭代方法,通過(guò)對(duì)前一項(xiàng)集的探索來(lái)發(fā)現(xiàn)符合該次條件的項(xiàng)集。也就是說(shuō),Apriori 算法的基本思想是通過(guò)對(duì)數(shù)據(jù)庫(kù)的多次掃描以發(fā)現(xiàn)所有符合條件的頻繁項(xiàng)。在第k 次掃描中只考慮具有同一長(zhǎng)度k 的所有項(xiàng)集。在后續(xù)的掃描中,首先以前一次所發(fā)現(xiàn)的所有頻繁項(xiàng)集為基礎(chǔ),生成所有新的候選項(xiàng)集。然后掃描數(shù)據(jù)庫(kù)D,計(jì)算這些候選項(xiàng)集的支持度,最后確定候選項(xiàng)集中哪些可成為頻繁項(xiàng)集。重復(fù)上述過(guò)程直到再也產(chǎn)生不出新的頻繁項(xiàng)集。在計(jì)算過(guò)程中,Apriori 算法需要不斷重復(fù)連接與剪枝這兩個(gè)步驟。然而該算法也存在潛在的問(wèn)題,即當(dāng)數(shù)據(jù)容量龐大時(shí),生成的候選項(xiàng)集數(shù)量太多,會(huì)降低該算法的計(jì)算效率,同時(shí)大量規(guī)則的產(chǎn)生也讓用戶難以選擇,這也是在運(yùn)用Apriori 算法是需要解決的問(wèn)題[3]。
為研究網(wǎng)絡(luò)社區(qū)中知識(shí)形成過(guò)程中哪些因素對(duì)其產(chǎn)生了影響,本文通過(guò)對(duì)網(wǎng)絡(luò)社區(qū)中知識(shí)形成過(guò)程進(jìn)行分析,著重思考了在知識(shí)形成中哪些因素會(huì)影響到個(gè)人對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)的吸收,重點(diǎn)考慮了九個(gè)方面的因素來(lái)分析,主要包括參與的目的性、成員級(jí)別、個(gè)人專業(yè)知識(shí)、知識(shí)接收者的知識(shí)結(jié)構(gòu)、回帖數(shù)量、表達(dá)方式、回帖者態(tài)度、信息源、社區(qū)參與者的線下關(guān)系這九個(gè)方面,分析了以上九個(gè)方面的因素對(duì)知識(shí)形成產(chǎn)生的影響。通過(guò)網(wǎng)絡(luò)問(wèn)卷調(diào)查的方式,共收獲共119 份問(wèn)卷,為文章提供了原始數(shù)據(jù)。
對(duì)于部分?jǐn)?shù)據(jù),參與調(diào)研者的態(tài)度并不是很明確,因此通過(guò)運(yùn)用SPSS19.0 對(duì)已有數(shù)據(jù)進(jìn)行了數(shù)據(jù)轉(zhuǎn)換,同時(shí),由于調(diào)查者的使用時(shí)間與使用頻率不在考察的范圍,因此對(duì)問(wèn)卷中的關(guān)于使用時(shí)間與使用頻率的數(shù)據(jù)進(jìn)行了刪除,將問(wèn)卷結(jié)果轉(zhuǎn)化為布爾型數(shù)據(jù),將結(jié)果中的肯定結(jié)構(gòu)標(biāo)為“1”,否定結(jié)果標(biāo)注為“0”,并對(duì)數(shù)據(jù)中的九個(gè)項(xiàng)目進(jìn)行了從I1 到I9 的編號(hào),即I1=目的性,I2=成員級(jí)別,I3=個(gè)人專業(yè)知識(shí)、I4=知識(shí)結(jié)構(gòu)、I5=回帖量、I6=表達(dá)方式、I7=回帖者態(tài)度、I8=信息源、I9=社區(qū)參與者的線下關(guān)系,部分?jǐn)?shù)據(jù)整理結(jié)果如表1 所示:
在對(duì)數(shù)據(jù)進(jìn)行基礎(chǔ)分析后,進(jìn)入數(shù)據(jù)分析階段。文章運(yùn)用SPSS clemention12.0 對(duì)數(shù)據(jù)進(jìn)行Appriori 運(yùn)算。關(guān)聯(lián)規(guī)則設(shè)置中,文章將I1設(shè)置為后項(xiàng),其他八項(xiàng)設(shè)為前項(xiàng),將最小支持度設(shè)置為40%,最低置信度為80%,對(duì)其他的選項(xiàng)進(jìn)行設(shè)置后開始運(yùn)行,其運(yùn)行結(jié)果部分如表2 所示。
表2 運(yùn)算結(jié)果
對(duì)運(yùn)行結(jié)果進(jìn)行分析,可知,I4、I6、I3 同時(shí)出現(xiàn)的頻率為42%,置信度達(dá)到了92%,這說(shuō)明這三個(gè)項(xiàng)目在整個(gè)運(yùn)算中非常重要,此規(guī)則為強(qiáng)關(guān)聯(lián)。這表明知識(shí)結(jié)構(gòu)、表達(dá)方式、個(gè)人專業(yè)知識(shí)同時(shí)影響了網(wǎng)絡(luò)社區(qū)成員知識(shí)的形成。I6、I3 同時(shí)出現(xiàn)的置信度為87%,這說(shuō)明這一項(xiàng)目集在整個(gè)事務(wù)中起著很大的影響,即在網(wǎng)絡(luò)社區(qū)知識(shí)形成中,表達(dá)方式、個(gè)人專業(yè)知識(shí)同時(shí)影響著社區(qū)成員知識(shí)形成。I4、I6 同時(shí)出現(xiàn)的置信度為85%,這表明在網(wǎng)絡(luò)社區(qū)知識(shí)形成中,社區(qū)成員的知識(shí)結(jié)構(gòu)與表達(dá)方式同時(shí)影響著社區(qū)成員知識(shí)形成的行為。I7、I5 同時(shí)出現(xiàn)的置信度為85%,它表明在整個(gè)事務(wù)中,二者同時(shí)出現(xiàn)的行為對(duì)整體有很大的影響,即在研究網(wǎng)絡(luò)社區(qū)知識(shí)形成中,回帖者態(tài)度與回帖量同時(shí)影響著社區(qū)成員新知識(shí)的形成。I3、I5 同時(shí)出現(xiàn)的置信度為85%,即在此研究中,個(gè)人專業(yè)知識(shí)與回帖量同時(shí)影響著網(wǎng)絡(luò)社區(qū)知識(shí)形成行為。I4、I6、I5 同時(shí)出現(xiàn)的置信度為85%,這表明知識(shí)結(jié)構(gòu)、表達(dá)方式、回帖量同時(shí)對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)的形成產(chǎn)生重要的影響。I4、I3、I5 同時(shí)出現(xiàn)的置信度為85%,這表明個(gè)人專業(yè)知識(shí)、知識(shí)結(jié)構(gòu)與回帖量同時(shí)影響著社區(qū)成員知識(shí)形成行為。I4、I3 同時(shí)出現(xiàn)的置信度為84%,這表明在網(wǎng)絡(luò)社區(qū)知識(shí)形成中成員知識(shí)結(jié)構(gòu)與個(gè)人專業(yè)知識(shí)同時(shí)對(duì)其產(chǎn)生了很大的影響。I8、I6 同時(shí)出現(xiàn)的置信度為84%,表明信息源與表達(dá)方式同時(shí)影響著社區(qū)成員的知識(shí)形成。I6 產(chǎn)生影響的置信度為83%,即在影響網(wǎng)絡(luò)社區(qū)成員知識(shí)形成中知識(shí)的表達(dá)方式產(chǎn)生了很大的作用。I6、I5 同時(shí)出現(xiàn)的置信度為82%,表明表達(dá)方式與回帖者態(tài)度同時(shí)影響了社區(qū)知識(shí)形成行為,I7、I6 同時(shí)出現(xiàn)的置信度為82%,表明回帖者態(tài)度與表達(dá)方式同時(shí)對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)形成產(chǎn)生了很大的影響。I8、I3 同時(shí)出現(xiàn)的置信度為82%,表明信息源與專業(yè)知識(shí)同時(shí)影響了網(wǎng)絡(luò)社區(qū)知識(shí)的形成。在支持度為42%時(shí)I8、I3 同時(shí)出現(xiàn)的支持度為82%,再一次表明信息源與專業(yè)知識(shí)同時(shí)對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)的形成產(chǎn)生了很大的影響。I4、I5 同時(shí)出現(xiàn)的置信度為81%,這表明知識(shí)結(jié)構(gòu)與回帖量同時(shí)對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)形成產(chǎn)生了大的影響。I4、I5 同時(shí)出現(xiàn)的支持度為55%,置信度為81%,它說(shuō)明知識(shí)結(jié)構(gòu)與回帖量同時(shí)影響著網(wǎng)絡(luò)社區(qū)知識(shí)的形成。I5 出現(xiàn)的置信度為81%,它表明在網(wǎng)絡(luò)社區(qū)知識(shí)形成中回帖量對(duì)其產(chǎn)生了大的影響。I9、I5 同時(shí)出現(xiàn)的置信度為81%,即在網(wǎng)絡(luò)社區(qū)知識(shí)形成中,線下關(guān)系與回帖量同時(shí)產(chǎn)生了大的影響。I7、I3 同時(shí)出現(xiàn)的置信度為81%,它表明回帖者態(tài)度與個(gè)人專業(yè)同時(shí)影響了知識(shí)對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)的形成。I8、I6 同時(shí)出現(xiàn)的置信度為80%,表明信息來(lái)源與表達(dá)方式同時(shí)影響了網(wǎng)絡(luò)社區(qū)知識(shí)形成。
從以上數(shù)據(jù)分析我們可以發(fā)現(xiàn),在這些統(tǒng)計(jì)項(xiàng)中,I5 與I6 出現(xiàn)的次數(shù)最多,即回帖量與知識(shí)表達(dá)方式對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)形成產(chǎn)生最重要的影響,因此對(duì)于網(wǎng)絡(luò)社區(qū)回帖量以及發(fā)帖中的表達(dá)方式規(guī)范的管理非常的重要,因?yàn)樗麑?duì)網(wǎng)絡(luò)社區(qū)成員對(duì)于知識(shí)的篩選與吸收產(chǎn)生了很大的影響。在所有的項(xiàng)集中,I3 出現(xiàn)的頻率也非常的高,即知識(shí)分享者的專業(yè)對(duì)社區(qū)成員知識(shí)形成具有很大的影響作用。I8、I3 即信息源與專業(yè)知識(shí)、I4、I5 即知識(shí)結(jié)構(gòu)與回帖量同時(shí)出現(xiàn)的可能性非常高。
通過(guò)以上數(shù)據(jù)分析我們發(fā)現(xiàn),回帖量與知識(shí)表達(dá)方式對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)形成產(chǎn)生非常重要的影響,對(duì)于多數(shù)網(wǎng)絡(luò)社區(qū)成員來(lái)說(shuō),登陸網(wǎng)絡(luò)社區(qū)僅僅屬于瀏覽狀態(tài),并沒有特別的目的,這也在研究中有所體現(xiàn),因此對(duì)于多數(shù)社區(qū)成員,回帖量成為選擇閱讀內(nèi)容的標(biāo)準(zhǔn)。同時(shí)對(duì)于社區(qū)成員來(lái)說(shuō),內(nèi)容的表達(dá)方式如文字、圖片、視頻等也影響到了其對(duì)知識(shí)的篩選。有些社區(qū)成員偏向于對(duì)圖片內(nèi)容的閱讀與吸收,而有些卻潛意識(shí)的選擇視頻圖像形式的知識(shí)。由上述數(shù)據(jù)分析可以得到社區(qū)知識(shí)的表現(xiàn)方式有極大的影響。而知識(shí)分享者的專業(yè)知識(shí)這一因素成為影響網(wǎng)絡(luò)社區(qū)知識(shí)形成的重要因素在于它體現(xiàn)了其分享的知識(shí)的可信程度,影響了社區(qū)成員對(duì)社區(qū)知識(shí)的選取與轉(zhuǎn)化程度。
同時(shí)由上述結(jié)果可以發(fā)現(xiàn),信息源與專業(yè)知識(shí)、知識(shí)結(jié)構(gòu)與回帖量是項(xiàng)目同時(shí)出現(xiàn)頻率最高的兩組,即其中的一個(gè)因素出現(xiàn),另一個(gè)因素也隨之出現(xiàn)。信息來(lái)源與專業(yè)知識(shí)的同時(shí)出現(xiàn)表明網(wǎng)絡(luò)社區(qū)成員在對(duì)關(guān)注信息發(fā)布者的個(gè)人專業(yè)時(shí),同時(shí)會(huì)關(guān)注轉(zhuǎn)載來(lái)的信息的來(lái)源,也就是說(shuō)當(dāng)網(wǎng)絡(luò)社區(qū)成員關(guān)注他人的知識(shí)的專業(yè)性時(shí)在選擇其他知識(shí)時(shí)也會(huì)關(guān)注其知識(shí)來(lái)源,這在一定程度上表明了社區(qū)成員對(duì)信息可信度的考量。社區(qū)成員個(gè)人的知識(shí)結(jié)構(gòu)與回帖量的同時(shí)出現(xiàn)則表明當(dāng)社區(qū)成員由于個(gè)人知識(shí)結(jié)構(gòu)出現(xiàn)欠缺在進(jìn)行知識(shí)選擇時(shí),回帖數(shù)量會(huì)成為其考慮因素,因?yàn)榛靥麛?shù)量代表了知識(shí)的積累量,因此在對(duì)網(wǎng)絡(luò)社區(qū)知識(shí)形成影響因素進(jìn)行分析時(shí)二者同時(shí)出現(xiàn)的可能性非常大。
需要指出的是,這里的影響因素側(cè)重于研究影響社區(qū)成員將社區(qū)知識(shí)轉(zhuǎn)化為個(gè)人知識(shí)的因素,即哪些因素影響了網(wǎng)絡(luò)社區(qū)中成員對(duì)已有知識(shí)的接收與轉(zhuǎn)化,因此研究結(jié)果會(huì)與之前的研究可能存在一定的差別。
[1]廖開際.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京大學(xué)出版社,2008,11.
[2]劉耀南.Apriori 算法的分析及應(yīng)用[J].佛山科學(xué)技術(shù)學(xué)院學(xué)報(bào):自然科學(xué)版,2012,30(3).
[3]張仁壽,羅林開,葉凌君.Apriori 算法對(duì)高技能人才市場(chǎng)工資價(jià)位影響因素的實(shí)證分析[J].中國(guó)軟科學(xué),2010(1).