李 芳,郭進(jìn)利,譚利明
(上海理工大學(xué)管理學(xué)院,上海 200093)
數(shù)據(jù)挖掘(Data Mining,DM)是一項從大量數(shù)據(jù)中揭示潛在價值信息、發(fā)現(xiàn)潛在規(guī)則的技術(shù),即數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)[1]。雖然許多數(shù)據(jù)挖掘算法提出并應(yīng)用,但關(guān)聯(lián)規(guī)則挖掘一直是數(shù)據(jù)挖掘的研究熱點,因其廣泛的適用性而備受學(xué)者關(guān)注。關(guān)聯(lián)規(guī)則挖掘以尋找事物之間隱藏的關(guān)系為目的,如啤酒和尿布案例:啤酒和尿布看似沒有因果關(guān)系,但通過對大量購物數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)很多男性會在購買尿布時購買啤酒。因此,本文擬采用關(guān)聯(lián)規(guī)則中的Apriori 算法挖掘金融行業(yè)的股東關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則最早由Agrawal 等[2]提出,是用于從大量原始數(shù)據(jù)中挖掘令人感興趣的規(guī)則的方法,是近年數(shù)據(jù)挖掘研究方向之一。Chen 等[3]給出一種改進(jìn)的關(guān)聯(lián)規(guī)則Apri?ori 算法,用于挖掘大學(xué)科研項目數(shù)據(jù);Yang 等[4]提出一種多級關(guān)聯(lián)規(guī)則挖掘算法,用于發(fā)現(xiàn)具有多級抽象的數(shù)據(jù)元素之間的隱藏關(guān)系;和征等[5]基于產(chǎn)品服務(wù)融合的創(chuàng)新方法,采用關(guān)聯(lián)規(guī)則算法識別能夠進(jìn)行融合的產(chǎn)品或服務(wù)模塊;單汨源等[6]從行業(yè)供應(yīng)鏈視角,利用Apriori 算法挖掘鋼鐵和醫(yī)藥行業(yè)上市公司信用風(fēng)險傳染的關(guān)聯(lián)規(guī)則;崔冬梅[7]構(gòu)建電信增值業(yè)務(wù)交叉銷售模型,運用數(shù)據(jù)挖掘技術(shù)得出6 條規(guī)則集;林穎華等[8]基于關(guān)聯(lián)規(guī)則交互挖掘構(gòu)建企業(yè)財務(wù)風(fēng)險分析模型,挖掘財務(wù)指標(biāo)間規(guī)律;伏蘭蘭等[9]基于商品價格構(gòu)建單維與二維關(guān)聯(lián)規(guī)則模型,分別挖掘出商品價格之間的強關(guān)聯(lián)規(guī)則;李春青[10]運用Apriori 算法對高校就業(yè)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,挖掘出學(xué)生個人信息與就業(yè)單位性質(zhì)之間的隱含關(guān)聯(lián)關(guān)系;郭曉鴿等[11]運用關(guān)聯(lián)規(guī)則對稅收數(shù)據(jù)之間的相關(guān)關(guān)系進(jìn)行挖掘,建立識別逃稅路徑;李海林等[12]將關(guān)聯(lián)規(guī)則算法應(yīng)用于分析期刊論文參考文獻(xiàn),挖掘出參考文獻(xiàn)在引用過程中隱藏的關(guān)聯(lián)規(guī)則;董曉芳等[13]運用關(guān)聯(lián)規(guī)則算法對21 種概念板塊進(jìn)行分析,證實長期概念板塊指數(shù)之間的輪動;李鐵軍等[14]對微博評論行為進(jìn)行關(guān)聯(lián)規(guī)則挖掘,構(gòu)建基于情感加權(quán)關(guān)聯(lián)規(guī)則的微博推薦模型。
通過對已有文獻(xiàn)歸納,發(fā)現(xiàn)國外文獻(xiàn)對關(guān)聯(lián)規(guī)則的研究比較早,國內(nèi)近年才有大量相關(guān)研究。關(guān)聯(lián)規(guī)則應(yīng)用領(lǐng)域非常廣,尤其在經(jīng)管領(lǐng)域取得了很多成果,但還沒有學(xué)者對企業(yè)的大股東進(jìn)行關(guān)聯(lián)分析。因此,本文以金融行業(yè)為例,基于數(shù)據(jù)挖掘—關(guān)聯(lián)規(guī)則的Apriori 算法對上市公司大股東進(jìn)行分析,以挖掘該行業(yè)企業(yè)股東之間的投資關(guān)聯(lián)及規(guī)律。
Apriori 算法是關(guān)聯(lián)規(guī)則挖掘最基本算法,其核心是兩階段頻集思想的遞推算法[15]。Apriori 算法主要包括尋找頻繁項集與探索關(guān)聯(lián)規(guī)則兩方面內(nèi)容。Apriori 算法實現(xiàn)過程中最基本的概念是支持度與置信度,尋找頻繁項集用支持度,確定關(guān)聯(lián)規(guī)則用置信度。
支持度表示項集發(fā)生的概率,即數(shù)據(jù)集中包含該項集的記錄個數(shù)在全體數(shù)據(jù)樣本中所占的比例,如項集X、Y 同時發(fā)生的概率,為包含X、Y 的項數(shù)與所有項數(shù)之比:
置信度表示規(guī)則的可信程度,即一個數(shù)據(jù)出現(xiàn)后另一個數(shù)據(jù)出現(xiàn)的概率,也即數(shù)據(jù)的條件概率。如項集X 發(fā)生Y 也發(fā)生的概率,為包含X、Y 的項數(shù)與所有包含X 的項數(shù)之比:
頻繁項集簡稱頻集,是所有支持度大于支持度閾值的項集。
在執(zhí)行算法前,用戶自己設(shè)定合適的支持度和置信度閾值。每次迭代后,項集的支持度大于支持度閾值的項集被保留下來,稱為頻繁項集,最終的頻繁項集生成關(guān)聯(lián)規(guī)則。最小支持度是衡量支持度的閾值,表示項集最低重要性;最小置信度是衡量置信度閾值,表示關(guān)聯(lián)規(guī)則的最低可靠性,強關(guān)聯(lián)規(guī)則表示同時滿足最小支持度閾值和最小置信度閾值規(guī)則。
(1)尋找頻繁項集,即項集出現(xiàn)的頻繁性大于支持度閾值的項集。
(2)頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則的支持度和置信度應(yīng)滿足大于所設(shè)定的閾值。
(3)使用第(1)步找到的頻繁項集產(chǎn)生期望規(guī)則,產(chǎn)生只包含集合項的所有規(guī)則,其中每一條規(guī)則右部只有一項,采用規(guī)則定義。
(4)一旦這些規(guī)則生成,只有那些滿足大于用戶給定的置信度規(guī)則才被留下。對候選集中的非頻繁項集進(jìn)行剪枝去掉。運用遞推方法生成所有頻繁項集。
Apriori 算法實現(xiàn)流程如圖1 所示[16]。
Fig.1 Apriori algorithm flow圖1 Apriori 算法流程
本文選取的研究樣本是上證A 股金融行業(yè)公司股東,數(shù)據(jù)來源于Wind 數(shù)據(jù)庫,日期更新截至2020 年3 月,經(jīng)篩選企業(yè)共計73 家,導(dǎo)出這73 家上市公司持股前10 名股東,股東不足10 名的以實際數(shù)為主,經(jīng)處理后該行業(yè)共涉及445 個不同股東。借助Python 語言結(jié)合Apriori 算法思想編寫程序,對數(shù)據(jù)進(jìn)行處理,對金融行業(yè)公司大股東進(jìn)行關(guān)聯(lián)分析研究。
研究的數(shù)據(jù)庫共計73 條事務(wù),涉及445 個不同項目,可見項目較分散。選擇較小的支持度和置信度進(jìn)行嘗試,以尋找適合該研究的最小支持度和置信度。將支持度閾值設(shè)為5%,置信度閾值設(shè)為50%,經(jīng)Python 初步處理后得到表1。
Table 1 Statistics of preliminary processing results表1 初步處理結(jié)果統(tǒng)計
執(zhí)行Apriori 算法Python 程序后,得到頻繁一項集13個,頻繁二項集19 個,頻繁三項集14 個,在此基礎(chǔ)上共挖掘出74 條關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則個數(shù)過多可能無法捕捉到最有價值規(guī)則信息,因此需要調(diào)高閾值以挖掘出更加有效的關(guān)聯(lián)規(guī)律。通過分析將支持度閾值設(shè)為10%,置信度閾值設(shè)為70%,對數(shù)據(jù)再次處理。
Table 2 Frequent itemsets and their support表2 頻繁項集及支持度
對數(shù)據(jù)處理后得到該事物數(shù)據(jù)庫的頻繁項集如表2所示。頻繁項集共涉及4 家公司(股東):中國證券金融股份有限公司、香港中央結(jié)算有限公司(陸股通)、香港中央結(jié)算(代理人)有限公司、中央?yún)R金資產(chǎn)管理有限責(zé)任公司,單項支持度分別為43.84%,38.36%,36.99%,26.03%。頻繁一項集有4 個,頻繁二項集有6 個,頻繁三項集有4個,其項集支持度如表2 所示。
中國證券金融股份有限公司為上交所、深交所和中國證券登記結(jié)算有限責(zé)任公司共同發(fā)起設(shè)立的證券類金融機構(gòu)。香港中央結(jié)算有限公司是港交所的附屬公司,投資者將股份集中存放在該公司,香港中央結(jié)算(代理人)有限公司代理的H 股股東股份總和為其所持有的股份,股份權(quán)益仍舊歸屬投資者本身所擁有;香港中央結(jié)算有限公司(陸股通)指外資通過滬港交易所/深港交易所互聯(lián)通道買賣上海股票/深圳股票。中央?yún)R金投資有限責(zé)任公司是國家出資設(shè)立的國有獨資公司,行使對國有商業(yè)銀行等重點金融企業(yè)出資人的權(quán)利和義務(wù),對4 家證券公司、6 家商業(yè)銀行、2 家保險公司和4 家其它機構(gòu)直接控股參股。可見,目前金融行業(yè)主要由這4 家公司(股東)控制。
在找出頻繁項集基礎(chǔ)上對數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,再次執(zhí)行Python 關(guān)聯(lián)規(guī)則挖掘算法,處理結(jié)果如表3 所示。
Table 3 Association rules and confidence表3 關(guān)聯(lián)規(guī)則及置信度
本文將關(guān)聯(lián)規(guī)則置信度閾值設(shè)為75%,通過關(guān)聯(lián)規(guī)則挖掘得到12 條相關(guān)系數(shù)大于75% 的強關(guān)聯(lián)規(guī)則,主要涵蓋4 家公司(股東),如香港中央結(jié)算(代理人)有限公司、中央?yún)R金資產(chǎn)管理有限責(zé)任公司共同投資某金融企業(yè)時,中國證券金融股份有限公司及香港中央結(jié)算有限公司(陸股通)投資可能性均達(dá)100%;香港中央結(jié)算有限公司(陸股通)、中央?yún)R金資產(chǎn)管理有限責(zé)任公司共同投資某金融企業(yè)時,中國證券金融股份有限公司投資可能性達(dá)100%;香港中央結(jié)算(代理人)有限公司、香港中央結(jié)算有限公司(陸股通)共同投資某金融企業(yè)時,中國證券金融股份有限公司投資可能性達(dá)92.86%;中國證券金融股份有限公司、中央?yún)R金資產(chǎn)管理有限責(zé)任公司共同投資某金融企業(yè)時,香港中央結(jié)算有限公司(陸股通)投資可能性達(dá)88.89%;中央?yún)R金資產(chǎn)管理有限責(zé)任公司投資時,中國證券金融股份有限公司有94.74% 的概率投資,香港中央結(jié)算有限公司(陸股通)有84.21% 的概率投資;中央?yún)R金資產(chǎn)管理有限責(zé)任公司投資時,中國證券金融股份有限公司和香港中央結(jié)算有限公司(陸股通)同時投資概率100% 等。
基于數(shù)據(jù)挖掘中的關(guān)聯(lián)分析,本文對上證A 股金融行業(yè)公司股東進(jìn)行了實證研究,結(jié)果發(fā)現(xiàn):金融行業(yè)主要的控股股東是香港中央結(jié)算(代理人)有限公司、中國證券金融股份有限公司、香港中央結(jié)算有限公司(陸股通)、中央?yún)R金資產(chǎn)管理有限責(zé)任公司,4 家公司(股東)在投資企業(yè)時存在一定的關(guān)聯(lián)規(guī)律。本研究拓展了數(shù)據(jù)挖掘—關(guān)聯(lián)分析在經(jīng)管領(lǐng)域的應(yīng)用,但經(jīng)典的Apriori 算法在產(chǎn)生關(guān)聯(lián)規(guī)則時會生成大量的規(guī)則集,效率不高,同時本文只對上證A 股金融行業(yè)公司進(jìn)行分析,樣本選擇存在一定局限性,后續(xù)研究將在這兩方面進(jìn)行改進(jìn)和完善。