衛(wèi) 錦 常凱玲
(1.山西太原科技大學(xué),山西 太原 030024;2.山西晉城市中級(jí)人民法院,山西 晉城 048000)
隨著中國(guó)經(jīng)濟(jì)迅速發(fā)展,證券市場(chǎng)已經(jīng)成為資本市場(chǎng)的重要組成部分。對(duì)證券的分析研究,多以綜合運(yùn)用因子和聚類分析進(jìn)行企業(yè)經(jīng)營(yíng)績(jī)效、競(jìng)爭(zhēng)力評(píng)價(jià)及股指分析為基礎(chǔ),以預(yù) 測(cè)證券價(jià)值未來(lái)走勢(shì)為目的[1]。針對(duì)行業(yè)間相關(guān)關(guān)系分析研究較少,尤其是通過(guò)人工智能方法對(duì)證券市場(chǎng)行業(yè)的分析研究較少[2]。該文通過(guò) K-means 聚類方法對(duì)證券市場(chǎng)中行業(yè)間的相關(guān)關(guān)系進(jìn)行研究,并提出了研究結(jié)論。
隨著人工智能時(shí)代到來(lái),人們將人工智能相關(guān)技術(shù)應(yīng)用到證券數(shù)據(jù)分析中。人工智能方法的一個(gè)主要特點(diǎn)是通過(guò)數(shù)據(jù)直接得出結(jié)果,數(shù)據(jù)間的相互關(guān)系由算法自身處理,使用者不能清晰地看出數(shù)據(jù)間的相互關(guān)系。該文首先針對(duì)證券行業(yè)數(shù)據(jù)特點(diǎn),采用聚類算法分析證券行業(yè)的相關(guān)數(shù)據(jù),然后通過(guò)所得結(jié)果分析行業(yè)間的相互關(guān)聯(lián),最后給出分析結(jié)論。
聚類問(wèn)題屬于無(wú)監(jiān)督學(xué)習(xí)范疇,在缺少足夠先驗(yàn)知識(shí)的條件下,通過(guò)優(yōu)化評(píng)價(jià)函數(shù),挖掘數(shù)據(jù)中的關(guān)聯(lián)模式,將數(shù)據(jù)樣本分成多個(gè)類別[3]。聚類問(wèn)題的特點(diǎn)主要是無(wú)監(jiān)督和缺乏先驗(yàn)知識(shí)。證券領(lǐng)域不同行業(yè)間的關(guān)系一般認(rèn)為是無(wú)法定量,可以認(rèn)為其數(shù)據(jù)缺少先驗(yàn)知識(shí), 同時(shí)在分析行業(yè)間關(guān)系過(guò)程中不需要其他因素的注入,因此應(yīng)用無(wú)監(jiān)督方式。針對(duì)證券行業(yè)的數(shù)據(jù)特點(diǎn),該文選擇聚類分析方法對(duì)數(shù)據(jù)進(jìn)行分析。
采用的數(shù)據(jù)源為申萬(wàn)宏源官方網(wǎng)站提供的含有 2000 年1 月 18 日~ 2020 年 8 月 18 日的11 個(gè)行業(yè)的一類行業(yè)日?qǐng)?bào)表。從成交量、漲跌幅、市盈率3 個(gè)維度對(duì)數(shù)據(jù)進(jìn)行 K-means聚類分析。首先將所有數(shù)據(jù)以上述3 個(gè)維度繪制成三維圖,如圖1 所示。
然后應(yīng)用 K-means 算法進(jìn)行數(shù)據(jù)分析,主要有以下4 個(gè)步驟。1)從樣本中隨機(jī)選取K個(gè)質(zhì)心作為均值向量{μ1,μ2...μk}。2)遍歷剩余數(shù)據(jù)到每個(gè)質(zhì)心的距離,將其分配到最近的一個(gè)簇,形成K個(gè)簇。3)再次計(jì)算 K 個(gè)簇的均值向量μi以獲得新的質(zhì)心K。4)迭代(2)(3)步驟,質(zhì)心K沒(méi)有再發(fā)生變化,簇不再變化,算法結(jié)束。該文選取的K值為5,通過(guò) K-means 算法后得到質(zhì)心,如圖2 所示。
對(duì)質(zhì)心進(jìn)行分析發(fā)現(xiàn),其相互間的距離存在差距。對(duì)所有質(zhì)心進(jìn)行歸一化處理,得到質(zhì)心間相互距離,見(jiàn)表1,發(fā)現(xiàn)質(zhì)心 1 和質(zhì)心 4 間距離最大,1 號(hào)和 3 號(hào)質(zhì)心間距離最小。
表1 質(zhì)心間距離(歸一化處理后距離)
為了研究質(zhì)心間距離與行業(yè)間的關(guān)聯(lián)性,對(duì)每個(gè)行業(yè)數(shù)據(jù)進(jìn)行占比分析,即每個(gè)行業(yè)分屬簇類總量占行業(yè)總量的比例。11 個(gè)行業(yè)部分占比情況見(jiàn)表2。
圖1 一類行業(yè)日?qǐng)?bào)表三維展示
圖2 K-means 算法得到的質(zhì)心
表2 部分行業(yè)數(shù)據(jù)占比(單位:%)
表2 中質(zhì)心1 占比最多的是家用電器行業(yè),質(zhì)心4 占比最多的是有色金屬行業(yè)。為了分析質(zhì)心對(duì)行業(yè)的影響,操作如下。1)將兩行業(yè)對(duì)應(yīng)的數(shù)據(jù)提取出來(lái)。2)以 100 萬(wàn)元為起始總價(jià)TV,第一個(gè)時(shí)間點(diǎn)2 個(gè)行業(yè)各占TV/2。后一時(shí)間點(diǎn)以公式
①方法投資。
圖3 家用電器與有色金屬價(jià)值曲線
圖4 家用電器與食品價(jià)值曲線
圖3 顯示質(zhì)心距離大的行業(yè)間屬于相關(guān)性質(zhì)的行業(yè)。從實(shí)際角度出發(fā),有色金屬屬于家用電器原材料,兩者屬于一種相關(guān)的行業(yè),電器利潤(rùn)大,有色金屬利潤(rùn)升高。質(zhì)心間距離小的行業(yè)屬于一種互補(bǔ)性質(zhì)行業(yè),如圖4 所示。實(shí)際中,家用電器和食品對(duì)一個(gè)家庭屬互補(bǔ)品,在家庭買(mǎi)大量的家用電器后,食品的開(kāi)銷在一段時(shí)間內(nèi)會(huì)相應(yīng)的降低。通過(guò)其他數(shù)據(jù)的測(cè)試也證實(shí)該結(jié)論。
圖3 和圖 4 中質(zhì)心3 數(shù)據(jù)屬于上升態(tài)勢(shì),質(zhì)心1 數(shù)據(jù)也屬于上升態(tài)勢(shì),但是上升趨勢(shì)不如質(zhì)心3。通過(guò)其他數(shù)據(jù)驗(yàn)證,也證實(shí)了質(zhì)心關(guān)聯(lián)趨勢(shì)結(jié)論,如圖 5、圖6 和圖7 所示。
圖5 采掘行業(yè)質(zhì)心1 數(shù)據(jù)
圖6 醫(yī)學(xué)行業(yè)質(zhì)心3 數(shù)據(jù)
圖7 有色金屬行業(yè)質(zhì)心4 數(shù)據(jù)
透過(guò)對(duì)聚類結(jié)果關(guān)聯(lián)行業(yè)后分析,聚類可得行業(yè)間關(guān)聯(lián)性,也可以對(duì)應(yīng)質(zhì)心的關(guān)聯(lián)趨勢(shì)。
首先,對(duì)證券數(shù)據(jù)聚類分析獲得處于上升狀態(tài)的質(zhì)心及互補(bǔ)狀態(tài)的行業(yè)。然后,當(dāng)相關(guān)數(shù)據(jù)處于質(zhì)心范圍時(shí),按一定的比例投資該互補(bǔ)行業(yè)。當(dāng)數(shù)據(jù)脫離質(zhì)心范圍,抽出資本,提取利潤(rùn)。對(duì)該策略測(cè)試,20 年內(nèi)收益為 400%左右。
針對(duì)證券行業(yè)數(shù)據(jù)特點(diǎn),通過(guò) K-means聚類算法,成功地挖掘出證券價(jià)值走勢(shì)與質(zhì)心之間的關(guān)系以及行業(yè)間相關(guān)性與質(zhì)心間距離的關(guān)系,提出先聚類再分析最后定策略的方法。經(jīng)驗(yàn)證,該方法在測(cè)試數(shù)據(jù)集上有良好的效果。
中國(guó)新技術(shù)新產(chǎn)品2020年20期