北方工業(yè)大學(xué)信息學(xué)院 張濤 趙寶鑫
為了判斷國內(nèi)二級(jí)市場未知股票是否被人為操縱,本文以 2017—2022年期間的證監(jiān)會(huì)行政處罰決定書中的案例為基礎(chǔ)數(shù)據(jù),將Logistic回歸模型(即邏輯回歸模型)與MACD、換手率等指標(biāo)相結(jié)合,用機(jī)器學(xué)習(xí)方法訓(xùn)練出以Logistic回歸模型為基礎(chǔ)的股票操縱識(shí)別模型,模型總體識(shí)別準(zhǔn)確率最高達(dá)到91.80%。
中國股市成立30年以來,涉嫌操縱股價(jià)的案件層出不窮,這些案件既嚴(yán)重影響了證券市場的公平公正,導(dǎo)致股票市場動(dòng)蕩破壞金融市場的穩(wěn)定,阻礙了我國社會(huì)主義市場經(jīng)濟(jì)的良性發(fā)展。所以,研究股票走勢是否被別有用心的機(jī)構(gòu)和個(gè)人操縱就有了深遠(yuǎn)的意義。操縱者為了獲得超額的收益,逃脫法律制裁,其有組織有計(jì)劃制定操縱策略,使用隱蔽性強(qiáng)的操縱技術(shù),使監(jiān)管者難以發(fā)現(xiàn)他們的存在。如果利用機(jī)器學(xué)習(xí)對(duì)未知股票進(jìn)行人工智能篩查,可以極大加快對(duì)違法操縱者的鎖定,監(jiān)管者破獲此類案件的時(shí)間和數(shù)量都會(huì)顯著提升,可有效震懾投機(jī)客,為中國證券市場的健康穩(wěn)定發(fā)展提供堅(jiān)實(shí)的保障。
在我國持續(xù)快速經(jīng)濟(jì)發(fā)展中,不斷向西方學(xué)習(xí)的同時(shí)也不斷在走中國特色社會(huì)主義道路,發(fā)達(dá)國家在股市發(fā)展中遇到的問題,我們往往也會(huì)遇到,這其中我國新興市場對(duì)股票操縱的擔(dān)憂也在不斷地增加。一些人為了獲取巨額利益,不斷在證監(jiān)會(huì)的監(jiān)管下打擦邊球企圖逃避監(jiān)管,他們精心設(shè)計(jì)操縱方案,使監(jiān)管變得困難。所以及時(shí)發(fā)現(xiàn)股市的操縱行為,對(duì)保護(hù)投資者的利益與維護(hù)股市公平交易有深遠(yuǎn)意義?;贚ogistic回歸模型的股票價(jià)格操縱具有足夠的能力來提高操縱檢測的準(zhǔn)確性,它可以顯著地降低監(jiān)管者的成本,于是機(jī)器學(xué)習(xí)的發(fā)展為股票價(jià)格操縱識(shí)別提供了一種新的選擇。
在人們意識(shí)到了股票價(jià)格操縱的危害以后,國內(nèi)外大量研究人員紛紛開始了對(duì)股票價(jià)格操縱的檢測方法研究。Robert A. Jarrow[1]通過反復(fù)實(shí)驗(yàn)建立了一套早期理想市場價(jià)格模型,通過不斷模擬真實(shí)交易,總結(jié)出機(jī)構(gòu)可以利用自有資金優(yōu)勢與內(nèi)幕消息,讓股價(jià)朝著對(duì)自己有利的價(jià)格波動(dòng),印證了股市操縱存在的可能性;Karl[2]使用一種回歸模型對(duì)已知被操縱股票進(jìn)行歷史走勢分析,并對(duì)芬蘭的國家股市進(jìn)行了股票價(jià)格操縱的檢測;蔣賢鋒[3]在研究某只被操縱股票的操縱程度時(shí),認(rèn)為股票換手率與其操縱時(shí)間是衡量相關(guān)關(guān)系檢驗(yàn)的重要指標(biāo),其中操縱時(shí)間對(duì)其檢驗(yàn)的解釋力最好;周春生[4]等詳細(xì)闡述了一只被操縱股票會(huì)有顯著的建倉期與拋盤期,在其操縱期間該股票的換手率將升高,股價(jià)漲跌幅度變大;王震[5]從我國二級(jí)市場被證監(jiān)會(huì)處罰的操縱股票為基礎(chǔ)樣本中分析,通過數(shù)據(jù)對(duì)比指出使用將多種指標(biāo)同時(shí)使用,可能會(huì)降低識(shí)別被操縱股票成功率。
國內(nèi)在Logistic回歸模型檢測股票價(jià)格操縱案例上,也有一定的分析研究。張?jiān)S宏[6]驗(yàn)證了Logistic回歸模型對(duì)檢測股票操縱識(shí)別內(nèi)幕操縱案例的適用性,確定了作為自變量的判別模型中Logistic回歸模型在以共線性較強(qiáng)的市場反應(yīng)指標(biāo)具有優(yōu)越性。張宗新[7]等從我國二級(jí)市場發(fā)生內(nèi)幕操縱案例為樣本,以市場反應(yīng)指標(biāo)作為研究變量,用Logistic回歸模型進(jìn)行操縱行為的檢測,并對(duì)模型做出來對(duì)比分析。陸蓉[8]等認(rèn)為在股票被操縱期間存在Beta系數(shù)偏低的現(xiàn)象和收益率與人均市值較高的現(xiàn)象,認(rèn)為在換手率、成交量、波動(dòng)率和成交額在操縱前后有一些差異。熊熊[9]等在建立了一種Logistic回歸模型,用以檢測我國港股股指期貨被操縱的可能性,將市場波動(dòng)性與市場流動(dòng)性指標(biāo)放在所構(gòu)建模型中,形成股指期貨操縱事件的預(yù)警系統(tǒng)。夏文學(xué)[10]使了SPSS統(tǒng)計(jì)軟件對(duì)股票價(jià)格操縱案例進(jìn)行構(gòu)建Logistic回歸模型,總結(jié)出衡量被操縱股票的共有的四個(gè)指標(biāo)特征,并對(duì)建立的模型進(jìn)行了檢驗(yàn)。張建鋒[11]等在通過Logistic回歸模型,發(fā)現(xiàn)具體市值小、戶均市值低等七個(gè)特征更易于被不法分子操縱,模型準(zhǔn)確率可以達(dá)到63.89%。
當(dāng)前雖然很多論文采用Logistic回歸模型對(duì)股票價(jià)格操縱行為進(jìn)行了分析,但均缺少非法交易者操縱策略本質(zhì)的特征分析,使用數(shù)據(jù)無論是歷史分時(shí)數(shù)據(jù)還是歷史日交易數(shù)據(jù)都擁有局限性。本文從操縱案例出發(fā),引入能夠真正影響股票價(jià)格走向的歷史數(shù)據(jù),希望得到更高更好的股價(jià)操縱識(shí)別檢測的準(zhǔn)確率。
在中國證券監(jiān)督管理委員會(huì)官網(wǎng)中的政府信息公開中查詢到上千份的行政處罰決定書,將在 2017—2022年期間的案例進(jìn)行手工采集記錄如表1所示,對(duì)進(jìn)行初步篩選去除操縱期內(nèi)因停牌導(dǎo)致交易數(shù)據(jù)不連續(xù)的上市公司。所有被操縱股價(jià)的上市公司歷史日交易數(shù)據(jù)采用Tushare數(shù)據(jù)庫的免費(fèi)開源Python財(cái)經(jīng)數(shù)據(jù)接口包,利用Python語言操作建立MySQL數(shù)據(jù)庫,將Pandas的DataFrame實(shí)現(xiàn)與MySQL的交互,用以搭建分析數(shù)據(jù)庫。
表1 中國證監(jiān)會(huì)行政處罰決定書(示例)Tab.1 Decision on administrative punishment of CSRC (example)
將數(shù)據(jù)下載到本地,將操縱起止時(shí)間超過半年和小于3日的數(shù)據(jù)從樣本中去除。因其中操縱時(shí)間導(dǎo)致股票波動(dòng)過于穩(wěn)健或激進(jìn),此類極端樣本易導(dǎo)致數(shù)據(jù)過擬合。最后將操縱起始時(shí)間前30日數(shù)據(jù)標(biāo)記為未被不法分子股票價(jià)格操縱區(qū)間。
本文利用Logistic回歸模型進(jìn)行對(duì)構(gòu)建,它在大數(shù)據(jù)和經(jīng)濟(jì)學(xué)中被廣泛應(yīng)用,并且屬于廣義線性回歸中的一種。線性回歸模型在全體實(shí)數(shù)范圍內(nèi)產(chǎn)生預(yù)測值,Logistic回歸模型則在1與0的范圍內(nèi)產(chǎn)生預(yù)測值,主要是用來解決二分類問題。設(shè)因變量y,值為0時(shí)表示該A股上市公司不易被操縱股票價(jià)格,值為1時(shí)表示該A股上市公司容易被操縱股票價(jià)格,其中x1,x2,x3,x4,…,x(n-1),xn表示的自變量受導(dǎo)致股票價(jià)格改變的n個(gè)元素影響,如果公司被不法分子操縱概率為P,則:
令θ0為常數(shù),θ1,θ2,θ3,θ4,…,θ(n-1),θn為偏回歸系數(shù),假設(shè)分布為hθ(x),則線性回歸:
在[0,1]映射區(qū)間內(nèi)轉(zhuǎn)換,使用Sigmoid函數(shù):
與線性回歸公式聯(lián)立:
即:
設(shè)定概率分布p(x)與q(x),使用交叉熵作為Logistic回歸的損失函數(shù):
二元邏輯回歸真實(shí)分布y與假設(shè)分布hθ(x),用來計(jì)算所有樣本的損失之和的平均值:
梯度下降更新初始化參數(shù)θ,由:
J(θ)對(duì)θj求偏導(dǎo):
有:
為了保留所有特征減小某些非相關(guān)特征的權(quán)重,使用正則化來降低過擬合,把數(shù)據(jù)中的噪點(diǎn)過濾掉,當(dāng)L2正則化后梯度下降更新,則有:
和
在預(yù)判指標(biāo)的選擇上,堅(jiān)持實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),于是在經(jīng)過不斷多次的反復(fù)實(shí)驗(yàn)論證后,在程序輸入換手率與MACD指標(biāo)后,得出的實(shí)驗(yàn)效果更好。實(shí)踐證明如果多種指標(biāo)同時(shí)使用,會(huì)降低識(shí)別被操縱股票成功率。換手率定義為日交易時(shí)間段內(nèi)股票的成交量與發(fā)行總股數(shù)比值的百分比,在我國為日交易時(shí)間段內(nèi)股票的成交量與流通股股本比值的百分比,也稱為是周轉(zhuǎn)率,換手率也是反映投資活躍程度與市場交易技術(shù)指標(biāo)中的其中之一。往往每日換手率排名高的前幾只股票,在日K線圖中反應(yīng)出跳躍性的走勢,于是在選擇輸入預(yù)判指標(biāo)中換手率必不可少。MACD利用收盤價(jià)的短期指數(shù)移動(dòng)平均值(一般12 d)與長期指數(shù)移動(dòng)平均值(一般26 d)反映該時(shí)間段內(nèi)的股票走勢,以此可以對(duì)買進(jìn)、賣出時(shí)機(jī)作出研判的技術(shù)指標(biāo),在判斷長期趨勢中MACD在長線投資的準(zhǔn)確率更好而且在實(shí)際應(yīng)用中更多,于是在選擇輸入預(yù)判指標(biāo)中MACD也是必不可少。
本文采用Python編寫引入機(jī)器學(xué)習(xí)中的Logistic模型算法,選用優(yōu)化器也是為了獲取更高準(zhǔn)確率必不可少的環(huán)節(jié)。傳統(tǒng)機(jī)器學(xué)習(xí)的經(jīng)常把學(xué)習(xí)率變?yōu)槌?shù)項(xiàng),或者將學(xué)習(xí)率的調(diào)節(jié)參照訓(xùn)練次數(shù)的多少進(jìn)行一定的調(diào)整,不容易更好的提升學(xué)習(xí)率,忽視了其變化。有了自適應(yīng)學(xué)習(xí)率優(yōu)化算法后,對(duì)提升學(xué)習(xí)率有了顯著幫助,更減少了訓(xùn)練時(shí)長,主流的Adam優(yōu)化算法就是其中一種。
以上β1動(dòng)力值一般為0.9,β2動(dòng)力值一般則為0.999。為一階動(dòng)量項(xiàng)為mt的修正值,為二階動(dòng)量項(xiàng)為vt的修正值。θt為時(shí)間t的迭代模型的參數(shù),代價(jià)函數(shù)在第t次θt處產(chǎn)生的梯度大小為gt=ΔJ(θt)。ε為使分母不等于0,一般取1e-8。
實(shí)驗(yàn)訓(xùn)練前,最終篩選出股票220只,劃分出訓(xùn)練集交易天數(shù)46202條,驗(yàn)證集16450條,測試集14350條。
采用MACD與換手率指標(biāo)為預(yù)判指標(biāo),Adam優(yōu)化器,binary_crossentropy損失函數(shù),兩種激活函數(shù)為如圖1所示ReLU函數(shù)與如圖2所示Sigmoid函數(shù),ACC評(píng)價(jià)指標(biāo),訓(xùn)練次數(shù)初步設(shè)定為100次。
圖1 ReLU函數(shù)圖Fig.1 ReLU function
圖2 Sigmoid函數(shù)Fig.2 Sigmoid function
訓(xùn)練開始后,準(zhǔn)確率隨訓(xùn)練百分比增加而增加最終準(zhǔn)確率為0.9180,如圖3所示。損失值隨訓(xùn)練百分比增加而減少損失值為0.2637,如圖4所示。
圖3 準(zhǔn)確率Fig.3 Accuracy
圖4 損失值Fig.4 Loos value
最后輸出模型各層的參數(shù)狀況,通過計(jì)算產(chǎn)生3個(gè)全連接層,總共37個(gè)參數(shù)。第一個(gè)全連接層,輸入數(shù)據(jù)維度為2,有4個(gè)神經(jīng)元,共12個(gè)參數(shù);第二個(gè)全連接層,輸入數(shù)據(jù)維度為4,有4個(gè)神經(jīng)元,共20個(gè)參數(shù);第三個(gè)全連接層,輸入數(shù)據(jù)維度為4,有1個(gè)神經(jīng)元,共5個(gè)參數(shù)。
在2021年中央金融工作會(huì)議中,表示要“進(jìn)一步深化金融改革”,并明確指出“加強(qiáng)金融法制建設(shè)”與“加強(qiáng)金融監(jiān)管”[12]。說明隨著我國經(jīng)濟(jì)的不斷發(fā)展,對(duì)股票價(jià)格操縱的違法行為予以監(jiān)管并制止是符合我國當(dāng)前利益的。從最后結(jié)果來看,91.80%準(zhǔn)確率符合預(yù)期,本文所建立的Logistic回歸模型對(duì)股票價(jià)格操縱識(shí)別有較好的檢測效果。通過換手率指標(biāo)與MACD指標(biāo)可以暴露出股票價(jià)格操縱者的真實(shí)意圖。在將來的模型優(yōu)化中如果嘗試擴(kuò)大歷史與未來數(shù)據(jù)量,會(huì)使Logistic回歸模型識(shí)別準(zhǔn)確率進(jìn)一步加強(qiáng)。