亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的上市公司高送轉(zhuǎn)預測研究

        2021-11-08 03:03:54江琛夏曉玲吳偉崔海波馬傳香
        湖北大學學報(自然科學版) 2021年6期
        關鍵詞:現(xiàn)金標準化預測

        江琛,夏曉玲,吳偉,崔海波,馬傳香

        (1.湖北大學計算機與信息工程學院, 湖北 武漢 430062; 2.湖北省教育信息化工程研究中心, 湖北 武漢 430062)

        0 引言

        送轉(zhuǎn)是上市公司給各個股東分紅的一種方式,將股份公司的盈余公積金或者未分配利潤轉(zhuǎn)化為股份,將分紅作為股票給予股東,將盈余公積金或利潤以股票的形式留在公司.而高送轉(zhuǎn)指的是送轉(zhuǎn)比例達到0.5及以上的股票.一般認為,“高送轉(zhuǎn)”除了暗示公司經(jīng)營業(yè)績的良好表現(xiàn),往往還預示著公司會有較大的發(fā)展和成長,傳遞公司未來發(fā)展前景的良好信息,增強投資者的信心[1].

        對高送轉(zhuǎn)股票的預測對投資者具有極重大的經(jīng)濟學意義.目前,在我國股票市場中,中小型投資者比較多,中小型投資者在信息獲取和甄別方面以及專業(yè)知識方面處于弱勢地位,這增加了他們識別那些真正具有投資價值的“高送傳”公司的難度,本研究從不同投資者的視角對高送轉(zhuǎn)進行預測,提供更加具有針對性的決策支持.

        石好等[2]采用邏輯回歸(logistic regression)與主成分分析(principal component analysis, PCA)相結合的方法, 構建了年報高送轉(zhuǎn)股票的預測模型, 模型正確率在55%以上, 預測準確度可達80.91%.蔡景波,等[3]對數(shù)據(jù)進行缺失值、異常值、標準化等數(shù)據(jù)處理,采取特征選擇中過濾法、包裹法、嵌入法等方法提取特征.使用Stacking集成模型對股票是否發(fā)生高送轉(zhuǎn)進行預測,其 F1得分為0.59,AUC得分為0.82.事實上,對投資者而言,得到所有的高送轉(zhuǎn)股票并沒有太大意義,投資者更關心的是通過數(shù)據(jù)挖掘的手段收集到的會發(fā)生高送轉(zhuǎn)的股票的準確率,因此對于高送轉(zhuǎn)問題而言,相對于查全率,查準率對于投資者具有更加重大的意義.

        1 算法介紹

        1.1 Lasso回歸Lasso回歸是一種基于收縮和變量選擇方法的回歸模型,它解決了標準回歸方法中的“樂觀偏差”,和“極端情況時模型表現(xiàn)較差”這兩個問題[4].Lasso回歸的特色就是可以建立廣義線型模型,這里廣義線型模型包含一維連續(xù)因變量、多維連續(xù)因變量、非負次數(shù)因變量、二元離散因變量、多元離散因變,除此之外,無論因變量是連續(xù)或離散的,Lasso回歸都能處理,總的來說,Lasso對于數(shù)據(jù)的要求是極其低的,所以應用程度較廣;除此之外,Lasso還能夠?qū)ψ兞窟M行篩選和降低模型的復雜程度.復雜度調(diào)整是指通過一系列參數(shù)控制模型的復雜度,從而避免過擬合.對于線性模型來說,復雜度與模型的變量數(shù)有直接關系,變量數(shù)越多,模型復雜度就越高.更多的變量在擬合時往往可以給出一個看似更好的模型,但是同時也面臨過擬合的危險.lasso回歸通過約束回歸系數(shù)的絕對值之和小于固定值λ,實現(xiàn)“壓縮”回歸系數(shù)趨近于零的方式減少預測誤差,但實際情況下,這種方法會限制模型的復雜性[5].

        1.2 PCA降維PCA是一種常見的數(shù)據(jù)分析方式,常用于高維數(shù)據(jù)的降維,可用于提取數(shù)據(jù)的主要特征分量.在某些領域的研究中會采用一種混合的PCA算法來實現(xiàn)降維,PCA會幫助從高維數(shù)據(jù)中識別出低維數(shù)據(jù),以便對數(shù)據(jù)進行降維處理,這確保了數(shù)據(jù)集中冗余屬性的消除[6].在訓練反向傳播神經(jīng)網(wǎng)絡(BPNN)體系結構之前,使用主成分分析(PCA)去關聯(lián)輸入數(shù)據(jù),有助于提高BP神經(jīng)網(wǎng)絡的預測性能[7].PCA作為一種無監(jiān)督降維方法,在圖像處理分析領域同樣被廣泛認為是一種高效的預處理步驟[8].PCA的工作就是從原始的空間中順序地找一組相互正交的坐標軸,新的坐標軸的選擇與數(shù)據(jù)本身是密切相關的.其中,第一個新坐標軸選擇是原始數(shù)據(jù)中方差最大的方向,第二個新坐標軸選取是與第一個坐標軸正交的平面中使得方差最大的,第三個軸是與第1、2個軸正交的平面中方差最大的.依次類推,可以得到n個這樣的坐標軸.通過這種方式獲得的新的坐標軸,大部分方差都包含在前面k個坐標軸中,后面的坐標軸所含的方差幾乎為0.于是,余下的坐標軸可以被忽略,只保留前面k個含有絕大部分方差的坐標軸.

        1.3 邏輯回歸算法邏輯回歸模型是一種在統(tǒng)計學和機器學習領域中都非常流行的模型,用于擬合二元結果和評估解釋變量的統(tǒng)計顯著性,并探尋二分類結果(例如,存活/死亡,成功/失敗,是/否)與一個或多個預測因子之間的關系,這些預測因子可能是離散的或回歸的[9].在衛(wèi)生服務、人口和公共衛(wèi)生以及流行病學的相關研究中,會經(jīng)常出現(xiàn)多層次數(shù)據(jù).在相關研究領域中,二元結果是非常常見的.對PubMed數(shù)據(jù)庫的檢索結果表明,多層或分層回歸模型的使用正在迅速增加[10].

        “多元邏輯回歸”是一種研究多因子對二類分結果的共同影響的技術.對于多元邏輯回歸,可用如下公式似合分類,在邏輯回歸模型參數(shù)估計時,化簡公式可以帶來很多益處,y={0,1}為分類結果,如式(1)和式(2)所示:

        (1)

        (2)

        對于訓練數(shù)據(jù)集,特征數(shù)據(jù)x={x1,x2, …,xm}和對應的分類數(shù)據(jù)y={y1,y2, …,ym},構建回歸模型,y取值為0或1,可得概率如式(3)和式(4)所示:

        (3)

        (4)

        1.4 支持向量機算法支持向量機被廣泛應用于模式識別,其目標是找到具有最大余量的超平面,以減少誤分類率[11].它按以下方法工作,使用一種非線性映射,把原始訓練數(shù)據(jù)映射到較高的維上,并在新的維上搜索最佳分離超平面,SVM使用支持向量和余量發(fā)現(xiàn)該超平面.作為一個線性分類器,它和其它分類器的區(qū)別在于,SVM不僅能把樣本分對,還能確保余量最大化.SVM的核心操作是兩個向量做內(nèi)積,公式如式(5):

        (5)

        其中y為與x的輸入特征向量相關聯(lián)的預測類;αi是在訓練過程中通過最小化二次目標函數(shù)分配給訓練數(shù)據(jù)點xi的可調(diào)權重;b為偏置項;K是核函數(shù).因此,y可以看做是訓練數(shù)據(jù)點xi和目標數(shù)據(jù)點x之間相似度的加權線性組合.訓練數(shù)據(jù)集中權重為正的數(shù)據(jù)點影響最終的解,稱為支持向量.

        SVM主要研究目標是提高訓練和檢驗速度,使得SVM可以成為超大型數(shù)據(jù)集更可行的選擇.SVM模型參數(shù)的優(yōu)化也是眾多學者研究的目標,文獻[12]提出了一種新的切換延遲粒子群優(yōu)化算法來優(yōu)化支持向量機參數(shù).支持向量機模型同樣有其局限性,傳統(tǒng)的支持向量機方法并不適用于計算數(shù)據(jù)集各屬性的不同特征[13].

        SVM是一種可以對線性可分和線性不可分兩種類型的數(shù)據(jù)集進行分類的模型.最大邊緣超平面是一個線性類邊界,因此對應的SVM可以用來對線性可分的數(shù)據(jù)進行分類,稱這種訓練后的SVM為線性SVM;對于線性不可分的數(shù)據(jù),不能畫一條直線將兩個類分開,該決策邊界是非線性的.當輸入的數(shù)據(jù)不可線性分離時,SVM具有非常顯著的效果[11].

        1.5 XGBoost算法XGBoost是boosting算法的其中一種.Boosting算法的思想是將許多弱分類器集成在一起形成一個強分類器.而所用到的樹模型則是CART回歸樹模型.它作為一種可擴展的樹增強系統(tǒng),已被眾多數(shù)據(jù)科學家廣泛應用于各個領域,并在許多領域獲取了相關的研究進展.它使用稀疏感知算法處理稀疏數(shù)據(jù),為近似學習提供了理論上合理的加權分位數(shù)草圖.并應用了多種相關技術,如緩存訪問模式,數(shù)據(jù)壓縮和分片等,這些技術也可以應用于其他機器學習系統(tǒng)[14].

        CART回歸樹是假設樹為二叉樹,通過不斷將特征進行分裂.比如當前樹結點是基于第j個特征值進行分裂的,設該特征值小于s的樣本劃分為左子樹,大于s的樣本劃分為右子樹,如式(6)、(7)所示.

        R1(j,s)={x|x(j)≤s}

        (6)

        R1(j,s)={x|x(j)>s}

        (7)

        而CART回歸樹實質(zhì)上就是在該特征維度對樣本空間進行劃分,而這種空間劃分的優(yōu)化是一種NP-hard問題,因此,在決策樹模型中是使用啟發(fā)式方法解決.典型CART回歸樹產(chǎn)生的目標函數(shù)如式(8)所示:

        ∑xi∈Rm(yi-f(xi))2

        (8)

        該算法思想就是不斷地添加樹,不斷地進行特征分裂來生長一棵樹,每次添加一個樹,其實是學習一個新函數(shù),去擬合上次預測的殘差.當我們訓練完成得到k棵樹,我們要預測一個樣本的分數(shù),其實就是根據(jù)這個樣本的特征,在每棵樹中會落到對應的一個葉子節(jié)點,每個葉子節(jié)點就對應一個分數(shù),最后只需要將每棵樹對應的分數(shù)加起來就是該樣本的預測值.文獻[15]將XGBoost與大多數(shù)分類方法進行了比較,XGBoost給出了相對更優(yōu)的結果.文獻[16]表明,XGBoost訓練出的集成分類器能有效地防止過擬合,在某些領域,處理多維數(shù)據(jù)時檢測結果優(yōu)于SVM模型.

        2 數(shù)據(jù)及數(shù)據(jù)處理

        本文中數(shù)據(jù)處理流程如圖1所示.

        圖1 數(shù)據(jù)處理流程圖

        2.1 實驗環(huán)境本研究采用的實驗環(huán)境如表1所示.

        表1 實驗環(huán)境

        2.2 數(shù)據(jù)介紹本研究數(shù)據(jù)分為三部分:年數(shù)據(jù)、日數(shù)據(jù)、基礎數(shù)據(jù).年數(shù)據(jù)是數(shù)據(jù)的核心部分,其中含有3 466支股票7年的股市數(shù)據(jù),共有24 262行,362列數(shù)據(jù);日數(shù)據(jù)含有3 466支股票在這7年中每天的股市數(shù)據(jù),共有5 899 132行數(shù)據(jù),61列數(shù)據(jù);基礎數(shù)據(jù)中包含了這3 466支股票的上市年限、所屬行業(yè)、所屬概念板塊數(shù)據(jù).其中日數(shù)據(jù)與年數(shù)據(jù)中包含部分重復特征,部分無用特征和部分數(shù)據(jù)幾乎全部缺失的特征.年數(shù)據(jù)中的‘會計準則’、‘貨幣代碼’在模型中沒有作用且在數(shù)據(jù)中只有一種取值,‘會計區(qū)間’,‘合并標志,1-合并,2-母公司’兩列的數(shù)據(jù)同樣沒有任何差異.本研究以年數(shù)據(jù)為主,日數(shù)據(jù)中與年數(shù)據(jù)重復的列取年數(shù)據(jù).基礎數(shù)據(jù)中的‘上市年限’和‘所屬行業(yè)’對高送轉(zhuǎn)具有一定的預測意義.

        2.3 數(shù)據(jù)處理將文件名改為英文,年數(shù)據(jù)文件名改為YearData.csv;日數(shù)據(jù)改為DayData.csv;基礎數(shù)據(jù)改為BasicData.csv,文件讀取見代碼部分.

        2.3.1 數(shù)據(jù)合并 年數(shù)據(jù)的shape為(24 262, 362),年數(shù)據(jù)中包含大量缺失的列與行,在這里我們將數(shù)據(jù)缺失達到0.7以上的行與列刪除,避免后期處理過程中過多的缺失值填補對預測模型造成干擾,最終剩余數(shù)據(jù)的shape為(22 551,362).然后將列名‘年份(年末)’改為‘年’以方便合并日數(shù)據(jù)和基礎數(shù)據(jù).

        日數(shù)據(jù)的shape為(5 899 132, 61),日數(shù)據(jù)中含有的部分特征是年數(shù)據(jù)中已經(jīng)包含在內(nèi)的,所以在這里我們將其剔除.剔除之后再求出剩余特征的每年12月份的日平均值,以‘股票編號’,‘年’兩列為聯(lián)合主鍵,年數(shù)據(jù)為主體,將年數(shù)據(jù)與日數(shù)據(jù)進行合并,合并后數(shù)據(jù)shape為(22 551, 408).

        基礎數(shù)據(jù)的shape為(3 466, 4),在其中提取出‘上市年限’和 ‘所屬行業(yè)’兩列再次合并,所需要的注意的是對于‘上市年限’特征,其與上市時間成反比,如第七年的上市年限是1,那么第六年的上市年限便為2,第一年的上市年限則為7.特征‘所屬行業(yè)’在其合并之后再進行獨熱編碼.將其與年日數(shù)據(jù)融合后的表再次融合為一張,最終的shape為(22 551, 410).

        2.3.2 使用獨熱編碼處理‘所屬行業(yè)’特征 ‘所屬行業(yè)’特征是非數(shù)值型的離散化數(shù)據(jù),需要將其整合為數(shù)值型數(shù)據(jù).其中,獨熱編碼是一種相對簡單的對離散型數(shù)據(jù)進行數(shù)值編碼的方法.獨熱編碼即one-hot 編碼,又稱一位有效編碼,其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼,每個狀態(tài)都有它獨立的寄存器位,并且在任意時候,其中只有一位有效.它基于向量空間中的度量來進行計算,將離散的特征的取值擴展到了歐式空間,離散特征的每一個取值對應多維空間中的一個點,使得各個離散數(shù)據(jù)在數(shù)值化的時候不會產(chǎn)生歐式距離不等的情況出現(xiàn).以地區(qū)特征為例: ‘湖北’‘湖南’‘河南’,如果將其編碼為0,1,2,那么相當于默認了湖北與湖南,湖南與河南的距離為1,而湖北與河南的距離為2,這樣就會給予機器學習模型錯誤的數(shù)據(jù)信息.而使用獨熱編碼將該特征編碼為三維特征:湖北100,湖南010,河南001,在歐氏距離上便沒有了區(qū)別.使用獨熱編碼(one-hot encoding),將離散特征的取值擴展到了歐式空間,離散特征的某個取值就對應歐式空間的某個點.將離散型特征使用獨熱編碼,會讓特征之間的距離計算更加合理.

        本研究中,特征‘所屬行業(yè)’共用18個離散特征,分別是‘房地產(chǎn)業(yè)’, ‘制造業(yè)’, ‘批發(fā)和零售業(yè)’, ‘租賃和商務服務業(yè)’, ‘綜合’, ‘信息傳輸、軟件和信息技術服務業(yè)’,‘文化、體育和娛樂業(yè)’, ‘建筑業(yè)’, ‘電力、熱力、燃氣及水生產(chǎn)和供應業(yè)’, ‘衛(wèi)生和社會工作’, ‘采礦業(yè)’,‘科學研究和技術服務業(yè)’, ‘交通運輸、倉儲和郵政業(yè)’,‘農(nóng)、林、牧、漁業(yè)’, ‘水利、環(huán)境和公共設施管理業(yè)’, ‘金融業(yè)’,‘住宿和餐飲業(yè)’, ‘教育’,那么在獨熱編碼之后便會成為18維特征,處理完成后shape為(22 551, 427).

        2.3.3 通過觀察法和數(shù)理統(tǒng)計進行特征篩選 數(shù)據(jù)中有一些沒有學習意義的干擾特征,如‘貨幣代碼’,‘會計準則’,‘會計區(qū)間’,‘合并標志,1-合并,2-母公司’,由于已經(jīng)擁有了是否高送轉(zhuǎn)特征,‘每股送轉(zhuǎn)’特征同樣為冗余特征.除此之外,‘高轉(zhuǎn)送預案公告日’,‘高轉(zhuǎn)送股權登記日’,‘高轉(zhuǎn)送除權日’雖然與高送轉(zhuǎn)密切相關,但同樣無法作為因子預測下一年是否高送轉(zhuǎn).將這些篩選出的無意義特征進行刪除.

        此外,刪除數(shù)據(jù)缺失到達0.7以上的特征,完成后數(shù)據(jù)shape為(22 551, 314).

        2.3.4 計算出標簽‘下一年是否發(fā)生高送轉(zhuǎn)’列作為標簽值 通過‘股票編號’,‘年’,‘是否高送轉(zhuǎn)’三列計算出‘下一年是否發(fā)生高送轉(zhuǎn)’,是為1,否為0,將其作為標簽,取所有股票第七年的‘下一年是否發(fā)生高送轉(zhuǎn)’列為‘nan’,第七年數(shù)據(jù)便是我們的預測對象.

        2.3.5 使用Lasso回歸和PCA對數(shù)據(jù)進行降維 通過特征‘年’將數(shù)據(jù)進行拆分,特征‘年’的值為7的數(shù)據(jù)為預測集,1~6為訓練集.

        首先使用Lasso回歸處理數(shù)據(jù)的共線性問題,使用corr()函數(shù)查看數(shù)據(jù)的共線性,發(fā)現(xiàn)數(shù)據(jù)中存在共線性問題,于是選擇使用Lasso回歸消除數(shù)據(jù)中的共線性問題.使用GridSearchCV函數(shù)來計算出Lasso回歸的最優(yōu)參數(shù),經(jīng)過多次篩選,Lasso的alpha參數(shù)的最優(yōu)值為826 812.5.隨后使用Lasso回歸篩選出系數(shù)不為0的特征作為對上市公司實施高送轉(zhuǎn)方案有較大影響的因子.

        影響因子共93個,分別為[‘固定資產(chǎn)合計’, ‘無息非流動負債’, ‘帶息流動負債’, ‘帶息債務’, ‘凈債務’, ‘有形凈資產(chǎn)’, ‘營運資本’, ‘凈營運資本’,‘投入資本’, ‘毛利’, ‘經(jīng)營活動凈收益’, ‘價值變動凈收益’, ‘息稅前利潤’, ‘息稅折舊攤銷前利潤’, ‘息前稅后利潤’,‘扣除非經(jīng)常性損益后的歸屬于上市公司股東的凈利潤’, ‘企業(yè)自由現(xiàn)金流量’, ‘股權自由現(xiàn)金流量’, ‘折舊與攤銷’,‘歸屬于母公司的股東權益/帶息債務’, ‘貨幣資金’, ‘應收賬款’, ‘預付款項’, ‘應收利息’, ‘其他應收款’, ‘存貨’,‘其他流動資產(chǎn)’, ‘流動資產(chǎn)合計’, ‘可供出售金融資產(chǎn)’, ‘長期股權投資’, ‘投資性房地產(chǎn)’, ‘固定資產(chǎn)’, ‘在建工程’,‘無形資產(chǎn)’, ‘商譽’, ‘遞延所得稅資產(chǎn)’, ‘其他非流動資產(chǎn)’, ‘非流動資產(chǎn)合計’, ‘資產(chǎn)總計’, ‘短期借款’, ‘應付票據(jù)’,‘應付賬款’, ‘預收款項’, ‘應交稅費’, ‘應付利息’, ‘其他應付款’, ‘一年內(nèi)到期的非流動負債’, ‘其他流動負債’,‘流動負債合計’, ‘長期借款’, ‘遞延收益’, ‘非流動負債合計’, ‘負債合計’, ‘實收資本(或股本)’, ‘資本公積’,‘未分配利潤’, ‘歸屬于母公司所有者權益合計’, ‘少數(shù)股東權益’, ‘所有者權益(或股東權益)合計’,‘負債和所有者權益(或股東權益)總計’, ‘銷售商品、提供勞務收到的現(xiàn)金’, ‘收到的稅費返還’, ‘收到其他與經(jīng)營活動有關的現(xiàn)金’,‘經(jīng)營活動現(xiàn)金流入小計’, ‘購買商品、接受勞務支付的現(xiàn)金’, ‘支付的各項稅費’, ‘支付其他與經(jīng)營活動有關的現(xiàn)金’,‘經(jīng)營活動現(xiàn)金流出小計’, ‘經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額’, ‘收回投資收到的現(xiàn)金’, ‘取得投資收益收到的現(xiàn)金’,‘處置固定資產(chǎn)、無形資產(chǎn)和其他長期資產(chǎn)收回的現(xiàn)金凈額’, ‘投資活動現(xiàn)金流入小計’, ‘購建固定資產(chǎn)、無形資產(chǎn)和其他長期資產(chǎn)支付的現(xiàn)金’,‘投資支付的現(xiàn)金’, ‘支付其他與投資活動有關的現(xiàn)金’, ‘投資活動現(xiàn)金流出小計’, ‘吸收投資收到的現(xiàn)金’, ‘取得借款收到的現(xiàn)金’,‘收到其他與籌資活動有關的現(xiàn)金’, ‘籌資活動現(xiàn)金流入小計’, ‘償還債務支付的現(xiàn)金’, ‘支付其他與籌資活動有關的現(xiàn)金’,‘籌資活動現(xiàn)金流出小計’, ‘籌資活動產(chǎn)生的現(xiàn)金流量凈額’, ‘匯率變動對現(xiàn)金及現(xiàn)金等價物的影響’, ‘現(xiàn)金及現(xiàn)金等價物凈增加額’,‘加:期初現(xiàn)金及現(xiàn)金等價物余額’, ‘期末現(xiàn)金及現(xiàn)金等價物余額’, ‘成交金額’, ‘全部投入資本’, ‘流通市值’, ‘總市值’].

        隨后使用PCA主成分分析將數(shù)據(jù)降維至50維.

        2.3.6 數(shù)據(jù)標準化

        1)標準差標準化

        使用標準差標準化對數(shù)據(jù)進行標準化處理.標準差標準化通過均值與方差對滿足正態(tài)分布的數(shù)據(jù)進行處理,得到符合標準正態(tài)分布的數(shù)據(jù),標準差標準化公式如式(9)所示.

        X_st=(X-Xmean)/std

        (9)

        它表示的是原始值與均值的差值和標準差的比值,作為一個相對量,擁有去除量綱的功能.經(jīng)過標準差標準化之后,數(shù)據(jù)的均值為0,標準差為1.均值為0后,數(shù)據(jù)分布以0為中心左右分布,即去中心化.方差為1對許多的算法更加有利,但是其缺點在于假如原始數(shù)據(jù)沒有呈高斯分布,標準化的數(shù)據(jù)分布效果并不好.去中心化為進一步處理數(shù)據(jù)和機器學習打下基礎,標準化更適合噪聲較大的數(shù)據(jù)場景.數(shù)據(jù)標準化還可以去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或者量級的指標可以等同的參與計算.

        2)離差標準化

        離差標準化指的是用原值減去該特征的最小值,然后除以該特征的極差.數(shù)據(jù)經(jīng)過離差標準化的處理之后特征值范圍將維持在[0,1]區(qū)間之間,與其他的標準化方式相同,它同樣可以消除量綱,使得數(shù)據(jù)變?yōu)榧償?shù)據(jù),同時還可以消除變異大小因素的影響.有一些關系系數(shù)(例如絕對值指數(shù)尺度)在定義時要求對數(shù)據(jù)進行離差標準化,但有些關系系數(shù)的計算公式卻沒有這樣要求,當選用要求進行離差標準化的算法時,先對數(shù)據(jù)進行標準化便是很有必要的.公式如下:

        X_st=(X-Xmin)/(Xmax-Xmin)

        (10)

        本研究選用標準差標準化對數(shù)據(jù)進行標準化處理.

        3 高送轉(zhuǎn)預測和模型評估

        3.1 高送轉(zhuǎn)預測使用邏輯回歸算法、支持向量機(SVM)算法、XGBoost算法分別對下一年是否發(fā)生高轉(zhuǎn)送進行預測,并在測試集上統(tǒng)計其查準率,查全率和F1分數(shù).圖表分別如下:

        表2 邏輯回歸模型的評估數(shù)據(jù)

        表3 SVM模型的評估數(shù)據(jù)

        圖2 邏輯回歸模型預測結果圖

        圖3 SVM模型預測結果圖

        圖4 XGBoost模型預測結果圖

        3.2 模型比較對三個算法的度量值進行比較發(fā)現(xiàn),邏輯回歸算法對于下一年高送轉(zhuǎn)股票的查準率較高,達到0.85,但查全率過低僅有0.02;XGBoost算法的綜合得分更高,在下一年高送轉(zhuǎn)股票的查全率上優(yōu)勢較大,達到了0.24,但其查準率相對較低僅有0.75;SVM支持向量機算法沒有明顯優(yōu)勢.

        表4 XGBoost算法的評估數(shù)據(jù)

        因此,若想對高送轉(zhuǎn)股票進行少量投資,邏輯回歸算法的準確率更高,具有一定的優(yōu)勢,發(fā)生投資到不會發(fā)生高送轉(zhuǎn)的股票的錯誤的概率較小.但若想對大量股票進行投資,XGBoost算法的綜合能力更好,它犧牲了一點的查準率,但查全率達到了0.24,因此會有更多的股票以供選擇.

        圖5 模型對比圖

        4 結束語

        在對日數(shù)據(jù)的處理上本文中采用了取每年第12月的日數(shù)據(jù)的平均值的方法,是否有更好的方法可以更好地利用日數(shù)據(jù)從而獲得更多的信息值得再研究.

        對‘行業(yè)’屬性使用獨熱編碼雖然做到了離散數(shù)據(jù)的數(shù)值化,并且沒有摻雜冗余信息,但所獲得的多維數(shù)據(jù)是一個稀疏矩陣,在特征選擇與最后的模型訓練的過程中行業(yè)數(shù)據(jù)并沒有起到太大的作用,因此下一步工作要繼續(xù)研究是否有更好的方式處理‘所屬行業(yè)’數(shù)據(jù).

        使用Lasso和PCA進行特征選擇和提取解決的大部分的共線性問題卻沒有解決全部的共線性問題,并且在實驗后發(fā)現(xiàn),特征提取前后對模型進行訓練,模型的性能提升并不明顯,因此特征選擇和提取的方式在后續(xù)的工作當中可以繼續(xù)優(yōu)化.

        在分別使用邏輯回歸、SVM、XGBoost模型對高送轉(zhuǎn)進行預測之后,可以得出結論:XGBoost模型的綜合表現(xiàn)更佳,但邏輯回歸模型在發(fā)生高送轉(zhuǎn)上的查準率更高.

        模型評估上,對下一年是否高送轉(zhuǎn)的預測,投資者更加關心的是確保投資的股票會發(fā)生高送轉(zhuǎn),而不是盡可能的找出所有發(fā)生高送轉(zhuǎn)的股票,因此適量的舍棄查全率追求查準率或許是一種更好的選擇.

        猜你喜歡
        現(xiàn)金標準化預測
        無可預測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預測卷(A卷)
        選修2-2期中考試預測卷(B卷)
        標準化簡述
        強化現(xiàn)金預算 提高資金效益
        中國外匯(2019年18期)2019-11-25 01:41:50
        “刷新聞賺現(xiàn)金”App的收割之路
        只“普”不“惠”的現(xiàn)金貸
        商周刊(2017年23期)2017-11-24 03:23:53
        標準化是綜合交通運輸?shù)谋U稀庾x《交通運輸標準化體系》
        中國公路(2017年9期)2017-07-25 13:26:38
        不必預測未來,只需把握現(xiàn)在
        論汽車維修診斷標準化(上)
        中国内射xxxx6981少妇| 自拍偷拍一区二区三区四区| 日本美女性亚洲精品黄色| 免费人成视频网站在在线| 色www永久免费视频| 天天爽天天爽天天爽| 亚洲色www无码| 日本一区二区三区一级片| 欧美高清视频手机在在线| 久久午夜夜伦鲁鲁片免费无码 | 国产午夜视频免费观看| 国产av精品一区二区三区不卡 | 国产乱码精品一区二区三区久久 | 变态 另类 欧美 大码 日韩| 人妻无码一区二区在线影院| 久久久亚洲精品蜜臀av| 色婷婷精品久久二区二区蜜桃| 十八18禁国产精品www| 国产精品偷伦视频免费手机播放| 亚洲高清自偷揄拍自拍| 日韩精品熟女中文字幕| 青楼妓女禁脔道具调教sm| 色综合久久综合欧美综合图片| 亚洲全国最大的人成网站| 色大全全免费网站久久| 日本熟妇色xxxxx欧美老妇| 欧美日本道免费二区三区| 老熟妇嗷嗷叫91九色| 天天做天天摸天天爽天天爱| 99精品视频在线观看免费| 国产成人精品视频网站| 国产又色又爽又黄的| 激情内射人妻1区2区3区| 国产免费一区二区三区精品视频| 国内精品久久久久久久亚洲 | 精品久久无码中文字幕| 91久久精品人妻一区二区| 中文字幕乱码熟女人妻在线| 97人人模人人爽人人喊电影| 人妻无码AⅤ不卡中文字幕| 美女被内射很爽的视频网站|