摘要:大數據挖掘是當今各方面研究的一個趨勢,隨著人們生活水平的提高,股票被越來越多的人當做投資工具,但眾所周知,股票具有高風險的特性,本文利用已有數據通過實證研究來預測股票未來的買入情況。
關鍵字:大數據,股票,預測
一、 背景介紹
股票是一種有價證券, 是股份公司在籌集資本時向出資人公開或私下發(fā)行的、用 以證明出資人的股本身份和權利,并根據持有人所持有的股份數享有權益和承擔 義務的憑證。股票代表著其持有人(股東)對股份公司的所有權,每一股同類型 股票所代表的公司所有權是相等的,即“同股同權”。股票可以公開上市,也可以 不上市。在股票市場上,股票也是投資和投機的對象。對股票的某些投機炒作行 為,例如無貨沽空,可以造成金融市場的動蕩。
開盤價又稱開市價,是指某種證券在證券交易所每個交易日開市后的第一筆 買賣成交價格。世界上大多數證券交易所都采用成交額最大原則來確定開盤價。
收盤價是指某種證券在證券交易所一天交易活動結束前最后一筆交易的成 交價格。如當日沒有成交,則采用最近一次的成交價格作為收盤價,因為收盤價 是當日行情的標準,又是下一個交易日開盤價的依據,可據以預測未來證券市場 行情;所以投資者對行情分析時,一般采用收盤價作為計算依據。
最高價指某種證券在每個交易日從開始到收市的交易過程中所產生的最高價。
最低價指某種證券在每個交易日從開始到收市的交易過程中所產生的最低價。
成交量是指一個時間單位內對某項交易成交的數量。一般情況下,成交量大 且價格上漲的股票,趨勢向好。成交量持續(xù)低迷時,一般出現(xiàn)在熊市或股票整理 階段,市場交投不活躍。成交量是判斷股票走勢的重要依據,對分析主力行為提 供了重要的依據。
K 線圖這種圖表源處于日本德川幕府時代(1603~1867 年),被當時日本米 市的商人用來記錄米市的行情與價格波動,后因其細膩獨到的標畫方式而被引入 到股市及期貨市場。通過 K 線圖,我們能夠把每日或某一周期的市況現(xiàn)完全記錄 下來,股價經過一段時間的盤檔后,在圖上即形成一種特殊區(qū)域或形態(tài),不同的 形態(tài)顯示出不同意義。插入線、抱線和利好刺激線這三種 K 線組合是最常見的經 典見底形態(tài)。
二、 數據處理
數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的 數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的 過程。隨著信息 技術的高速發(fā)展,人們積累的數據量急劇增長,動輒以TB計, 如何從海量的數據中提取有用的知識成為當務之急。數據挖掘就是為順應這種需 要應運而生發(fā)展起來的數據處理技術。是知識發(fā)現(xiàn)(Knowledge Discovery in Database)的關鍵步驟。
三、 數據分析
根據上述的日線信息,可計算出該股票在7日、14日、28日和56日,不同時間段內的統(tǒng)計信息,如下表所示。
表2:預測日前的各時間段統(tǒng)計信息
根據上述各時間段的統(tǒng)計信息,可根據模型的計算規(guī)則,并將結果歸一化后分別計算出6個神經網絡的輸入變量。將輸入變量代入神經網絡中經過計算,可得到神經網絡的輸出變量。
四、 分析結論
根據各神經網絡的輸出變量值,可按照預測得分的計算規(guī)則得到最終的預測得分為60.048。由于該股票在2016年8月3日收盤后發(fā)出買入信號,參照2016年8月3日后28天內的日線信息,發(fā)出買入信號后的第13個自然日時,最大累計漲幅達到28.99%,符合最大漲幅超過5%的預期。
本模型中的各神經網絡在訓練時將誤差可接受的范圍設置為0.1%。在2006年1月至2016年1月的訓練樣本中工發(fā)出買入信號10050次,其中有8427次在發(fā)出買入信號起28天內出現(xiàn)5%以上的漲幅,準確率為83.85%。訓練結果如下表所示。
在2016年2月至2017年1月的測試樣本中共發(fā)出買入信號18934次,其中有17631次在發(fā)出買入信號起28天內出現(xiàn)5%以上的漲幅,準確率為93.12%。測試結果如下表所示。
作者簡介:張琪琪(1991—),女,山西臨汾人,山西財經大學2015(財政學)學術碩士研究生,研究方向:財政理論與政策.